spark-sql(spark sql cli)客户端集成hive

Posted ChavinKing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark-sql(spark sql cli)客户端集成hive相关的知识,希望对你有一定的参考价值。

1、安装hadoop集群
参考:http://www.cnblogs.com/wcwen1990/p/6739151.html

2、安装hive
参考:http://www.cnblogs.com/wcwen1990/p/6757240.html

3、安装配置spark
编译spark:http://www.cnblogs.com/wcwen1990/p/7688027.html
部署参考:http://www.cnblogs.com/wcwen1990/p/6889521.html

4、spark-sql集成hive

拷贝hdfs-site.xml、hive-site.xml配置文件到spark conf/目录下:

$ cp /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf/hive-site.xml .
$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/hdfs-site.xml .

5、启动spark-sql

$ bin/spark-sql  --master local[2]

启动之后可以在shell客户端进行交互式HQL访问hive数据库了。

6、测试:

spark-sql (default)> show databases;
... ...
result
chavin
default
... ...

spark-sql (default)> select * from chavin.dept;
... ...
deptno    dname    loc
10    ACCOUNTING    NEW YORK
20    RESEARCH    DALLAS
30    SALES    CHICAGO
40    OPERATIONS    BOSTON
Time taken: 0.378 seconds, Fetched 4 row(s)
... ...

以上是关于spark-sql(spark sql cli)客户端集成hive的主要内容,如果未能解决你的问题,请参考以下文章

使用 spark-sql cli 将 csv 数据直接加载到 parquet 表中

Spark-sql CLI 在运行查询时仅使用 1 个执行程序

大数据 - spark-sql 常用命令

spark-sql 与 spark-shell REPL 中的 Spark SQL 性能差异

基于spark1.4的Spark-Sql

在 HIVE 上插入 Spark-SQL 插件