使用 pyspark 连接配置单元表
Posted
技术标签:
【中文标题】使用 pyspark 连接配置单元表【英文标题】:Using pyspark to connect to hive tables 【发布时间】:2016-03-18 05:48:35 【问题描述】:我正在尝试从 pyspark 查询 Hive 表。
我正在使用以下语句:
from pyspark.sql import HiveContext
HiveContext(sc).sql('from `dbname.tableName` select `*`')
我对 hadoop 系统非常陌生。 需要了解从 hive 表中获取一些数据并将其存储到数据框中以进一步编写程序的正确方法是什么。
【问题讨论】:
【参考方案1】:sqlCtx.sql
可以访问 hive 表。您可以按照以下方式使用它。
my_dataframe = sqlCtx.sql("Select * from employees")
my_dataframe.show()
【讨论】:
以上是关于使用 pyspark 连接配置单元表的主要内容,如果未能解决你的问题,请参考以下文章
PySpark 无法通过 sparkContext/hiveContext 读取 Hive ORC 事务表?我们可以使用 Pyspark 更新/删除配置单元表数据吗?