使用 pyspark 连接配置单元表

Posted

技术标签:

【中文标题】使用 pyspark 连接配置单元表【英文标题】:Using pyspark to connect to hive tables 【发布时间】:2016-03-18 05:48:35 【问题描述】:

我正在尝试从 pyspark 查询 Hive 表。

我正在使用以下语句:

from pyspark.sql import HiveContext    
HiveContext(sc).sql('from `dbname.tableName` select `*`')

我对 hadoop 系统非常陌生。 需要了解从 hive 表中获取一些数据并将其存储到数据框中以进一步编写程序的正确方法是什么。

【问题讨论】:

【参考方案1】:

sqlCtx.sql 可以访问 hive 表。您可以按照以下方式使用它。

my_dataframe = sqlCtx.sql("Select * from employees")

my_dataframe.show()

【讨论】:

以上是关于使用 pyspark 连接配置单元表的主要内容,如果未能解决你的问题,请参考以下文章

如何使用其模式从 Pyspark 数据框创建配置单元表?

PySpark 无法通过 sparkContext/hiveContext 读取 Hive ORC 事务表?我们可以使用 Pyspark 更新/删除配置单元表数据吗?

PySpark 单元测试方法

如何使用 pyspark 将 null 分配给配置单元表列

找不到pyspark数据框保存到配置单元表

pyspark 代码将 dynamodb 表复制到配置单元问题:不允许操作