ibis ImpalaTable 到 pyspark 数据框

Posted

技术标签:

【中文标题】ibis ImpalaTable 到 pyspark 数据框【英文标题】:ibis ImpalaTable to pyspark dataframe 【发布时间】:2021-10-26 05:48:09 【问题描述】:

就我而言,我需要将 impala 数据加载到 spark(pyspark)。 因为我想用spark mllib的FPGrowth

数据在 kudu 中,由 impala 制作。在spark上直接连接kudu被相关部门拒绝。而且我也无法连接cloudera制作的impala jdbc。 所以我最后的选择是

    使用 ibis (https://github.com/ibis-project/ibis) 加载数据 将ImpalaTable 转换为spark 的Dataframe

但我找不到方法。 我想错了吗?

【问题讨论】:

嗨。你有没有这样检查=>medium.com/@sciencecommitter/…但是你首先需要通过impala访问kudu。 @airliquide,我看过那个帖子,我重试了。我终于发现我在数据节点上遇到了防火墙问题。这就是为什么我无法查询 kudu 表(超时错误)而我可以获得信息的原因。非常感谢!!!!!! 【参考方案1】:

以前,this way 不适合我。 我可以获得表的架构,但由于超时而无法查询。

我终于发现了一个问题。 我的问题是由防火墙引起的。 我只打开了主节点的端口,但是我需要打开数据节点的端口。 现在一切都很好。

【讨论】:

以上是关于ibis ImpalaTable 到 pyspark 数据框的主要内容,如果未能解决你的问题,请参考以下文章

有没有办法使用 Ibis (impala) 遍历表行

Ibis Python 帮助:ValueError:找到多个后端

牛客练习赛86 C-取钱

Impala 表中的压缩

NOIP 2018 提高组 货币系统

altiumdesigner仿真时需要全部联线吗