有没有办法使用 Ibis (impala) 遍历表行

Posted

技术标签:

【中文标题】有没有办法使用 Ibis (impala) 遍历表行【英文标题】:Is there a way to iterate over table rows using Ibis (impala) 【发布时间】:2021-03-30 03:09:31 【问题描述】:

我有一个相当大的 Ibis TableExpr,我想对其行进行迭代以生成专门的文件输出(FASTA 核苷酸序列)。有没有办法用 Ibis 做到这一点,或者我应该调用 execute 来创建一个可以调用 iterrows 的 pandas DataFrame?

我在API 或教程中找不到任何内容。

【问题讨论】:

【参考方案1】:

你应该像你说的那样遍历 pandas DataFrame。

或者你也应该能够得到后端生成的 Impyla 游标,它调用比.execute() 更低级别的函数。但是当我们发布 Ibis 2.0 时,这些功能可能会发生变化,因此您的代码可能会中断。

如果您对此感兴趣,很高兴收到反馈。您可以在项目 GitHub 中打开一个问题。

【讨论】:

以上是关于有没有办法使用 Ibis (impala) 遍历表行的主要内容,如果未能解决你的问题,请参考以下文章

ibis ImpalaTable 到 pyspark 数据框

通过 Impala 的 Parquet 压缩类型

当列数不相等而不将每个列定义为 NuLL 时,有没有办法在 Impala SQL 中合并两个表

Ibis Python 帮助:ValueError:找到多个后端

Impala 外部表读取未压缩文件但具有名称 (*.csv.gz)

Cloudera Impala INVALIDATE METADATA 表列表