有没有办法读取除python apache beam中定义的文件列表之外的所有文件?

Posted

技术标签:

【中文标题】有没有办法读取除python apache beam中定义的文件列表之外的所有文件?【英文标题】:Is there a way to read all files excluding a defined list of files in python apache beam? 【发布时间】:2017-01-28 20:30:39 【问题描述】:

我的用例是我在不断更新新文件的存储桶中对文件进行批处理。我不想处理已经处理过的 csv 文件。

有没有办法做到这一点?

我想到的一个潜在解决方案是拥有一个文本文件,该文件维护一个已处理文件的列表,然后读取除已处理列表中的文件之外的所有 csv 文件。那可能吗?

或者是否可以读取特定文件的列表?

【问题讨论】:

从 2.2 开始的 Beam Java 支持此功能 - 请参阅 ***.com/questions/47896488/… 【参考方案1】:

没有一种好的内置方法可以做到这一点,但是您可以在管道的一个阶段按照您的建议计算要读取的文件列表,使用将文件名映射到文件内容的 DoFn .有关如何编写此 DoFn 的信息,请参阅 Reading multiple .gz file and identifying which row belongs to which file

【讨论】:

以上是关于有没有办法读取除python apache beam中定义的文件列表之外的所有文件?的主要内容,如果未能解决你的问题,请参考以下文章

无法使用 Apache Beam(Python SDK)读取 Pub/Sub 消息

我们如何使用 python sdk 在 Apache Beam 中读取带有附件的 CSV 文件?

有没有办法删除Python中字符串中除字母之外的所有字符?

有没有办法用 Python 读取 Linux 桌面通知?

如何从Tkinter,Python中的Text小部件中移除焦点

有没有办法使用 Python Pandas 读取所有行直到遇到空行