有没有办法读取除python apache beam中定义的文件列表之外的所有文件?
Posted
技术标签:
【中文标题】有没有办法读取除python apache beam中定义的文件列表之外的所有文件?【英文标题】:Is there a way to read all files excluding a defined list of files in python apache beam? 【发布时间】:2017-01-28 20:30:39 【问题描述】:我的用例是我在不断更新新文件的存储桶中对文件进行批处理。我不想处理已经处理过的 csv 文件。
有没有办法做到这一点?
我想到的一个潜在解决方案是拥有一个文本文件,该文件维护一个已处理文件的列表,然后读取除已处理列表中的文件之外的所有 csv 文件。那可能吗?
或者是否可以读取特定文件的列表?
【问题讨论】:
从 2.2 开始的 Beam Java 支持此功能 - 请参阅 ***.com/questions/47896488/… 【参考方案1】:没有一种好的内置方法可以做到这一点,但是您可以在管道的一个阶段按照您的建议计算要读取的文件列表,使用将文件名映射到文件内容的 DoFn .有关如何编写此 DoFn 的信息,请参阅 Reading multiple .gz file and identifying which row belongs to which file
【讨论】:
以上是关于有没有办法读取除python apache beam中定义的文件列表之外的所有文件?的主要内容,如果未能解决你的问题,请参考以下文章
无法使用 Apache Beam(Python SDK)读取 Pub/Sub 消息
我们如何使用 python sdk 在 Apache Beam 中读取带有附件的 CSV 文件?