如何添加新文件以激发结构化流数据帧

Posted

技术标签:

【中文标题】如何添加新文件以激发结构化流数据帧【英文标题】:How to add new files to spark structured streaming dataframe 【发布时间】:2018-01-10 20:30:00 【问题描述】:

我在 linux 服务器的文件夹中获取每日文件,我应该如何将这些文件添加到我的 spark 结构化流数据帧中? (增量更新)

【问题讨论】:

【参考方案1】:

你读过文件吗?

文件源 - 将写入目录中的文件作为数据流读取。支持的文件格式为文本、csv、json、parquet。请参阅 DataStreamReader 接口的文档以获取最新列表以及每种文件格式支持的选项。请注意,文件必须以原子方式放置在给定目录中,在大多数文件系统中,这可以通过文件移动操作来实现。

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources

【讨论】:

以上是关于如何添加新文件以激发结构化流数据帧的主要内容,如果未能解决你的问题,请参考以下文章

如何打印流数据帧的数据源选项(例如startingOffsets)?

如何仅从文件中处理新记录?

使用 Pyspark 从结构化流数据帧构建 Spark ML 管道模型

将spark结构化流数据帧转换为JSON

kafka 到 pyspark 结构化流,将 json 解析为数据帧

在结构化流中将数据帧传递给 UDF 时出错