如何添加新文件以激发结构化流数据帧

Posted 2023-04-18

技术标签:

【中文标题】如何添加新文件以激发结构化流数据帧【英文标题】：How to add new files to spark structured streaming dataframe 【发布时间】：2018-01-10 20:30:00 【问题描述】：

我在 linux 服务器的文件夹中获取每日文件，我应该如何将这些文件添加到我的 spark 结构化流数据帧中？（增量更新）

【问题讨论】：

【参考方案1】：

你读过文件吗？

文件源 - 将写入目录中的文件作为数据流读取。支持的文件格式为文本、csv、json、parquet。请参阅 DataStreamReader 接口的文档以获取最新列表以及每种文件格式支持的选项。请注意，文件必须以原子方式放置在给定目录中，在大多数文件系统中，这可以通过文件移动操作来实现。

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources

【讨论】：

以上是关于如何添加新文件以激发结构化流数据帧的主要内容，如果未能解决你的问题，请参考以下文章