如何添加新文件以激发结构化流数据帧
Posted
技术标签:
【中文标题】如何添加新文件以激发结构化流数据帧【英文标题】:How to add new files to spark structured streaming dataframe 【发布时间】:2018-01-10 20:30:00 【问题描述】:我在 linux 服务器的文件夹中获取每日文件,我应该如何将这些文件添加到我的 spark 结构化流数据帧中? (增量更新)
【问题讨论】:
【参考方案1】:你读过文件吗?
文件源 - 将写入目录中的文件作为数据流读取。支持的文件格式为文本、csv、json、parquet。请参阅 DataStreamReader 接口的文档以获取最新列表以及每种文件格式支持的选项。请注意,文件必须以原子方式放置在给定目录中,在大多数文件系统中,这可以通过文件移动操作来实现。
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources
【讨论】:
以上是关于如何添加新文件以激发结构化流数据帧的主要内容,如果未能解决你的问题,请参考以下文章
如何打印流数据帧的数据源选项(例如startingOffsets)?
使用 Pyspark 从结构化流数据帧构建 Spark ML 管道模型