如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是不是可以使 HDFS 路径动态化?
Posted
技术标签:
【中文标题】如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是不是可以使 HDFS 路径动态化?【英文标题】:How do I partition data from a txt/csv file by year and month using Flume? Is is possible to make the HDFS path dynamic?如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是否可以使 HDFS 路径动态化? 【发布时间】:2022-01-05 21:34:33 【问题描述】:我想配置一个水槽流,以便它以 CSV 文件作为源,检查数据,并在 HDFS 中按年/月将每行数据动态分隔到文件夹中。这可能吗?
【问题讨论】:
【参考方案1】:我可能建议您改用Nifi。我觉得它是 Flume 的天然替代品。
话虽如此,您似乎可能要考虑使用spooling directory source 和hive sink(而不是hdfs)。配置单元分区(年/月分区)将使您能够以您建议的方式获取数据。
【讨论】:
以上是关于如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是不是可以使 HDFS 路径动态化?的主要内容,如果未能解决你的问题,请参考以下文章
如何在oracle sql developer中按年和月分组获取当前财政年度的数据?