如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是不是可以使 HDFS 路径动态化?

Posted

技术标签:

【中文标题】如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是不是可以使 HDFS 路径动态化?【英文标题】:How do I partition data from a txt/csv file by year and month using Flume? Is is possible to make the HDFS path dynamic?如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是否可以使 HDFS 路径动态化? 【发布时间】:2022-01-05 21:34:33 【问题描述】:

我想配置一个水槽流,以便它以 CSV 文件作为源,检查数据,并在 HDFS 中按年/月将每行数据动态分隔到文件夹中。这可能吗?

【问题讨论】:

【参考方案1】:

我可能建议您改用Nifi。我觉得它是 Flume 的天然替代品。

话虽如此,您似乎可能要考虑使用spooling directory source 和hive sink(而不是hdfs)。配置单元分区(年/月分区)将使您能够以您建议的方式获取数据。

【讨论】:

以上是关于如何使用 Flume 按年和月对 txt/csv 文件中的数据进行分区?是不是可以使 HDFS 路径动态化?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Pandas 中按年和月加入 2 个数据框?

如何在oracle sql developer中按年和月分组获取当前财政年度的数据?

在 MongoDB 中按年和月聚合查询

我需要从结构为 yyyyMMddHHmmss 20170227141500 的时间戳中按年和月分组

按年和月分组并获得一个月的最小值,日期

python urllib Python模块:按年和月分列的ARIN PPML档案