通过从源 CSV 复制和修改现有记录多次来创建新的 CSV
Posted
技术标签:
【中文标题】通过从源 CSV 复制和修改现有记录多次来创建新的 CSV【英文标题】:creating new CSV by duplicating and modifying existing records multiple times from the source CSV 【发布时间】:2016-06-09 13:51:16 【问题描述】:我是大数据方面的新手,我有一个作业,其中给了我一个 CSV 文件,日期字段是该文件中的字段之一。文件大小只有 10GB,但我需要创建一个更大的文件,大小为 2TB,用于大数据实践目的,通过复制文件的内容但增加日期以使复制的记录与原始记录不同。然后通过 Hive 访问新的 2TB 文件。需要帮助我想如何以最好的方式实现这一点?在hadoop或python中使用pig最好吗?
【问题讨论】:
【参考方案1】:这实际上取决于您想要实现什么以及您使用什么硬件。
如果您需要快速处理此文件并且您实际上拥有真正的 Hadoop 集群(大于 1 或 2 个节点),那么最好的方法可能是编写 Pig 脚本甚至是简单的 Hadoop MapReduce处理此文件的作业。使用这种方法,您将在 HDFS 上获得输出文件,因此可以通过 Hive 轻松访问它。
另一方面,如果您有单台计算机或一些“玩具”Hadoop 集群,使用 Hadoop 处理该文件将比简单地在该文件上执行 python 脚本花费更长的时间。这是因为 Hadoop 处理在数据序列化和通过网络发送数据方面有相当大的开销。当然,在这种情况下,您将不得不处理输入和输出文件可能不适合您自己的 RAM 的事实。
【讨论】:
以上是关于通过从源 CSV 复制和修改现有记录多次来创建新的 CSV的主要内容,如果未能解决你的问题,请参考以下文章