如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中?

Posted

技术标签:

【中文标题】如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中?【英文标题】:How to load big datasets like million song dataset into BigData HDFS or Hbase or Hive? 【发布时间】:2015-10-09 17:06:01 【问题描述】:

我已经下载了大约 2GB 的百万歌曲数据集的子集。但是,数据被分解为文件夹和子文件夹。在子文件夹中,它们都是几种“H5 文件”格式。我知道可以使用 Python 读取它。但我不知道如何提取并加载到 HDFS 中,这样我就可以在 Pig 中运行一些数据分析。 我是否将它们提取为 CSV 并加载到 Hbase 或 Hive ?如果有人能指出我正确的资源,那将会有所帮助。

【问题讨论】:

【参考方案1】:

如果它已经是CSV或linux文件系统上的任何格式,PIG可以理解,只需执行hadoop fs -copyFromLocal to

如果您想在 HDFS 上使用 Python 读取/处理原始 H5 文件格式,请查看 hadoop-streaming (map/reduce)

Python 可以在一个不错的 linux 系统上处理 2GB - 不确定您是否需要 hadoop。

【讨论】:

hadoop fs -copyFromLocal your_files HDFS_Path 我主要想知道如何转换分层数据格式(hdf5)文件并将其加载到hadoop fs。由于数据位于包含元数据信息的多个文件夹中,是否有任何简单的方法可以将其加载到配置单元表中。【参考方案2】:

不要将这么多的小文件加载到 HDFS 中。 Hadoop 不能很好地处理大量小文件。每个小文件都会产生开销,因为块大小(通常为 64MB)要大得多。

我想自己做,所以我正在考虑解决方案。百万歌曲数据集文件不超过 1MB。我的方法是在导入 HDFS 之前以某种方式聚合数据。

来自 Cloudera 的博客文章“小文件问题”可能会有所启发。

【讨论】:

以上是关于如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中?的主要内容,如果未能解决你的问题,请参考以下文章

如何将百万美元html中的多个参数传递给百里香方言处理器

神经网络视频/图像渲染相关经典论文项目数据集等资源整理分享

MongoDB数据库 : 管道,用户管理,副本集等

seaborn的调色板刻度边框标签数据集等的一些解释

seaborn的调色板刻度边框标签数据集等的一些解释

oracle to mysql