如何将平面文件(非分隔文件)加载到 HBase?

Posted

技术标签:

【中文标题】如何将平面文件(非分隔文件)加载到 HBase?【英文标题】:How to load a flat file(not delimited file) into HBase? 【发布时间】:2016-04-18 19:30:45 【问题描述】:

我对 hbase 很陌生,我有一个平面文件(不是分隔文件),我想将它加载到单个 hbase 表中。

这是我文件中一行的预览:

0107E07201512310015071C11100747012015123100

我知道例如,从位置 1 到 7 是 id,从位置 7 到 15 是日期....

问题是如何构建与我的文件对应的架构,或者是否有办法将其转换为分隔文件或使用 jaql 读取此类文件,因为我正在使用 Infosphere BigInsights。

任何帮助将不胜感激。

提前致谢。

【问题讨论】:

How to load a flat file(not delimited file) into HBase?的可能重复 【参考方案1】:

我对 Hbase 一无所知,但这应该会有所帮助。 http://www.cloudera.com/documentation/enterprise/5-3-x/topics/admin_hbase_import.html

顺便说一句。永远不要试图知道它是如何在文件中分隔的,只需用 \t 或 ;或 |很清楚的事情。

【讨论】:

以上是关于如何将平面文件(非分隔文件)加载到 HBase?的主要内容,如果未能解决你的问题,请参考以下文章

如何将平面文件加载到 Oracle 数据库中

需要将一个 150GB 的 SQL Server 表导出到多个管道分隔的平面文件中

将平面数据文件从边缘设备摄取到 HDFS 并进行处理

将平面文件中的数据导入sql时如何选择列范围,如果文件中的数据没有用逗号和分号等任何标签分隔

如何使用 shell 脚本加载 Hbase 表

使用 Apache Pig 将数据加载到 Hbase 表时,如何排除 csv 或文本文件中没有数据(只有空格)的列?