Hive:将hdfs中的gziped CSV作为只读加载到表中

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive:将hdfs中的gziped CSV作为只读加载到表中相关的知识,希望对你有一定的参考价值。

我有一个hdfs文件夹,里面有很多csv.gz,都有相同的架构。我的客户需要通过Hive阅读这些表的内容。

我试图申请https://cwiki.apache.org/confluence/display/Hive/CompressedStorage。但是它会移动文件,而我需要它保留在其初始目录中。

另一个问题是我应该逐个加载每个文件,我宁愿从目录创建一个表而不是单独管理文件。

我根本不掌握Hive。他有可能吗?

答案

是的,这可以通过Hive实现。您可以创建外部表并引用包含HDFS文件的现有gzip位置。应在表创建期间指定数据的模式。

hive> CREATE EXTERNAL TABLE my_data 
      (
        column_1 int,
        column_2 string
      )
      LOCATION 'hdfs:///my_data_folder_with_gzip_files';

以上是关于Hive:将hdfs中的gziped CSV作为只读加载到表中的主要内容,如果未能解决你的问题,请参考以下文章

尝试将 hdfs 中的 csv 文件加载到配置单元表时未选择行

如何将excel中的数据导入hive仓库中

如何周期性把每天日志导入hive

hadoop hdfs csv导入hive表

hadoop hdfs csv导入hive表

如何在 csv 文件中忽略带引号的换行符以创建 Hive 外部表?