Hive:将hdfs中的gziped CSV作为只读加载到表中
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive:将hdfs中的gziped CSV作为只读加载到表中相关的知识,希望对你有一定的参考价值。
我有一个hdfs文件夹,里面有很多csv.gz,都有相同的架构。我的客户需要通过Hive阅读这些表的内容。
我试图申请https://cwiki.apache.org/confluence/display/Hive/CompressedStorage。但是它会移动文件,而我需要它保留在其初始目录中。
另一个问题是我应该逐个加载每个文件,我宁愿从目录创建一个表而不是单独管理文件。
我根本不掌握Hive。他有可能吗?
答案
是的,这可以通过Hive
实现。您可以创建外部表并引用包含HDFS
文件的现有gzip
位置。应在表创建期间指定数据的模式。
hive> CREATE EXTERNAL TABLE my_data
(
column_1 int,
column_2 string
)
LOCATION 'hdfs:///my_data_folder_with_gzip_files';
以上是关于Hive:将hdfs中的gziped CSV作为只读加载到表中的主要内容,如果未能解决你的问题,请参考以下文章