如何将 CSV 文件中的数据插入 Hive?
Posted
技术标签:
【中文标题】如何将 CSV 文件中的数据插入 Hive?【英文标题】:How to insert data from a CSV file into Hive? 【发布时间】:2018-10-02 18:54:44 【问题描述】:我已经创建了一个表,需要从 csv 文件中插入数据。
【问题讨论】:
你能提供一些你已经尝试过的例子吗? 我已经创建了这个表作为例子:create table table_test(name string, last_name string) 行格式分隔字段,以'结尾,'以'\n'结尾的行存储为文本文件位置' /数据存储/文件/测试/';但我需要的是 INSERT INTO table_test(name, last_name) VALUES....所以在值中我需要从 CSV 文件中插入数据而不必创建新表 【参考方案1】:例如,假设您有一个包含 3 列的表,例如员工表。
第一步:
hive> CREATE TABLE employee (id int, name string, salary double) row format delimited fields terminated by ',';
第二步:
hive> LOAD DATA LOCAL INPATH '/home/employee.csv' OVERWRITE INTO TABLE employee;
第三步:
hive> select * from employee;
【讨论】:
谢谢它的工作,但我想插入而不是覆盖......我该怎么做? 省略OVERWRITE
【参考方案2】:
如果您创建带有位置的外部表并将 CSV 上传到该位置目录,则可以查询它。
否则可以使用LOAD DATA
命令
【讨论】:
【参考方案3】:您可以使用下面给出的命令和您的 csv 文件的位置来创建表格:
CREATE EXTERNAL TABLE base_table (
ID int,
Name string,
Contact_No bigint,
Time_stamp string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/user/hive/base_table';
【讨论】:
以上是关于如何将 CSV 文件中的数据插入 Hive?的主要内容,如果未能解决你的问题,请参考以下文章
如何在使用 EMR/Hive 将数据从 S3 导入 DynamoDB 时处理包含在引号 (CSV) 中的字段