如何将 CSV 文件中的数据插入 Hive?

Posted

技术标签:

【中文标题】如何将 CSV 文件中的数据插入 Hive?【英文标题】:How to insert data from a CSV file into Hive? 【发布时间】:2018-10-02 18:54:44 【问题描述】:

我已经创建了一个表,需要从 csv 文件中插入数据。

【问题讨论】:

你能提供一些你已经尝试过的例子吗? 我已经创建了这个表作为例子:create table table_test(name string, last_name string) 行格式分隔字段,以'结尾,'以'\n'结尾的行存储为文本文件位置' /数据存储/文件/测试/';但我需要的是 INSERT INTO table_test(name, last_name) VALUES....所以在值中我需要从 CSV 文件中插入数据而不必创建新表 【参考方案1】:

例如,假设您有一个包含 3 列的表,例如员工表。

第一步:

hive> CREATE TABLE employee (id int, name string, salary double) row format delimited fields terminated by ',';

第二步:

hive> LOAD DATA LOCAL INPATH '/home/employee.csv' OVERWRITE INTO TABLE employee;

第三步:

hive> select * from employee;

【讨论】:

谢谢它的工作,但我想插入而不是覆盖......我该怎么做? 省略OVERWRITE【参考方案2】:

如果您创建带有位置的外部表并将 CSV 上传到该位置目录,则可以查询它。

否则可以使用LOAD DATA命令

【讨论】:

【参考方案3】:

您可以使用下面给出的命令和您的 csv 文件的位置来创建表格:

CREATE EXTERNAL TABLE base_table (
 ID int, 
 Name string,
 Contact_No bigint,
 Time_stamp string
 )
 ROW FORMAT DELIMITED
 FIELDS TERMINATED BY ','
 LOCATION '/user/hive/base_table';

【讨论】:

以上是关于如何将 CSV 文件中的数据插入 Hive?的主要内容,如果未能解决你的问题,请参考以下文章

如何将excel中的数据导入hive仓库中

如何在使用 EMR/Hive 将数据从 S3 导入 DynamoDB 时处理包含在引号 (CSV) 中的字段

如何使用 pandas.read_csv 将 CSV 文件中的数据插入数据框?

如何将 Hive 表导出为 CSV 文件?

Hive:如何分解嵌入在 CSV 文件中的 JSON 列?

如何在 csv 文件中忽略带引号的换行符以创建 Hive 外部表?