如何在hadoop环境中创建的表中插入多条记录

Posted

技术标签:

【中文标题】如何在hadoop环境中创建的表中插入多条记录【英文标题】:How to insert multiple records inside a table created in a hadoop environment 【发布时间】:2016-08-23 15:49:47 【问题描述】:

我有 2200 万条记录作为没有标题的逗号分隔文件。我还有一个单独的文件,其中包括所有标题,即表的架构。我正在使用 cloudera 的 Hadoop 发行版,并希望专门使用 Impala 对数据进行基本聚合。为此,我首先使用 Impala 和我拥有的头文件创建了一个表。我现在想在这个表中插入这 2200 万条记录。我可以使用正常的 SQL 插入操作,但这将是一项繁琐的任务。有没有一种方法可以更有效地直接插入这些记录?

【问题讨论】:

【参考方案1】:

我想您已经使用标题模式创建了表。如果您将表创建为外部表并将位置作为文件位置,这将很容易。因此您可以避免插入任务。参考this

【讨论】:

以上是关于如何在hadoop环境中创建的表中插入多条记录的主要内容,如果未能解决你的问题,请参考以下文章

无法通过 Unix Shell 终端中的 Spark 查看在配置单元中创建的表

我需要从 mysql 存储过程连接到 Access 数据库来更新我已经在 mysql db 中创建的表

在 Lightswitch 中创建的不需要的表

在 Snappy shell 中创建的表不会显示在 JDBC 或 Pulse 中

Hibernate 看不到 HSQLDB 中创建的表

仅获取今天在 laravel 中创建的记录