如何在hadoop环境中创建的表中插入多条记录
Posted
技术标签:
【中文标题】如何在hadoop环境中创建的表中插入多条记录【英文标题】:How to insert multiple records inside a table created in a hadoop environment 【发布时间】:2016-08-23 15:49:47 【问题描述】:我有 2200 万条记录作为没有标题的逗号分隔文件。我还有一个单独的文件,其中包括所有标题,即表的架构。我正在使用 cloudera 的 Hadoop 发行版,并希望专门使用 Impala 对数据进行基本聚合。为此,我首先使用 Impala 和我拥有的头文件创建了一个表。我现在想在这个表中插入这 2200 万条记录。我可以使用正常的 SQL 插入操作,但这将是一项繁琐的任务。有没有一种方法可以更有效地直接插入这些记录?
【问题讨论】:
【参考方案1】:我想您已经使用标题模式创建了表。如果您将表创建为外部表并将位置作为文件位置,这将很容易。因此您可以避免插入任务。参考this
【讨论】:
以上是关于如何在hadoop环境中创建的表中插入多条记录的主要内容,如果未能解决你的问题,请参考以下文章
无法通过 Unix Shell 终端中的 Spark 查看在配置单元中创建的表
我需要从 mysql 存储过程连接到 Access 数据库来更新我已经在 mysql db 中创建的表