sqoop的数据抽取过程记录

Posted 2020-09-17 呢喃的歌声

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了sqoop的数据抽取过程记录相关的知识，希望对你有一定的参考价值。

今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟开了两个map。模型是oracle----hdfs（hive）。以前只抽过几十万级别，所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了overwirte就是覆盖，没加这个关键字默认是追加。每次追加hdfs的文件会被转移到hive的 hdfs目录下。

以上是关于sqoop的数据抽取过程记录的主要内容，如果未能解决你的问题，请参考以下文章

记录sqoop同步失败问题解决过程，过程真的是很崎岖。(1月6日解决)

针对sqoop1.99.6 从jdbc向hdfs中抽取数据的几点感想

hadoop2.6.5+sqoop1.4.6环境部署与测试

ETL工具之Kettle开发教程第一节-入门

主体拉链表存储过程

离线数据全量导入与增量导入方案