sqoop的数据抽取过程记录
Posted 呢喃的歌声
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sqoop的数据抽取过程记录相关的知识,希望对你有一定的参考价值。
今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟 开了两个map。模型是oracle----hdfs(hive)。以前只抽过几十万级别,所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了overwirte就是覆盖,没加这个关键字默认是追加。每次追加hdfs的文件会被转移到hive的 hdfs目录下。
以上是关于sqoop的数据抽取过程记录的主要内容,如果未能解决你的问题,请参考以下文章
记录sqoop同步失败问题解决过程,过程真的是很崎岖。(1月6日解决)