sqoop 数据抽取到hive语法
Posted 程序工厂
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sqoop 数据抽取到hive语法相关的知识,希望对你有一定的参考价值。
在使用sqoop将数据库中的数据抽取到hive中时创建语法
全量数据导入
就像名字起的那样,全量数据导入就是一次性将所有需要导入的数据,从关系型数据库一次性地导入到Hadoop中(可以是HDFS、Hive等)。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令,具体如下
# 全量数据导入
sqoop import \\
--connect jdbc:mysql://192.168.xxx.xxx:3316/testdb \\
--username root \\
--password 123456 \\
--query “select * from test_table where \\$CONDITIONS” \\
--target-dir /user/root/person_all \\
--fields-terminated-by “,” \\
--hive-drop-import-delims \\
--null-string “\\\\N” \\
--null-non-string “\\\\N” \\
--split-by id \\
-m 6 \\
参数 | 说明 |
---|---|
– query | SQL查询语句 |
– target-dir | HDFS目标目录(确保目录不存在,否则会报错,因为Sqoop在导入数据至HDFS时会自己在HDFS上创建目录) |
–hive-drop-import- delims | 删除数据中包含的Hive默认分隔符(^A, ^B, \\n) |
–null-string | string类型空值的替换符(Hive中Null用\\n表示) |
–null-non-string | 非string类型空值的替换符 |
–split-by | 数据切片字段(int类型,m>1时必须指定) |
-m | Mapper任务数,默认为4 |
--hive-drop-import-delims | 删除数据中含有的默认的分隔符 |
--fields-terminated-by \\t | 这个用来指定数据行的分隔符号 |
--lines-terminated-by '\\n' | 用来指定数据行间的分隔符 |
--compression-codec lzo | 用来指定数据表的压缩格式 |
--target-dir | 导入指定的目录中 |
--check-column | 指定增量导入时的参考列 |
增量数据导入
事实上,在生产环境中,系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍,此时我们就需要增量数据导入这一模式了。
增量数据导入分两种,
- 基于递增列的增量数据导入(Append方式)
- 基于时间列的增量数据导入(LastModified方式)
Append方式
举个栗子,有一个订单表,里面每个订单有一个唯一标识自增列ID,在关系型数据库中以主键形式存在。之前已经将id在0~5201314之间的编号的订单导入到Hadoop中了(这里为HDFS),现在一段时间后我们需要将近期产生的新的订单数据导入Hadoop中(这里为HDFS),以供后续数仓进行分析。此时我们只需要指定–incremental 参数为append,–last-value参数为5201314即可。表示只从id大于5201314后开始导入。
# Append方式的全量数据导入
sqoop import \\
--connect jdbc:mysql://192.168.xxx.xxx:3316/testdb \\
--username root \\
--password 123456 \\
--query “select order_id, name from order_table where \\$CONDITIONS” \\
--target-dir /user/root/orders_all \\
--split-by order_id \\
-m 6 \\
--incremental append \\
--check-column order_id \\
--last-value 5201314
参数 | 说明 |
---|---|
–incremental append | 基于递增列的增量导入(将递增列值大于阈值的所有数据增量导入Hadoop) |
–check-column | 递增列(int) |
–last-value | 阈值(int) |
lastModify方式
此方式要求原有表中有time字段,它能指定一个时间戳,让Sqoop把该时间戳之后的数据导入至Hadoop(这里为HDFS)。因为后续订单可能状态会变化,变化后time字段时间戳也会变化,此时Sqoop依然会将相同状态更改后的订单导入HDFS,当然我们可以指定merge-key参数为orser_id,表示将后续新的记录与原有记录合并。
# 将时间列大于等于阈值的数据增量导入HDFS
sqoop import \\
--connect jdbc:mysql://192.168.xxx.xxx:3316/testdb \\
--username root \\
--password transwarp \\
--query “select order_id, name from order_table where \\$CONDITIONS” \\
--target-dir /user/root/order_all \\
--split-by id \\
-m 4 \\
--incremental lastmodified \\
--merge-key order_id \\
--check-column time \\
# remember this date !!!
--last-value “2014-11-09 21:00:00”
参数 | 说明 |
---|---|
–incremental lastmodified | 基于时间列的增量导入(将时间列大于等于阈值的所有数据增量导入Hadoop) |
–check-column | 时间列(int) |
–last-value | 阈值(int) |
–merge-key | 合并列(主键,合并键值相同的记录) |
并发导入参数如何设置?
我们知道通过 -m 参数能够设置导入数据的 map 任务数量,即指定了 -m 即表示导入方式为并发导入,这时我们必须同时指定 - -split-by 参数指定根据哪一列来实现哈希分片,从而将不同分片的数据分发到不同 map 任务上去跑,避免数据倾斜。
- 生产环境中,为了防止主库被Sqoop抽崩,我们一般从备库中抽取数据。
- 一般RDBMS的导出速度控制在60~80MB/s,每个 map 任务的处理速度5~10MB/s 估算,即 -m 参数一般设置4~8,表示启动 4~8 个map 任务并发抽取。
对换行等特殊字符的替换或者删除
Argument | Description | 注释 |
---|---|---|
--hive-home <dir> | Override $HIVE_HOME | 覆盖 $HIVE_HOME |
--hive-import | Import tables into Hive (Uses Hive’s default delimiters if none are set.) | 将表导入 Hive(如果没有设置,则使用 Hive 的默认分隔符。) |
--hive-overwrite | Overwrite existing data in the Hive table. | 覆盖 Hive 表中的现有数据。 |
-create-hive-table | If set, then the job will fail if the target hive table exits. By default this property is false. | 如果设置,那么如果目标配置单元,作业将失败 表退出。默认情况下,此属性为 false。 |
--hive-table <table-name> | Sets the table name to use when importing to Hive. | 设置导入到 Hive 时要使用的表名。 |
--hive-drop-import-delims | Drops \\n, \\r, and \\01 from string fields when importing to Hive. | 导入到 Hive 时,从字符串字段中删除 \\n、 \\r和 \\01。 |
--hive-delims-replacement | Replace \\n, \\r, and \\01 from string fields with user defined string when importing to Hive. | 导入到 Hive 时,将字符串字段中的\\n、 \\r和 \\01替换 为用户定义的字符串。 |
--hive-partition-key | Name of a hive field to partition are sharded on | 要分区的 hive 字段的名称被分片 |
--hive-partition-value <v> | String-value that serves as partition key for this imported into hive in this job. | 在此作业中用作此导入到配置单元的分区键的字符串值。 |
--map-column-hive <map> | Override default mapping from SQL type to Hive type for configured columns. | 为配置的列覆盖从 SQL 类型到 Hive 类型的默认映射。 |
使用方法,
1、在原有sqoop语句中添加 --hive-delims-replacement “ ” 可以将如mysql中取到的\\n, \\r, and \\01等特殊字符替换为自定义的字符,此处用了空格
2、在原有sqoop语句中添加 --hive-drop-import-delims 可以将如mysql中取到的\\n, \\r, and \\01等特殊字符丢弃
版权声明:本文为CSDN博主「grootblockchain」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
摘抄自:https://blog.csdn.net/CaptainJava/article/details/82625858
摘抄自:https://blog.csdn.net/qq_35495339/article/details/95619461
以上是关于sqoop 数据抽取到hive语法的主要内容,如果未能解决你的问题,请参考以下文章
SQOOP增量抽取时,在HIVE中实现类似Oracle的merge操作