hive表增量抽取到mysql(关系数据库)的通用程序
Posted 胖子学习天地
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive表增量抽取到mysql(关系数据库)的通用程序相关的知识,希望对你有一定的参考价值。
hive表增量抽取到oracle数据库的通用程序(一)
hive表增量抽取到oracle数据库的通用程序(二)
这几天又用到了该功能了,所以又改进了一版,增加了全量抽取和批量抽取两个参数。并且可以设置每批次抽取到记录数。
使用shell脚本可以方便的将hive中数据抽取到任何关系型数据库中。
shell脚本到demo如下,为便于测试,将每批次处理改为2条记录:
#!/bin/sh ## !!!注意lib中jar包兼容性问题: ## 如果包含log4j-slf4j-impl-2.6.2.jar、log4j-web-2.6.2.jar,请删除,否则会导致冲突,程序启动报错。 ## dim_code=day dim_value=`date -d "yesterday" +%Y%m%d` ## 以下字段不能换行 rdms_driver=\'com.mysql.jdbc.Driver\' rdms_url=\'jdbc:mysql://xx.xx.xx.xx:3306/bigdata?characterEncoding=UTF8\' rdms_username=\'bigdata\' rdms_password=\'123456\' rdms_tableName=app_flow_general rdms_columnNames=\'tenantcode,dim_code,dim_value,store_code,platform,start_date,end_date,uv,pv,bounce_rate,avg_view,avg_ts,new_uv,old_uv,trade_cr\' rdms_presql=\'delete from app_flow_general where dim_code = "\'${dim_code}\'" and dim_value ="\'${dim_value}\'"\' ## 依赖hiveServer2 hive_url=\'jdbc:hive2://dwdev-name1:10000/default\' hive_hql=\'select tenantcode,dim_code,dim_value,store_code,platform,start_date,end_date,uv,pv,bounce_rate,avg_view,avg_ts,new_uv,old_uv,trade_cr from dw_app.app_flow_general where dim_code = "\'${dim_code}\'" and dim_value = "\'${dim_value}\'"\' ## 以下是执行java程序,可根据实际情况调整,默认可以不修改 ## lib为jar依赖包文件夹 ## hive_hql: 必填, hive中查询语句 ## rdms_tableName: 必填,目标表名 ## rdms_columnNames: 必填,目标表字段 ## rdms_presql: 可选, 执行插入前,在RDMS中预先执行的sql。通常用来重复导入时候,先删除之前的错误数据 ## batch_size: 可选, 默认值5000,和insert_model配合使用,当insert_model为0时才有效 ## insert_model: 可选, 默认0, 默认分批次插入,0-分批次读取插入, 1-全部一次性读取插入 java -Djava.ext.dirs=lib com.etl.Hive2RMDS \\ --hive_url "${hive_url}" \\ --hive_hql "${hive_hql}" \\ --rdms_driver "${rdms_driver}" \\ --rdms_url "${rdms_url}" \\ --rdms_username "${rdms_username}" \\ --rdms_password "${rdms_password}" \\ --rdms_tableName "${rdms_tableName}" \\ --rdms_columnNames "${rdms_columnNames}" \\ --rdms_presql "${rdms_presql}" \\ --batch_size \'2\' \\ --insert_model \'0\'
执行文件目录结构如下:
lib文件夹放所有依赖包,lib文件夹和shell脚本同层。
实际运行时,显示解析的参数
一共4条记录,分2批次导入。
注意hive用的版本是apache 2.3.3,不支持cdh5的hive版本。
源程序下面gitee:
https://gitee.com/pang123/hive2etl
以上是关于hive表增量抽取到mysql(关系数据库)的通用程序的主要内容,如果未能解决你的问题,请参考以下文章
在idea上链接hive 并将mysql上的数据抽取到hive表中