hive导入到clickhouse的几种方式总结

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive导入到clickhouse的几种方式总结相关的知识,希望对你有一定的参考价值。

参考技术A

在开发过程中,需要从HDFS中导入数据到clickhouse中,探索了几种方式,以及一些坑与大家分享;

选择合适的分隔符;大部分情况下,会选择逗号或者hive的默认分隔符\\001 ,可以参考文件 详解hive的列分隔符和行分隔符的使用

情况一:由于存储中可能含有分割符,导致分割列的时候,会多出几列的情况;比如说本来是5列的情况,但是却分割出来6列的情况,就是因为数据中含有分隔符的情况,所有如果出现该情况,需要对于可能出现情况的列进行特殊处理

特别注意 列中的换行符以及tab符号,需要处理掉,否则也会出现一些问题;

情况二 :clickhouse中不能出现null需要对所有可能的列,进行如下处理

​ 情况三:因为hive导出之后,原来的bigint,会出现10.0的情况,在有些情况下,需要进行截断

​ 情况四: hive中的列的属性,和clickhouse中列的属性不一致会出现问题;对于clickhouse多列的情况下,一定要细致,一个个列的属性进行校验

​ Float-->bigInt出现错误

​ int8--->Uint8之间转换错误;

csv导入clickhouse的方式,常见的有两种方式;通过clickhouse的jdbc执行sql和使用clickhouse的clickhouse-client客户端的方式,数据量大的情况下,切记不要用第一种方式,一定要切记;切记

方式一: 写一个Python脚本,pandas,以及整合了csv的写入的实现,数据量不大的时候,小于500百万,列在50列左右的时候,可以使用

方式二:

常见错误:

以上是关于hive导入到clickhouse的几种方式总结的主要内容,如果未能解决你的问题,请参考以下文章

clickhouse使用waterdrop将Hive中的数据导入ClickHouse

hive常用功能:Hive数据导入导出方式

013-HQL中级3-Hive四种数据导入方式介绍

hive 数据导入

hbase导数据的几种方式

建立Hive和Hbase的映射关系,通过Spark将Hive表中数据导入ClickHouse