hive导入到clickhouse的几种方式总结
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive导入到clickhouse的几种方式总结相关的知识,希望对你有一定的参考价值。
参考技术A在开发过程中,需要从HDFS中导入数据到clickhouse中,探索了几种方式,以及一些坑与大家分享;
选择合适的分隔符;大部分情况下,会选择逗号或者hive的默认分隔符\\001 ,可以参考文件 详解hive的列分隔符和行分隔符的使用
情况一:由于存储中可能含有分割符,导致分割列的时候,会多出几列的情况;比如说本来是5列的情况,但是却分割出来6列的情况,就是因为数据中含有分隔符的情况,所有如果出现该情况,需要对于可能出现情况的列进行特殊处理
特别注意 列中的换行符以及tab符号,需要处理掉,否则也会出现一些问题;
情况二 :clickhouse中不能出现null需要对所有可能的列,进行如下处理
情况三:因为hive导出之后,原来的bigint,会出现10.0的情况,在有些情况下,需要进行截断
情况四: hive中的列的属性,和clickhouse中列的属性不一致会出现问题;对于clickhouse多列的情况下,一定要细致,一个个列的属性进行校验
Float-->bigInt出现错误
int8--->Uint8之间转换错误;
csv导入clickhouse的方式,常见的有两种方式;通过clickhouse的jdbc执行sql和使用clickhouse的clickhouse-client客户端的方式,数据量大的情况下,切记不要用第一种方式,一定要切记;切记
方式一: 写一个Python脚本,pandas,以及整合了csv的写入的实现,数据量不大的时候,小于500百万,列在50列左右的时候,可以使用
方式二:
常见错误:
以上是关于hive导入到clickhouse的几种方式总结的主要内容,如果未能解决你的问题,请参考以下文章