Kudu:Spark SQL操作Kudu
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Kudu:Spark SQL操作Kudu相关的知识,希望对你有一定的参考价值。
参考技术A 摘要: Spark SQL , Kudu参考 https://github.com/xieenze/SparkOnKudu/blob/master/src/main/scala/com/spark/test/KuduCRUD.scala
引入 spark-core_2.11 , spark-sql_2.11 , kudu-spark2_2.11 , hadoop-client 依赖包
指定 kudu.master" , kudu.table ,如果读取超时加入 kudu.operation.timeout.ms 参数
或者
写入数据可以使用dataframe的 write 方法,也可以使用 kuduContext 的 updateRows , insertRows , upsertRows , insertIgnoreRows 方法
直接调用dataframe的write方法指定 kudu.master , kudu.table ,只支持 append 模式,对已有key的数据自动更新
调用kuduContext的 upsertRows 方法,效果和dataframe调用write append模式一样
调用kuduContext insertRows , insertIgnoreRows 方法,如果插入的数据key已存在insertRows直接报错,insertIgnoreRows忽略已存在的key,只插入不存在的key
调用kuduContext updateRows 方法,对已经存在的key数据做更新,如果key不存在直接报错
使用已有dataframe的schema建表
使用 StructType 自定义schema
删除表和判断表是否存在
以上是关于Kudu:Spark SQL操作Kudu的主要内容,如果未能解决你的问题,请参考以下文章
客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu
spark操作kudu,出现异常java.lang.ClassNotFoundException: org.apache.kudu.spark.kudu.DefaultSource
spark操作kudu,出现异常java.lang.ClassNotFoundException: org.apache.kudu.spark.kudu.DefaultSource