Kudu：Spark SQL操作Kudu

Posted 2023-02-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Kudu：Spark SQL操作Kudu相关的知识，希望对你有一定的参考价值。

参考技术A 摘要： Spark SQL ， Kudu

参考 https://github.com/xieenze/SparkOnKudu/blob/master/src/main/scala/com/spark/test/KuduCRUD.scala

引入 spark-core_2.11 ， spark-sql_2.11 ， kudu-spark2_2.11 ， hadoop-client 依赖包

指定 kudu.master" ， kudu.table ，如果读取超时加入 kudu.operation.timeout.ms 参数

或者

写入数据可以使用dataframe的 write 方法，也可以使用 kuduContext 的 updateRows ， insertRows ， upsertRows ， insertIgnoreRows 方法

直接调用dataframe的write方法指定 kudu.master ， kudu.table ，只支持 append 模式，对已有key的数据自动更新

调用kuduContext的 upsertRows 方法，效果和dataframe调用write append模式一样

调用kuduContext insertRows ， insertIgnoreRows 方法，如果插入的数据key已存在insertRows直接报错，insertIgnoreRows忽略已存在的key，只插入不存在的key

调用kuduContext updateRows 方法，对已经存在的key数据做更新，如果key不存在直接报错

使用已有dataframe的schema建表

使用 StructType 自定义schema

删除表和判断表是否存在

以上是关于Kudu：Spark SQL操作Kudu的主要内容，如果未能解决你的问题，请参考以下文章

大数据Kudu：Spark操作Kudu

Spark操作Kudu

客快物流大数据项目(四十六)：Spark操作Kudu dataFrame操作kudu

spark操作kudu,出现异常java.lang.ClassNotFoundException: org.apache.kudu.spark.kudu.DefaultSource

客快物流大数据项目(四十四)：Spark操作Kudu创建表