使用SparkSQL迁移oracle数据到impala创建的kudu表中,出现Primary key column riskcode is not set错误
Posted ITboy-Bear
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用SparkSQL迁移oracle数据到impala创建的kudu表中,出现Primary key column riskcode is not set错误相关的知识,希望对你有一定的参考价值。
前段时间公司业务需求,需要把oracle中的数据迁移到数据仓库中(kudu整合的hive),为了使用kudu方便,kudu的日常操作通过impala来完成。由于第一次整合sparkSQL与kudu,所以打算通过一些demo记录一下遇到的问题。
oracle数据导入到kudu中,代码如下:
object OracleToKudu
def main(args: Array[String]): Unit =
val spark = SparkSession.builder.appName("test").master("local").getOrCreate
val tableName = "impala::default.LMRISKDEF"
val sql = "SELECT RISKCODE,RISKNAME,SALECHNL,RISKTYPE FROM LMRISKDEF"
//读取oracle数据
val data = spark.read.format("jdbc")
.option("driver", "oracle.jdbc.OracleDriver")
.option("url", "jdbc:oracle:thin:@x.x.x.x:1521:TESTDB")
.option("user", "rdi")
.option("password", "rdi")
.option("dbtable", "(" + sql + ") temp")
.load
//写入到kudu中
data.write.mode(SaveMode.Append)
.format("org.apache.kudu.spark.kudu")
.option("kudu.master", "x.x.x.x:7051,x.x.x.x:7051")
.option("kudu.table", tableName)
.save()
便出现了:org.apache.kudu.client.NonRecoverableException: Primary key column riskcode is not set
分析错误原因是:Primary key column riskcode is not set。可无论是oracle中的LMRISKDEF表还是通过impala创建的LMRISKDEF表都是具有主键的(还特意将字段在select语句中全部列出,),查询语句字段顺序与kudu表顺序也一致(impala建表主键必须在前),那就可能是查询出的字段与目的字段无法匹配。
查看输出输入对象的字段,如下:
查询语句在oracle中的查询结果,可以看出无论字段大小写,输出结果的字段均是大写。
如下是查看kudu中的建表信息,可发现字段类型均是小写。(单纯的kudu建表,字段可大写可小写,但表无法使用impala操作,在后续的使用中不便; 而通过impala创建的kudu表,无论建表语句大小写,结果都是小写,目前还没有找到解决办法)
修改后的代码:
object OracleToKudu
def main(args: Array[String]): Unit =
val spark = SparkSession.builder.appName("test").master("local").getOrCreate
val tableName = "impala::default.LMRISKDEF"
val sql = "SELECT RISKCODE,RISKNAME,SALECHNL,RISKTYPE FROM LMRISKDEF"
val schema = StructType(
StructField("riskcode", StringType, false) ::
StructField("riskname", StringType, true) ::
StructField("salechnl", StringType, true) ::
StructField("risktype", StringType, true) :: Nil)
val fields = new util.ArrayList[StructField]()
fields.add(DataTypes.createStructField("riskcode", DataTypes.StringType, false))
fields.add(DataTypes.createStructField("riskname", DataTypes.StringType, true))
fields.add(DataTypes.createStructField("salechnl", DataTypes.StringType, true))
fields.add(DataTypes.createStructField("risktype", DataTypes.StringType, true))
val schema2 = DataTypes.createStructType(fields);
//读取oracle数据
val data = spark.read.format("jdbc")
.option("driver", "oracle.jdbc.OracleDriver")
.option("url", "jdbc:oracle:thin:@x.x.x.x:1521:TESTDB")
.option("user", "rdi")
.option("password", "rdi")
.option("dbtable", "(" + sql + ") temp")
.load
//写入到kudu中
spark
.createDataFrame(data.rdd, schema)//schema||schema2都可以只是两种方式
.write.mode(SaveMode.Append)
.format("org.apache.kudu.spark.kudu")
.option("kudu.master", "x.x.x.x:7051,x.x.x.x:7051")
.option("kudu.table", tableName)
.save()
建议以后再进行数据迁移过程中还是指定字段和类型(自己图简便反而把自己坑了)
以上是关于使用SparkSQL迁移oracle数据到impala创建的kudu表中,出现Primary key column riskcode is not set错误的主要内容,如果未能解决你的问题,请参考以下文章
oracleSQL 转 SPARKSQL(hiveSql) 及常用优化
oracleSQL 转 SPARKSQL(hiveSql) 及常用优化
怎么将数据库从Oracle迁移到SQL Server,或从Oracle迁移到MySQL