Spark 1.6 向 Cassandra 插入数据帧

Posted

技术标签:

【中文标题】Spark 1.6 向 Cassandra 插入数据帧【英文标题】:Spark 1.6 a dataframe insert to Cassandra 【发布时间】:2016-12-22 10:48:49 【问题描述】:

我正在尝试向 cassandra 插入一个数据框。

当我写 rdd.tosaveToCasssandra("keyspace","table")

没问题,但我不能用这个函数写

myDataFrame.tosaveToCassandra("keyspace","table")

我也试过了,但没有保存。

myDataFrame.write.format("org.apache.spark.sql.cassandra").mode('append').options(table="mytable", keyspace="mykeyspace").save()

除了 Spark 2.0 的新 API,你有什么想法吗

谢谢

【问题讨论】:

第一次尝试不正确。那仅适用于RDDS,第二种方法是正确的。为什么你认为它没有保存? 我认为您没有正确提供选项。它需要一张地图,您可以尝试这种方式 paddedGtpProfiles.write.format("org.apache.spark.sql.cassandra").mode(SaveMode.Append).option("table","mytable").option( "keyspace","mykeyspace").save() 你有什么错误吗? 【参考方案1】:

对于 python,目前 Spark Cassandra 连接器中没有 Cassandra 的流式接收器,您必须自己实现。

【讨论】:

以上是关于Spark 1.6 向 Cassandra 插入数据帧的主要内容,如果未能解决你的问题,请参考以下文章

使用 Spark SQL 的 Cassandra 简单插入语句因 org.apache.spark.sql.catalyst.parser.ParseException 而失败

Cassandra / Spark显示大表的错误条目数

Spark 和 Cassandra:推荐的接口方式

在 spark 1.6 中计数(不同)不能与 hivecontext 查询一起使用

c#如何向Cassandra表中插入大量数据

在Cassandra中用新的键值对更新地图类型列,而不是完全覆盖地图。