Spark 和 Cassandra:推荐的接口方式

Posted

技术标签:

【中文标题】Spark 和 Cassandra:推荐的接口方式【英文标题】:Spark and Cassandra: Recommended way to interface 【发布时间】:2016-06-27 06:10:27 【问题描述】:

我一直在使用 Spark 驱动程序中的 DataStax Cassandra Java driver 将数据插入 Cassandra 表。似乎Spark SQL 也可以用于相同的目的。尽管对于像 Cassandra 这样的 NoSQL DB,在 Cassandra 中完成 NoSQL 数据建模时,滥用 Spark SQL 支持的 JOIN operation 似乎是错误的。

据我了解,我宁愿坚持使用 Cassandra Java 驱动程序。但是想知道我是否遗漏了什么。

哪个更高效,或者更推荐与 Cassandra 一起使用。

相关问题 - Is SparkSQL RDBMS or NOSQL?

【问题讨论】:

【参考方案1】:

AFAIK 从 Spark 应用程序中使用 Cassandra 的最流行方式是使用 Spark Cassandra Connector: https://github.com/datastax/spark-cassandra-connector

【讨论】:

我正在使用上述以分布式方式从 Cassandra 读取数据。为了写作,我正在准备 CQL 语句并使用 com.datastax.driver.core.Session .executeAsync - 来自 datastax java 驱动程序

以上是关于Spark 和 Cassandra:推荐的接口方式的主要内容,如果未能解决你的问题,请参考以下文章

如何在spark中读写cassandra数据

SPARK SQL 和 Cassandra 之间的时区不匹配

Spark cassandra 连接器 + 加入超时

将 Spark SQL Hive 服务器连接到 Cassandra?

Spark Cassandra 连接器:SQLContext.read + SQLContext.write 与手动解析和插入(JSON -> Cassandra)

使用Spark+Cassandra打造高性能数据分析平台