如何将 Cassandra 设置为我的 Spark 集群的分布式存储（文件系统）

Posted 2023-04-17

技术标签:

【中文标题】如何将 Cassandra 设置为我的 Spark 集群的分布式存储（文件系统）【英文标题】：How to set Cassandra as my Distributed Storage(File System) for my Spark Cluster 【发布时间】：2016-11-16 13:19:42 【问题描述】：

我是大数据和 Spark(pyspark) 的新手。最近我刚刚建立了一个 spark 集群，想在我的 spark 集群上使用 Cassandra 文件系统 (CFS) 来帮助上传文件。

谁能告诉我如何设置它并简要介绍如何使用CFS系统？（比如如何上传文件/从哪里上传）

顺便说一句，我什至不知道如何使用 HDFS（我下载了预构建的 spark-bin-hadoop，但在我的系统中找不到 hadoop。）

提前致谢！

【问题讨论】：

【参考方案1】：

CFS 仅存在于 DataStax Enterprise 中，不适用于大多数分布式文件应用程序。它的主要重点是替代 HDFS 用于 map/reduce 作业和小型临时但分布式文件。

要使用它，您只需使用 CFS:// uri 并确保您使用的是应用程序中的 dse spark-submit。

【讨论】：

感谢您的澄清。我试图弄清楚如何在我的 spark 集群上使用分布式文件系统。我想我在问一些愚蠢的问题，但感谢您的帮助。 Q1：访问 CFS:// 需要先安装 Cassandra 吗？ Q2：如果我想使用HDFS，是否需要重新安装Hadoop？（因为我下载了“spark-2.0.2-bin-hadoop2.7.tgz”，但安装后当我在命令中输入“hadoop”时显示“hadoop：找不到命令”）在 CFS:// 之后如何检查 uri CFS 只是 DataStax Enterprise 的一部分。因此，要使用它，您需要安装 Datastax Enterprise。然后，当您在分析模式下启动 cassandra 时，您可以通过 dse hadoop 访问它。 Hadoop 和 HDFS 也必须单独安装，它们不是 Spark 的一部分。但 Spark 只与一个版本的 hadoop 相关联。谢谢！我会试试看。

以上是关于如何将 Cassandra 设置为我的 Spark 集群的分布式存储（文件系统）的主要内容，如果未能解决你的问题，请参考以下文章

如何在 Windows 中使用 Scala 将 Cassandra 与 Spark 连接起来

如何正确使用 cassandra.config 启动参数

如何在 Spark 中过滤来自 Cassandra 的空数据？

Cassandra＆Spark：我可以将项目添加到行以从行列表创建数据框

cassandra在pom.xml里面怎么设置library

如何在从 Spark 消费 Kafka 时获取偏移 id，将其保存在 Cassandra 中并使用它来重新启动 Kafka？