如何将 Cassandra 设置为我的 Spark 集群的分布式存储(文件系统)
Posted
技术标签:
【中文标题】如何将 Cassandra 设置为我的 Spark 集群的分布式存储(文件系统)【英文标题】:How to set Cassandra as my Distributed Storage(File System) for my Spark Cluster 【发布时间】:2016-11-16 13:19:42 【问题描述】:我是大数据和 Spark(pyspark) 的新手。 最近我刚刚建立了一个 spark 集群,想在我的 spark 集群上使用 Cassandra 文件系统 (CFS) 来帮助上传文件。
谁能告诉我如何设置它并简要介绍如何使用CFS系统? (比如如何上传文件/从哪里上传)
顺便说一句,我什至不知道如何使用 HDFS(我下载了预构建的 spark-bin-hadoop,但在我的系统中找不到 hadoop。)
提前致谢!
【问题讨论】:
【参考方案1】:CFS 仅存在于 DataStax Enterprise 中,不适用于大多数分布式文件应用程序。它的主要重点是替代 HDFS 用于 map/reduce 作业和小型临时但分布式文件。
要使用它,您只需使用 CFS:// uri 并确保您使用的是应用程序中的 dse spark-submit
。
【讨论】:
感谢您的澄清。我试图弄清楚如何在我的 spark 集群上使用分布式文件系统。我想我在问一些愚蠢的问题,但感谢您的帮助。 Q1:访问 CFS:// 需要先安装 Cassandra 吗? Q2:如果我想使用HDFS,是否需要重新安装Hadoop? (因为我下载了“spark-2.0.2-bin-hadoop2.7.tgz”,但安装后当我在命令中输入“hadoop”时显示“hadoop:找不到命令”) 在 CFS:// 之后如何检查 uri CFS 只是 DataStax Enterprise 的一部分。因此,要使用它,您需要安装 Datastax Enterprise。然后,当您在分析模式下启动 cassandra 时,您可以通过dse hadoop
访问它。 Hadoop 和 HDFS 也必须单独安装,它们不是 Spark 的一部分。但 Spark 只与一个版本的 hadoop 相关联。
谢谢!我会试试看。以上是关于如何将 Cassandra 设置为我的 Spark 集群的分布式存储(文件系统)的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Windows 中使用 Scala 将 Cassandra 与 Spark 连接起来
如何在 Spark 中过滤来自 Cassandra 的空数据?
Cassandra&Spark:我可以将项目添加到行以从行列表创建数据框
cassandra在pom.xml里面怎么设置library
如何在从 Spark 消费 Kafka 时获取偏移 id,将其保存在 Cassandra 中并使用它来重新启动 Kafka?