如何访问安装在 hdfs 头节点集群内的 pyspark

Posted

技术标签:

【中文标题】如何访问安装在 hdfs 头节点集群内的 pyspark【英文标题】:How can I access pyspark installed inside hdfs headnode cluster 【发布时间】:2019-01-22 07:36:37 【问题描述】:

我有一个由 hadoop 集群组成的头节点。我看到 pyspark 安装在 hdfs 集群中,即我能够在 hdfs 用户中使用 pyspark shell。但是在用户头节点中没有安装 pyspark。因此,我无法从 hdfs 访问文件并将其带到 pyspark。如何在 jupyter notebook 中使用 hdfs 内的 pyspark。我在用户头节点中安装了 pyspark,但我无法访问 hdfs 文件。我假设jupyter 无法使用安装在 hdfs 中的 spark。我如何启用它以便我可以访问 jupyter 中的 hdfs 文件。

现在当我在 jupyter 中访问 hdfs 文件时,

It says 'Spark is not installed'

我知道它的广泛性,如果我强调或过分强调任何一点,请在 cmets 中告诉我

【问题讨论】:

【参考方案1】:

headnode 是不同的 linux 帐户还是不同的 linux 主机?

如果只是不同的帐户 - 然后比较两个帐户的环境变量。登录到 hdfs 并运行“env|sort”,然后在 headnode 上执行相同的操作。

主要检查环境变量PATH,以及一些SPARK变量是否有差异

【讨论】:

以上是关于如何访问安装在 hdfs 头节点集群内的 pyspark的主要内容,如果未能解决你的问题,请参考以下文章

HDFS集群扩容节点

独家 | 带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

Mesos 上的独立 Spark 集群访问不同 Hadoop 集群中的 HDFS 数据

HDFS 分布式文件系统

Hadoop集群以外的机器如何访问Hadoop集群,进行提交文件,下载文件?

5 weekend01020304050607的分布式集群的HA测试 + hdfs--动态增加节点和副本数量管理 + HA的java api访问要点