我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗?

Posted

技术标签:

【中文标题】我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗?【英文标题】:can I run spark command on python on my local machine to hadoop? 【发布时间】:2020-06-15 10:29:26 【问题描述】:

我想在我的本地机器上运行下面的代码。

from pyspark import SparkContext
from pyspark.sql.session import SparkSession


def quiet_logs( sc ):
  logger = sc._jvm.org.apache.log4j
  logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
  logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )

#Spark Data Frame Jobs
spark = SparkSession.builder.getOrCreate()

我的机器上没有安装spark

这有意义吗?

我的目的是从本地机器加载数据到 hadoop?

提前致谢

【问题讨论】:

【参考方案1】:

如果您想从本地机器将数据加载到 Hadoop,那么您必须遵循一些方法。 其中一个像

-> Send data from your local to Hadoop edge node.
Use SFTP for this purpose

-> 
Move data from edge node to hdfs using

hdfs dfs -cp

-> Run your spark job on hdfs then Load the data as required either in hive table or any use case.

【讨论】:

以上是关于我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗?的主要内容,如果未能解决你的问题,请参考以下文章

本地机器上的 Web 服务器,有啥陷阱吗?

从本地机器上的 ubuntu (AWS EC2) 读取文件?

本地机器上的 Gitlab CI/CD 问题

PyCharm 上的远程调试

Socket IO 在本地机器上工作正常,但在 Heroku 上不工作

YARN 集群上的 PySpark 分布式处理