我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗？

Posted 2023-04-15

技术标签:

【中文标题】我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗？【英文标题】：can I run spark command on python on my local machine to hadoop? 【发布时间】：2020-06-15 10:29:26 【问题描述】：

我想在我的本地机器上运行下面的代码。

from pyspark import SparkContext
from pyspark.sql.session import SparkSession


def quiet_logs( sc ):
  logger = sc._jvm.org.apache.log4j
  logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
  logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )

#Spark Data Frame Jobs
spark = SparkSession.builder.getOrCreate()

我的机器上没有安装spark。

这有意义吗？

我的目的是从本地机器加载数据到 hadoop？

提前致谢

【问题讨论】：

【参考方案1】：

如果您想从本地机器将数据加载到 Hadoop，那么您必须遵循一些方法。其中一个像

-> Send data from your local to Hadoop edge node.
Use SFTP for this purpose

-> 
Move data from edge node to hdfs using

hdfs dfs -cp

-> Run your spark job on hdfs then Load the data as required either in hive table or any use case.

【讨论】：

以上是关于我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗？的主要内容，如果未能解决你的问题，请参考以下文章