我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗?
Posted
技术标签:
【中文标题】我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗?【英文标题】:can I run spark command on python on my local machine to hadoop? 【发布时间】:2020-06-15 10:29:26 【问题描述】:我想在我的本地机器上运行下面的代码。
from pyspark import SparkContext
from pyspark.sql.session import SparkSession
def quiet_logs( sc ):
logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
#Spark Data Frame Jobs
spark = SparkSession.builder.getOrCreate()
我的机器上没有安装spark
。
这有意义吗?
我的目的是从本地机器加载数据到 hadoop?
提前致谢
【问题讨论】:
【参考方案1】:如果您想从本地机器将数据加载到 Hadoop,那么您必须遵循一些方法。 其中一个像
-> Send data from your local to Hadoop edge node.
Use SFTP for this purpose
->
Move data from edge node to hdfs using
hdfs dfs -cp
-> Run your spark job on hdfs then Load the data as required either in hive table or any use case.
【讨论】:
以上是关于我可以在本地机器上的 python 上运行 spark 命令到 hadoop 吗?的主要内容,如果未能解决你的问题,请参考以下文章
从本地机器上的 ubuntu (AWS EC2) 读取文件?