如何在 Windows 的 ipython jupyter notebook 中添加 Spark-csv-master？

Posted 2023-04-15

技术标签:

【中文标题】如何在 Windows 的 ipython jupyter notebook 中添加 Spark-csv-master？【英文标题】：How to add Spark-csv-master in ipython jupyter notebook in windows? 【发布时间】：2016-06-15 12:21:33 【问题描述】：

我正在使用 apache-spark 和 ipython 并尝试在笔记本中加载 csv 文件。但我收到错误： Py4JJavaError: An error occurred while calling o22.load. 在搜索时我发现通过加载spark-csv 这将得到解决。我想知道如何在 Windows 的笔记本中加载 spark-csv，以及是否有人可以告诉我解决此错误的另一种方法。我已经上传了错误的屏幕截图。

py4jjavaerrorerrorpic 2

【问题讨论】：

How to add any new library like spark-csv in Apache Spark prebuilt version的可能重复它不重复。在这个特别的问题中，您提到他询问有关在 apache 预构建版本中添加 spark-csv 的问题，而我询问有关添加 jupyter notebook 的问题。我还询问了解决 py4jjava 错误的任何其他方法。只需添加 jars 或打包您的错误将被解决它的重复。好的，告诉我如何在 windows 的 jupyter notebook 中添加 jars 或 package？你提到的那个问题的所有答案都不适合我...... 【参考方案1】：

我遇到了同样的问题。这是我固定的方式。我使用了 anaconda 3.5 jupyter notebook 和 Windows 10：

import os
import sys

SUBMIT_ARGS = "--packages com.databricks:spark-csv_2.11:1.4.0 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS

spark_home = os.environ.get('SPARK_HOME', None)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark/python/lib/py4j-0.9-src.zip'))

exec(open(os.path.join(spark_home, 'C:/spark/python/pyspark/shell.py')).read()) # python 3


from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('C:/spark_data/train.csv')

df.show()

【讨论】：

以上是关于如何在 Windows 的 ipython jupyter notebook 中添加 Spark-csv-master？的主要内容，如果未能解决你的问题，请参考以下文章