无法在 ipython 中正确创建 spark 上下文以链接到 MySQL - com.mysql.jdbc.Driver

Posted

技术标签:

【中文标题】无法在 ipython 中正确创建 spark 上下文以链接到 MySQL - com.mysql.jdbc.Driver【英文标题】:Cannot properly create a spark context in ipython to link to MySQL - com.mysql.jdbc.Driver 【发布时间】:2015-11-26 19:42:59 【问题描述】:

我正在使用 Spark、PySpark、Ipython 和 mysql 运行本地环境。我正在努力通过 spark 启动 mysql 查询。主要问题是包含正确的 jdbc jar 以便能够执行查询。

这是我目前所拥有的:

import pyspark
conf = (pyspark.SparkConf()
        .setMaster('local')
        .setAppName('Romain_DS')
        .set("spark.executor.memory", "1g")
        .set("spark.driver.extraLibraryPath","mysql-connector-java-5.1.37/mysql-connector-java-5.1.37-bin.jar")
        .set("spark.driver.extraClassPath","mysql-connector-java-5.1.37/mysql-connector-java-5.1.37-bin.jar")
    )
sc = pyspark.SparkContext(conf=conf)

这是为了正确创建 spark 上下文,并正确显示包含 jdbc 驱动程序的 jar 的路径。

然后我创建一个 SQLContext :

from pyspark.sql import SQLContext
sqlsc=SQLContext(sc)

最后是查询:

MYSQL_USERNAME = "root";
MYSQL_PWD = "rootpass";
MYSQL_CONNECTION_URL = "jdbc:mysql://127.0.0.1:33060/O_Tracking?user=" + MYSQL_USERNAME + "&password=" + MYSQL_PWD;
query = 'Select * from tracker_action'

dataframe_mysql = sqlsc.read.format("jdbc").options(
    url = MYSQL_CONNECTION_URL,
    dbtable = "tracker_action",
    driver = "com.mysql.jdbc.Driver",
    user="root",
    password="rootpass").load()

如果我在 ipython 笔记本中运行它,我会收到错误:

调用 o198.load 时出错。 : java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

但是,如果我从 shell(而不是 ipython)做所有事情,通过这种方式初始化 spark 上下文:

pyspark --driver-library-path './mysql-connector-java-5.1.37-bin.jar' --driver-class-path './mysql-connector-java-5.1.37-bin.jar'

它确实有效...我查看了 Spark 中的 UI,配置是相同的。所以我不明白为什么一个工作而不是另一个工作......与JVM之前的运行时设置有什么关系吗?

如果我找不到合适的解决方案,我们可能会考虑在 shell 中运行 sc,然后从 ipython 中使用它,但我不知道该怎么做。

如果有人可以帮助我,那就太好了。

---- 硬件/软件 Mac OSX

火花 1.5.2

Java 1.8.0

Python 2.7.10 :: Anaconda 2.3.0 (x86_64)

---- 帮助来源:

https://gist.github.com/ololobus/4c221a0891775eaa86b0 http://spark.apache.org/docs/latest/configuration.html

下面是我的 conf 文件:

# Default system properties included when running spark-submit.
# This is useful for setting default environmental settings.
spark.driver.extraLibraryPath   /Users/romainbui/mysql-connector-java-5.1.37/mysql-connector-java-5.1.37-bin.jar
spark.driver.extrClassPath  /Users/romainbui/mysql-connector-java-5.1.37/mysql-connector-java-5.1.37-bin.jar
spark.AppName   PySpark
spark.setMaster Local

--------- 解决方案 --------- 多亏了 cmets,我终于能够正确地拥有一个有效的解决方案(和一个干净的解决方案)。

第 1 步:创建个人资料:

ipython profile create pyspark

第 2 步:编辑配置文件启动脚本:

touch ~/.ipython/profile_pyspark/startup/00-pyspark-setup.py

第 3 步:填写文件。在这里,我做了一些定制的事情(感谢 cmets):

import findspark
import os
import sys
findspark.init()
spark_home = findspark.find()

#spark_home = os.environ.get('SPARK_HOME', None)
sys.path.insert(0, spark_home + "/python")

# Add the py4j to the path.
# You may need to change the version number to match your install
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.8.2.1-src.zip'))

# Adding the library to mysql connector
packages = "mysql:mysql-connector-java:5.1.37"
os.environ["PYSPARK_SUBMIT_ARGS"] = "--packages 0 pyspark-shell".format(
    packages
)

# Initialize PySpark to predefine the SparkContext variable 'sc'
execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

然后你可以简单地运行笔记本:

ipython notebook --profile=pyspark

【问题讨论】:

【参考方案1】:

我不明白为什么一个工作而不是另一个工作......与JVM之前的运行时设置有什么关系吗?

或多或少。您展示的 IPython 配置执行 python/pyspark/shell.py,它创建 SparkContext(和其他一些东西)并创建一个 JVM 实例。当您稍后创建另一个上下文时,它使用相同的 JVM,并且不会使用像 spark.driver.extraClassPath 这样的参数。

有多种方法可以处理这个问题,包括passing arguments using PYSPARK_SUBMIT_ARGS 或在$SPARK_HOME/conf/spark-defaults.conf 中设置spark.driver.extraClassPath

或者,您可以在执行shell.py 之前向00-pyspark-setup.py 添加以下行:

packages = "mysql:mysql-connector-java:5.1.37"
os.environ["PYSPARK_SUBMIT_ARGS"] = "--packages 0 pyspark-shell".format(
    packages
)

在那里设置 --driver-class-path / --driver-library-path 应该也可以。

【讨论】:

嗨。是的,我在 OSX 上,我刚刚用路径更新了 bash_profile ......仍然没有运气。有没有办法找到默认的conf文件的位置,我感觉我不是在正确的那个... 我没有 OSX 来测试这个,但最后的编辑应该独立于操作系统。 你好。我设法通过直接编辑“shell.py”文件来使其工作。我不确定这是否是最佳做法,但它确实有效。由于某种原因,启动 pyspark 完全忽略了 'spark-defaults.conf' 。我查看了 shell.py,没有任何行实际上调用了“conf”文件。我找不到 00-pyspark-setup.py 文件,所以我只是在创建火花上下文之前直接编辑了“shell.py”: SparkContext.setSystemProperty("spark.driver.extraClassPath", "/Users/romainbui /mysql-connector-java-5.1.37/mysql-connector-java-5.1.37-bin.jar"). 我最终修改了我最终找到的 00-pyspark(我之前没有配置文件)

以上是关于无法在 ipython 中正确创建 spark 上下文以链接到 MySQL - com.mysql.jdbc.Driver的主要内容,如果未能解决你的问题,请参考以下文章

无法为 pyspark OSX 启动 Jupyter Notebook:IPYTHON 和 IPYTHON_OPTS 在 Spark 2.0+ 中被删除

安装 Spark 问题。无法使用 pyspark 打开 IPython Notebook

Spark,Scala在从文件读取后无法正确创建视图

将 IPython notebook 连接到在不同机器上运行的 spark master

将本地 IPython 笔记本连接到气隙集群上的 Spark

IPython.display.Audio 无法正确处理“.ogg”文件类型?