包装像 pyspark 的罐子
Posted
技术标签:
【中文标题】包装像 pyspark 的罐子【英文标题】:Packaging like jar for pyspark 【发布时间】:2016-06-09 14:02:36 【问题描述】:我有一个 pyspark 项目,它带有一个运行 spark-streaming 的 python 脚本。我有一些使用--packages
标志运行的外部依赖项。
然而,在 scala 中,我们可以使用 maven 下载所有需要的包,使用主 spark 程序制作一个 jar 文件并将所有内容放在一个 jar 中,然后只需使用 spark-submit
将其提交到集群(我的案例)。
pyspark 有类似jar
这样的东西吗?
spark的官方文档中没有这样的信息。他们只是提到使用spark-submit <python-file>
或添加--py-files
,但它不如jar
文件那么专业。
任何建议都会有所帮助!谢谢!
【问题讨论】:
【参考方案1】:文档说您可以使用 zip 或 egg。
对于 Python 应用程序,只需传递 .py 文件代替 JAR,然后使用 --py-files 将 Python .zip、.egg 或 .py 文件添加到搜索路径。
Source
您可能还会发现other parameters 很有用。
【讨论】:
以上是关于包装像 pyspark 的罐子的主要内容,如果未能解决你的问题,请参考以下文章
使用 PySpark 从 MariaDB 读取查询 [重复]
Pyspark 函数本身可以正常工作,但在包装在 UDF 中时不执行任务