Pyspark - 设置本地核心和应用程序名称并使用 UTC 作为时区

Posted

技术标签:

【中文标题】Pyspark - 设置本地核心和应用程序名称并使用 UTC 作为时区【英文标题】:Pyspark - set local cores and application name and use UTC as timezone 【发布时间】:2020-10-31 16:10:11 【问题描述】:

我正在尝试使用 SparkConf 对象创建一个 SparkSession,以便使用两个具有正确应用程序名称的本地内核,并使用 UTC 作为时区。我还在线参考了 Pyspark 文档并提出了以下建议: enter image description here

你们中的任何人都可以告诉我我是否朝着正确的方向前进吗?在我尝试学习这门新语言时,我将非常感谢您的帮助。

【问题讨论】:

【参考方案1】:

要为您的 spark 会话设置时区,您也可以在 spark 配置下设置

.config('spark.sql.session.timeZone', 'UTC') \
.config('spark.driver.extraJavaOptions', '-Duser.timezone=UTC') \
.config('spark.executor.extraJavaOptions', '-Duser.timezone=UTC') 

【讨论】:

以上是关于Pyspark - 设置本地核心和应用程序名称并使用 UTC 作为时区的主要内容,如果未能解决你的问题,请参考以下文章

在pyspark中将Unix(Epoch)时间更改为本地时间

pyspark spark.executor.memory 是每个核心还是每个节点?

从模块导入 myfunctions 的 azure pyspark;没有模块名称

如何使用 xampp 在本地运行多个 laravel 应用程序并使它们可供我本地网络上的其他 PC 访问

是否添加“ minifyEnabled true”和“ proguard-android-optimize.txt”混淆了sqlite数据库并使其与以前的版本不兼容?

如何在 pyspark 中验证 Dataframe 的架构(列的编号和名称)?