运行 Spark 时遇到“WARN ProcfsMetricsGetter:尝试计算页面大小时出现异常”错误

Posted

技术标签:

【中文标题】运行 Spark 时遇到“WARN ProcfsMetricsGetter:尝试计算页面大小时出现异常”错误【英文标题】:Encountering " WARN ProcfsMetricsGetter: Exception when trying to compute pagesize" error when running Spark 【发布时间】:2020-02-17 07:02:50 【问题描述】:

我安装了 spark 并尝试运行它时,出现错误: WARN ProcfsMetricsGetter: 尝试计算页面大小时出现异常,因此 ProcessTree 指标的报告已停止

有人可以帮我吗?

【问题讨论】:

您好,您有这个问题的解决方案吗,请告诉我解决方案 【参考方案1】:

我收到了同样的消息,在 Windows 10 上运行 Spark 3.0.1,使用 Scala 2.12.10。它实际上不是一个错误,因为它结束了你的程序执行。这是一个与 Linux 机器上的 /proc 文件系统相关的警告。

如果您也在 Windows 机器上,答案可能是,引用 Wing Yew Poon @ Apache 的话:“警告发生是因为命令“getconf PAGESIZE”已运行,它在 Windows 上不是有效命令,所以例外是抓住。” (来自 Spark jira 问题 here)。

如果您的程序在抛出此异常消息后立即失败,那是由于其他原因。就我而言,Spark 在此警告之后立即崩溃并显示此消息:

20/11/13 12:41:51 ERROR MicroBatchExecution: Query [id = 32320bc7-d7ba-49b4-8a56-1166a4f2d6db, runId = d7cc93c2-41ef-4765-aecd-9cd453c25905] terminated with error
org.apache.spark.SparkException: Job 1 cancelled because SparkContext was shut down

可以通过将 spark.executor.processTreeMetrics.enabled 设置为 false 来隐藏此警告。再次引用 Poon 先生的话,“您看到此警告是一个小错误。但可以放心地忽略它。”

【讨论】:

【参考方案2】:

我也出现了同样的问题,因为系统环境中没有添加 python 路径。我在环境中添加了它,现在它可以完美运行了。

添加PYTHONPATH环境变量,值为:

%SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-<version>-src.zip;%PYTHONPATH%

帮助解决了这个问题。只需检查您的 spark/python/lib folder 中的 py4j 版本即可。

【讨论】:

我知道它可能会迟到,但也许这个视频可以帮助你youtube.com/watch?v=WQErwxRTiW0 我遇到了完全相同的问题,改变了路径,做了所有事情,但仍然得到了相同的信息。然后我决定采用他的方法并且它有效【参考方案3】:

在 Windows 上运行时,我收到了同样的错误。我解决了将我的 python 可执行文件添加到我的环境变量:

PYSPARK_PYTHON = C:\wherever\python.exe

我需要添加的三个变量如下。

虽然这并没有消除警告消息,但它允许程序运行完成而不会在警告后冻结或失败。

【讨论】:

以上是关于运行 Spark 时遇到“WARN ProcfsMetricsGetter:尝试计算页面大小时出现异常”错误的主要内容,如果未能解决你的问题,请参考以下文章

Spark运行架构章节遇到的问题

记一次运行spark程序遇到的权限问题

在 spark 环境中运行 python 程序时出错

SparkContext:运行 Spark 作业时初始化 SparkContext 时出错

从 pycharm 运行 spark-submit

第一次运行 Spark、PySpark