如何在火花中处理 Integer.MAX_VALUE? [关闭]

Posted

技术标签:

【中文标题】如何在火花中处理 Integer.MAX_VALUE? [关闭]【英文标题】:How to handle Integer.MAX_VALUE in spark? [closed] 【发布时间】:2016-06-23 13:22:08 【问题描述】:

我想知道为什么随机森林分类不支持 Spark 中的大量观察。如果我给超过 7500 我得到了

org.apache.spark.SparkException:作业因阶段失败而中止:阶段 4.0 中的任务 0 失败 1 次,最近一次失败:阶段 4.0 中丢失任务 0.0(TID 7,本地主机):java.lang.IllegalArgumentException:大小超过 Integer.MAX_VALUE

【问题讨论】:

您能否提供一个可重现的示例。为什么您的代码失败的原因很明显,可能的解决方案因上下文而异。 你要我提供用过的数据集还是什么? 不,但代码很有用。查看关闭的原因。 【参考方案1】:

这是由于 Spark 的限制。 spark中块的底层抽象是一个ByteBuffer,它将块的大小限制为2GB。 这不仅对使用中的托管块有影响,而且对洗牌块也有影响。这是火花在非平凡数据集上使用时的问题。

【讨论】:

这个有没有解决办法 暂时没有。

以上是关于如何在火花中处理 Integer.MAX_VALUE? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

如何在火花中处理 Integer.MAX_VALUE? [关闭]

文件压缩格式如何影响我的火花处理

如何使用火花流处理实时流数据/日志?

BiggerInteger类

如何在并行火花中运行转换

最短路径(迪杰斯特拉算法)