如何在火花中处理 Integer.MAX_VALUE? [关闭]
Posted
技术标签:
【中文标题】如何在火花中处理 Integer.MAX_VALUE? [关闭]【英文标题】:How to handle Integer.MAX_VALUE in spark? [closed] 【发布时间】:2016-06-23 13:22:08 【问题描述】:我想知道为什么随机森林分类不支持 Spark 中的大量观察。如果我给超过 7500 我得到了
org.apache.spark.SparkException:作业因阶段失败而中止:阶段 4.0 中的任务 0 失败 1 次,最近一次失败:阶段 4.0 中丢失任务 0.0(TID 7,本地主机):java.lang.IllegalArgumentException:大小超过 Integer.MAX_VALUE
【问题讨论】:
您能否提供一个可重现的示例。为什么您的代码失败的原因很明显,可能的解决方案因上下文而异。 你要我提供用过的数据集还是什么? 不,但代码很有用。查看关闭的原因。 【参考方案1】:这是由于 Spark 的限制。 spark中块的底层抽象是一个ByteBuffer,它将块的大小限制为2GB。 这不仅对使用中的托管块有影响,而且对洗牌块也有影响。这是火花在非平凡数据集上使用时的问题。
【讨论】:
这个有没有解决办法 暂时没有。以上是关于如何在火花中处理 Integer.MAX_VALUE? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章