为啥 spark 中的 sample 和减去方法会给出这样的结果

Posted

技术标签:

【中文标题】为啥 spark 中的 sample 和减去方法会给出这样的结果【英文标题】:why the sample and subtract method in spark give results like this为什么 spark 中的 sample 和减去方法会给出这样的结果 【发布时间】:2016-04-05 03:24:48 【问题描述】:
df=sqlContext.read.parquet("/user/data.parquet")

读取镶木地板文件

df.count()<br/>

计数

8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>

train.count()

计算火车组

6594476
test.count()

计数测试集

117790

显然659w+11w不等于824w,javaRDD也有这个问题。

【问题讨论】:

顺便说一句,您可能想改用randomSplit 【参考方案1】:

看来我的 800w 有重复值……它需要在采样之前“区分”

【讨论】:

以上是关于为啥 spark 中的 sample 和减去方法会给出这样的结果的主要内容,如果未能解决你的问题,请参考以下文章

为啥 spark 中的“收集”动作会触发数据收集到驱动程序?

为啥减去这两次(在 1927 年)会产生奇怪的结果?

Spark - HiveContext |错误的时间戳(减去 4 小时)

线程“main”中的异常 java.lang.ClassNotFoundException: sample.Main - 为啥?

Spark:减去两个DataFrame

为啥减去两个本地 DateTime 值似乎不能说明夏令时?