为啥 spark 中的 sample 和减去方法会给出这样的结果
Posted
技术标签:
【中文标题】为啥 spark 中的 sample 和减去方法会给出这样的结果【英文标题】:why the sample and subtract method in spark give results like this为什么 spark 中的 sample 和减去方法会给出这样的结果 【发布时间】:2016-04-05 03:24:48 【问题描述】:df=sqlContext.read.parquet("/user/data.parquet")
读取镶木地板文件
df.count()<br/>
计数
8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>
train.count()
计算火车组
6594476
test.count()
计数测试集
117790
显然659w+11w不等于824w,javaRDD也有这个问题。
【问题讨论】:
顺便说一句,您可能想改用randomSplit
。
【参考方案1】:
看来我的 800w 有重复值……它需要在采样之前“区分”
【讨论】:
以上是关于为啥 spark 中的 sample 和减去方法会给出这样的结果的主要内容,如果未能解决你的问题,请参考以下文章
为啥 spark 中的“收集”动作会触发数据收集到驱动程序?
Spark - HiveContext |错误的时间戳(减去 4 小时)
线程“main”中的异常 java.lang.ClassNotFoundException: sample.Main - 为啥?