PySpark:如何从一个巨大的 RDD 中获取样本 RDD?

Posted

技术标签:

【中文标题】PySpark:如何从一个巨大的 RDD 中获取样本 RDD?【英文标题】:PySpark : How to take a sample RDD from a huge RDD? 【发布时间】:2015-07-24 17:44:16 【问题描述】:

我在处理以 RDD 作为参数的函数时正在寻找调试选项。由于有一个巨大的 RDD,我想用它的一个子集来开发这个功能。

如何制作 RDD 的子集? 新样本应该是 RDD 吗?

【问题讨论】:

【参考方案1】:

哦!

我知道了,我们可以使用示例函数

sample(self, withReplacement, fraction, seed=None)

返回此 RDD 的采样子集(依赖于 numpy,如果 numpy 不可用,则使用默认随机生成器)。

【讨论】:

以上是关于PySpark:如何从一个巨大的 RDD 中获取样本 RDD?的主要内容,如果未能解决你的问题,请参考以下文章

在pyspark如何广播和巨大的rdd?

如何删除元素如何根据另一个rdd从一个rdd中删除元素并在pyspark中创建新的rdd?

如何从 pyspark.rdd.PipelinedRDD 中过滤掉值?

如何在pyspark中获取RDD的键值输出

如何从 Pyspark 中的 RDD 中过滤

如何从 pyspark rdd 或分区中确定原始 s3 输入文件名