PySpark:如何从一个巨大的 RDD 中获取样本 RDD?
Posted
技术标签:
【中文标题】PySpark:如何从一个巨大的 RDD 中获取样本 RDD?【英文标题】:PySpark : How to take a sample RDD from a huge RDD? 【发布时间】:2015-07-24 17:44:16 【问题描述】:我在处理以 RDD 作为参数的函数时正在寻找调试选项。由于有一个巨大的 RDD,我想用它的一个子集来开发这个功能。
如何制作 RDD 的子集? 新样本应该是 RDD 吗?
【问题讨论】:
【参考方案1】:哦!
我知道了,我们可以使用示例函数
sample(self, withReplacement, fraction, seed=None)
返回此 RDD 的采样子集(依赖于 numpy,如果 numpy 不可用,则使用默认随机生成器)。
【讨论】:
以上是关于PySpark:如何从一个巨大的 RDD 中获取样本 RDD?的主要内容,如果未能解决你的问题,请参考以下文章
如何删除元素如何根据另一个rdd从一个rdd中删除元素并在pyspark中创建新的rdd?