如何从 pyspark 中的数据框中仅选择 70% 的重新编码?

Posted

技术标签:

【中文标题】如何从 pyspark 中的数据框中仅选择 70% 的重新编码?【英文标题】:how to select only to 70% of recodes from dataframe in pyspark? 【发布时间】:2019-06-04 08:33:21 【问题描述】:

我有一个如下所示的数据框

+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
|   D|    1|0.047619047619047616|
|   F|    1|0.047619047619047616|
+----+-----+--------------------+

我只想从 pyspark.i.e. 中的给定数据框中选择前 75% 的记录

+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
+----+-----+--------------------+

【问题讨论】:

【参考方案1】:

您可以计算数据框的大小乘以0.75 并使用limit 函数。它看起来像这样:

df75 = df.limit(int(df.count() * 0.75))

【讨论】:

以上是关于如何从 pyspark 中的数据框中仅选择 70% 的重新编码?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 jquery 从 asp.net 列表框中仅获取当前选定的选项

r 从数据框中仅选择伦敦当局

如何从 PySpark 中的数据框中获取模式定义?

Python:如何从数据框中仅提取年月日[重复]

PySpark - 如何根据列中的两个值从数据框中过滤出连续的行块

使用 spark-xml 从 pyspark 数据框中选择嵌套列