如何从 pyspark 中的数据框中仅选择 70% 的重新编码？

Posted 2023-04-15

技术标签:

【中文标题】如何从 pyspark 中的数据框中仅选择 70% 的重新编码？【英文标题】：how to select only to 70% of recodes from dataframe in pyspark? 【发布时间】：2019-06-04 08:33:21 【问题描述】：

我有一个如下所示的数据框

+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
|   D|    1|0.047619047619047616|
|   F|    1|0.047619047619047616|
+----+-----+--------------------+

我只想从 pyspark.i.e. 中的给定数据框中选择前 75% 的记录

+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
+----+-----+--------------------+

【问题讨论】：

【参考方案1】：

您可以计算数据框的大小乘以0.75 并使用limit 函数。它看起来像这样：

df75 = df.limit(int(df.count() * 0.75))

【讨论】：

以上是关于如何从 pyspark 中的数据框中仅选择 70% 的重新编码？的主要内容，如果未能解决你的问题，请参考以下文章