如何从 pyspark 中的数据框中仅选择 70% 的重新编码?
Posted
技术标签:
【中文标题】如何从 pyspark 中的数据框中仅选择 70% 的重新编码?【英文标题】:how to select only to 70% of recodes from dataframe in pyspark? 【发布时间】:2019-06-04 08:33:21 【问题描述】:我有一个如下所示的数据框
+----+-----+--------------------+
|test|count| support|
+----+-----+--------------------+
| A| 5| 0.23809523809523808|
| B| 5| 0.23809523809523808|
| C| 4| 0.19047619047619047|
| K| 2| 0.09523809523809523|
| G| 2| 0.09523809523809523|
| L| 1|0.047619047619047616|
| D| 1|0.047619047619047616|
| F| 1|0.047619047619047616|
+----+-----+--------------------+
我只想从 pyspark.i.e. 中的给定数据框中选择前 75% 的记录
+----+-----+--------------------+
|test|count| support|
+----+-----+--------------------+
| A| 5| 0.23809523809523808|
| B| 5| 0.23809523809523808|
| C| 4| 0.19047619047619047|
| K| 2| 0.09523809523809523|
| G| 2| 0.09523809523809523|
| L| 1|0.047619047619047616|
+----+-----+--------------------+
【问题讨论】:
【参考方案1】:您可以计算数据框的大小乘以0.75
并使用limit
函数。它看起来像这样:
df75 = df.limit(int(df.count() * 0.75))
【讨论】:
以上是关于如何从 pyspark 中的数据框中仅选择 70% 的重新编码?的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 jquery 从 asp.net 列表框中仅获取当前选定的选项