与 Pyspark 合并

Posted 2023-04-17

技术标签:

【中文标题】与 Pyspark 合并【英文标题】：Merge with Pyspark 【发布时间】：2016-12-09 20:06:11 【问题描述】：

我正在使用 Pyspark，我有 Spark 1.6。我想将一些价值观归为一类。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我会将总价值少于 10% 的所有项目组合在一起（在这种情况下，C 和 D 将被组合成新值“其他”）

所以，新表看起来像

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有人知道一些功能或简单的方法吗？非常感谢您的帮助

【问题讨论】：

【参考方案1】：

您可以对数据框进行两次过滤，以获取一个仅包含您想要保留的值的数据框，一个仅包含其他值的数据框。对其他数据帧执行聚合以对它们求和，然后将两个数据帧重新组合在一起。根据数据，您可能希望在所有这些之前保留原始数据帧，以便不需要对其进行两次评估。

【讨论】：

谢谢，您的回答会很有帮助。

以上是关于与 Pyspark 合并的主要内容，如果未能解决你的问题，请参考以下文章