如何根据Pyspark中数据框中的条件设置新的列表值?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何根据Pyspark中数据框中的条件设置新的列表值?相关的知识,希望对你有一定的参考价值。
我有一个像下面这样的DataFrame。
+---+------------------------------------------+
|id |features |
+---+------------------------------------------+
|1 |[6.629056, 0.26771536, 0.79063195,0.8923] |
|2 |[1.4850719, 0.66458416, -2.1034079] |
|3 |[3.0975454, 1.571849, 1.9053307] |
|4 |[2.526619, -0.33559006, -1.4565022] |
|5 |[-0.9286196, -0.57326394, 4.481531] |
|6 |[3.594114, 1.3512149, 1.6967168] |
+---+------------------------------------------+
我想根据下面的条件来设置我的一些功能值。即其中id=1
,id=2
或id=6
。
我想设置新的功能值id=1
,我当前的功能值是[6.629056, 0.26771536, 0.79063195,0.8923]
,但我想设置[0,0,0,0]
。
我想设置新的功能值id=2
,我当前的功能值是[1.4850719, 0.66458416, -2.1034079]
,但我想设置[0,0,0]
。
我的最终出局将是:
+------+-----------------------------------+
|id | features |
+-----+---------------------------------- -+
|1 | [0, 0, 0, 0] |
|2 | [0,0,0] |
|3 | [3.0975454, 1.571849, 1.9053307] |
|4 | [2.526619, -0.33559006, -1.4565022] |
|5 | [-0.9286196, -0.57326394, 4.481531] |
|6 | [0,0,0] |
+-----+------------------------------------+
Shaido的答案很好,如果你有一套有限的id
,你知道相应的feature
的长度。
如果不是这样,那么使用UDF应该更干净,并且要转换的qazxswpois可以加载到另一个id
中:
在斯卡拉
Seq
在Python中
val arr = Seq(1,2,6)
val fillArray = udf { (id: Int, array: WrappedArray[Double] ) =>
if (arr.contains(id) ) Seq.fill[Double](array.length)(0.0)
else array
}
df.withColumn("new_features" , fillArray($"id", $"features") ).show(false)
产量
from pyspark.sql import functions as f
from pyspark.sql.types import *
arr = [1,2,6]
def fillArray(id, features):
if(id in arr): return [0.0] * len(features)
else : return features
fill_array_udf = f.udf(fillArray, ArrayType( DoubleType() ) )
df.withColumn("new_features" , fill_array_udf( f.col("id"), f.col("features") ) ).show()
如果您要更改一小组ID,请使用+---+------------------------------------------+-----------------------------------+
|id |features |new_features |
+---+------------------------------------------+-----------------------------------+
|1 |[6.629056, 0.26771536, 0.79063195, 0.8923]|[0.0, 0.0, 0.0, 0.0] |
|2 |[1.4850719, 0.66458416, -2.1034079] |[0.0, 0.0, 0.0] |
|3 |[3.0975454, 1.571849, 1.9053307] |[3.0975454, 1.571849, 1.9053307] |
|4 |[2.526619, -0.33559006, -1.4565022] |[2.526619, -0.33559006, -1.4565022]|
|5 |[-0.9286196, -0.57326394, 4.481531] |[-0.9286196, -0.57326394, 4.481531]|
|6 |[3.594114, 1.3512149, 1.6967168] |[0.0, 0.0, 0.0] |
+---+------------------------------------------+-----------------------------------+
和when
:
otherwise
它应该比df.withColumn("features",
when(df.id === 1, array(lit(0), lit(0), lit(0), lit(0)))
.when(df.id === 2 | df.id === 6, array(lit(0), lit(0), lit(0)))
.otherwise(df.features)))
更快,但如果有很多ID需要改变它很快会变成很多代码。在这种情况下,使用UDF
,如philantrovert的答案。
以上是关于如何根据Pyspark中数据框中的条件设置新的列表值?的主要内容,如果未能解决你的问题,请参考以下文章
PySpark - 如何根据列中的两个值从数据框中过滤出连续的行块
Pyspark:如何将现有非空列的元组列表作为数据框中的列值之一返回
如何使用pyspark将具有多个可能值的Json数组列表转换为数据框中的列