PySpark Python使用列对数据框进行排序

Posted 2023-03-28

技术标签:

【中文标题】PySpark Python使用列对数据框进行排序【英文标题】：PySpark Python Sorting dataframe using a column 【发布时间】：2020-01-11 12:53:51 【问题描述】：

所以我有 2 个问题我认为对于有 PySpark 经验的人来说应该是基本的，但我似乎无法解决它们。

我的csv 文件中的示例条目是-

"dfg.AAIXpWU4Q","1"
"cvbc.AAU3aXfQ","1"
"T-L5aw0L1uT_OfFyzbk","1"
"D9TOXY7rA_LsnvwQa-awVk","2"
"JWg8_0lGDA7OCwWcH_9aDc","2"
"ewrq.AAbRaACr2tVh5wA","1"
"ewrq.AALJWAAC-Qku3heg","1"
"ewrq.AADStQqmhJ7A","2"
"ewrq.AAEAABh36oHUNA","1"
"ewrq.AALJABfV5u-7Yg","1"

我创建了以下数据框-

>>> df2.show(3)
+-------+----+
|user_id|hits|
+-------+----+
|"aYk...| "7"|
|"yDQ...| "1"|
|"qUU...|"13"|
+-------+----+
only showing top 3 rows

首先，这是将hits 列转换为IntegerType() 的正确方法吗？为什么所有值都变成null？

>>> df2 = df2.withColumn("hits", df2["hits"].cast(IntegerType()))
>>> df2.show(3)
+-------+----+
|user_id|hits|
+-------+----+
|"aYk...|null|
|"yDQ...|null|
|"qUU...|null|
+-------+----+
only showing top 3 rows

其次，我需要按照hits 列的降序对这个列表进行排序。所以，我尝试了这个-

>>> df1 = df2.sort(col('hits').desc())
>>> df1.show(20)

但我收到以下错误-

java.lang.IllegalStateException: Input row doesn't have expected number of values required by the schema. 2 fields are required while 18 values are provided.

我猜这是因为我创建数据框时使用-

>>> rdd = sc.textFile("/path/to/file/*")
>>> rdd.take(2)
['"7wAfdgdfgd","7"', '"1x3Qdfgdf","1"']

>>> my_df = rdd.map(lambda x: (x.split(","))).toDF()

>>> df2 = my_df.selectExpr("_1 as user_id", "_2 as hits")
>>> df2.show(3)
+-------+----+
|user_id|hits|
+-------+----+
|"aYk...| "7"|
|"yDQ...| "1"|
|"qUU...|"13"|
+-------+----+
only showing top 3 rows

我猜有些行中有多余的逗号。如何避免这种情况 - 或者阅读此文件的最佳方式是什么？

【问题讨论】：

【参考方案1】：

更新

-- 增加文件读取和拆分

看上面的例子，创建了一个这样的文件

'"7wAfdgdfgd","7"'
'"1x3Qdfgdf","1"'
'"13xxyyzzsdff","13"'

--请注意' 将所有行设为单个字符串现在阅读它的代码：

scala> val myRdd = sc.textFile("test_file.dat")
myRdd: org.apache.spark.rdd.RDD[String] = test_file.dat MapPartitionsRDD[1] at textFile at <console>:24
// please check the type of RDD , here it is string
// We need to have Iterable[tuple(String,String)] to convert it into Dataframe

scala> myRdd.map(x => x.replace("'","")).map(x => x.split(",")).map( x => (x(0),x(1)))
res0: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[4] at map at <console>:26

// Finally
    scala> myRdd.map(x => x.replace("'","")).map(x => x.split(",")).map( x => (x(0),x(1))).toDF("user_id","hits").show(false)
+--------------+----+
|user_id       |hits|
+--------------+----+
|"7wAfdgdfgd"  |"7" |
|"1x3Qdfgdf"   |"1" |
|"13xxyyzzsdff"|"13"|
+--------------+----+

更新结束

由于您是新手（或其他人），我建议/练习运行实际的 ANSI sql 而不是 pyspark.sql.functions。它易于维护 + 使用 sql.functions 比使用 ansi sql 没有任何优势。显然，您需要了解 spark 提供的 sql/columns 函数，因为我在回答中使用了 split、orderBy 和 cast。由于您没有提供 text file 的内容，因此这是我的看法以及一个 SQL 中的所有 3 个答案

    myDf = spark.createDataFrame([("abc","7"),("xyz","18"),("lmn","4,xyz")],schema=["user_id","hits"])
myDf.show(20,False)
+-------+-----+
|user_id|hits |
+-------+-----+
|abc    |7    |
|xyz    |18   |
|lmn    |4,xyz|
+-------+-----+

myDf.createOrReplaceTempView("hits_table")

SQL + 结果

    spark.sql("select user_id, cast(split(hits,',')[0] as integer) as hits from hits_table order by hits desc ").show(20,False)
    +-------+----+
    |user_id|hits|
    +-------+----+
    |xyz    |18  |
    |abc    |7   |
    |lmn    |4   |
    +-------+----+

【讨论】：

你能像我一样从 RDD 创建数据帧吗？我认为my_df = rdd.map(lambda x: (x.split(","))).toDF() 是我问题的根本原因。我收到错误

Input row doesn't have expected number of values required by the schema. 2 fields are required while 18 values are provided.

您正在使用简单数据创建数据框。 @kev，你能粘贴原始数据的样本吗？ @kev，请检查我在读为 RDD 上的更新答案，将其拆分并转换为数据框。还展示了类型如何随每个操作而变化你能给我 Python 的答案吗？ @kev Python 不使用“[]”来获取列表的索引吗？ () 会起作用吗？【参考方案2】：

所以，w.r.t @SanBan 回答，我想出了以下结果-

>>> rdd = sc.textFile("/home/jsanghvi/work/buffer/*")

>>> schema =  StructType([StructField ("user_id", StringType(), True), StructField ("hits", StringType(), True)])

>>> my_rdd = rdd.map(lambda x: x.replace("'","")).map(lambda x: x.split(",")).map(lambda x: (x[0],x[1]))

>>> my_rdd2 = my_rdd.map(lambda x: str(x).replace("'","").replace("(", "").replace(")", "")).map(lambda x: x.split(",")).map(lambda x: (x[0],x[1]))

>>> df1 = spark.createDataFrame(my_rdd2, schema)

>>> dfx = df1.sort(col('hits').desc())

>>> dfx.show(5)
+----------------+--------------------+                                     
|         user_id|                hits|
+----------------+--------------------+
|"AUDIO_AUTO_PLAY| EXPANDABLE_AUTOM...|
|       "user_id"|             "_col1"|
| "AAESjk66lDk...|              "9999"|
| "ABexsk6sLlc...|              "9999"|
| "AAgb1k65pHI...|              "9999"|
+----------------+--------------------+

# removing garbage rows
>>> dfx = df2.filter(~col("hits").isin(["_col1", "EXPANDABLE_AUTOM..."]))

【讨论】：

以上是关于PySpark Python使用列对数据框进行排序的主要内容，如果未能解决你的问题，请参考以下文章

PySpark - 按第二列对 RDD 进行排序

使用 1 列对数据框进行排序

如何根据基于其他列的列对数据框进行排序[重复]

按两列对数据框进行排序（有条件）[重复]

按字符和日期列对数据框进行排序

按列对python数组/recarray进行排序