从 pyspark 数据框中删除第一行

Posted

技术标签:

【中文标题】从 pyspark 数据框中删除第一行【英文标题】:remove first row from pyspark dataframe 【发布时间】:2022-01-23 20:11:04 【问题描述】:

只是一个一般性问题。有谁知道如何删除 pyspark 数据框的整个第一行。 我曾尝试使用以下代码,但这使我的数据框 parquet 输出为空:

updated_bulk=bulk_spark_df.filter
(merged_mas_bulk_spark_df.'Number!='part=')

数字是一列,部分是第一行中出现的数据

【问题讨论】:

updated_bulk = bulk_spark_df.filter("Number != 'part='") 如何确定第一行是什么?数据框是否按特定列排序? 我认为我的问题的措辞并不完整。它的基本作用是在转换为镶木地板文件时复制第一行(从熊猫的角度考虑的行)。因此,在 apache parquet 中打开时,我会查看列下方的第一“行”。 【参考方案1】:

使用以下数据框。

df.show()
+---+----+---+
| ID|NAME|AGE|
+---+----+---+
|  1|John| 50|
|  2|Anna| 32|
|  3|Josh| 41|
|  4|Paul| 98|
+---+----+---+

你可以像这样删除第一行。

df2 = spark.createDataFrame(df.tail(df.count()-1), df.schema)

df2.show()
+---+----+---+
| ID|NAME|AGE|
+---+----+---+
|  2|Anna| 32|
|  3|Josh| 41|
|  4|Paul| 98|
+---+----+---+

【讨论】:

以上是关于从 pyspark 数据框中删除第一行的主要内容,如果未能解决你的问题,请参考以下文章

从pyspark中的文本文件中删除第一行和最后一行

如何使用模式匹配从 pyspark 数据框中删除行?

从 PySpark 中的数据框中删除重复项

从 PySpark 中的数据框中删除重复项

从 pyspark 数据框中删除空列

Pyspark - 从数据框中删除重复项,保持最后一次出现