从 pyspark 数据框中删除第一行
Posted
技术标签:
【中文标题】从 pyspark 数据框中删除第一行【英文标题】:remove first row from pyspark dataframe 【发布时间】:2022-01-23 20:11:04 【问题描述】:只是一个一般性问题。有谁知道如何删除 pyspark 数据框的整个第一行。 我曾尝试使用以下代码,但这使我的数据框 parquet 输出为空:
updated_bulk=bulk_spark_df.filter
(merged_mas_bulk_spark_df.'Number!='part=')
数字是一列,部分是第一行中出现的数据
【问题讨论】:
updated_bulk = bulk_spark_df.filter("Number != 'part='")
如何确定第一行是什么?数据框是否按特定列排序?
我认为我的问题的措辞并不完整。它的基本作用是在转换为镶木地板文件时复制第一行(从熊猫的角度考虑的行)。因此,在 apache parquet 中打开时,我会查看列下方的第一“行”。
【参考方案1】:
使用以下数据框。
df.show()
+---+----+---+
| ID|NAME|AGE|
+---+----+---+
| 1|John| 50|
| 2|Anna| 32|
| 3|Josh| 41|
| 4|Paul| 98|
+---+----+---+
你可以像这样删除第一行。
df2 = spark.createDataFrame(df.tail(df.count()-1), df.schema)
df2.show()
+---+----+---+
| ID|NAME|AGE|
+---+----+---+
| 2|Anna| 32|
| 3|Josh| 41|
| 4|Paul| 98|
+---+----+---+
【讨论】:
以上是关于从 pyspark 数据框中删除第一行的主要内容,如果未能解决你的问题,请参考以下文章