如何使用python pandas删除csv中列中的精确重复项

Posted

技术标签:

【中文标题】如何使用python pandas删除csv中列中的精确重复项【英文标题】:How to delete an exact duplicates in a column in csv using python pandas 【发布时间】:2022-01-14 11:22:56 【问题描述】:

所以我正在做一些基本的数据处理。在“updated_at”列中,我多次显示相同的值。如何删除除一个以外的所有内容?希望图片有帮助。如果你们需要更多说明,请告诉我。

df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()

我试过上面的代码,但没有用

[图片]

【问题讨论】:

【参考方案1】:
import pandas as pd

df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df

【讨论】:

【参考方案2】:

如果您只需要考虑列 updated_add 您可以使用下面的代码。如果您需要在删除行之前所有列中的元素相同,则可以选择删除子集参数。

data.drop_duplicates(subset ="updated_at", inplace = True)

查看下面的链接了解更多选项 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

【讨论】:

以上是关于如何使用python pandas删除csv中列中的精确重复项的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Pandas 的列中删除不包含字符串类型的行?

使用Python中的循环一一删除数据框中列中具有最小值的观察值

如何在 python 中使用 matplotlib 和 pandas 绘制 CSV 数据

从 csv 中提取列中的数据,保存为字典(Python、Pandas)

使用 Pandas 读取 CSV 时如何在列中保持前导零?

使用 python pandas 在多个列中进行选择?