如何使用python pandas删除csv中列中的精确重复项

Posted 2023-03-29

技术标签:

【中文标题】如何使用python pandas删除csv中列中的精确重复项【英文标题】：How to delete an exact duplicates in a column in csv using python pandas 【发布时间】：2022-01-14 11:22:56 【问题描述】：

所以我正在做一些基本的数据处理。在“updated_at”列中，我多次显示相同的值。如何删除除一个以外的所有内容？希望图片有帮助。如果你们需要更多说明，请告诉我。

df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()

我试过上面的代码，但没有用

[图片]

【问题讨论】：

【参考方案1】：

import pandas as pd

df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df

【讨论】：

【参考方案2】：

如果您只需要考虑列 updated_add 您可以使用下面的代码。如果您需要在删除行之前所有列中的元素相同，则可以选择删除子集参数。

data.drop_duplicates(subset ="updated_at", inplace = True)

查看下面的链接了解更多选项 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

【讨论】：

以上是关于如何使用python pandas删除csv中列中的精确重复项的主要内容，如果未能解决你的问题，请参考以下文章

如何在 Pandas 的列中删除不包含字符串类型的行？

使用Python中的循环一一删除数据框中列中具有最小值的观察值

如何在 python 中使用 matplotlib 和 pandas 绘制 CSV 数据

从 csv 中提取列中的数据，保存为字典（Python、Pandas）

使用 Pandas 读取 CSV 时如何在列中保持前导零？

使用 python pandas 在多个列中进行选择？