如何使用python pandas删除csv中列中的精确重复项
Posted
技术标签:
【中文标题】如何使用python pandas删除csv中列中的精确重复项【英文标题】:How to delete an exact duplicates in a column in csv using python pandas 【发布时间】:2022-01-14 11:22:56 【问题描述】:所以我正在做一些基本的数据处理。在“updated_at”列中,我多次显示相同的值。如何删除除一个以外的所有内容?希望图片有帮助。如果你们需要更多说明,请告诉我。
df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()
我试过上面的代码,但没有用
[图片]
【问题讨论】:
【参考方案1】:import pandas as pd
df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df
【讨论】:
【参考方案2】:如果您只需要考虑列 updated_add 您可以使用下面的代码。如果您需要在删除行之前所有列中的元素相同,则可以选择删除子集参数。
data.drop_duplicates(subset ="updated_at", inplace = True)
查看下面的链接了解更多选项 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html
【讨论】:
以上是关于如何使用python pandas删除csv中列中的精确重复项的主要内容,如果未能解决你的问题,请参考以下文章
使用Python中的循环一一删除数据框中列中具有最小值的观察值
如何在 python 中使用 matplotlib 和 pandas 绘制 CSV 数据