pandas:按'日期'删除组中的重复项
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas:按'日期'删除组中的重复项相关的知识,希望对你有一定的参考价值。
我有以下数据帧:
url='https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df'
df=pd.read_csv(url)
df.groupby('date').cid.size()
date
2005 7
2006 237
2007 3610
2008 1318
2009 2664
2010 997
2011 6390
2012 2904
2013 7875
2014 3979
df.groupby('date').cid.nunique()
date
2005 3
2006 10
2007 227
2008 52
2009 142
2010 57
2011 219
2012 99
2013 238
2014 146
Name: cid, dtype: int64
我想消除重复的cid
values,使得df.groupby('date').cid.size()
的输出与df.groupby('date').cid.nunique()
的输出相匹配。我看过这个post,但似乎没有一个可靠的解决方案。
我尝试过以下方法:
df.groupby([df['date']]).drop_duplicates(cols='cid')
但我得到这个错误:
AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method
还有这个:
df.groupby(('date').drop_duplicates('cid'))
但我得到这个错误:
AttributeError: 'str' object has no attribute 'drop_duplicates'
有人对此有所了解吗?
答案
您不需要groupby基于几列删除重复项,您可以指定一个子集:
df2 = df.drop_duplicates(["date", "cid"])
df2.groupby('date').cid.size()
Out[99]:
date
2005 3
2006 10
2007 227
2008 52
2009 142
2010 57
2011 219
2012 99
2013 238
2014 146
dtype: int64
以上是关于pandas:按'日期'删除组中的重复项的主要内容,如果未能解决你的问题,请参考以下文章
Python数据分析pandas日期范围date_range