熊猫:在 groupby 'date' 中删除重复项

Posted

技术标签:

【中文标题】熊猫:在 groupby \'date\' 中删除重复项【英文标题】:pandas: drop duplicates in groupby 'date'熊猫:在 groupby 'date' 中删除重复项 【发布时间】:2016-09-03 11:43:34 【问题描述】:

在下面的数据框中,我想消除重复的cid 值,以便df.groupby('date').cid.size() 的输出与df.groupby('date').cid.nunique() 的输出相匹配。

我看过这个post,但它似乎没有解决问题的可靠方法。

df = pd.read_csv('https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df')

df.groupby('date').cid.size()

date
2005       7
2006     237
2007    3610
2008    1318
2009    2664
2010     997
2011    6390
2012    2904
2013    7875
2014    3979

df.groupby('date').cid.nunique()

date
2005      3
2006     10
2007    227
2008     52
2009    142
2010     57
2011    219
2012     99
2013    238
2014    146
Name: cid, dtype: int64

我尝试过的事情:

    df.groupby([df['date']]).drop_duplicates(cols='cid') 给出此错误:AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method df.groupby(('date').drop_duplicates('cid')) 给出此错误:AttributeError: 'str' object has no attribute 'drop_duplicates'

【问题讨论】:

您的第二个属性错误只是由执行此引起的:('date').drop_duplicates('cid'),它与熊猫无关。实际上,错误消息告诉您'date',一个str 类型对象,没有一个名为drop_duplicates 的属性。 【参考方案1】:

您不需要 groupby 根据几列删除重复项,您可以指定一个子集:

df2 = df.drop_duplicates(["date", "cid"])
df2.groupby('date').cid.size()
Out[99]: 
date
2005      3
2006     10
2007    227
2008     52
2009    142
2010     57
2011    219
2012     99
2013    238
2014    146
dtype: int64

【讨论】:

感谢您的评论!是的,这行得通!我想知道某种子集。

以上是关于熊猫:在 groupby 'date' 中删除重复项的主要内容,如果未能解决你的问题,请参考以下文章

Groupby - 具有重复值的熊猫 df 计数

如何对熊猫中的多索引进行分组?

groupby - python 熊猫数据框

如何在python的这个熊猫数据框中使用groupby或pivot [重复]

熊猫有效地将groupby函数应用于每一列[重复]

计算熊猫中的groupby(几列)平均值[重复]