如何在 pymongo 中使用“组”对相似的行进行分组?

Posted

技术标签:

【中文标题】如何在 pymongo 中使用“组”对相似的行进行分组?【英文标题】:how to use "group" in pymongo to group similar rows? 【发布时间】:2011-06-27 23:49:50 【问题描述】:

我对 mongodb/pymongo 很陌生。我已成功将我的数据导入 mongo,并希望使用 group 功能将相似的行组合在一起。例如,如果我的数据集如下所示:

data = [uid: 1 , event: 'a' , time: 1 , 
        uid: 1 , event: 'b' , time: 2 ,
        uid: 2 , event: 'c' , time: 2 ,
        uid: 3 , event: 'd' , time: 4
       ]

如何使用group函数根据uid字段对以上行进行分组,输出如下?

  uid: 1 : [uid: 1 , event: 'a' , time: 1 , uid: 1 , event: 'b' , time: 2 ],
   uid: 2 : [uid: 2 , event: 'c' , time: 2 ],
   uid: 3 : [uid: 3 , event: 'd' , time: 4 ] 

我阅读了http://www.mongodb.org/display/DOCS/Aggregation 上的示例。但是,在我看来,这些示例总是聚合成一个数字或对象。

谢谢,

【问题讨论】:

【参考方案1】:

你不需要使用reduce 函数来真正减少任何东西。例如:

>>> coll.insert(dict(uid=1,event='a',time=1))
ObjectId('4d5b91d558839f06a8000000')
>>> coll.insert(dict(uid=1,event='b',time=2))
ObjectId('4d5b91e558839f06a8000001')
>>> coll.insert(dict(uid=2,event='c',time=2))
ObjectId('4d5b91f358839f06a8000002')
>>> coll.insert(dict(uid=3,event='d',time=4))
ObjectId('4d5b91fd58839f06a8000003')
>>> result = coll.group(['uid'], None,
                        'list': [], # initial
                        'function(obj, prev) prev.list.push(obj)') # reducer
>>> len(result) # will show three groups
3
>>> int(result[0]['uid'])
1
>>> result[0]['list']
[u'event': u'a', u'_id': ObjectId('4d5b...0000'), u'uid': 1, u'time': 1,
 u'event': u'b', u'_id': ObjectId('4d5b...0001'), u'uid': 1, u'time': 2]
>>> int(result[1]['uid'])
2
>>> result[1]['list']
[u'event': u'c', u'_id': ObjectId('4d5b...0002'), u'uid': 2, u'time': 2]
>>> int(result[2]['uid'])
3
>>> result[2]['list']
[u'event': u'd', u'_id': ObjectId('4d5b...0003'), u'uid': 3, u'time': 4]

我已经缩短了上面列表中的对象 ID 以提高可读性。

【讨论】:

以上是关于如何在 pymongo 中使用“组”对相似的行进行分组?的主要内容,如果未能解决你的问题,请参考以下文章

如何对相似的类别进行分组?

如何使用 VBA 在 Excel 中求和/合并相似的行?

如何使用 pymongo 重命名 mongodb 数据库?

插入后如何在 PyMongo 中获取对象 ID?

MySQL中具有相似ID的行的列乘法总和

如何在python 2.7中使用pymongo进行多处理池