深度学习系列23:infomap进行聚类

Posted IE06

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习系列23:infomap进行聚类相关的知识,希望对你有一定的参考价值。

1. 原理与安装

安装:最新版本安装有点问题,pip install infomap==1.0.1
原理:图中随机游走时,若节点间转换的概率一样,则随机游走在群内停留时间更长。infoMap 的想法是将每个节点的编码分为两个部分模块码和节点码,模块码用于区分图中不同的群,节点码用于区分相同模块内不同节点。不同模块节点的模块码不同,但节点码可能相同。
实现:1. 计算节点访问概率:对于每个节点 ,有两种方式跳转:要么以 1-r 的概率从节点 a 的连接边中选择一条边进行跳转,选每条边的概率正比于边的权重;要么以 r 的概率从节点 a 随机的跳到图上其他任意一点。重复直到收敛;2. 对图里的节点随机采样出一个序列,按顺序依次尝试将每个节点赋给邻居节点所在的社区,取平均比特下降最大时的社区赋给该节点,如果没有下降,该节点的社区不变,重复直至收敛。

2. 案例测试

这里是在线测试的网站:https://www.mapequation.org/infomap/
下面是简单的应用代码:

from infomap import Infomap

# Command line flags can be added as a string to Infomap
im = Infomap("--two-level --directed")

# Add weight as optional third argument
im.add_link(0, 1)
im.add_link(0, 2)
im.add_link(0, 3)
im.add_link(1, 0)
im.add_link(1, 2)
im.add_link(2, 1)
im.add_link(2, 0)
im.add_link(3, 0)
im.add_link(3, 4)
im.add_link(3, 5)
im.add_link(4, 3)
im.add_link(4, 5)
im.add_link(5, 4)
im.add_link(5, 3)

# Run the Infomap search algorithm to find optimal modules
im.run()

print(f"Found im.num_top_modules modules with codelength: im.codelength")

print("Result")
print("\\n#node module")
for node in im.tree:
    if node.is_leaf:
        print(node.node_id, node.module_id)

3. api说明

详见:https://mapequation.github.io/infomap/python/infomap.html
通过im.codelength获得最后优化后的长度。

使用

im.add_node(2)
im.add_link(1, 2)

手动添加nodes和links,
可以使用下面的方式批量添加nodes和links:

im.add_nodes(range(4))
links = (
    (1, 2),
    (1, 3)
)
im.add_links(links)

另一种读文件的方式如下:

im = Infomap(silent=True, num_trials=10)
im.read_file("ninetriangles.net")
im.run()

此外可以读取networkx的网络:

import networkx as nx
from infomap import Infomap
G = nx.Graph([("a", "b"), ("a", "c")])
im = Infomap(silent=True)
mapping = im.add_networkx_graph(G)
mapping
0: 'a', 1: 'b', 2: 'c'
im.run()
for node in im.nodes:
    print(node.node_id, node.module_id, node.flow, mapping[node.node_id])

获取结果的几种方式:



4. 配合faiss

见https://github.com/xiaoxiong74/face-cluster-by-infomap,在开源数据集上达到了SOTA的效果。
我们看一下face-cluster-by-infomap.py的核心代码,并不复杂:

其中有一个重要的方法就是get_links了,使用faiss加速,这里使用的是取top-k然后排序的方式。如果有GPU的话,可以考虑进行加速:

以上是关于深度学习系列23:infomap进行聚类的主要内容,如果未能解决你的问题,请参考以下文章

深度学习小知识K-means聚类

数据聚类|深度聚类Unsupervised Deep Embedding for Clustering Analysis(DEC)论文研读

数据聚类|深度聚类Unsupervised Deep Embedding for Clustering Analysis(DEC)论文研读

图像聚类-谱聚类

谱聚类

图像聚类-层次聚类