效率非常高的FN算法Python实现

基本概念
优化实现
对比实验

前几期推送介绍了一些非重叠社区发现算法（GN算法、FN算法），比较适用于小网络社区检测。FN算法计算效率相较于GN算法有一定提升，且社区划分效果不错。以下是GN、FN算法具体介绍和对比：

社区发现之GN算法Python实现
社区发现之FN算法Python实现

在社区发现之FN算法Python实现中，需要多次计算合并两个社区的增益 Δ Q \Delta{Q} ΔQ，但是 Δ Q \Delta{Q} ΔQ的计算方式的不同也会影响算法最终的一个计算效率，因此本文针对 Δ Q \Delta{Q} ΔQ的计算方式进行了一些优化，相较于社区发现之FN算法Python实现中的计算效率有很大提升。以下是优化前后计算时间在不同网络下的对比（第一列是测试用例及网络规模，第二、三列为Q和计算时间，FN：优化前，Fast-N：优化后）。

Newman, M. E. J. ,2004. Fast algorithm for detecting community structure in networks. phys rev e stat nonlin soft matter phys, 69, 066133.

去看原文

基本概念

在社区中有几个关键概念需要先进行说明，以下是FN社区合并的一个示意图：

FN算法是一种层次聚类算法。起初每个节点都是一个类。每次合并让Q值增加（即 Δ Q \Delta{Q} ΔQ）最大的一对节点，重复这个过程，直到所有节点都在一个社区为止。在这个合并的过程中，选择Q值（社区发现评估指标）最大的作为最终划分结果。

Δ Q = 2 ( e i j − a i a j ) \Delta{Q}=2(e_{ij}-a_ia_j) ΔQ=2(eij−aiaj)
其中， e i j e_{ij} eij表示连接社区 i i i和社区 j j j的边的比例； a i a_i ai表示连接到社区 i i i的所有末端节点比例， a i = ∑ j e i j a_i=\sum_j{e_{ij}} ai=∑jeij。

那么上图各个社区的几个关键量如下图（注意，为书写方便，以下的量没有除以网络边的总数），并给出这些量合并两个社区的动态更新公式：

同时， e i i e_{ii} eii这个量可以用来计算模块度Q。因此，我们需要将上述三个量在算法计算过程中进行保存，并在合并社区后进行动态更新，就无需采用遍历的方式重新计算这些量。

优化实现

在这里，为了方便设计数据结构来存储中间变量，我们不使用Python任何第三方库进行实现。

# -*- coding: utf-8 -*-
# @Author: 武辛
# @Email: geo_data_analysis@163.com
# @Note: 如有疑问，可加微信"wxid-3ccc"
# @All Rights Reserved!

import sys, copy, time

def FN():print("load the network...")network = loadNetwork("network/test.txt")
max_Q = float("-inf"); partition = Nonestart_time = time.time()while len(network.Communities) > 0:print("left %d communities need to merge, waiting..." % len(network.Communities))det_Q = float("-inf")max_link = Nonefor link in network.Links.values():community_i = link[0]community_j = link[1]
if community_i == community_j: continue
# 计算两个community的det_Qcur_Q = cal_det_Q(network, community_i, community_j)
# 找到合并两个community Q值增加最大的进行合并if cur_Q > det_Q:det_Q = cur_Qmax_link = linkif max_link is None: break
# 合并两个community，将社区j合并到社区i中community_i = max_link[0]community_j = max_link[1]merge(network, community_i, community_j)
# 合并社区j后，更新社区i的e_ii,a_i,e_ij信息update_community_info(network, community_i, community_j)
# 删除边ijdel network.Links[max_link]
# 计算合并社区ij后的模块度cur_Q = cal_Q(network)if cur_Q > max_Q:max_Q = cur_Qpartition = copy.deepcopy(list(network.Communities.values()))
t2 = time.time()print("Find %d communities after %.3f seconds, the maximal Q is %.3f" % (len(partition), t2 - start_time, max_Q))

if __name__ == '__main__':FN()

load the network...
left 22 communities need to merge, waiting...
left 21 communities need to merge, waiting...
left 20 communities need to merge, waiting...
left 19 communities need to merge, waiting...
left 18 communities need to merge, waiting...
left 17 communities need to merge, waiting...
left 16 communities need to merge, waiting...
left 15 communities need to merge, waiting...
left 14 communities need to merge, waiting...
left 13 communities need to merge, waiting...
left 12 communities need to merge, waiting...
left 11 communities need to merge, waiting...
left 10 communities need to merge, waiting...
left 9 communities need to merge, waiting...
left 8 communities need to merge, waiting...
left 7 communities need to merge, waiting...
left 6 communities need to merge, waiting...
left 5 communities need to merge, waiting...
left 4 communities need to merge, waiting...
left 3 communities need to merge, waiting...
left 2 communities need to merge, waiting...
left 1 communities need to merge, waiting...
Find 3 communities after 0.006 seconds, the maximal Q is 0.528

对比实验

为了验证该算法的效率，我们采用了几个网络（自定义测试网络、dolphins、football、collaboration）来进行对比实验，以下是这几个网络的详细信息：

collaboration网络（9875个节点，25973条边）用优化后的FN算法（见）需要989.2秒出结果，先前的实现方式需要12小时以上（时间太长，没有跑完）。可以看出，通过动态更新的方式可以很大程度上提升FN的计算效率。

去看原文

更多内容，请关注地学分析与算法。