论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》

论文标题:Self-supervised Graph Neural Networks without explicit negative sampling论文作者:Zekarias T. Kefato, Sarunas Girdzijauskas论文来源:2021, WWW论文地址:download 论文代码:download 

1 介绍


    • 使用孪生网络隐式实现对比学习;
    • 本文提出四种特征增强方式(FA); 

2 相关工作

Graph Neural Networks

  GCN 和 GAT 存在的一个问题:GCN 和 GAT 需要全批处理训练,也就是说,整个图($H$)应该被加载到内存中,这使得它们是可转换的,不能扩展到大型网络。

3 方法

3.1 数据增强


    • 基于随机游走的 $text{PageRank}$ 算法:

      $boldsymbol{H}^{P P R}=alpha(boldsymbol{I}-(1-alpha) tilde{A})^{-1} quadquadquad(2)$      $boldsymbol{H}^{H K}=exp left(t A D^{-1}-tright)quadquadquad(3)$

         其中 $alpha$ 是心灵传输概率 ,$t$ 是扩散时间

    • 基于 $text{Katz}$ 指标的算法:

      $boldsymbol{H}^{k a t z}=(I-beta tilde{A})^{-1} beta tilde{A}quadquadquad(4)$



    • Split:特征 $X$ 拆分成两部分 $boldsymbol{X}=boldsymbol{X}[:,: F / 2]$  和  $boldsymbol{X}^{prime}=boldsymbol{X}[:, F / 2:]$ ,然后分别用于生成两个视图。
    • Standardize:特征矩阵进行  z-score standardization :

      ${large X^{prime}=left(frac{X^{T}-bar{x}}{s}right)^{T}} $

      其中 $bar{x} in mathbb{R}^{F times 1}$ 和  $s in mathbb{R}^{F times 1}$  是与每个特征相关联的均值向量标准差向量

    • Local Degree Profile (LDP):提出了一种基于节点局部度轮廓计算出的五个统计量的节点特征构建机制 $mathbf{X}^{prime} in mathbb{R}^{N times 5}$ ,然后使用零填充 $X^{prime} in mathbb{R}^{N times F}$ 使其维度与 $X$ 一致。 
    • Paste:是一种功能增强技术,它简单地结合了 $X$ 和 LDP 功能,如增强功能 $boldsymbol{X}^{prime} in mathbb{R}^{N times(F+5)}$。在这种情况下,在原始特征矩阵 $X$ 上应用了一个零填充,例如 $X in mathbb{R}^{N times(F+5)}$ 。

3.2 框架



论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》


    • 组件一:生成视图,$any(G)$ 是对原始图 $G$ 从拓扑或特征层面进行数据增强;
    • 组件二:图自编码器 $f_{theta}$ 和 $f_{phi}$,一种堆叠架构,如 Figure 2 (A) 所示。概括为:$X_{1}=f_{theta}left(G_{1}right)$, $X_{2}=f_{phi}left(G_{2}right)$;
    • 组件三:孪生网络(Siamese Network,用于评估两个输入样本的相似性)是一个投影头,类似$g_{theta}$的架构,如 Figure 2 (B) 所示。本文在这发现使用这个投影头对性能没有多大提升,所以实际上并没有使用;
    • 组件四:预测块(prediction block),对学生网络(左边)使用,这个预测块可以是 MLP ,也可以是  $g_{theta}$,架构如Figure 2 (B) 所示。学生网络用于从教师网络(右边)中学到有用的信息;【$g_{theta}left(mathbf{X}_{1}right) approx mathbf{X}_{2}$】


论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》



    $mathcal{L}_{theta}=2-2 cdot frac{leftlangle g_{theta}left(X_{1}right), X_{2}rightrangle}{left|g_{theta}left(X_{1}right)right|_{F} cdotleft|X_{2}right|_{F}}quadquadquad(5)$

  教师网络参数通过学生网络使用指数移动平均(EMA,exponential moving average)进行更新。指数移动平均如下:

    $phi leftarrow tau phi+(1-tau) thetaquadquadquad(6)$

  这里 $tau$ 是衰减率。

4 实验


    • citation networks (Cora, Citeseer, Pubmed)
    • author collaboration networks (CS, Physics)
    • co-purchased products network (Photo, Computers)


论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》


    • 70/10/20–train/validation/test
    • $alpha=0.15$, $t=3$, $beta=0.1$

  与原始 GNN 的比较:


论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》

  对比 ClusterSelfGNN 性能的提升:


论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》

  与自监督 GNN 的比较:


论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》



论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》

   Split 策略的有效性:


论文解读(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》

5 结论



