Heterophilous Distribution Propagation for Graph Neural Networks

推荐指数:2颗星
HDP不是聚集所有邻居信息,而是根据训练期间的伪标签自适应的将邻居分为同配和异配.并通过原型对比,垂直约束异配邻居分布

前人的问题

请添加图片描述

1.邻居划分的不足.已存在的方法要不不能区分同配和异配,要不简单的采用阈值去划分同配异配
2.以往的异配GNN仅仅是简单的邻居聚合
作者的贡献:
现有的异配gnn存在如上两个问题
我们提出了一种新的gnn来解决如上的问题

模型

必要的定义:

Y是nodelabel, $S^{tra},S^{tar},S^{struct}$ 分别代表训练集(train),结构编码的目标集合(target),和trust set对于可信对比原型向量损失

模型图:

请添加图片描述

疑问:

$S^{target}$ 如何构建的
$\alpha^l$ 为啥是 $\mathbb{R}^{N\times1}$

方法

语义邻居划分

异配性评估

$h'=\frac{|\{(u,v)|(u,v)\in\mathcal{E}' \wedge y_u=y_v \wedge u,v\in\mathbf{S}^{tra}\}|}{|\{(u,v)|(u,v)\in\mathcal{E}' \wedge u,v\in\mathbf{S}^{tra}\}|},$
$S^{tra}$ 表示训练集, $\mathcal{E}^{\prime}\in\{\mathcal{E},\mathcal{E}^2\}$ 表示一阶和二阶邻居.
由于同配比 $h^{'}$ 不太准确,我们用超参去平衡他: $\lambda\in[0.8,1.2]$
$\widehat{h}=\lambda h'$

邻居划分:

软分配 $\mathbf{Z}\in\mathbb{R}^{N\times K}$ 表示HDP预测的结果.
$\mathbf{P}_{uv}=\begin{cases}\mathbf{z}_u\mathbf{z}_v^T,&(u,v)\in\mathcal{E'},\\0,&\text{otherwise.}\end{cases}$

$\epsilon=\mathrm{TopK}(\mathbf{P},\widehat{h}|\mathcal{E'}|)$
$\mathbf{TopK(x,y)}$ 意味着x的第y大个元素.然后,我们可以得到同配邻接矩阵和异配邻接矩阵:
$\begin{aligned}\mathbf{A}_{uv}^{hm}&=\begin{cases}1,&\mathbf{P}_{uv}\geq\epsilon \wedge (u,v)\in\mathcal{E'},\\0,&\text{otherwise.}\end{cases}\\\mathbf{A}_{uv}^{ht}&=\begin{cases}1,&\mathbf{P}_{uv}<\epsilon \wedge (u,v)\in\mathcal{E'},\\0,&\text{otherwise.}\end{cases}\end{aligned}$

异配邻居模型

我们分三步对异配模型
1.构建节点的自我表征
2.建模每个节点的异配邻居分布
3.通过语义认知消息传播机制传播

自我表征的构建

我们语义结构编码作为属性节点的补充
1.构建结构嵌入
$\hat{\mathbf{X}}^{str} = \left\{ \begin{array}{l} [0, 0, ..., 1, ..., 0], \quad i \in S^* \\ [0, 0, ..., 0, ..., 0], \quad i \notin S^* \end{array} \right.$
其中, $\mathbf{S}^{tar}\subset\mathbf{S}^{tra}$
最终的嵌入通过随机游走计算而得到
$\mathbf{X}^{str}=(\mathbf{D}^{-1}\mathbf{A})^\kappa\hat{\mathbf{X}}^{str},$
节点的自我表征可以通过简单的MLP,建模节点特征和结构特征得到:
$\mathbf{H}^{ego}=\mathrm{MLP}([\mathbf{X}\|\mathbf{X}^{str}])$
其中, $[\cdot||\cdot]$ 表示拼接操作

异配邻居分布

$\mathbf{H}^{nb}=\mathbf{D}^{ht}{}^{-1}\mathbf{A}^{ht}\mathbf{H}^{ego}.$
其中, $D^{ht}$ : $\mathbf{D}_{ii}^{ht}=\sum_j\mathbf{A}_{ij}^{ht}$

语义消息传播机制:

我们引入了语义消息传播:SMP(Semantic-aware Message Passing)
$\begin{aligned} &\widetilde{\mathbf{H}}^{l} =\mathbf{D}^{hm^{-1}}\mathbf{A}^{hm}\mathbf{H}^{(l-1)}, \\ &\alpha^{l} =f_{\varphi^l}([\mathbf{H}^0\|\widetilde{\mathbf{H}}^l]), \\ &\mathbf{H}^l =\alpha^l\mathbf{H}^0+(1-\alpha^l))\widetilde{\mathbf{H}}^l \end{aligned}$
其中, $\alpha^l\in\mathbb{R}^{N\times1}$ 被权重学习器学习得到. #question 为啥是N*1维度?
$\mathbf{H}^{ht}=\mathrm{SMP}(\mathbf{H}^{nb},l^{ht})$ $\mathbf{H}^{hm}=\mathrm{SMP}(\mathbf{H}^{ego},l^{hm})$

我们可以得到最终特征:
$\mathbf{H}=[\mathbf{H}^{hm}\|\mathbf{H}^{ht}].$ $\mathbf{Z}=f_\psi(\mathbf{H}), \widehat{\mathbf{Y}}=\arg\max(\mathbf{Z}).$

模型训练

模型初始化:

$\mathbf{X}^{nb}=\widehat{\mathbf{A}}\mathbf{X}$ $\mathbf{X}^{all}=[\mathbf{X}\|\mathbf{X}^{nb}\|\mathbf{X}^{str}]$
$\mathbf{Z}=\mathrm{MLP}^{init}(\mathbf{X}^{all})$

模型优化

$\mathcal{L}^{ce}=\mathrm{CE}(\mathbf{Z},\mathbf{Y}),$ $\mathbf{S}^{tru}=\{v_i|\mathbf{Z}_i^{max}\geq\delta\}$ $\delta=\mathrm{TopK}(\mathbf{Z}^{max},\rho|\mathcal{V}|)$
其中, $\delta=\mathrm{TopK}(\mathbf{Z}^{max},\rho|\mathcal{V}|)$
我们可以得到原型向量:
$\begin{gathered} \mathbf{c}_{j} =\frac1{|\mathbf{S}_j^{tru}|}\sum_{v_i\in\mathbf{S}_j^{tru}}\mathbf{h}_i^{ego}, \\ \mathbf{S}_{i}^{tru} =\{v_i|v_i\in\mathbf{S}^{tru}\wedge\widehat{\mathbf{Y}}_i=j\}. \end{gathered}$
最终得到原型向量损失:
$\mathcal{L}^{tpc}=-\sum_{v_i\in\mathbf{S}^{tru}}\log\frac{\exp(s(\mathbf{h}_i^{ego},\mathbf{c}_j)/\tau)}{\sum_{k=1}^K\exp([s(\mathbf{h}_i^{ego},\mathbf{c}_k)]_+/\tau))},$
其中, $s(\mathbf{h}_i^{ego},\mathbf{c}_j)=\frac{\mathbf{h}_i^{ego}\cdot\mathbf{c}_j}{|\mathbf{h}_i^{ego}||\mathbf{c}_j|}.$