【GAD】基于邻域重建的图异常检测

GAD-NR: Graph Anomaly Detection via Neighborhood Reconstruction

摘要
contributions
Methodology
- GAE via Neighborhood Reconstruction
- - 邻域重建
  - 整体重建损失
实验

WSDM2024Link
Code |

摘要

图异常检测（GAD）是一种用于识别图中异常节点的技术，在网络安全，欺诈检测，社交媒体垃圾邮件检测和各种其他领域中找到应用。GAD的一种常见方法是图形自动编码器（GAE），它将图形数据编码为节点表示，并通过基于这些表示评估图形的重建质量来识别异常。然而，现有的GAE模型主要针对直接链接重建进行优化，导致图中连接的节点在潜在空间中聚集。因此，他们擅长检测簇型类型的结构异常，但难以处理不符合簇的更复杂的结构异常。

为了解决这个限制，本文提出了一种新的解决方案，称为GAD-NR，GAE的一个新的变种，采用邻域重建图异常检测。
GAD-NR的目标是基于节点的表示重建节点的整个邻域，包括局部结构、自身属性和邻居属性。通过比较异常节点和正常节点之间的邻域重建损失，GAD-NR可以有效地检测任何异常。

在六个真实世界数据集上进行的广泛实验验证了GAD-NR的有效性，显示出与最先进的竞争对手相比的显着改进（AUC高达30%↑）。GAD-NR的源代码是公开的。重要的是，比较分析表明，现有的方法只在检测一个或两个类型的异常的三种类型的研究。相比之下，GAD-NR在检测数据集上的所有三种类型👇的异常方面表现出色，展示了其全面的异常检测能力。
在这里插入图片描述

contributions

图异常检测框架：GAD-NR，利用节点表示中节点的整个邻域的重建损失，原则上可以检测上图中的所有三种类型的异常。
从技术上讲，GAD-NR采用邻居表示分布的高斯近似，并计算封闭形式的KL散度作为重建损失，这大大提高了该方法的可扩展性和有效性。
对六个真实世界网络的大量实验证明了 GAD-NR 与 SOTA 基线相比的有效性，以及 GAD-NR 设计细节的基本原理。

Methodology

为了检测在实践中通常更有用的节点异常，需要将边缘的重建损失聚合到节点级别，并且如何正确地聚合这些损失本身并不是一个微不足道的问题，并且通常取决于算法。

GAE via Neighborhood Reconstruction

自动编码器的目标是以最小的损失对数据进行降维，以恢复原始数据。
GAE将每个节点的属性及其一跳或多条邻域中的节点的属性编码为节点表示。
在这里插入图片描述

邻域重建

从压缩的 $h_u^{(L)}$ 解码集合 $H_u$ 是困难的：一方面，集合的大小可能会在节点 $u\in V$ 之间变化；另一方面，集合中的元素是无序的。使用MLP来解码一个可变大小的集合是不可能的。
我们的想法受到最近工作 $NWR-GAE^{[1]}$ 的启发。
将邻域信息分解为两部分，即邻域的数量（节点度）和邻域表示的分布。重建过程应该正确重建这两部分信息。

[1] Mingyue Tang, Carl Yang, and Pan Li. Graph auto-encoder via neighborhood
wasserstein reconstruction. ICLR, 2022

整体重建损失

重建节点自身属性的损失+节点度+邻居的表征分布
在这里插入图片描述
采用上式作为表征每个节点的异常程度的分数。分数越大意味着编码信息越难重构，因此对应节点越可能是异常的。

实验

In this section, we extensively compare GAD-NR with several baseline methods for graph anomaly detection. Specifically, we aim to answer the following questions: