图数据的数据增强涉及创建现有图的修改版本,以扩展训练数据集并提升机器学习模型的性能。与表格或图像数据不同,图具有复杂的结构(节点、边和关系),需要专门的技术。其目标是生成原始数据的合理变体,同时保留基本的结构和语义属性。常见的方法包括修改节点特征、改变边连接或对子图进行采样,所有这些操作都要确保增强后的数据对特定任务(例如,节点分类或链接预测)仍然有意义。
一种方法是边扰动,它通过添加或删除边来模拟不同的连接模式。例如,在社交网络图中,随机删除 5% 的边可以模拟缺失的连接,而为具有相似特征的节点添加合成边可能代表未被发现的关系。另一种技术是节点特征掩码,在训练过程中临时隐藏节点属性的子集(如推荐系统中的用户年龄)。这迫使模型依赖其他特征或图结构,从而提高鲁棒性。子图采样,例如提取随机游走或自我网络,也被广泛使用。例如,在分子图中对蛋白质节点周围的 2 跳邻域进行采样,有助于关注局部相互作用,而无需处理整个图。
然而,图增强需要仔细设计。与图像不同,图中的元素相互依赖——改变节点或边可能会在整个结构中产生连锁反应。例如,删除一个关键的桥接节点可能会导致图断开,破坏有意义的关系。像自适应边添加(仅连接特征相似度高的节点)或结构感知节点删除(保留图连接性)等技术可以减轻这些风险。PyTorch Geometric 或 DGL 等工具通常包含用于执行这些操作的实用程序。在实施增强时,开发者应验证关键属性(例如,度分布或社区结构)是否使用聚类系数或直径等指标保持完整。平衡随机性和领域逻辑(例如,不在分子图中添加无效的化学键)对于有效的增强至关重要。