CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名面向信息网络的表示与关联方法研究
作者车飞虎
答辩日期2022-05-16
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师陶建华
关键词信息网络 网络表示学习 自举机制 对比学习 负样本采样
学位专业模式识别与智能系统
英文摘要

信息网络一般指具有特定类型节点和边的有向图,在现实生活中广泛存在。根据节点和边的种类不同,信息网络有三种常见的形式:同质信息网络、异质信息网络和知识图谱。
学习信息网络的表示然后根据表示获取潜在的关联在生物信息、推荐系统和信息检索等领域有着广泛的应用。
近些年来,在深度学习与图神经网络的推动下,信息网络的表示与关联方法取得了突出的成果,但仍然存在一些挑战:(1) 同质网络过度依赖于标签数据或负样本;(2) 异质网络难以捕捉到子图之间的语义相似性;(3) 知识图谱的高质量困难负样本比较稀疏。为了缓解上述问题,本文采用自监督学习方法,并将负样本作为切入点,分别从无负样本学习、设计新负样本进行对比学习以及基于已有负样本生成高质量的困难负样本这三个点展开研究。本文的主要工作和创新点可以总结为如下三个方面:

(1) 面向同质信息网络的无监督无负样本方法研究。
目前已有的同质信息网络学习方法主要是通过监督信息的指导或者正负样本的对比进行学习,但在真实场景中监督信息或者有效的负样本往往难以获取。为了应对无监督无负样本的场景,本文提出了一种基于自举机制的同质信息网络学习模型,模型分为两个部分:在线网络和目标网络,模型的核心思想是通过在线网络与目标网络互相学习,从而摆脱对监督信息和负样本的依赖。此外,考虑到在线网络与目标网络需要相似但不同的输入,本文采用了两类图数据增强方法来生成同质网络的两个视角。所提模型在三个公共数据集上的四组实验验证了模型的有效性。

(2) 面向异质信息网络的子图间相似性捕捉方法研究。
由于异质信息网络含有丰富的语义信息,现有方法一般通过元路径将异质信息网络划分为若干个同质子图,这些子图因为具有语义相关的拓扑结构而具备很强的语义相似性,但是目前已有的方法难以捕捉到子图之间的语义相似性。为了弥补该缺陷,本文提出了一种子图间的对比学习模型。模型将两个具有相同节点特征和语义相关拓扑结构的子图分别当作锚样本与正样本,然后让这两个子图经过编码器得到的表示在向量空间中距离拉近。为了与两个子图的近距离形成对比,本文设计了与它们具有相同节点特征但是没有拓扑结构的负样本,并且让锚样本与负样本的距离拉远。为了进一步凸显拓扑结构的重要性,本文将正样本与负样本的编码器参数共享,从而使得正、负样本与锚样本的距离差距只是因为正样本与锚样本具有语义相关的拓扑结构。本文在四个数据集上进行了六组实验,从不同方面展示模型的优越性。

(3) 面向知识图谱的高质量困难负样本挖掘方法研究。
知识图谱表示学习的核心是对比正样本和负样本三元组。由于知识图谱中只存在正样本三元组,一般通过随机选取其他实体来替换正样本三元组的实体,从而生成负样本三元组。当前方法存在两方面的不足:一是固定采样得到的负样本会随着模型训练逐渐变得容易区分,以至于导致梯度消失;二是通过替换已存在的实体得到的负样本语义具有单一性,无法融合不同负样本的语义信息。为了应对这些不足,本文通过混合操作生成高质量的困难负样本。为了动态地负采样,本文提出了两种筛选已有困难负样本的标准,这两个标准可以让模型在训练的不同时期选择该时期下的困难负样本。紧接着,本文将选择后的困难负样本进行混合,生成基于虚拟实体得到的困难负样本,这种负样本融合了不同困难负样本的语义信息,因此为模型提供了更有价值的梯度更新。在两个数据集和四个评分函数上的四组实验表明本文所提模型相比于之前的负采样方法可以生成高质量的困难负样本,并且取得超越之前负采样方法的性能。

语种中文
页码130
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48820]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
车飞虎. 面向信息网络的表示与关联方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace