题名基于分布式文本表示的神经编解码方法研究
作者孙静远
答辩日期2021-05-28
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师宗成庆
关键词分布式文本表示,神经语言表征,神经编码,神经解码
学位专业模式识别与智能系统
英文摘要

      人脑将感官接受的语言信号转化为神经元活动的过程就是在建立语言的神经表征,这是人类理解语言最基础也是最重要的步骤。本文研究脑语言表征的神经编码和解码,这是解析大脑语言认知功能、实现语言的脑机接口、启发类脑语言计算模型的关键,具有重要的理论意义和应用价值。
      神经编码和神经解码都需要通过某种方式建立语言信号和大脑神经表征之间的关联。不同的是,神经编码重点关注如何解析大脑的语言表征机理,即研究不同类型的语言信息在大脑中的加工过程和所涉及的脑网络等问题。而神经解码重点关注如何解析神经信号中所蕴含的语义信息,从而实现思维解读的目的。实现上述神经编、解码的关键环节是采用何种方式建立语言信号的表示。为此,本文提出了一种连续文本表示学习模型。不同于以往在特定任务中学习文本表示的方法,该模型能够连续在多个自然语言理解任务中进行训练,从而得到具有更强通用性的文本表示。接着,在上述模型及十余种分布式表示方法的基础上,本文建立了由粗到细多个粒度的神经编码、解码模型,探讨了语言的计算表示和神经表征之间的关系。最后,由于基于分布式文本表示的神经编、解码模型的可解释性较差,本文分别针对神经编码、解码提出了解释方法,促进了对人脑的部分语言表征机制的理解。

     论文的主要工作和创新点归纳如下:

     1. 提出了一种基于知识蒸馏和生成复现的连续文本表示学习模型

     主流的分布式表示模型在学习与旧训练语料的数据分布差异较大的新语料时,倾向于遗忘在旧语料中获得的知识。这使得表示模型在连续学习不同的任务时,一旦拟合了新任务,在旧任务上的表现容易出现显著的下跌。
针对此问题,本文提出了一种基于知识蒸馏和生成复现的连续文本表示学习模型,该模型可以在解决新任务时高效地提炼并复用在旧数据中学得的知识,进而能够基于同一个基础网络连续地在不同任务中进行文本表示学习。实验表明该模型可学习在新、旧数据上通用的文本表示,且其抗遗忘表现与已有的方法相比具有明显的优势。以上工作补足了现存的主流分布式文本表示模型在连续学习上的不足,也为本文建立基于分布式文本表示的神经编、解码模型,探究文本的计算表示与脑神经表征的关系奠定了更好的基础。

       2. 系统研究了多种分布式文本表示在神经编码和解码中的应用

       传统的神经编码和解码研究中,用人工特征表示文本仍是主流。人工特征构建代价较高,并且无法充分覆盖自然语言庞大的组合语义空间。分布式文本表示方法可以从语料中自动学习到文本的向量表示,缓解了上述人工特征的局限。然而,目前分布式表示在神经编码和解码研究中的应用还相当有限,无法确定何种表示方法更适合预测和解析人脑的语言表征。针对此问题,本文基于十三种分布式文本表示分别建立了神经编码和解码模型。其中,包括本文提出的连续文本表示模型在内的多种有监督表示模型是首次在神经编、解码中得到应用。通过实验,我们系统地对比评估了表示模型在不同脑区、脑功能网络上的编、解码表现,选定了在不同粒度下都可以实现准确的神经编、解码的表示模型。通过分析神经编解、码的实验结果,我们还发现主题概念的神经表征分布在大脑皮层的多个脑区中。

      3. 提出了一种基于探针任务和消融测试的神经编码解释方法

      已有研究及本文实验均证实,基于分布式文本表示的神经编码器能够准确地预测语言刺激引发的神经活动。但是,我们无法解释文本表示捕获的何种语言特征对神经编码的准确率贡献最大。
针对此问题,本文提出了一种神经编码模型的解释方法。该方法通过探针任务来分析表示模型建模不同种语言特征的能力,然后通过消融测试来验证建模某种语言特征的能力是否有助于表示模型进行神经编码。实验表明,分布式文本表示建模语义关系的能力有助于其预测脑语言网络中大部分脑区的神经活动,而建模句法结构的能力则对预测脑语言网络中小部分脑区有帮助。

      4. 提出了一种基于稀疏表示和门控网络的可解释神经解码模型

      已有研究及本文实验均证实,基于分布式文本表示的神经解码器能够在一定程度上解析语言刺激引发的神经活动。但是,我们并不清楚解码器从脑神经活动中解析出了哪些语义信息。针对此问题,本文提出了一种可解释的神经解码模型,该模型使用稀疏化方法处理分布式文本表示,令处理后向量的每一维度上的数值具备可解释性。另外,该模型以我们提出的门控网络作为基础架构,可以观测对于解析脑神经活动更为重要的网络单元。实验表明我们提出的方法在解码表现上明显超出其他基于稀疏文本表示的方法,并且能够解析出分布式表示和神经活动共享的语义信息,使我们进一步了解了大脑的语言表征机理。

语种中文
页码122
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/45006]  
专题模式识别国家重点实验室_自然语言处理
推荐引用方式
GB/T 7714
孙静远. 基于分布式文本表示的神经编解码方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace