题名 | 基于分布式文本表示的神经编解码方法研究 |
作者 | 孙静远 |
答辩日期 | 2021-05-28 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 宗成庆 |
关键词 | 分布式文本表示,神经语言表征,神经编码,神经解码 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 人脑将感官接受的语言信号转化为神经元活动的过程就是在建立语言的神经表征,这是人类理解语言最基础也是最重要的步骤。本文研究脑语言表征的神经编码和解码,这是解析大脑语言认知功能、实现语言的脑机接口、启发类脑语言计算模型的关键,具有重要的理论意义和应用价值。 论文的主要工作和创新点归纳如下: 1. 提出了一种基于知识蒸馏和生成复现的连续文本表示学习模型 主流的分布式表示模型在学习与旧训练语料的数据分布差异较大的新语料时,倾向于遗忘在旧语料中获得的知识。这使得表示模型在连续学习不同的任务时,一旦拟合了新任务,在旧任务上的表现容易出现显著的下跌。 2. 系统研究了多种分布式文本表示在神经编码和解码中的应用 传统的神经编码和解码研究中,用人工特征表示文本仍是主流。人工特征构建代价较高,并且无法充分覆盖自然语言庞大的组合语义空间。分布式文本表示方法可以从语料中自动学习到文本的向量表示,缓解了上述人工特征的局限。然而,目前分布式表示在神经编码和解码研究中的应用还相当有限,无法确定何种表示方法更适合预测和解析人脑的语言表征。针对此问题,本文基于十三种分布式文本表示分别建立了神经编码和解码模型。其中,包括本文提出的连续文本表示模型在内的多种有监督表示模型是首次在神经编、解码中得到应用。通过实验,我们系统地对比评估了表示模型在不同脑区、脑功能网络上的编、解码表现,选定了在不同粒度下都可以实现准确的神经编、解码的表示模型。通过分析神经编解、码的实验结果,我们还发现主题概念的神经表征分布在大脑皮层的多个脑区中。 3. 提出了一种基于探针任务和消融测试的神经编码解释方法 已有研究及本文实验均证实,基于分布式文本表示的神经编码器能够准确地预测语言刺激引发的神经活动。但是,我们无法解释文本表示捕获的何种语言特征对神经编码的准确率贡献最大。 4. 提出了一种基于稀疏表示和门控网络的可解释神经解码模型 已有研究及本文实验均证实,基于分布式文本表示的神经解码器能够在一定程度上解析语言刺激引发的神经活动。但是,我们并不清楚解码器从脑神经活动中解析出了哪些语义信息。针对此问题,本文提出了一种可解释的神经解码模型,该模型使用稀疏化方法处理分布式文本表示,令处理后向量的每一维度上的数值具备可解释性。另外,该模型以我们提出的门控网络作为基础架构,可以观测对于解析脑神经活动更为重要的网络单元。实验表明我们提出的方法在解码表现上明显超出其他基于稀疏文本表示的方法,并且能够解析出分布式表示和神经活动共享的语义信息,使我们进一步了解了大脑的语言表征机理。 |
语种 | 中文 |
页码 | 122 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/45006] |
专题 | 模式识别国家重点实验室_自然语言处理 |
推荐引用方式 GB/T 7714 | 孙静远. 基于分布式文本表示的神经编解码方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论