CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名面向文本事实库的多证据问答方法研究
作者朱敏郡
答辩日期2023-05-22
文献子类硕士
关键词文本问答,文本事实库,双向图检索
英文摘要

问答系统旨在为用户提出的自然语言问题提供精准答案。问答系统不仅是机器智能水平的重要验证手段,也是智能服务的主要形态,适用于智能助理、自动客服和搜索引擎等广泛的应用场景,具有重要研究意义和应用价值。由于文本具有获取容易、表达自然、覆盖广泛等优势,目前较多问答系统依赖文本数据作为知识来源,这类文本问答系统(Textual Question Answering,TQA)是问答系统的重要分支。

近年来,得益于深度学习技术的发展,文本问答系统得以快速发展。文本问答模型已经具备一些简单的理解文本和回答问题的能力。但是,目前的文本问答系统依然面临以下问题:(1)现有文本问答数据集主要关注简单类型的问题,未能包含更多样的复杂问题,同时也缺乏多个证据的详细求解过程,不能很好反映真实场景中的问答需求。(2)现有文本问答方法依赖于对篇章级文本进行整体建模,没有对多个证据句子的细粒度推理过程的建模,在检索证据回答各类复杂问题时缺乏可解释性推理能力。为了解决上述问题,本文从数据集构建、方法研究等方面对文本问答任务中的复杂问题展开系统性探索。整体而言,我们构造了具有细粒度推理过程描述的多证据文本库问答数据集,同时提出了能够获取链式、图式证据链的文本问答方法,以提高文本问答系统的智能水平和可解释性能力。主要的创新点和研究成果包括:
    面向文本事实库的多证据问答数据集构建:针对当前文本问答数据集缺乏多样化复杂问题及清晰推理过程的问题,本文构建了句子级文本事实库为来源的文本问答数据集,不仅覆盖了多样化的复杂问题,同时每个问题还包含句子级的显式证据推理过程,为文本问答提供证据过程支撑。具体地,首先,为了获取文本描述的事实库,本文利用数据文本生成技术(Data-to-Text),将结构化知识库自动转化为文本数据库。文本事实库中的每个证据是包含事实(fact)描述的句子级文本,由若干知识图谱事实三元组(子图)转换而来。其次,为了获取更丰富复杂问题的多样化问题,本文利用知识图谱问答数据集并进行相应转换,因为知识图谱问答包含了形式化的推理过程,能够将推理步骤对齐到知识图谱三元组,基于这样的形式化描述能够得到描述每个问题求解的推理过程。本文构建的多证据问答的文本事实库数据集在广泛性和推理深度上都比之前的数据集有很大的提升,同时能够为复杂问题提供准确的支持证据过程。通过自动评估和人工验证,本文构建数据集质量较高,达到了应用水平。
    
     基于路径链式证据检索的文本问答方法: 针对当前文本问答检索方法没有充分利用证据链的完整信息,进而导致长推理路径的复杂问答任务上表现不佳的问题,本文提出了一个基于链式证据路径检索的文本问答检索方法。具体地,首先,本文从路径角度对证据文本建模,并在训练过程中引入单步损失和整体损失,从整体和部分两个角度对证据表示进行学习优化;其次,在证据链解码阶段,本文使用惩罚解码机制实现路径证据的高效解码。最后,为了综合评价方法的有效性,本文设计了有顺序监督和无顺序监督的训练方式,能够适用于更广泛的应用场景。在数据集上的大规模实验表明,该方法在有顺序监督和无顺序监督的场景下,都能够提高证据链检索准确率和文本问答效果。
  
    基于双向图证据检索的文本问答方法: 针对现有文本问答方法仅限于单链或单跳证据检索方法,不能有效处理复杂问句所需的图式证据结构的问题,本文提出了一种能够检索多链多跳的证据图检索问答方法。我们从前向和后向两个相反方向检索初步证据子图,然后将它们进行融合得到一个完整的证据图。本文提出的方法包含用于证据图检索的双向图跳检索模块和用于进一步解释图生成的子图重建模块,能推广到处理多种推理类问题的场景。一方面,双向检索方法能够缓解模型单向检索随着推理过程深度增加呈现准确率降低的问题;另一方面,该方法能够利用逆向思维提高证据图的检索准确率。在文本问答数据集上的实验表明,方法能够有效提升单链单跳、单链多跳、多链单跳和多链多跳等多种证据结构的的文本问答性能。

语种中文
页码76
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52284]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
朱敏郡. 面向文本事实库的多证据问答方法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace