CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名医疗问诊大数据机器学习模型与算法研究
作者张似衡
答辩日期2020-08-25
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师张文生
关键词医疗问诊 机器学习 卷积神经网络 注意力机制 知识推理
学位专业模式识别与智能系统
英文摘要

       随着“互联网 + 医疗健康”产业的蓬勃发展,线上医疗问答社区中的用户数量与日俱增,需求日益扩大,远超人类医生的工作负荷。因此,使用机器学习算法从医疗问诊大数据中建模问答机制,实现智能辅助问诊,已经成为一个重要的研究热点。然而,受限于用户表述不规范、语料标注稀缺以及医疗场景可解释性不足等难题,现有的智能问诊技术普遍存在正确率低、鲁棒性差等缺点。这衍生出一个重要的机器学习问题——如何利用低价值密度、高噪声水平的医疗问诊大数据,解决语言和知识的表示难题,进而提升智能问诊系统的语义理解水平。

        为此,智能问诊技术需要突破下述三个瓶颈:第一,医学文本的语义特征表示中语言结构难以利用;第二,问诊系统主诉理解中口语表述无法对齐医学术语;第三,医学知识图谱中关系知识缺失。针对这三个问题,并结合线上问诊的医学属性和语料特点,本论文聚焦医疗问诊三个关键的底层技术,包括文本特征表示、口语实体抽取和知识图谱补全,构建适应医疗领域自身特点的智能问诊系统。本论文的创新点主要有:

        1. 提出了一种嵌入依存句法的卷积神经网络文本特征表示模型。针对序列模型和自然语言递归特性不相匹配的缺点,引入基于依存句法树的权重层,将词在句法树上的深度映射为词向量的权重,隐式地融合句法结构信息。在此基础上,通过卷积神经网络抽取语义特征形成文本表示,在保持并行计算优点的同时,模型不需要词级别的精细标注。此外,所提模型可以拓展到文本分类、同义判定、文本对排序等不同任务,在各个任务上进行验证,结果均优于当前最先进的模型,而且学习到的词权重符合人类语言认知。

        2. 提出了一种“候选-删除”两阶段的症状实体抽取方法。针对口语问句中上下文不足、词形变化、无标注的难点,提出交叉注意力网络,通过问答对之间的关联匹配,学习人类医生对用户问题的注意力分布,提取候选症状实体。在此基础上,提出语义簇滤过模型,对已有实体聚类确定语义簇中心和边界,进而对候选实体中的离群点进行剔除。此外,设计了机器自动标注合成的训练集,用于训练统计学习模型,有效地结合了字典和统计学习的优点,提高了症状实体抽取的泛化性能。

        3. 提出了一种拓扑结构自适应的知识图谱嵌入方法。针对平移距离系列模型不能建模环状结构和链接密度的缺点,从一般化的视角分析了环状结构对实体在不同位置的语义差异约束,并证明了知识不确定性等价于正负三元组之间的自适应间隔。在此基础上,提出了位置敏感自注意力模型,通过头实体和尾实体的实体语义区分,提高嵌入模型表示能力,同时引入自注意力机制对知识三元组评分,并应用在各个现有模型上取得了大幅提高。另外,提出了三种简化的自适应间隔模型,通过协方差矩阵分解,可以适应知识链接密度对间隔进行调整,从而在简化高斯嵌入模型的同时提高了表示能力,所提模型在和当前最先进的模型比较中达到了可比或者超过的性能。

语种中文
页码126
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/40401]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
张似衡. 医疗问诊大数据机器学习模型与算法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace