医疗问诊大数据机器学习模型与算法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	医疗问诊大数据机器学习模型与算法研究
作者	张似衡
答辩日期	2020-08-25
文献子类	博士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	张文生
关键词	医疗问诊机器学习卷积神经网络注意力机制知识推理
学位专业	模式识别与智能系统
英文摘要	随着“互联网 + 医疗健康”产业的蓬勃发展，线上医疗问答社区中的用户数量与日俱增，需求日益扩大，远超人类医生的工作负荷。因此，使用机器学习算法从医疗问诊大数据中建模问答机制，实现智能辅助问诊，已经成为一个重要的研究热点。然而，受限于用户表述不规范、语料标注稀缺以及医疗场景可解释性不足等难题，现有的智能问诊技术普遍存在正确率低、鲁棒性差等缺点。这衍生出一个重要的机器学习问题——如何利用低价值密度、高噪声水平的医疗问诊大数据，解决语言和知识的表示难题，进而提升智能问诊系统的语义理解水平。为此，智能问诊技术需要突破下述三个瓶颈：第一，医学文本的语义特征表示中语言结构难以利用；第二，问诊系统主诉理解中口语表述无法对齐医学术语；第三，医学知识图谱中关系知识缺失。针对这三个问题，并结合线上问诊的医学属性和语料特点，本论文聚焦医疗问诊三个关键的底层技术，包括文本特征表示、口语实体抽取和知识图谱补全，构建适应医疗领域自身特点的智能问诊系统。本论文的创新点主要有： 1. 提出了一种嵌入依存句法的卷积神经网络文本特征表示模型。针对序列模型和自然语言递归特性不相匹配的缺点，引入基于依存句法树的权重层，将词在句法树上的深度映射为词向量的权重，隐式地融合句法结构信息。在此基础上，通过卷积神经网络抽取语义特征形成文本表示，在保持并行计算优点的同时，模型不需要词级别的精细标注。此外，所提模型可以拓展到文本分类、同义判定、文本对排序等不同任务，在各个任务上进行验证，结果均优于当前最先进的模型，而且学习到的词权重符合人类语言认知。 2. 提出了一种“候选-删除”两阶段的症状实体抽取方法。针对口语问句中上下文不足、词形变化、无标注的难点，提出交叉注意力网络，通过问答对之间的关联匹配，学习人类医生对用户问题的注意力分布，提取候选症状实体。在此基础上，提出语义簇滤过模型，对已有实体聚类确定语义簇中心和边界，进而对候选实体中的离群点进行剔除。此外，设计了机器自动标注合成的训练集，用于训练统计学习模型，有效地结合了字典和统计学习的优点，提高了症状实体抽取的泛化性能。 3. 提出了一种拓扑结构自适应的知识图谱嵌入方法。针对平移距离系列模型不能建模环状结构和链接密度的缺点，从一般化的视角分析了环状结构对实体在不同位置的语义差异约束，并证明了知识不确定性等价于正负三元组之间的自适应间隔。在此基础上，提出了位置敏感自注意力模型，通过头实体和尾实体的实体语义区分，提高嵌入模型表示能力，同时引入自注意力机制对知识三元组评分，并应用在各个现有模型上取得了大幅提高。另外，提出了三种简化的自适应间隔模型，通过协方差矩阵分解，可以适应知识链接密度对间隔进行调整，从而在简化高斯嵌入模型的同时提高了表示能力，所提模型在和当前最先进的模型比较中达到了可比或者超过的性能。
语种	中文
页码	126
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/40401]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	张似衡. 医疗问诊大数据机器学习模型与算法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们