多特征融合的文本相似性度量系统
马博; 李晓; 蒋同海; 周喜; 王磊; 杨雅婷; 赵凡
2017-10-17
著作权人中国科学院新疆理化技术研究所
文献子类发明专利
英文摘要

本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。

申请日期2015-02-11
状态已授权
内容类型专利
源URL[http://ir.xjipc.cas.cn/handle/365002/6644]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
马博,李晓,蒋同海,等. 多特征融合的文本相似性度量系统. 2017-10-17.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace