多特征融合的文本相似性度量系统

	多特征融合的文本相似性度量系统
	马博; 李晓; 蒋同海; 周喜; 王磊; 杨雅婷; 赵凡
	2017-10-17
著作权人	中国科学院新疆理化技术研究所
文献子类	发明专利
英文摘要	本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统，该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量，其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题，以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤：对训练文本进行分词、去停用词等预处理；将处理好的训练文本语料训练成词向量模型；对于输入的待计算文本对，分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性，并通过加权求和，得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度，从而满足智能信息处理需求。
申请日期	2015-02-11
状态	已授权
内容类型	专利
源URL	[http://ir.xjipc.cas.cn/handle/365002/6644]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	马博,李晓,蒋同海,等. 多特征融合的文本相似性度量系统. 2017-10-17.