基于词对向量的中文新闻话题检测方法
张文博; 米成刚; 杨雅婷
刊名厦门大学学报(自然科学版)
2019
卷号58期号:2页码:231-236
关键词话题检测 词对模型 降维 相似度
ISSN号0438-0479
英文摘要

针对传统话题检测方法得到的结果和实际话题个数相差较大的缺点,根据话题所包含的文本数对话题之间的相似度进行衰减,进而优先合并粒度较小类,并根据文档话题频率和权重对较大的话题向量进行降维,通过这两方面对传统的层次聚类方法进行改进.同时为了更好地表达话题的语义信息,使用在句子中共现的词对向量来取代传统的向量空间模型.实验结果表明,使用词对模型和改进的方法可以取得更好的效果,而且得到的聚类结果和实际话题个数相近.

CSCD记录号CSCD:6461388
内容类型期刊论文
源URL[http://ir.xjipc.cas.cn/handle/365002/5696]  
专题新疆理化技术研究所_多语种信息技术研究室
作者单位1.中国科学院新疆理化技术研究所
2.中国科学院大学计算机科学与技术学院
3.新疆民族语音语言信息处理实验室
推荐引用方式
GB/T 7714
张文博,米成刚,杨雅婷. 基于词对向量的中文新闻话题检测方法[J]. 厦门大学学报(自然科学版),2019,58(2):231-236.
APA 张文博,米成刚,&杨雅婷.(2019).基于词对向量的中文新闻话题检测方法.厦门大学学报(自然科学版),58(2),231-236.
MLA 张文博,et al."基于词对向量的中文新闻话题检测方法".厦门大学学报(自然科学版) 58.2(2019):231-236.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace