基于大规模语料库的汉语词义相似度计算方法; Chinese Lexical Semantic Similarity Computing Based on Large-scale Corpus | |
石静 ; 吴云芳 ; 邱立坤 ; 吕学强 | |
刊名 | 中文信息学报 |
2013 | |
关键词 | 词义相似度 上下文特征 权值选择 依存关系 |
DOI | 10.3969/j.issn.1003-0077.2013.01.001 |
英文摘要 | 词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用.该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异.实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果.; 国家863项目; 国家自然科学基金; 网络文化与数字传播北京市重点实验定开放课题; 中文核心期刊要目总览(PKU); 中国科技核心期刊(ISTIC); 中国科学引文数据库(CSCD); 0; 1; 1-6,80; 27 |
语种 | 中文 |
内容类型 | 期刊论文 |
源URL | [http://ir.pku.edu.cn/handle/20.500.11897/285500] |
专题 | 信息科学技术学院 |
推荐引用方式 GB/T 7714 | 石静,吴云芳,邱立坤,等. 基于大规模语料库的汉语词义相似度计算方法, Chinese Lexical Semantic Similarity Computing Based on Large-scale Corpus[J]. 中文信息学报,2013. |
APA | 石静,吴云芳,邱立坤,&吕学强.(2013).基于大规模语料库的汉语词义相似度计算方法.中文信息学报. |
MLA | 石静,et al."基于大规模语料库的汉语词义相似度计算方法".中文信息学报 (2013). |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论