CORC  > 北京大学  > 信息科学技术学院
跨语言相似文档检索; Cross-Language Similar Document Retrieval
王洪俊 ; 施水才 ; 俞士汶 ; 肖诗斌
刊名中文信息学报
2007
关键词计算机应用 中文信息处理 跨语言相似文档检索 文档相似度 双语文档对齐
DOI10.3969/j.issn.1003-0077.2007.01.005
英文摘要检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作.本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度.在实验中,统计检索文档的译文排在检索结果前 N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性.实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%.实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿.; 国家重点基础研究发展计划(973计划); 国家高技术研究发展计划(863计划); 北京市科技攻关项目; 国家自然科学基金; 北京市教委科研项目; 中文核心期刊要目总览(PKU); 中国科技核心期刊(ISTIC); 中国科学引文数据库(CSCD); 0; 1; 30-37; 21
语种中文
内容类型期刊论文
源URL[http://ir.pku.edu.cn/handle/20.500.11897/272066]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
王洪俊,施水才,俞士汶,等. 跨语言相似文档检索, Cross-Language Similar Document Retrieval[J]. 中文信息学报,2007.
APA 王洪俊,施水才,俞士汶,&肖诗斌.(2007).跨语言相似文档检索.中文信息学报.
MLA 王洪俊,et al."跨语言相似文档检索".中文信息学报 (2007).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace