CORC  > 软件研究所  > 中科院软件所  > 中科院软件所
题名跨语言检索中词义消歧和未登录词翻译问题的研究
作者闵金明
学位类别博士
答辩日期2006-06-07
授予单位中国科学院软件研究所
授予地点软件研究所
关键词跨语言信息检索 命名体翻译 词义消歧 MinimumCut算法
中文摘要阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题。目前互联网上大多数的信息都以英文形式存在的,随着中文网络用户的不断增多,迫切需要一种能够帮助中文用户查询英文信息的工具,而中英文跨语言信息检索技术是解决这个问题的有效方法之一。 本文在对主流研究方法进行分析的基础上,明确指出了基于双语词典的跨语言信息检索方法中必须解决的两个核心问题,即词义消歧问题与未登录词的翻译问题。针对这两个问题我们分别给出了解决方案,并在算法实现的基础上,借助开源搜索引擎Nutch实现了一个中英文跨语言检索系统。具体的说,论文完成了以下工作: 第一,在对跨语言信息检索领域的国内外研究现状全面调研的基础上,给出了跨语言信息检索的定义和形式化描述、系统框架以及评价方法; 第二,对跨语言信息检索研究方法进行了重新审视,分析了各种方法的优缺点,在此基础上确定了以基于双语词典的跨语言检索研究方法中词义消歧问题和未登录词翻译问题为核心的研究方向; 第三,针对词义消歧问题,我们开发了候选翻译项在目标语料中的共现模型和候选翻译项的在目标语料中的频率模型,通过这两个模型构建候选翻译项在目标语料中的关系图,并把基于双语词典的跨语言检索方法中的词义消歧问题归结为一个分类问题,引入图论中的minimun cut算法来切割候选翻译项关系图完成分类以达到消歧的目的; 第四,针对未登录词翻译问题,我们开发基于网络可比语料的翻译对挖掘方法。在该方法中我们考虑了命名体翻译对之间的发音相似性和翻译对上下文语境中存在的语义相似性。通过一个浅层字符串音译模型,描述了源语言命名体和目标语言命名体之间的音译相似度。同时,利用IBM的翻译模型建立了两个命名体的上下文相关词汇向量之间的相似度。我们详细给出了通过共现和词频的特征从上下文中选取相关词汇的方法,以及训练IBM翻译模型的方法; 第五,我们参加了NTCIR5的英中跨语言信息检索评测,评测结果中平均精确率为单语检索的36.69%;基于第三、第四部分工作在NTCIR5中文语料上再次评测,我们得到的结果是单语检索的54.77%(NTCIR5评测会议上的最优结果为55.21%); 第六,利用开源搜索引擎Nutch,我们实现了一个中英文跨语言信息检索系统,该系统支持对用户输入的未登录词使用规则方法实时地从网络中抽取可能的翻译。
语种中文
公开日期2011-03-17
页码61
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/6166]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
闵金明. 跨语言检索中词义消歧和未登录词翻译问题的研究[D]. 软件研究所. 中国科学院软件研究所. 2006.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace