一种汉英词语自动对齐方法
宗成庆; 周玉; 何彦青
2008-01-09
专利号CN200810055783.8
国家CN
文献子类发明专利
英文摘要本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语 句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点 信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决 了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐 效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒 度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围 内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误 率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词 对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句 子进行很好的词语对齐的弊端。
公开日期2009-07-15
状态已授权
内容类型专利
源URL[http://ir.ia.ac.cn/handle/173211/40765]  
专题模式识别国家重点实验室_自然语言处理
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
宗成庆,周玉,何彦青. 一种汉英词语自动对齐方法. CN200810055783.8. 2008-01-09.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace