汉维统计机器翻译中的句法形态信息研究

CORC > 新疆理化技术研究所 > 中国科学院新疆理化技术研究所 > 多语种信息技术研究室

题名	汉维统计机器翻译中的句法形态信息研究
作者	陈丽娟
答辩日期	2011-05-30
授予单位	中国科学院研究生院
授予地点	中国科学院新疆理化技术研究所
导师	周俊林
关键词	统计机器翻译句法调序形态学因素模型翻译模型维语
学位名称	硕士
学位专业	计算机应用技术
英文摘要	国内的机器翻译研究集中在汉语和英语互译上，针对少数民族语言的机器翻译以蒙古语居多，对于维语的机器翻译仍处于起步阶段。对于新疆这样一个多民族聚居的地区，以汉族和维吾尔族居多。随着信息化时代的到来，各民族之间的交流日趋频繁，而语言的差异为信息交流带来了障碍，所以民族语言之间的翻译对于促进民族间的交流具有重要意义。在统计机器翻译中，基于短语的统计机器翻译方法是一种经典的方法。根据汉维机器翻译研究现状，利用现有技术和工具构建了基于短语的汉维统计机器翻译平台，将其作为基线系统，对汉维机器翻译进行初探。汉维机器翻译中存在的主要问题有以下三个：（1）缺乏大规模汉维平行语料库。（2）汉语和维语的语序差异较大。（3）汉语和维语的形态差异较大。此外，由于基于短语的方法在长距离重排序能力上表现欠佳，并且不包含句法和形态信息等语言学知识。以上问题导致在汉语到维语的统计机器翻译中，未登录词较多，且产生的维语译文出现语序混乱现象。针对上述问题，本文讨论将汉语句法信息和维语形态学信息加入到汉语到维语的统计机器翻译模型构造中，以解决维语译文的语序问题和降低词形错误率： 1、对汉语句子中的短语进行调序，使其与维语句法相近。在对汉语和维语的语序进行系统研究的基础上，归纳了一系列汉语句法重排序规则。训练前，对源语言句子进行句法分析，对分析得到汉语短语结构树运用本文提出的重排序规则进行调序，使汉语和维语的在语序上相近。 2、使用维语的形态信息，使之参与模型的训练。对汉语和维语的形态学差异进行了分析，在系统地总结了维语形态学特征的基础上，研究维语形态特征的提取方法，以及在引入维语形态特征后语料库的形式。针对汉语和维语的句法差异和形态学差异，在汉语到维语的统计机器翻译中，对源语言端进行句法调序，对目标语言端进行形态分析，将句法信息和形态学信息以“因素”的形式引入到对数线性模型中。实验证明，本文提出的方法能够获得较好的系统性能，较基线系统有实质性的提高。
页码	75
内容类型	学位论文
源URL	[http://ir.xjipc.cas.cn/handle/365002/4416]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	陈丽娟. 汉维统计机器翻译中的句法形态信息研究[D]. 中国科学院新疆理化技术研究所. 中国科学院研究生院. 2011.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们