题名基于跨语言预训练的半监督维汉神经机器翻译研究
作者张文博
答辩日期2021-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词半监督 维汉机器翻译 低资源 预训练 跨语言
学位名称博士
学位专业计算机应用技术
英文摘要

深度学习的飞速发展极大地促进了多项人工智能技术的进步。机器翻译作为人工智能中备受瞩目的研究方向之一,通过和深度学习方法结合,近年来也同样获得了突破性的进展。目前,基于神经网络的机器翻译方法已经成为主流的机器翻译方法。神经机器翻译方法的核心是利用一个巨大的神经网络模型直接从平行语料中学习翻译知识,从而搭建一个端到端的神经机器翻译系统。相比统计机器翻译,神经机器翻译模型构造简单,是完全由数据驱动的模型,因此,神经机器翻译的质量和平行语料的规模和质量息息相关。维吾尔语是我国的少数民族语言之一,在新疆维吾尔自治区起着重要的文化交流作用。因此,面向维吾尔语的自然语言处理技术研究,特别是对维汉神经机器翻译的研究有着重要的意义。然而,维吾尔语是低资源语言,目前维汉平行语料的规模相对较小,同时维吾尔语还是形态复杂的语种之一,这就造成小规模的平行语料库还存在数据稀疏的问题。这些问题是制约维汉机器翻译进一步提升的主要因素。大规模平行语料库的构建需要花费大量的人力和时间,难以在短时间内获得,但是单语数据资源可以很容易地从互联网上获取。本文以提升低资源维汉机器翻译质量为目标,借助丰富的单语资源,通过预训练微调的方式构建融合单语数据知识的维汉神经机器翻译系统。本文主要针对基于跨语言预训练神经机器翻译模型的网络结构和预训练任务进行研究,从提升预训练模型和神经机器翻译模型两者相似度的角度,提出对现有的预训练微调模型的改进方法;为了对比不同模型中的对齐信息,本文提出了一个基于词翻译任务的模型对齐信息评测方法;最后,本文还针对维吾尔语单语数据也相对缺乏的问题,提出一个基于汉语单语数据的预训练方法。本文的主要工作包括:(1)基于模型一致的神经机器翻译模型。针对基于屏蔽语言建模的预训练模型使用的网络模型和神经机器翻译模型的网络模型结构不一致的问题,提出一个模型一致的神经机器翻译模型来取代原来的翻译模型。该模型的解码器使用混合注意力机制合并自注意力机制和编码器解码器注意力机制,保证了编码器、解码器和预训练语言模型之间网络结构一致性。因此,该模型可以缓解在平行语料上微调翻译模型时,翻译模型中预训练知识退化的问题。(2)基于混合数据的跨语言预训练模型。为充分利用单语数据和平行语料资源,本文提出使用词对齐技术从平行语料中抽取较高质量的双语词典,然后在基于屏蔽机制的跨语言预训练模型中,通过随机将没有被屏蔽的词替换为该词的翻译词来改进跨语言预训练语言模型。该模型可以使预训练模型间接地学到平行语料中的对齐信息,从而提升预训练模型的跨语言学习能力。(3)基于词翻译任务的模型对齐信息评测方法。为了衡量不同模型中对齐信息的多少,本文提出一种基于词翻译任务的模型对齐信息评测方法来评测不同模型中词嵌入层中蕴含的对齐信息。该方法使用不同模型的词嵌入层来获取词的词向量,并使用两层全连接层构建的网络模型作为词翻译函数,然后借助从平行语料中抽取双语翻译词典作为训练数据来学习该词翻译模型的参数。由于词翻译模型的参数数量远小于词嵌入层模型的参数数量,因此可以对比由不同模型词嵌入层构造的不同词翻译模型的质量来衡量不同模型词嵌入层蕴含的对齐信息。(4)基于汉语单语数据的预训练方法。当维吾尔语单语数据缺乏时,使用基于回译的方法可以利用汉语单语数据提升低资源维汉翻译质量,但是当单语数据规模和平行语料规模相差较大时,传统基于回译的方法无法有效利用大规模单语数据,本文提出一种基于回译数据的预训练方法。该方法对比单语数据和平行语料的领域相似性,将单语数据划分成高领域相似单语数据,领域相似单语数据以及非领域相似单语数据。然后,通过多阶段的训练方式分段地利用高领域相似单语数据和领域相似单语数据来构建融合大规模单语数据知识的神经机器翻译模型。

页码91
内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/7913]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
张文博. 基于跨语言预训练的半监督维汉神经机器翻译研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace