维吾尔语统计语言模型中建模基元的研究

CORC > 新疆理化技术研究所 > 中国科学院新疆理化技术研究所 > 多语种信息技术研究室

题名	维吾尔语统计语言模型中建模基元的研究
作者	张小燕
答辩日期	2011-05-30
授予单位	中国科学院研究生院
授予地点	中国科学院新疆理化技术研究所
导师	王磊
关键词	维吾尔语语言模型困惑度模型基元词素
学位名称	硕士
学位专业	计算机应用技术
英文摘要	语言模型是描述自然语言内在规律的数学模型，在自然语言处理过程中占据着重要的地位，但目前维吾尔语语言模型的研究尚处于起步探索阶段，因此构建一个可靠的语言模型对于维吾尔语自然语言处理技术很关键。维吾尔语语言模型是维吾尔语自然语言处理技术的重要基石，广泛应用于语音识别、机器翻译、信息检索等领域，它的研究对促进新疆地区的少数民族自然语言信息处理技术的发展具有重要的意义。本文针对当前维吾尔语语言模型存在的语料库资源匮乏、数据稀疏以及困惑度较高等问题，试图找出使困惑度最低的平滑算法和建模单元（基元）建立语言模型。具体研究工作如下所示：为解决数据稀疏问题，本文研究了多种平滑算法，包括加法平滑算法、Good-Turing平滑、Witten-Bell平滑、Katz平滑、绝对折扣平滑、Kneser-Ney平滑。实验结果表明绝对折扣平滑算法的困惑度最低。本文将基于电话信道的维吾尔口语对话的文本、双语教学系统中的课本教材以及一些日常用语作为实验数据，然后它们进行预处理，并将处理后的数据作为本实验中建立维吾尔语语言模型的文本语料。接着对维吾尔语文本语料进行分词，这里采用两种分词方法：一种是基于词典的维吾尔语词切分，一种是非监督式形态切分。从结果来看，后者的分词效果好于前者。在基于维吾尔语分词的基础上，对传统的N-gram统计语言模型做出改进。将维吾尔语单词切分成不同单元，以它们作为建模基元建立了3种维吾尔语语言模型，并提出基于词素类的N-gram语言模型。本文利用SRILM 1.5.12工具包和MITLM 0.4工具包进行实验。结果表明，基于词素的维吾尔语语言模型的困惑度比基于词的维吾尔语语言模型的困惑度降低了约2/3，另外，基于词素的语言模型可有效减少字典词汇量，并有较好的词语的覆盖度。
内容类型	学位论文
源URL	[http://ir.xjipc.cas.cn/handle/365002/4412]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	张小燕. 维吾尔语统计语言模型中建模基元的研究[D]. 中国科学院新疆理化技术研究所. 中国科学院研究生院. 2011.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们