维吾尔语方言口语语音识别中声学建模及多发音字典自适应研究

CORC > 新疆理化技术研究所 > 中国科学院新疆理化技术研究所 > 多语种信息技术研究室

题名	维吾尔语方言口语语音识别中声学建模及多发音字典自适应研究
作者	杨雅婷
答辩日期	2012-04
授予单位	中国科学院研究生院
授予地点	中国科学院新疆理化技术研究所
导师	李晓
关键词	语音识别语料库发音变异多发音字典维吾尔语方言口音
学位名称	博士
学位专业	计算机应用技术
英文摘要	随着信息化水平的不断提高和国际交流的日益频繁，世界各国对语音识别的需求急剧增长。方言口语的语音识别是国内外研究的难点问题，少数民族语言的方言语音识别研究甚少，维吾尔语的方言口语语音识别研究尚属起步阶段。本文主要围绕维吾尔语声学特征的提取和模型训练，以及方言口音发音变异与多发音字典自适应的方法展开研究。运用三种策略对声学特征的提取和模型的训练进行优化，针对基于标准语音的识别系统在识别带有发音变异特征的方言口音语料时识别率低这一问题，提出一种在标准维吾尔语发音字典的基础上进行多发音字典自适应的方法。采用基于专家知识（Knowledge-Based）和数据驱动（Data-Driven）相结合的方法，分析维吾尔语方言口音发音变异规则，通过建立发音混淆矩阵（Confusion Matrix）和挖掘模糊发音映射对（Mapping Pair），构造发音变异集合，生成初始的多发音字典（Multi-Pronunciation Dictionary）。然后运用剪枝算法和门限阈值，从方言口语训练语音数据中获得精简的多发音字典，最终提高维吾尔语方言口语语音识别的识别率。目前，国内很多自动语音识别系统（Automatic Speech Recognition，ASR）对发音规范的说话人，能够达到较好的识别性能，而对于带方言口音的自然口语的语音识别性能会急剧下降。维吾尔语方言口语的语音识别更未被深入研究。本文将焦点定位在维吾尔语带方言自然语音的识别问题，在基于维吾尔语方言口语语音识别的声学建模方面进一步探索，尝试从声学建模和多发音字典自适应的角度解决由于方言口音给识别任务带来的严重的识别困难，提出新的思路并通过实验证明其有效性，同时也为后续的深入研究积累了经验。本文的主要工作和创新点概述如下：（1）研究建立并完善维吾尔语方言口语带声学特征的语料库，对其特征进行系统地声学分析。为后续进行该语言的标准音的推广使用、语音教学、语音通讯、语音识别等研究提供真实有效的依据。（2）研究针对新疆地区少数民族语言语音识别相关技术研究尚处于初期阶段，缺乏相关积累的现状，提出基于子带频谱密度的语音端点检测等语音预处理方法，并设计适用于维吾尔语的聚类问题集，进行声学模型的训练和优化策略研究。（3）研究中对维吾尔语的语音特性研究进行知识融合与技术创新，提出并实现对维吾尔语方言口语语音识别中多发音字典自适应（Pronunciation Dictionary Adaptation，PDA）的框架体系研究。使用基于数据驱动和专家知识相结合的方法对方言口音中存在的发音变异现象进行分析研究，提出基于Uni-gram 的累计概率剪枝策略对多发音字典进行有效剪枝，并对多发音字典输出概率进行归一化。验证发音字典自适应方法在维吾尔语方言口语语音识别中的有效性，从而有效提高识别率。本研究将为维吾尔语语音信息处理和深层次的应用提供相应的基础支撑，为国家少数民族语言语音文字信息资源的建设起到填充作用，具有重要的研究价值和现实意义。研究致力于推进少数民族语音识别研究进程，满足当地多语种语音系统应用需求，探求一种适用于少数民族地区推广使用的研究方法，积累所需的经验并完善实施流程，从而满足信息处理技术领域日益增长的需求。
内容类型	学位论文
源URL	[http://ir.xjipc.cas.cn/handle/365002/4397]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	杨雅婷. 维吾尔语方言口语语音识别中声学建模及多发音字典自适应研究[D]. 中国科学院新疆理化技术研究所. 中国科学院研究生院. 2012.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们