题名 | 口语语音识别的声学建模改进和解码方案研究 |
作者 | 冯俊兰 |
学位类别 | 博士 |
答辩日期 | 2001 |
授予单位 | 中国科学院声学研究所 |
授予地点 | 中国科学院声学研究所 |
中文摘要 | 口语语音同朗读式语音相比有了更多的不确定性,因此当我们把目前在实验室里取得重大成绩的语音识别技术,应用到实际任务中时,原有的性能急剧下降。造成这种情况有两个主要的原因,一是由于实际应用中口语语音的灵活性远远大于在实验室里标准、流畅、朗读式的语音。二是,由于声学环境的差异,当测试'语料同训练语料的声学环境差异较大时,原有模型将不再能够很好地工作,这就是著名的鲁棒式语音识别研究的问题。本文将主要研究上述的第一个问题。本文的研究工作可分为两大部分。第一部分是论文研究的基础部分,主要分析了口语语音对识别技术提出的挑战,及本论文研究的背景和主要研究内容,并介绍了为展开口语语音识别研究,我们所做的准备工作,包括口语语料库的搜集、设计和识别方案分析等。第二部分是本论文研究的主体部分,在这一部分里我们对最小分类错误(Minimum Classification Error,MCE)区分性训练、口语语音中的关键词检测和确认、口语语音中的噪声字建模等问题进行了重点研究,具体工作包括:1.MCE在大规模语音识别任务中的贡献:MCE,作为一种区分性训练方法,己经被证明可以用来改进基于隐含马尔克夫模型 (Hidden Markov Model,HMM)语音识别器的性能。同最大似然估计(Maximum Likelihood Estimation,MLE )不同,MCE中不能得到相应的解析式来作为参数估计的依据,因此我们必须将这个最大化问题求助于广义概率梯度下降算法(GeneralizedProbabilistic Descent,GPD)a将MCE用于改进大规模连续语音识别任务中的声学模型,面临的关键的挑战就是巨人的计算代价,也正是由于这个原因,MCE过去多用于小词汇佩量的任务中。为解决这一问题并使MCE最大可能地作出贡献,我们采取了多种措施。首先根据音节之间的混淆关系对训练集内每一语句预定义了一个复杂度较低的词格,合理地降低了MCE搜索误识语音段的代价。其次,关于MCE中的学习率及受限的训练语音段问题,我们分别采用了可变学习率和基于帧的N一Top激活模型做竞争集的方法。实验中使用的数据库是 |
语种 | 中文 |
公开日期 | 2011-05-07 |
页码 | 104 |
内容类型 | 学位论文 |
源URL | [http://159.226.59.140/handle/311008/750] ![]() |
专题 | 声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文 |
推荐引用方式 GB/T 7714 | 冯俊兰. 口语语音识别的声学建模改进和解码方案研究[D]. 中国科学院声学研究所. 中国科学院声学研究所. 2001. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论