题名 | 基于听觉感知的汉语语音可懂度研究 |
作者 | 杨琳 |
学位类别 | 博士 |
答辩日期 | 2008-05-24 |
授予单位 | 中国科学院声学研究所 |
授予地点 | 声学研究所 |
关键词 | 听觉感知 语音可懂度 时域包络 精细结构 心理声学感知实验 |
其他题名 | Research on Mandarin Speech Intelligibility Based on Auditory Perception |
学位专业 | 信号与信息处理 |
中文摘要 | 在多数情况下,语音信号处理是为人的听觉服务的。在各种语音产生和传输环境下,为了提高输出语音的可懂度和质量,对语音信号的研究应尽可能结合人耳的听觉系统结构以符合人耳对语音信号的感知特性,因此对语音问题的研究都要与语音知觉过程联系起来,语音信号听觉感知研究已经成为现代语音学的一个重要分支。汉语作为当前世界上使用最广泛的语言之一有其特殊性,在感知层次上它与西方语言存在着较大差异,因此针对汉语语音进行感知研究将有助于中文语音处理技术的发展。 本文重点研究了汉语语音的感知特性,从时域分析的角度考察了包络和精细结构对汉语语音可懂度的影响,在已有实验的基础上,改进了人工耳蜗连续交迭采样算法,使之更加适合母语为汉语的耳聋患者;并针对汉语语音的特点改进了语音可懂度客观评价指数——语音传输指数STI,使之能够更好地预测汉语语音的可懂度。本文主要工作和贡献如下: 1.在前人对精细结构研究的基础上,采用人工耳蜗连续交迭采样模拟算法,研究不同噪声情况下,各频带精细结构信息对于汉语元音、辅音、句子和声调可懂度的影响。心理声学主观感知实验的结果表明:精细结构可以增强元音和声调对噪声的鲁棒性,但不能增强辅音对噪声的鲁棒性;400-1000 Hz的精细结构对安静环境下的元音、辅音和句子识别有显著影响。 2.汉语是一种声调语言,采用“听觉嵌合体”合成算法,考察了时域包络和不同频带精细结构对声调感知的影响。心理声学感知实验表明:低频精细结构对声调识别有重要作用,高频精细结构对声调识别作用不显著;单纯依靠包络信息,也可以达到一半以上的声调识别率;与纯音和复合音的基频感知相似,汉语的声调感知也存在一个主要区域,即:2~5次谐波对声调感知的作用比基频更大。 3.目前的人工耳蜗语音处理算法都是针对西方语言设计的,在对汉语语音感知研究的基础上发现精细结构对汉语可懂度有重要贡献,因此,提出一种改进的人工耳蜗连续交迭采样算法,引入精细结构信息;对具有正常听力的被试进行人工耳蜗声学模拟实验,结果表明,改进的算法可以大大提高被试对元音和声调的识别能力,从而有望提高耳聋患者的语音可懂度。 4.在语音可懂度的客观评价方面,目前已成为国际标准的语音传输指数已经被证实对多种西方语言有良好效果,对于汉语这种特殊的声调语言还有待近一步验证。我们根据语音传输指数的包络调制理论,对汉语的调制谱和调制转移函数进行了系统分析,并且提出一种改进的语音传输指数算法,在新的算法中包含了特定语言的信息,并通过主观实验验证了40种噪声和回响条件下主、客观可懂度评价的一致性。实验结果表明,改进的算法比传统算法更适用汉语普通话的客观可懂度评价。 |
语种 | 中文 |
公开日期 | 2011-05-07 |
页码 | 111 |
内容类型 | 学位论文 |
源URL | [http://ir.ioa.ac.cn/handle/311008/359] ![]() |
专题 | 声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文 |
推荐引用方式 GB/T 7714 | 杨琳. 基于听觉感知的汉语语音可懂度研究[D]. 声学研究所. 中国科学院声学研究所. 2008. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论