题名语音载波和调制包络对语音可懂度的影响
作者马小龙
答辩日期2021-06
文献子类硕士
授予单位中国科学院心理研究所
授予地点中国科学院心理研究所
其他责任者杨玉芳 ; 李晓庆
关键词语音识别 滤除法 载波频段 能量包络
学位名称理学硕士
其他题名The influence of speech frequency band and envelope on speech recognition
学位专业基础心理学
英文摘要在语音识别的过程中,声音信号的频域和时域线索发挥着重要作用。然而,对于与语音可懂度相关联的优质语音的具体声学特征(如,声音载波的频段能量特征;时域包络的调制频率特征),现有研究结果不尽一致;目前的研究对声音的载波频率没有基于“人工耳蜗模型”和“语音学特征”进行精准划分,且没有系统考虑语音信噪比在其中的调控作用。更重要的是,现有研究结果提示语音的载波频率和时域包络调制频率之间可能存在一定的最佳组合关系,但其组合的具体模式和机制目前尚不清楚。因此,本研究基于语音加工的认知神经机制、通过一系列的行为实验,探索语音的载波频率和时域包络调制频率如何影响语音可懂度、以揭示与高语音可懂度相关联的优质语音的关联声学特征。我们设计了2 个研究,共5 个实验对此进行考察。 研究一考察影响语音可懂度的载波频段能量特征。我们根据语音载波关键频段的语音学意义和“ 人工耳蜗模型” , 将载波划分为5 个频段[A1,A2,A3,A4,A5];使用“滤除法”,进行语音识别实验。本研究设计了2 个实验,每个实验又引入3 种噪声条件。实验1A 采用“单独滤除”某一频段(以“无滤除”为基线),考察单独滤除某一载波频段后,其对语音可懂度成绩的影响。实验1B 采用“组合滤除”基频+其他频段,考察基频缺失的情况下,其他载波频段是否对语音可懂度的成绩存在代偿作用。结果发现:当基频完整时,在高信噪比条件下(SNR=3),语音的A1 载波频段对语音可懂度有显著的贡献;在低信噪比条件下(SNR=0), 载波各个频段[A1 ,A2, A3, A4]对语音可懂度都有显著贡献,其中A1 载波频段的贡献最大;这在一定程度上说明随着语音信噪比的降低,其高频载波对语音可懂度发挥着更大的作用。 当基频缺失时,在噪声场景条件下(SNR=3 和SNR=0),B2、B3 和B1 载 波频段对语音可懂度有显著贡献、表现出对语音基频缺失的代偿作用,其中B2的作用最大。安静(无噪声)场景下,滤除载波其他频段中的一个对语音可懂度无显著影响。 研究二考察载波频率和时域包络调制频率的组合关系对语音可懂度的影响。与研究一相同,本研究也采用“滤除法”进行语音识别实验。实验2A 一方面,基于研究一的结果把语音的载波划分为3 个频段(F1,F2,F3);另一方面,基于语音感知/理解的认知神经机制,把时域包络划分为3 个调制频率(E1,E2,E3),产生9 个载波-调制频率组合;另外设置“无滤除”的基线条件。实验2A 结果发现: F1/F2 载波频段的E2 包络调制对语音可懂度有显著贡献;F3 载波频段的E2 和E1 包络调制都对语音可懂度有显著贡献,但是高频包络调制的贡献相对更大。 我们进一步在实验2B 中引入噪声(SNR=5),发现相对于其它载波频段,F1/F2 载波频段的各包络调制频段对语音可懂度都有显著贡献;E2 包络调制和E1 包络调制的贡献相对较大;另外,剔除F1 载波频段的低频或高频包络调制,语音可懂度得到显著提升。在实验2C 中我们剔除了载波频段F1(SNR=6),发现相对于其它载波频段,F1/F2 载波频段的E2 和E1 包络调制都对语音可懂度的贡献最大;每个载波频段的E3 包络调制都对语音可懂度有贡献,且在不同载波频段间无显著差异。总体来看,基频缺失对包络调制的贡献模式影响不大。 简而言之,研究二表明,相对于其它载波频段, F1/F2 载波频段的时域包络调制对语音可懂度的贡献更大;对于时域包络的不同调制频率,E2 和E1 调制对语音可懂度的贡献更大;噪声场景下,去除F1 载波频段的E2/E1 包络调制,会显著提高语音可懂度。
语种中文
内容类型学位论文
源URL[http://ir.psych.ac.cn/handle/311026/39570]  
专题心理研究所_认知与发展心理学研究室
推荐引用方式
GB/T 7714
马小龙. 语音载波和调制包络对语音可懂度的影响[D]. 中国科学院心理研究所. 中国科学院心理研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace