在噪声环境下基于注意力机制的单通道语音去混响方法
范存航1,3; 刘斌3; 陶建华1,2,3; 易江燕3; 温正棋3
2019-08
会议日期2019年8月
会议地点青海西宁
英文摘要

人类的听觉系统可以根据注意力机制去关注自己感兴趣的内容。受此启发,本文提出了一种基于注意力机制的语音去混响方法。该方法是基于长短时记忆网络(long-short term memory, LSTM)的编解码结构。首先,利用编码器将混合语音信号编码成深度的高层特征表示;然后,根据注意力机制对编码后的特征进行注意力选择,使其更加关注干净的直达声部分,而忽视或者降低对噪音和混响成分的关注程度;最后,利用解码器将注意力机制的输出内容解码出来,得到目标干净语音的掩蔽值。本文所有的实验都是在TIMIT数据库上进行的。实验结果表明,本文提出的方法要好于加权预测误差和LSTM基线系统。与LSTM去混响方法相比,本文提出的方法PESQ性能相对提升了4.2%;对于CD和LLR的值,本文所提的方法分别相对下降了8.9%和11.4%。尤其是在噪声种类未知的情况下,本文所提方法语音去混响效果更加突出。

语种中文
内容类型会议论文
源URL[http://ir.ia.ac.cn/handle/173211/44396]  
专题模式识别国家重点实验室_智能交互
通讯作者陶建华
作者单位1.中国科学院大学人工智能学院
2.中国科学院脑科学与智能技术卓越创新中心
3.中国科学院自动化研究所模式识别国家重点实验室
推荐引用方式
GB/T 7714
范存航,刘斌,陶建华,等. 在噪声环境下基于注意力机制的单通道语音去混响方法[C]. 见:. 青海西宁. 2019年8月.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace