CORC  > 兰州理工大学  > 兰州理工大学  > 计算机与通信学院
基于改进Inception网络的语音分类模型
张秋余; 王煜坤
刊名计算机应用
2022-07-07
页码1-8
关键词语音分类 卷积神经网络 残差跳连 对数梅尔谱图 深度特征
英文摘要针对传统音频分类模型提取音频特征繁琐以及现有神经网络模型存在过拟合、分类精度不高,梯度消失等问题,提出了一种基于改进Inception网络的语音分类模型。首先在模型中加入ResNet网络中的残差跳连思想,对传统的InceptionV2模型进行改进,使网络模型加深的同时,避免梯度消失的现象出现;其次,对Inception模块中卷积核大小进行优化,利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积对数据进行处理。在深度与宽度两个维度对模型进行改进,使模型的分类精度提高;最后,利用训练好的网络模型,对语音数据进行分类预测,并通过Softmax函数得到分类结果。使用清华大学汉语语音库THCHS-30与环境音音频库UrbanSound8K两个数据集进行分类实验。实验结果表明改进的Inception网络模型在上述两数据集上分类准确率分别达到92.76%与93.34%。与现有经典的神经网络模型如VGG16、InceptionV2等以及现有文献中使用的如DS-CNN、GoogLeNet等分类结果较好的模型相比,本文所提出的模型分类准确率有所提升。实验结果表明该模型具有更强的特征融合能力和更准确的分类结果,能够克服过拟合、梯度消失等问题,在语音与音频分类、检索等领域具有一定的应用价值。
URL标识查看原文
语种中文
内容类型期刊论文
源URL[http://ir.lut.edu.cn/handle/2XXMBERH/158729]  
专题计算机与通信学院
作者单位兰州理工大学计算机与通信学院
推荐引用方式
GB/T 7714
张秋余,王煜坤. 基于改进Inception网络的语音分类模型[J]. 计算机应用,2022:1-8.
APA 张秋余,&王煜坤.(2022).基于改进Inception网络的语音分类模型.计算机应用,1-8.
MLA 张秋余,et al."基于改进Inception网络的语音分类模型".计算机应用 (2022):1-8.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace