基于改进Inception网络的语音分类模型

	基于改进Inception网络的语音分类模型
	张秋余; 王煜坤
刊名	计算机应用
	2022-07-07
页码	1-8
关键词	语音分类卷积神经网络残差跳连对数梅尔谱图深度特征
英文摘要	针对传统音频分类模型提取音频特征繁琐以及现有神经网络模型存在过拟合、分类精度不高，梯度消失等问题，提出了一种基于改进Inception网络的语音分类模型。首先在模型中加入ResNet网络中的残差跳连思想，对传统的InceptionV2模型进行改进，使网络模型加深的同时，避免梯度消失的现象出现；其次，对Inception模块中卷积核大小进行优化，利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取，使模型通过自主学习的方式选择合适的卷积对数据进行处理。在深度与宽度两个维度对模型进行改进，使模型的分类精度提高；最后，利用训练好的网络模型，对语音数据进行分类预测，并通过Softmax函数得到分类结果。使用清华大学汉语语音库THCHS-30与环境音音频库UrbanSound8K两个数据集进行分类实验。实验结果表明改进的Inception网络模型在上述两数据集上分类准确率分别达到92.76%与93.34%。与现有经典的神经网络模型如VGG16、InceptionV2等以及现有文献中使用的如DS-CNN、GoogLeNet等分类结果较好的模型相比，本文所提出的模型分类准确率有所提升。实验结果表明该模型具有更强的特征融合能力和更准确的分类结果，能够克服过拟合、梯度消失等问题，在语音与音频分类、检索等领域具有一定的应用价值。
URL标识	查看原文
语种	中文
内容类型	期刊论文
源URL	[http://ir.lut.edu.cn/handle/2XXMBERH/158729]
专题	计算机与通信学院
作者单位	兰州理工大学计算机与通信学院
推荐引用方式 GB/T 7714	张秋余,王煜坤. 基于改进Inception网络的语音分类模型[J]. 计算机应用,2022:1-8.
APA	张秋余,&王煜坤.(2022).基于改进Inception网络的语音分类模型.计算机应用,1-8.
MLA	张秋余,et al."基于改进Inception网络的语音分类模型".计算机应用 (2022):1-8.