题名统计参数语音合成中的关键技术研究
作者孙敬伟
学位类别博士
答辩日期2009-05-23
授予单位中国科学院声学研究所
授予地点声学研究所
关键词语音合成 统计参数语音合成 段模型 多项式段模型 条件随机场 韵律结构预测
其他题名Key Technology Research on Statistical Parametric Speech Synthesis
学位专业信号与信息处理
中文摘要随着电子计算机的运算速度和存储能力的迅猛发展,语音合成技术已由早期的知识驱动发展到数据驱动阶段,大规模语料库的支持使得合成语音的质量有了明显的改善。与此同时,用户对语音合成系统提出了更高的要求,尤其是多语种、音色可变、富于情感的合成。传统的基于单元挑选的拼接合成由于系统构建周期长、存储消耗大、灵活性差等缺点无法满足多样化合成的需求。在这种背景下,基于统计建模的参数合成逐渐引起人们的重视。统计参数合成通过自动训练的方式进行合成系统构建,需要的人工干预少,并且能深入语音参数层面进行处理,灵活性好,有着很高的理论和实用价值。本文在前人的基础上,对统计参数合成方法进行了深入而系统的研究,在合成前端和后端都做出了改进,并通过实验对新方法的优势及合理性进行了论证。 本文的具体研究工作和研究成果如下: 1、在HTS框架的基础之上,针对中文特点,设计并完成了基于隐马尔可夫模型(HMM)的中文语音合成系统,并进行了若干性能改进。 2、在汉语韵律结构预测方面,深入分析了与汉语韵律变化相关的特征,考察韵律预测任务的特点,在此基础上利用条件随机场(CRF)进行韵律建模,实现了基于条件随机场的韵律结构预测方法。 3、在声学参数建模方面,使用多项式段模型进行语音参数建模,实现了新的基于动态规划的多项式段模型快速切分训练算法,在多项式段模型的框架下,对基频、频谱、时长三种语音参数进行统一建模。 4、在参数生成方面,对基于多项式均值轨迹的语音参数生成算法进行研究,根据模型进行各种语音参数的重建。 5、构建了一个基于多项式段模型的统计参数语音合成系统。 实验结果证明了上述方法的研究价值及有效性。
语种中文
公开日期2011-05-07
页码99
内容类型学位论文
源URL[http://ir.ioa.ac.cn/handle/311008/555]  
专题声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文
推荐引用方式
GB/T 7714
孙敬伟. 统计参数语音合成中的关键技术研究[D]. 声学研究所. 中国科学院声学研究所. 2009.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace