大词汇量连续语音理解系统的研究与实现

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 硕士学位论文

题名	大词汇量连续语音理解系统的研究与实现
作者	王刚
学位类别	工学硕士
答辩日期	1995-06-01
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	黄泰翼
关键词	大词汇量连续语音识别自然语言处理多媒体人机对话系统
学位专业	模式识别与智能系统
中文摘要	汉语连续语音人机对话系统的研究和开发随着语音识别及理解方面基础性研究的进展日益重要。要构造一个基于大词汇量连续语音识别的人机对话系统，我们认为要在以下方面取得进展，这些改进同时也必须考虑到系统的实时性要求：1)连续语音识别算法的优化；2)自然语言的理解；3)语音界面与其他多媒体界面的结合。．本文将结合我们开发的一个基于WINDOWS3.1操作系统的大词汇量、连续语音驱动的、人机对话式的多媒体信息提取系统—V0TIRS，介绍我们新近所做的工作。这些工作主要分为声学模型的改进、语言处理的研究和系统实现三个方面。根据汉语语音的特点和我们对声学模型的研究结果，我们提出了基于上下文相关的声学模型建模方案。这种细化大大地提高了HMM的描述能力，使识别率大幅提高。在相同的语言复杂度下，误识率降低了50％左右。根据细化的模型，我们提出声、韵母使用不同的HMM拓扑结构，这为进一步提高HMM的区分能力作出了贡献。同时结合HMM的建模策略，我们对不同的训练方案作了对比，提出了一个较优的针对数据类型的训练算法，使得在同样的训练开销的情况下，系统的表现尽量最优。在语言处理方法及其与语音识别结合策略的研究中，我们试图以一种统一的观点对待连续语音理解的问题—即语言模型驱动的语音处理。根据这种想法，我们建立了一套语言处理及其与语音识别相结合的方法。我们不但可以方便地创建系统的语言模型，同时这些机制和工具为系统产生“理解”式的响应提供了可能。这种响应不仅包括一般意义上的信息显示，还包括交互式的、基于语义知识和上下文信息的人机对话。特别的，它们使系统可以动态地变化FSN以减少识别的困惑度，从而提高系统的性能。最后，基于这种统一的观点，我们将语言的统计信息和FSN相结合，即考虑语言符号节点间的跳转概率。在我们的框架下，可以很容易的用文法归约的方法(甚至直接利用生成FSN的算法)训练这些概率。它不但克服了规则无法完全描述语句的缺陷，成为语言知识的重要补充，还减少了识别的开销，提高识别的精度。我们建立了系统在WINDOWS下的多媒体风格的实现框架，完成了系统的图形界面，初步建立了系统的图象、文字、语音响应资源和控制机制。我们还自行开发了TMS320 DSP板的“伪设备管理程序”，解决了目前语音识别界普遍使用的 TMS320 DSP板与WIND0WS接口的问题，使我们关于TMS320 DSP板的工作在WINDOWS下得以保护
语种	中文
其他标识符	343
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/7117]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	王刚. 大词汇量连续语音理解系统的研究与实现[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 1995.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们