CORC  > 软件研究所  > 中科院软件所  > 中科院软件所
题名文本主题切分技术和ROCCHIO模型在信息检索中应用的研究
作者吴曾
学位类别博士
答辩日期2004
授予单位中国科学院软件研究所
授予地点中国科学院软件研究所
关键词信息检索 向量空间模型 主题切分 文本过滤 Rocchio模型 梯度下降算法
学位专业计算机软件与理论
中文摘要我们当前面临着信息爆炸的时代,如何从海量的信息获得所需要的成为人们在信息时代所面临的主要问题之一。随着信息检索技术研究的深入和应用的扩大,用户对检索的要求越来越细,研究者将全文本检索技术已经细分为问答式检索,网络检索,交互式检索,文本过滤等。为了检索系统的精度和用户对系统的满意度,研究者开始考虑如何在现有的自然语言处理和文本处理的理论下,综合使用各种相关理论和技术来更好的满足用户需求。本文的提出背景是第12届国际文本检索大会的子项目,高精度文本检索(Text Retrieval Conference 12,High Accuracy Retrieval ofDocument Track)。首先分析了向量空间模型,它的优缺点,基于它广泛使用的SMART系统,概率空间模型,它的优缺点以及现在基于该模型的INQUERY平台。因为尽管现代信息检索已经不单纯是文本检索或者全文检索,而且这两种模型也已经提出了很多年,但是,上述两种模型以及各种基于此改进的模型还是广泛的用于各种检索方式的第一步或者它们处理问题的思想也被广泛的借鉴。然后,介绍了根据不同线索将文本中不同子主题切分的技术,这些线索包括词义网络和各个段落关键词出现的频率统计,并指出它们各自的优缺点。其次介绍了文本过滤技术,并分析了常用的Rocchio模型的特点。再次,介绍了用在本文所涉及到的浅层自然语言处理技术。最后,介绍了为了准确把握用户需求所需要的一些要素。本文针对文本检索大会子项目的要求和基于段落的,用户查询时可能提供一篇相关文章的查询特点,首先将Rocchio模型和向量空间算法结合起来来把握用户需求并计算文档与查询的相关度,再使用梯度下降技术来训练模型中的参数,最后依据查询和段落层的相关度,使用基于段落切分的方法返回包含用户查询最相关文章。最后,以上述技术为背景,本文实现了上述试验,并分析了试验结果。
语种中文
公开日期2011-03-17
页码57
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/6846]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
吴曾. 文本主题切分技术和ROCCHIO模型在信息检索中应用的研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2004.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace