CORC  > 清华大学
面向信息检索需要的网络数据清理研究
刘奕群 ; 张敏 ; 马少平 ; Liu Yiqun ; Zhang Min ; Ma Shaoping
2010-07-15 ; 2010-07-15
会议名称第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集 ; 第二届全国信息检索与内容安全学术会议(NCIRCS-2005) ; 中国北京 ; CNKI ; 中国中文信息学会信息检索与内容安全专业委员会
关键词网络信息检索 数据清理 机器学习 Web Information Retrieval Data Cleansing Machine Learning. TP391.3
其他题名Web Data Cleansing for Effective Information Retrieval
中文摘要Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为捡索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。; The existence of low quality web pages affects the effectiveness and efficiency of web search. In this paper, we define the web page quality estimation as a learning problem. First, several query-independent features are investigated which can separate search target page from ordinary ones. Bayes estimation based on these features is then used to train a model to assign importance scores to web pages. In TREC based experiments, the top-scored set reduces 45% low quality pages as well as retains 95% high quality ones. It shows the possibility to gain better performance with less storage and computing resource for search engines.; 国家重点基础研究(973)(2004CB318108) 自然科学基金(60223004,60321002,60303005) 教育部科学技术研究重大项目(104236)
会议录出版者清华大学出版社
语种中文 ; 中文
内容类型会议论文
源URL[http://hdl.handle.net/123456789/69930]  
专题清华大学
推荐引用方式
GB/T 7714
刘奕群,张敏,马少平,等. 面向信息检索需要的网络数据清理研究[C]. 见:第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集, 第二届全国信息检索与内容安全学术会议(NCIRCS-2005), 中国北京, CNKI, 中国中文信息学会信息检索与内容安全专业委员会.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace