面向信息检索需要的网络数据清理研究

CORC > 清华大学

	面向信息检索需要的网络数据清理研究
	刘奕群 ; 张敏 ; 马少平 ; Liu Yiqun ; Zhang Min ; Ma Shaoping
	2010-07-15 ; 2010-07-15
会议名称	第二届全国信息检索与内容安全学术会议（NCIRCS-2005）论文集 ; 第二届全国信息检索与内容安全学术会议（NCIRCS-2005） ; 中国北京 ; CNKI ; 中国中文信息学会信息检索与内容安全专业委员会
关键词	网络信息检索数据清理机器学习 Web Information Retrieval Data Cleansing Machine Learning. TP391.3
其他题名	Web Data Cleansing for Effective Information Retrieval
中文摘要	Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为捡索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。; The existence of low quality web pages affects the effectiveness and efficiency of web search. In this paper, we define the web page quality estimation as a learning problem. First, several query-independent features are investigated which can separate search target page from ordinary ones. Bayes estimation based on these features is then used to train a model to assign importance scores to web pages. In TREC based experiments, the top-scored set reduces 45% low quality pages as well as retains 95% high quality ones. It shows the possibility to gain better performance with less storage and computing resource for search engines.; 国家重点基础研究(973)(2004CB318108) 自然科学基金(60223004,60321002,60303005) 教育部科学技术研究重大项目(104236)
会议录出版者	清华大学出版社
语种	中文 ; 中文
内容类型	会议论文
源URL	[http://hdl.handle.net/123456789/69930]
专题	清华大学
推荐引用方式 GB/T 7714	刘奕群,张敏,马少平,等. 面向信息检索需要的网络数据清理研究[C]. 见:第二届全国信息检索与内容安全学术会议（NCIRCS-2005）论文集, 第二届全国信息检索与内容安全学术会议（NCIRCS-2005）, 中国北京, CNKI, 中国中文信息学会信息检索与内容安全专业委员会.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们