CORC  > 清华大学
面向信息检索需要的网络数据清理研究
刘奕群 ; 张敏 ; 马少平 ; LIU Yi-qun ; ZHANG Min ; MA Shao-ping
2010-06-09 ; 2010-06-09
关键词计算机应用 中文信息处理 网络信息检索 数据清理 机器学习 computer application Chinese information processing Web information retrieval data cleansing machine learning. TP393.02
其他题名Web Data Cleansing for Effective Information Retrieval
中文摘要W eb数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。; The existence of low quality Web pages affects the effectiveness and efficiency of Web search.In this paper,we define the Web page quality estimation as a learning problem.First,several query-independent features are investigated which can separate search target page from ordinary ones.Bayes estimation based on these features is then used to train a model to assign importance scores to Web pages.In TREC based experiments,the top-scored set reduces 45% low quality pages as well as retains 95% high quality ones.It shows the possibility to gain better performance with less storage and computing resource for search engines.; 国家重点基础研究(973)资助项目(2004CB318108); 自然科学基金资助项目(60223004,60321002,60303005,60503064); 教育部科学技术研究重点项目资助(104236)
语种中文 ; 中文
内容类型期刊论文
源URL[http://hdl.handle.net/123456789/55760]  
专题清华大学
推荐引用方式
GB/T 7714
刘奕群,张敏,马少平,等. 面向信息检索需要的网络数据清理研究[J],2010, 2010.
APA 刘奕群,张敏,马少平,LIU Yi-qun,ZHANG Min,&MA Shao-ping.(2010).面向信息检索需要的网络数据清理研究..
MLA 刘奕群,et al."面向信息检索需要的网络数据清理研究".(2010).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace