CORC  > 清华大学
基于文档中心内容快速提取的Web监控辅助系统
王灿辉 ; 金奕江 ; 马少平 ; WANG Can-hui ; JIN Yi-jiang ; MA Shao-ping
2010-07-15 ; 2010-07-15
会议名称中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集 ; 中国中文信息学会二十五周年学术会议 ; 中国北京 ; CNKI ; 中国中文信息学会
关键词文档中心内容 Web监控 Document key content Web monitoring TP393.09
其他题名Web Monitoring System Based on Fast Extraction of Document Key Content
中文摘要Web已成为人们获取信息的重要来源。Web数据的产生与传播变得更加自由和便捷,数据量持续爆炸式增长,因而对Web进行监控和预警的需求也更加迫切。本文提出一种快速提取文档中心内容的算法,用于缩减Web海量数据的规模。实验结果表明提取出的中心内容只占原文档大小的2.2%,在普通PC机上的处理速度达到每秒380篇,并在小规模测试集上达到了75%以上的精度。使用文档中心内容进行文档分类、聚类和热点抽取与追踪,构成了Web监控辅助系统的框架。; Web has become an important source where people get information. Generation and spread of web data become more and more freely and easily, and web data is growing at an explosive speed. So it is more and more urgent to monitor the web. A fast algorithm that extracts key content of a document automatically is proposed to reduce the size of web data. Experimental results show that the size of key contents extracted is only 2.2% of original documents and the algorithm is able to deal with 380 documents per second when tested on a PC. Precision of the extraction exceeds 75% on a small size testing set. Key contents of documents extracted are used to perform document classification, clustering and web hot event detection and tracking, which make up of the framework of a web monitoring system.; 国家重点基础研究(973)(2004CB318108); 自然科学基金(60223004,60321002,60303005,60503064); 教育部科学技术研究重点项目(批准号:104236)资助
会议录出版者清华大学出版社
语种中文 ; 中文
内容类型会议论文
源URL[http://hdl.handle.net/123456789/70056]  
专题清华大学
推荐引用方式
GB/T 7714
王灿辉,金奕江,马少平,等. 基于文档中心内容快速提取的Web监控辅助系统[C]. 见:中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集, 中国中文信息学会二十五周年学术会议, 中国北京, CNKI, 中国中文信息学会.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace