CORC  > 北京大学  > 信息科学技术学院
一种高效的动态脚本网站有效页面获取方法
夏冰 ; 高军 ; 王腾蛟 ; 杨冬青
2009
关键词动态脚本网站 获取方法 有效页面
英文摘要随着Web2.0时代的到来,越来越多的网站采用了动态脚本的方式与用户进行交互.页面的转换不再仅通过点击“”标签进行,URL也不再是页面的唯一标识.传统网络爬虫无法应对含动态脚本的网页,如Google等搜索引擎即对这些网页采取回避的态度.对这些网页的抓取方法的研究仍处在起步阶段,本文提出了一种高效的动态脚本网站有效页面的获取方法,首先通过训练获得哪些页面元素触发的哪些事件将引向我们所需的页面,总结出这些页面元素的XPath特征及触发的事件类型.在以后的抓取中,只触发这些页面元素上的特定事件,从而提升抓取效率.此外,我们通过实验证明我们方法的效率和性能.; 0
语种中文
内容类型其他
源URL[http://ir.pku.edu.cn/handle/20.500.11897/230085]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
夏冰,高军,王腾蛟,等. 一种高效的动态脚本网站有效页面获取方法. 2009-01-01.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace