一种高效的动态脚本网站有效页面获取方法 | |
夏冰 ; 高军 ; 王腾蛟 ; 杨冬青 | |
2009 | |
关键词 | 动态脚本网站 获取方法 有效页面 |
英文摘要 | 随着Web2.0时代的到来,越来越多的网站采用了动态脚本的方式与用户进行交互.页面的转换不再仅通过点击“”标签进行,URL也不再是页面的唯一标识.传统网络爬虫无法应对含动态脚本的网页,如Google等搜索引擎即对这些网页采取回避的态度.对这些网页的抓取方法的研究仍处在起步阶段,本文提出了一种高效的动态脚本网站有效页面的获取方法,首先通过训练获得哪些页面元素触发的哪些事件将引向我们所需的页面,总结出这些页面元素的XPath特征及触发的事件类型.在以后的抓取中,只触发这些页面元素上的特定事件,从而提升抓取效率.此外,我们通过实验证明我们方法的效率和性能.; 0 |
语种 | 中文 |
内容类型 | 其他 |
源URL | [http://ir.pku.edu.cn/handle/20.500.11897/230085] |
专题 | 信息科学技术学院 |
推荐引用方式 GB/T 7714 | 夏冰,高军,王腾蛟,等. 一种高效的动态脚本网站有效页面获取方法. 2009-01-01. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论