CORC  > 厦门大学  > 软件学院-学位论文
题名基于网络爬虫的信息采集分类系统设计与实现; Designing and Implementation of Information Collection and Classification System Based on Web Crawler
作者周茜
答辩日期2014 ; 2013
导师刘昆宏
关键词信息采集 网络爬虫 Lucene Information Collection Web Crawler Lucene
英文摘要在互联网走进世界每一个角落的今天,互联网信息在不断地膨胀,每日互联网将产生大量的数据,其中涵盖了每天发生发展的各种各样的事件,可谓覆盖人们生产生活的方方面面,这其中包含了大量富有价值的数据,同时又有绝大部分我们不关心的数据,如何从如此海量的信息中抽取有价值的数据,是我们急需思考的问题。 系统使用蜘蛛爬虫技术,结合实际需求开发互联网采集系统,使用定向采集思想,快速定位采集符合业务需求的互联网数据,然后将采集结果数据通过文本聚类,归类出符合特性条件的数据集合,以方便后续其他业务的数据支持。本系统采用java语言面向对象的思想,lucene搜索引擎技术做底层数据检索支持,开源的中文分词器IK,应用...; With the development of internet, the online data grows at high speed every day, including all kinds of news, pictures, videos, covering all aspects of human life and becoming more valuable for users. Hence, how to extract useful information from massive date for fully using is becoming an extremely urgent question. This dissertation discusses the use of spider crawler technology and develops an...; 学位:工程硕士; 院系专业:软件学院_工程硕士(软件工程); 学号:X2011230995
语种zh_CN
出处http://210.34.4.13:8080/lunwen/detail.asp?serial=42892
内容类型学位论文
源URL[http://dspace.xmu.edu.cn/handle/2288/77906]  
专题软件学院-学位论文
推荐引用方式
GB/T 7714
周茜. 基于网络爬虫的信息采集分类系统设计与实现, Designing and Implementation of Information Collection and Classification System Based on Web Crawler[D]. 2014, 2013.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace