CORC  > 清华大学
基于URL特征的动态页面聚类
崔安颀 ; 岑荣伟 ; 张敏 ; 马少平 ; Anqi Cui ; Rongwei Cen ; Min Zhang ; Shaoping Ma
2010-07-15 ; 2010-07-15
会议名称中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集 ; Chinese Computing Technologies and Related Linguistic Issues--Proceedings of the 7th International Conference on Chinese Computing ; 第七届中文信息处理国际会议 ; The 7th International Conference on Chinese Computing ; 中国湖北武汉 ; CNKI ; 中国中文信息学会、新加坡中文与东方语言信息处理学会、武汉大学语言与信息研究中心
关键词数据抽取 信息检索 垂直搜索 聚类 URL 特征 Data Extraction Information Retrieval Vertical Search Clustering URLFeatures TP391.3
其他题名Dynamic Web-pages Clustering Based on URL Features
中文摘要日益广泛应用的动态页面使数据抽取成为信息检索的关键技术和垂直搜索等领域中的重要组成部分。页面聚类利用页面间相互关系,可有效简化数据抽取步骤。但目前尚无有效的基于页面格式特征的页面聚类方法。格式相近的动态页面使用相同或近似的模板生成,其 URL 特征十分相近,利用该特征可间接获取页面模板信息。本文提出的基于 URL 特征的聚类算法,通过分析 URL 特征找到同类页面间的相似关系并聚类。经实验,聚类效果良好的类占总数的80%以上。该算法在时间和空间上的有效性使其具有广阔的应用前景。; The wide-spread of dynamic Web-pages makes data extraction become a key technology in information retrieval and an important part in areas such as vertical search.Page-clustering makes full use of the interrelationships between pages to simplify steps of data extraction.However,there is no effective way to cluster pages based on their format features.Similar-formatted dynamic pages are generated by same or similar code generators,and their URLs are similar.This paper suggests an algorithm of clustering based on URL features,which can find out the similarity between pages before clustering.Results of the experiment show that good clusters are over 80% of total clusters.The algorithm also has time and space feasibility,which bring a wide range of potential applications.; 国家重点基础研究(973)(2004CB318108); 自然科学基金(60621062,60503064); 863高科技项目(2006AA01Z141)资助
会议录出版者电子工业出版社
语种中文 ; 中文
内容类型会议论文
源URL[http://hdl.handle.net/123456789/69911]  
专题清华大学
推荐引用方式
GB/T 7714
崔安颀,岑荣伟,张敏,等. 基于URL特征的动态页面聚类[C]. 见:中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集, Chinese Computing Technologies and Related Linguistic Issues--Proceedings of the 7th International Conference on Chinese Computing, 第七届中文信息处理国际会议, The 7th International Conference on Chinese Computing, 中国湖北武汉, CNKI, 中国中文信息学会、新加坡中文与东方语言信息处理学会、武汉大学语言与信息研究中心.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace