CORC  > 兰州理工大学  > 兰州理工大学
基于词频差异特征选取的Context Graph算法改进
张永; 吴崇正
刊名计算机工程与应用
2012
期号2014年10期页码:141-146
关键词主题爬虫 Context Graph模型 搜索策略 特征选取 TF-IDF
ISSN号ISSN:1002-8331
英文摘要为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。
URL标识查看原文
语种中文
内容类型期刊论文
源URL[http://119.78.100.223/handle/2XXMBERH/11260]  
专题兰州理工大学
计算机与通信学院
作者单位兰州理工大学计算机与通信学院
推荐引用方式
GB/T 7714
张永,吴崇正. 基于词频差异特征选取的Context Graph算法改进[J]. 计算机工程与应用,2012(2014年10期):141-146.
APA 张永,&吴崇正.(2012).基于词频差异特征选取的Context Graph算法改进.计算机工程与应用(2014年10期),141-146.
MLA 张永,et al."基于词频差异特征选取的Context Graph算法改进".计算机工程与应用 .2014年10期(2012):141-146.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace