基于词频差异特征选取的Context Graph算法改进 | |
张永; 吴崇正 | |
刊名 | 计算机工程与应用
![]() |
2012 | |
期号 | 2014年10期页码:141-146 |
关键词 | 主题爬虫 Context Graph模型 搜索策略 特征选取 TF-IDF |
ISSN号 | ISSN:1002-8331 |
英文摘要 | 为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。 |
URL标识 | 查看原文 |
语种 | 中文 |
内容类型 | 期刊论文 |
源URL | [http://119.78.100.223/handle/2XXMBERH/11260] ![]() |
专题 | 兰州理工大学 计算机与通信学院 |
作者单位 | 兰州理工大学计算机与通信学院 |
推荐引用方式 GB/T 7714 | 张永,吴崇正. 基于词频差异特征选取的Context Graph算法改进[J]. 计算机工程与应用,2012(2014年10期):141-146. |
APA | 张永,&吴崇正.(2012).基于词频差异特征选取的Context Graph算法改进.计算机工程与应用(2014年10期),141-146. |
MLA | 张永,et al."基于词频差异特征选取的Context Graph算法改进".计算机工程与应用 .2014年10期(2012):141-146. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论