CORC  > 北京大学  > 信息科学技术学院
互联网上信息报道的最早发布时间检测; The Determination of the Earliest News Reporting Time on the Web
黄连恩 ; 张燕 ; 李晓明
刊名计算机科学与探索
2009
关键词文章发布时间检测 网络信息挖掘 网页内容分析 文本消重
DOI10.3778/j.issn.1673-9418.2009.01.005
英文摘要准确提取网上信息报道的最早发布时间,对于使用计算机辅助的社会科学研究来说具有重要价值.数据表明,有40%的信息报道无法从网页中直接提取出文章发布时间,此时,如果单纯依靠搜集时间和HTTP协议提供的网页文件最后修改时间信息来估计文章发布时间,就会造成较大误差.提出了两种能够提高计算精度的方法:链接分析法和拷贝分析法.大数据量实验表明,这两种方法具有很小的出错概率,是切实可用的.其中,链接分析法能够在一定程度上减少计算误差.而拷贝分析法则具有决定性的作用.当一篇信息报道能在网上找到多个拷贝(转载)时,就会有很大的概率准确推断出该报道在网上的最早发布时间.; 国家自然科学基金; 国家高技术研究发展计划(863计划); 广东省重点实验室基金; 中国科学引文数据库(CSCD); 0; 1; 51-59; 3
语种中文
内容类型期刊论文
源URL[http://ir.pku.edu.cn/handle/20.500.11897/24365]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
黄连恩,张燕,李晓明. 互联网上信息报道的最早发布时间检测, The Determination of the Earliest News Reporting Time on the Web[J]. 计算机科学与探索,2009.
APA 黄连恩,张燕,&李晓明.(2009).互联网上信息报道的最早发布时间检测.计算机科学与探索.
MLA 黄连恩,et al."互联网上信息报道的最早发布时间检测".计算机科学与探索 (2009).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace