基于元信息的云盘资源检索结果去重; Deduplicating search results of cloud disk resources using meta-information | |
刘驰 ; 闫宏飞 | |
刊名 | 山东大学学报(理学版) |
2016 | |
关键词 | 搜索引擎 去重 云盘资源 元信息 search engine deduplicate cloud disk resources meta-information |
DOI | 10.6040/j.issn.1671-9352.1.2015.060 |
英文摘要 | 区别于传统计算网页文本相似度的去重方法,以多媒体数据文件为主的云盘资源仅可利用相当有限的元信息进行检索结果去重。针对这一问题,以搭建的面向云盘资源数据的搜索引擎系统为基础,通过对云盘资源元信息特性的分析,发现除名称之外,资源文件后缀名、占用空间大小、资源的用户归属是判定重复记录的有效特征。在此基础上,给出了处理上述特征的归一化方法,进而使用无监督方法进行去重。实验结果表明,该方法能够有效对云盘资源检索结果去重。; Different from classical duplicate detection methods which calculating text similarity of web pages,the multi-media cloud disk resources only have limited meta-information to deduplicate search results.The research is based on a newly established cloud disk resources search engine.This paper analyzed the characteristic of cloud disk resource meta-information,finding that besides resource names,extension filename,size and ownership are significant features to de-tect duplicate records.According to this,this paper proposed a feature normalization method and trained an unsuper-vised method to capture the task.Experiments proved that this method is able to solve the cloud disk resources search results deduplicating problem effectively.; 国家重点基础研究发展计划(973计划)项目(2014CB340400);国家自然科学基金资助项目; 中文核心期刊要目总览(PKU); 中国科技核心期刊(ISTIC); 中国科学引文数据库(CSCD); 7; 11-17; 51 |
语种 | 中文 |
内容类型 | 期刊论文 |
源URL | [http://ir.pku.edu.cn/handle/20.500.11897/494499] |
专题 | 信息科学技术学院 |
推荐引用方式 GB/T 7714 | 刘驰,闫宏飞. 基于元信息的云盘资源检索结果去重, Deduplicating search results of cloud disk resources using meta-information[J]. 山东大学学报(理学版),2016. |
APA | 刘驰,&闫宏飞.(2016).基于元信息的云盘资源检索结果去重.山东大学学报(理学版). |
MLA | 刘驰,et al."基于元信息的云盘资源检索结果去重".山东大学学报(理学版) (2016). |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论