CORC  > 清华大学
基于用户行为分析的网页目录自动构建
黄志毅 ; 刘奕群 ; 马少平 ; HUANG Zhi-yi ; LIU Yi-qun ; MA Shao-ping
2010-07-15 ; 2010-07-15
会议名称第四届全国信息检索与内容安全学术会议 ; CNKI
关键词网页目录 高质量网页提取 关键词权值 聚类 Web Information Retrieval Performance Evaluation User Behavior Analysis G354.2
其他题名Toward Automatic Web Directory Development Based on User Behavior
中文摘要在过去的十多年里,互联网上的网站数量呈指数增长趋势,互联网上的网站数量已经突破1.5亿,而网页数量更是达到数百亿。用户往往需要借助搜索引擎和网页目录才能从这样海量的网页当中找到符合自己需求的高质量网页。传统的网页目录几乎都是采用人工构建的方法,这样的构建方法有着耗时多、不够客观、缺乏一致性以及无法及时反映新闻事件和热点事件等缺点。因此,开展网页目录自动构建方法的研究对提高网页目录的质量具有重要意义。本论文讨论和设计一种基于用户行为的网页目录自动构建方法。这种方法最大的特点是能够及时的发现最新的新闻时间和热点事件并在目录中以单独的类的形式表现出来。目录的构建核心步骤有高质量网页提取,网页关键词提取以及网页聚类三步,每一步都是基于用户行为实现的。; In the past decade the number of websites on the Intemet grows exponentially.There are more than 150 million websites on the Intemet,and the number of web pages has exceeded 10 billion.It is impossible for web-users to find high-quality pages which meet tbeir particular requirement without the help of search engines and web directories. Almost all conventional web directories are human-edited directories.The Strength of such web directories is offset by its long development period,,subjectivity,lack of coherence,and incapability of presenting hot topics.This paper focuses on the design and implementation of a new web directory development method based on user behavior.The greatest advantage of this method is its capability for discovering and presenting hot topics.The development process can be divided into three key steps in general:retrieval of high-quality web pages,retrieval of keywords for the web pages,and clustering.Each of these three steps is designed and implemented based on user behavior.
语种中文 ; 中文
内容类型会议论文
源URL[http://hdl.handle.net/123456789/69917]  
专题清华大学
推荐引用方式
GB/T 7714
黄志毅,刘奕群,马少平,等. 基于用户行为分析的网页目录自动构建[C]. 见:第四届全国信息检索与内容安全学术会议, CNKI.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace