CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名融合多要素的社会媒体信息挖掘方法研究
作者包红云
学位类别工学博士
答辩日期2013-05-19
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师戴汝为
关键词社会媒体 信息挖掘 要素分析 用户兴趣 主题导航 Social Media Information Mining Factor Analysis Users’ Interests Topic Navigation
其他题名Research on the Information Mining Methods by Integrating Multi-factors in Social Media
学位专业模式识别与智能系统
中文摘要随着网络技术的快速发展与Web2.0的盛行,当前社会媒体呈现出新的特点:重视用户交互(如建立链接关系、添加标签等)、信息更新频繁、内容多样、拥有海量内容等。这些特点为用户获取与传播信息提供了便利,但也给用户搜寻与定位目标信息带来了信息过载的困扰。因此,基于当前社会媒体的特点,充分挖掘出利于用户搜寻目标实体(如图片、群组、话题等)的新要素,并研究融合这些要素的挖掘方法,协助用户快速定位其感兴趣的实体,是社会媒体信息挖掘领域面临的主要挑战。 本论文基于当前社会媒体的特点,借鉴信息检索、数据挖掘等领域的研究成果,分析了对用户搜寻所需实体产生影响的几个要素:用户链接关系、实体描述信息、时间信息、用户反馈信息和知识库,并以此为基础,研究了融合多要素的信息挖掘方法,以提高社会媒体信息挖掘的质量,进而协助用户摆脱信息过载的困扰,主要研究内容包括: 1、提出了一种融合用户链接关系与实体描述信息的实体推荐方法,用来给用户推荐其可能感兴趣的实体,方便用户从海量实体中筛选所需信息。该方法首先将用户链接关系、实体描述信息以及用户历史记录表示成矩阵;然后采用概率矩阵分解技术,将用户链接的其他用户的潜在特征向量与实体内容的特征向量,融入至分解用户兴趣矩阵的过程中,从而准确获取用户和实体的潜在特征向量;最后利用用户和实体的潜在特征向量,挖掘出用户对实体的兴趣。实验结果表明,与现有方法相比,该方法能更准确地捕捉用户的兴趣,协助用户快速准确地获取所需实体。 2、提出了一种融合时间信息与用户链接关系的用户兴趣预测方法,用于挖掘信息更新频繁的社会媒体中用户兴趣动态变化的规律,预测用户未来可能感兴趣的实体,以达到协助用户快速定位其感兴趣实体的目的。该方法首先将用户不同时间段的兴趣记录与用户链接关系表示成矩阵;然后基于用户兴趣演变的特性,采用指数衰减函数描述用户前期兴趣对当前兴趣的影响,并将其融入至挖掘用户兴趣的潜在特征向量的过程中;最后利用用户兴趣的动态变化规律,预测用户未来的兴趣。实验结果分析表明,该方法能够提高信息服务的质量。 3、提出了一种融合用户反馈信息的用户兴趣更新方法,用于更新用户当前兴趣特征,进而为用户返回满足其需求的信息。该方法首先分析用户对系统返回内容的反馈信息包含了正反馈和负反馈两个方面,它们从不同的角度反映了用户当前的兴趣;然后,设计了一种约束用户正反馈信息逼近查询需求且负反馈时序远离查询需求的目标函数,并基于该函数学习度量权重,进而实现了体现用户当前兴趣偏好的度量设计;最后根据修改后的度量函数检索相似话题时序,为用户提供更满意的检索结果。基于所提方法,设计了一个基于相关反馈的查询系统,验证了该方法的有效性和实用性。 4、提出了一种融合知识库的实体主题导航构建方法,用于动态地自动构建语义关系准确的主题层级导航,协助用户明确其感兴趣实体的主题,以缩小其搜寻的主题范围。该方法分析了层级主题模型的统计特点和知识库的语义关联特性,在层级主题模型建立实体描述信息的层级主...
英文摘要With the continuous improvement of information technology and Web2.0,social media possesses the new characteristics of enhancing user interactive, quick information dissemination and rich entities (e.g. pictures, groups, topics etc.), thus endowing people the opportunity to obtain all what they want. However, it simultaneously makes the users face the problem of information overload. Therefore, based on the new characters, mining the effective factors for users seeking desired information and investigating the key methods by integrating those factors will improve information services in social media. Based on the new characteristics of social media and drawing on previous research results of the information retrieval and data mining field, this thesis has pointed out some factors, including user’s social relationships, entity describing information, temporal information, user feedback and Knowledge Base, all of which are valuable for helping users to search out what they want. Then this thesis has provided some effective methods by integrating multi-factors for settling the information overload problem in social media, and the main research focuses are summarized as follows: 1. We propose a model by integrating user’s social relationships and entity describing information for mining users’ interests. Firstly, both user’s social relationships and entity describing information are constructed as matrices. Then the model exploits the matrix factorization technique to learn latent features for users and entities by fusing the latent features of contacting users and describing content. Experimental results show better performance compared to the state-of-the-art approaches. 2. We propose a model by incorporating temporal information and user’ssocial relationships for predicting users’ future interests. Firstly, we constructthe collection of users’ historical interest records as sequential interest matrices depending on time. Then following the evolution of users’ interests, we make the latent features of users and entities associated with their previous latent features by adopting an exponential time decay function. Finally, by employing the probabilistic matrix factorization technique, our approach accurately describes the change of the distribution of the latent feature space of users’ interests. The experimental results demonstrate that our model can improve the quality of prediction. 3. We propose a new model based on use...
语种中文
其他标识符201018014628024
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/6501]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
包红云. 融合多要素的社会媒体信息挖掘方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2013.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace