CORC  > 兰州理工大学  > 兰州理工大学
题名基于仿射传播聚类的数据挖掘算法研究
作者谢亚萍
答辩日期2015
导师赵小强
关键词数据挖掘 仿射传播聚类 核函数 局部线性嵌入算法 差分进化算法
学位名称硕士
英文摘要随着科学技术的迅速发展和网络技术的普及,人类社会已经进入到大数据时代。在很多领域中人们需要从海量数据中得到有用的知识和信息,因此产生了数据挖掘的概念,仿射传播聚类算法作为一种重要的数据挖掘算法,以相似度矩阵作为输入,构造吸引度矩阵和归属度矩阵,数据点之间通过吸引度和归属度交换有真实价值的消息,直到一个最优的类代表点集合和聚类逐渐形成。仿射传播聚类算法具有不用指定初始聚类中心及聚类的个数不需要设定等优点,但对结构复杂和维数较高的数据集存在聚类结果比较差、精度低、且聚类个数易受到偏向参数的影响。本文主要围绕仿射传播聚类算法的不足,从以下几个方面展开分析与研究:1.针对仿射传播聚类算法处理结构复杂数据集时存在聚类效果差、精度低等问题,提出了一种基于核函数的半监督仿射传播聚类算法,该算法首先利用核函数将结构复杂的输入数据集映射到特征空间,改变相似性度量,且映射后的数据集呈现线性特征;然后计算映射到特征空间数据的相似度矩阵,通过半监督学习进行调整,使属于同簇内的数据更容易成为近邻;最后将得到的相似度矩阵作为仿射传播聚类算法的输入,迭代更新得到全局最优。仿真结果比对,可以看出改进后的算法处理结构复杂数据集时聚类效果更好、精度更高。2.针对运用半监督仿射传播聚类算法处理高维数据时存在聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法,该算法首先通过局部线性嵌入算法将输入的高维数据集映射到低维空间得到低维数据集,且映射后的数据集呈现线性特征,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析。仿真结果表明改进后的算法在处理高维数据时聚类效果更好、精度更高、迭代次数更少。3.由于仿射传播聚类算法中偏向参数对聚类精度和聚类个数有着直接的影响,但其偏向参数通常都是经验取值,很可能导致得不到最优的聚类结果,针对这一问题提出了基于差分进化的仿射传播聚类算法,该算法首先进行仿射传播聚类分析,其偏向参数取经验值;然后根据得到的聚类结果判断偏向参数是否最优,如果不是则把偏向参数作为差分进化算法的输入群体;最后使用差分算法的变异、杂交和选择操作对参数进行智能调整,选择适应值最高的个体作为偏向参数,返回再次聚类。采用经典数据集验证,实验结果从类数、正确率和FMI三方面表明改进后的算法能够效地解决偏向参数对聚类结果的影响,提高了聚类精度。
语种中文
页码54
URL标识查看原文
内容类型学位论文
源URL[http://ir.lut.edu.cn/handle/2XXMBERH/91304]  
专题兰州理工大学
作者单位兰州理工大学
推荐引用方式
GB/T 7714
谢亚萍. 基于仿射传播聚类的数据挖掘算法研究[D]. 2015.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace