您好,欢迎来到佳博论文网!

密度影响因子相关的网格聚类算法研究

论文摘要

数据挖掘是适应信息社会从海量数据中提取有价值信息的需要而产生的。聚类分析作为数据挖掘学科研究和应用的重要分支之一,它能从未被标记的数据中自动识别出具有一定相似性的数据组成的多个类。在各种聚类算法中,基于密度的算法能识别不同密度,任意形状的聚簇。但是密度聚类往往因为要设置全局参数,且参数不止一个,当遇到簇的密度变化差异很大时,聚类会遇到困难。而基于网格的聚类算法用网格代替对数据点的计算,提高了聚类处理速度,但是以牺牲精度为条件,网格划分的“粒度”大小影响着聚类的质量,粒度越小,聚类越精确,但是花费的代价越高;而粒度越大,聚类质量越粗糙。针对密度聚类和网格聚类的各自不足,本文考虑相邻网格的密度影响因子,提出了改进的聚类算法:基于网格密度影响因子的聚类算法(IFGDC)。算法的主要工作有:(1)通过划分数据空间将数据对象的聚类映射为网格单元的聚类,有效地降低了聚类操作的复杂度;(2)定义了基于网格相邻关系的一些概念,避免了传统的基于密度的算法中需要确定半径的不便;(3)提出了网格密度影响因子的概念,以便从高密度网格中确定核心网格;(4)并给出一种对簇边缘的边界点进行提取的方法,进一步提高了聚类准确性。最后,通过实验测试IFGDC聚类算法,验证了该算法的正确性和有效性。K-means聚类算法简单,成为聚类的经典算法。但是K-means聚类对参数敏感,依赖用户的经验选择聚类数目和初始聚类中心,易受噪声点干扰,而且算法结果依赖数据的输入次序。针对这些不足,本文提出了基于IFGDC的K-means改进算法。算法首先利用网格聚类的速度优势,对数据进行预处理,找到数据集的大致结构与分布,得到聚簇的类数k和代表各自簇的k个初始质心,然后利用这两个参数对数据集进行K-means聚类。实验结果表明,相比单纯地直接使用K均值聚类,改进的算法能提高参数k和初始质心选取的质量,减少对“噪音”的敏感性,算法结果确定,不依赖数据录入顺序,可以有效改进聚类效果。本文在最后对工作进行了总结,并对未来的工作进行了展望。