您好,欢迎来到佳博论文网!

面向数据流的频繁项集挖掘算法研究

论文摘要

在计算机技术、信息存储技术及互联网高速发展的今天,越来越多的企业提高信息化程度。在企业的实际应用中,数据挖掘正在被频繁的提起,作为一个多学科交叉应用领域的数据挖掘技术正在各行各业的决策活动中扮演越来越重要的角色。数据挖掘(Data Mining,简称DM)又称数据库中知识发现(Knowledge Discoveryfrom Database,简称KDD),是在海量数据中抽取出未知且有价值的模式的一个非平凡过程,它的最终结果便于理解,是目前数据库研究领域的热点问题之一。本文主要介绍了基于数据流的频繁项集挖掘的基本概念和相关知识,介绍了经典频繁项集挖掘算法并对其优、缺点进行分析,主要研究工作分以下两方面:第一、本文提出了一种基于WCF-tree加权滑动窗口数据流元项集挖掘算法(TWEM算法)。首先,考虑到数据在不同时间窗口内的重要性,允许用户定义窗口个数和各窗口权值;其次,利用WCF-tree挖掘闭项集;最后,结合各等价类内项集与相应元项集支持度不完全相同,保持一种可估算的关系特性,挖掘元项集。实验结果表明,TWEM算法缩小了搜索空间,提高了程序的运行效率。第二、本文提出基于矩阵的数据流频繁模式预测算法(MFP算法)。MFP算法可预测在下一时间窗口中可能性较大的频繁项集,以满足用户需要。该算法首先将数据转换为0-1矩阵;然后通过矩阵剪裁和位运算更新矩阵,并从中挖掘频繁项集;最后,利用当前窗口数据预测下一时间窗口中可能出现的频繁项集。实验结果表明,MFP算法在不同实验环境下能有效预测频繁项集,该算法是可行的。信息量的不断增长和人们对数据挖掘技术应用的不断增加为频繁项集挖掘技术的发展提出了新的挑战,在未来的工作中要根据数据流本身的特点在存储空间和执行时间上提高算法的运行效率。