【摘 要】針對(duì)目前幾乎所有算法都無(wú)法在一個(gè)包含頻繁模式的大數(shù)據(jù)庫(kù)中挖掘到極大頻繁模式的問(wèn)題,本文提出一種基于模式圖的頻繁模式挖掘算法GFPMA(Graph-Based Frequent Pattern Mining Algorithm),算法采用一種自上而下的挖掘方式,將交易數(shù)據(jù)庫(kù)轉(zhuǎn)換成模式圖,通過(guò)兩個(gè)優(yōu)化階段:剪枝冗余團(tuán)和擴(kuò)展候選模式,挖掘模式圖中的極大團(tuán),進(jìn)而得到Top-N極大頻繁模式。
【關(guān)鍵詞】頻繁模式挖掘 模式圖
一、前言
頻繁模式挖掘是數(shù)據(jù)挖掘研究中的一個(gè)基本問(wèn)題。在文獻(xiàn)[1]中,首次提出一種模式為巨模式(Colossal Pattern),挖掘指定數(shù)量(如,K)的頻繁巨模式,并提出了一種基于模式融合方法的算法。文獻(xiàn)[2]中提出的算法,旨在尋找Top-K最大頻繁模式,文中提出一種極大團(tuán)算法,該算法以自上而下的方式進(jìn)行檢測(cè)。
在本文中,提出一種新的自上而下的挖掘方法,將交易數(shù)據(jù)庫(kù)轉(zhuǎn)換成模式圖,通過(guò)兩個(gè)優(yōu)化階段:剪枝冗余團(tuán)和擴(kuò)展候選模式,挖掘模式圖中的極大團(tuán),進(jìn)而得到Top-N極大頻繁模式。
二、基本概念
(一)基本概念
(四)結(jié)論
本文中,提出基于模式圖的頻繁模式挖掘算法是一種新的自上而下的挖掘模式,旨在大數(shù)據(jù)集中挖掘出極大頻繁模式。通過(guò)將數(shù)據(jù)集劃分為模式圖,找出模式圖的最大子圖,通過(guò)無(wú)效團(tuán)的剪枝和擴(kuò)展候選模式,Top-N極大頻繁模式。
參考文獻(xiàn):
[1]神鵬飛,王希武,耿志廣,姜樟,王創(chuàng)偉.數(shù)據(jù)挖掘的方法分類研究[J].價(jià)值工程.2012:146-147.
[2]肖海林,李興明.層次分析法在通信告警加權(quán)關(guān)聯(lián)規(guī)則挖掘中的應(yīng)用研究[J].電信科學(xué).2006(11): 36-39.
作者簡(jiǎn)介:陳一心,廣西銀行學(xué)校,助理講師。