摘 要:層次分析法構(gòu)建挖掘模型(ACMC)策略讓整個數(shù)據(jù)挖掘流程更加的直觀,它升華了原來的層次分析概念,在復(fù)雜的數(shù)據(jù)環(huán)境中,實現(xiàn)了高效率、高質(zhì)量的數(shù)據(jù)預(yù)測分析,并且從方法論、實踐方面提供了根據(jù)數(shù)據(jù)挖掘過程的策略分析,實現(xiàn)了ACMC系統(tǒng)的規(guī)范設(shè)計。提高了挖掘數(shù)據(jù)的準確性。下面本文就對ACMC在多維數(shù)據(jù)挖掘處理中的應(yīng)用探討。
關(guān)鍵詞:ACMC;多維數(shù)據(jù)挖掘;應(yīng)用
中圖分類號:TP311.13
層次分析方法是對某些復(fù)雜的決策問題的各種影響因素以及其中的內(nèi)在關(guān)系進行深入分析,選用較少的定量信息讓決策的思維過程變成數(shù)學(xué)化,進一步為無結(jié)構(gòu)特征、多準則的高難度決策問題提供簡單有效的決策方法。而數(shù)據(jù)挖掘即數(shù)據(jù)庫中的知識發(fā)現(xiàn),從繁雜的數(shù)據(jù)中選取含有潛在信息量的過程。而ACMC是把層次分析方法和多維數(shù)據(jù)挖掘方法相結(jié)合的方法,它能夠提供一個可擴張、插撥、相互支持操作。重構(gòu)的多維數(shù)據(jù)挖掘體系。下面本文就多重數(shù)據(jù)挖掘?qū)哟畏治龇椒ㄟM行研究分析,以期讓數(shù)據(jù)挖掘過程更加清晰可見,選取的模塊更加準確。
1 ACMC和多維數(shù)據(jù)挖掘的基本認識
1.1 數(shù)據(jù)挖掘技術(shù)簡要分析
隨著數(shù)據(jù)庫與人工智能技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,這是一個從數(shù)據(jù)集中識別有效、新穎,具有潛在利用價值到可理解模式的高級處理環(huán)節(jié)。一般包括數(shù)據(jù)清理、數(shù)據(jù)集成以及數(shù)據(jù)變換、數(shù)據(jù)挖掘、知識表示等,其中數(shù)據(jù)挖掘是中心。數(shù)據(jù)挖掘的目的主要用于指定數(shù)據(jù)挖掘任務(wù)中要查找的相關(guān)模式,通常把數(shù)據(jù)挖掘任務(wù)分成描述與預(yù)測兩種。其中描述性數(shù)據(jù)挖掘的任務(wù)主要是刻畫數(shù)據(jù)庫內(nèi)數(shù)據(jù)的一般特征;預(yù)測性數(shù)據(jù)挖掘任務(wù)是參照現(xiàn)階段的數(shù)據(jù)進一步推理,然后進行預(yù)測分析。數(shù)據(jù)挖掘系統(tǒng)模型如下圖1所示。
圖1 數(shù)據(jù)挖掘系統(tǒng)模型
1.2 層次分析法構(gòu)建挖掘模型策略
在知識數(shù)據(jù)庫的復(fù)雜數(shù)據(jù)環(huán)境中,層次分析法構(gòu)建挖掘模型不僅僅能從訓(xùn)練數(shù)據(jù)庫中獲得大量的信息數(shù)據(jù),還可以用“Model Refresh”以及“Model Evaluation”對模型進行評估打分,然后選出正確的模型執(zhí)行。運用層次分析結(jié)構(gòu)把這些模型逐層篩選出來,進一步為整個數(shù)據(jù)挖掘大模型繪制整體結(jié)構(gòu)。
2 ACMC結(jié)構(gòu)及應(yīng)用流程
在一個完整體系的ACMC結(jié)構(gòu)中,主要包括知識數(shù)據(jù)庫、數(shù)據(jù)挖掘處理模式以及處理方法、數(shù)據(jù)模型學(xué)習(xí)、評估等。ACMC能夠從多個角度、層次對數(shù)據(jù)挖掘進行整體改造,它能夠提供一個相對完整的體系結(jié)構(gòu)與一個很好的框架支持不同模式中數(shù)據(jù)挖掘模型化的方法,在這個結(jié)構(gòu)體系中包括成功模型組件、并行挖掘模式以及同一個模式下的挖掘方法、評估挖掘方法模型,進一步定義出模型流的方向。ACMC能夠從戰(zhàn)略高度、多個層面的技術(shù)水平、不同抽象層面支持挖掘組件的結(jié)合,再重新設(shè)計數(shù)據(jù)挖掘的全部過程,然后提供一個科學(xué)合理的挖掘模型結(jié)構(gòu)。
在ACMC流程的開始階段,為了進一步提高模型的準確性,不一樣的挖掘模型方法能和知識數(shù)據(jù)庫通過交互方式讓模型進行自我學(xué)習(xí),然后,每一個模型能夠和“Analytical Base”通過交互凡是對模型進行打分評估[7]。當(dāng)評估工作完成后,會立刻進入挖掘模式層面,對每個挖掘模型方法進行詳細分析比較,再進行分類、聚類、回歸處理,按照從優(yōu)到劣的順序排列,最后用表格形式展現(xiàn)出來。在ACMC的最頂層是良好的挖掘模型,然后是最佳挖掘模型,最后排列結(jié)果由執(zhí)行引擎處理,把這些優(yōu)秀的挖掘模型進一步挖掘預(yù)測。其中在不同條件下,挖掘模型評估結(jié)果的優(yōu)劣性有很大差異,雖然有一定的差異,但是在模式分支允許的情況下可以進行插播。這樣可以提高工作成效、保證準確性。
3 ACMC在多維數(shù)據(jù)挖掘中的應(yīng)用
在ACMC中主要包括三個重要概念:模型學(xué)習(xí)、模型評估以及模型學(xué)習(xí)和評估之間的影響關(guān)系,這三個概念是對模型進化學(xué)習(xí)的完整詮釋。其中模型學(xué)習(xí)環(huán)節(jié)出現(xiàn)在M-KPI層面,主要采用新數(shù)據(jù)更新原有模型,然后建立一個嶄新的模型。新舊模型之間主要的不同在于新模型主要來源于新的數(shù)據(jù),且算法的類型、模型范式都是相同的。模型評估環(huán)節(jié)出現(xiàn)在M-KPI、M-CSF這兩種不同層面,把樣品數(shù)據(jù)輸入以后,利用模型能夠評估打分,當(dāng)出現(xiàn)預(yù)測的結(jié)果后,可以用實際結(jié)果評估模型,然后賦予一定權(quán)值,在每個M-KPI取得一定的權(quán)值以后,能夠用權(quán)值篩選模型方法。
其次,模型學(xué)習(xí)與評估二者之間的關(guān)系,利用不同的M-KPI刷新模型,然后產(chǎn)生和新模型對應(yīng)的新數(shù)據(jù),再使用“ Analytics Data”對每一個模型依照不一樣的需求數(shù)據(jù)評估,當(dāng)輸進不同的需求數(shù)據(jù)以后,就能夠出現(xiàn)不一樣的線性結(jié)構(gòu)圖形。經(jīng)過綜合分析不一樣KPI的影響,每個M-CSF就能夠產(chǎn)生相對應(yīng)的影響波動圖形。在ACMC中存在著眾多的關(guān)鍵因素,其中主要包括“分類-CSF、回歸-CSF以及聚類-CSF等”。其中分類是ACMC結(jié)構(gòu)中一個非常重要的關(guān)鍵因素,進行分類的主要目的是學(xué)會分類函數(shù)或者分類模型,這種模型可以把數(shù)據(jù)庫中的數(shù)據(jù)系列項反射到規(guī)定的類別中,通過分類體悟表述關(guān)鍵性數(shù)據(jù)類別的模型,然后預(yù)測以后的數(shù)據(jù)趨勢。在分類-CSF中包括很多種算法,每一個數(shù)據(jù)樣本采用n維特征向量描述屬性數(shù)值。
最后,假定一定不明確的數(shù)據(jù)樣本X,分配給各個類別,就會產(chǎn)生P,再依據(jù)貝葉斯定理,P(X)相對于全部類別屬于常數(shù),在最大化以后檢驗概率P能夠轉(zhuǎn)化成最大化的概率。此時若訓(xùn)練數(shù)據(jù)集中含有很多屬性與元組,計算所得的P(X)數(shù)值可能會非常大,故一般情況下,需要先假設(shè)各個屬性的取值是相互獨立的,然后就可以從訓(xùn)練數(shù)據(jù)中求出來。按照這種方法,對一個未知類別的樣本X,必須先計算出X所屬類別概率,然后選取概率最大的類別當(dāng)作類別。
4 結(jié)語
總之,為了把多維、多層次復(fù)雜數(shù)據(jù)流的數(shù)據(jù)挖掘處理流程進行優(yōu)化處理,在層次分析方法和數(shù)據(jù)挖掘理論的基礎(chǔ)上,提出了層次分析法構(gòu)建挖掘模型的理念。設(shè)計出了以層次分析法構(gòu)建挖掘模型為基礎(chǔ)的結(jié)構(gòu),提供一個用來支持各種各樣挖掘組件的集成平臺,為整個數(shù)據(jù)挖掘流程提供了一個可控策略,以從多個方面、多個層次對整個挖掘框架與不同模塊之間的結(jié)合方法進行改進。其中CSF與KPI是一整個數(shù)據(jù)挖掘結(jié)構(gòu)的重要環(huán)節(jié),挖掘模型的評估是整個數(shù)據(jù)挖掘的引擎,直接影響到最終的決策。但是,來源于信息環(huán)境的反饋對ACMC而言非常重要,在這方面仍需要深入研究,實現(xiàn)ACMC和實際復(fù)雜數(shù)據(jù)環(huán)境的合理銜接,進一步提升ACMC策略的實用性。
參考文獻:
[1]高武奇,康鳳舉,鐘聯(lián)炯.數(shù)據(jù)挖掘的流程改進和模型應(yīng)用[J].微電子學(xué)與計算機,2011,9(07):885-886.
[2]毛伊敏,楊路明,陳志剛.基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測模型與算法[J].中南大學(xué)學(xué)報(自然科學(xué)版),2011,4(09):389-391.
[3]張?zhí)N,李偉華.ACMC策略在多維數(shù)據(jù)挖掘處理過程中的應(yīng)用[J].西北工業(yè)大學(xué)學(xué)報,2011,6(03):358-359.
作者簡介:郭浩(1980.5-),男,江蘇沛縣人,信息技術(shù)部,本科,研究方向:數(shù)據(jù)挖掘。
作者單位:北方工業(yè)大學(xué)信息工程學(xué)院,南昌 330009