亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        VISDMiner:一個(gè)交互式數(shù)據(jù)挖掘過(guò)程可視化系統(tǒng)

        2018-06-28 02:55:30王永勝戴震宇
        關(guān)鍵詞:數(shù)據(jù)挖掘可視化分類

        王永勝,李 暉,陳 梅,戴震宇,朱 明

        (1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025; 2.貴州省先進(jìn)計(jì)算與醫(yī)療信息服務(wù)工程實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025; 3.中國(guó)科學(xué)院國(guó)家天文臺(tái),北京 100012)

        0 引 言

        數(shù)據(jù)挖掘技術(shù)被廣泛用于從大量的、不完全的、模糊的、隨機(jī)的原始數(shù)據(jù)中提取出潛在有用、可信、新穎的信息和知識(shí)[1]。但是由于數(shù)據(jù)挖掘技術(shù)本身的復(fù)雜性,一般用戶很難理解其挖掘工作的流程,得到的挖掘結(jié)果往往不夠直觀,這增加了挖掘結(jié)果評(píng)估和解釋的難度。要解決上述問(wèn)題,以便從數(shù)據(jù)中挖掘出更多的有價(jià)值的數(shù)據(jù)信息并以生動(dòng)直觀的形式呈現(xiàn)給用戶,如果僅采用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進(jìn)行解決,用戶沒(méi)有交互參與其中根據(jù)自己的領(lǐng)域知識(shí)和經(jīng)驗(yàn)去監(jiān)督算法的執(zhí)行,則容易得到復(fù)雜模糊的信息甚至錯(cuò)誤的信息,造成信息的不易理解和結(jié)果正確率低的問(wèn)題[2-3]。針對(duì)目前數(shù)據(jù)挖掘過(guò)程中存在的問(wèn)題,本文將可視化技術(shù)與數(shù)據(jù)挖掘技術(shù)結(jié)合在一起進(jìn)行探索研究,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)面向高維數(shù)據(jù)集的交互式數(shù)據(jù)挖掘過(guò)程可視化系統(tǒng)VISDMiner。傳統(tǒng)的數(shù)據(jù)挖掘是以算法為中心的,直接產(chǎn)生結(jié)果集,中間執(zhí)行過(guò)程用戶不可知,在數(shù)據(jù)挖掘過(guò)程中通常沒(méi)有引入用戶的參與和交互,數(shù)據(jù)挖掘過(guò)程不透明且難于理解、挖掘結(jié)果復(fù)雜難懂等問(wèn)題接踵而至[4]。本文設(shè)計(jì)并實(shí)現(xiàn)的VISDMiner系統(tǒng)在挖掘過(guò)程中,以用戶交互為中心,讓用戶可以基于自己的領(lǐng)域知識(shí)和經(jīng)驗(yàn),根據(jù)數(shù)據(jù)挖掘過(guò)程中各個(gè)部分產(chǎn)生的可視化子結(jié)果集來(lái)設(shè)置和調(diào)整算法模型與可視化參數(shù),以此促進(jìn)用戶根據(jù)觀察挖掘出來(lái)的信息做出相應(yīng)的判斷、糾正等引導(dǎo)操作,并提高整個(gè)數(shù)據(jù)挖掘過(guò)程的靈活性、交互性以及準(zhǔn)確性[5]。

        目前,復(fù)雜高維數(shù)據(jù)的挖掘分析和可視化展示仍存在一定的難度[6-7]。本文設(shè)計(jì)并實(shí)現(xiàn)的VISDMiner系統(tǒng)在處理高維數(shù)據(jù)集時(shí),首先采用本文提出的改進(jìn)的特征選擇算法MIC-PCA進(jìn)行數(shù)據(jù)預(yù)處理,然后結(jié)合可視化技術(shù)對(duì)數(shù)據(jù)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的執(zhí)行過(guò)程進(jìn)行分析處理。VISDMiner系統(tǒng)以數(shù)據(jù)挖掘技術(shù)和可視化技術(shù)做支撐,將數(shù)據(jù)挖掘的中間各個(gè)環(huán)節(jié)以及數(shù)據(jù)本身的一些抽象信息和數(shù)據(jù)間潛在的聯(lián)系用簡(jiǎn)明直觀的形式展示給用戶,幫助用戶更深入地了解數(shù)據(jù)挖掘的執(zhí)行過(guò)程并進(jìn)而探索數(shù)據(jù)的趨勢(shì)和有價(jià)值信息。

        1 數(shù)據(jù)挖掘過(guò)程可視化

        數(shù)據(jù)挖掘過(guò)程可視化是將可視化技術(shù)融入到數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)挖掘過(guò)程可視化一般是將數(shù)據(jù)挖掘算法的參數(shù)和影響因子作為可視化對(duì)象進(jìn)行分析[8]。傳統(tǒng)的數(shù)據(jù)可視化一般只是將數(shù)據(jù)對(duì)象作為研究對(duì)象,具體的數(shù)據(jù)挖掘算法過(guò)程本身并沒(méi)有進(jìn)行有效的可視化展示,可視化技術(shù)與數(shù)據(jù)挖掘算法之間的結(jié)合是松散的[9-10]。VISDMiner系統(tǒng)的主要思想就是面對(duì)高維數(shù)據(jù)集基于特征選擇技術(shù)實(shí)現(xiàn)數(shù)據(jù)挖掘過(guò)程可視化,并且在數(shù)據(jù)挖掘過(guò)程中讓用戶參與其中,用戶根據(jù)數(shù)據(jù)挖掘過(guò)程可視化的中間結(jié)果集,基于領(lǐng)域知識(shí)和經(jīng)驗(yàn)通過(guò)調(diào)整算法模型參數(shù)和可視化參數(shù),并直接觀察到其對(duì)計(jì)算結(jié)果的影響進(jìn)而改進(jìn)數(shù)據(jù)挖掘結(jié)果。

        數(shù)據(jù)挖掘過(guò)程可視化的工作流程如圖1所示。

        圖1 數(shù)據(jù)挖掘過(guò)程可視化流程圖

        數(shù)據(jù)挖掘過(guò)程可視化的具體流程簡(jiǎn)述如下:

        1)分析數(shù)據(jù)挖掘算法。對(duì)數(shù)據(jù)挖掘算法進(jìn)行分析,確定可視化參數(shù),并分離出數(shù)據(jù)挖掘算法的中間結(jié)果和參數(shù),將其作為可視化對(duì)象進(jìn)行進(jìn)一步分析。

        2)選擇可視化模型。選擇合適的可視化展示模型對(duì)數(shù)據(jù)挖掘各個(gè)階段產(chǎn)生的中間結(jié)果集進(jìn)行可視化展示。

        3)數(shù)據(jù)挖掘過(guò)程可視化。用戶針對(duì)算法參數(shù)或者可視化參數(shù)進(jìn)行交互,并基于可視化中間結(jié)果集的可視化和分析來(lái)決定下一步探索操作。

        2 系統(tǒng)總體設(shè)計(jì)

        VISDMiner系統(tǒng)的總體結(jié)構(gòu)如圖2所示。主要包括可視化表現(xiàn)層(表示層)、執(zhí)行引擎服務(wù)層(服務(wù)層)和數(shù)據(jù)層3個(gè)部分。

        圖2 VISDMiner系統(tǒng)的總體結(jié)構(gòu)圖

        圖2中執(zhí)行引擎服務(wù)層主要負(fù)責(zé)對(duì)數(shù)據(jù)的分析處理和數(shù)據(jù)挖掘過(guò)程的可視化展示。具體可分為數(shù)據(jù)預(yù)處理模塊、可視化數(shù)據(jù)挖掘引擎模塊以及數(shù)據(jù)挖掘結(jié)果模型評(píng)估模塊。

        1)數(shù)據(jù)預(yù)處理模塊。該模塊采用MIC-PCA特征選擇方法對(duì)高維數(shù)據(jù)進(jìn)行降維處理。MIC-PCA是本文提出的一種改進(jìn)的主成分分析算法,在本文的第3章將詳細(xì)介紹該算法及其實(shí)驗(yàn)效果。

        2)可視化數(shù)據(jù)挖掘引擎模塊。該模塊構(gòu)造數(shù)據(jù)挖掘算法模型、提取算法參數(shù)和可視化參數(shù)、設(shè)置閾值等,并允許用戶一定程度地參與到數(shù)據(jù)挖掘的交互式分析過(guò)程中。數(shù)據(jù)挖掘過(guò)程中產(chǎn)生的中間結(jié)果集會(huì)以特定的可視化形式展示給用戶,作為決定下一步分析探索操作的支撐信息。

        3)數(shù)據(jù)挖掘結(jié)果模型評(píng)估模塊。對(duì)數(shù)據(jù)挖掘過(guò)程中產(chǎn)生的中間結(jié)果集進(jìn)行不同形式的可視化展示,讓用戶根據(jù)其性能指標(biāo)對(duì)算法參數(shù)和可視化參數(shù)作進(jìn)一步的調(diào)整。

        3 MIC-PCA算法

        3.1 MIC-PCA算法設(shè)計(jì)思路

        針對(duì)傳統(tǒng)PCA算法定義相關(guān)性矩陣只考慮變量間線性關(guān)系,以及降維過(guò)程忽略類別信息造成分類準(zhǔn)確率下降的不足之處,本文提出一種基于最大信息系數(shù)的主成分分析算法MIC-PCA以用于特征選擇。該算法從計(jì)算變量間最大信息系數(shù)的角度出發(fā)來(lái)確定變量間的依賴程度進(jìn)而選擇主成分。這種方法可以提供更多特征間以及特征與類別關(guān)系的信息,采用該方法在進(jìn)行特征選擇時(shí)降維效果更好。在降到同樣特征維數(shù)下,其分類準(zhǔn)確率更高。

        由主成分分析算法的原理可知,傳統(tǒng)PCA降維的主要思想是通過(guò)衡量2個(gè)變量間的相關(guān)性,去掉冗余特征,利用線性組合用維數(shù)較少且不損失數(shù)據(jù)太多信息的“新特征”代替原來(lái)的數(shù)據(jù)作為新的主成分[11-12]。根據(jù)數(shù)理統(tǒng)計(jì)的觀點(diǎn),主成分的方差越大,說(shuō)明它包含的信息越多,表明該主成分越重要[13]。求方差最大化可以轉(zhuǎn)化為求協(xié)方差的特征值和特征向量,根據(jù)方差最大化要求,目標(biāo)可轉(zhuǎn)化函數(shù)為:

        AT∑A=Λ

        (1)

        其中,A是協(xié)方差矩陣Σ的特征向量為列組成的矩陣,Λ是由協(xié)方差矩陣Σ特征值組成的對(duì)角矩陣,在主成分分析中主成分個(gè)數(shù)k是由這k個(gè)主成分對(duì)應(yīng)的特征值之和所占總體特征值之和的比重來(lái)確定,稱累計(jì)貢獻(xiàn)率[14]。

        2011年Reshef[15]等人提出了一種基于信息論的度量標(biāo)準(zhǔn)——最大信息系數(shù)(Maximal Information Coefficient, MIC)。最大信息系數(shù)主要用于衡量2個(gè)變量間互相依賴程度的強(qiáng)弱,不僅可以度量變量間線性、非線性的依賴關(guān)系,還可以對(duì)一些非函數(shù)依賴關(guān)系進(jìn)行度量。最大信息系數(shù)的本質(zhì)就是利用互信息和網(wǎng)格劃分方法進(jìn)行計(jì)算?;バ畔⑹且环N有效的信息度量方法,常用于度量樣本間的相關(guān)性,可以看成是一個(gè)隨機(jī)變量中包含另一個(gè)隨機(jī)變量的相關(guān)信息量[16]。給定2個(gè)隨機(jī)變量x和y,若它們各自的邊緣概率分布和聯(lián)合概率分布分別為p(x)、p(y)和p(x,y),則它們的互信息定義為:

        (2)

        將一個(gè)數(shù)據(jù)集D劃分為x列y行的網(wǎng)格,計(jì)算劃分網(wǎng)格G中的每個(gè)單元的概率。其中,概率值=單元中的點(diǎn)數(shù)/總點(diǎn)數(shù),數(shù)據(jù)集D在網(wǎng)格上的互信息為I(x,y)??芍?,在同一個(gè)數(shù)據(jù)集上可以有很多種網(wǎng)格劃分方法,每一種劃分都會(huì)得到不同的互信息值,定義劃分網(wǎng)格G下樣本數(shù)據(jù)集D的最大互信息的公式為:

        I*(D,x,y) = max I (D|G)

        (3)

        其中,D|G表示數(shù)據(jù)集D進(jìn)行G網(wǎng)格劃分,最大信息系數(shù)主要利用互信息衡量網(wǎng)格劃分的好壞,不同網(wǎng)格劃分下得到一個(gè)最大互信息值組成特征矩陣,該特征矩陣定義為M(D)x,y,有:

        (4)

        最大信息系數(shù)定義為:

        (5)

        其中,n為樣本大小,B(n)為網(wǎng)格劃分x×y的上限值。MIC是一種歸一化的互信息,當(dāng)2個(gè)變量的最大信息系數(shù)越小時(shí),說(shuō)明2個(gè)變量之間所包含的相同信息也越少;當(dāng)2個(gè)變量的最大信息系數(shù)越大時(shí),說(shuō)明2個(gè)變量之間所包含的相同信息也越多。

        本文提出一種基于最大信息系數(shù)的主成分分析特征選擇算法MIC-PCA。該算法在進(jìn)行計(jì)算時(shí)引入類別信息,并選擇用各個(gè)類別條件下特征間的最大信息系數(shù)矩陣之和而不是傳統(tǒng)PCA算法中的協(xié)方差矩陣進(jìn)行降維計(jì)算。具體改進(jìn)過(guò)程如下:

        將式(1)改為:

        BΤφWB=Λ

        (6)

        其中,φW表示各個(gè)類別條件下特征之間最大信息系數(shù)矩陣之和,B為MIC-PCA的轉(zhuǎn)換矩陣,其列向量βk為φW的特征向量,Λ為φW對(duì)角線元素是特征值的對(duì)角陣。

        (7)

        其中,m表示樣本類別總數(shù),MIC(W|C)表示在類別C條件下特征W兩兩之間的最大信息系數(shù)矩陣。MIC(W|C)的第i行第j列元素為MIC(wi;wj|C),表示類別C條件下特征wi和wj之間的最大信息系數(shù)。

        MIC-PCA的主成分為f,則有:

        f=BTx

        (8)

        第k維主成分fk=βkTx,βk是主成分fk的轉(zhuǎn)換系數(shù),簡(jiǎn)稱主成分的系數(shù)。

        (9)

        其中n為總數(shù),u為最大信息系數(shù)矩陣的特征值,選擇累計(jì)貢獻(xiàn)率為85%~95%的前m個(gè)主成分作為新的特征。

        MIC-PCA算法的偽代碼見(jiàn)算法1。第一步(line 1),使用最大信息系數(shù)(MIC)處理數(shù)據(jù)集,得到最大信息系數(shù)MIC;第二步(line 2),將最大信息系數(shù)與PCA結(jié)合,得到數(shù)據(jù)集的特征值與特征向量,即該數(shù)據(jù)集的特征空間;第三步(line 3)設(shè)置閾值;最后(line 4),得到降維后數(shù)據(jù)特征。

        算法1ALGORITHM MIC-PCA

        ALGORITHM MIC-PCA(S, D, C, N)

        Input: multi-dimension dataset S, dimension D, class C, the number of data N

        Output: the accuracy of the result for classify A, reduction-dimension RD

        1.MIC=MIC(S, D, C, N) //measure the MIC for inner-demension and demension-class

        2.(eigvalue,eigvector)=MIC //call for the PCA, including in the parameter max information corrlation

        3.Set the threshold//select features

        4.Get principal component

        3.2 MIC-PCA性能分析

        3.2.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

        為了驗(yàn)證MIC-PCA算法的降維效果和分類性能,選取UCI機(jī)器學(xué)習(xí)庫(kù)中的3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)算法進(jìn)行驗(yàn)證(見(jiàn)表1)。在實(shí)驗(yàn)中采用隨機(jī)抽樣的方法對(duì)各個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證2種特征選擇方法分類準(zhǔn)確率采用的分類方法分別是k近鄰算法(KNN)、支持向量機(jī)算法(SVM)和樸素貝葉斯算法(NB)。實(shí)驗(yàn)中利用累計(jì)貢獻(xiàn)率來(lái)比較2種算法的降維能力。本實(shí)驗(yàn)為了增加實(shí)驗(yàn)結(jié)果的精確性采用交叉驗(yàn)證的實(shí)驗(yàn)方法,每個(gè)實(shí)驗(yàn)做10組,求平均值。本文主要介紹在Wine數(shù)據(jù)集下實(shí)驗(yàn)的對(duì)比。

        表1 UCI 3個(gè)數(shù)據(jù)集的描述信息

        數(shù)據(jù)集類別特征數(shù)樣本數(shù)Wine313178Breast Cancer Wisconsin232569Biodegradation2411055

        3.2.2 實(shí)驗(yàn)分析

        為了驗(yàn)證MIC-PCA算法的降維效果和分類性能,選取UCI機(jī)器學(xué)習(xí)庫(kù)中的Wine數(shù)據(jù)集、Breast Cancer Wisconsin數(shù)據(jù)集和Biodegradation數(shù)據(jù)集分別進(jìn)行PCA和MIC-PCA分析驗(yàn)證。在實(shí)驗(yàn)中采用隨機(jī)抽樣的方法對(duì)各個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證2種特征選擇方法分類準(zhǔn)確率采用的分類方法分別是k近鄰算法(KNN)、支持向量機(jī)算法(SVM)和樸素貝葉斯算法(NB)。

        實(shí)驗(yàn)1MIC-PCA算法的降維性能

        實(shí)驗(yàn)中利用累計(jì)貢獻(xiàn)率來(lái)比較2種算法的降維能力。本實(shí)驗(yàn)為了增加實(shí)驗(yàn)結(jié)果的精確性采用交叉驗(yàn)證的實(shí)驗(yàn)方法,每個(gè)實(shí)驗(yàn)做10組,求平均值。

        比較兩者得到的主成分的個(gè)數(shù)和累計(jì)貢獻(xiàn)率,結(jié)果如表2所示。

        表2 2種算法在Wine數(shù)據(jù)集下降維能力的比較

        PCAMIC-PCA主成分個(gè)數(shù)主成分累計(jì)貢獻(xiàn)率/%主成分個(gè)數(shù)主成分累計(jì)貢獻(xiàn)率/%580.16583.71685.10690.45789.33793.33892.02896.30994.23999.281096.171099.33

        從表2可以看出,同一個(gè)數(shù)據(jù)集降到相同維數(shù)情況下,MIC-PCA的主成分累計(jì)貢獻(xiàn)率要高于PCA的主成分累計(jì)貢獻(xiàn)率。

        實(shí)驗(yàn)2MIC-PCA算法的分類性能

        對(duì)Wine數(shù)據(jù)集、Breast Cancer Wisconsin數(shù)據(jù)集和Biodegradation數(shù)據(jù)集分別進(jìn)行PCA和MIC-PCA計(jì)算后,用降維后得到的主成分作為新的特征,分別用k近鄰算法(KNN)、支持向量機(jī)算法(SVM)和樸素貝葉斯算法(NB)進(jìn)行分類,計(jì)算分類的準(zhǔn)確率,比較兩者分類性能。

        圖3為用Wine數(shù)據(jù)集測(cè)試采用PCA和MIC-PCA降維后分類的準(zhǔn)確率。

        (a) KNN分類

        (b) SVM分類

        (c) NB分類圖3 Wine數(shù)據(jù)集上2種算法降維后分類的準(zhǔn)確率

        從圖3中Wine數(shù)據(jù)集分別利用PCA和MIC-PCA降維后做分類驗(yàn)證的結(jié)果可知,在Wine數(shù)據(jù)集上MIC-PCA降維后分類準(zhǔn)確率比PCA降維后分類的準(zhǔn)確率要高。

        實(shí)驗(yàn)結(jié)果表明,根據(jù)實(shí)驗(yàn)1,在達(dá)到相同的降維效果時(shí)采用MIC-PCA方法后,所需的主成分個(gè)數(shù)更少,即MIC-PCA的降維效果比PCA降維效果更好;根據(jù)實(shí)驗(yàn)2,在相同數(shù)據(jù)集下根據(jù)降維結(jié)果選取同樣的數(shù)據(jù)主成分個(gè)數(shù)進(jìn)行分類準(zhǔn)確率驗(yàn)證時(shí),無(wú)論是采用KNN分類算法、SVM分類算法還是NB算法,采用MIC-PCA方法進(jìn)行降維后,各算法對(duì)數(shù)據(jù)集的分類效果均變得更好。

        4 數(shù)據(jù)挖掘過(guò)程可視化模式構(gòu)建

        在VISDMiner系統(tǒng)中,用戶可以根據(jù)實(shí)際需要選擇對(duì)應(yīng)的數(shù)據(jù)挖掘算法,本系統(tǒng)目前實(shí)現(xiàn)的數(shù)據(jù)挖掘算法包括分類算法、聚類算法和多維關(guān)聯(lián)規(guī)則算法。本文主要以K-means聚類數(shù)據(jù)挖掘算法為例,介紹K-means聚類算法的數(shù)據(jù)挖掘過(guò)程可視化的構(gòu)建流程。

        4.1 K-means算法過(guò)程可視化模式構(gòu)建流程

        K-means算法過(guò)程可視化模式構(gòu)建步驟具體如下:

        1)數(shù)據(jù)預(yù)處理。系統(tǒng)的數(shù)據(jù)預(yù)處理模塊采用改進(jìn)的主成分分析算法MIC-PCA對(duì)原始的高維數(shù)據(jù)集進(jìn)行降維處理。

        2)對(duì)挖掘數(shù)據(jù)目標(biāo)的統(tǒng)計(jì)描述信息進(jìn)行可視化展示,包括缺失值信息以及類別屬性信息等,以幫助用戶確定簇類數(shù)目。其中缺失值處理的方法有:臨近點(diǎn)替換、序列均值替換、三次樣條插值;統(tǒng)計(jì)信息描述采用的可視化技術(shù)有:散點(diǎn)圖、折線圖、條形圖、3D散點(diǎn)圖。

        3)選擇屬性并對(duì)屬性進(jìn)行可視化展示。其中,采用基于屬性關(guān)聯(lián)性的ReliefF算法對(duì)篩選出來(lái)的特征子集作進(jìn)一步的評(píng)價(jià),用Ranker算法對(duì)ReliefF得到的屬性權(quán)值進(jìn)行排序,通過(guò)閾值設(shè)置顯示用戶要分析的屬性[17]。

        4)根據(jù)前面的數(shù)據(jù)統(tǒng)計(jì)描述信息的可視化展示,用戶可以設(shè)置K-means算法參數(shù),包括聚類數(shù)目k和算法迭代次數(shù)n,用以調(diào)整算法的執(zhí)行。

        5)K-means算法執(zhí)行過(guò)程中的可視化內(nèi)容包括:展示各簇?cái)?shù)目所占比例(餅圖和條形圖)、展示最近簇類中心(報(bào)表)、展示多維數(shù)據(jù)(散點(diǎn)矩陣)、展示各簇間數(shù)據(jù)關(guān)聯(lián)信息(平行坐標(biāo)圖)。

        6)用戶根據(jù)可視化挖掘結(jié)果的滿意程度可以重新設(shè)置參數(shù)再次進(jìn)行挖掘以此獲得最優(yōu)的挖掘結(jié)果。

        4.2 K-means算法過(guò)程可視化應(yīng)用實(shí)例

        圖4 Wine數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)信息可視化展示(條形圖)

        1)在采用K-means算法進(jìn)行數(shù)據(jù)挖掘分析之前,VISDMiner系統(tǒng)可提供對(duì)數(shù)據(jù)統(tǒng)計(jì)描述信息的可視化,用以幫助用戶了解數(shù)據(jù)的屬性和類別信息。圖4是VISDMiner系統(tǒng)采用條形圖的可視化展示形式對(duì)UCI中Wine數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)信息進(jìn)行描述。

        圖5是VISDMiner系統(tǒng)采用3D散點(diǎn)圖可視化展示形式對(duì)UCI中Wine數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)信息進(jìn)行描述。

        圖5 Wine數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)信息可視化展示(3D散點(diǎn)圖)

        2)VISDMiner系統(tǒng)允許用戶在選擇K-means進(jìn)行數(shù)據(jù)挖掘分析時(shí)根據(jù)前述步驟的數(shù)據(jù)可視化展示信息以及自己的領(lǐng)域知識(shí)與經(jīng)驗(yàn)去設(shè)置簇類的個(gè)數(shù)和聚類計(jì)算的迭代次數(shù)。通過(guò)這種交互手段并借助可視化技術(shù),可以改變數(shù)據(jù)挖掘過(guò)程中所依據(jù)的條件,同時(shí)可以幫助用戶直觀地察覺(jué)到算法參數(shù)對(duì)挖掘結(jié)果的影響。

        圖6是用戶設(shè)置簇類數(shù)目和聚類計(jì)算迭代次數(shù)后用餅狀圖展示K-means聚類計(jì)算的過(guò)程可視化結(jié)果。這種可視化方式很直觀地展示了劃分簇類的個(gè)數(shù)、各簇的劃分比例以及簇類中包含數(shù)據(jù)的多少。

        圖6 K-means聚類計(jì)算的過(guò)程可視化結(jié)果(餅狀圖)

        圖7是采用散點(diǎn)矩陣圖展示K-means聚類計(jì)算的過(guò)程可視化結(jié)果。散點(diǎn)矩陣是一個(gè)可以展示多維數(shù)據(jù)的可視化方法,它可以展示出每2個(gè)維度之間的關(guān)系[18-19]。每個(gè)小矩形是一個(gè)散點(diǎn)圖,展示了2個(gè)屬性之間的關(guān)系。散點(diǎn)的不同灰度表示不同的數(shù)據(jù)類別。

        圖7 K-means聚類計(jì)算的過(guò)程可視化結(jié)果(散點(diǎn)矩陣)

        圖8是采用平行坐標(biāo)圖展示K-means聚類計(jì)算的過(guò)程可視化結(jié)果。平行坐標(biāo)圖將高維數(shù)據(jù)的各個(gè)變量用一系列相互平行的坐標(biāo)軸表示,以灰度做區(qū)分[17]。VISDMiner系統(tǒng)采用平行坐標(biāo)圖的可視化方法進(jìn)行數(shù)據(jù)挖掘過(guò)程的展示可以反映樣本變化趨勢(shì)和各個(gè)變量間相互關(guān)系。

        圖8 K-means聚類計(jì)算的過(guò)程可視化結(jié)果(平行坐標(biāo)圖)

        5 結(jié)束語(yǔ)

        本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)交互式數(shù)據(jù)挖掘過(guò)程可視化系統(tǒng)VISDMiner,用以協(xié)助人們從海量數(shù)據(jù)中提取各種有用的信息并根據(jù)可視化的中間結(jié)果集做出相應(yīng)的決策。針對(duì)高維數(shù)據(jù)集的挖掘處理及可視化展示,本系統(tǒng)還提出了一種改進(jìn)的主成分分析算法(MIC-PCA)對(duì)數(shù)據(jù)進(jìn)行降維處理。實(shí)驗(yàn)結(jié)果表明,借助VISDMiner系統(tǒng)及其引入的用戶交互,用戶可根據(jù)自身領(lǐng)域知識(shí)和經(jīng)驗(yàn)來(lái)更好地控制挖掘計(jì)算處理,更容易觀察和理解挖掘過(guò)程中結(jié)果數(shù)據(jù)中隱含的信息,為下一步挖掘探索做出更優(yōu)的決策。該系統(tǒng)采用的改進(jìn)的主成分分析算法MIC-PCA相比傳統(tǒng)的PCA算法具有更好的降維效果和更高的分類準(zhǔn)確率。

        參考文獻(xiàn):

        [1] Martínez-Martínez J M, Escandell-Montero P, Soria-Olivas E, et al. A new visualization tool for data mining techniques[J]. Progress in Artificial Intelligence, 2016,5(2):137-154.

        [2] Bouali F, Guettala A, Venturini G. VizAssist: An interactive user assistant for visual data mining[J]. Visual Computer, 2016,32(11):1447-1463.

        [3] Krzywicki A, Wobcke W, Bain M, et al. Data mining for building knowledge bases: Techniques, architectures and applications[J]. Knowledge Engineering Review, 2016,31(2):97-123.

        [4] Chen Hongmei, Li Tianrui, Luo Chuan, et al. A decision-theoretic rough set approach for dynamic data mining[J]. IEEE Transactions on Fuzzy Systems, 2015,23(6):1958-1970.

        [5] 馬昱欣,曹震東,陳為. 可視化驅(qū)動(dòng)的交互式數(shù)據(jù)挖掘方法綜述[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2016,28(1):1-8.

        [6] Ben Steichen, Giuseppe Carenini, Cristina Conati. User-adaptive information visualization: Using eye gaze data to infer visualization tasks and user cognitive abilities[C]// Proceedings of the 2013 International Conference on Intelligent User Interfaces. 2013:317-328.

        [7] 周芳芳,李俊材,黃偉,等. 基于維度擴(kuò)展的Radviz可視化聚類分析方法[J]. 軟件學(xué)報(bào), 2016,27(5):1127-1139.

        [8] 張紅軍. 多維數(shù)據(jù)集中高維數(shù)據(jù)可視化算法研究[J]. 微電子學(xué)與計(jì)算機(jī), 2017,34(5):110-113.

        [9] Goodwin S, Dykes J, Jones S, et al. Creative user-centered visualization design for energy analysts and modelers[J]. IEEE Transactions on Visualization & Computer Graphics, 2013,19(12):2516-2525.

        [10] 湯穎,鐘南江,孫康高,等. 基于興趣的社交網(wǎng)絡(luò)用戶聚類及可視化[J]. 計(jì)算機(jī)科學(xué), 2017(s2):385-390.

        [11] Niedoba T. Multi-parameter data visualization by means of principal component analysis (PCA) in qualitative evaluation of various coal types[J]. Physicochemical Problems of Mineral Processing, 2014,50(2):575-589.

        [12] Xie Shengkun, Jin Feng, Krishnan S, et al. Signal feature extraction by multi-scale PCA and its application to respiratory sound classification[J]. Medical & Biological Engineering & Computing, 2012,50(7):759-768.

        [13] Reshef Y A, Reshef D N, Finucane H K, et al. Measuring dependence powerfully and equitably[J]. Journal of Machine Learning Research, 2016,17(1):7406-7468.

        [14] 范雪莉,馮海泓,原猛. 基于互信息的主成分分析特征選擇算法[J]. 控制與決策, 2013,28(6):915-919.

        [15] Reshef D N, Reshef Y A, Finucane H K, et al. Detecting novel associations in large data sets[J]. Science, 2011,334(6062):1518-1524.

        [16] Shim J E, Lee I. Weighted mutual information analysis substantially improves domain-based functional network models[J]. Bioinformatics, 2016,32(18):2824-2830.

        [17] 李瑋瑤,趙凱. 基于特征提取的網(wǎng)絡(luò)熱點(diǎn)事件挖掘算法[J]. 計(jì)算機(jī)與現(xiàn)代化, 2015(5):17-20.

        [18] Jürgen Bernard, Martin Steiger, Sven Widmer, et al. Visual-interactive exploration of interesting multivariate relations in mixed research data sets[C]// Proceedings of the 16th Eurographics Conference on Visualization. 2014:291-300.

        [19] 孟海東,藺志舉,徐貫東. 可視化數(shù)據(jù)挖掘工具的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)與現(xiàn)代化, 2011(6):132-135.

        猜你喜歡
        數(shù)據(jù)挖掘可視化分類
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于CGAL和OpenGL的海底地形三維可視化
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        丰满人妻一区二区三区视频| 成人精品国产亚洲欧洲| 国产高清精品在线二区| 国内精品国产三级国产| 亚洲av成人片色在线观看高潮| 东方aⅴ免费观看久久av| 51精品视频一区二区三区| 国产av精品久久一区二区| 国产av剧情一区二区三区| 蜜桃久久精品成人无码av| 精品人妻无码视频中文字幕一区二区三区| 亚洲女同系列高清在线观看| 野花视频在线观看免费| 色欲aⅴ亚洲情无码av| 国产偷窥熟女精品视频| 亚洲精品国产福利在线观看| 青青草中文字幕在线播放| 国产成人午夜无码电影在线观看 | 国产成人精品无码片区在线观看| 亚洲av综合久久九九| 日韩精品欧美激情亚洲综合| 国产三级视频在线观看国产| 久久久久亚洲av无码专区首 | 麻豆视频在线观看免费在线观看| 欧美拍拍视频免费大全| 风间由美性色一区二区三区| 日韩一区二区不卡av| 亚洲白嫩少妇在线喷水 | 欧美aaaaaa级午夜福利视频 | 精品人妻久久一区二区三区| 香蕉人人超人人超碰超国产 | 黑人玩弄人妻中文在线| 亚洲精品国产二区三区在线| 久久伊人精品色婷婷国产| 99国产精品自在自在久久| 在线亚洲综合| 日韩一区二区中文字幕| 无套内内射视频网站| 放荡的闷骚娇妻h| 蜜桃视频在线免费观看完整版| 久久精品国产亚洲av麻豆瑜伽|