摘 要:數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,能幫助用戶更換的挖掘數(shù)據(jù)庫(kù)中隱藏的豐富知識(shí),而受挖掘技術(shù)復(fù)雜性影響,一些用戶很難挖掘完整的數(shù)據(jù),對(duì)數(shù)據(jù)的理解和掌握也比較吃力。采用圖形和圖像的形式,能幫助用戶理解和掌握數(shù)據(jù)挖掘的結(jié)果,可視化數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。
關(guān)鍵詞:可視化數(shù)據(jù)挖掘技術(shù);可視化技術(shù);數(shù)據(jù)挖掘;方法
中圖分類號(hào):TP311.13
在數(shù)字信息時(shí)代下,網(wǎng)絡(luò)信息技術(shù)和現(xiàn)代化的電子通信設(shè)備使得數(shù)據(jù)量逐步增長(zhǎng),數(shù)據(jù)結(jié)構(gòu)不斷復(fù)雜化,需要科學(xué)的技術(shù)展示這些數(shù)據(jù)。可視化數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)可視化的結(jié)合,能利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)將數(shù)據(jù)挖掘源的數(shù)據(jù)、數(shù)據(jù)挖掘過(guò)程和數(shù)據(jù)挖掘的結(jié)果直觀的表現(xiàn)出來(lái),并進(jìn)行交互處理。設(shè)計(jì)科學(xué)的可視化數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)源的可視化、數(shù)據(jù)挖掘過(guò)程和數(shù)據(jù)挖掘結(jié)果的可視化入手。
1 數(shù)據(jù)挖掘過(guò)程中的可視化技術(shù)
1.1 數(shù)據(jù)源的可視化技術(shù)
數(shù)據(jù)源的可視化應(yīng)該在數(shù)據(jù)挖掘過(guò)程算法之前進(jìn)行,主要作用是展示數(shù)據(jù)源是如何分布的[1]。如可以用三維立方體或者曲線來(lái)表現(xiàn)其中數(shù)據(jù)分布的情況,用可視化技術(shù)來(lái)描述數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)和數(shù)據(jù)庫(kù)中不同的抽象級(jí)別和粒度。
1.2 數(shù)據(jù)挖掘預(yù)處理階段的可視化技術(shù)
預(yù)處理階段是數(shù)據(jù)挖掘工作的一個(gè)重要階段,對(duì)選定的數(shù)據(jù)集進(jìn)行抽取、集成、清洗、轉(zhuǎn)換和規(guī)約。在整個(gè)數(shù)據(jù)預(yù)處理階段,用戶需要先了解所需要處理數(shù)據(jù)格式、數(shù)據(jù)列的屬性、數(shù)據(jù)分布的信息等,結(jié)合數(shù)據(jù)挖掘的目標(biāo)對(duì)可能對(duì)使用的數(shù)據(jù)挖掘算法精準(zhǔn)度有影響的數(shù)據(jù)進(jìn)行估算,并進(jìn)行一定的處理。值得注意的是,在數(shù)據(jù)的預(yù)處理過(guò)程中會(huì)涉及大量復(fù)雜的數(shù)據(jù)操作,這就需要可視化技術(shù)進(jìn)行處理,總的來(lái)看,在數(shù)據(jù)預(yù)處理階段的可視化技術(shù)設(shè)計(jì)可以采用結(jié)合傳統(tǒng)的可視化圖表形式和界面菜單操作的形式進(jìn)行,具體設(shè)計(jì)如下。
(1)數(shù)據(jù)的選擇。數(shù)據(jù)的選擇對(duì)象主要是文本文件形式的數(shù)據(jù)和關(guān)系數(shù)據(jù)庫(kù)文件形式的數(shù)據(jù),數(shù)據(jù)選擇的過(guò)程是根據(jù)數(shù)據(jù)質(zhì)量的要求和數(shù)據(jù)挖掘的目標(biāo),連接并訪問數(shù)據(jù)源,進(jìn)而選擇出合適的數(shù)據(jù),主要方式為選擇數(shù)據(jù)表、選擇屬性、記錄選擇。在數(shù)據(jù)選擇的過(guò)程中,用戶可以通過(guò)界面連接自己需要的關(guān)系型數(shù)據(jù)庫(kù),也可以直接從文本文件導(dǎo)入數(shù)據(jù)。而對(duì)那些已經(jīng)選定完畢的數(shù)據(jù)集,用戶可以采取制定數(shù)據(jù)列、樣本采集等方式選擇數(shù)據(jù);(2)數(shù)據(jù)集成。數(shù)據(jù)集成是在選擇好的數(shù)據(jù)源和數(shù)據(jù)庫(kù)中將數(shù)據(jù)搜集并整合到統(tǒng)一的存儲(chǔ)中,在數(shù)據(jù)集成的過(guò)程中,會(huì)出現(xiàn)一些冗余數(shù)據(jù)。為了幫助用戶清楚的識(shí)別冗余數(shù)據(jù),要將數(shù)據(jù)表中冗余數(shù)據(jù)的記錄進(jìn)行高亮顯示[2];(3)數(shù)據(jù)清洗。數(shù)據(jù)清洗主要是針對(duì)在數(shù)據(jù)預(yù)處理過(guò)程中出現(xiàn)的識(shí)別或刪除孤立點(diǎn)、空缺值和數(shù)據(jù)不一致等問題。通過(guò)對(duì)各個(gè)列值的數(shù)據(jù)屬性條形圖顯示,用戶能有效查看各個(gè)列值的分布情況和屬性,進(jìn)而針對(duì)不同的數(shù)據(jù)類型,給予相應(yīng)的處理操作。通過(guò)可編輯數(shù)據(jù)的表格方式來(lái)幫助用戶觀察和分析數(shù)據(jù)集中的連續(xù)字段,進(jìn)一步查找出空缺值,然后再通過(guò)界面提供的人工填寫空缺值處理和補(bǔ)全空缺值;(4)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)的轉(zhuǎn)換包含對(duì)數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)拼接的轉(zhuǎn)換、數(shù)據(jù)匯總計(jì)算的轉(zhuǎn)換和數(shù)據(jù)類型的轉(zhuǎn)換;(5)數(shù)據(jù)規(guī)約。數(shù)據(jù)規(guī)約是在數(shù)據(jù)挖掘結(jié)果有所保障的基礎(chǔ)上,通過(guò)采用壓縮數(shù)據(jù)集的方法來(lái)提高數(shù)據(jù)挖掘過(guò)程的速度。在數(shù)據(jù)規(guī)約過(guò)程中,可以采用的技術(shù)有數(shù)據(jù)壓縮、數(shù)值規(guī)約、維規(guī)約、數(shù)據(jù)立方體聚集、概念和離散會(huì)分層等[3]。數(shù)據(jù)規(guī)約的可視化是通過(guò)采用層次樹和直方圖的形式進(jìn)行的。
1.3 數(shù)據(jù)挖掘算法的可視化技術(shù)
數(shù)據(jù)挖掘過(guò)程中的交互式可視化是用可視化的形式來(lái)描述挖掘的過(guò)程,在整個(gè)挖掘過(guò)程中,設(shè)計(jì)合適的數(shù)據(jù)挖掘算法是極為關(guān)鍵的步驟,也是數(shù)據(jù)挖掘的難點(diǎn)。算法可視化是利用計(jì)算機(jī)圖形學(xué)的方法,將算法程序執(zhí)行和數(shù)據(jù)演變中動(dòng)動(dòng)態(tài)圖形的方式表示出來(lái)。當(dāng)前算法可視化主要應(yīng)用于教學(xué)演示、算法的分析與設(shè)計(jì)、科研、計(jì)算集合、程序調(diào)試等領(lǐng)域中,主要包括了三個(gè)功能部件,見圖1。
1.3.1 算法初始化及相關(guān)參數(shù)設(shè)定部件。數(shù)據(jù)挖掘算法的初始條件包括了使用參數(shù)的默認(rèn)值、經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)集等,在這個(gè)過(guò)程,用戶可以根據(jù)界面設(shè)定的數(shù)據(jù)集來(lái)挖掘,其中參數(shù)值的變化也會(huì)影響挖掘結(jié)果的變化。為了保障挖掘結(jié)果的精準(zhǔn)度,用戶可以通過(guò)多次實(shí)踐來(lái)挖掘出科考的參數(shù)值和數(shù)據(jù)。
1.3.2 中間結(jié)果的顯示部件。不同的數(shù)據(jù)挖掘算法,要有相應(yīng)的數(shù)據(jù)類型來(lái)存儲(chǔ)數(shù)據(jù)挖掘算法中的中間結(jié)果,然后利用一個(gè)通用的數(shù)據(jù)接口提供給計(jì)算機(jī)界面做可視化處理。整個(gè)過(guò)程是動(dòng)態(tài)的,把數(shù)據(jù)挖掘算法生產(chǎn)的步驟在計(jì)算機(jī)界面上呈現(xiàn)出不同的描述。
1.3.3 算法與界面的映射層。不同的數(shù)據(jù)挖掘算法舌部不同的數(shù)據(jù)類型,該步驟的數(shù)據(jù)算法設(shè)計(jì)時(shí)要利用數(shù)據(jù)挖掘擴(kuò)展語(yǔ)言DMX來(lái)完成不同數(shù)據(jù)挖掘算法,不同數(shù)據(jù)挖掘算法能夠提供不同類型的參數(shù)選項(xiàng),以插件的形式讓DMX調(diào)用。
2 數(shù)據(jù)挖掘結(jié)果模型的可視化技術(shù)分析
本文采用的是通用預(yù)測(cè)建模標(biāo)準(zhǔn)語(yǔ)言PMML4.0來(lái)表示各種數(shù)據(jù)挖掘結(jié)果模型,見圖2。
此數(shù)據(jù)挖掘結(jié)果模型的可視化結(jié)果主要是為了幫助用戶能更好的理解所挖掘出來(lái)的數(shù)據(jù)結(jié)果,并且需要進(jìn)行有效的評(píng)估和反饋。數(shù)據(jù)挖掘的結(jié)果模型各有各的特色,也較為繁雜,不同的數(shù)據(jù)挖掘模型,要通過(guò)不同的可視化方法來(lái)展示出來(lái)。(1)可視化圖庫(kù)表。因不同的數(shù)據(jù)挖掘結(jié)果模型需要不同要求和標(biāo)準(zhǔn)的可視化圖形,需要提供不同的可視化圖表庫(kù)接口,以PMML標(biāo)準(zhǔn)格式儲(chǔ)存的數(shù)據(jù)挖掘結(jié)果模型展示可視化圖形;(2)圖像的縮放部件。數(shù)據(jù)挖掘結(jié)果模型進(jìn)行可視化之后,可能會(huì)因?yàn)閮?nèi)容過(guò)多,無(wú)法在界面上顯示,這就需要設(shè)計(jì)科學(xué)的圖像縮放部件,圖像的縮放功能是可視化技術(shù)的一個(gè)重要功能。用戶能通過(guò)對(duì)數(shù)據(jù)挖掘結(jié)果模型的圖形進(jìn)行縮放,切合整體視圖與細(xì)節(jié)視圖;(3)多視圖顯示部件。同一個(gè)數(shù)據(jù)挖掘結(jié)果模型,能提供包括統(tǒng)計(jì)信息視圖、可視化圖表視圖等在內(nèi)的多個(gè)視圖。而不同的視圖可以采用不斷的選項(xiàng)卡進(jìn)行展示,以便用戶能通過(guò)單擊不同選項(xiàng)卡來(lái)觀察不同的視圖;(4)過(guò)濾部件。數(shù)據(jù)挖掘結(jié)果模型的信息量大,用戶為了能快速找出所感興趣的知識(shí)點(diǎn),可以設(shè)計(jì)過(guò)濾部件,將設(shè)計(jì)好的過(guò)濾部件與之相符的信息從可視化圖表中隱藏。數(shù)據(jù)挖掘結(jié)果模型的過(guò)濾部件只能在界面上隱藏當(dāng)前可視化圖表中符合過(guò)濾條件的顯示部分,而不能改變模型的具體內(nèi)容。
3 結(jié)束語(yǔ)
總之,可視化挖掘是一種新型的大數(shù)據(jù)集挖掘方法,在數(shù)據(jù)和信息量不斷增加和復(fù)雜化的背景下,用戶對(duì)所挖掘出來(lái)的數(shù)據(jù)結(jié)果更難以捉摸。而將挖掘出來(lái)的數(shù)據(jù)結(jié)果在數(shù)據(jù)挖掘的過(guò)程和數(shù)據(jù)結(jié)果模型的展示上,利用可視化的圖形、圖像和圖表等直觀的方式表現(xiàn)出來(lái),就能有效提高用戶對(duì)數(shù)據(jù)挖掘結(jié)果的理解和利用。
參考文獻(xiàn):
[1]陳霞,陳桂芬.基于可視化的時(shí)空數(shù)據(jù)挖掘研究與應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2012(17):11-12.
[2]路燕梅.基于平行坐標(biāo)的可視化多維數(shù)據(jù)挖掘的研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2011(25):04-05.
[3]張敏輝,賴麟.可視化數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].數(shù)字技術(shù)與應(yīng)用,2012(11):19-20.
作者簡(jiǎn)介:米娜瓦爾·努拉合買提(1970-),女,新疆烏魯木齊人,副教授,本科,研究方向:面向?qū)ο蟪绦蛟O(shè)計(jì)、數(shù)據(jù)挖掘可視化。
作者單位:新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052