張 俊
(蕪湖職業(yè)技術學院,安徽蕪湖 241000)
傳統(tǒng)的數據挖掘過程對用戶而言是一個“黑盒子”,用戶將數據集交給算法,然后自動地生成結果,挖掘的過程不可見,用戶很難參與,挖掘出的結果也常常只有專業(yè)的數據挖掘人員能夠理解,這些結果難以在實際應用中發(fā)揮作用,用戶對挖掘的結果也難以信任,怎樣改進這種挖掘過程一直是個難題?考慮到圖形和圖像、顏色等表達方式的直觀性和形象性,因而可以通過數據挖掘與可視化技術的結合,來彌補傳統(tǒng)數據挖掘過程的缺陷,加強數據挖掘的處理過程。可視化數據挖掘正是數據挖掘和可視化技術的有機結合。這種結合強調的是以人為中心,一方面強調充分利用人類的知識領域和模式感知能力,另一方面強調用戶對挖掘結果的理解和利用??梢暬姆椒ㄊ箶祿诰蚣夹g的應用更具形象性和直觀性,挖掘的過程加入更多人類的參與和指導,可以有效地提高數據挖掘結果的可信度、可理解性和可用性。
可視化數據挖掘技術是可視化技術和數據挖掘技術的有機結合,是運用計算機圖形學、圖像處理技術等,將數據挖掘的源數據、中間結果和最終挖掘結果轉換成直觀、易于理解的圖形或圖像的方式,并進行交互處理的理論、方法和技術。按照可視化在數據挖掘中應用的不同階段,可以將可視化數據挖掘劃分為源數據的可視化、挖掘過程的可視化、結果的可視化。
(1)源數據的可視化。目前對源數據的可視化方法已經有了很多種,就是在數據投入挖掘算法之前,將整個數據集以可視化的方式呈現(xiàn)給用戶,目的是使用戶能夠快速地找到感興趣的區(qū)域,從而有目的、有針對性地實施下一步的挖掘。
(2)過程可視化。挖掘過程的可視化實現(xiàn)起來比較復雜,現(xiàn)階段的可視化方法主要集中于對源數據和結果的可視化方法。挖掘過程的可視化有兩種方法,一種方法是對挖掘過程中產生的中間結果進行可視化呈現(xiàn),方便用戶根據中間結果的反饋調整參數和約束條件;另一種方法是將整個數據挖掘的處理過程以圖標和流程圖的形式顯示,用戶可以觀察數據的來源,數據集成、清理和預處理的過程,挖掘結果的存儲和可視化表示等等。
(3)結果可視化。數據挖掘結果可視化是在挖掘過程結束之后,以圖形和圖像的形式描述挖掘的結果或知識,以提高用戶對結果的理解,使用戶更好地評估和利用挖掘結果。
將數據挖掘技術與可視化技術相結合,其動機一方面是為了利用人類的知識領域來指導數據挖掘的過程,從而提高挖掘的質量;另一方面是為了幫助分析人員快速且最大限度地獲得數據中隱含的信息,理解數據挖掘的過程和結果??梢暬夹g根據是否包含物理數據,可分為科學計算可視化和信息可視化,科學計算可視化的重點放在如何真實有效地反映三維坐標場,而信息可視化的研究重點則是通過選擇和設計合適的表達方式來描述大型的多維數據之間的聯(lián)系,以便于用戶理解。數據挖掘技術的可視化主要定位于信息可視化。
被可視化的數據類型包括一維數據(如時序數據)、二維數據(如地理數據)、多維數據、文本/Web數據(首先要將其轉化為向量描述,然后才能應用可視化技術)、層次/圖形數據、算法/軟件的可視化。可視化的技術可分為標準2D/3D技術、幾何轉換技術、面向像素的技術、基于圖標的技術、分層技術。還可以將可視化技術與一些變形與交互技術相結合,以實現(xiàn)更有效的數據挖掘。
(1)標準2D/3D技術。標準2D/3D技術,如折線圖、條形圖、柱狀圖、餅圖、散點圖等,在統(tǒng)計應用中常用到,但是在表示多維數據方面存在缺陷。
(2)幾何轉換技術。幾何轉換技術的基本思想是通過幾何學的投影和轉換方法,通過線性或非線性的投影和映射,把多維數據集轉換成二維平面或三維空間可以表示的形式,從而實現(xiàn)對數據集的降維處理。目的是發(fā)現(xiàn)多維數據集的令人感興趣的投影。幾何轉換技術適用于數據量不大,但維數較多的數據集。幾何轉換技術的具體實現(xiàn)方法有投影追蹤、地形圖、散點圖矩陣和著名的平行坐標法等。
(3)基于圖標技術?;趫D標技術的基本思想是用圖標上的各個特征對應描述一個數據項的多維屬性值,并將所有的圖標依據一定的順序進行排列。其中圖標可以隨意定制為一些三維幾何對象,而且圖標的各項屬性包括圖標的大小、顏色、形狀等均可用來描述數據項的維?;趫D標技術適用于維數不多,但具有某些代表特殊含義的屬性的數據,用戶可以更準確清晰地理解這些屬性?;趫D標技術的實現(xiàn)方法有表長法、契諾夫臉譜圖法、彩色圖標法、形狀編碼法、枝形圖法。
(4)面向像素技術。面向像素技術的基本思想是用屏幕上不同的獨立子窗口分別表示數據集中不同的屬性,并在各個獨立的子窗口中用一個個彩色像素來表示各個數據項的一個屬性值,面向像素技術可以非常有效地描述大型數據集,用戶不僅可以觀察自己感興趣的局部區(qū)域,還可以獲得對數據的整體認識。面向像素技術研究的重點在于考慮這些像素點如何在屏幕上排列的問題,應根據不同的目的使用不同的排列方式。根據不同的像素及窗口排列方法,面向像素技術的具體實現(xiàn)方法主要有遞歸模式技術、圓環(huán)分段技術、數據管道技術等。
(5)分層技術。分層技術非常適用于層次型數據集的可視化,它的基本思想是根據數據集的層次特征將多維數據空間劃分為若干個子空間,然后依據數據集中各層次的關系將這些子空間以層次結構的方式組織起來,最后轉換成圖形輸出,常采用的方法就是利用樹形結構,直接可視化層次型數據集,或者對數據維依據不同的標準進行劃分,在不同層次上表示不同的屬性值。分層技術的具體實現(xiàn)方法主要有層次軸、維嵌套、錐形樹、雙曲線樹等。
可視化數據挖掘主要利用Swing技術、AWT、Java2D、結合JFreeChart開源工具包和Java3D技術開發(fā)實現(xiàn),本論文的驗證數據集,是著名的購物籃分析數據集。
(1)可視化交互的實現(xiàn)。系統(tǒng)中用戶可以很好的與可視化圖形交互,包括設置可視化圖形的顏色、形狀,對產生的關聯(lián)規(guī)則進行篩選、排序,用戶還可以對結果進行移動、縮放、旋轉等操作,從而獲得關聯(lián)規(guī)則挖掘結果的多角度視圖。
(2)數據可視化技術的實現(xiàn)。本文的數據可視化部分主要包括兩部分,一部分是對單個數據屬性的二維展示,另一部分是對整個數據集的可視化呈現(xiàn)。系統(tǒng)中對單個數據屬性的二維展示,主要采用了餅圖和條形圖兩種方法,用餅圖可以清晰地描述屬性中各個屬性值所占的比重,直方圖可以比較不同數據對象中相同屬性的值。如圖1所示,餅圖表現(xiàn)的是對購物籃數據集中各商品占總購買的比例。
圖1 屬性二維展示
系統(tǒng)中對數據集的可視化呈現(xiàn)包括散點圖矩陣、平行坐標方法,這兩種方法均可以有效地可視化高維數據集,平行坐標方法可以通過調整平行軸的順序,很好地體現(xiàn)數據的功能依賴性。散點圖矩陣方法可以很好地呈現(xiàn)數據的分布,方便用戶發(fā)現(xiàn)孤立點。
(3)過程可視化技術的實現(xiàn)。為了便于比較和驗證本文所提出的過程可視化技術的有效性和優(yōu)越性,本文對頻繁項集的挖掘過程分別采用了文字化的表現(xiàn)方法和基于平行坐標的方法?;谄叫凶鴺说姆椒ㄊ菍鹘y(tǒng)平行坐標方法的一種改進,以平行坐標的每一條坐標軸表示對數據庫的一次掃描,軸上均勻分布的是所有的1-項頻繁集,第i條坐標軸和第i+1條坐標軸之間的連線表示的是i+1-項頻繁集,各項集的支持度用軸間連線的粗細來描述,并且用不同的顏色將各頻繁項集區(qū)分開,避免產生界面混亂的問題。用戶可以根據中間結果的反饋來調整算法的參數和約束條件,從而改善挖掘結果,提高挖掘質量,并提升用戶對挖掘結果的信賴度。對著名的購物籃分析數據集設置支持度閾值為0.05所得的平行坐標,如圖2所示。
(4)結果可視化技術的實現(xiàn)。本文對數據挖掘結果的可視化采用了基于三維坐標的方法,該方法可以更清晰直觀的表示關聯(lián)規(guī)則,并能夠很好的避免界面紊亂、歧義、遮蔽的問題,也能夠有效地表示多對多和多維的關聯(lián)規(guī)則。根據Apriori算法的第二步,設置置信度閾值為0.9,則所生成的強規(guī)則如表1所示。
用基于三維坐標的可視化方法表示這7條關聯(lián)規(guī)則,其中X軸表示的是規(guī)則,Z軸是所有的1-項頻繁集,X-Z平面上各綠色方格對應規(guī)則的前項,紅色方格對應規(guī)則的后項,Y軸上紅色的立方體表示規(guī)則的支持度,綠色的立方體表示的是規(guī)則的置信度,如圖3所示。
由圖3可以看出,基于三維坐標的關聯(lián)規(guī)則可視化方法表達清晰準確,對于關聯(lián)規(guī)則的參數也能直觀地描述出來,界面不存在遮蔽的問題,且對于多對多的規(guī)則也能有效地呈現(xiàn)。
圖2 基于平行坐標的過程可視化方法
圖3 基于三維坐標的關聯(lián)規(guī)則結果可視化
表1 關聯(lián)規(guī)則集
在此主要就可視化數據挖掘技術的實現(xiàn)進行探討,采用了一種基于改進的平行坐標技術的過程可視化方法來表示頻繁項集的挖掘過程,實現(xiàn)了可視化交互、數據可視化、過程可視化和結果可視化。并通過用筆者所開發(fā)的原型系統(tǒng)對經典的購物籃分析問題進行了可視化數據挖掘,驗證了本文所采用的可視化數據挖掘技術達到了預期目標,同時也突出了基于改進的平行坐標技術的過程可視化方法的有效性和優(yōu)越性。
[1]鐘楊俊,文堂柳.可視化數據挖掘方法與技術[J].福建電腦,2008,24(8):59,95
[2]XML Signature Working Group.XML-Signature Syntax and W3C Proposed Recommendation[S].August 20,2001
[3]劉玲.基于數據挖掘系統(tǒng)的可視化技術研究[D].北京:北京工業(yè)大學,2010
[4]羅文靜.數據挖掘中可視化技術研究與實現(xiàn)[D].成都:電子科技大學,2007
[5]寧津生,郭金來.地球重力場可視化數據挖掘平臺WHU-3Dgravity的設計與實現(xiàn)[J].武漢大學學報:信息科學版,2007,32(11):945-949
[6]劉緒崇.基于OLAM的可視化數據挖掘技術研究[D].國防科學技術大學,2002
[7]陳霞,陳桂芬.基于可視化的時空數據挖掘研究與應用[J].安徽農業(yè)科學,2012,40(17):9542-9545
[8]胡俊.數據挖掘可視化模型及其應用研究[D].北京交通大學,2009