馬國峻,王水波,裴慶祺,詹陽
(1. 西安文理學(xué)院信息工程學(xué)院,陜西 西安 710065;2. 西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071)
基于主成分分析和K-means聚類的平行坐標(biāo)可視化技術(shù)研究
馬國峻1,2,王水波2,裴慶祺2,詹陽2
(1. 西安文理學(xué)院信息工程學(xué)院,陜西 西安 710065;2. 西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071)
為了解決多維數(shù)據(jù)的維數(shù)過高、數(shù)據(jù)量過大帶來的平行坐標(biāo)可視化圖形線條密集交疊以及數(shù)據(jù)規(guī)律特征不易獲取的問題,提出基于主成分分析和K-means聚類的平行坐標(biāo)(PCAKP, principal component analysis and k-means clustering parallel coordinate)可視化方法。該方法首先對(duì)多維數(shù)據(jù)采用主成分分析方法進(jìn)行降維處理,其次對(duì)降維后的數(shù)據(jù)采用K-means聚類處理,最后對(duì)聚類得到的數(shù)據(jù)采用平行坐標(biāo)可視化技術(shù)進(jìn)行可視化展示。以統(tǒng)計(jì)局網(wǎng)站發(fā)布的數(shù)據(jù)為測試數(shù)據(jù),對(duì)PCAKP可視化方法進(jìn)行測試,與傳統(tǒng)平行坐標(biāo)可視化圖形進(jìn)行對(duì)比,驗(yàn)證了PCAKP可視化方法的實(shí)用性和有效性。
數(shù)據(jù)可視化;平行坐標(biāo)可視化;主成分分析;K-means聚類
在大數(shù)據(jù)時(shí)代的今天,人們身邊無時(shí)無刻不充斥著紛繁復(fù)雜的數(shù)據(jù)。從國家政治到社會(huì)民生,從尖端科學(xué)到百姓生活,從PC端到移動(dòng)設(shè)備,數(shù)據(jù)時(shí)時(shí)刻刻都在產(chǎn)生,大數(shù)據(jù)已上升為一個(gè)國家重要的戰(zhàn)略資源?!禨cience》于2011年刊登了“Dealing with Data”[1]一文,該文章指出了如何利用數(shù)據(jù)資源來推動(dòng)人類社會(huì)的發(fā)展?!洞髷?shù)據(jù)是國家戰(zhàn)略資源》一文指出了大數(shù)據(jù)的產(chǎn)業(yè)價(jià)值,以及大數(shù)據(jù)的價(jià)值挖掘[2]。在海量的數(shù)據(jù)中,如何迅速理解數(shù)據(jù)、如何挖掘數(shù)據(jù)中蘊(yùn)含的價(jià)值信息、如何發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在規(guī)律,是大數(shù)據(jù)時(shí)代發(fā)展中亟待解決的重要問題。
數(shù)據(jù)可視化技術(shù)作為一門新興學(xué)科技術(shù),通過將數(shù)據(jù)映射為可視化圖形,為人們認(rèn)識(shí)數(shù)據(jù)、理解數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)規(guī)律提供了一種方便、高效的途徑。從數(shù)據(jù)維度的角度出發(fā),可將數(shù)據(jù)分為低維數(shù)據(jù)和多維數(shù)據(jù)。其中低維數(shù)據(jù)包括一維數(shù)據(jù)和二維數(shù)據(jù),多維數(shù)據(jù)往往是指數(shù)據(jù)維數(shù)不低于三維的數(shù)據(jù)。對(duì)于低維數(shù)據(jù),可以采用折線圖、柱狀圖、餅圖等基本圖表法進(jìn)行可視化展示。多維數(shù)據(jù)可視化方法主要有基于幾何的技術(shù)[3]、基于圖標(biāo)的技術(shù)[4]、基于層次的技術(shù)[5]以及基于降維映射的技術(shù)[6]等,其中最典型的多維數(shù)據(jù)可視化技術(shù)是基于幾何的技術(shù)中的平行坐標(biāo)可視化技術(shù)。針對(duì)于多維數(shù)據(jù)的維數(shù)過高、數(shù)據(jù)量過大帶來的平行坐標(biāo)可視化圖形線條密集交疊以及數(shù)據(jù)規(guī)律特征不易獲取的問題,本文提出基于主成分分析和K-means聚類的平行坐標(biāo)可視化方法,并采用可視化案例加以測試驗(yàn)證。
平行坐標(biāo)可視化技術(shù)是多維空間在二維平面的表示[7]。它的繪制過程如下:在二維平面中,根據(jù)多維數(shù)據(jù)的維數(shù)(假設(shè)為N維數(shù)據(jù)),繪制N條等間距豎直的平行坐標(biāo)軸,每一條坐標(biāo)軸分別表示多維數(shù)據(jù)中的一維屬性,然后將多維數(shù)據(jù)中的每一維屬性值分別映射到對(duì)應(yīng)坐標(biāo)軸上相應(yīng)的刻度點(diǎn)上,將各個(gè)坐標(biāo)軸上點(diǎn)依次連接形成一條折線。圖1所示是采用平行坐標(biāo)可視化技術(shù)在平面的可視化展示6維數(shù)據(jù)。
圖1 平行坐標(biāo)
為了在平行坐標(biāo)可視化圖形中更好地展示數(shù)據(jù)的規(guī)律和特征,往往采用平行坐標(biāo)交互技術(shù)對(duì)圖形進(jìn)行操作從而發(fā)現(xiàn)隱藏的數(shù)據(jù)規(guī)律。常見的平行坐標(biāo)交互技術(shù)主要有以下幾種。
1) 維度縮放技術(shù)
在數(shù)據(jù)比較密集時(shí),采用維度縮放技術(shù),對(duì)用戶關(guān)心的數(shù)據(jù)區(qū)域進(jìn)行放大或者縮小觀察,從而發(fā)現(xiàn)具體區(qū)域數(shù)據(jù)的取值或數(shù)據(jù)在某一范圍內(nèi)的變化趨勢。
2) 刷技術(shù)
在研究平行坐標(biāo)圖形中,刷技術(shù)是研究特定屬性數(shù)據(jù)在特定數(shù)值范圍內(nèi)的數(shù)據(jù)變化趨勢的一種技術(shù),通過“刷取”關(guān)心的數(shù)據(jù)區(qū)域,便可得到該區(qū)域數(shù)據(jù)可視化線條,進(jìn)而對(duì)該區(qū)域的數(shù)據(jù)特征規(guī)律進(jìn)行研究。
3) 交換坐標(biāo)軸
在平行坐標(biāo)圖形中,當(dāng)用戶想研究2個(gè)維度屬性之間的關(guān)系時(shí),可以交換平行坐標(biāo)軸的先后排列次序。將待研究的2個(gè)屬性坐標(biāo)軸交換到相鄰的位置,觀察交換后的2個(gè)屬性之間的關(guān)系,從而發(fā)現(xiàn)兩屬性之間的內(nèi)在關(guān)系。
4) 平行坐標(biāo)維數(shù)控制
在采用平行坐標(biāo)可視化圖形分析數(shù)據(jù)時(shí),有時(shí)需要單獨(dú)研究某幾個(gè)屬性之間的關(guān)系。如果直接采用平行坐標(biāo)圖研究數(shù)據(jù),其他的屬性會(huì)對(duì)研究結(jié)果造成干擾和影響,故需要對(duì)暫時(shí)不研究的屬性刪除或者隔離。此時(shí)可以采取維數(shù)控制,即暫時(shí)刪除某些屬性坐標(biāo)軸,只需將待研究屬性的線條展示出來,這樣既可以減小平行坐標(biāo)圖的復(fù)雜度,又有利于用戶對(duì)特定數(shù)據(jù)進(jìn)行分析,因此更容易觀察出數(shù)據(jù)變化的規(guī)律。
以上是平行坐標(biāo)交互技術(shù),通過這些交互技術(shù)的操作,用戶可以從平行坐標(biāo)可視化圖中更好地理解數(shù)據(jù)以及發(fā)現(xiàn)數(shù)據(jù)的規(guī)律和特征。
3.1 PCAKP可視化技術(shù)提出的背景
在多維數(shù)據(jù)的維數(shù)和數(shù)據(jù)量適當(dāng)?shù)那闆r下,采用平行坐標(biāo)可視化技術(shù)能夠?qū)Χ嗑S數(shù)據(jù)的每一維屬性數(shù)據(jù)的取值和分布有一個(gè)定性和定量的認(rèn)識(shí)。然而在現(xiàn)實(shí)生活中往往存在維數(shù)過高、數(shù)據(jù)量過大的多維數(shù)據(jù),如證券市場數(shù)據(jù)、生物醫(yī)學(xué)特征數(shù)據(jù)、航空航天數(shù)據(jù)等。如果在有限寬度的二維平面內(nèi)對(duì)這些數(shù)據(jù)采用平行坐標(biāo)可視化技術(shù)進(jìn)行可視化分析,則會(huì)出現(xiàn)相鄰兩條平行坐標(biāo)軸間距過窄、兩條相鄰的坐標(biāo)軸之間過于擁擠、可視化線條交織甚至發(fā)生重疊的效應(yīng),造成視覺錯(cuò)亂,無法獲取數(shù)據(jù)特征和規(guī)律。圖2所示是數(shù)據(jù)維數(shù)較高、數(shù)據(jù)量較大的平行坐標(biāo)可視化圖形,從圖中可以看出平行坐標(biāo)軸的折線分布以及走勢的可視化效果較差,無法快速獲取數(shù)據(jù)特征和規(guī)律。
實(shí)際上,多維數(shù)據(jù)中的屬性與屬性之間往往具有線性相關(guān)性和相似性。本文先采用降維的思想對(duì)多維數(shù)據(jù)進(jìn)行線性降維處理,然后對(duì)線性降維后的數(shù)據(jù)進(jìn)行聚類處理,使同一類中的數(shù)據(jù)相似度較高,不同類之間的數(shù)據(jù)相似度較低。本文采用主成分分析法(PCA,principle component analysis)對(duì)數(shù)據(jù)進(jìn)行降維處理,對(duì)降維后的數(shù)據(jù)運(yùn)用K-means聚類算法進(jìn)行聚類處理,最后對(duì)聚類后的數(shù)據(jù)進(jìn)行平行坐標(biāo)可視化展示,將這種技術(shù)稱為基于主成分分析和K-means聚類的平行坐標(biāo)可視化技術(shù),簡稱PCAKP可視化技術(shù)。
3.2 主成分分析法的基本原理以及數(shù)據(jù)處理過程
主成分分析對(duì)數(shù)據(jù)降維處理的前提是基于多維數(shù)據(jù)的屬性之間具有較強(qiáng)的相關(guān)性,如果屬性之間相關(guān)性很低或彼此獨(dú)立互不相關(guān),那么采用主成分分析法對(duì)多維數(shù)據(jù)進(jìn)行降維處理,則沒有意義,得出的結(jié)果沒有參考價(jià)值。如何知道數(shù)據(jù)樣本是否具有相關(guān)性以及相關(guān)性的大小?統(tǒng)計(jì)分析學(xué)中往往常用KMO和Bartlett的球形度相關(guān)指標(biāo)數(shù)據(jù)來檢驗(yàn)統(tǒng)計(jì)數(shù)據(jù)的相關(guān)性以及作為采用主成分分析判斷的重要依據(jù)[8]。本文借助統(tǒng)計(jì)學(xué)中的SPSS軟件計(jì)算KMO值以及Sig大小。
主成分分析法是一種常用的線性降維方法。PCA的基本思想是采用一組互相獨(dú)立的變量代表數(shù)據(jù)的統(tǒng)計(jì)性質(zhì),每一項(xiàng)變量都可能包含初始數(shù)據(jù)的多個(gè)屬性,并且表現(xiàn)數(shù)據(jù)的某種統(tǒng)計(jì)特性[9],其結(jié)果充分反映數(shù)據(jù)之間的個(gè)體差異。PCA采用線性變換方法,將數(shù)據(jù)變換到新的坐標(biāo)系中,使任何數(shù)據(jù)點(diǎn)投影到第一個(gè)坐標(biāo)(第一主成分)的方差為最大,在第二個(gè)坐標(biāo)(第二主成分)的方差為次大,以此類推。因此,PCA方法可以減少數(shù)據(jù)的維數(shù)并保持對(duì)方差累計(jì)貢獻(xiàn)最大的特征。
則有
在分析了PCA的基本原理之后,下面重點(diǎn)介紹PCA對(duì)數(shù)據(jù)處理的過程,PCA對(duì)數(shù)據(jù)的處理主要有以下7個(gè)步驟。
圖2 維數(shù)過高、數(shù)據(jù)量過大的平行坐標(biāo)
Step2 對(duì)樣本矩陣進(jìn)行如下標(biāo)準(zhǔn)化變換
對(duì)標(biāo)準(zhǔn)化矩陣Z,求出它的相關(guān)系數(shù)矩陣R。
Step6 計(jì)算單個(gè)主成分貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,單個(gè)主成分貢獻(xiàn)率為
累計(jì)貢獻(xiàn)率為
3.3 K-means聚類算法
聚類是根據(jù)某種規(guī)則,用特定方法將數(shù)據(jù)集合劃分為不同類別,使同一個(gè)類別中的數(shù)據(jù)之間的相似度較高,同類中的數(shù)據(jù)之間的相差較大[10]。
在聚類中,常采用距離表現(xiàn)樣本數(shù)據(jù)之間的親疏關(guān)系或相似度,按照不同的計(jì)算方法,距離的分類有歐式(Euclidian)距離、絕對(duì)值距離、切比雪夫(Chebychev)距離、馬氏(Mahalanobis)距離等[11],最常用的距離是歐式距離,圖3是二維空間的數(shù)據(jù)點(diǎn)①和數(shù)據(jù)點(diǎn)②之間的歐式距離,可用式(10)表示。
圖3 二維平面歐式距離
多維空間兩點(diǎn)i、j的歐式距離可以表示為
K-means聚類算法思路簡單且收斂速度快,也稱為快速聚類算法[12],是一種最常見的聚類算法之一,它的主要思想是首先從n個(gè)數(shù)據(jù)樣本集合中選取k個(gè)數(shù)據(jù)樣本點(diǎn)作為初始聚類的中心點(diǎn);計(jì)算剩余樣本點(diǎn)與初始中心點(diǎn)的距離,并將剩余的樣本點(diǎn)歸于距離它們最近的初始中心點(diǎn)一類中;重新計(jì)算每個(gè)聚類的平均值并作為聚類的中心點(diǎn);重復(fù)執(zhí)行這一過程,直到聚類中心不再變化為止。K-means聚類算法流程如圖4所示。
圖4 K-means聚類流程
K-means聚類算法基本步驟如下。
輸入:n個(gè)數(shù)據(jù)樣本的集合以及聚類的數(shù)目k
輸出:k個(gè)聚類結(jié)果
基本步驟如下。
Step1 在n個(gè)數(shù)據(jù)樣本集合中選取k個(gè)數(shù)據(jù)樣本點(diǎn)作為初始聚類的中心點(diǎn)。
Step2 計(jì)算各個(gè)樣本點(diǎn)到k個(gè)聚類中心距離。
Step3 將各個(gè)樣本點(diǎn)歸于距離各自最近的聚類中心一類。
Step4 重新計(jì)算各個(gè)聚類的平均值,并將聚類的平均值作為該類的聚類中心。
Step5 判斷各個(gè)聚類中心是否發(fā)生改變,如果聚類中心不再改變,表明聚類已經(jīng)完成。如果聚類中心發(fā)生改變,則繼續(xù)執(zhí)行Step2~Step4,直到每個(gè)聚類中心不再改變或收斂為止。
3.4 PCAKP可視化技術(shù)
3.2 節(jié)和3.3節(jié)中分別研究了主成分分析法以及K-means聚類算法,本節(jié)重點(diǎn)介紹基于PCAKP可視化技術(shù)。
首先對(duì)數(shù)據(jù)進(jìn)行KMO和Bartlett的球形度檢驗(yàn),本文借助SPSS對(duì)數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn)。假設(shè)數(shù)據(jù)滿足線性相關(guān)性,對(duì)數(shù)據(jù)進(jìn)行主成分分析降維仿真處理,對(duì)降維后得到的主成分得分采用K-means聚類算法進(jìn)行仿真,得到聚類結(jié)果。最后運(yùn)用平行坐標(biāo)可視化方法對(duì)不同聚類結(jié)果用不同的線型加以區(qū)分展示。本文對(duì)數(shù)據(jù)的主成分分析仿真和K-means聚類仿真均采用SPSS軟件。
為了突出PCAKP的高維處理效果,本文以國家統(tǒng)計(jì)局網(wǎng)站中《中國統(tǒng)計(jì)年鑒2016》城鎮(zhèn)單位就業(yè)人員中的數(shù)據(jù)為仿真實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)維度高,且數(shù)據(jù)來源具有真實(shí)權(quán)威性,結(jié)果可靠。圖5是全國按行業(yè)分,城鎮(zhèn)單位就業(yè)人員數(shù)表部分截圖。
圖5 城鎮(zhèn)單位就業(yè)人員數(shù)表部分截圖(來源:中國統(tǒng)計(jì)年鑒2016)
圖5所示的這張表中對(duì)就業(yè)人員按行業(yè)進(jìn)行了詳細(xì)的劃分,一共有19個(gè)行業(yè),分別是“農(nóng)、林、牧、漁業(yè)”“采礦業(yè)”“制造業(yè)”“電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè)”“建筑業(yè)”“批發(fā)和零售”“交通運(yùn)輸倉儲(chǔ)和郵政業(yè)”“住宿和餐飲業(yè)”“信息傳輸和軟件技術(shù)”“金融業(yè)”“房地產(chǎn)”“租賃和商務(wù)服務(wù)業(yè)”“科學(xué)研究和技術(shù)服務(wù)業(yè)”“水林、環(huán)境和公共設(shè)施管理”“居民服務(wù)、修理和其他服務(wù)業(yè)”“教育”“衛(wèi)生和社會(huì)工作”“文化、體育、娛樂”“公共管理和社會(huì)保障和社會(huì)組織”。本文選取北京、天津、河北等31筆省市數(shù)據(jù)進(jìn)行可視化研究,每一筆數(shù)據(jù)都有19維數(shù)據(jù)。對(duì)于31筆19維省市數(shù)據(jù)直接采用平行坐標(biāo)可視化技術(shù)展示,得到的可視化圖形如圖6所示,這幅平行坐標(biāo)可視化圖形由于數(shù)據(jù)維數(shù)較多,出現(xiàn)了平行坐標(biāo)軸較擁擠、可視化線條雜亂無章、可視化效果不理想、不能很快直接地從這幅圖中獲取數(shù)據(jù)的規(guī)律。
首先,本文借助SPSS軟件對(duì)數(shù)據(jù)KMO和Bartlett檢驗(yàn)進(jìn)行相關(guān)性檢驗(yàn),得到數(shù)據(jù)KMO值為0.845,Sig值為0,表明該數(shù)據(jù)非常適合PCA處理。然后,采用主成分分析法對(duì)數(shù)據(jù)進(jìn)行處理,按照特征值大于1的提取方法提取3個(gè)主成分,3個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)到85.35%,從成分矩陣中可以看出,第一主成分與“批發(fā)和零售”“交通運(yùn)輸倉儲(chǔ)和郵政業(yè)”“住宿和餐飲業(yè)”“信息傳輸和軟件技術(shù)”“金融業(yè)”“房地產(chǎn)”“租賃和商務(wù)服務(wù)業(yè)”“科學(xué)研究和技術(shù)服務(wù)業(yè)”“水林、環(huán)境和公共設(shè)施管理”、“居民服務(wù)、修理和其他服務(wù)業(yè)”“教育”“衛(wèi)生和社會(huì)工作”“文化、體育、娛樂”“公共管理和社會(huì)保障和社會(huì)組織”等14個(gè)變量相關(guān)性最高;第二主成分與“制造業(yè)”“電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè)”相關(guān)性最高,第三主成分與“農(nóng)林牧漁業(yè)”相關(guān)性最高。由此可知,第一主成分集中代表了第三產(chǎn)業(yè)的就業(yè)信息,第二主成分集中代表了第二產(chǎn)業(yè)的就業(yè)信息,第三主成分集中代表了第一產(chǎn)業(yè)的就業(yè)信息。不妨將第一主成分定義為第三產(chǎn)業(yè),第二主成分定義為第二產(chǎn)業(yè),第三主成分代表第一產(chǎn)業(yè)。對(duì)主成分的得分采用平行坐標(biāo)技術(shù)進(jìn)行展示,如圖7所示。
從圖7中可以看出可視化線條清晰,而且沒有交織的現(xiàn)象,有效解決了雜亂無章的可視化效果不理想的問題。
圖6 就業(yè)人員數(shù)平行坐標(biāo)可視化圖形
完成主成分分析降維后,接下來,對(duì)降維后的主成分得分?jǐn)?shù)據(jù)進(jìn)行K-means聚類。本文將31筆省份數(shù)據(jù)聚為4類,即采用K-means算法聚類時(shí)設(shè)置聚類個(gè)數(shù)為4。經(jīng)過K-means聚類算法處理,聚類結(jié)果如下。第一聚類包括:北京、上海2筆數(shù)據(jù)。第二聚類包括:江蘇、浙江、福建、廣東、海南、重慶、西藏、青海、寧夏等9筆數(shù)據(jù)。第三聚類包括:天津、河北、內(nèi)蒙古、吉林、安徽、江西、山東、河南、湖北、湖南、廣西、四川、貴州、云南、陜西、甘肅16筆數(shù)據(jù)。第四聚類包括山西、遼寧、黑龍江、新疆4筆數(shù)據(jù)。對(duì)4個(gè)聚類數(shù)據(jù)繪制平行坐標(biāo)可視化圖形時(shí),分別用不同的線型表示不同的聚類,如圖8所示,經(jīng)過K-means聚類后的數(shù)據(jù)在平行坐標(biāo)圖中展示它的層次規(guī)律明顯,特點(diǎn)突出。
圖7 降維后的平行坐標(biāo)可視化圖形
下面對(duì)4個(gè)聚類的可視化圖形分別做如下分析說明。
圖9是聚類1的數(shù)據(jù)平行坐標(biāo)可視化圖形,可以看出,聚類1中的北京和上海數(shù)據(jù)在第二產(chǎn)業(yè)數(shù)值較小,在第三產(chǎn)業(yè)數(shù)值較大,表明北京和上海第三產(chǎn)業(yè)就業(yè)人員較多,第二產(chǎn)業(yè)就業(yè)人員較少,說明該地區(qū)第三產(chǎn)業(yè)比較發(fā)達(dá)。
圖10是聚類2的數(shù)據(jù)平行坐標(biāo)可視化圖形,可以看出,聚類2中的數(shù)據(jù)在第三產(chǎn)業(yè)和第二產(chǎn)業(yè)取值較大,而且第三產(chǎn)業(yè)的數(shù)值較第二產(chǎn)業(yè)數(shù)值大,在第一產(chǎn)業(yè)取值較小,說明江蘇、浙江、福建、廣東等聚類2中的省份在第二產(chǎn)業(yè)和第三產(chǎn)業(yè)的就業(yè)人員較多,該地區(qū)第二產(chǎn)業(yè)最為發(fā)達(dá)。
圖8 PCAKP可視化圖形
圖11是聚類3的數(shù)據(jù)平行坐標(biāo)可視化圖形,可以看出,聚類3中的數(shù)據(jù)在第三產(chǎn)業(yè)和第二產(chǎn)業(yè)取值較大,而且第二產(chǎn)業(yè)的數(shù)值較第三產(chǎn)業(yè)數(shù)值大,在第一產(chǎn)業(yè)取值較小,說明了天津、河北、內(nèi)蒙古、吉林等聚類3中的省市在第二產(chǎn)業(yè)和第三產(chǎn)業(yè)的就業(yè)人員較多,第二產(chǎn)業(yè)人員數(shù)大于第三產(chǎn)業(yè)人員數(shù),而在第一產(chǎn)業(yè)就業(yè)人員較少,表明該地區(qū)第二產(chǎn)業(yè)最為發(fā)達(dá),而第一產(chǎn)業(yè)的發(fā)展滯后。
圖9 聚類1中的平行坐標(biāo)可視化圖形
圖10 聚類2中的平行坐標(biāo)可視化圖形
圖12是聚類4的數(shù)據(jù)平行坐標(biāo)可視化圖形,可以看出,聚類4中的數(shù)據(jù)在第一產(chǎn)業(yè)取值較大,而且第二產(chǎn)業(yè)的數(shù)值較第三產(chǎn)業(yè)數(shù)值小,說明山西、遼寧、黑龍江、新疆等聚類4中的省市在第一產(chǎn)業(yè)就業(yè)人員較多,第二產(chǎn)業(yè)人員數(shù)和第三產(chǎn)業(yè)人員數(shù)較少,表明該地區(qū)的第一產(chǎn)業(yè)最為發(fā)達(dá),第二、第三產(chǎn)業(yè)滯后。
以上就是對(duì)全國按行業(yè)就業(yè)人數(shù)采用的PCAKP可視化技術(shù)分析的結(jié)果。與圖5中的原始數(shù)據(jù)相比,經(jīng)過PCAKP可視化技術(shù)得到的圖形直觀反映了圖5中數(shù)據(jù)的規(guī)律和特征;與直接采用平行坐標(biāo)可視化技術(shù)得到的圖6比較,PCAKP可視化技術(shù)得到的圖形可視化效果更加理想。這一仿真實(shí)驗(yàn)表明,通過PCAKP可視化技術(shù)得到的平行坐標(biāo)可視化圖形,有效解決了多維數(shù)據(jù)的維數(shù)較高、數(shù)據(jù)量較大帶來的問題,用戶更容易從平行坐標(biāo)可視化圖中獲取數(shù)據(jù)的整體規(guī)律和特征,證明了該技術(shù)的有用性和實(shí)效性。
圖11 聚類3中的平行坐標(biāo)可視化圖形
圖12 聚類4中的平行坐標(biāo)可視化圖形
本文首先研究了平行坐標(biāo)可視化技術(shù)及其交互技術(shù)。針對(duì)多維數(shù)據(jù)的維數(shù)過高、數(shù)據(jù)量過大導(dǎo)致平行坐標(biāo)可視化圖形效果不理想以及無法快速獲取數(shù)據(jù)規(guī)律特征的問題,本文提出了基于主成分分析和K-means聚類的平行坐標(biāo)可視化技術(shù)。首先對(duì)多維數(shù)據(jù)采用主成分分析法進(jìn)行降維處理,減小維度過高帶來的可視化線條擁擠、交疊等可視化不理想情況;然后對(duì)降維后得到的主成分得分采用K-means聚類算法進(jìn)行聚類,從而幫助用戶快速獲取數(shù)據(jù)規(guī)律特征。本文以國家統(tǒng)計(jì)局網(wǎng)站中《中國統(tǒng)計(jì)年鑒2016》城鎮(zhèn)單位就業(yè)人員中的數(shù)據(jù)為仿真實(shí)驗(yàn)數(shù)據(jù),測試了PCAKP可視化技術(shù)的實(shí)用性和有效性。
[1] REICHMAN O J, JONES M B, SCHILDHAUER M P. Challenges and Opportunities of open data in ecology[J]. Science, 2011, 331(6018): 703-705.
[2] 懷進(jìn)鵬. 大數(shù)據(jù)是國家戰(zhàn)略資源[J]. 中國經(jīng)濟(jì)和信息化, 2013(8): 49-50.
HUAI J P. Big Data: national strategic resource[J]. China Economy & Information, 2013(8): 49-50.
[3] 高芳. 平行坐標(biāo)可視化技術(shù)的度量模型研究[D]. 北京: 北京交通大學(xué), 2009.
GAO F. Research on measurement model of parallel coordinates visualization technique[D]. Beijing: Beijing Jiaotong University, 2009.
[4] 胡俊, 黃厚寬, 任東懷. 一種基于圖標(biāo)技術(shù)的可視化方法與應(yīng)用[J]. 北京交通大學(xué)學(xué)報(bào), 2006, 30(5): 10-14.HU J, HUANG H K, REN D H. An icon_based visualization approach and its applications[J].Journal of Beijing Jiaotong University,2006, 30(5): 10-14.
[5] ITOH T, YAMAGUCHI Y, IKEHATA Y, et al. Hierarchical data visualization using a fast rectangle-packing algorithm[J]. IEEE Transactions on Visualization & Computer Graphics, 2004, 10(3): 302-313.
[6] CHEN P, JIAO L, LIU F, et al. Dimensionality reduction of hyper-spectral imagery using sparse graph learning[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2016, PP(99):1-17.
[7] INSELBERG A. Parallel coordinates[J]. Encyclopedia of Database Systems, 2009, 43(4): 199-233.
[8] 解坤, 張俊芳. 基于KMO-Bartlett典型風(fēng)速選取的PCA-WNN短期風(fēng)速預(yù)測[J]. 發(fā)電設(shè)備, 2017, 31(2): 12-36.
XIE K, ZHANG J F. Short-term wind speed forecasting using PCA-WNN based on KMO-bartlett typical wind speed selection[J].Power Equipment, 2017, 31(2): 12-36.
[9] WANG J. Forecasting stock market indexes using principle component analysis and stochastic time effective neural networks[J]. Neuro Computing, 2015, 156(C): 68-78.
[10] HASHEMINEJAD S M H, JALILI S. CCIC: clustering analysis classes to identify software components[J]. Information & Software Technology, 2015, (57): 329–351.
[11] 段明秀. 層次聚類算法的研究與應(yīng)用[D]. 長沙: 中南大學(xué). 2009.
DUAN M X. Research and application of hierarchical clustering algorithm [D].ChangSha: Central South University. 2009.
[12] JAIN A K. Data clustering: 50 years beyond K-means[J]. Pattern Recognition Letters, 2010, 31(8): 651-666.
Research on parallel coordinate visualization technology based on principal component analysis and K-means clustering
MA Guo-jun1,2, WANG Shui-bo2, PEI Qing-qi2, ZHAN Yang2
(1. School of Information Engineering, Xi’an University, Xi’an 710065, China; 2. State Key Laboratory of Integrated Service Networks, Xidian University, Xi’an 710071, China)
In order to solve the problem that parallel coordinate visualization graphic lines are intensive, overlap and rules of data is not easy to be obtained which caused by high dimension and immense amount of multidimensional data. Parallel coordinate visualization method based on principal component analysis and K-means clustering was proposed. In this method, the principal component analysis method was used to reduce the dimensionality of the multidimensional data firstly. Secondly, the data of the dimension reduction was clustered by K-means. Finally, the data of the clustering were visualized by parallel coordinate visualization. The PCAKP visualization method is tested with the data published by the Bureau of Statistics as the test data, and compared with the traditional parallel coordinate visualization graph, the validity and effectiveness of the PCAKP visualization method are verified.
data visualization, parallel coordinate visualization, principal component analysis, K-means clustering
The National Natural Science Foundation of China (No.61373170)
TP301
A
10.11959/j.issn.2096-109x.2017.00189
馬國峻(1978-),男,安徽無為人,西安文理學(xué)院講師,主要研究方向?yàn)閿?shù)字內(nèi)容保護(hù)、智能移動(dòng)應(yīng)用開發(fā)、區(qū)塊鏈應(yīng)用與安全。
王水波(1990-),男,湖北黃梅人,西安電子科技大學(xué)碩士生,主要研究方向?yàn)閃eb前端。
裴慶祺(1975-),男,廣西玉林人,西安電子科技大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)樾湃喂芾?、無線網(wǎng)絡(luò)安全、區(qū)塊鏈安全。
詹陽(1977-),男,陜西楊凌人,西安電子科技大學(xué)講師,主要研究方向?yàn)樾畔踩^(qū)塊鏈應(yīng)用。
2017-07-06;
2017-08-04。通信作者:馬國峻,1578291722@qq.com
國家自然科學(xué)基金資助項(xiàng)目(No.61373170)