摘 要:目前的可視化應(yīng)用不管動(dòng)態(tài)還是靜態(tài)可視化,已經(jīng)存在二維圖形展示和點(diǎn)密度展示幾種形式,而點(diǎn)密度已經(jīng)成為作為體現(xiàn)密度特征的最有力手段。但目前的一般手段都只是簡(jiǎn)單的在特定區(qū)域內(nèi)實(shí)現(xiàn)隨即點(diǎn)的輸出。由于數(shù)據(jù)本身的密度屬性與其所屬區(qū)域存在內(nèi)在屬性關(guān)聯(lián),本文在前期通過(guò)密度處理分析進(jìn)行聚類,將數(shù)據(jù)集進(jìn)行歸類劃分后在對(duì)應(yīng)區(qū)域進(jìn)行判斷輸出實(shí)現(xiàn)可視化,實(shí)驗(yàn)證明具有更符合區(qū)域特征的可視化效果,并且時(shí)間和空間復(fù)雜度明顯小于直接進(jìn)行點(diǎn)密度可視化輸出的算法。
關(guān)鍵詞:可視化;點(diǎn)密度;聚類
中圖分類號(hào):TP391.41
近年來(lái),隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、網(wǎng)絡(luò)技術(shù)、電子商務(wù)技術(shù)等的發(fā)展,可視化技術(shù)得到了更深入的發(fā)展,所謂數(shù)據(jù)可視化是對(duì)大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的可視化,它是可視化技術(shù)在非空間數(shù)據(jù)領(lǐng)域的應(yīng)用,使人們不再局限于通過(guò)關(guān)系數(shù)據(jù)表來(lái)觀察和分析數(shù)據(jù)信息,還能以更直觀的方式看到數(shù)據(jù)及其結(jié)構(gòu)關(guān)系[1]。
在電力、醫(yī)學(xué)、農(nóng)業(yè)、現(xiàn)代服務(wù)業(yè)等應(yīng)用系統(tǒng)中,往往需要把相應(yīng)區(qū)域數(shù)據(jù)進(jìn)行可視化展示,以更直觀形象的反應(yīng)區(qū)域數(shù)據(jù)分布問(wèn)題。區(qū)域數(shù)據(jù)的可視化比較適合于用點(diǎn)密度圖來(lái)描述,更符合人眼對(duì)密度判定的感知與決策。用點(diǎn)密度圖來(lái)顯示區(qū)域數(shù)據(jù)密度圖上通常用打上圓點(diǎn)或其它符號(hào)在給定的特定區(qū)域描繪特有的數(shù)據(jù),符號(hào)都可以代表一個(gè)實(shí)體或一個(gè)群體。點(diǎn)密度圖對(duì)表現(xiàn)特有數(shù)據(jù)時(shí)它們通??梢栽趨^(qū)域之間進(jìn)行比較,這些符號(hào)或圓點(diǎn)并沒(méi)有明確的指所在的位置它們通常是代表一定范圍之內(nèi)的多邊形區(qū)域里的數(shù)據(jù)。通過(guò)對(duì)相應(yīng)行業(yè)區(qū)域數(shù)據(jù)進(jìn)行可視化處理,可以為行業(yè)決策分析發(fā)展提供更穩(wěn)定可靠的分析依據(jù)。本文提供一種基于密度聚類的區(qū)域數(shù)據(jù)可視化方法,通過(guò)該方法得到區(qū)域數(shù)據(jù)密度可視化的直觀效果圖,可以為行業(yè)資源的合理分配、決策分析發(fā)展提供更穩(wěn)定可靠的依據(jù)。
1 創(chuàng)建多維區(qū)域數(shù)據(jù)集
創(chuàng)建用于聚類和數(shù)據(jù)負(fù)荷分析的多維數(shù)據(jù)倉(cāng)庫(kù)集D[2],主要包括具有行業(yè)代表特征的數(shù)據(jù)子集、相關(guān)聯(lián)的氣象信息數(shù)據(jù)子集、相關(guān)聯(lián)的地區(qū)信息代碼子集等,以多維方式建立的數(shù)據(jù)模型有利于簡(jiǎn)化業(yè)務(wù)分析復(fù)雜度和提高數(shù)據(jù)查詢性能。
圖1 多維區(qū)域數(shù)據(jù)集示意圖
圖2 三維立體信息數(shù)據(jù)模型圖
2 基于密度計(jì)算的聚類模型
(1)對(duì)多維數(shù)據(jù)倉(cāng)庫(kù)集D,按照如下聚類目標(biāo)的估計(jì)模型[3]確定聚類中心點(diǎn): ,xi,xj為數(shù)據(jù)集D中的數(shù)據(jù)點(diǎn)。
其中σ選取0.5,選取密度最大的前k個(gè)數(shù)據(jù)作為初始聚類中心點(diǎn),形成D′,D′包含k個(gè)初始類子集{d1,d2,…dk}。
(2)依次計(jì)算初始類子集中每一個(gè)對(duì)象sl到k個(gè)種子點(diǎn)的距離,其中:l={1,2,…,n},將sl逐個(gè)分派到其最近均值的類中去,重新計(jì)算接受新對(duì)象的類和失去對(duì)象類的均值 (sl∈di)。
(3)重復(fù)第(2)步,直到各類再無(wú)元素進(jìn)出[4]。
3 區(qū)域數(shù)據(jù)可視化
(1)對(duì)于一定范圍內(nèi)地理區(qū)域,形成相應(yīng)的不規(guī)則多邊形的集合V[5],并計(jì)算出V中各個(gè)多邊形Vi(i∈l:n)的邊界條件,即多邊形Vi各個(gè)頂點(diǎn)x,y坐標(biāo)的最大值和最小值{xmin,xmax,ymin,ymax}。
(2)對(duì)于每個(gè)di(i∈l:k)中的點(diǎn)P(x,y),讀取點(diǎn)P的坐標(biāo)并遍歷集合V,確定點(diǎn)P坐標(biāo)的范圍{xmin
(3)對(duì)于點(diǎn)P和V′,從P點(diǎn)引出向右射線,判斷P與不規(guī)則多邊形Vi(Vi∈V′)邊界的交點(diǎn)數(shù),如果焦點(diǎn)個(gè)數(shù)為0或偶數(shù)則點(diǎn)P不在Vi對(duì)應(yīng)區(qū)域內(nèi)。若P點(diǎn)的向右射線恰好過(guò)邊界頂點(diǎn),則可以將向右射線順時(shí)針或逆時(shí)針旋轉(zhuǎn)一個(gè)小角度,繼續(xù)前述步驟進(jìn)行判斷(但要求移動(dòng)后的P點(diǎn)屬性沒(méi)有發(fā)生變化);
(4)在Vi中打印輸出P點(diǎn),重復(fù)本步驟,直到{d1,d2,…dk}中所有數(shù)據(jù)點(diǎn)打印輸出完畢。
圖3 區(qū)域數(shù)據(jù)密度點(diǎn)生成流程圖
3 結(jié)束語(yǔ)
本文中的算法適用于電力、醫(yī)學(xué)、農(nóng)業(yè)、現(xiàn)代服務(wù)業(yè)中,在商業(yè)網(wǎng)絡(luò)應(yīng)用中,可就產(chǎn)品線上線下訂單及物流分布情況進(jìn)行特點(diǎn)分析,可有助于相應(yīng)的產(chǎn)品調(diào)度配送方案調(diào)整。通過(guò)本文中方法得到區(qū)域數(shù)據(jù)密度可視化的直觀效果圖,可以為行業(yè)資源的合理分配、決策分析發(fā)展提供更穩(wěn)定可靠的依據(jù)。例如可以在所屬地理轄區(qū)內(nèi)實(shí)現(xiàn)對(duì)任意時(shí)刻任意地區(qū)的電力負(fù)荷信息的總覽,便于實(shí)現(xiàn)宏觀調(diào)控和決策。對(duì)任意時(shí)刻任意地區(qū)的電力故障信息的總覽,便于實(shí)現(xiàn)預(yù)防應(yīng)對(duì)和搶修決策。在農(nóng)業(yè)應(yīng)用領(lǐng)域中,區(qū)域數(shù)據(jù)可視化可以與遙感監(jiān)測(cè)等進(jìn)行緊密結(jié)合,為農(nóng)作物種植形態(tài)的結(jié)構(gòu)規(guī)劃提供決策服務(wù)。
參考文獻(xiàn):
[1]劉勘,周曉崢,周洞汝.數(shù)據(jù)可視化的研究與發(fā)展[J].計(jì)算機(jī)工程,2002(08).
[2]劉濤,楊勁鋒,闕華坤.基于聚類的線損分析研究[J].華東電力,2013(07).
[3]Adriano Moreira,Maribel Y.Santos and Sofia Carneiro[J].Density-based clustering algorithms.DBSCAN and SNN.Version 1.0,2005.
[4]Baolin Yi,Haiquan Qiao.An Improved Initialization Center Algorithm for K-means Clustering[J],2010.
[5]樊淑麗,基于SVG的電力系統(tǒng)信息可視化技術(shù)研究[D].浙江大學(xué),2007.
作者簡(jiǎn)介:李秀怡(1979.05-),女,碩士研究生,研究方向:電子商務(wù)、圖像信息處理。
作者單位:南京財(cái)經(jīng)大學(xué)江蘇省電子商務(wù)重點(diǎn)實(shí)驗(yàn)室,南京 210003