李佳芮 吳亞?wèn)| 王 松 王 嬌 廖 競(jìng)
(西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 四川綿陽(yáng) 621010)
一體化是指地理位置上相鄰、有密切邊緣政治經(jīng)濟(jì)關(guān)系的國(guó)家之間的聚合。拉美一體化雖然是在發(fā)展中國(guó)家中最早推行,但迄今也尚未形成以單一組織區(qū)域?yàn)楹诵牡膬?nèi)涵逐步深化、外延持續(xù)擴(kuò)大的一體化道路[1],而是形成各組織成員國(guó)在政治、經(jīng)濟(jì)、社會(huì)等多層次的發(fā)展特性。
拉丁美洲國(guó)家數(shù)據(jù)具有高維多元特征,含有17條國(guó)家數(shù)據(jù)對(duì)象,每個(gè)國(guó)家有1 441個(gè)獨(dú)立或相關(guān)屬性。多元是指每個(gè)國(guó)家具有的多個(gè)屬性,維度指屬性的數(shù)量[2]。評(píng)估拉美發(fā)展的因素眾多且存在大量對(duì)需求無(wú)關(guān)因素的干擾,傳統(tǒng)分析手段又耗費(fèi)大量人力資源,有效地處理拉美數(shù)據(jù),關(guān)鍵在于發(fā)現(xiàn)其包含的重要信息以及隱含的規(guī)律??梢暬c可視分析技術(shù)為復(fù)雜高維多元數(shù)據(jù)提供了大量新穎的有效手段。在信息可視化領(lǐng)域,對(duì)高維多元數(shù)據(jù)的可視分析一直是研究的熱點(diǎn)問(wèn)題,其目的是探索數(shù)據(jù)項(xiàng)的分布規(guī)律和模式,并揭示不同元之間的隱含關(guān)系。常用的高維多元可視方法處理屬性的個(gè)數(shù)有限,否則,將面臨關(guān)鍵信息遮擋、空間利用率低下等問(wèn)題。因此,針對(duì)具有高維多元特征的拉美數(shù)據(jù)在維度空間探尋的需求,需要設(shè)計(jì)有效的可視化分析方法。
本文提出一種利用層次數(shù)據(jù)劃分和子空間分析相結(jié)合的可視分析模型來(lái)探尋拉美一體化發(fā)展特性。(1)針對(duì)拉美數(shù)據(jù)中的多個(gè)屬性,利用文本分類將其構(gòu)建成層次數(shù)據(jù),建立出新的類別作為新的維度空間,方便自定義快速地探尋和篩選數(shù)據(jù)子集;(2)針對(duì)拉美數(shù)據(jù)中蘊(yùn)含重要信息會(huì)被無(wú)關(guān)信息干擾的問(wèn)題,利用子空間方法分析屬性間的相關(guān)性,并結(jié)合視覺(jué)隱喻快速探尋維度空間的差異,該差異有助于全面認(rèn)識(shí)影響拉丁美洲國(guó)家經(jīng)濟(jì)的貧困因子;(3)在重構(gòu)的局部子空間中觀察國(guó)家降維后的聚類特征;(4)使用多種可視化手段探尋拉丁美洲一體化發(fā)展的特征,以幫助拉美研究員和各經(jīng)濟(jì)學(xué)家對(duì)拉美國(guó)家制定精準(zhǔn)的扶貧計(jì)劃,促進(jìn)各國(guó)經(jīng)濟(jì)發(fā)展。
目前對(duì)拉美國(guó)家數(shù)據(jù)分析主要分為量化和非量化兩種方法。非量化是指根據(jù)研究員的專業(yè)知識(shí)和經(jīng)驗(yàn),利用統(tǒng)計(jì)手段探索國(guó)家發(fā)展的規(guī)律與特征。例如文獻(xiàn)[3-4],均借用傳統(tǒng)統(tǒng)計(jì)手段對(duì)國(guó)家數(shù)據(jù)特定屬性進(jìn)行分析,通過(guò)對(duì)屬性值變化規(guī)律的總結(jié)來(lái)分析具體問(wèn)題。該方法工作量巨大繁雜,容易忽視重要因素,且需要相關(guān)專業(yè)知識(shí)和經(jīng)驗(yàn),缺乏對(duì)數(shù)據(jù)更深層次的認(rèn)識(shí)。
量化是利用數(shù)據(jù)分析方法進(jìn)行建模,例如,采用面板數(shù)據(jù)模型方法來(lái)分析拉美旅游業(yè)與經(jīng)濟(jì)增長(zhǎng)之間的關(guān)系[5],用數(shù)據(jù)挖掘技術(shù)預(yù)測(cè)拉美人口發(fā)展指數(shù)[6],利用半?yún)?shù)面板模型估算拉美二氧化碳的排放量[7]。通過(guò)數(shù)據(jù)分析方法對(duì)拉美數(shù)據(jù)進(jìn)行建模,具有分析效率提高、可靠性高等優(yōu)點(diǎn)。本文研究主要用層次數(shù)據(jù)劃分和子空間分析相結(jié)合的可視分析模型對(duì)拉美一體化發(fā)展特性進(jìn)行探索分析。
拉丁美洲數(shù)據(jù)具有高維多元特征,涵蓋著數(shù)據(jù)的多種性質(zhì),例如層次性、時(shí)空性、多屬性等。國(guó)內(nèi)外研究人員從不同的角度利用不同技術(shù)來(lái)研究高維多元數(shù)據(jù)。
1.2.1 高維多元數(shù)據(jù)分析
由于受“維度效應(yīng)”[8]的影響,當(dāng)采用傳統(tǒng)的降維算法處理高維數(shù)據(jù)時(shí),降維結(jié)果的精確度和穩(wěn)定性將會(huì)大幅度降低,同時(shí)大量對(duì)聚類的并無(wú)貢獻(xiàn)的屬性會(huì)干擾結(jié)果的準(zhǔn)確性。為解決這類問(wèn)題,研究人員進(jìn)行了大量研究工作:文獻(xiàn)[9]利用子空間分析對(duì)維度局部相關(guān)性進(jìn)行了研究;夏佳志等[10]提出發(fā)現(xiàn)有意義的數(shù)據(jù)子集并揭示其局部相關(guān)性的方法;Yuan[11]利用數(shù)據(jù)的層次性合并或拆分子空間來(lái)探索高維數(shù)據(jù)的數(shù)據(jù)對(duì)象間的相關(guān)性和維度相關(guān)性;張彰[12]對(duì)VSM改進(jìn)來(lái)劃分文本數(shù)據(jù)的層次性;Sirius[13]運(yùn)用加權(quán)高維距離函數(shù)來(lái)同時(shí)分析數(shù)據(jù)對(duì)象和維度;陳誼[14]利用KNN自動(dòng)將相關(guān)維度分組成簇來(lái)分析維度子集,進(jìn)而利用Pearson計(jì)算各維度之間的相關(guān)性程度。
本文研究結(jié)合上述工作,將拉美數(shù)據(jù)的屬性轉(zhuǎn)化成層次結(jié)構(gòu),再結(jié)合子空間方法分析屬性之間的相關(guān)性,研究拉美數(shù)據(jù)屬性相關(guān)性和局部子空間下數(shù)據(jù)對(duì)象的降維結(jié)果。
1.2.2 高維多元時(shí)空數(shù)據(jù)可視化
目前高維多元可視化方法主要分為多重協(xié)調(diào)視圖[15]、關(guān)聯(lián)對(duì)比和視覺(jué)隱喻。平行坐標(biāo)、散點(diǎn)圖以及雷達(dá)圖是常用的關(guān)聯(lián)對(duì)比可視化方法,其形式簡(jiǎn)潔、可擴(kuò)展性強(qiáng),但其對(duì)數(shù)據(jù)屬性數(shù)量有限制,否則將會(huì)造成視覺(jué)重疊,增加認(rèn)知負(fù)荷。Chenyi等[16]提出MCT,將平行坐標(biāo)的思想應(yīng)用于樹(shù)圖布局之中,充分利用有限的空間展示數(shù)據(jù)的層次結(jié)構(gòu)和多維屬性信息。Chernoff[17]將多個(gè)維度利用人臉的各部分來(lái)表示,采用視覺(jué)隱喻的方法相對(duì)于文字更為直觀。時(shí)空數(shù)據(jù)是指帶有地理位置與時(shí)間標(biāo)簽的數(shù)據(jù),是一類與時(shí)間密切相關(guān)的高維數(shù)據(jù),需將各屬性在時(shí)間上的規(guī)律進(jìn)行可視化。Charles[18]在19世紀(jì)利用國(guó)家地理位置和從法國(guó)出口到世界各地的葡萄酒的數(shù)量,設(shè)計(jì)了顯示葡萄酒出口數(shù)量走勢(shì)的地圖。
本文結(jié)合上述工作,選用以下可視化方法:(1)選用最傳統(tǒng)的節(jié)點(diǎn)-鏈接可視化方式但其空間利用率較高的縮進(jìn)圖來(lái)展示屬性分類后的層次結(jié)構(gòu);(2)因視覺(jué)隱喻的方式傳遞信息效果比文字更為顯著,選用圖標(biāo)與散點(diǎn)圖結(jié)合方式來(lái)表示屬性間的相關(guān)性同時(shí)傳遞分類信息;(3)因平行坐標(biāo)可擴(kuò)展性強(qiáng),為其添加軸選取操作來(lái)實(shí)現(xiàn)對(duì)多個(gè)或特定的國(guó)家進(jìn)行多種屬性的關(guān)聯(lián)對(duì)比。
本文數(shù)據(jù)來(lái)源于World Bank,其中包含拉丁美洲及加勒比地區(qū)17個(gè)國(guó)家在內(nèi)的1960年到2016年的數(shù)據(jù),且每個(gè)國(guó)家包含1 441個(gè)屬性,如:耕地(公頃數(shù))、PPG、IDA(DOD,現(xiàn)價(jià)美元)等,是典型的高維多元數(shù)據(jù)。
拉美研究人員在面對(duì)大量的屬性時(shí),使用傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)方法并不能區(qū)分出重要的屬性,因此提出以下需求:分析某一具體問(wèn)題,例如環(huán)境、經(jīng)濟(jì)等,篩選出相關(guān)屬性的任務(wù)相對(duì)繁重,希望能快速找到同種類的屬性;分析拉美國(guó)家經(jīng)濟(jì)變化問(wèn)題的時(shí)候,希望能同時(shí)對(duì)多個(gè)國(guó)家多個(gè)屬性值進(jìn)行關(guān)聯(lián)對(duì)比并觀察其時(shí)變信息;希望能直觀感受各國(guó)的經(jīng)濟(jì)隨時(shí)間的發(fā)展變化。綜上所述,可視化任務(wù)需求如下:
T1:展示全部屬性的層次結(jié)構(gòu)和屬性間的相關(guān)性,以供用戶發(fā)現(xiàn)并篩選出興趣子空間;
T2:展示興趣子空間上各國(guó)降維后的聚類特征;
T3:展示多個(gè)或特定國(guó)家多屬性的關(guān)聯(lián)對(duì)比;
T4:展示特定成員國(guó)多屬性的時(shí)變演化規(guī)律。
本文提出的可視分析流程如圖1所示。首先對(duì)拉美數(shù)據(jù)屬性的層次結(jié)構(gòu)進(jìn)行全面瀏覽,對(duì)數(shù)據(jù)有初步認(rèn)識(shí);接著在屬性投影中分析屬性間的相關(guān)性,根據(jù)需求發(fā)現(xiàn)對(duì)應(yīng)的相關(guān)元,將其組成稱之為興趣子空間,并快速地篩選重構(gòu)出新的局部子空間;接著在局部子空間中對(duì)拉美國(guó)家進(jìn)行降維投影,進(jìn)入數(shù)據(jù)抽象化的瀏覽和探索;最后利用地理空間位置、多屬性的時(shí)序變化和指標(biāo)排名變化可以實(shí)現(xiàn)多對(duì)象多屬性的時(shí)序變化和關(guān)聯(lián)對(duì)比,對(duì)降維結(jié)果和屬性投影進(jìn)行輔助驗(yàn)證,進(jìn)入數(shù)據(jù)具體化的探尋和分析階段。
圖1 可視化任務(wù)和分析流程Fig.1 Visualization task and analysis flow chart
系統(tǒng)的整體框架如圖2所示。系統(tǒng)由數(shù)據(jù)預(yù)處理模塊、算法模型和可視化界面組成。數(shù)據(jù)預(yù)處理模塊是指對(duì)原始數(shù)據(jù)進(jìn)行整理、清洗、篩選和規(guī)范化等處理。算法模塊中首先利用文本分類將拉美數(shù)據(jù)的屬性轉(zhuǎn)化成層次結(jié)構(gòu),接著利用子空間分析屬性間的相關(guān)性。可視化界面通過(guò)多視圖協(xié)調(diào)來(lái)展示拉美數(shù)據(jù)多個(gè)國(guó)家和多屬性之間的關(guān)聯(lián)對(duì)比和時(shí)變規(guī)律,配合交互使用戶從多個(gè)角度深層次探尋拉丁美洲國(guó)家數(shù)據(jù)。
圖2 系統(tǒng)框圖Fig.2 System block diagram
3.2.1 數(shù)據(jù)預(yù)處理
原始拉美數(shù)據(jù)規(guī)模較大,信息雜亂無(wú)序,數(shù)據(jù)對(duì)象獨(dú)立存在,且常伴有稀疏特征及時(shí)變的性質(zhì),故單純利用均值填充對(duì)原始數(shù)據(jù)填充會(huì)使結(jié)果準(zhǔn)確性降低。本文運(yùn)用完整數(shù)據(jù)的期望最大化來(lái)推算每條數(shù)據(jù)對(duì)象的缺失值,處理成標(biāo)準(zhǔn)的數(shù)據(jù)格式方便后續(xù)分析使用。
3.2.2 轉(zhuǎn)化層次數(shù)據(jù)
利用文本分類對(duì)拉美數(shù)據(jù)的屬性進(jìn)行分類,主要過(guò)程為:首先利用TextRank對(duì)屬性提取分類的關(guān)鍵詞,公式為:
其中,WS(vi)表示每個(gè)單詞的TextRank值,d為阻尼系數(shù),一般設(shè)置在0.85。In(vj)指在單詞i前面的單詞集合,Out(vj)指在單詞i后面的單詞集合?;诠剑?)計(jì)算出每個(gè)單詞的重要性,最重要的若干詞為關(guān)鍵詞。
由關(guān)鍵詞和詞頻大于閾值的名詞生成類核心詞CoreWord(Cj)={w1,w2,…,wn},再將每條屬性下的屬性名稱、屬性介紹、屬性來(lái)源提取出合并為一個(gè)文本文檔,對(duì)其進(jìn)行特征提取和特征值計(jì)算后建立文本向量空間模型[12]。
式中,Score為衡量選出類核心詞與單個(gè)屬性文本向量的重要程度的打分函數(shù),Cj為類核心詞CoreWord的集合,a,b為權(quán)重,a+b=1,V(Ti,Cj)為文本Ti屬于Cj的影響值,若共有m個(gè)類別,則重要的類別為:
3.2.3 子空間分析
拉美數(shù)據(jù)集蘊(yùn)含著多重信息,而僅靠人工分析耗費(fèi)人力資源,因此需要借助子空間分析屬性間相關(guān)性,即提供對(duì)屬性分布態(tài)勢(shì)的宏觀瀏覽,也為用戶探索興趣子空間提供憑證。將拉美數(shù)據(jù)集的n個(gè)國(guó)家表示成X=(x1,x2,…,xn)和每個(gè)國(guó)家的m個(gè)屬性表示成Y=(y1,y2,…,ym)構(gòu)成一個(gè)n×m的矩陣。運(yùn)用KNN-Pearson[14]來(lái)計(jì)算出屬性間的距離,先利用KNN算出國(guó)家xn在某個(gè)維度ym上最近的各點(diǎn)的距離d(n,m),由式(4)得到國(guó)家xn在某個(gè)維度ym上的密度,任意2個(gè)屬性yj和yh間的距離公式如式(5)所示。
將式(5)構(gòu)造出的距離矩陣?yán)枚嗑S尺度變換,在二維空間重構(gòu)其歐幾里得坐標(biāo)進(jìn)行降維投影,使其保持與原始維度空間的大體匹配來(lái)表示屬性間的相似性。
可視系統(tǒng)總覽圖見(jiàn)圖3,主要包括七大主要交互視圖:整體維度視圖(a)、屬性投影視圖(b)、數(shù)據(jù)對(duì)象降維投影視圖(c)、地理空間位置(d)、指標(biāo)排名視圖(e)、個(gè)體詳情視圖(f)、多對(duì)象關(guān)聯(lián)對(duì)比視圖(g)。
經(jīng)預(yù)處理后的數(shù)據(jù)通過(guò)關(guān)鍵詞提取和分類后,轉(zhuǎn)化成層次結(jié)構(gòu),對(duì)劃分出的新類別用不同的圖標(biāo)隱喻其含義,如圖4所示,本文數(shù)據(jù)處理后最后分為以下七類:Agriculture,Development,Economics,Eucation,Environment,People,Resources。整體維度視圖如圖3(a)所示,利用縮進(jìn)樹(shù)來(lái)展示分類以后的屬性,使分析者能瀏覽整個(gè)屬性的層次結(jié)構(gòu),并且能快速篩選出特定屬性,后續(xù)的屬性投影視圖也可作為本部分層級(jí)結(jié)構(gòu)分類結(jié)果的驗(yàn)證。
圖3 系統(tǒng)概覽Fig.3 System overview
圖4 圖標(biāo)設(shè)計(jì)Fig.4 Icon design
屬性投影視圖如圖3(b)所示。經(jīng)過(guò)層次結(jié)構(gòu)劃分后,數(shù)據(jù)的每條屬性都可根據(jù)其所屬的類別抽象為特征元,在投影視圖中用散點(diǎn)圖和圖標(biāo)隱喻結(jié)合的方法展現(xiàn)了屬性的分布態(tài)勢(shì),系統(tǒng)地為用戶發(fā)現(xiàn)興趣子空間提供參考。根據(jù)已分好的7類,樣本的每條屬性用不同圖標(biāo)表示在散點(diǎn)圖中,并將直接反映國(guó)家經(jīng)濟(jì)情況的GDP和GINI單獨(dú)標(biāo)注,可以直觀地分析拉美國(guó)家經(jīng)濟(jì)狀況與財(cái)政收入、教育水平、利民措施、能源短缺和人口組成等指標(biāo)隨時(shí)間變化的關(guān)聯(lián)性,從多個(gè)指標(biāo)的角度全面探尋拉美一體化發(fā)展特性,對(duì)拉美國(guó)家制定更完善的經(jīng)濟(jì)政策和扶貧政策有重要意義。
如圖3(c)所示,數(shù)據(jù)對(duì)象降維投影視圖顯示了拉美國(guó)家對(duì)象在局部子空間下的降維結(jié)果,避免了直接對(duì)高維數(shù)據(jù)降維后造成的特征丟失等問(wèn)題,用戶也可自定義探尋篩選出新的子空間,通過(guò)多維尺度來(lái)分析數(shù)據(jù)對(duì)象降維后的聚類特征。
如圖3(f)所示,個(gè)體詳情視圖用來(lái)展示拉美各國(guó)多屬性的時(shí)變信息,用戶可通過(guò)縮進(jìn)樹(shù)圖選擇4個(gè)屬性,極軸上則對(duì)應(yīng)分為n段,平面上的圓弧長(zhǎng)順時(shí)針表示年份的變化,左下角的顏色由白色到紅色編碼范圍從0到30,表示數(shù)據(jù)值從低到高的變化,利用滑塊可自定義篩選編碼范圍內(nèi)的數(shù)據(jù)。
如圖3(g)所示,多對(duì)象關(guān)聯(lián)對(duì)比視圖利用平行坐標(biāo)來(lái)同時(shí)分析拉美各國(guó)和多個(gè)屬性之間的關(guān)系。軸上折線的顏色與地圖中國(guó)家顏色相對(duì)應(yīng)。另外,在傳統(tǒng)的平行坐標(biāo)上增添刷選取功能,并且提供3種刷選取來(lái)展現(xiàn)特定國(guó)家間的關(guān)聯(lián)對(duì)比,分別為:?jiǎn)屋S選取、多軸選取、掃弦選取。單軸選取是將鼠標(biāo)在軸上的拖選范圍進(jìn)行高亮顯示,每條軸上只能選取一次;多軸選取可以在一條軸上執(zhí)行多個(gè)范圍的軸選擇;掃弦選取相對(duì)于單軸選取和多軸選取更為靈活,鼠標(biāo)作用范圍是在軸與軸之間,可以由鼠標(biāo)自由任意角度選取,當(dāng)樣本數(shù)據(jù)聚集時(shí),用掃弦選取更為方便。
如圖3(e)所示,排名視圖基于柱狀圖展示了各國(guó)GDP和GINI隨年份的排名變化,圖中每個(gè)柱狀圖的顏色與地圖中國(guó)家顏色相對(duì)應(yīng)。GDP指國(guó)內(nèi)生產(chǎn)總值,是從生產(chǎn)角度衡量國(guó)家在一定時(shí)間內(nèi)創(chuàng)造的物質(zhì)財(cái)富,代表國(guó)家的競(jìng)爭(zhēng)力。GINI指數(shù)指一個(gè)國(guó)家和地區(qū)的財(cái)富分配狀況,指數(shù)值在0到1之間,數(shù)值越低表明財(cái)富在社會(huì)成員之間的分配越均勻,反之亦然。一般把0.40作為收入分配差距的界限,可以看到拉美國(guó)家的GINI在0.40~0.59之間。聯(lián)合國(guó)開(kāi)發(fā)計(jì)劃署等組織規(guī)定GINI在此區(qū)間屬于財(cái)富差距較大,比較容易出現(xiàn)社會(huì)動(dòng)蕩問(wèn)題。本文用GDP和GINI作為拉美國(guó)家經(jīng)濟(jì)變化的綜合指標(biāo),可以看到各國(guó)的經(jīng)濟(jì)隨時(shí)間的排名變化。
經(jīng)過(guò)對(duì)拉美數(shù)據(jù)屬性的分類,圖3(a)中可瀏覽整個(gè)屬性的層次結(jié)構(gòu),圖5和圖6顯示了1973年和2015年拉美國(guó)家屬性投影的分布態(tài)勢(shì)。MDS視圖的軸本身無(wú)意義,要靠分析人員的經(jīng)驗(yàn)和主觀判斷其中的文本標(biāo)簽才能給出定義,但本研究運(yùn)用視覺(jué)隱喻方法可加快分析員對(duì)坐標(biāo)軸定義。例如:1973年y軸上教育的屬性較多,即可從教育方面來(lái)定義y軸,分析得到上方為教育水平高的,如科技期刊文章、專利申請(qǐng)等,下方為教育水平低的,如失業(yè)人口、失學(xué)率等;在水平方向人口的屬性較多即從人口方
圖5 1973年屬性投影Fig.5 Attribute projection in 1973
圖6 2015年屬性投影Fig.6 Attribute projection in 2015
將1973年和2015年的貧困因子作為新的子空間來(lái)展示拉美各組織成員國(guó)降維后的聚類特征和關(guān)聯(lián)對(duì)比,如圖7所示。1973年Cuba,Guatemala明顯偏離,Costa Rica,Guyana次偏離,與其他國(guó)家在這些屬性上最不相似。Cuba,Guatemala在大城市群和衛(wèi)生外部資源上與其他國(guó)家差異巨大,均成較低水平,其都屬于大城市群較少且人口密度多的國(guó)家;Costa Rica和Guyana有較少的大城市群,且Guyana人口密度、城市人口也較低。圖3(e)中1973年Cuba面來(lái)定義x軸,左邊為削弱居民生活水平因素,如自付醫(yī)療開(kāi)支、在職兒童、無(wú)薪家庭工人等,右邊為改善居民生活水平因素,如可再生內(nèi)源淡水資源、國(guó)際旅游收入、醫(yī)療衛(wèi)生開(kāi)支等。2015年軸上的屬性多是關(guān)于發(fā)展,即從發(fā)展方面定義y軸,分析得到上方為國(guó)民生產(chǎn)層面對(duì)經(jīng)濟(jì)所做的措施,如工業(yè)就業(yè)、工資及受薪工人總數(shù),下方為國(guó)家政府層面所做的措施,如衛(wèi)生外部資源、衛(wèi)生支出總額、公共衛(wèi)生支出;x軸上人口屬性最多,所以從人口方面來(lái)定義,左邊為貧窮階層人口,如居住在貧民窟的人口、農(nóng)村人口、失業(yè)人口,右邊為非貧窮階層人口,如人口100萬(wàn)以上的城市群、大城市人口。分析可知,與拉美一體化區(qū)域的經(jīng)濟(jì)水平相關(guān)由教育水平低和削弱居民生活水平的因素變成國(guó)家政府層面和非貧困人口階層影響的因素,可推斷拉美一體化區(qū)域發(fā)展趨勢(shì)從教育水平低和居民生活條件差變成有社會(huì)保障和受貧困階層影響,可看出經(jīng)濟(jì)與教育水平、生活條件、社會(huì)保障均相關(guān),這也正如文獻(xiàn)[3]中提出對(duì)國(guó)家貧困性要從多個(gè)角度定義,貨幣收入不再是衡量貧困的唯一標(biāo)準(zhǔn),而是受多個(gè)維度相互影響。經(jīng)濟(jì)高于Guatemala,Costa Rica經(jīng)濟(jì)高于Guyana,但Costa Rica的GINI要低于Guyana,說(shuō)明Costa Rica相對(duì)于Guyana地區(qū)財(cái)富分配要均勻。結(jié)合圖3(d),這4個(gè)國(guó)家國(guó)土面積都小,可推斷:對(duì)于小面積國(guó)家,大城市群和城市人口對(duì)經(jīng)濟(jì)有重要影響。GDP的排名也可看出1973年各國(guó)經(jīng)濟(jì)跟城市人口和人口密度有重要關(guān)系,其中排名靠前的Argentina,Mexico和Brazil在國(guó)土面積上也是靠前的,可推測(cè)出國(guó)家經(jīng)濟(jì)跟國(guó)土面積也有一定關(guān)系。
圖7 1973年和2015各國(guó)在貧困因子維度下的聚類特征和關(guān)聯(lián)對(duì)比Fig.7 Clustering characteristics and correlation comparison of countries in poverty factor dimension in 1973 and 2015
2015年Mexico和Brazil最偏離集群,利用軸刷在平行坐標(biāo)中將兩個(gè)國(guó)家單獨(dú)選擇出來(lái),可以看到兩國(guó)公共醫(yī)療開(kāi)支、國(guó)際旅游人數(shù)到達(dá)都呈較低水平,自付醫(yī)療開(kāi)支、教育開(kāi)支呈較高水平;結(jié)合排名視圖看到Mexico的GDP排名第一,但Brazil的GINI遠(yuǎn)遠(yuǎn)高于Mexico,Brazil相對(duì)于Mexico國(guó)內(nèi)財(cái)富分配極其不均勻,可知國(guó)土面積大小對(duì)國(guó)家GDP有著重要影響,且隨著時(shí)間的變化對(duì)國(guó)家經(jīng)濟(jì)的影響不再全關(guān)乎城市人口,而是跟衛(wèi)生改善、醫(yī)療保障、旅游收入和教育多個(gè)角度有關(guān)聯(lián)。
綜上所述,拉美一體化經(jīng)濟(jì)在較早的時(shí)候跟國(guó)土面積等相關(guān),但隨著時(shí)間的變化,拉美一體化經(jīng)濟(jì)與教育、環(huán)境、發(fā)展、資源和人口等多個(gè)維度均有關(guān)系,所以拉美一體化發(fā)展形式復(fù)雜。
巴西城市化發(fā)展進(jìn)程如圖8所示。Brazil在1960年至2016年城市人口增長(zhǎng)率呈從低到高再逐漸減緩的變化趨勢(shì),農(nóng)村人口增長(zhǎng)率由高逐步降低并呈負(fù)增長(zhǎng),非正規(guī)就業(yè)人口由高變低,工業(yè)就業(yè)和服務(wù)業(yè)人口呈增加趨勢(shì),大城市數(shù)量增長(zhǎng)從緩慢變高到急劇下降,城市貧民窟人口呈中等程度。
圖8 巴西城市化進(jìn)程Fig.8 Urbanization in Brazil
Brazil城市化進(jìn)程特點(diǎn)同文獻(xiàn)[4]描述基本一致??梢詫razil的城市化進(jìn)程分為兩個(gè)階段:(1)1960-1980年呈城市化快速推進(jìn)階段,此階段農(nóng)村人口增速降低,城市人口增速加快,非正規(guī)就業(yè)人口轉(zhuǎn)化為工業(yè)和服務(wù)業(yè)人口,由于大量人口向城市涌進(jìn)導(dǎo)致大城市數(shù)量增加;(2)1980-2016年基本完成城市化進(jìn)程,此階段城市人口增速變緩,農(nóng)村人口增速呈負(fù)增長(zhǎng),大城市數(shù)量變少,中心城市規(guī)模變大。
從失業(yè)率、貧窮、不平等、失學(xué)等社會(huì)經(jīng)濟(jì)的屬性來(lái)觀察拉美各國(guó)經(jīng)濟(jì)的發(fā)展。
如圖9所示,Argentina的貧困人口呈低水平,失業(yè)、失學(xué)、艾滋病感染率和貧困差距呈穩(wěn)步下降的趨勢(shì)。Bolivia的貧困人口、失業(yè)、失學(xué)呈一個(gè)比較高的狀態(tài),但貧困人口隨艾滋病感染率的減小而降低,其貧困差距則一直變化。Brazil,Colombia,Ecuador,Mexico,Paraguay貧困比例均從高水平降低,Bolivia,Colombia,Brazil,Uryguay國(guó)家失業(yè)人口處于較高水平。Brazil失學(xué)兒童、貧困差距、未成年生育率均呈較高水平,GINI排名也靠前,可知Brazil國(guó)內(nèi)發(fā)展極不均勻。
圖9 拉美各國(guó)的經(jīng)濟(jì)發(fā)展Fig.9 Economic development in Latin America
通過(guò)分析可以得出:自拉美一體化以來(lái),拉美各國(guó)社會(huì)經(jīng)濟(jì)均不同步,并未實(shí)現(xiàn)理想的一體化,而是在不同的內(nèi)外因下朝著振興各國(guó)經(jīng)濟(jì)、脫離貧窮的共同目標(biāo)發(fā)展且呈多層次的發(fā)展特性。
為了驗(yàn)證系統(tǒng)的有效性,邀請(qǐng)了拉美研究院工作人員對(duì)本文工作進(jìn)行了初步評(píng)估,收集和整理專家們的反饋意見(jiàn),總結(jié)如下:(1)系統(tǒng)功能:整個(gè)可視化系統(tǒng)的設(shè)計(jì)新穎有意義。該系統(tǒng)能瀏覽數(shù)據(jù)整個(gè)維度空間以及其中明朗的層次結(jié)構(gòu),可同時(shí)分析屬性間的相關(guān)性和局部維度空間下數(shù)據(jù)對(duì)象的降維態(tài)勢(shì),能對(duì)研究員提供對(duì)數(shù)據(jù)更全面的認(rèn)識(shí)和研究手段,使其做出更具科學(xué)性的決策,而不僅僅再依靠經(jīng)驗(yàn)。(2)可視化技術(shù):可視化的設(shè)計(jì)基本實(shí)現(xiàn)可視化的設(shè)計(jì)目標(biāo)。在可視化過(guò)程中,可依靠屬性相關(guān)性對(duì)數(shù)據(jù)進(jìn)行探索,也可添加人的決策判斷,這種可視化的設(shè)計(jì)對(duì)拉美國(guó)家數(shù)據(jù)的研究非常有用。在可視化表達(dá)上,專家給出了肯定并發(fā)表如下評(píng)論:“該研究過(guò)程非常有趣且有一定的意義”“能在一種視圖上同時(shí)看到多個(gè)屬性時(shí)變信息的方式很有效率”“數(shù)據(jù)的展示模式很新穎”等。(3)交互技術(shù):專家認(rèn)為個(gè)體詳情視圖和多對(duì)象關(guān)聯(lián)視圖是一組很好的設(shè)計(jì)模塊,可進(jìn)行從整體到個(gè)體對(duì)國(guó)家間的關(guān)聯(lián)對(duì)比以及多個(gè)屬性的時(shí)序變化趨勢(shì)分析,但層次化后的屬性篩選仍存在一定的認(rèn)知負(fù)荷以及消耗掉較長(zhǎng)的時(shí)間,在這方面還需要進(jìn)一步優(yōu)化。
拉美數(shù)據(jù)屬性過(guò)多,耗費(fèi)大量人力資源,若直接對(duì)其屬性降維則會(huì)被噪聲干擾而無(wú)法有效揭示信息,本文提出利用層次數(shù)據(jù)劃分和子空間分析相結(jié)合的可視分析流程來(lái)分析拉美一體化的發(fā)展特性。該方法首先對(duì)屬性進(jìn)行分類并用圖標(biāo)表示,使得分析員更深刻理解數(shù)據(jù)并快速篩選屬性,提高效率;利用子空間分析屬性間相關(guān)性來(lái)發(fā)現(xiàn)興趣子空間,結(jié)合視覺(jué)隱喻,使得其投影結(jié)果能更為直觀,更易理解;結(jié)合可視化技術(shù)和交互技術(shù)實(shí)現(xiàn)了多對(duì)象的關(guān)聯(lián)對(duì)比以及多屬性的時(shí)變信息展示。
在本研究的基礎(chǔ)上,未來(lái)將從以下幾個(gè)方面進(jìn)行進(jìn)一步研究和改進(jìn)。首先,利用查詢算法使得研究員快速查詢屬性,提高效率。其次,本文為了節(jié)省空間采用的是最傳統(tǒng)的縮進(jìn)樹(shù)來(lái)展示數(shù)據(jù)的層次結(jié)構(gòu),未來(lái)應(yīng)同時(shí)考慮空間利用率和層次數(shù)據(jù)可視化創(chuàng)新,例如樹(shù)圖。最后,希望能針對(duì)目標(biāo)進(jìn)行重要性分析,篩選出所需的屬性,從而減輕研究員的分析任務(wù)。