亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種增強雙標圖可視化的方法

        2016-09-15 03:23:15惠月月張曉琴
        關(guān)鍵詞:標圖平均工資均值

        惠月月,張曉琴

        (山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)

        ?

        一種增強雙標圖可視化的方法

        惠月月,張曉琴

        (山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原030006)

        雙標圖是一種廣泛應(yīng)用的可視化分析方法, 但是當(dāng)所研究的數(shù)據(jù)包含較多變量時,如果直接用雙標圖進行分析會導(dǎo)致圖中較多變量重疊,不能很清晰地觀察變量間的相關(guān)關(guān)系,可視化程度較低,分析效果不精確。針對上述問題,故引入一種新的方法——聚類雙標圖,首先通過對原始數(shù)據(jù)進行聚類分析,得到新的數(shù)據(jù)集,然后對得到的數(shù)據(jù)集進行雙標圖分析。該方法不僅保留了數(shù)據(jù)間的絕大多數(shù)信息,而且使得雙標圖的可視化程度增強。對新的方法進行實證分析,并與原始數(shù)據(jù)構(gòu)成的雙標圖進行比較研究,驗證了該方法的有效性。

        雙標圖;聚類分析;可視化

        0 引言

        隨著e時代的到來,數(shù)據(jù)可視化[1]越來越受到人們的歡迎,其基本思想是將數(shù)據(jù)庫中的每一個數(shù)據(jù)項作為單個圖元元素來表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同維度觀測數(shù)據(jù),進而對數(shù)據(jù)進行更深入的觀察和分析。數(shù)據(jù)可視化主要借助于圖形化手段,把隱藏在數(shù)據(jù)內(nèi)部的信息展示出來,清晰有效地傳達與溝通信息。Klavans和Boyack將科學(xué)制圖[2]定義為把元素集及它們之間的關(guān)系展示在一張二維圖中,即將多維數(shù)據(jù)繪制成一張低維圖,意味著要損失代表數(shù)據(jù)的信息,低維圖中希望最小化信息損失。

        雙標圖是一種典型的二維圖,由Gabriel[3]于1971年首次提出,Gower和Hand[4]于1996年將其與數(shù)據(jù)分析結(jié)合起來。雙標圖是多元數(shù)據(jù)的圖形表示,數(shù)據(jù)陣的元素通過點和向量來表示,點表示矩陣的行,向量表示矩陣的列,向量之間夾角的余弦值表示兩個列變量指標的相關(guān)性。雙標圖基于主成分分析,能夠很直觀地反映變量與變量,樣本與樣本,變量與樣本之間的關(guān)系。此分析方法已被應(yīng)用到不同領(lǐng)域,如精神病學(xué)[5],遺傳學(xué)[6],數(shù)據(jù)檢查[7],測試環(huán)境評價[8],文獻計量學(xué)[9],基因型[10],降雨的變化[11],社會指數(shù)[12]等等。

        雙標圖雖是可視化的一種方法,但處理多維數(shù)據(jù)時,變量與變量之間存在相關(guān)性,畫出的雙標圖中很多向量之間交織在一起,可視性下降。為了解決這類問題,可通過減少變量來實現(xiàn)。方法之一是選擇變量,但可能丟失原始數(shù)據(jù)的部分信息。為此,本文提出一種新方法來減少原始變量的維度,并盡量保存原始數(shù)據(jù)的完整信息。

        1 雙標圖簡介

        本節(jié)將雙標圖概念與分析步驟, 以及3種常見類型的雙標圖作簡單介紹。

        假設(shè)原始數(shù)據(jù)矩陣X包含n個樣本和p個變量,且有如下表示:

        (1)

        其中xij表示矩陣X的第i行與第j列對應(yīng)的元素,xj=(x1j,x2j,…,xnj)Τ(j=1,2,…,p)表示第j個變量觀測值,xi=(xi1,xi2,…,xip)(i=1,2,…,n)表示第i個樣本觀測值。雙標圖分析步驟如下:

        步驟1對(1)式進行標準化,即消除量綱,得到矩陣Z,且

        Z=Zn×p=(zij)n×p=(z1,z2,…,zp)

        (2)

        其中

        zj=(z1j,z2j,…,znj)Τ,j=1,2,…,p

        步驟2對(2)中矩陣Z進行奇異值分解

        Z=UΓVT

        步驟3計算雙標圖坐標

        Z=FGT

        通常,在雙標圖中根據(jù)α取值的不同有3種類型雙標圖,具體如下:

        1)協(xié)變量雙標圖:此時α=0,n個觀測點的坐標是F=U,p個變量的坐標是G=VΓ。這種雙標圖適合分析變量及其之間的關(guān)系。

        3)形式雙標圖: 此時α=1,n個觀測點的坐標是F=UΓ,p個變量的坐標是G=V。這種雙標圖適合分析觀測點及其之間的關(guān)系。

        圖 1 中的二維雙標圖各元素的解釋如下:

        (a)點近似表示矩陣X的行(觀測點)信息;

        (b)向量近似表示矩陣X的列(變量)信息;

        (c)兩點之間的距離D(i,j)近似表示兩樣本的相似性;

        (e)兩向量之間的夾角余弦值近似表示兩列指標間的相關(guān)性;

        (f)點到向量的距離近似表示標準化矩陣中該樣本點在此列指標下的值。

        圖1 二維雙標圖中元素的解釋Fig.1 The interpretation of elements in a two-dimensional biplot

        步驟4雙標圖中的相關(guān)計算

        令F[i,1]與F[i,2]分別表示矩陣F的第i行第1列,第i行第2列對應(yīng)的元素,G[i,1]與G[i,2]分別表示矩陣G的第i行第1列,第i行第2列對應(yīng)的元素。

        樣本到原點的距離:

        向量的長度:

        兩向量的夾角余弦值:

        2 結(jié)合聚類分析的雙標圖方法

        如果數(shù)據(jù)集中變量較多,用雙標圖解釋時可視化可能會減弱。為了增強可視化,本文結(jié)合聚類分析來減少原始變量的維度,并保存了原始數(shù)據(jù)的完整信息?;舅枷耄菏紫?,用聚類分析中的最長距離法將原始數(shù)據(jù)集中變量分類;其次,對每一類提取其算術(shù)均值變量,此算術(shù)均值變量代表這一類的新變量,簡稱均值變量,所有類的均值變量構(gòu)成一個新數(shù)據(jù)矩陣;最后,對此新數(shù)據(jù)矩陣做雙標圖分析,分析類與類之間的關(guān)系。如果對新數(shù)據(jù)矩陣做雙標圖分析,畫出的雙標圖還存在之前的弊端,即類與類之間依然是擁擠、模糊狀態(tài),則循壞第一步驟,繼續(xù)分類、提取,以此類推。詳細描述如下。

        考慮式(1)中的數(shù)據(jù)矩陣X。

        步驟1利用聚類方法中的最長距離法將原始數(shù)據(jù)X的p個變量分類,分為M(M

        (3)

        步驟2計算(3)中每一類Xk(k=1,2,…,M)的均值變量yk(k=1,2,…,M),且

        所有M個均值變量構(gòu)成一個新數(shù)據(jù)矩陣Y:

        Y=(yij)n×M=(y1,y2,…,yM),M

        (4)

        步驟3對(4)式中的新矩陣Y做雙標圖分析,本文主要考慮α=0的協(xié)變量雙標圖。

        步驟4對(3)式的M類中的每一類變量進行分析,分析每類原始變量之間及原始變量與均值變量之間的關(guān)系,使分析更加具體化。

        固定k,Xk=(xpk-1+1,xpk-1+2,…,xpk)類的均值變量為yk,此類原始變量和均值變量構(gòu)成新的第k類,則

        Qk=(xpk-1+1,xpk-1+2,…,xpk,yk)

        用于分析pk-pk-1+1個變量之間的關(guān)系。

        步驟5第4步驟中每一類按照步驟3畫出相應(yīng)的雙標圖,如果變量之間還存在上述弊端,即變量之間依然是擁擠、模糊狀態(tài),則循壞第一步驟,對此類原始變量繼續(xù)分類、提取,到第4 步驟繼續(xù)判斷是否要進行第5步驟,以此類推,直到可以直觀分析所有的原始變量。

        3 實例分析

        本節(jié)將給出一個實例,并使用第2節(jié)中的方法對其進行分析,以驗證本文方法的有效性。

        隨著改革開放的推進,國民經(jīng)濟的快速發(fā)展,各個行業(yè)間發(fā)展不平衡導(dǎo)致各行就業(yè)人員收入差距也有大的變化趨勢,而就業(yè)人員的平均工資是各個行業(yè)收入的一個直觀表現(xiàn)。表1是2014 年分行業(yè)分崗位就業(yè)人員年平均工資,該數(shù)據(jù)來自于2014年國家統(tǒng)計局數(shù)據(jù),其中,V1(采礦業(yè)),V2(制造業(yè)),V3(電力、熱力、燃氣及水生產(chǎn)和供應(yīng)業(yè)),V4(建筑業(yè)),V5(批發(fā)和零售業(yè)),V6(交通運輸、倉儲和郵政業(yè)),V7(住宿和餐飲業(yè)),V8(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)),V9(房地產(chǎn)業(yè)),V10(租賃和商務(wù)服務(wù)業(yè)),V11(科學(xué)研究和技術(shù)服務(wù)業(yè)),V12(水利、環(huán)境和公共設(shè)施管理業(yè)),V13(居民服務(wù)、修理和其他服務(wù)業(yè)),V14(教育),V15(衛(wèi)生和社會工作),V16(文化、體育和娛樂業(yè)),P1(就業(yè)人員),P2(中層及以上管理人員),P3(專業(yè)技術(shù)人員),P4(辦事人員和有關(guān)人員),P5(商業(yè)、服務(wù)業(yè)人員),P6(生產(chǎn)、運輸設(shè)備操作人員及有關(guān)人員)。

        如果直接對數(shù)據(jù)集表1中的數(shù)據(jù)做雙標圖分析,可得到圖2(a)。顯見16個變量之間的關(guān)系不能很清楚地區(qū)分開,降低了可視化的程度。故對此數(shù)據(jù)進行雙標圖分析之前,先用聚類分析進行分類,分類結(jié)果如表2。

        圖2 (a)2014 年分行業(yè)分崗位就業(yè)人員年平均工資的 協(xié)變量雙標圖;(b)新數(shù)據(jù)集Y構(gòu)成的雙標圖;(c)第一 類Q1數(shù)據(jù)集構(gòu)成的雙標圖;(d)第二類Q2數(shù)據(jù)集構(gòu) 成的雙標圖;(e)第三類Q3數(shù)據(jù)集構(gòu)成的雙標圖Fig.2 (a) The covariance biplot of the average wage of employed personnel from different post divisions and industries in 2014;(b) The biplot was made by the new data set of Y; (c)The biplot was made by the first class data set of Q1; (d)The biplot was made by the second class data set of Q2; (e)The biplot was made by the third class data set of Q3

        Tab.1 The average wage of employed personnel from different post divisions and industries in 2014  (Yuan)

        表2 表1中原始變量的分類結(jié)果及每 一類對應(yīng)的均值變量Tab.2 The classification results of the original variables and the corresponding mean variables of each class in Table 1

        表2中, 每個均值變量Yj是第Qj(j=1,2,3)類原始變量對應(yīng)的算術(shù)平均值,且:

        圖2(b)是由新數(shù)據(jù)集Y得到的雙標圖,每一類中的原始變量及其均值變量得到的新雙標圖,如圖2(c),(d),(e),相關(guān)數(shù)據(jù)計算結(jié)果分別見表3、4、5、6??傻玫饺缦陆Y(jié)論:

        表3 圖2(b)中6個觀測點中的每一點到原點的距離及其秩Tab.3 The distances and ranks between each of 6 observations with the origin in the Figure 2 (b)

        表4 圖2(b)中三個均值變量Y1,Y2,Y3的長度及其秩Tab.4 The length and ranks between mean variables Y1,Y2, Y3 in the Figure 2 (b)

        表5 圖2(b)中三個均值變量之間的夾角余弦值Tab.5 The angles between any two mean variables in the Figure 2 (b)

        1)從點的角度,也就是從不同崗位人員的平均工資來看,點2(中層及以上管理人員)距離原點是最遠(表3),并且與所有向量都是同方向的,說明中層及以上管理人員在各個行業(yè)中工資是最高的。點4(辦事人員和有關(guān)人員)距離坐標原點最近,說明辦事人員和有關(guān)人員在各個行業(yè)上的工資相差不大,接近總體的一個均值,比較穩(wěn)定,其次是點1(就業(yè)人員)距離坐標原點較近,說明就業(yè)人員在各個行業(yè)上的工資也是相差不大,接近總體的一個均值。點3(專業(yè)技術(shù)人員)與所有向量同方向,所以專業(yè)技術(shù)人員在各個行業(yè)上的平均工資較高,但是工資間相差較大。表6中,1(就業(yè)人員)和4(辦事人員和有關(guān)人員)的距離最近,說明在各個行業(yè)上的這兩個崗位工資是相近的。

        表6 圖2(b)中6個觀測點之間的距離Tab.6 The distances between each of 6 observations in the Figure 2 (b)

        2)從向量的角度,也就是從不同行業(yè)的平均工資來看。原始數(shù)據(jù)經(jīng)分析變?yōu)槿悾谝活怸1包括:V1(采礦業(yè)),V3(電力、熱力、燃氣及水生產(chǎn)和供應(yīng)業(yè)),V6(交通運輸、倉儲和郵政業(yè)),V16(文化、體育和娛樂業(yè));第二類Y2包括:V2(制造業(yè)),V4(建筑業(yè)),V5(批發(fā)和零售業(yè)),V7(住宿和餐飲業(yè)),V9(房地產(chǎn)業(yè)),V12(水利、環(huán)境和公共設(shè)施管理業(yè)),V13(居民服務(wù)、修理和其他服務(wù)業(yè)),V14(教育),V15(衛(wèi)生和社會工作);第三類Y3包括:V8(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)),V10(租賃和商務(wù)服務(wù)業(yè)),V11(科學(xué)研究和技術(shù)服務(wù)業(yè))。

        第一類中向量Y1的長度最長(表4),這些行業(yè)間的工資差距較大,平均工資較高,處于中等水平。從圖2(c)來看,V1(采礦業(yè))和V3(電力、熱力、燃氣及水生產(chǎn)和供應(yīng)業(yè))之間夾角最小,說明這兩個行業(yè)間工資差距較小。V16(文化、體育和娛樂業(yè))行業(yè)工資距離此類平均工資Y1最近,且向量長度最短,故此類工資比較穩(wěn)定。

        第二類中向量Y2的長度最短(表4),同一個行業(yè)不同崗位人員的工資相差不大,且平均工資較低,但它離主成分軸最近,故它是較穩(wěn)定的。從圖2(d)來看,V4(建筑業(yè))距離Y2最近,其次是 V7(住宿和餐飲業(yè)),故這兩個行業(yè)的工資接近此類的平均工資Y2,較穩(wěn)定。V12(水利、環(huán)境和公共設(shè)施管理業(yè))和 V13(居民服務(wù)、修理和其他服務(wù)業(yè))之間的夾角余弦值很小,向量的長度基本也相同,說明兩者的發(fā)展趨勢是相類似的。V9(房地產(chǎn)業(yè))的工資偏低是由于新政策的實施,房地產(chǎn)股下跌所致。V14(教育)向量的長度較長,偏離均值向量Y2,故不太穩(wěn)定。

        第三類中向量Y3的長度居中(表4),是平均工資很高的行業(yè),這些行業(yè)的平均工資在全國各行業(yè)里都是遙遙領(lǐng)先的。從圖2(e)來看,V10(租賃和商務(wù)服務(wù)業(yè))向量的長度最長,相應(yīng)的工資是最高的,互聯(lián)網(wǎng)的發(fā)展和國家出臺的新政策帶動了軟件產(chǎn)品和商務(wù)服務(wù)業(yè)的發(fā)展,進而使得該行業(yè)就業(yè)人員的收入非常高,并帶動了V8(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè))、V11(科學(xué)研究和技術(shù)服務(wù)業(yè))等行業(yè)的發(fā)展,這個從圖2(e)中V8和V11向量幾乎重合,向量長度基本相同可觀察到。

        4 結(jié)論

        本文針對數(shù)據(jù)集中多變量的問題,提出了一種新的雙標圖分析方法,該方法結(jié)合聚類分析對變量間的相關(guān)性進行分類,不僅保留了原始數(shù)據(jù)集的所有信息,而且降低了數(shù)據(jù)的維度,使得可視化效果增強。并對改進的雙標圖進行實例分析,通過構(gòu)造2014 年分行業(yè)分崗位就業(yè)人員年平均工資的雙標圖。其結(jié)果表明,改進的雙標圖比原來的雙標圖可視化程度更好。因此,當(dāng)數(shù)據(jù)集中含有較多變量時,采用本文提出的雙標圖分析方法是一個不錯的選擇。當(dāng)然,本文還存在著一些問題,如類的數(shù)目的選擇,到底選幾類是最科學(xué)的,還需要進一步的探索。

        [1] GREENACRE M J.Theory and Applications of Correspondence Analysis[M].London:Academic Press,1984.

        [2] KLAVANS R,BOYACK K W.Toward a consensus map of science[J].Journal of the American Society for information science and technology,2009,60(3):455-476.

        [3] GABRIEL K R.The biplot graphical display of matrices with application to principal component analysis[J].Biometrika,1971,58(3):453-467.

        [4] GOWER J C,HAND D J.Biplots[M].London:Chapman and Hall,1996.

        [5] STRAUSS J S,GABRIEL K R,KOKES R F,et al.Do psychiatric patients fit their diagnoses? patterns of symptomatology as described with the biplot[J].The Journal of nervous and mental disease,1979,167(2):105-113.

        [6] CHAPMAN S,SCHENK P,KAZAN K,et. al.Using biplots to interpret gene expression patterns in plants[J].Bioinformatics,2002,18(1):202-204.

        [7] KOHLER U,LUNIAK M.Data inspection using biplots[J].Stata Journal,2005,5(2):208-223.

        [8] YAN W,HOLLAND J B.A heritability-adjusted gge biplot for test environment evaluation[J].Euphytica,2010,171(3):355-369.

        [9] SALINAS D T,GARCIA N R,CONTRERAS E J,et al.On the use of biplot analysis for multivariate bibliometric and scientific indicators[J].Journal of the American Society for Information Science and Technology,2013,64(7):1468-1479.

        [10]NOERWIJATI K,PRAJITNO D.Fresh tuber yield stability analysis of fifteen cassava genotypes across five environments in east java (indonesia) using gge biplot[J].Energy Procedia,2014,47:156-165.

        [11]ALKAN B B,ATAKAN C,AKDI Y.Visual analysis using biplot techniques of rainfall changes over turkey[J].MAPAN,2015,30(1):25-30.

        [12]ALVAREZ I G,VILLARDON M P G,ROSA M R.Analysis of the sustainable society index worldwide: A study from the biplot perspective[J].Social Indicators Research,2015,120(1):29-65.

        [13]GOOD I J.Some applications of the singular decomposition of a matrix[J].Technometrics,1969,11(4):823-831.

        A method for enhanced visualization of biplot

        HUI Yueyue,ZHANG Xiaoqin

        (School of Mathematical Sciences, Shanxi University, Taiyuan,Shanxi 030006, China)

        Biplot is a visually analytical method, which is widely used. However, when there are many variables in the dataset, the biplot method is applied directly, which will lead to the problem of overlapping together between variables and then it can' t clearly observe the relationship between the variables, so the result of visualization will be weaken and not accurate. For the problem, therefore, a new method of cluster biplot was presented. First, the original dataset is processed by cluster analysis, and get the new dataset, then the new dataset was subjected to the analysis of biplot,which not only retains the all most information of the original dataset, but also makes the effect of visualization better. An empirical analysis for the new method, based on the biopiot of the original data were compared to verify the validity of the method.

        biplot; cluster analysis; visualization

        1004—5570(2016)04-0062-06

        2016-01-10

        國家自然科學(xué)基金青年項目(71503151)

        惠月月(1992-), 女, 碩士研究生, 研究方向: 統(tǒng)計機器學(xué)習(xí), E-mail:1498787801@qq. com.

        O212.4

        A

        猜你喜歡
        標圖平均工資均值
        No.6 2021年平均工資出爐
        重磅!廣東省“三舊”改造標圖入庫標準正式發(fā)布!
        從技能生成規(guī)律入手優(yōu)化作戰(zhàn)標圖技能訓(xùn)練方法
        西部論叢(2020年2期)2020-10-21 09:27:54
        均值不等式失效時的解決方法
        均值與方差在生活中的應(yīng)用
        圖解:數(shù)說2014年平均工資
        文苑(2015年7期)2015-07-06 11:58:54
        關(guān)于均值有界變差函數(shù)的重要不等式
        對偶均值積分的Marcus-Lopes不等式
        跨平臺地圖SVG標圖方法研究
        放心標圖員
        金山(2009年2期)2009-03-16 09:57:26
        粗大的内捧猛烈进出少妇| av免费在线手机观看| 亚洲精品综合中文字幕组合| 欧美xxxxx在线观看| 18分钟处破好疼哭视频在线观看 | 日本久久视频在线观看| 成人无码一区二区三区| 99久久国产福利自产拍| 日本成人字幕在线不卡| 一本到亚洲av日韩av在线天堂| 国产精品视频永久免费播放| 天堂8中文在线最新版在线 | 蜜臀久久99精品久久久久久小说 | 精品人妻伦一二三区久久| 人人爽人人爽人人爽人人片av| 狠狠躁天天躁无码中文字幕图| 国产99视频一区二区三区 | 久久精品片| 中国少妇和黑人做爰视频| 二区三区三区视频在线观看| 蜜桃无码一区二区三区| 伊人久久亚洲综合影院首页| 亚洲精品综合久久国产二区| 久久久久成人精品免费播放动漫 | 精品无码国产一区二区三区麻豆| 999久久久无码国产精品| 免费二级毛片在线播放| 国产免费人成视频在线观看播放播| 国产精品区一区二区三在线播放| 精品综合久久久久久97超人| 国产免费午夜福利蜜芽无码| 亚洲黄色一级在线观看| 国产午夜鲁丝片av无码| 亚洲欧美一区二区三区国产精| 清纯唯美亚洲经典中文字幕| 丁香婷婷激情综合俺也去| 亚洲首页一区任你躁xxxxx| 新久久久高清黄色国产| 蜜桃精品人妻一区二区三区| 伊人久久大香线蕉av色婷婷色| 色噜噜狠狠综曰曰曰|