童營營 金哲植
摘要 首先選擇合適的測評經濟發(fā)展的因素變量,基于全國各省的數據,通過聚類分析,在一個合適的準則下選擇8個經濟發(fā)展水平相近的省份進行進一步的分析。然后利用主成分和灰色關聯(lián)度相結合的方法,選取評價農民生活水平的指標因素,構建農民生活水平的評價體系,對8個省份的農民生活水平進行分析并排序。最后根據結果分析了這一現狀形成的原因,并提出了促進這些省份農民生活水平進一步提高和均衡發(fā)展的對策和建議。
關鍵詞 聚類分析;主成分分析;灰色關聯(lián)度;對比驗證
中圖分類號 S-9 ?文獻標識碼
A ?文章編號 0517-6611(2015)03-328-03
Evaluation on Farmers Living Standard Based on Principle ComponentGrey Correlation Degree
TONG Yingying, JIN Zhezhi*
(College of Science, Yanbian University, Yanji, Jilin 133002)
Abstract ?This paper first to choose the appropriate measurement variable factors of economic development, based on data from the national provinces, through clustering analysis, under a proper criteria to choose eight provinces of similar level of economic development for further analysis. Then using combination method of principal component and grey correlation degree, selecting evaluation index of farmers' living standard, the evaluation system of farmers living standard was constructed. Farmers living standard of eight provinces was analyzed and sorted. analyze the eight provinces of farmers' living standard and sorted. The causes of the formation of the status quo were analyzed, several suggestions and countermeasures for further improving and balancing development of farmers living standard were put forward.
Key words ?Cluster analysis; Principal component analysis; Grey correlation degree; Comparison validation
基金項目 延邊大學科技發(fā)展計劃項目(2012700602014066)。
作者簡介 董營營(1990- ) ,女,吉林延吉人,本科生,專業(yè):統(tǒng)計學。*通訊作者,講師,博士,從事保險精算、金融數學、應用統(tǒng)計研究。
收稿日期 20141203
近年來,隨著“三農”問題的提出和落實,農民的生活水平備受關注。因為區(qū)域地理、經濟、人文等方面的差異,使得我國各區(qū)域各地區(qū)農民的生活水平有很大的不同。參考相關參考文獻,對生活水平的評價可以從以下幾個方面進行考慮[1]。首先是收入指標體系。顯而易見,收入的多少是決定生活水平的重要因素。再者是農民消費指標體系。這主要包括消費水平、消費結構、擁有耐用消費品數量、價格水平、恩格爾系數等。然后是儲蓄評價指標。最后是反映農民文化生活精神層面以及醫(yī)療衛(wèi)生健康保險方面的指標因素[2]。
在選取最終評價指標時,要兼顧重要性和簡潔性,選取一些有代表性的因素。同時,為了分析的合理性,首先通過聚類分析篩選出經濟發(fā)展水平較為相近,再利用主成分和灰色系統(tǒng)進一步分析農民生活水平的差異,并根據結果分析造成這一現狀的原因,同時針對性地提出一些建議。
1 數據來源與研究方法
1.1 樣本選取
1.1.1 衡量經濟指標的選取。
參考相關文獻,選取衡量經濟發(fā)展情況的8項指標:生產總值、工業(yè)生產總值、固定資本、消費支出、消費指數、平均工資、消費價格指數、商品價格指數。在全國所有省市中,由于臺灣省和香港、澳門2個特別行政區(qū)以及北京、天津、上海、重慶4個直轄市經濟較為特殊,在進行聚類分析時摒棄。
1.1.2 聚類分析及分類準則的選取說明。
運用 SAS程序進行聚類分析[3],由系譜聚類圖,選取其中一類:{遼寧,河北,河南,安徽,湖南,四川,浙江,福建}經濟發(fā)展水平差異不大的8個省份作為進一步分析的樣本。
1.2 測度指標的建立和數據處理
在盡可能涵蓋收入、消費、儲蓄、精神文化醫(yī)療保障等指標下,鑒于該研究重點是對農民實際生活水平的評價,在選取指標時側重消費水平和結構以及住房耐用品的擁有量。這里沒有選取儲蓄指標的原因有二:一是儲蓄指標并不能直接反映農民生活水平;二是在選取了收入和消費這2個指標可以間接反映儲蓄指標。選擇具體指標并進行變量設定如下:農民純收入x1、消費總支出x2、食物支出x3、交通通信x4、文教娛樂x5、醫(yī)療保健x6、每百戶人家擁有耐用消費品數量x7,住房面積x8。
數據列為:
X=x11x12…x18
x21x22…x28
x81x82…x88=(X1,X2,X3,…,X8)
式中,Xj(j=1,2,…,8)是第j個指標的樣本集。
為了消除不同量綱的影響,首先對數據進行標準化處理。其中變量x7為每百戶人家擁有耐用品數量,包括洗衣機、電冰箱、空調、抽油煙機、移動電話,彩電,計算機等共計12個分類。在數據標準化的基礎上,在8各省份水平上對這12個分類取均值后,再標準化。
最后樣本數據見表1。
1.3 研究方法
由于選擇的變量具有一定程度的相關性,為消除共線性影響因素,采用主成分分析方法進行分析。主成分分析基本思想是將眾多的具有一定相關性的指標,重新組合成一組新的互不相關的綜合指標來代替原來指標,然后根據方差貢獻率選擇合適的主成分并計算樣品在主成分上的得分。但是,主成分分析也有一定的缺陷,比如說最后得到的主成分特征向量,各變量所占比重以及正負情況都不確定,這樣難以對所有指標給出一個確切的綜合測度作為綜合的信用等級指標進行排序。
表1 樣本數據標準化結果
地區(qū)x1x2x3x4x5x6x7x8
河北-0.319 77 -0.559 31 -0.959 73 -0.262 11 -0.628 71 0.188 28 -0.643 32 0.377 18
遼寧0.195 95 -0.218 58 -0.331 55 -0.074 77 0.393 64 0.236 59 -1.179 99 -0.357 12
浙江2.242 55 2.281 78 1.810 95 2.344 37 2.177 85 2.136 36 1.906 24 1.870 32
安徽-0.684 46 -0.456 24 -0.486 56 -0.517 45 -0.487 12 -0.136 15 -0.617 26 -0.417 19
福建0.426 99 0.535 41 1.103 62 0.292 72 0.441 49 -1.382 74 0.840 70 0.953 45
河南-0.540 12 -0.737 66 -1.109 62 -0.492 68 -0.704 41 -0.533 29 -0.374 88 -0.489 82
湖南-0.573 69 -0.287 49 0.025 88 -0.619 37 -0.413 31 -0.259 61 0.440 07 -0.839 05
四川-0.747 44 -0.557 92 -0.053 00 -0.670 71 -0.779 43 -0.249 43 -0.371 56 -1.097 76
最大值2.242 55 2.281 78 1.810 95 2.344 37 2.177 85 2.136 36 1.906 24 1.870 32
另一方面,在進行農民生活水平評價時,農民生活水平系統(tǒng)是多種因素作用的結果。該研究選取的因素指標也只是其中的一部分,還有一些信息是未知的。需要對相關的因素進行分析,即分析相關因素對系統(tǒng)的作用程度,這樣就需針對灰色系統(tǒng)采用關聯(lián)度分析的方法來研究。但是這一方法無法解決因素信息重疊,有失準確性。
故結合以上2種方法,取其長處,規(guī)避不合理的地方,對農民生活水平評價體系進行分析、排序。
2 結果與分析
2.1 主成分分析
2.1.1 各指標的相關性檢驗矩陣。利用SAS軟件進行主成分分析[4],得到變量之間的相關系數矩陣見表2。
表2 變量之間的相關系數矩陣
變量x1x2x3x4x5x6x7x8
x110.967 750.818 780.989 780.983 460.700 460.546 380.751 22
x2 10.913 570.974 400.966 700.663 810.527 860.825 60
x310.808 990.850 480.392 600.434 350.876 56
x410.964 020.742 560.550 040.778 94
x510.680 100.511 860.733 59
x610.303 030.396 01
x710.438 42
x81
由表2可知,變量間存在相關性。這說明用主成分方法是完全有必要的。
2.1.2 特征值和主成分形式。
同時,主成分分析結果還給出了相關系數矩陣的特征值、各主成分的方差貢獻率以及累計貢獻率(Cumulative)??梢钥闯鎏崛?個主成分,累計方差貢獻率就達到93.92%,提取3個達到97.33%。這里取3個主成分見表3。
表3 選取的主成分特征值及方差貢獻率
主成分特征值方差貢獻率∥%累計貢獻率∥%
16.148 2883.3983.39
20.776 6510.5393.92
30.251 103.4197.33
由特征向量可以寫出3個主成分的表達形式:
F1=0.394 856x1+0.402 394x2+0.359 105x3+0.397 079x4+0.391 852x5+0.280 968x6+0.214 406x7+0.342 100x8
F2=0.105 915x1-0.058 348x2-0.427 168x3+0.134 217x4+0.075 227x5+0.758 897x6-0.032 994x7+0.449 600x8
F3=-0.324 851x1+0.016 068x2+0.100 240x3-0.148 291x4-0.333 076x5+0.507 350x6-0.351 961x7+0.608 200x8
2.1.3 各省份具體得分。
利用特征向量各分量的值對主成分進行解釋,對于第一主成分而言,各變量所占比重相差不大,且均為正數,可以用第一主成分進行排序,結果見表4。
表4 各省第一主成分得分及排序
地區(qū)主成分得分排序
河北-1.164 24 5
遼寧-0.389 13 3
浙江5.735 67 1
安徽-1.329 01 6
福建1.093 59 2
河南-1.722 47 8
湖南-0.773 04 4
四川-1.451 37 7
在之后的灰色關聯(lián)度分析中,對各樣本進行排序,是對單純主成分排序下的一個修正。
2.2 基于主成分的灰色關聯(lián)分析
2.2.1 原序列和參考序列的說明。
以各地區(qū)在各個主成分上的得分作為原序列(表5)。
在原序列的基礎上選取理想數據,作為參考序列。這里選取各個樣本中各個因素變量的最大值作為理想參考序列[5]。
將原序列和參考序列放在一起,定為矩陣
Y=[Y1,…,Y8,Y9],Yi=[Yi1,Yi2,Yi3](i=1,2,…9)
表5 各省份主成分得分
編號地區(qū)F1F2F3
1河北-1.164 240.750 83-0.129 87
2遼寧-0.389 130.912 08-0.741 34
3浙江5.735 670.535 670.257 99
4安徽-1.329 010.238 530.050 38
5福建1.093 59-1.831 57-0.605 06
6河南-1.722 470.114 44-0.033 25
7湖南-0.773 04-0.547 270.730 15
8四川-1.451 37-0.172 710.471 01
9參考值-1.713 730.183 56-0.513 50
2.2.2 關聯(lián)系數的建立。
矩陣α∈[0,1]Y=[Y1,Y2,…,Y9]可以得價為一個因子集。因數序列Yj∈Y滿足使Y為灰關聯(lián)因子集。
以Yj(1≤j≤9)為參數序列,Yi∈Y為比較序列,比較序列對參數序列在第k(k=1,2,3)主成分上的灰關聯(lián)為:
rij(k)=r(Yi(k),Yj(k))
=miniminj
minkΔij(k)+αmaxi
maxjmaxkΔij(k)Δij(k)+α
maximaximaxkΔij(k)
式中,Δij(k)=|Yi(k)-Yj(k)|;j=9,Y9為參考序列。
常數α=0.5∈[0,1]為分辨率系數,這里取α=0.5計算可得miniminj
Δij(k)=0.008 747 158;
miniminjΔij(k)=7.449 396 307。
可得關聯(lián)系數矩陣見表6。
表6 各省份關聯(lián)系數矩陣
編號地區(qū)r[Yi(1),Y9(1)]r[Yi(1),Y9(1)]r[Yi(3),Y9(3)]
1河北1.551 830 0021.569 615 722 1.385 979 628
2遼寧6.543 247 3341.730 859 754 1.230 189 366
3浙江4.225 872 364 1.354 456 8161.773 839 494
4安徽1.387 061 2261.057 314 0841.566 228 899
5福建3.809 660 3463.017 478 5791.093 906 269
6河南1.011 095 5791.071 468 1111.482 607 026
7湖南1.943 038 5041.733 187 0352.246 004 826
8四川1.264 708 8131.358 627 7461.986 858 830
2.2.3 對關聯(lián)度計算并排序。
設各主成分的方差貢獻率為pk,灰關聯(lián)度計算公式為:
ri=nk=1pkr[Yi(k),Y9(k)]
式中,ri為比較數列Yi與參考數列Yj的關聯(lián)度。
根據數據可得各關聯(lián)度,由高到低排序依次為:遼寧、浙江、福建、湖南、河北、安徽、四川、河南。具體數值表7。
由結果可知,根據關聯(lián)度進行排序的結果和依據主成分
得分結果進行排序的不同,但二者差異性不大。
表7 各省份關聯(lián)度數值及排序
地區(qū)關聯(lián)度排序
河北1.506 65
遼寧5.680 61
浙江3.727 12
安徽1.321 4 6
福建3.531 93
河南1.006 58
湖南1.879 44
四川1.265 57
3 結論與建議
該研究針對農民生活水平進行評價,根據聚類分析選擇經濟發(fā)展水平較為相近的8個省份,對其農民生活水平進行分析評價。在選取的8個省份中,遼寧省屬于東北區(qū)域,河北、河南,安徽,湖南,四川屬于內陸省份,而且河北、河南、安徽、湖南是中部6省中的4個,浙江、福建屬于東南沿海省份。
由主成分得分排序可知,浙江省農民生活水平排在第一位,第二是福建省,再然后是遼寧省。在灰色關聯(lián)度下,排在前3位的分別是遼寧省、浙江省、福建省。而其余省份在兩種排序中名次相同。
雖然這里沒有將所有的東北省份、沿海省份、內陸省份一一做比較,但是在現有的樣本中,在經濟發(fā)展水平相當的8個省份農民生活水平及質量的比較中,東北地區(qū)和沿海地區(qū)農民生活水平比內陸地區(qū)更高。
由灰色關聯(lián)分析結果可知,遼寧省農民平均生活水平最高,其次是浙江、福建這2個沿海省份,再者是湖南、河北、安徽、四川、河南。
河南省是人口大省,在人口壓力以及一些固有觀念的影響下,農民享受生活的觀念不是很強。國家在實施中部崛起戰(zhàn)略舉措的同時更應該加強“三農”問題的解決,不至于經濟與生活不相當,切實使農民的現實生活好起來。四川地理位置特殊,經常受到自然災害的侵襲,國家應給予一定程度的政策傾斜。在內陸省份中,湖南、河北、安徽農民生活水平相對較高。
參考文獻
[1]
張羽琴.淺議城鎮(zhèn)居民生活水平評價統(tǒng)計指標體系的設置[M].貴州社會科學,2000(2):18-21.
[2] 羅萍,殷燕敏,張學軍,等.國內生活質量指標體系研究現狀評析[J].武漢大學學報:人文社會科學版,2000,53(5):645-649.
[3] 汪遠征,徐雅靜.SAS軟件與統(tǒng)計應用教程[M].北京:機械工業(yè)出版社,2011.
[4] 高惠璇.實用統(tǒng)計方法與SAS系統(tǒng)[M].北京:北京大學出版社,2001.
[5] 趙文英.基于主成分-灰色關聯(lián)度的黑龍江省城鎮(zhèn)化水平綜合評價[J].數學的實踐與認識,2014,44(6): 43-50.