【摘要】采用SPSS多元統(tǒng)計軟件中的聚類分析法把我國大陸28個省市地區(qū)建筑業(yè)水平按企業(yè)單位數(shù)、從業(yè)人員、建筑業(yè)總產(chǎn)值、技術裝備率劃分為5類進行聚類分析,并對聚類結果做相關研究,結果表明:在中國大陸地區(qū)的建筑業(yè)水平與四項因素息息相關。
Abstract:By using SPSS statistical software multivariate cluster analysis method to the mainland of China Construction levels 28 provinces and cities by number of business units, employees, construction output, technical equipment rates are divided into five categories of cluster analysis,and also do reserach in result。The results show that: in the construction level in mainland China and four factors are closely related。
【關鍵詞】聚類分析;聚類結果;SPSS;
Keywords:Cluster analysis;Clustering results;SPSS;
0 引言
隨著時代的進步,我國國民經(jīng)濟逐漸增強,而建筑業(yè)是我國國民經(jīng)濟的基礎。預計到2015年,我國建筑業(yè)總產(chǎn)值將超過10萬億元,約占我國生產(chǎn)總值的7%。在重要機遇的同時,我國建筑業(yè)也會面臨相應的問題。我國各個地方的GDP發(fā)展的水平都不一樣,例如北京市,上海市經(jīng)濟發(fā)展的快,建筑業(yè)發(fā)展水平高,而內(nèi)蒙古、西藏、新疆等省市則明顯的建筑業(yè)水平不高,大多還在建設當中。一個省市的建筑業(yè)水平和四個因素相關,省市的企業(yè)單位數(shù)、從業(yè)人員、建筑業(yè)總產(chǎn)值、技術裝備率。
1 參數(shù)選取和聚類分析方法
1.1 參數(shù)選取及數(shù)據(jù)來源
目前國內(nèi)對建筑業(yè)統(tǒng)計的數(shù)據(jù)參數(shù)主要是4個,企業(yè)單位數(shù)(個)、從業(yè)人員(人)、建筑業(yè)總產(chǎn)值(萬元)、技術裝備率(元\人)。本文系統(tǒng)聚類分析選取這四個方面的數(shù)據(jù)。研究地區(qū)為我國28個省市自治區(qū)。數(shù)據(jù)來源為中國建筑業(yè)2010年統(tǒng)計年鑒,詳情見表1。
1.2聚類分析方法
聚類分析是數(shù)理統(tǒng)計中重要的數(shù)據(jù)分析方法。主要兩種聚類法,分別是分層聚類法和迭代聚類法。聚類分析的目的就是在一些相似的基礎上手機不同的數(shù)據(jù)進行分類。比如說聚類分析可以用來記錄不同的客戶群的特征,從而有利于銷售者更好推銷出產(chǎn)品。聚類分析還可以被應用到對動植物的基因進行分類,從而可以讓我們對種群了解的更深。
聚類分析是由以下幾個步驟組成,首先我們先尋找出所研究樣品之間的相似性。由于在各個樣品之間會存在一些聯(lián)系彼此的指標,這些指標的量稱為統(tǒng)計量。通過這些統(tǒng)計量,把相似程度高的歸為一類,把另外一些相似程度大的分為第二類,直到把所有的樣品都聚類完畢。
根據(jù)分類對象可以分為Q型聚類分析和R型聚類分析。Q型聚類分析主要是對樣本進行分類處理,而R型聚類分析則是對變量進行分類處理。
系統(tǒng)聚類分析的基本思想是:設有n個樣品,每個樣品有m項指標。首先定義樣品間的距離。先將這n個樣品當做n個類別,由于兩個類別之間都存在距離,將距離最近的兩類合并成為新類,并計算新類與其它類的距離,再按最小距離準則并類。這樣每次縮小一類,直到并成一類為止。
系統(tǒng)聚類方法:
(1)最短距離法:類與類之間距離為兩類最近樣品的距離。在原來的距離矩陣的非對角元素中找出,把分類對象歸并為新的一類并計算各類與新類之間的距離,這樣就能得到一個新的距離矩陣;再從新的矩陣中選出最小的歸為新類,再計算距離,一直反復,直到各個分類對象被歸為一類。
(2)最長距離法:則是賀最短距離法相反,最遠距離聚類法所用的是最遠距離來衡量樣本之間的距離;
(3)直接聚類法:先把各個分類對象單獨看作一類,根據(jù)距離最小原則,依次選出一對分類對象,并成新類。如果分類對象中有一個已經(jīng)是其中一類,那么把另一個也歸為此類;每一次歸類都劃掉該對象所在的列和對應的行。經(jīng)過m-1次就可以把全部分類對象歸為一類。
(4)重心法:以兩類重心之間的距離作為兩類間的距離。重心法測量的是兩個類的重心(均值)之間的歐氏距離。每合并一次類,都要重新計算新類的重心
(5)類平均法:以兩類元素兩兩之間距離平方的平均作為類間距離的平方。
2 系統(tǒng)聚類分析成
3缺失數(shù)據(jù)及判別分析
調(diào)查中經(jīng)常遇到缺失數(shù)據(jù)的現(xiàn)象。產(chǎn)生缺失數(shù)據(jù)的原因有多種,不同背景下的缺失數(shù)據(jù)對統(tǒng)計分析會帶來不同的影響。提高統(tǒng)計調(diào)查數(shù)據(jù)的質(zhì)量,一方面要采取有效措施減少數(shù)據(jù)缺失,提高調(diào)查的回答率;另一方面,當出現(xiàn)缺失數(shù)據(jù)時,可以對不完整的數(shù)據(jù)集進行處理,以減小由于缺失數(shù)據(jù)帶來的影響。對缺失值有不同的調(diào)整方法,不同的方法各有特點。在上述的28個省市數(shù)據(jù)里面中,沒有包括江西省、山東省、河南省三個省份?,F(xiàn)在是已知三個省份的四項相關因素的指標,要求得到底三個省份歸類于哪類。
判別分析是用于判斷個體所屬類別的一種統(tǒng)計方法。判別分析是根據(jù)已知觀測對象的分類和若干表明觀測對象特征的變量值,建立判別函數(shù)和判別準則,并使其錯判率最小。
判別分析即“分辨法”,是指的已經(jīng)分類確定了,根據(jù)某個研究對象的特征值來確定類型歸屬問題。判別分析的基本原理是根據(jù)一定的準則,建立單獨的或者是好幾個判別函數(shù),然后確定函數(shù)中的待定系數(shù),計算出指標最后判別類別。
判別分析與聚類分析的區(qū)別:判別分析是已知研究對象分類,根據(jù)樣本數(shù)據(jù)推導出判別函數(shù),再根據(jù)判別準則,確定待判樣品的所屬類別,使錯判率最小。聚類分析預先不知道分類,它要解決的問題,正是對給定的未知分類的樣品進行分類,它是一種純統(tǒng)計技術,只要有多指標存在,就能根據(jù)各觀測的變量值近似程度排序,只是描述性的統(tǒng)計,而判別分析能對未知分類觀測判別分類,帶有預測性質(zhì)。
分析的結果可知。江西省、山東省、河南省分別歸為三類,五類,五類。在輸入缺少數(shù)據(jù)之前,根據(jù)前面的聚類分析已經(jīng)可以得知北京、河北、遼寧、上海、安徽、福建、湖北、湖南、廣東、重慶、陜西為一類,天津為二類,山西、內(nèi)蒙古、吉林、黑龍江、廣西、海南、貴州、云南、西藏、甘肅、青海、寧夏、新疆為三類,江蘇、浙江為四類,四川為五類。
4 結論
通過對四項影響因素聚類,把28個省市自治區(qū)劃分為五類,先確定了28個省市的類別,運用SPSS軟件,從樹狀圖當中也可以看出哪幾個省市為一類。再者有缺失數(shù)據(jù)江西省、山東省、河南省三個省。把缺失的三個省的四個影響因素的數(shù)據(jù)分別列入表中,根據(jù)前面已經(jīng)劃分好得28個省市的類別,最終確定了三個缺失數(shù)據(jù)的類別。本文采用SPSS多元統(tǒng)計軟件中的聚類分析法把我國大陸28個省市地區(qū)建筑業(yè)水平按企業(yè)單位數(shù)、從業(yè)人員、建筑業(yè)總產(chǎn)值、技術裝備率劃分為5類進行聚類分析,并對聚類結果做相關研究,結果表明在中國大陸地區(qū)的建筑業(yè)水平與四項因素息息相關,依據(jù)該分析結果,可以針對不同地區(qū)房地產(chǎn)業(yè)和房地產(chǎn)市場發(fā)展的現(xiàn)狀,采取促進各區(qū)域房地產(chǎn)業(yè)及房地產(chǎn)市場。在探討建筑水平相關因素的同時也忽略了一些問題。比如說本文中只對單個指標的時間序列進行分析,相對來說比較片面,如果是針對多個指標的時間序列進行分析則還需要進一步探討。
參考文獻:
[1]衛(wèi)海燕.郎玉泉《陜西區(qū)域經(jīng)濟建筑業(yè)水平的聚類分析》 2007第1期
[2]向東進. 實用多元統(tǒng)計方法 [ M ] . 武漢 : 中國地質(zhì)大學出版社 , 2005 .
[3]茆詩松.王靜龍:《數(shù)理統(tǒng)計》,華東師范大學出版社1990年版。
[4]Anderson T W,張潤楚、程軼 等譯:《多元統(tǒng)計分析導論》,人民郵電出版社,2010年版。
[5]Chatfield C,Collins A J.1980.Introduction to Multivariate Analysis, Chapman and Hall Ltd.
[6]Krzanowski W J.1988.Principles of Multivariate Analysis,A User's
[7]Dallas E. Johnson:《應用多元統(tǒng)計分析方法》,高等教育出版社,2005年版。