【摘要】探討對(duì)應(yīng)分析方法在市政建設(shè)特征分析中的應(yīng)用,以及運(yùn)用對(duì)應(yīng)分析時(shí)應(yīng)注意的幾個(gè)問(wèn)題。用對(duì)應(yīng)分析方法對(duì)全國(guó)全國(guó)31個(gè)省市的市政基礎(chǔ)設(shè)施建設(shè)狀況情況進(jìn)行分析。從對(duì)應(yīng)分析的因子負(fù)荷圖中可以看出城市建設(shè)水平和地區(qū)的經(jīng)濟(jì)發(fā)展水平具有一定的對(duì)應(yīng)關(guān)系。
【關(guān)鍵詞】對(duì)應(yīng)分析 市政建設(shè) 方法特征
市政基礎(chǔ)設(shè)施建設(shè)是城市賴以生存和發(fā)展的根本,是實(shí)現(xiàn)城市功能定位和提高城市綜合競(jìng)爭(zhēng)力的重要基礎(chǔ)。城市基礎(chǔ)設(shè)施的建設(shè)和完善程度決定了一個(gè)城市的現(xiàn)代化水平,進(jìn)而影響到這個(gè)城市的影響力和競(jìng)爭(zhēng)力等各個(gè)方面。研究國(guó)內(nèi)城市發(fā)展和建設(shè)水平,可以發(fā)現(xiàn)城市建設(shè)水平和地區(qū)的經(jīng)濟(jì)發(fā)展水平具有一定的對(duì)應(yīng)關(guān)系,而且,處在不同經(jīng)濟(jì)發(fā)展階段的地區(qū),其城市基礎(chǔ)設(shè)施建設(shè)的重點(diǎn)也有所不同。通過(guò)評(píng)價(jià)城市基礎(chǔ)設(shè)施的建設(shè)水平,可以有針對(duì)性地提出今后進(jìn)一步建設(shè)的建議。
一、對(duì)應(yīng)分析的主要特點(diǎn)
對(duì)應(yīng)分析又稱為相應(yīng)分析,也稱R—Q分析,是在因子分子基礎(chǔ)發(fā)展起來(lái)的一種多元統(tǒng)計(jì)分析方法。它主要通過(guò)分析定性變量構(gòu)成的列聯(lián)表來(lái)揭示變量之間的關(guān)系。在因子分析中人們通常只是分析原始變量的因子結(jié)構(gòu),找出決定原始變量的公共因子,從而使問(wèn)題的分析簡(jiǎn)化和清晰。這種研究對(duì)象是變量的因子分析稱為R型因子分析。但是對(duì)于有些問(wèn)題來(lái)說(shuō),我們還需要研究樣品的結(jié)構(gòu),若對(duì)于樣品進(jìn)行因子分析,稱為Q型因子分析。當(dāng)我們對(duì)同一觀測(cè)數(shù)據(jù)施加R和Q型因子分析,并分別保留兩個(gè)公共因子,則是對(duì)應(yīng)分析的初步。對(duì)應(yīng)分析的基本思想是將一個(gè)聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點(diǎn)的形式在較低維的空間中表示出來(lái)。它最大特點(diǎn)是能把眾多的樣品和眾多的變量同時(shí)做到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來(lái),具有直觀性。另外,它還省去了因子選擇和因子軸旋轉(zhuǎn)等復(fù)雜的數(shù)學(xué)運(yùn)算及中間過(guò)程,可以從因子載荷圖上對(duì)樣品進(jìn)行直觀的分類,而且能夠指示分類的主要參數(shù)(主因子)以及分類的依據(jù),是一種直觀、簡(jiǎn)單、方便的多元統(tǒng)計(jì)方法。
二、實(shí)例
采用spss軟件對(duì)全國(guó)31個(gè)省市的市政建設(shè)狀況進(jìn)行對(duì)應(yīng)分析,數(shù)據(jù)來(lái)源于《中國(guó)統(tǒng)計(jì)年鑒2010》.共紀(jì)錄了31個(gè)省、市、自治區(qū)當(dāng)年的城市市政工程建設(shè)狀況,具體有如下6個(gè)指標(biāo):
road:年末實(shí)有道路長(zhǎng)度;area:年末實(shí)有道路面積;bridge:城市橋梁數(shù);
under:城市下水道長(zhǎng)度;water:城市污水處理能力;lamp:城市路燈數(shù)。
考察各省市城市設(shè)施水平的建設(shè)情況差異,特別是各地區(qū)在這6個(gè)指標(biāo)上分別存在著哪些優(yōu)勢(shì)和不足之處。
(一)數(shù)據(jù)處理
對(duì)應(yīng)分析的第一步是進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,將數(shù)據(jù)轉(zhuǎn)換為代表行、列變量問(wèn)類別聯(lián)系的數(shù)據(jù)陣。由于本例采用的數(shù)據(jù)不是頻數(shù),不存在行列合計(jì)頻數(shù),所以不能像交叉表那樣基于無(wú)效假設(shè)計(jì)算標(biāo)準(zhǔn)化殘差,此處需要使用歐式距離來(lái)表示關(guān)聯(lián)程度。首先需要考慮應(yīng)當(dāng)采用何種距離標(biāo)準(zhǔn)化方法。顯然,6項(xiàng)指標(biāo)的均數(shù)大不相同,而這并不是我們所要關(guān)心的,同時(shí)它們的量綱也相差較大,最大、最小值的倍數(shù)在數(shù)十到上千不等;另一方面,各省市發(fā)展水平的差異是我們希望考察的內(nèi)容,即上海的平均發(fā)展水平是否高于北京,諸如此類。因此,本例中使用Column Totals are Equalized and Column Means Removed這一標(biāo)化方法,它可以消除各指標(biāo)均數(shù)和量綱不同的影響,同時(shí)又保留了地區(qū)發(fā)展水平的差異。
(二)數(shù)據(jù)分析結(jié)果
運(yùn)用spss對(duì)原始數(shù)據(jù)進(jìn)行分析得到對(duì)應(yīng)分析的最終匯總結(jié)果,如表1。
有表1中的數(shù)據(jù)我們可以看到,前兩個(gè)維度工攜帶了總信息量的94.8%,因此可以利用二維空間進(jìn)行分析結(jié)果的解釋。
表1 Summary
把31個(gè)省市樣本和6個(gè)市政建設(shè)衡量指標(biāo)繪制在一張二維平面圖上,并將分布相當(dāng)集中的地級(jí)市樣本和指標(biāo)歸為一類,如圖1所示:
位置臨近的指標(biāo)點(diǎn)表示他們密切相關(guān),我們首先來(lái)看指標(biāo)的分布,在指標(biāo)散點(diǎn)中,6個(gè)散點(diǎn)并未完全分開(kāi),其中橋梁指標(biāo)與其他5個(gè)指標(biāo)遠(yuǎn)遠(yuǎn)分離,但是其他5個(gè)指標(biāo)基本重疊,顯然從常識(shí)看道路長(zhǎng)度,道路面積,下水道長(zhǎng)度,污水處理和路燈數(shù)著5個(gè)指標(biāo)是緊密相關(guān)的。
臨近的樣本點(diǎn)則表示它們的發(fā)展?fàn)顩r相似,根據(jù)這種分布,可以將31個(gè)省市分類,然后結(jié)合指標(biāo)的分布來(lái)分析全國(guó)各地區(qū)的市政建設(shè)狀況。
根據(jù)原始數(shù)據(jù)和樣本及指標(biāo)在二維坐標(biāo)圖中的分布情況,31個(gè)省市和6各指標(biāo)可以分為以下幾類:
圖1 基于均數(shù)的對(duì)應(yīng)分析圖
第一類:10(江蘇),11(浙江),15(山東),19(廣東)幾個(gè)沿海發(fā)展較好省市,雖然這四個(gè)省被歸為一類,但是從二維圖中可以看到:江蘇和浙江比較接近處于第一象限,而山東和廣東則處于第四象限。這也與事實(shí)比較接近,山東和廣東的發(fā)展較為相似,而其他兩個(gè)較為相似。由二維圖可以看到這四個(gè)省與橋梁指標(biāo)放射方向基本一致,查看原始數(shù)據(jù)也可以發(fā)現(xiàn)這四個(gè)省的橋梁建設(shè)處于全國(guó)前四,其中江蘇省散點(diǎn)橋梁散點(diǎn)的放射方向一致,在原始數(shù)據(jù)中江蘇的橋梁指標(biāo)也是最高的;在道路面積和道路道路長(zhǎng)度指標(biāo)中,廣東、山東兩省基本均處于全國(guó)前兩名,這在圖中則表現(xiàn)為它們正好位于相應(yīng)兩個(gè)指標(biāo)散點(diǎn)的放射線上。另外,這四個(gè)省的散點(diǎn)與所有指標(biāo)散點(diǎn)分布都較為接近,這說(shuō)明這四個(gè)省在市政建設(shè)的各個(gè)指標(biāo)上均處于較為領(lǐng)先水平,此結(jié)果從原始數(shù)據(jù)中也可以得到驗(yàn)證。
第二類:包括1(北京),2(天津),9(上海)三個(gè)發(fā)展水平較好的直轄市,這三個(gè)城市的散點(diǎn)與除橋梁以外的5個(gè)指標(biāo)放射方向大體一致,這說(shuō)明這三個(gè)城市的在這5個(gè)指標(biāo)的建設(shè)狀況都比較好。其中上海的污水處理水平也處于全國(guó)較為領(lǐng)先的地位,這在二維圖中表現(xiàn)為兩個(gè)散點(diǎn)位于相應(yīng)的放射線上。
第三類:3(河北),6(遼寧),8(黑龍江),12(安徽),13(福建),16(河南),17(湖北),18(湖南),20(廣西),23(四川)發(fā)展程度中等省市,由二維圖中的位置與原始數(shù)據(jù)我們都可以發(fā)現(xiàn)這些省市的市政建設(shè)裝況均處于中上水平。endprint
第四類:其他則是欠發(fā)達(dá)省市,包括邊遠(yuǎn)落后地區(qū),這類散點(diǎn)位于最遠(yuǎn)離各個(gè)指標(biāo)的左上方,市政建設(shè)狀況較為落后。這一狀況由原始數(shù)據(jù)可以得到驗(yàn)證。
三、小結(jié)
由以上實(shí)例分析我們可以看到,對(duì)應(yīng)分析的結(jié)果比較簡(jiǎn)單直觀,它最主要的結(jié)果就是對(duì)應(yīng)分析圖,非常容易理解,這也是對(duì)應(yīng)分析比對(duì)數(shù)線性模型這些專業(yè)建模方法更受應(yīng)用統(tǒng)計(jì)人員歡迎的原因。它不僅可以同時(shí)對(duì)指標(biāo)和樣本進(jìn)行聚類,而且可以分析指標(biāo)和樣本的關(guān)系,這是因子分析和聚類分析都無(wú)法單獨(dú)實(shí)現(xiàn)的。對(duì)應(yīng)分析適于研究較多分類變量:多重對(duì)應(yīng)分析可以將多個(gè)分類變量的關(guān)聯(lián)在一張圖形中表現(xiàn)出來(lái),當(dāng)變量數(shù)較多時(shí),該優(yōu)勢(shì)非常明顯。當(dāng)分類變量的類別數(shù)越多時(shí),對(duì)應(yīng)分析圖形化結(jié)果的優(yōu)勢(shì)就越明顯。它省去了復(fù)雜的建模和檢驗(yàn)過(guò)程,可以直接觀察到最為主要的關(guān)聯(lián)特征。
對(duì)應(yīng)分析也存在自身的劣勢(shì):首先,對(duì)應(yīng)分析不能進(jìn)行具體聯(lián)系的檢驗(yàn):對(duì)應(yīng)分析在本質(zhì)上仍然只是一種統(tǒng)計(jì)描述方法,他無(wú)法對(duì)所觀察到的變量類別間的聯(lián)系進(jìn)行檢驗(yàn),從而在統(tǒng)計(jì)上加以確認(rèn)。因此,對(duì)應(yīng)分析在結(jié)果解釋上要小心,特別是多重對(duì)應(yīng)分析,事先一定要采用卡方檢驗(yàn)等統(tǒng)計(jì)方法進(jìn)行預(yù)分析,篩除掉實(shí)際上無(wú)聯(lián)系的變量。在得到圖形結(jié)果后也要將圖形和原始數(shù)據(jù)反復(fù)對(duì)照,以確保結(jié)論的正確性。其次,無(wú)法自動(dòng)判斷最佳維度數(shù):對(duì)應(yīng)分析只能根據(jù)研究者指定的數(shù)量進(jìn)行相應(yīng)維度的提取,而不能自動(dòng)判斷最合適的維度數(shù)。最后,分析結(jié)果對(duì)極端值敏感:由于對(duì)應(yīng)分析的第一步是對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,對(duì)于罕見(jiàn)類別或者小樣本,變換后非常容易出現(xiàn)極端值,這使得分析結(jié)果嚴(yán)重受這些類別的影響。
參考文獻(xiàn)
[1]中國(guó)統(tǒng)計(jì)年鑒2011,國(guó)家統(tǒng)計(jì)局出版
[2]何曉群.多元統(tǒng)計(jì)分析.中國(guó)人民大學(xué)出版社.2008(7):242-263.
[3]張文彤.SPSS統(tǒng)計(jì)分析高級(jí)教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區(qū)域經(jīng)濟(jì)發(fā)展的對(duì)應(yīng)分析[A].中國(guó)商界.2010年第七期.
[5]毛騰飛.中國(guó)城市基礎(chǔ)設(shè)施建設(shè)投融資模式創(chuàng)新研究[M].北京:中國(guó)社會(huì)科學(xué)出版社,2007:5-8.
[6]段娟,文余源.中國(guó)城市化進(jìn)程中基礎(chǔ)設(shè)施建設(shè)和管理的問(wèn)題與對(duì)策探討[J].云南地理環(huán)境研究,2007(1).
作者簡(jiǎn)介:霍煒紅(1986-),女,河北人,經(jīng)濟(jì)學(xué)碩士,研究方向:數(shù)據(jù)挖掘與抽樣統(tǒng)計(jì)。endprint
第四類:其他則是欠發(fā)達(dá)省市,包括邊遠(yuǎn)落后地區(qū),這類散點(diǎn)位于最遠(yuǎn)離各個(gè)指標(biāo)的左上方,市政建設(shè)狀況較為落后。這一狀況由原始數(shù)據(jù)可以得到驗(yàn)證。
三、小結(jié)
由以上實(shí)例分析我們可以看到,對(duì)應(yīng)分析的結(jié)果比較簡(jiǎn)單直觀,它最主要的結(jié)果就是對(duì)應(yīng)分析圖,非常容易理解,這也是對(duì)應(yīng)分析比對(duì)數(shù)線性模型這些專業(yè)建模方法更受應(yīng)用統(tǒng)計(jì)人員歡迎的原因。它不僅可以同時(shí)對(duì)指標(biāo)和樣本進(jìn)行聚類,而且可以分析指標(biāo)和樣本的關(guān)系,這是因子分析和聚類分析都無(wú)法單獨(dú)實(shí)現(xiàn)的。對(duì)應(yīng)分析適于研究較多分類變量:多重對(duì)應(yīng)分析可以將多個(gè)分類變量的關(guān)聯(lián)在一張圖形中表現(xiàn)出來(lái),當(dāng)變量數(shù)較多時(shí),該優(yōu)勢(shì)非常明顯。當(dāng)分類變量的類別數(shù)越多時(shí),對(duì)應(yīng)分析圖形化結(jié)果的優(yōu)勢(shì)就越明顯。它省去了復(fù)雜的建模和檢驗(yàn)過(guò)程,可以直接觀察到最為主要的關(guān)聯(lián)特征。
對(duì)應(yīng)分析也存在自身的劣勢(shì):首先,對(duì)應(yīng)分析不能進(jìn)行具體聯(lián)系的檢驗(yàn):對(duì)應(yīng)分析在本質(zhì)上仍然只是一種統(tǒng)計(jì)描述方法,他無(wú)法對(duì)所觀察到的變量類別間的聯(lián)系進(jìn)行檢驗(yàn),從而在統(tǒng)計(jì)上加以確認(rèn)。因此,對(duì)應(yīng)分析在結(jié)果解釋上要小心,特別是多重對(duì)應(yīng)分析,事先一定要采用卡方檢驗(yàn)等統(tǒng)計(jì)方法進(jìn)行預(yù)分析,篩除掉實(shí)際上無(wú)聯(lián)系的變量。在得到圖形結(jié)果后也要將圖形和原始數(shù)據(jù)反復(fù)對(duì)照,以確保結(jié)論的正確性。其次,無(wú)法自動(dòng)判斷最佳維度數(shù):對(duì)應(yīng)分析只能根據(jù)研究者指定的數(shù)量進(jìn)行相應(yīng)維度的提取,而不能自動(dòng)判斷最合適的維度數(shù)。最后,分析結(jié)果對(duì)極端值敏感:由于對(duì)應(yīng)分析的第一步是對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,對(duì)于罕見(jiàn)類別或者小樣本,變換后非常容易出現(xiàn)極端值,這使得分析結(jié)果嚴(yán)重受這些類別的影響。
參考文獻(xiàn)
[1]中國(guó)統(tǒng)計(jì)年鑒2011,國(guó)家統(tǒng)計(jì)局出版
[2]何曉群.多元統(tǒng)計(jì)分析.中國(guó)人民大學(xué)出版社.2008(7):242-263.
[3]張文彤.SPSS統(tǒng)計(jì)分析高級(jí)教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區(qū)域經(jīng)濟(jì)發(fā)展的對(duì)應(yīng)分析[A].中國(guó)商界.2010年第七期.
[5]毛騰飛.中國(guó)城市基礎(chǔ)設(shè)施建設(shè)投融資模式創(chuàng)新研究[M].北京:中國(guó)社會(huì)科學(xué)出版社,2007:5-8.
[6]段娟,文余源.中國(guó)城市化進(jìn)程中基礎(chǔ)設(shè)施建設(shè)和管理的問(wèn)題與對(duì)策探討[J].云南地理環(huán)境研究,2007(1).
作者簡(jiǎn)介:霍煒紅(1986-),女,河北人,經(jīng)濟(jì)學(xué)碩士,研究方向:數(shù)據(jù)挖掘與抽樣統(tǒng)計(jì)。endprint
第四類:其他則是欠發(fā)達(dá)省市,包括邊遠(yuǎn)落后地區(qū),這類散點(diǎn)位于最遠(yuǎn)離各個(gè)指標(biāo)的左上方,市政建設(shè)狀況較為落后。這一狀況由原始數(shù)據(jù)可以得到驗(yàn)證。
三、小結(jié)
由以上實(shí)例分析我們可以看到,對(duì)應(yīng)分析的結(jié)果比較簡(jiǎn)單直觀,它最主要的結(jié)果就是對(duì)應(yīng)分析圖,非常容易理解,這也是對(duì)應(yīng)分析比對(duì)數(shù)線性模型這些專業(yè)建模方法更受應(yīng)用統(tǒng)計(jì)人員歡迎的原因。它不僅可以同時(shí)對(duì)指標(biāo)和樣本進(jìn)行聚類,而且可以分析指標(biāo)和樣本的關(guān)系,這是因子分析和聚類分析都無(wú)法單獨(dú)實(shí)現(xiàn)的。對(duì)應(yīng)分析適于研究較多分類變量:多重對(duì)應(yīng)分析可以將多個(gè)分類變量的關(guān)聯(lián)在一張圖形中表現(xiàn)出來(lái),當(dāng)變量數(shù)較多時(shí),該優(yōu)勢(shì)非常明顯。當(dāng)分類變量的類別數(shù)越多時(shí),對(duì)應(yīng)分析圖形化結(jié)果的優(yōu)勢(shì)就越明顯。它省去了復(fù)雜的建模和檢驗(yàn)過(guò)程,可以直接觀察到最為主要的關(guān)聯(lián)特征。
對(duì)應(yīng)分析也存在自身的劣勢(shì):首先,對(duì)應(yīng)分析不能進(jìn)行具體聯(lián)系的檢驗(yàn):對(duì)應(yīng)分析在本質(zhì)上仍然只是一種統(tǒng)計(jì)描述方法,他無(wú)法對(duì)所觀察到的變量類別間的聯(lián)系進(jìn)行檢驗(yàn),從而在統(tǒng)計(jì)上加以確認(rèn)。因此,對(duì)應(yīng)分析在結(jié)果解釋上要小心,特別是多重對(duì)應(yīng)分析,事先一定要采用卡方檢驗(yàn)等統(tǒng)計(jì)方法進(jìn)行預(yù)分析,篩除掉實(shí)際上無(wú)聯(lián)系的變量。在得到圖形結(jié)果后也要將圖形和原始數(shù)據(jù)反復(fù)對(duì)照,以確保結(jié)論的正確性。其次,無(wú)法自動(dòng)判斷最佳維度數(shù):對(duì)應(yīng)分析只能根據(jù)研究者指定的數(shù)量進(jìn)行相應(yīng)維度的提取,而不能自動(dòng)判斷最合適的維度數(shù)。最后,分析結(jié)果對(duì)極端值敏感:由于對(duì)應(yīng)分析的第一步是對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,對(duì)于罕見(jiàn)類別或者小樣本,變換后非常容易出現(xiàn)極端值,這使得分析結(jié)果嚴(yán)重受這些類別的影響。
參考文獻(xiàn)
[1]中國(guó)統(tǒng)計(jì)年鑒2011,國(guó)家統(tǒng)計(jì)局出版
[2]何曉群.多元統(tǒng)計(jì)分析.中國(guó)人民大學(xué)出版社.2008(7):242-263.
[3]張文彤.SPSS統(tǒng)計(jì)分析高級(jí)教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區(qū)域經(jīng)濟(jì)發(fā)展的對(duì)應(yīng)分析[A].中國(guó)商界.2010年第七期.
[5]毛騰飛.中國(guó)城市基礎(chǔ)設(shè)施建設(shè)投融資模式創(chuàng)新研究[M].北京:中國(guó)社會(huì)科學(xué)出版社,2007:5-8.
[6]段娟,文余源.中國(guó)城市化進(jìn)程中基礎(chǔ)設(shè)施建設(shè)和管理的問(wèn)題與對(duì)策探討[J].云南地理環(huán)境研究,2007(1).
作者簡(jiǎn)介:霍煒紅(1986-),女,河北人,經(jīng)濟(jì)學(xué)碩士,研究方向:數(shù)據(jù)挖掘與抽樣統(tǒng)計(jì)。endprint