孟子健
摘要 本文選取了中國氣象科學中的一組數(shù)據(jù),采用可以區(qū)分不同氣候特征的8個指標,使用最短距離法來對主要城市進行聚類分析,確定了5類氣候分類,并對各類區(qū)域的氣候特點進行了解釋。再選擇幾個省份重新進行判別分析,并利用判別分析方法對聚類分析的評價結(jié)果進行比較,最終確定5類氣候區(qū)域。
關(guān)鍵詞 地理氣候 聚類分析 判別分析
中圖分類號:G642文獻標識碼:A
0 引言
氣候分類①是將全國氣候按某種標準劃分為若干類型的過程。決定各地氣候物理條件的因素主要指決定各地地理位置的諸要素,如緯度、高度、海拔分布等。此外,海流、盛行風也可作為氣候因素。
本文選取中國氣象科學數(shù)據(jù)共享服務(wù)網(wǎng)②中的一組數(shù)據(jù)集,采用年平均氣壓、年平均氣溫、年極端最高氣溫等8個指標,用最短距離法對重慶—沙坪壩、福建—福州、安徽—安慶等24個城市進行聚類分析,確定了5類氣候區(qū)域,并對各類區(qū)域的氣候特點進行分析,得出劃分結(jié)果與實際各城市氣候特點相符的結(jié)論;再從這24個城市中選擇幾個城市重新進行判別分析,并利用判別分析對聚類分析的評價結(jié)果進行檢驗,最終確定5類氣候分劃。
1 聚類分析的基本原理及應(yīng)用
1.1 聚類分析的基本原理
聚類分析是將數(shù)據(jù)所對應(yīng)的研究對象進行分類的統(tǒng)計方法。其基本原理是依樣品的屬性或特征,用數(shù)學方法定量地確定樣品間的親疏關(guān)系,再按其親疏程度劃分成不同的類,得出能反映個體間親疏關(guān)系的分類系統(tǒng)。
本文選用歐氏距離③系數(shù)作為統(tǒng)計量。其數(shù)學表達式為: =
其中為第個樣本第個因子的值;為第個樣本第個因子的值;為因子個數(shù)。
由于歐氏距離受量綱的影響,因此首先將數(shù)據(jù)標準化,公式為:
并采用最短距離法進行聚類分析,具體分析步驟④⑤如下:
(1)所有的樣本點各自為一類。計算樣本之間的距離,共有個,將計算結(jié)果排成距離矩陣:
(2)按最短距離逐步歸類。從矩陣表中選擇距離最短的兩個樣本歸并為一類。再將其組成新的序列,繼續(xù)計算新類同其他樣本的距離。依上述方法重復計算,每一次都按距離最短的兩個樣本組合并成新類或歸并到其他類,直到所有代表樣本連成一個完整的分類系統(tǒng)。
(3)畫出聚類分析圖。
1.2 聚類分析的應(yīng)用
按上述步驟得到的聚類結(jié)果及結(jié)果分析如下:
Ⅰ區(qū):德欽。云南氣候復雜,兼具低緯氣候、季風氣候、山原氣候的特點,主要特征表現(xiàn)為:氣候垂直變化明顯;年溫差小,日溫差大;降水充沛,干濕分明,分布不均。
Ⅱ區(qū):大柴旦。青海具有高原大陸性氣候,光照充足;冬寒夏涼,暖季短暫,冷季漫長;雨量偏少,干濕季分明。
Ⅲ區(qū):東方。海南最具熱帶海洋氣候特色,全年暖熱,雨量充沛,干濕季節(jié)明顯,常年風力較大,氣候資源多樣。
Ⅳ區(qū):成山頭、大連、阿巴嘎旗、富錦、長春、阿勒泰、敦煌、鹽池、盧氏、北京 、天津。以上地區(qū)位于長江以北,屬于溫帶地區(qū),具有溫帶海洋、溫帶季風、溫帶大陸等氣候特點。
Ⅴ區(qū):貴陽、鄂西、沙坪壩、安慶、東臺、上海、廣州、常德、福州、贛州。以上地區(qū)位于長江以南,普遍具有亞熱帶氣候特點。
顯然,這種聚類結(jié)果與現(xiàn)實中這些城市所屬的地理氣候大致是相同的,用聚類分析法將該組數(shù)據(jù)劃分成5類是符合實際意義的。
2 判別分析的基本原理及應(yīng)用
2.1 判別分析的基本原理
距離判別是最簡單、直觀的一種判別方法,由于在統(tǒng)計分析中有必要考慮隨機變量方差的信息,因此本文選用馬氏距離③。樣本與均值為,方差為的總體的馬氏距離為:
(, ) =
由于聚類分析結(jié)果為前三類各有一個城市,因此,本文只考慮Ⅳ區(qū)和Ⅴ區(qū),用已聚類得到的這兩類作為已知總體,選擇其中的幾個城市進行回代來驗證聚類結(jié)果的可信度。因此,本文考慮兩總體的距離判別問題,分兩種情況討論:兩總體協(xié)方差陣相同不同的情況。
設(shè)兩個總體為和,其均值向量分別為和,協(xié)方差陣分別為和,現(xiàn)在給一個樣本,要判斷來自哪一個總體。
(1)兩個總體的協(xié)方差矩陣相同時,即≠,==
2.2 判別分析的應(yīng)用
在聚類分析產(chǎn)生的第Ⅳ類和第Ⅴ類分別作為總體,來回判聚類結(jié)果中第Ⅳ類、第Ⅴ類的所有城市屬于哪一類總體,這屬于以上所介紹的兩個總體的距離判別問題。
其判別分析結(jié)果為:未作為判別總體的北京和天津?qū)儆诘冖纛?、贛州屬于第Ⅴ類,而作為判別總體的那18個城市在回判過程中仍然還屬于聚類過程中所屬的那一類,這種判別結(jié)果與現(xiàn)實中這些城市所屬的地理氣候大致相同,同時還與聚類分析的結(jié)果一致,進一步驗證了這8個指標變量的有效性。
3 結(jié)束語
通過上面的聚類分析和判別分析,根據(jù)各城市的主要指標,將某年全國主要城市的氣候標準值數(shù)據(jù)劃分為5類:Ⅰ Ⅴ類區(qū)。通過分析比較各類城市的氣候指標,可將全國各省的氣候類型進行劃分,并可以對全國其他地區(qū)的氣候類型進行推斷,進一步做出該城市的大致的所屬區(qū)域:長江以南或以北、溫帶或亞熱帶以及各種雨量或其他氣候特征。因此,可用這些氣候指標數(shù)據(jù),對某一省市進行地理區(qū)域劃分,通過該劃分進一步對不同地理區(qū)域的農(nóng)業(yè)發(fā)展、經(jīng)濟開發(fā)等各方面進行研究,推動我國各項事業(yè)的綜合發(fā)展。
基金項目:國家自然科學基金資助項目(項目編號:41071247)
注釋
① http://baike.baidu.com/view/746962.htm.
② http://cdc.cma.gov.cn/shishi/climate.jsp stprovid=%B1%B1%BE%A9.
③ 薛毅,陳立萍.統(tǒng)計建模與R軟件[M].北京:清華大學出版社,2011.
④ 劉蘊薰,楊秉賡,李惠明.聚類分析方法在農(nóng)業(yè)氣候區(qū)劃中的應(yīng)用[J].氣象,1981.10.
⑤ 高惠璇.實用統(tǒng)計方法與SAS系統(tǒng)[M].北京:清華大學出版社,2009.