史加榮,胡宇驕
(1.西安建筑科技大學(xué)理學(xué)院,陜西 西安 710055;2.省部共建西部綠色建筑國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710055)
氣候類(lèi)型對(duì)農(nóng)業(yè)生產(chǎn)和建筑能耗都有重要的影響[1]。根據(jù)現(xiàn)有氣候數(shù)據(jù)對(duì)不同氣候類(lèi)型進(jìn)行分類(lèi),可為農(nóng)業(yè)生產(chǎn)和建筑設(shè)計(jì)提供指導(dǎo)意義。由于氣候變量和分類(lèi)指標(biāo)存在多樣性,可以根據(jù)不同的分類(lèi)目的選取合適的分類(lèi)方法。中國(guó)民用建筑熱工設(shè)計(jì)規(guī)范提出了五種氣候類(lèi)型:嚴(yán)寒、寒冷、夏熱冬冷、溫和、夏熱冬暖[2]。
聚類(lèi)分析根據(jù)樣本間的相似性或差異性進(jìn)行分類(lèi),其中歸屬于同一類(lèi)的樣本具有相似的特征,屬于不同類(lèi)的樣本具有不同的特征[3]。聚類(lèi)方法可分為分層和劃分兩種,它們都需要事先給定聚類(lèi)的數(shù)目,并度量樣本之間的相似性或差異性[4]。楊博寧[5]采用k-mean聚類(lèi)算法對(duì)加密云數(shù)據(jù)進(jìn)行預(yù)處理,從而提高搜索效率。高書(shū)強(qiáng)等[6]提出一種改進(jìn)的譜聚類(lèi)算法,用于對(duì)電力數(shù)據(jù)的異常檢測(cè)。
矩陣的低秩表示(Low-Rank Representation, LRR)將數(shù)據(jù)樣例表示為基的線(xiàn)性組合,并對(duì)表示系數(shù)矩陣強(qiáng)加低秩約束[7]。Yin等[8]考慮數(shù)據(jù)中非線(xiàn)性結(jié)構(gòu)影響,提出了一種拉普拉斯正則化低秩表示方法。Elhamifar等[9]提出稀疏子空間聚類(lèi)(Sparse Subspace Clustering, SSC)。王衛(wèi)衛(wèi)等[10]對(duì)SSC方法進(jìn)行了綜述。Peng等[11]提出了一種基于稀疏高維數(shù)據(jù)的子空間聚類(lèi)算法。Abcavisani等[12]提出了一種基于SSC和LRR的子空間聚類(lèi)的多模態(tài)擴(kuò)展算法。Houthuys等[13]給出了一種多數(shù)據(jù)源數(shù)據(jù)聚合的方法,使用來(lái)自多個(gè)視角的互補(bǔ)信息來(lái)提高聚類(lèi)性能。Brbic等[14]提出了多視角低秩稀疏子空間聚類(lèi)方法,同時(shí)考慮多個(gè)因素對(duì)聚類(lèi)結(jié)果的綜合影響。Shi等[15]設(shè)計(jì)了一種新的中國(guó)氣候區(qū)劃方法,該方法結(jié)合了SSC和k近鄰的優(yōu)點(diǎn)。
文獻(xiàn)[15]對(duì)每個(gè)氣象要素構(gòu)建了相應(yīng)的相似度矩陣,但未考慮它們之間的關(guān)系。采用多視角低秩稀疏子空間聚類(lèi)方法,建立一個(gè)集成的相似度矩陣,進(jìn)而實(shí)現(xiàn)對(duì)中國(guó)氣候類(lèi)型的更加準(zhǔn)確的分區(qū)。
皮爾遜相關(guān)系數(shù)用于度量?jī)勺兞恐g的線(xiàn)性相關(guān)程度,通常對(duì)非線(xiàn)性關(guān)系無(wú)效。為此,采用了最大信息系數(shù)(Maximal Information Coefficient, MIC)。MIC是Reshef等[16]在2011年提出的用于描述變量之間相關(guān)程度的方法,其基本思想如下:對(duì)兩個(gè)變量構(gòu)成的散點(diǎn)圖做網(wǎng)格劃分,若它們之間存在某種相關(guān)性,則散點(diǎn)在網(wǎng)格中的分布能夠反映其關(guān)聯(lián)性。與傳統(tǒng)方法相比,MIC不僅可以描述變量之間的線(xiàn)性關(guān)系,還可以描述變量之間的非線(xiàn)性關(guān)系。
給定有序?qū)?gòu)成的有限集合D?R2,將每個(gè)元素的第1個(gè)分量劃分成x個(gè)取值區(qū)間,第2個(gè)分量劃分成y個(gè)取值區(qū)間,因此得到x×y的網(wǎng)格G。設(shè)DG為D中的點(diǎn)在網(wǎng)格G上的分布,其互信息值記為I(DG)。
對(duì)于集合D,當(dāng)正整數(shù)x和y給定時(shí),定義最大互信息
(1)
當(dāng)x和y取遍所有正整數(shù)時(shí),將I*(D,x,y)標(biāo)準(zhǔn)化可構(gòu)成無(wú)窮維矩陣M(D),其第x行第y列元素為
(2)
顯然,M(D)x,y∈[0,1]。于是最大信息系數(shù)的定義為
(3)
其中,B(N)=N0.6為網(wǎng)格劃分上限,N為D的元素?cái)?shù)目。MIC具有以下性質(zhì):當(dāng)兩個(gè)變量之間存在無(wú)噪聲且確定的函數(shù)關(guān)系時(shí),MIC依概率收斂到1;當(dāng)兩個(gè)變量相互獨(dú)立時(shí),MIC趨向于0。
考慮N個(gè)樣本構(gòu)成的矩陣X,LRR采用自表示方式,即X=XC,其中C∈RN×N為線(xiàn)性表示系數(shù)矩陣且是近似低秩的。為了求解C,建立下列最優(yōu)化模型
(4)
(5)
與LRR類(lèi)似,SSC也使用了數(shù)據(jù)集的自表示形式,但它要求系數(shù)矩陣C是稀疏的。在數(shù)學(xué)上,SSC可表示為以下最小化模型
(6)
s.t.diag(C)=0
(7)
將低秩約束與稀疏約束相結(jié)合,得到低秩稀疏子空間聚類(lèi)(Low-Rank Sparse Subspace Clustering,LRSSC)[17]。下面給出LRSSC的優(yōu)化模型
s.t.X=XC, diag(C)=0
(8)
當(dāng)數(shù)據(jù)含有噪聲時(shí),需要求解的模型變?yōu)?/p>
s.t.diag(C)=0
(9)
其中βi>0為折中系數(shù),i=1,2。
MLRSSC對(duì)應(yīng)的最優(yōu)化模型為
s.t.X(i)=X(i)C(i),
diag(C(i))=0,i=1,…,m
(10)
其中λ(i)>0為懲罰系數(shù)。
對(duì)相似度矩陣A進(jìn)行譜聚類(lèi),從而得到原始數(shù)據(jù)集在m個(gè)視角下的聚類(lèi)結(jié)果。譜聚類(lèi)的基本步驟如下:先構(gòu)建N階對(duì)角矩陣D,其第i個(gè)對(duì)角線(xiàn)元素為A的第i行元素之和;再計(jì)算拉普拉斯矩陣L=D-1/2AD-1/2;最后對(duì)L的若干最大特征值對(duì)應(yīng)的特征向量,采用k均值聚類(lèi)。與傳統(tǒng)的k均值聚類(lèi)方法相比,譜聚類(lèi)方法對(duì)噪聲和異常值具有較強(qiáng)的魯棒性。為了在一定程度上減輕k均值聚類(lèi)結(jié)果的隨機(jī)性,將k均值聚類(lèi)算法重復(fù)20次,并根據(jù)最優(yōu)的目標(biāo)函數(shù)來(lái)確定實(shí)驗(yàn)結(jié)果。
為了獲得更加準(zhǔn)確的氣候分區(qū),需要綜合考慮多種氣象要素。本節(jié)使用MLRSSC對(duì)中國(guó)氣候進(jìn)行分區(qū)。首先對(duì)各氣象要素進(jìn)行相關(guān)性分析,再給出參數(shù)設(shè)置與相似度矩陣的可視化,最后分別將基于線(xiàn)性核函數(shù)和高斯核函數(shù)的MLRSSC應(yīng)用到氣候區(qū)劃中。
圖1 中國(guó)661個(gè)氣象臺(tái)站的空間分布
選取中國(guó)661個(gè)氣象臺(tái)站在2004-2013年的氣象數(shù)據(jù),資料來(lái)源于中國(guó)國(guó)家氣候中心。各臺(tái)站點(diǎn)的空間分布如圖1所示,其中各站點(diǎn)的顏色表示海拔高度,單位為1m??紤]以下5個(gè)氣象元素:相對(duì)濕度(%)、大氣壓(10pa)、日照時(shí)數(shù)(0.1h)、日平均溫度(0.1℃)、氣溫日較差 (0.1℃)。對(duì)于缺失、缺測(cè)或異常數(shù)據(jù),可以按照矩陣分解的方法進(jìn)行推測(cè)[20]。為減少隨機(jī)波動(dòng)的不利影響,將10年的日值氣象數(shù)據(jù)按照連續(xù)10天取平均。因此,每個(gè)臺(tái)站的某氣象要素可表示為365維的列向量,并對(duì)其進(jìn)行區(qū)間[-1,1]上的規(guī)范化處理。
根據(jù)661個(gè)氣象臺(tái)站在2004-2013年的日值氣象數(shù)據(jù),計(jì)算相對(duì)濕度、大氣壓、日照時(shí)數(shù)、日平均溫度和氣溫日較差5個(gè)氣象要素兩兩之間的相關(guān)性。對(duì)于某氣象要素,所有臺(tái)站的數(shù)據(jù)形成365×661=241265維的向量。最終得到的最大信息系數(shù)(MIC)如表1所示。
表1 氣象要素間的最大信息系數(shù)
由表1可知:相對(duì)濕度、日照時(shí)數(shù)和氣溫日較差兩兩之間的MIC介于0.3206與0.3430之間,故存在較弱的相關(guān)性;其它氣象要素對(duì)的MIC均小于等于0.2454,它們之間的相關(guān)性微弱;相對(duì)濕度與日照時(shí)數(shù)的相關(guān)性最大,這可能是由于它們之間存在大致反比的關(guān)系;日照時(shí)數(shù)與大氣壓的MIC為0.0932,即它們之間幾乎相互獨(dú)立。綜上,選取的5個(gè)氣候要素之間不存在較強(qiáng)的相關(guān)性,因此可以根據(jù)它們的觀測(cè)值執(zhí)行多視角聚類(lèi)。
在高斯核函數(shù)中,取σ=1。對(duì)于最優(yōu)化模型(10),取低秩系數(shù)β1=0.3,稀疏系數(shù)β2=0.7,一致性系數(shù)λ(i)=0.3,i=1,2,3,4,5。置交替方向乘子法的最大迭代次數(shù)為300,收斂閾值設(shè)置為10-3。使用一致率[15]來(lái)評(píng)價(jià)兩種分類(lèi)方法的相容性,其定義如下
(11)
圖2繪出了基于高斯核函數(shù)的相似度矩陣,其中x軸和y軸分別代表氣象臺(tái)站序號(hào)。從圖2可以看出:相似度矩陣滿(mǎn)足稀疏性,從而有利于分區(qū);大部分非零元素集中在對(duì)角線(xiàn)附近,這是因?yàn)橄噜彋庀笈_(tái)站序號(hào)接近且具有相似的氣候特征;存在明顯的分塊現(xiàn)象,這在一定程度上反映了相似度矩陣是近似低秩的。
圖2 相似度矩陣可視化
分別在線(xiàn)性核函數(shù)和高斯核函數(shù)下,求解相似度矩陣A,并比較k∈{5,7,9}三種情形下,運(yùn)用譜聚類(lèi)方法與k均值聚類(lèi)方法分區(qū)結(jié)果的異同。
5.3.1 k=5
將661個(gè)氣象臺(tái)站分成5類(lèi),運(yùn)用譜聚類(lèi)方法時(shí),基于線(xiàn)性核函數(shù)和高斯核函數(shù)的MLRSSC方法得到的分類(lèi)結(jié)果相同,即一致率為1。圖3繪出了k=5時(shí)的分區(qū)結(jié)果,其中1區(qū)到5區(qū)的臺(tái)站數(shù)目分別為127、111、113、185、125。由圖3可以看出:3區(qū)和5區(qū)對(duì)應(yīng)嚴(yán)寒地區(qū),1區(qū)包含寒冷地區(qū)和夏熱冬冷地區(qū),2區(qū)包含寒冷地區(qū)和溫和地區(qū),4區(qū)包含夏熱冬冷與夏熱冬暖地區(qū)。
圖3 k=5時(shí)基于譜聚類(lèi)的氣候分區(qū)
圖4 k=5時(shí)基于k均值聚類(lèi)的氣候分區(qū)
將每個(gè)氣象臺(tái)站的5組規(guī)范化后的氣象數(shù)據(jù)拼接成一個(gè)新的高維向量,并對(duì)處理過(guò)的661個(gè)向量直接運(yùn)用k均值聚類(lèi),分類(lèi)結(jié)果如圖4所示。在圖4中,1區(qū)對(duì)應(yīng)嚴(yán)寒地區(qū),2區(qū)包含溫和地區(qū)和夏熱冬冷地區(qū),3區(qū)包含夏熱冬冷地區(qū)和夏熱冬暖地區(qū),4區(qū)包含嚴(yán)寒地區(qū)和寒冷地區(qū),5區(qū)對(duì)應(yīng)寒冷地區(qū)。對(duì)比圖3和圖4可以發(fā)現(xiàn):當(dāng)氣候分區(qū)數(shù)k=5時(shí),直接采取k均值聚類(lèi)方法進(jìn)行氣候分區(qū)時(shí),各氣候區(qū)無(wú)明顯邊界。
5.3.2 k=7
對(duì)于k=7,圖5繪出了使用譜聚類(lèi)方法時(shí)兩種核函數(shù)的分區(qū)結(jié)果。MLRSSC方法將中國(guó)劃分為7個(gè)氣候區(qū),且邊界較為明顯。對(duì)于線(xiàn)性核函數(shù),1區(qū)到7區(qū)的臺(tái)站數(shù)目分別為71、115、116、99、91、61、108;對(duì)于高斯核函數(shù),7個(gè)區(qū)的臺(tái)站數(shù)目分別為76、107、81、114、95、76、112。兩種核函數(shù)的兩種分類(lèi)結(jié)果具有較高的一致性,它們的一致率為0.8805。從圖5可以看出:1區(qū)和4區(qū)對(duì)應(yīng)寒冷地區(qū),2區(qū)對(duì)應(yīng)夏熱冬冷地區(qū),3區(qū)和7區(qū)對(duì)應(yīng)嚴(yán)寒地區(qū),5區(qū)對(duì)應(yīng)夏熱冬暖地區(qū),6區(qū)對(duì)應(yīng)溫和地區(qū)。
圖5 k=7時(shí)基于譜聚類(lèi)的氣候分區(qū)
圖6 k=7時(shí)基于k均值聚類(lèi)的氣候分區(qū)
下面考慮k=7時(shí)直接采取k均值聚類(lèi)進(jìn)行分區(qū),結(jié)果如圖6所示。在圖6中,1區(qū)、2區(qū)和7區(qū)對(duì)應(yīng)嚴(yán)寒地區(qū), 3區(qū)包含溫和地區(qū)和夏熱冬冷地區(qū),4區(qū)對(duì)應(yīng)寒冷地區(qū), 5區(qū)包含夏熱冬冷地區(qū)和夏熱冬暖地區(qū),6區(qū)對(duì)應(yīng)寒冷地區(qū)。對(duì)比圖5和圖6可以發(fā)現(xiàn), k均值聚類(lèi)方法未劃分出夏熱冬冷地區(qū)與夏熱冬暖地區(qū),且夏熱冬冷地區(qū)與溫和地區(qū)無(wú)明顯邊界。
5.3.3 k=9
當(dāng)k=9時(shí),使用線(xiàn)性核函數(shù),1區(qū)到9區(qū)的氣象臺(tái)站數(shù)目分別為74、43、96、65、89、78、70、73、73;使用高斯核函數(shù),9個(gè)區(qū)對(duì)應(yīng)的臺(tái)站數(shù)目分別為73、43、94、66、89、78、72、74、72。計(jì)算得到兩種方法的一致率為0.9894,說(shuō)明它們的分類(lèi)結(jié)果具有非常高的一致性。當(dāng)采用譜聚類(lèi)方法時(shí),分區(qū)結(jié)果如圖7所示。圖7繪出了MLRSSC方法將661個(gè)氣象臺(tái)站劃分為9個(gè)區(qū)域的詳細(xì)結(jié)果,可以看出:1區(qū)和9區(qū)對(duì)應(yīng)夏熱冬冷地區(qū), 2區(qū)對(duì)應(yīng)溫和地區(qū),3區(qū)、4區(qū)和7區(qū)對(duì)應(yīng)寒冷地區(qū), 5區(qū)和8區(qū)對(duì)應(yīng)嚴(yán)寒地區(qū),6區(qū)對(duì)應(yīng)夏熱冬暖地區(qū)。
圖7 k=9時(shí)基于譜聚類(lèi)的氣候分區(qū)
圖8給出了k=9時(shí)使用k均值聚類(lèi)的分區(qū)結(jié)果,其中1區(qū)包含夏熱冬冷地區(qū)和夏熱冬暖地區(qū),2區(qū)、4區(qū)、5區(qū)和7區(qū)對(duì)應(yīng)寒冷地區(qū),3區(qū)、6區(qū)和8區(qū)對(duì)應(yīng)嚴(yán)寒地區(qū),9區(qū)包含夏熱冬冷地區(qū)和溫和地區(qū)。對(duì)比圖7和圖8可以發(fā)現(xiàn),當(dāng)氣候分區(qū)數(shù)k=9時(shí),k均值聚類(lèi)在各氣候區(qū)的邊界處有較多誤分點(diǎn),且對(duì)夏熱冬冷地區(qū)和夏熱冬暖地區(qū)未能進(jìn)行劃分。
通過(guò)以上3組對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),對(duì)氣象數(shù)據(jù)直接進(jìn)行k均值聚類(lèi)時(shí),劃分的各氣候區(qū)無(wú)明顯邊界,且存在大量誤分點(diǎn),故基于譜聚類(lèi)的分區(qū)結(jié)果比基于k均值聚類(lèi)的結(jié)果更合理。
圖8 k=9時(shí)基于k均值聚類(lèi)的氣候分區(qū)
采用多視角低秩稀疏子空間聚類(lèi)方法對(duì)中國(guó)氣候分類(lèi)進(jìn)行了研究。首先通過(guò)最大信息系數(shù)對(duì)5個(gè)氣象要素進(jìn)行了相關(guān)分析,結(jié)果表明各氣候要素之間不存在較強(qiáng)的相關(guān)性。然后將所提方法應(yīng)用于中國(guó)氣候分類(lèi),并通過(guò)與中國(guó)建筑氣候區(qū)劃進(jìn)行對(duì)比,說(shuō)明分區(qū)結(jié)果的合理性和可靠性。在今后的研究中,下面幾個(gè)方向值得關(guān)注:在集成相似度矩陣的過(guò)程中,考慮各種氣象要素的重要性;拓展氣象要素范圍,補(bǔ)充風(fēng)速和太陽(yáng)輻射等要素,以滿(mǎn)足建筑節(jié)能設(shè)計(jì)的需求。