王 鶴,曾永年
1. 中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南 長沙 410083; 2. 中南大學(xué)空間信息技術(shù)與可持續(xù)發(fā)展研究中心,湖南 長沙 410083
進(jìn)入21世紀(jì),我國的城市化水平得到大幅度的提高,目前已進(jìn)入城鎮(zhèn)化快速發(fā)展時期。城市化的快速發(fā)展在帶來巨大經(jīng)濟(jì)、社會效益的同時,也引發(fā)了社會與環(huán)境的問題。城市生活用地、工業(yè)生產(chǎn)用地的擴(kuò)展與農(nóng)業(yè)生產(chǎn)用地、生態(tài)用地的矛盾日益突出[1-2],城市作為對生態(tài)環(huán)境影響最為深刻的區(qū)域,城市化過程對區(qū)域生態(tài)環(huán)境產(chǎn)生很大的影響[3]。為促進(jìn)城市化過程的健康、可持續(xù)發(fā)展,城市土地資源的科學(xué)規(guī)劃與管理就顯得尤為重要。而城市空間結(jié)構(gòu)及其擴(kuò)展的科學(xué)模擬與預(yù)測是城市科學(xué)管理與規(guī)劃的重要前提。為此,城市空間擴(kuò)展過程的模擬與預(yù)測成為當(dāng)前研究熱點之一。
元胞自動機(jī)(CA)模型作為一種時間和空間都離散的網(wǎng)格動力型模型,能基于局部行為模擬復(fù)雜的全局變化。因此,CA模型具有模擬地理復(fù)雜系統(tǒng)演化的能力[4]。利用CA模型能夠顧及城市區(qū)域宏觀自然經(jīng)濟(jì)環(huán)境和土地利用局部變化[5],從而實現(xiàn)對復(fù)雜城市化過程的模擬與預(yù)測。
在CA模型的構(gòu)建與城市擴(kuò)展模擬應(yīng)用中,轉(zhuǎn)換規(guī)則的確定是CA模型的關(guān)鍵,在CA模型中,有許多代表著經(jīng)濟(jì)或自然約束的變量,這些變量對應(yīng)的參數(shù)代表著對應(yīng)變量的貢獻(xiàn)值,如何求取這些參數(shù),是CA模型的難點[6-13]。邏輯回歸較早的應(yīng)用于元胞轉(zhuǎn)換規(guī)則的提取,文獻(xiàn)[14]基于線性Logistic回歸獲得CA模型轉(zhuǎn)換規(guī)則并成功應(yīng)用于廣州城市的擴(kuò)展模擬;文獻(xiàn)[15]將邏輯回歸、馬爾科夫鏈和CA模型結(jié)合,有效地提高了模擬的精度;文獻(xiàn)[16]利用邏輯回歸探索了城市擴(kuò)展驅(qū)動力對于城市發(fā)展的影響,以沈陽市1997—2010年城市建成區(qū)變化作為因變量,Logistic回歸分析得到影響沈陽城市擴(kuò)展的前幾位驅(qū)動因子依次是開發(fā)區(qū)、距1997年城區(qū)距離、DEM、距高速公路和鐵路距離、人口密度。已有研究表明邏輯回歸較多元分析更能充分的揭示城市擴(kuò)展規(guī)律,但在處理復(fù)雜的變量關(guān)系時難以表達(dá)研究區(qū)域的非線性變化。為了有效解決復(fù)雜城市系統(tǒng)模擬的問題,文獻(xiàn)[17]將神經(jīng)網(wǎng)絡(luò)引入CA模型,利用神經(jīng)網(wǎng)絡(luò)獲取土地利用轉(zhuǎn)換規(guī)則,獲得了比邏輯回歸更高的模擬精度;文獻(xiàn)[18]將神經(jīng)網(wǎng)絡(luò)與元胞自動機(jī)結(jié)合,從不同時相的遙感數(shù)據(jù)中挖掘城市擴(kuò)展的演變規(guī)律,并對義烏市作了實證分析和模擬預(yù)測,與同期義烏市的發(fā)展基本吻合;文獻(xiàn)[19]將神經(jīng)網(wǎng)絡(luò)與CA模型結(jié)合獲取了理想的模擬結(jié)果。然而,已有的研究表明神經(jīng)網(wǎng)絡(luò)屬于黑箱操作,且存在容易陷入局部最優(yōu)解和收斂慢的問題。為此,將智能算法與CA模型結(jié)合的研究成為當(dāng)前研究的熱點之一,文獻(xiàn)[20—21]提出了將蟻群智能算法和遺傳算法等智能算法和元胞自動機(jī)相結(jié)合的模型,成功地應(yīng)用于城市的模擬并取得了較好的結(jié)果;文獻(xiàn)[22]利用多智能體與元胞自動機(jī)相結(jié)合的方法并成功模擬了上海市2005年城市擴(kuò)展動態(tài);文獻(xiàn)[23]構(gòu)建了一個基于博弈論的Cellular模型,并模擬了武漢市城市的發(fā)展進(jìn)程,研究表明城市開發(fā)進(jìn)程中不同利益相關(guān)者的權(quán)益沖突可以用博弈論來解決,相比于純粹的CA模型,基于博弈論的Cellular模型擁有更高的模擬精度。智能算法所提取的規(guī)則不需要數(shù)學(xué)式表達(dá),能方便地描述土地利用復(fù)雜的關(guān)系。然而,利用智能算法提取轉(zhuǎn)換規(guī)則的過程相對復(fù)雜,算法復(fù)雜度較高,從而影響CA模型應(yīng)有的簡潔性。因此,構(gòu)建結(jié)構(gòu)簡單,又能充分挖掘元胞轉(zhuǎn)換規(guī)律的城市擴(kuò)展模型是值得進(jìn)一步探討的問題。
近年來,在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展的極限學(xué)習(xí)機(jī)能夠較好地解決神經(jīng)網(wǎng)絡(luò)算法速度慢、易陷入局部最優(yōu)解等問題[24-25]。相比于智能算法,極限學(xué)習(xí)機(jī)的結(jié)構(gòu)更為簡單,能有效降低模型的復(fù)雜度;相比于神經(jīng)網(wǎng)絡(luò),極限學(xué)習(xí)機(jī)不需要迭代求解,運行速度高且不易陷于局部最優(yōu)解。因此,本文基于極限學(xué)習(xí)機(jī),構(gòu)建城市擴(kuò)展的CA模型(ELM-CA)。在城市元胞結(jié)構(gòu)設(shè)計的基礎(chǔ)上,基于極限學(xué)習(xí)機(jī)自學(xué)習(xí)特性,有效挖掘城市空間擴(kuò)展轉(zhuǎn)換規(guī)則,以期為城市空間擴(kuò)展模擬與預(yù)測提供更為準(zhǔn)確、客觀的技術(shù)方法。
極限學(xué)習(xí)機(jī)是一種簡單有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,能逼近復(fù)雜的非線性函數(shù),具有泛化性能好、學(xué)習(xí)速度快等特點[26]。
極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其網(wǎng)絡(luò)模型分為輸入層、隱藏層和輸出層。輸入層有n個輸入神經(jīng)元,對應(yīng)著輸入數(shù)據(jù)的n個屬性值;隱藏層有L個隱藏神經(jīng)單元;輸出層有m個輸出神經(jīng)單元,對應(yīng)著數(shù)據(jù)的m個標(biāo)簽。Wij是第i個隱藏層神經(jīng)單元與第j個輸入層神經(jīng)單元的鏈接權(quán)值,bi是第i個隱藏層神經(jīng)單元的偏置值,βij是第i個隱藏層神經(jīng)單元與第j個輸出層神經(jīng)單元的鏈接權(quán)值。假設(shè)有N個不同的樣本(Xi,Yi),其中i=1,2,…,N,Xi是屬性數(shù)據(jù),Xi=[xi1xi2…xin],Yi是標(biāo)簽,Yi=[yi1yi2…yim]。極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)可以表示為
(1)
式中,g(·)為激勵函數(shù),在極限學(xué)習(xí)機(jī)中激勵函數(shù)要求無限可微。本文選擇Sigmoid函數(shù),上述方程用矩陣可以表示為
Hβ=Y
(2)
式中
(3)
(4)
圖1 極限學(xué)習(xí)機(jī)結(jié)構(gòu)網(wǎng)絡(luò)Fig.1 The structure of ELM
在極限學(xué)習(xí)機(jī)中,權(quán)值Wij和偏置bi被隨機(jī)確定,所以上述矩陣方程中矩陣H是確定的,只有β是未知量。因此,極限學(xué)習(xí)機(jī)中參數(shù)的求解轉(zhuǎn)換為解方程組Hβ=Y,可以得出
(5)
式中,Ht是H的Moore-Penrose廣義逆,經(jīng)過證明得到的解是唯一的??梢钥闯鰳O限學(xué)習(xí)機(jī)的求解不需要迭代,所以非常高效,而且克服了傳統(tǒng)基于梯度法所帶來的局部最小解與過擬合的弊端。
1.2.1 元胞狀態(tài)及轉(zhuǎn)換概率
以30 m×30 m分辨率的柵格空間作為元胞空間,元胞狀態(tài)設(shè)置為:城市用地、耕地、林地、水域、裸地。在元胞的轉(zhuǎn)換過程中,作如下假定:河流、湖泊等水域不發(fā)生轉(zhuǎn)化,城市用地不向非城市用地轉(zhuǎn)化。
非城市用地轉(zhuǎn)換為城市用地的概率(P)一般取決于元胞轉(zhuǎn)換為城市用地的潛力(PELM)、元胞鄰域影響(Pneighbor)、隨機(jī)因素(Prandom)影響。為此,本模型中元胞轉(zhuǎn)換概率(P)可表達(dá)為
P=PELM·Pneighbor·Prandom
(6)
元胞轉(zhuǎn)換潛力(PELM):極限學(xué)習(xí)機(jī)能夠很好解決復(fù)雜的非線性問題,非常適合地理等復(fù)雜現(xiàn)象。因此,本文利用極限學(xué)習(xí)機(jī)分別提取各主要非城市用地(耕地、林地、裸地)元胞轉(zhuǎn)換為城市用地的潛力(PELM)。
每一個模擬的元胞單元有n個驅(qū)動因子(空間距離變量、自然屬性要素),對應(yīng)于輸入層的n個神經(jīng)單元,而極限學(xué)習(xí)機(jī)的輸出層對應(yīng)于該元胞單元轉(zhuǎn)化為城市的潛力。由式(1)可得,元胞的轉(zhuǎn)化潛力PELM為
(7)
為了充分考慮不同用地類型轉(zhuǎn)化為城市用地的差異,按主要非城市用地(耕地、林地、裸地)的歷史數(shù)據(jù)分別采樣,獲得不同用地類型轉(zhuǎn)換為城市用地的數(shù)據(jù),并分別計算出各用地類型對應(yīng)的模型參數(shù),這樣在計算中心元胞城市化潛力的時候,就用與中心元胞用地類型相同的模型參數(shù),這樣就可以充分考慮不同用地類型帶來的影響。
鄰域影響(Pneighbor):Pneighbor是鄰域城市元胞對中心元胞城市化的貢獻(xiàn)值,Pneighbor由公式得出
(8)
關(guān)于中心元胞鄰域的定義,本研究采用擴(kuò)展摩爾型,其中con是條件函數(shù),Sij是該元胞的狀態(tài)。
隨機(jī)因素影響(Prandom):Prandom是0~1之間的隨機(jī)值,用來模擬實際中的隨機(jī)因素的影響,使模擬結(jié)果更加符合真實情況。
1.2.2 模型流程
CA模型通過多次的循環(huán)迭代,將鄰域元胞的影響納入模型,體現(xiàn)出元胞間局部相互作用,因為每次循環(huán)城市用地都會增加,所以鄰域影響每次循環(huán)后也會改變。假設(shè)從初始年份到目標(biāo)年份,城市元胞數(shù)目增加數(shù)量Q,總的循環(huán)次數(shù)為N,則每次循環(huán)增加的城市元胞個數(shù)為Q/N,模型的運行過程如下:
(1) 首先利用訓(xùn)練好的極限學(xué)習(xí)機(jī)根據(jù)驅(qū)動因子計算出每個元胞的轉(zhuǎn)換潛力值(PELM),基于初始年份的城市用地空間分布計算出鄰域影響值(Pneighbor),隨機(jī)生成隨機(jī)因素影響值(Prandom),然后將三者相乘得到轉(zhuǎn)化概率(P)。根據(jù)轉(zhuǎn)化概率的大小,選擇前Q/N個元胞作為新的城市元胞。
(2) 根據(jù)新的城市用地空間分布計算新的鄰域影響值(Pneighbor),隨機(jī)生成新的隨機(jī)因素影響值(Prandom),轉(zhuǎn)換潛力值(PELM)不變。然后根據(jù)得到的新的轉(zhuǎn)化概率(P),按大小選擇前Q/N個元胞作為新一輪迭代增加的城市元胞。
(3) 重復(fù)第(2)步,直到總共新增的城市元胞等于Q,或者循環(huán)次數(shù)達(dá)到N。
模型運行的流程如圖2所示。
圖2 模型運行流程Fig.2 The flow chart of the model
本文的研究區(qū)域是長沙市主城區(qū)。長沙市位于中國東南部,湘江下游地區(qū),是湖南省政治、經(jīng)濟(jì)、文化中心。地理區(qū)域為111°53′E—114°15′E,27°51′N—28°41′N。長沙市氣候溫和、降雨充沛,屬于亞熱帶季風(fēng)性氣候。長沙市地形起伏大,東西部山地環(huán)繞,中部較為緩和;地貌類型多樣,以山地、丘陵、平原為主;土壤以紅壤和水稻土為主,適合多種農(nóng)作物生長。試驗區(qū)如圖3所示。
利用2006、2010年兩個時相的LandsatTM遙感影像監(jiān)督分類得到的土地利用數(shù)據(jù),該土地利用數(shù)據(jù)中將土地利用類型劃分為城市用地、耕地、林地、水域和裸地。兩期遙感影像的分類精度都達(dá)到80%以上,滿足模擬試驗的要求。本文試驗使用的交通道路數(shù)據(jù)為1∶400 000的湖南省城市電子地圖(2006年),DEM數(shù)據(jù)來源于中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心國際科學(xué)數(shù)據(jù)鏡像網(wǎng)站。
圖3 試驗區(qū)示意圖Fig.3 Location of the research area
為了確定城市的擴(kuò)展因子對中心元胞城市化潛力的影響大小,本模型選擇了空間距離、自然屬性兩大類城市擴(kuò)展驅(qū)動因子(表1)作為極限學(xué)習(xí)機(jī)的輸入變量,各空間距離變量利用ARCGIS軟件中的“距離分析”工具獲得;自然屬性變量中的坡度數(shù)據(jù)基于DEM數(shù)據(jù),利用ARCGIS軟件中的“坡度”計算模塊獲得;地形起伏度數(shù)據(jù)基于DEM數(shù)據(jù),利用式(9)通過移動網(wǎng)格計算獲得
R=H+[ΔH×(1-S/A)]
(9)
式中,R為中心單元的地形起伏度;H為網(wǎng)格內(nèi)的平均高程;ΔH為網(wǎng)格內(nèi)的高差;S為網(wǎng)格內(nèi)的平地面積;A為網(wǎng)格面積。
表1 城市擴(kuò)展驅(qū)動因子
在輸入極限學(xué)習(xí)機(jī)之前,對上述驅(qū)動因子進(jìn)行歸一化處理,以消除量綱的影響,同時也加快模型的訓(xùn)練速度。
為了構(gòu)建ELM-CA模型,首先,基于歷史數(shù)據(jù)對極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練,將2006—2010年期間轉(zhuǎn)變?yōu)槌鞘杏玫氐脑幋a為1,沒有發(fā)生轉(zhuǎn)變的元胞編碼為0,作為模型預(yù)測的目標(biāo)變量。其次,利用隨機(jī)分層采樣的方法,從轉(zhuǎn)變?yōu)槌鞘杏玫氐脑蜎]有轉(zhuǎn)變?yōu)槌鞘杏玫氐脑须S機(jī)選擇20 000個元胞作為樣本,獲取這些樣本對應(yīng)的歸一化處理后的驅(qū)動因子和目標(biāo)變量,由此構(gòu)成樣本數(shù)據(jù)集。然后,把樣本數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),比例約為7∶3,訓(xùn)練數(shù)據(jù)用于訓(xùn)練模型獲取學(xué)習(xí)器參數(shù),測試數(shù)據(jù)用于測試所訓(xùn)練的學(xué)習(xí)器的泛化能力。
極限學(xué)習(xí)機(jī)有兩個比較重要的參數(shù)。一個參數(shù)是隱藏層單元個數(shù),該參數(shù)決定了學(xué)習(xí)器的復(fù)雜度,隱藏層單元個數(shù)越多,學(xué)習(xí)器的復(fù)雜度就越高,也就能更有效地捕捉數(shù)據(jù)所蘊含的信息;但隱藏層單元數(shù)越多,就越容易受噪聲的影響,從而增加過擬合的風(fēng)險。如圖4所示,可以看出隨著隱藏層單元個數(shù)的增加,訓(xùn)練集和測試集的精度不斷增高,但增高的幅度越來越小,綜合考慮計算機(jī)運算性能和試驗精度,本文選取900作為隱藏層單元個數(shù)。另一個參數(shù)是極限學(xué)習(xí)機(jī)的正則化項系數(shù)λ,該參數(shù)可以降低模型的過擬合程度。但從圖4中可以看出學(xué)習(xí)器并沒有發(fā)生過擬合,所以λ設(shè)置為0.000 1。本文選用的驅(qū)動因子有12個,目標(biāo)變量是取值為0或1的二值變量,由此確定極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)結(jié)構(gòu)是輸入層為12個單元,隱藏層900個單元,輸出層1個單元,正則化系數(shù)λ設(shè)置為0.000 1。
圖4 隱層單元個數(shù)與精度的關(guān)系Fig.4 Relationship between number of hidden layer units and accuracy
作為對比,本文也用同一批數(shù)據(jù)對邏輯回歸和神經(jīng)網(wǎng)絡(luò)(單隱層)進(jìn)行訓(xùn)練。表2是各學(xué)習(xí)器在訓(xùn)練集上耗費的訓(xùn)練時間以及在測試集上的總體精度和AUC指標(biāo)。從訓(xùn)練時間可以看出邏輯回歸的平均用時最短,因為其模型的復(fù)雜度最低,而極限學(xué)習(xí)機(jī)的訓(xùn)練時間明顯低于同為單隱層的神經(jīng)網(wǎng)絡(luò),體現(xiàn)了極限學(xué)習(xí)機(jī)在訓(xùn)練速度上的優(yōu)越性。從整體精度上來看,極限學(xué)習(xí)機(jī)也要好于邏輯回歸和神經(jīng)網(wǎng)絡(luò)。相比于邏輯回歸,極限學(xué)習(xí)機(jī)將輸入數(shù)據(jù)映射到高維特征空間中,解決了線性不可分的問題,從而可以學(xué)習(xí)更復(fù)雜的函數(shù),而邏輯回歸是線性分類器,在面對復(fù)雜的數(shù)據(jù)關(guān)系時表現(xiàn)不好;相比于神經(jīng)網(wǎng)絡(luò),極限學(xué)習(xí)機(jī)可以化簡為求解一個線性系統(tǒng),從而求出全局最優(yōu)唯一解,而神經(jīng)網(wǎng)絡(luò)是基于梯度下降算法迭代求解,不僅訓(xùn)練時間長,而且可能陷入局部最優(yōu)解,要得出滿意的解需要做更多的嘗試。
表2極限學(xué)習(xí)機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練耗時及在測試集上的總體精度和AUC指標(biāo)
Tab.2Extremelearningmachine,logisticregressionandneuralnetworktrainingtime-consumingandoverallaccuracyandAUCindicatorsontestsets
參數(shù)極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)邏輯回歸訓(xùn)練耗時/s376.81168.4254.5總體精度0.82050.79240.7339AUC0.90340.85300.8164
極限學(xué)習(xí)機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)會為每個測試樣本產(chǎn)生一個實值概率預(yù)測,這個實值概率預(yù)測的好壞,直接決定了學(xué)習(xí)器的泛化性能,ROC曲線根據(jù)實值概率預(yù)測的結(jié)果,將測試樣本進(jìn)行排序,預(yù)測概率值最高的排在前面,概率值低的排在后面,排序本身質(zhì)量的好壞,體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下“期望泛化性能”的好壞。AUC(area under ROC curve)是衡量不同學(xué)習(xí)器ROC曲線質(zhì)量的一個重要指標(biāo),因此本文用AUC衡量不同學(xué)習(xí)器的泛化能力。圖5即為不同學(xué)習(xí)器的ROC曲線及其對應(yīng)的AUC值,可以看出極限學(xué)習(xí)機(jī)的AUC指標(biāo)高于邏輯回歸和神經(jīng)網(wǎng)絡(luò)。
圖5 極限學(xué)習(xí)機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)在測試集上的ROC曲線及對應(yīng)的AUC指標(biāo)Fig.5 Extreme learning machine, logistic regression and neural network ROC curves on test sets and corresponding AUC indicators
上述試驗是在樣本較多的情況下進(jìn)行的,作為對比,采用小樣本數(shù)據(jù)(上述試驗樣本數(shù)量的1/3)以和上述相同的方法進(jìn)行試驗,試驗結(jié)果表明極限學(xué)習(xí)機(jī)的測試精度為0.798 4,邏輯回歸為0.718 1,神經(jīng)網(wǎng)絡(luò)為0.720 4,說明了極限學(xué)習(xí)機(jī)在小樣本的情況下仍然具有較高的精度,而神經(jīng)網(wǎng)絡(luò)的性能卻大幅下降,具體情況見表3。
表3小樣本情況下不同學(xué)習(xí)器在測試集上的總體精度和AUC指標(biāo)
Tab.3OverallaccuracyandAUCindicatorsofdifferentlearnersonthetestsetinsmallsamplecases
參數(shù)極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)邏輯回歸總體精度0.79480.72040.7181AUC0.87700.80680.8034
使用ELM-CA做城市擴(kuò)展的模擬時,首先利用訓(xùn)練好的極限學(xué)習(xí)機(jī)學(xué)習(xí)器求出試驗區(qū)每個元胞轉(zhuǎn)化潛力,在此基礎(chǔ)上根據(jù)式(6)計算出元胞受鄰域影響和隨機(jī)因素影響的綜合轉(zhuǎn)化概率,模擬以2006年遙感影像分類數(shù)據(jù)作為初始狀態(tài)開始循環(huán)迭代,每輪迭代中選取綜合概率最大的前若干個元胞轉(zhuǎn)化,每輪迭代后由于城市用地發(fā)生變化,需要重新計算鄰域影響。當(dāng)模型轉(zhuǎn)換量達(dá)到實際2006—2010年間的城市轉(zhuǎn)換總量時,則停止迭代,輸出結(jié)果見圖6。
圖6 2010年模擬城市空間分布圖與實際城市空間分布圖Fig.6 Simulated urban spatial distribution map and actual urban spatial distribution map in 2010
作為檢驗,根據(jù)從2006—2010年提取的轉(zhuǎn)換規(guī)則,以2006年作為起始年份,預(yù)測2010—2013年間的城市擴(kuò)展。當(dāng)模型轉(zhuǎn)換量達(dá)到實際2006—2013年間的城市轉(zhuǎn)換總量時,則停止迭代,輸出結(jié)果見圖7。
圖7 2013年模擬城市空間分布圖與實際城市空間分布圖Fig.7 Simulated urban spatial distribution map and actual urban spatial distribution map in 2013
城市擴(kuò)展模型檢驗的方法有兩種,一種是逐點對比的方法,即將模擬的結(jié)果與實際的圖層疊加,逐點對比計算模擬的精度,假設(shè)2006年到2010年實際新增城市用地元胞個數(shù)為Q,模擬的新增城市元胞與實際新增城市元胞在空間上位置一致的元胞個數(shù)為S,即正確模擬元胞數(shù)為S,則精度P=S/Q,這里只討論城市的模擬精度;另一種是整體比較,即比較模擬結(jié)果的空間格局與實際的空間格局的符合程度,這里使用Kappa系數(shù)。
為了進(jìn)一步的驗證模型,用邏輯回歸和神經(jīng)網(wǎng)絡(luò)模擬同一地區(qū)2006—2010年時間段的城市擴(kuò)展。將從遙感影像解譯得到的實際用地與極限學(xué)習(xí)機(jī)、邏輯回歸與神經(jīng)網(wǎng)絡(luò)的模擬結(jié)果進(jìn)行比較,得到混淆矩陣表4,從表中可以看出,極限學(xué)習(xí)機(jī)模型的城市模擬精度70.30%,Kappa系數(shù)0.669 7,Logistic模型的城市模擬精度68.09%,Kappa系數(shù)0.645 0,神經(jīng)網(wǎng)絡(luò)模型的城市模擬精度68.76%,Kappa系數(shù)0.652 8。極限學(xué)習(xí)機(jī)模型相比于邏輯回歸和神經(jīng)網(wǎng)絡(luò),城市模擬精度分別提高了2.21%和1.54%,說明極限學(xué)習(xí)機(jī)模型有更好的精度,而Kappa系數(shù)分別提高了0.024 7和0.016 9,說明ELM模型模擬結(jié)果與實際城市擁有更好的一致性。同時進(jìn)一步的比較了不同模型的FoM(Figure of Merit)系數(shù),ELM模型的FoM系數(shù)為0.542 1,分別比Logistic(0.516 2)模型和神經(jīng)網(wǎng)絡(luò)(0.524 2)模型分別提高了0.025 9和0.017 9,說明了ELM模型擁有更好的模擬能力。FoM系數(shù)的計算公式如下
(10)
式中,A為實際中發(fā)生轉(zhuǎn)化但模擬中沒發(fā)生轉(zhuǎn)化的錯誤區(qū)域面積;B為實際中和模擬中都發(fā)生轉(zhuǎn)化的正確區(qū)域面積;C為實際中未發(fā)生轉(zhuǎn)化但模擬中發(fā)生轉(zhuǎn)化的錯誤區(qū)域面積。
本文增加了2006—2013年時間段的城市擴(kuò)展預(yù)測,來檢驗?zāi)P偷挠行?。根?jù)2006—2010年時間段提取的轉(zhuǎn)換規(guī)則,以2006年土地利用為初始狀態(tài),預(yù)測2010—2013年城市擴(kuò)展,將預(yù)測結(jié)果與實際用地比較,得到混淆矩陣見表4,極限學(xué)習(xí)機(jī)模型的城市預(yù)測精度分別高于邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型1.87%和1.2%,Kappa系數(shù)分別高于邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型0.023 3和0.015 9,F(xiàn)oM系數(shù)分別提高了0.022 2和0.015 7,證實了極限學(xué)習(xí)機(jī)模型的可靠性。
表4 極限學(xué)習(xí)機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)模擬結(jié)果的混淆矩陣
試驗的結(jié)果與2.3節(jié)中的對學(xué)習(xí)器的精度評價一致。值得指出的是,本文在模擬城市擴(kuò)展過程中,每次迭代會選擇本輪中綜合轉(zhuǎn)化概率最高的前若干個元胞轉(zhuǎn)化為城市用地,因此,城市擴(kuò)展模擬結(jié)果的好壞高度依賴于學(xué)習(xí)器給出的預(yù)測概率的排序的好壞,在圖5中可以看出極限學(xué)習(xí)機(jī)的ROC曲線的AUC值明顯高于邏輯回歸和神經(jīng)網(wǎng)絡(luò),而模擬試驗的結(jié)果也驗證了這一觀點。
另外,本文也計算了實際結(jié)果與模擬結(jié)果的形態(tài)指數(shù),以檢驗?zāi)M結(jié)果與實際情況空間格局的一致性。本文采用Moran I指數(shù)反映試驗結(jié)果的空間聚集與分散程度,計算結(jié)果見表5。從表中可以看出,極限學(xué)習(xí)機(jī)的試驗結(jié)果的Moran I指數(shù)較邏輯回歸和神經(jīng)網(wǎng)絡(luò)更接近于實際值,這說明極限學(xué)習(xí)機(jī)模型模擬結(jié)果的空間格局都與實際情況比較接近。
表5 Moran I指數(shù)對比
為了考察樣本數(shù)據(jù)量大小對模擬結(jié)果的影響,利用在2.3節(jié)中在小樣本情況下訓(xùn)練的不同模型,分別對2010年和2013年的城市用地進(jìn)行模擬和預(yù)測,試驗結(jié)果見表6。
表6小樣本情況下不同學(xué)習(xí)器的性能表現(xiàn)
Tab.6Performanceofdifferentlearnersinsmallsamplecases
年份參數(shù)極限學(xué)習(xí)機(jī)邏輯回歸神經(jīng)網(wǎng)絡(luò)2006—2010年精度0.68640.62790.6270Kappa0.65110.58610.5851FoM0.52250.45760.45662006—2013年精度0.68450.62870.6035Kappa0.61180.54310.5130FoM0.52040.45850.4321
在2006—2010年的城市擴(kuò)張模擬中,小樣本相比于大樣本的情況下,極限學(xué)習(xí)機(jī)模擬精度、Kappa系數(shù)和FoM系數(shù)分別下降了1.6%、0.018 6、0.001 6,而邏輯回歸和神經(jīng)網(wǎng)絡(luò)分別下降了5.3%、0.058 9、0.058 6和6.09%、0.067 7、0.067 6(表4、6)。
在2006—2013年的城市擴(kuò)張預(yù)測中,極限學(xué)習(xí)機(jī)的預(yù)測精度、Kappa系數(shù)和FoM系數(shù)分別下降了1.75%、0.021 7、0.020 7,而邏輯回歸和神經(jīng)網(wǎng)絡(luò)分別下降了5.46%、0.067 1、0.060 4和8.5%、0.104 8、0.093 9(表4、6)。
可以看出,樣本數(shù)據(jù)量的大小對極限學(xué)習(xí)機(jī)的影響較小,邏輯回歸次之,對神經(jīng)網(wǎng)絡(luò)的影響最大。因為神經(jīng)網(wǎng)絡(luò)的模型較為復(fù)雜,在數(shù)據(jù)量較少時容易發(fā)生過擬合,需要正則化機(jī)制來防止過擬合,而極限學(xué)習(xí)機(jī)算法內(nèi)嵌良好的正則化機(jī)制,在樣本較少時仍可以較好地工作。極限學(xué)習(xí)機(jī)的這一特點使其在樣本較少或樣本獲取困難的情況下,仍然可以獲取相對較高的模擬精度。
(1) 本文提出的基于極限學(xué)習(xí)機(jī)的城市擴(kuò)展元胞自動機(jī)模型(ELM-CA),有效地簡化了CA模型的復(fù)雜度,極限學(xué)習(xí)機(jī)通過歷史數(shù)據(jù)訓(xùn)練得到CA的轉(zhuǎn)化規(guī)則,減少了人為主觀因素的影響,適合復(fù)雜的土地利用變化模擬,能夠模擬出復(fù)雜的城市空間形態(tài)及其變化。
(2) 本文模型充分考慮了不同土地利用類型轉(zhuǎn)換為城市用地的差異和強(qiáng)度,分別求出耕地、林地、水域三種主要用地類型所對應(yīng)的轉(zhuǎn)換參數(shù),在獲取中心元胞城市化潛力的時候,就用中心元胞用地類型對應(yīng)的轉(zhuǎn)換參數(shù),這樣就減小了用地類型的不同所帶來的影響。
(3) 對比試驗分析表明,ELM-CA模型的城市模擬精度和預(yù)測精度均高于邏輯回歸和神經(jīng)網(wǎng)絡(luò),能有效模擬與預(yù)測城市擴(kuò)展的空間形態(tài)及其變化,而且ELM模型的訓(xùn)練時間僅為神經(jīng)網(wǎng)絡(luò)的1/3左右,體現(xiàn)了ELM學(xué)習(xí)速度快的優(yōu)勢。
(4) 對比大樣本和小樣本情況下不同學(xué)習(xí)器的性能表明:在小樣本情況下,邏輯回歸和神經(jīng)網(wǎng)絡(luò)的性能受到較大的影響,而極限學(xué)習(xí)機(jī)仍能保持較為良好的性能,使其在樣本難以獲取的情況下具有明顯優(yōu)勢。
(5) 本文模擬過程分為兩個階段,第一階段通過學(xué)習(xí)器對采樣數(shù)據(jù)進(jìn)行學(xué)習(xí),獲取驅(qū)動因子與城市發(fā)展?jié)摬氐膹?fù)雜關(guān)系,第二階段利用訓(xùn)練好的學(xué)習(xí)器進(jìn)行城市擴(kuò)張模擬與預(yù)測。不難發(fā)現(xiàn),雖然在第一階段的樣本數(shù)據(jù)學(xué)習(xí)中,極限學(xué)習(xí)機(jī)的性能表現(xiàn)明顯好于邏輯回歸和神經(jīng)網(wǎng)絡(luò),但在第二階段的城市擴(kuò)張模擬與預(yù)測中,極限學(xué)習(xí)機(jī)的試驗結(jié)果相對于邏輯回歸和神經(jīng)網(wǎng)絡(luò)提高的并不顯著。其中一個重要原因是,在第一階段中,利用學(xué)習(xí)器對采樣數(shù)據(jù)進(jìn)行學(xué)習(xí)的時候并沒有將空間關(guān)系考慮在內(nèi),而僅是在第二階段的模擬與預(yù)測中,通過式(6)將空間相關(guān)性納入模型中,這樣會導(dǎo)致學(xué)習(xí)器并沒有學(xué)習(xí)到樣本數(shù)據(jù)中所蘊含的空間關(guān)系,而空間相關(guān)性在城市擴(kuò)張中具有重要的影響,從而使得學(xué)習(xí)器在城市空間分布模擬與預(yù)測的表現(xiàn)有一定的折扣。所以在后續(xù)的研究中,將進(jìn)一步試驗直接利用學(xué)習(xí)器學(xué)習(xí)樣本數(shù)據(jù)的空間相關(guān)性,以期使得試驗方法更為科學(xué),減少主觀因素的影響。