李逸川,王海濤,田淑芳
(1.中國(guó)地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083;2.長(zhǎng)春師范學(xué)院城市與環(huán)境科學(xué)學(xué)院,吉林 長(zhǎng)春 130032)
以往國(guó)內(nèi)外對(duì)土地利用預(yù)測(cè)及其影響因子的研究方法主要有典型相關(guān)分析、最小二乘準(zhǔn)則下的多對(duì)多回歸分析以及提取自變量成分的主成分分析等[1]。但這些方法建模時(shí),因土地利用及其影響因子變量之間的相互影響和制約難以滿足一些模型要求的不相關(guān)假設(shè),常有樣本數(shù)量不足等局限。本文借助偏最小二乘回歸法在解決土地利用預(yù)測(cè)模型中自變量多重相關(guān)性問(wèn)題上的優(yōu)勢(shì),引入投影尋蹤方法,運(yùn)用基于實(shí)數(shù)編碼的加速遺傳算法來(lái)優(yōu)化投影指標(biāo)函數(shù),計(jì)算最佳投影方向,使降維結(jié)果的相對(duì)誤差降低。
建立基于偏最小二乘回歸的投影尋蹤耦合模型,其中投影尋蹤回歸模型為基于Hermite多項(xiàng)式的投影尋蹤回歸模型。具體過(guò)程為:
步驟1:建立偏最小二乘回歸模型提取成分,設(shè)有單因變量yi(i=1,2,…,n)和p個(gè)自變量{x1,x2,…,xp},觀測(cè)n個(gè)樣本點(diǎn),構(gòu)成自變量與因變量的數(shù)據(jù)表X=[x1,x2,…,xp]n×p和Y=[y]n×1。偏最小二乘回歸分別在X和Y中提取成分t1和u1,在第一個(gè)成分t1和u1被提取后,偏最小二乘回歸分別實(shí)施X對(duì)t1的回歸以及Y對(duì)t1的回歸,如果回歸方程已經(jīng)達(dá)到滿意的精度,則算法終止;否則,將利用X被t1解釋后的殘余信息以及Y被t1解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),通過(guò)交叉有效性判別,直到能達(dá)到一個(gè)較滿意的精度為止。最終對(duì)X共提取了d個(gè)成分t1,t2,…,td。
步驟2:由步驟1提取的d個(gè)成分t1,t2,…,td計(jì)算投影值:
式1中,aj為投影方向,tij已進(jìn)行歸一化處理。
步驟3:對(duì)散布點(diǎn)(z,y),用基于正交Hermite多項(xiàng)式擬合,此時(shí)基于偏最小二乘回歸的投影尋蹤耦合模型為:
式2中,r為多項(xiàng)式階數(shù);c是多項(xiàng)式系數(shù),可用最小二乘法獲得;h表示正交Hermite多項(xiàng)式。
步驟4:優(yōu)化投影指標(biāo)函數(shù)。在優(yōu)化投影方向a時(shí),同時(shí)考慮多項(xiàng)式系數(shù)c的優(yōu)化問(wèn)題,可以通過(guò)求解投影指標(biāo)函數(shù)最小化問(wèn)題來(lái)估計(jì)最佳a(bǔ),c值,即:
這是一個(gè)以a、c為優(yōu)化變量的復(fù)雜非線性?xún)?yōu)化問(wèn)題,用傳統(tǒng)的優(yōu)化方法處理較難。本文應(yīng)用模擬生物優(yōu)勝劣汰與群體內(nèi)部染色體信息交換機(jī)制的基于實(shí)數(shù)編碼的加速遺傳算法(RAGA)來(lái)解決其高維全局尋優(yōu)問(wèn)題[3-6]。
步驟5:計(jì)算第一次的擬合殘差r1=y-,如果滿足要求則輸出模型參數(shù),否則,進(jìn)行步驟6計(jì)算。
步驟6:用r1代替y,回到步驟1開(kāi)始下一個(gè)嶺函數(shù)的優(yōu)化,直到滿足一定要求,停止增加嶺函數(shù)個(gè)數(shù),輸出最后結(jié)果。
本文選擇黑龍江省某市為典型區(qū)進(jìn)行案例研究。該市耕地面積從1994—2006年發(fā)生了較大變化,根據(jù)研究區(qū)的社會(huì)發(fā)展情況,分別從經(jīng)濟(jì)、政策、人口等方面選取因子,應(yīng)用Matlab對(duì)原始數(shù)據(jù)進(jìn)行初值化處理,分辨率取0.5,做灰色關(guān)聯(lián)度分析[7]。依據(jù)關(guān)聯(lián)度大小,從中選取19個(gè)影響耕地面積的主要相關(guān)因子(表1)。
表1 耕地面積與影響因子的關(guān)聯(lián)度Tab.1 Correlation between areas of cultivated land and influencing factors
表2 耕地面積與主要相關(guān)因子統(tǒng)計(jì)表Tab.2 Areas of cultivated land and main influencing factors
選取上述19個(gè)因子的近13年統(tǒng)計(jì)數(shù)據(jù)作為樣本,用上文介紹的方法提取出兩個(gè)成分,比較PLSPP與PLS模型對(duì)耕地面積的擬合精度。
步驟1:建立基于偏最小二乘回歸的投影尋蹤耦合模型,用表1中的1994—2006年的13個(gè)樣本建模。先將因變量(耕地面積)序列yi(i=1,2,…,13)、自變量(各影響因子)序列xij(i=1,2,…,10;j=1,2,…,19)標(biāo)準(zhǔn)化處理,再進(jìn)行多重相關(guān)性診斷。相關(guān)系數(shù)如r(x8,x16)=0.9605,r2(x1,x4)=0.9226>0.9,即方差膨脹因子(VIF)max-(1-0.9226)-1=12.92>10,變量之間存在多重相關(guān)性。
采用單因素變量PLS方法提取主成分,交叉有效性判別見(jiàn)表3。由表3可以看出,提取3個(gè)主成分時(shí),交叉有效性判別計(jì)算值小于0.0975,說(shuō)明提取2個(gè)主成分t1、t2即可。
步驟2:建立基于偏最小二乘回歸的投影尋蹤耦合模型,將因變量(耕地面積)序列yi(i=1,2,…,13),成分ti1、ti2(i=1,2,…,13)序列分別代入到式1—4中,采用一個(gè)嶺函數(shù)進(jìn)行擬合,多項(xiàng)式的階數(shù)為8,通過(guò)優(yōu)化計(jì)算得投影指標(biāo)函數(shù)為3.2739×105,參數(shù)a、c值見(jiàn)表4。
表5給出了各樣本點(diǎn)在yi上的原始取值,再采用PLSPP模型后的預(yù)測(cè)值i。從表中yi與i的比較可以看出其相對(duì)誤差絕對(duì)值的均值從PLS模型的3.92%,降低到了0.13%??梢?jiàn)PLSPP模型對(duì)耕地面積的預(yù)測(cè)效果是令人滿意的[8-10]。
表3 交叉有效性判別Tab.3 Cross-validation estimation
表4 參數(shù)a、c值Tab.4 Values of a and c
表5 PLSPP與PLS模型對(duì)耕地面積的擬合精度比較Tab.5 Com parison on fitting precision of PLSPP and PLSmodels on cultivated land areas
從實(shí)例結(jié)果看,耕地面積預(yù)測(cè)涉及的各種因素復(fù)雜而又相互影響,因子之間存在多重相關(guān)性問(wèn)題,偏最小二乘回歸方法在簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)、消除重疊信息、綜合典型變量方面具有優(yōu)勢(shì),實(shí)例中通過(guò)PLS方法提取的2個(gè)成分解決了各影響因子之間共線問(wèn)題,降低了投影尋蹤的輸入維數(shù)。同時(shí)該模型很好地解決了耕地面積與各自變量(總?cè)丝跀?shù)、第一產(chǎn)業(yè)勞動(dòng)力占比重等)間的非線性問(wèn)題。
應(yīng)用基于實(shí)數(shù)編碼的加速遺傳算法實(shí)現(xiàn)了投影尋蹤回歸的優(yōu)化,克服了傳統(tǒng)優(yōu)化方法需要目標(biāo)函數(shù)具有連續(xù)可導(dǎo)的限制條件[2],而且實(shí)現(xiàn)過(guò)程更為簡(jiǎn)單,使得投影尋蹤回歸技術(shù)便于實(shí)際操作應(yīng)用。
運(yùn)用投影尋蹤優(yōu)化投影方向可以得出滿意的預(yù)測(cè)值,與獨(dú)立使用偏最小二乘回歸比較,PLS-PP模型得出的預(yù)測(cè)值精度較高。
耕地是土地利用中的主要用地類(lèi)型[11],預(yù)測(cè)其變化趨勢(shì),對(duì)實(shí)現(xiàn)土地合理利用和可持續(xù)發(fā)展具有現(xiàn)實(shí)意義。本文模型得出的預(yù)測(cè)值符合實(shí)際情況,具備較高的可信度。以此并結(jié)合地區(qū)社會(huì)、經(jīng)濟(jì)和生態(tài)效益等數(shù)據(jù),可以為區(qū)域土地資源管理和制定地方經(jīng)濟(jì)發(fā)展決策提供支持。
(References):
[1]張旸,周成虎,戴錦芳,等.偏最小二乘回歸方法在土地利用結(jié)構(gòu)研究中的應(yīng)用[J].自然資源學(xué)報(bào),2004,19(6):804.
[2]付強(qiáng).數(shù)據(jù)處理方法及其農(nóng)業(yè)應(yīng)用[M].北京:科學(xué)出版社,2006:224-225,289-290.
[3]Friedman J.H,Turkey J.W.A projection pursuitalgorithm for exploratory data analysis[J].IEEE Trans On Computer,1974,23(9):881-890.
[4]付強(qiáng),付紅.基于加速遺傳算法的投影尋蹤模型在水質(zhì)評(píng)價(jià)中的應(yīng)用研究[J].地理科學(xué),2003,(3):55-58.
[5]金菊良,魏一鳴,付強(qiáng),等.農(nóng)業(yè)生產(chǎn)力綜合評(píng)價(jià)的投影尋蹤模型[J].農(nóng)業(yè)系統(tǒng)科學(xué)與綜合研究,2001,17(4):241-243.
[6]趙小勇,付強(qiáng).投影尋蹤模型的改進(jìn)及其在城市水資源承載能力預(yù)測(cè)中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2007,37(7):76-77.
[7]劉鐘瑩,卜龍章,李泉.灰色關(guān)聯(lián)投影法在工程項(xiàng)目評(píng)標(biāo)中的應(yīng)用[J].揚(yáng)州大學(xué)學(xué)報(bào),2003,6(1):57-60.
[8]擺萬(wàn)奇,趙士洞.土地利用和土地覆被變化研究模型綜述[J].自然資源學(xué)報(bào),1997,12(2):169-175.
[9]史培軍,宮鵬,李曉兵,等.土地利用/覆蓋變化研究的方法與實(shí)踐[M].北京:科學(xué)出版社,2000:1-4.
[10]鄭新奇.耕地總量動(dòng)態(tài)平衡幾個(gè)理論問(wèn)題的思考[J].中國(guó)土地科學(xué),1999,13(1):32-37.
[11]李秀彬.土地利用變化的解釋?zhuān)跩].地理科學(xué)進(jìn)展,2002,21(3):195-203.