趙艷玲,何廳廳,劉亞萍,石娟娟,冉艷艷,倪 巍,吳國(guó)偉
(中國(guó)礦業(yè)大學(xué)(北京)土地復(fù)墾與生態(tài)重建研究所,北京100083)
耕地變化預(yù)測(cè)是土地利用規(guī)劃中的重要內(nèi)容之一[1],可為區(qū)域耕地保護(hù)政策制定提供重要依據(jù)。目前對(duì)于耕地變化預(yù)測(cè)方法的研究較多,有單一方法如回歸預(yù)測(cè)、灰色預(yù)測(cè)、BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[2-5]等,其中前兩種方法是時(shí)間序列數(shù)據(jù)的純數(shù)學(xué)處理,缺乏對(duì)社會(huì)和經(jīng)濟(jì)方面變化的綜合考慮;BP神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)。也有組合方法如灰色—馬兒科夫模型[6]、遺傳算法最小二乘支持向量機(jī)模型[7]等。前者仍是對(duì)時(shí)間序列數(shù)據(jù)的數(shù)學(xué)處理,后者中的支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的新型學(xué)習(xí)機(jī)器[8],該方法具有小樣本學(xué)習(xí)、學(xué)習(xí)效率高與推廣性好的特點(diǎn),能有效避免“過(guò)學(xué)習(xí)”和“維數(shù)災(zāi)難”等問(wèn)題,在模式識(shí)別[9-10]和回歸估計(jì)[11-12]等研究領(lǐng)域都取得了很好效果。由于SVM模型最終轉(zhuǎn)化為求解一個(gè)二次凸規(guī)劃問(wèn)題,當(dāng)訓(xùn)練數(shù)據(jù)量大和維數(shù)高時(shí),SVM解算速度較慢。Suykens等[13]在標(biāo)準(zhǔn)SVM的目標(biāo)函數(shù)上增加了誤差平方和項(xiàng),提出最小二乘支持向量機(jī)回歸算法(Least Square Support Vector Machine Regression,LSSVR)。它將線性不等式約束轉(zhuǎn)化為線性等式約束,使得SVM的二次凸規(guī)劃問(wèn)題等價(jià)于線性方程組求解,極大地提高了SVM的求解效率,也降低了SVM的學(xué)習(xí)難度[14-16]。將遺傳算法與最小二乘支持向量機(jī)算法結(jié)合,雖然可提高支持向量機(jī)模型的預(yù)測(cè)精度,但是遺傳算法同樣存在優(yōu)化過(guò)程中容易陷入局部最優(yōu)的缺陷。
魚(yú)群算法(Fish Swarm Algorithm,F(xiàn)SA)是一種基于動(dòng)物自治體的優(yōu)化方法,是集群智能思想的一個(gè)具體應(yīng)用。它能很好地解決非線性函數(shù)優(yōu)化等問(wèn)題。優(yōu)化過(guò)程中能夠很好地跳出局部最優(yōu)值,并盡可能地搜索到其他的極值,最終搜索到全局極值。將魚(yú)群算法與最小二乘支持向量機(jī)回歸算法相結(jié)合,可避免陷入局部最優(yōu),保證了擬合精度,提高了預(yù)測(cè)能力。
本文以2002—2011年《安徽省統(tǒng)計(jì)年鑒》中的數(shù)據(jù)為依據(jù),構(gòu)建耕地變化的FSA-LSSVR預(yù)測(cè)模型,經(jīng)代入驅(qū)動(dòng)因子數(shù)據(jù)驗(yàn)證,該模型速度快、精度高,可應(yīng)用于耕地變化預(yù)測(cè)。
最小二乘法支持向量機(jī)的主要思想是:通過(guò)映射函數(shù)把輸入數(shù)據(jù)非線性映射到高維特征空間,然后在高維特征空間中解決回歸問(wèn)題P[17]。采用最小二乘支持向量機(jī)進(jìn)行非線性函數(shù)估計(jì)的算法如下[18-19]:
已知訓(xùn)練樣本 D={(x1,y1)│i=1,2,…,N},其中xi∈R″為輸入數(shù)據(jù),yi∈R是輸出類別。在權(quán)向量w空間(原始空間)中的最小二乘支持向量機(jī)的回歸函數(shù)問(wèn)題可以描述為如下問(wèn)題求解:
約束條件:yi=wTφ(xi)+b+ei,i=1,2,…,N其中,φ(xi):Rn→是核空間映射函數(shù),權(quán)向量w∈(原始空間),誤差變量ei∈R,b是偏差量。損失函數(shù)J是SSE誤差和規(guī)則化量之和,γ是懲罰因子(常數(shù))。核空間映射函數(shù)的目的是從原始空間中抽取特征,將原始空間中的樣本映射為高維特征空間中的一個(gè)向量,以解決原始空間中線性不可分的問(wèn)題。
由于w可能為無(wú)限維的,于是直接計(jì)算規(guī)劃(1)是極其困難的,因此將這一規(guī)劃問(wèn)題轉(zhuǎn)化到其對(duì)偶空間中,構(gòu)建拉格朗日函數(shù):
式中,ai∈R是拉格朗日算子,在LSSVR形式中可以為正,也可以為負(fù)。分別對(duì)w,b,e,a進(jìn)行偏微分,可以得到(2)的最優(yōu)條件,如下:
式中,i=1,2,3,…,N。消除w 和e,得矩陣方程:
式中,y=[y1,y2,…,yN]T,I=[1,…,1]T,a=[a1,a2,…,aN]T,E是 N×N 維的單位矩陣,Ω=φ(xi)Tφ(xl),i,l=1,2,…,N。根據(jù) mercer條件[20],存在映射函數(shù)φ和核函數(shù)K(·,·)使得:
由式(5)進(jìn)而得到最小二乘法支持向量機(jī)回歸函數(shù):
其中a,b由式(4)解得。核函數(shù)有多種不同形式,如多項(xiàng)式核函數(shù)、高斯核函數(shù)、樣條核函數(shù)、RBF核函數(shù)等[21]。在本文耕地變化預(yù)測(cè)模型中,選擇RBF核函數(shù)。即K(x,x)=ilσ為核函數(shù)參數(shù)(常數(shù))。最小二乘支持向量機(jī)回歸函數(shù)的預(yù)測(cè)精度和收斂速度受參數(shù)(γ,σ)影響,本文選用魚(yú)群算法(FSA)對(duì)其進(jìn)行尋優(yōu)。
魚(yú)群算法(Fish Swarm Algorithm,簡(jiǎn)稱FSA)是一種模擬魚(yú)群運(yùn)動(dòng)規(guī)律的優(yōu)化算法,是由李曉磊等[22]在2002年提出的一種新型群體智能優(yōu)化算法,其基本思想是魚(yú)群向食物濃度較大的水域游動(dòng),魚(yú)群規(guī)模最大的地方食物濃度最大。據(jù)此,魚(yú)群算法構(gòu)造人工魚(yú)個(gè)體,模擬魚(yú)群的覓食、群聚和追尾行為,通過(guò)各個(gè)體的局部尋優(yōu),實(shí)現(xiàn)全局最優(yōu)在魚(yú)群中凸現(xiàn)出來(lái)的目的。該算法具有良好的克服局部極值的能力。并且算法中只使用目標(biāo)函數(shù)的函數(shù)值,無(wú)需目標(biāo)函數(shù)的梯度值等特殊信息,對(duì)問(wèn)題不需要嚴(yán)格的數(shù)學(xué)機(jī)理。對(duì)搜索空間具有一定的自適應(yīng)能力,而且算法對(duì)初值沒(méi)有要求,對(duì)各參數(shù)的選擇也不很敏感[23]。
本文充分利用魚(yú)群算法的全局收斂、初值不敏感、收斂速度快、實(shí)時(shí)性高等特點(diǎn)[24],對(duì)LSSVR模型的懲罰因子γ和RBF核函數(shù)參數(shù)σ在設(shè)定的范圍內(nèi)進(jìn)行最優(yōu)或近似最優(yōu)參數(shù)的選擇,以使模型的預(yù)測(cè)精度獲得提高,具體的FSA和LSSVR結(jié)合方式如圖1所示。
根據(jù)已有的研究成果[25-26],將影響耕地變化的社會(huì)經(jīng)濟(jì)環(huán)境驅(qū)動(dòng)因子劃分為自然類(環(huán)境變化、自然災(zāi)害、氣候、地形、地貌等)、人口類(總?cè)丝跀?shù)、農(nóng)業(yè)人口數(shù)、第三產(chǎn)業(yè)就業(yè)人數(shù)等)、經(jīng)濟(jì)發(fā)展類(地區(qū)生產(chǎn)總值、第一產(chǎn)業(yè)生產(chǎn)總值、人均生產(chǎn)總值、固定資產(chǎn)投資等)、生活水平類(農(nóng)民人均純收入、城鎮(zhèn)居民消費(fèi)水平等)及土地政策類(土地管理[27]政策、退耕政策、耕地保護(hù)政策等)。從眾多的耕地變化驅(qū)動(dòng)因子中選擇主要驅(qū)動(dòng)因子是耕地變化預(yù)測(cè)精度的根本。針對(duì)安徽省耕地變化的實(shí)際情況,根據(jù)定性和定量相結(jié)合的辦法,依據(jù)2002—2011年《安徽省統(tǒng)計(jì)年鑒》,應(yīng)用主成分分析法、相關(guān)分析法、迭代回歸分析法[28]最終確定影響耕地變化驅(qū)動(dòng)因子指標(biāo)體系,即第一產(chǎn)業(yè)生產(chǎn)總值、農(nóng)民人均純收入、農(nóng)民人口數(shù)、第三產(chǎn)業(yè)人口數(shù)、固定資產(chǎn)投資、城市化水平、耕地保護(hù)政策,因變量為耕地面積,具體見(jiàn)表1。其中第一產(chǎn)業(yè)總值、農(nóng)民人均純收入、農(nóng)民人口數(shù)目、第三產(chǎn)業(yè)就業(yè)人數(shù)、固定資產(chǎn)投資、耕地面積數(shù)據(jù)直接來(lái)源于安徽省統(tǒng)計(jì)年鑒,城市化水平通過(guò)非農(nóng)業(yè)人數(shù)除以人口總數(shù)算得,耕地保護(hù)政策以數(shù)字“1—10”衡量,最嚴(yán)格的耕地保護(hù)政策定義為“10”。1998年實(shí)施《土地管理法》首次以立法形式確認(rèn)了“十分珍惜、合理利用土地和切實(shí)保護(hù)耕地是我國(guó)的基本國(guó)策”,保護(hù)政策為“1”;2004年中央1號(hào)文件《中央關(guān)于促進(jìn)農(nóng)民增加收入若干政策的意見(jiàn)》明確提出“各級(jí)政府要切實(shí)落實(shí)最嚴(yán)格的耕地保護(hù)制度”,保護(hù)政策為“3”;2005年的《政府工作報(bào)告》要求嚴(yán)格保護(hù)耕地特別是基本農(nóng)田,保護(hù)政策為“5”;2006年中央1號(hào)文件《關(guān)于推進(jìn)社會(huì)主義新農(nóng)村建設(shè)的若干意見(jiàn)》在耕地占用稅、土地出讓金、新增建設(shè)用地有償使用費(fèi)征繳和使用方面做出了有利于耕地保護(hù)的規(guī)定,保護(hù)政策為“8”;2008年中央《關(guān)于推進(jìn)農(nóng)村改革發(fā)展若干重大問(wèn)題的決定》提出“堅(jiān)持最嚴(yán)格的耕地保護(hù)政策,層層落實(shí)責(zé)任,堅(jiān)決守住1.2億hm2耕地紅線”,保護(hù)政策為“10”。
在Matlab R2010環(huán)境下,應(yīng)用SVM和LSSVR工具箱,利用表1中2001—2006年的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別建立多元線性模型、GM(1,1)、BP神經(jīng)網(wǎng)絡(luò)、FSA-SVM、FSA-LSSVR 耕地變化預(yù)測(cè)模型,算得2007—2010年的耕地面積,并與實(shí)際耕地面積比較,對(duì)各預(yù)測(cè)模型進(jìn)行精度評(píng)價(jià)和驗(yàn)證,具體的耕地預(yù)測(cè)結(jié)果和精度數(shù)據(jù)見(jiàn)表2、表3和圖2。
表1 耕地預(yù)測(cè)影響因子
表2 各模型耕地預(yù)測(cè)結(jié)果
表3 各模型耕地預(yù)測(cè)精度
圖2 各預(yù)測(cè)模型耕地預(yù)測(cè)值和真實(shí)值對(duì)比
由表2、表3和圖2可知:(1)多元線性耕地預(yù)測(cè)模型的預(yù)測(cè)精度較差,其模型內(nèi)和總精度的均方根誤差、最大絕對(duì)誤差、最大相對(duì)誤差和平均絕對(duì)誤差在這幾種預(yù)測(cè)模型中最大,表明多元線性模型不能準(zhǔn)確表達(dá)非線性耕地變化預(yù)測(cè);(2)GM(1,1)耕地預(yù)測(cè)模型僅考慮耕地變化的內(nèi)在規(guī)律,忽略了其他綜合因子對(duì)耕地變化的外在影響,所以其預(yù)測(cè)精度不高;(3)BP神經(jīng)網(wǎng)絡(luò)耕地變化預(yù)測(cè)模型的模型內(nèi)精度最好,各精度指標(biāo)均優(yōu)于其它幾種預(yù)測(cè)模型,但其模型外精度指標(biāo)均低于其他預(yù)測(cè)模型,且其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,參數(shù)確定困難,易產(chǎn)生過(guò)擬合現(xiàn)象[24];(4)FSASVM耕地變化預(yù)測(cè)模型和FSA-LSSVR耕地變化預(yù)測(cè)模型的模型外精度和總精度均高于前三個(gè)預(yù)測(cè)模型,模型內(nèi)精度僅次于BP神經(jīng)網(wǎng)絡(luò)耕地預(yù)測(cè)模型;(5)FSA-LSSVR模型精度略高于FSA-SVM 模型,因?yàn)長(zhǎng)SSVR模型在標(biāo)準(zhǔn)SVM的目標(biāo)函數(shù)上增加了誤差平方和項(xiàng),把線性不等式約束轉(zhuǎn)化為線性等式約束,求解過(guò)程轉(zhuǎn)化為解一組線性方程式,避免了耗時(shí)的二次凸規(guī)劃問(wèn)題求解,改善了SVM的求解效率,簡(jiǎn)化了SVM的學(xué)習(xí)復(fù)雜度,提高了模型的預(yù)測(cè)精度;(6)利用本文引用的安徽省2001—2010年的耕地?cái)?shù)據(jù),F(xiàn)SA優(yōu)化SVM和LSSVR內(nèi)部參數(shù)時(shí),調(diào)用SVM 1 500次耗時(shí)274.56s,調(diào)用LSSVR 1 500次耗時(shí)86.37s??梢?jiàn),F(xiàn)SA-LSSVR的運(yùn)行速度較快。
本文針對(duì)耕地變化預(yù)測(cè)模型的問(wèn)題,以安徽省耕地變化為例,提出了一種FSA-LSSVR耕地變化預(yù)測(cè)模型。通過(guò)對(duì)比分析多元線性、GM(1,1)、BP神經(jīng)網(wǎng)絡(luò)、FSA-SVM和FSA-LSSVR模型在耕地變化中的預(yù)測(cè)能力,得到如下結(jié)論:
(1)針對(duì)SVM內(nèi)部參數(shù)難以確定的問(wèn)題,利用FSA的全局搜索能力對(duì)懲罰因子γ和RBF核函數(shù)參數(shù)σ進(jìn)行最優(yōu)或近似最優(yōu)選擇,結(jié)果證實(shí),F(xiàn)SA能有效地收斂到參數(shù)γ和σ的全局最優(yōu)解。
(2)耕地變化是一種多因素參與的高維非線性預(yù)測(cè)系統(tǒng)。多元線性模型和單因素GM(1,1)模型均不能準(zhǔn)確地表達(dá)耕地變化趨勢(shì)。BP神經(jīng)網(wǎng)絡(luò)由于其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和大量隨機(jī)的內(nèi)部參數(shù),使其在耕地變化中的預(yù)測(cè)精度不高,并且BP神經(jīng)網(wǎng)絡(luò)缺乏完善的理論依據(jù)。
(3)FSA-LSSVR模型的預(yù)測(cè)精度指標(biāo)遠(yuǎn)高于多元線性、GM(1,1)和BP神經(jīng)網(wǎng)絡(luò)模型,且優(yōu)于FSASVM。
(4)FSA優(yōu)化SVM和LSSVR內(nèi)部參數(shù)時(shí),調(diào)用LSSVR 1 500次較調(diào)用SVM 1 500次耗時(shí)縮短了近2/3,運(yùn)行速度大大提高。
總之,F(xiàn)SA-LSSVR模型可以解決SVM內(nèi)部參數(shù)難以確定的問(wèn)題,適用于多因素參與的高維非線性的耕地變化預(yù)測(cè),而且速度快、精度高,具有推廣價(jià)值。
[1] 杜新波,周偉,司慧娟,等.青海省2000—2008年間耕地變化及驅(qū)動(dòng)力研究[J].水土保持研究,2013,20(5):180-86.
[2] 車(chē)明亮,聶宜民,劉登民,等.區(qū)域耕地?cái)?shù)量變化預(yù)測(cè)方法的對(duì)比研究[J].中國(guó)土地科學(xué),2010,24(5):13-18.
[3] 趙永華,劉曉靜,奧勇.陜西省耕地資源變化及耕地壓力指數(shù)分析與預(yù)測(cè)[J].農(nóng)業(yè)工程學(xué)報(bào),2013,29(11):217-223.
[4] 趙海英,張明旭.基于灰色模型的耕地變化預(yù)測(cè)[J].吉林師范大學(xué)學(xué)報(bào):自然科學(xué)版,2007,5(2):66-67.
[5] 胡喜生,洪偉,吳承禎.基于BP神經(jīng)網(wǎng)絡(luò)的福建省耕地預(yù)測(cè)模型[J].福建農(nóng)林大學(xué)學(xué)報(bào):自然科學(xué)版,2008,37(4):66-67.
[6] 黃成毅,鄧良基,方從剛.基于灰色—馬爾柯夫模型的區(qū)域耕地變化預(yù)測(cè)研究:以四川盆地中部丘陵區(qū)為例[J].四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2009,32(6):816-821.
[7] 張豪,羅亦泳,張立亭,等.基于遺傳算法最小二乘支持向量機(jī)的耕地變化預(yù)測(cè)[J].農(nóng)業(yè)工程學(xué)報(bào),2009,25(7):226-231.
[8] Yuan S F,Chu F L.Support vector machines-based fault diagnosis for turbo-pump rotor[J].Mechanical Systems and Signal Processing,2006,20(4):939-952.
[9] Doumpos M,Zopounidis C,Golfinopoulou V.Additive support vector machines for pattern classification[J].Systems,Man,and Cybernetics,Part B:Cybernetics,IEEE Transactions on,2007,37(3):540-550.
[10] Khemchandani R,Chandra S.Twin support vector machines for pattern classification[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2007,29(5):905-910.
[11] Wu Z,Li C,Ng J K Y,et al.Location estimation via support vector regression[J]. Mobile Computing,IEEE Transactions on,2007,6(3):311-321.
[12] Hao P Y,Chiang J H.Fuzzy regression analysis by support vector learning approach[J].Fuzzy Systems,IEEE Transactions on,2008,16(2):428-441.
[13] Suyken J A K,Vandewalle J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.
[14] Van Gestel T,Suykens J A K,Baesens B,et al.Benchmarking least squares support vector machine classifiers[J].Machine Learning,2004,54(1):5-32.
[15] Anguita D,Boni A.Digital least squares support vector machines[J].Neural processing Letters,2003,18(1):65-72.
[16] Tsujinishi D,Abe S.Fuzzy least squares support vector machines for multiclass problems[J].Neural Networks,2003,16(5):785-792.
[17] Vapnik V N.Statistical learning theory[M].New York:Wiley,1998.
[18] 朱家元,段寶君,張恒喜.新型SVM對(duì)時(shí)間序列預(yù)測(cè)研究[J].計(jì)算機(jī)科學(xué),2003,30(8):124-125.
[19] 彭珍瑞,孟建軍,祝磊,等.基于支持向量機(jī)的鐵路客運(yùn)量的預(yù)測(cè)[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào),2007,26(2):269-272.
[20] 朱家元,陳開(kāi)陶,張恒喜.最小二乘支持向量機(jī)算法研究[J].計(jì)算機(jī)科學(xué),2003,30(7):157-159.
[21] 李波,徐寶松,武金坤,等.基于最小二乘支持向量機(jī)的大壩力學(xué)參數(shù)反演[J].巖土工程學(xué)報(bào),2008,30(11):1722-1725.
[22] 李曉磊,邵之江,錢(qián)積新.一種基于動(dòng)物自治體的尋優(yōu)模式:魚(yú)群算法[J].系統(tǒng)工程理論與實(shí)踐,2002,22(11):32-38.
[23] 周利民.基于魚(yú)群算法的無(wú)線傳感器網(wǎng)絡(luò)覆蓋優(yōu)化研究[D].長(zhǎng)沙:湖南大學(xué),2010.
[24] 楊淑霞,韓奇,徐琳茜,等.魚(yú)群算法與神經(jīng)網(wǎng)絡(luò)結(jié)合的節(jié)能減排效果評(píng)價(jià)[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2012,43(4):1538-1544.
[25] 趙永華,何興元,胡遠(yuǎn)滿,等.岷江上游汶川縣耕地變化及驅(qū)動(dòng)力研究[J].農(nóng)業(yè)工程學(xué)報(bào),2006,22(2):94-97.
[26] 李偉,郝晉珉,馮婷婷,等.基于計(jì)量經(jīng)濟(jì)模型的中國(guó)耕地?cái)?shù)量變化政策與資產(chǎn)因素分析[J].農(nóng)業(yè)工程學(xué)報(bào),2008,24(6):115-118.
[27] 劉文智,陳亞恒,李新旺.基于產(chǎn)能的耕地整理數(shù)量質(zhì)量潛力測(cè)算方法研究:以河北省盧龍縣為例[J].水土保持研究,2010,17(3):227-231.
[28] 林建平,趙小敏,鄧愛(ài)珍,等.城鎮(zhèn)建設(shè)用地規(guī)模影響因素分析及預(yù)測(cè):以江西省廣豐縣為例[J].國(guó)土資源科技管理,2008,25(2):102-106.