王 洪, 劉偉銘
(1.福建工程學(xué)院 交通運輸學(xué)院 福建 福州 350108;2.華南理工大學(xué) 土木與交通學(xué)院 廣東 廣州 510640)
?
深度信任支持向量回歸的耕地面積預(yù)測方法
王洪1,劉偉銘2
(1.福建工程學(xué)院 交通運輸學(xué)院 福建 福州 350108;2.華南理工大學(xué) 土木與交通學(xué)院 廣東 廣州 510640)
摘要:針對目前淺層機器學(xué)習(xí)預(yù)測方法所需學(xué)習(xí)和訓(xùn)練的樣本過大及擬合復(fù)雜數(shù)據(jù)能力弱等不足,提出一種基于深度學(xué)習(xí)思想的深度信任支持向量回歸(support vector regression,SVR)的耕地面積預(yù)測方法.首先,搭建由1層高斯分布函數(shù)顯層節(jié)點的RBM、多層隱層RBM和1層支持向量回歸機構(gòu)成的深度信任支持向量回歸預(yù)測模型;其次,選取較為合適和易得的訓(xùn)練數(shù)據(jù),通過樣本訓(xùn)練和測試確定預(yù)測模型的具體結(jié)構(gòu)參數(shù);最后,通過實驗將深度信任支持向量回歸耕地面積預(yù)測方法與其他典型的耕地面積預(yù)測算法相比較.結(jié)果表明,提出的耕地面積預(yù)測方法可行、有效,在相同的數(shù)據(jù)和平臺下,其預(yù)測精度高于其他具有代表性的耕地面積預(yù)測算法.
關(guān)鍵詞:深度信任網(wǎng)絡(luò); 支持向量回歸; 耕地面積預(yù)測; 深度學(xué)習(xí)
0引言
隨著我國國民經(jīng)濟和城市化、城鎮(zhèn)化發(fā)展進程的不斷加快,人地矛盾日益凸顯.耕地面積的有效保護關(guān)系食品供應(yīng)及食品安全等諸多問題,而如何科學(xué)、準確、有效地預(yù)測未來年耕地保有量,則是保護耕地面積合理化的基礎(chǔ)和保障,具有十分重要的現(xiàn)實意義.
目前,常見的耕地預(yù)測模型及算法大致可分為傳統(tǒng)回歸模型及因素分析模型兩大類[1—2].由于我國土地影響因素的復(fù)雜性和多變性,傳統(tǒng)的線性回歸及因素分析方法很難適應(yīng)因素的突變,往往預(yù)測精度較低.為了實現(xiàn)高精度的預(yù)測,越來越多的專家學(xué)者對具備自學(xué)習(xí)功能的智能預(yù)測算法產(chǎn)生興趣[1—3].
近年來,利用機器學(xué)習(xí)思想解決耕地面積預(yù)測中多因素變化帶來的難題是該領(lǐng)域的一個熱點研究方向,較為常見的是支持向量回歸(support vector regression,SVR)及其改進算法[1,4—5].該方法屬于機器學(xué)習(xí)中淺層學(xué)習(xí)算法,極大地推動了耕地面積測量及預(yù)測領(lǐng)域的發(fā)展.然而,該類方法存在所需學(xué)習(xí)及訓(xùn)練的樣本大、對訓(xùn)練樣本的精度要求高、擬合復(fù)雜數(shù)據(jù)能力較弱、過分依賴核函數(shù)及其參數(shù)的選取等不足.
考慮深度學(xué)習(xí)的機器學(xué)習(xí)預(yù)測算法有比淺層學(xué)習(xí)算法更為優(yōu)越的“小樣本”數(shù)據(jù)處理能力[6].本文擬利用深度學(xué)習(xí)的思想搭建耕地面積預(yù)測模型,提出一種基于深度信任SVR的耕地面積預(yù)測方法.
1深度信任SVR算法
未來年耕地面積預(yù)測過程中,由于影響因素較多,故非線性運算計算量大,考慮到深度學(xué)習(xí)的非線性擬合能力較淺層機器學(xué)習(xí)算法強,本文利用深度學(xué)習(xí)的思想構(gòu)建基于深度信任網(wǎng)絡(luò)的SVR模型.
1.1深度信任網(wǎng)絡(luò)模型的搭建與實現(xiàn)
本文搭建的深度信任網(wǎng)絡(luò)由1層高斯分布函數(shù)顯層節(jié)點的RBM、多層隱層RBM和1層SVR模型構(gòu)成.模型預(yù)訓(xùn)練過程中,輸入層的數(shù)據(jù)聯(lián)合分布及顯隱層條件分布的計算方式為:
(1)
中間層為傳統(tǒng)的RBM信息轉(zhuǎn)換,即(顯層)伯努利-(隱層)伯努利RBM數(shù)據(jù)轉(zhuǎn)換,其能量函數(shù)定義為:
(2)
式中:θ為給定模型參數(shù),ωij表示顯層節(jié)點vi和隱層節(jié)點hj之間的關(guān)聯(lián)權(quán)值,bi為顯層節(jié)點偏移量,αj為隱層節(jié)點偏移量,I為顯層結(jié)構(gòu)的結(jié)點數(shù),J表示隱層結(jié)構(gòu)的結(jié)點數(shù).
RBM顯層和隱層節(jié)點對應(yīng)的條件概率定義為:
(3)
(4)
Δωij=Edata(vihj)-Emodel(vihj),
(5)
式中:Edata(vihj)為訓(xùn)練數(shù)據(jù)集的期望,Emodel(vihj)為模型中定義的期望.
1.2SVR模型
SVR算法通過對支持向量的核函數(shù)變換提取有效信息得出決策結(jié)果.圖1為SVR的模型示意圖.
設(shè){(xi,yi),i=1,2,…,n}為預(yù)測參考數(shù)據(jù)樣本集.樣本集中共有n個樣本數(shù)據(jù).其中,x為輸入向量,且xi∈Rd;yi為決策結(jié)果,yi∈R.SVR的函數(shù)表達式為:
f(x)=ω·φ(x)+b,
(6)
式中:ω表示不同因素所取的權(quán)值,φ(x)表示映射函數(shù).考慮到映射數(shù)據(jù)有可能依然存在高維空間線性不可分性,而該部分數(shù)據(jù)的高維模糊可分對實際預(yù)測影響較小,引入松弛變量來控制模糊分類的尺度.SVR的優(yōu)化可表示為:
(7)
式中:ξ、ξ*均為松弛變量.該函數(shù)的優(yōu)化問題,可以通過Lagrange函數(shù)進行求解:
(8)
由式(8)求解式(6),則SVR預(yù)測模型為:
(9)
式中:K(xi,x)為SVR核函數(shù),可根據(jù)實際需求選取精度合適的核函數(shù).
1.3深度信任SVR模型搭建
本文搭建的深度信任SVR模型不同于傳統(tǒng)的SVR淺層模型.該模型由1層帶高斯分布顯層節(jié)點的RBM、多層隱層RBM和1層SVR機構(gòu)成的深度學(xué)習(xí)模型(模型示意圖如圖2所示).其中,數(shù)據(jù)輸入層為帶高斯節(jié)點的RBM,該輸入模型將影響耕地面積因素的相關(guān)類高斯分布信息轉(zhuǎn)化為深度信任網(wǎng)絡(luò)易于識別和處理的伯努利分布數(shù)據(jù).數(shù)據(jù)經(jīng)過轉(zhuǎn)化后,經(jīng)過多層隱層RBM完成數(shù)據(jù)轉(zhuǎn)換和關(guān)鍵信息提取,最后將經(jīng)過多層神經(jīng)網(wǎng)絡(luò)優(yōu)化后的關(guān)鍵數(shù)據(jù)輸入SVR模型,擬合歷史數(shù)據(jù)完成為來年耕地面積信息預(yù)測的目的.
圖2 深度信任SVR模型示意圖Fig.2 Schematic diagram of deep belief support vector regression
2基于深度信任SVR的耕地面積預(yù)測
利用本文提出的深度信任SVR模型構(gòu)建耕地面積預(yù)測系統(tǒng).充分考慮影響土地變化的關(guān)鍵因素及數(shù)據(jù)的可獲取性選取訓(xùn)練樣本,使用訓(xùn)練樣本集訓(xùn)練深度信任網(wǎng)絡(luò),選取模型精確運行所需的關(guān)鍵參數(shù),根據(jù)關(guān)鍵參數(shù)及相關(guān)測試集數(shù)據(jù)運行預(yù)測系統(tǒng)得出相關(guān)預(yù)測數(shù)據(jù).
2.1影響耕地面積的因素選取
耕地面積的變化受城鄉(xiāng)人口、經(jīng)濟發(fā)展、產(chǎn)業(yè)結(jié)構(gòu)、農(nóng)業(yè)生產(chǎn)技術(shù)以及相關(guān)政策等諸多因素的影響.本文結(jié)合實際,考慮相關(guān)因素的重要性、數(shù)據(jù)的可得性,利用文獻[1]提出的關(guān)聯(lián)分析法選取綜合影響因子最高的若干因素作為預(yù)測耕地面積變化的影響因素.這些影響因素有:城鄉(xiāng)總?cè)丝跀?shù)、人均GDP、產(chǎn)業(yè)結(jié)構(gòu)比、糧食總生產(chǎn)量、農(nóng)業(yè)生產(chǎn)機械化程度、土地管理政策等.考慮某些數(shù)據(jù)直接量化較為困難,本文對農(nóng)業(yè)生產(chǎn)機械化程度和土地管理政策等不易量化的數(shù)據(jù)進行歸一化處理,即通過數(shù)據(jù)影響因素與耕地變化的關(guān)聯(lián)度與最大耕地面積影響狀態(tài)的比值作為該數(shù)據(jù)的量化值.
2.2深度信任SVR的耕地面積預(yù)測實現(xiàn)步驟
深度信任SVR的耕地面積預(yù)測系統(tǒng)的具體實現(xiàn)步驟如下.
步驟1:初始化.
1) 獲取目標城市過去連續(xù)若干年的耕地面積數(shù)據(jù)和相關(guān)影響因素數(shù)據(jù),對影響因素數(shù)據(jù)進行歸一化處理作為輸入數(shù)據(jù)集,輸出數(shù)據(jù)集為與之對應(yīng)的耕地面積.
2) 初始化深度信任網(wǎng)絡(luò)中RBM顯、隱層單元個數(shù),以及SVR機的相關(guān)參數(shù).
3) 利用影響因子關(guān)聯(lián)度初始化樣本權(quán)值.
步驟2:訓(xùn)練預(yù)測模型.
1) 選擇深度信任網(wǎng)絡(luò)所含隱層結(jié)構(gòu)的層數(shù).
2) 利用式(1)、(2)輸入影響因素歸一化數(shù)據(jù),將輸入數(shù)據(jù)分布形式進行訓(xùn)練及轉(zhuǎn)化.
3) 利用式(3)、(4)對訓(xùn)練數(shù)據(jù)信息進一步在隱層結(jié)構(gòu)逐層提取并等效轉(zhuǎn)換.
4) 利用式(5)更新權(quán)值.
5) 驗證預(yù)測精度,根據(jù)測試集數(shù)據(jù)判斷預(yù)測精度是否達到所需要求.
6) 根據(jù)驗證結(jié)果,調(diào)整深度信任網(wǎng)絡(luò)層數(shù)及SVR機核函數(shù)參數(shù)等,直至輸出結(jié)果精度達到要求.
7) 輸出最終預(yù)測結(jié)果.
3實驗結(jié)果與分析
為了檢測基于深度信任SVR的耕地面積預(yù)測算法的預(yù)測性能進行實驗.搭建耕地面積預(yù)測系統(tǒng)并選取影響耕地面積的相關(guān)指標數(shù)據(jù)作為訓(xùn)練及測試樣本集進行訓(xùn)練及測試,確定預(yù)測系統(tǒng)的結(jié)構(gòu).在同一平臺下,將深度信任SVR算法和其他經(jīng)典的耕地面積預(yù)測算法相比較,驗證算法的可行性.
3.1訓(xùn)練及測試樣本集的選取
根據(jù)統(tǒng)計年鑒數(shù)據(jù)選取福建省某地級市2001—2014年間的城鄉(xiāng)總?cè)丝跀?shù)、人均GDP、產(chǎn)業(yè)結(jié)構(gòu)比(二產(chǎn)業(yè)/三產(chǎn)業(yè)的比值)、糧食總生產(chǎn)量等統(tǒng)計數(shù)據(jù),并參考相關(guān)農(nóng)業(yè)生產(chǎn)機械化程度和土地管理政策并對其歸一化量化處理(即取這兩種數(shù)據(jù)影響因素與耕地變化的關(guān)聯(lián)度與最大耕地面積影響狀態(tài)的比值作為該數(shù)據(jù)的量化值),將其作為本文提出的深度信任SVR模型的訓(xùn)練及測試樣本.其中2001—2007年的數(shù)據(jù)用來作為預(yù)測模型的訓(xùn)練樣本,2008—2014年的數(shù)據(jù)用來作為預(yù)測模型的測試樣本.
3.2耕地面積預(yù)測系統(tǒng)搭建
本文搭建的耕地面積預(yù)測系統(tǒng)模型訓(xùn)練生成部分采用離線訓(xùn)練的方式,通過事先對模型及訓(xùn)練數(shù)據(jù)進行訓(xùn)練擬合生成相關(guān)模型參數(shù).預(yù)測的過程系統(tǒng)在線完成,即利用離線訓(xùn)練成熟的模型進行在線預(yù)測,大大提高系統(tǒng)的實時性和穩(wěn)定性.本實驗搭建的耕地面積預(yù)測系統(tǒng)框架示意圖如圖3所示.
圖3 耕地面積預(yù)測系統(tǒng)框架示意圖Fig.3 Schematic diagram of cultivated land area prediction system
3.3深度信任SVR的結(jié)構(gòu)層數(shù)的選取
深度學(xué)習(xí)預(yù)測算法的計算精度會受到算法結(jié)構(gòu)的影響,其中深度學(xué)習(xí)的層數(shù)選取對預(yù)測精度影響較大,本文通過實驗對比選擇較為合適的預(yù)測算法結(jié)構(gòu).考慮到深度學(xué)習(xí)算法顯、隱層層數(shù)過少會影響數(shù)據(jù)的轉(zhuǎn)化,過多又會增加運算量及產(chǎn)生過擬合現(xiàn)象[7—9].故本文在3~6層之間選擇預(yù)測精度最高的深度信任SVR預(yù)測結(jié)構(gòu),各層神經(jīng)節(jié)點初始數(shù)分別設(shè)為45、60、80、120、90、70.訓(xùn)練數(shù)據(jù)參考城市統(tǒng)計年鑒及其他相關(guān)資料,整理部分相關(guān)原始數(shù)據(jù)見表1.
表1 原始數(shù)據(jù)
不同層數(shù)結(jié)構(gòu)的深度信任SVR耕地面積預(yù)測結(jié)果與實際真實數(shù)據(jù)的比較如圖4所示.可以看出,5層結(jié)構(gòu)的深度信任SVR預(yù)測模型的預(yù)測結(jié)果精度最高,可以選擇搭建5層結(jié)構(gòu)的深度信任SVR預(yù)測模型作為實驗對比模型.
3.4與其他耕地面積預(yù)測算法精度比較
將提出的深度信任SVR的耕地面積預(yù)測方法與文獻[10—11]提出的核函數(shù)SVR耕地面積預(yù)測模型、灰色-馬爾科夫耕地面積模型相比較,驗證深度信任SVR的耕地面積預(yù)測方法的有效性.
實驗中設(shè)定深度信任SVR的層數(shù)為5層,SVR的核函數(shù)選擇徑向基核函數(shù).本文提出的深度信任SVR的耕地面積預(yù)測方法與其他較為經(jīng)典的耕地面積預(yù)測算法的預(yù)測結(jié)果比較如圖5所示.由預(yù)測結(jié)果和真實數(shù)值的比較可以看出,本文提出的耕地面積預(yù)測算法所得出的結(jié)果更加接近真實值,預(yù)測結(jié)果要優(yōu)于其他兩種經(jīng)典預(yù)測算法.
圖4 不同層數(shù)的深度信任SVR的耕地面積預(yù)測結(jié)果與實際真實數(shù)據(jù)比較Fig.4 Comparison chart of predicted and actual values from different layers deep belief SVR
圖5 本文算法與經(jīng)典面積預(yù)測算法預(yù)測結(jié)果比較Fig.5 Comparison chart of proposed algorithm and classic area prediction algorithm
4結(jié)論
為了實現(xiàn)小樣本數(shù)據(jù)條件下的精確預(yù)測,本文提出一種基于深度信任SVR的耕地面積預(yù)測方法.通過構(gòu)建多層具有顯、隱層結(jié)構(gòu)的深度信任神經(jīng)網(wǎng)絡(luò)模型提取學(xué)習(xí)數(shù)據(jù)的關(guān)鍵信息并輸入SVR模型實現(xiàn)耕地面積預(yù)測.實驗結(jié)果表明,本文提出的耕地面積預(yù)測方法在相同的數(shù)據(jù)和平臺下,其預(yù)測精度優(yōu)于其他預(yù)測算法.
參考文獻:
[1]王霞,王占岐,金貴,等. 基于核函數(shù)支持向量回歸機的耕地面積預(yù)測[J]. 農(nóng)業(yè)工程學(xué)報, 2014, 30(4):204—211.
[2]趙艷玲,何廳廳,劉亞萍,等. 基于FSA-LSSVR模型的安徽省耕地變化預(yù)測[J]. 水土保持研究, 2014, 21(3):136—140.
[3]QUAN B, ROMKENS M J M, BINGNER R L. Changes in spatiotemporal land use patterns in selected hydrogeomorphic areas of China and the USA[J]. Int J Geosci,2013,4(3): 537—548.
[4]靳江偉,董春芳,馮國紅. 基于灰色關(guān)聯(lián)支持向量機的混凝土抗壓強度預(yù)測[J]. 鄭州大學(xué)學(xué)報(理學(xué)版), 2015, 47 (3):59—63.
[5]楊梅,李廣. 小麥產(chǎn)量預(yù)測模型的仿真研究[J]. 計算機仿真, 2013, 30(10):382—385.
[6]張艷萍,史巖巖,王珊珊. 支持向量機初始化常模算法在MIMO系統(tǒng)中的應(yīng)用[J]. 河南科技大學(xué)學(xué)報(自然科學(xué)版), 2014,35(2):33—37.
[7]SARIKAYA R, HINTON G E, DEORAS A. Application of deep belief networks for natural language understanding[J]. IEEE T Audi Speech Lang Proc, 2014, 22(4): 778 —784.
[8]HJELM R D,CALHOUN V D. Restricted Boltzmann machines for neuroimaging: an application in identifying intrinsic networks[J]. Neuroimage, 2014, 96(7): 245—260.
[9]王杰,賈育衡. 一種基于AdaBoost的極限學(xué)習(xí)機分類方法[J]. 鄭州大學(xué)學(xué)報(理學(xué)版), 2014, 46(2):55—58.
[10]SUNG E. Cultivated land prediction using different kernel based support vector regression[J]. J Converg Inform Technol, 2015,10(3):85—95.
[11]雷師,全斌,歐陽鴻,等. 基于Markov模型的長沙市和泉州市土地利用變化預(yù)測及對比研究[J]. 水土保持研究, 2013, 20(6):224—229.
(責(zé)任編輯:王浩毅)
Cultivated Land Acreage Prediction Based on Deep Belief Support Vector Regression Algorithm
WANG Hong1, LIU Weiming2
(1.SchoolofTransportation,FujianUniversityofTechnology,Fuzhou350108,China;2.SchoolofCivilEngineeringandTransportation,SouthChinaUniversityofTechnology,
Guangzhou510640,China)
Abstract:The problems of machine learning in shallow for prediction were concerned because the learning and training samples was too large and complex function fitting ability was weak. A cultivated land acreage prediction based on deep belief support vector regression algorithm was proposed. Firstly, an deep belief support vector regression model was constructed by a RBM with Gaussian distribution function layer nodes, amiddle layer RBM and a support vector regression. Secondly, suitable and accessible training data was used to get the parameters of the prediction model. Finally, comparsion between the deep belief support vector regression land acreage prediction and other typical farmland prediction algorithm were conducted. Results showed that the propose method was workable and effective, which perform better than the typical farmland prediction algorithm with the same data and condition.
Key words:deep belief network; support vector regression; cultivated land forecasting; deep learning
收稿日期:2015-10-25
基金項目:國家自然科學(xué)基金資助項目(51278072);福建省自然科學(xué)基金資助項目(2015J05118);福建省中青年教師教育科研項目(JA15355).
作者簡介:王洪(1978—),男, 黑龍江綏化人,碩士,主要從事工程測量、智慧城市及土地資源管理研究,E-mail: wang_qun1983@163.com.
中圖分類號:TP391.41
文獻標志碼:A
文章編號:1671-6841(2016)01-0121-06
DOI:10.3969/j.issn.1671-6841.201510030
引用本文:王洪,劉偉銘.深度信任支持向量回歸的耕地面積預(yù)測方法[J].鄭州大學(xué)學(xué)報(理學(xué)版),2016,48(1):121—126.