亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于集成學(xué)習(xí)方法的耕地質(zhì)量評價研究

2023-09-04 11:11:14程桂芳王鈺鑫申會詩

河南農(nóng)業(yè)科學(xué) 2023年8期

程桂芳，王鈺鑫，申會詩

（鄭州大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院，河南鄭州 450001）

耕地對人類來說具有舉足輕重的作用，它是人類生存以及社會發(fā)展的必要條件[1-4]。根據(jù)土地變更調(diào)查數(shù)據(jù)顯示，截止2022年底我國耕地面積約為12 760.1 萬hm2，總土地面積在世界上排第3 位[5]。因為我國的人口數(shù)量眾多，平均每人擁有的土地面積卻僅為全球平均水平的1∕3，部分土地?fù)p毀污染嚴(yán)重、人多地少、耕地質(zhì)量水平偏低等問題意味著提升與保護(hù)耕地質(zhì)量的重要性。耕地質(zhì)量評價是了解區(qū)域耕地質(zhì)量水平、進(jìn)行耕地資源管理的重要基礎(chǔ)。早在1999 年我國就開展了耕地質(zhì)量定級的工作，耕地質(zhì)量等級成果的更新工作也在2014年展開，2016年發(fā)布的《耕地質(zhì)量等級》逐漸成為判別耕地質(zhì)量水平的重要依據(jù)[6]。進(jìn)行耕地質(zhì)量等級的調(diào)查評價工作，摸清耕地地力的變化以及土壤的情況，對指導(dǎo)種植業(yè)結(jié)構(gòu)調(diào)整、降低生產(chǎn)成本、科學(xué)合理施肥具有重要的現(xiàn)實意義[7-8]。

長期以來，國內(nèi)外學(xué)者在耕地質(zhì)量評價領(lǐng)域采用較廣的方法是層次分析法、綜合指數(shù)法、回歸分析法、模糊評價法等[9-15]，此類方法具有模型簡單、適用性強等特點，但同時也存在評價過程繁瑣、主觀性較強的問題。在現(xiàn)今這個大數(shù)據(jù)時代，機器學(xué)習(xí)技術(shù)的出現(xiàn)使得許多傳統(tǒng)工作變得更加精準(zhǔn)、高效。近年來，部分學(xué)者將SVM、BP 神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)技術(shù)應(yīng)用到耕地質(zhì)量評價領(lǐng)域[16-18]。但當(dāng)前耕地質(zhì)量評價工作還存在數(shù)據(jù)利用化程度不高、相關(guān)采集數(shù)據(jù)篩選不充分、建模應(yīng)用領(lǐng)域不足等問題。鑒于此，引入特征工程、機器學(xué)習(xí)[19-20]等方法，建立模型對三門峽市陜州區(qū)的耕地質(zhì)量進(jìn)行評價，并將評價結(jié)果與歷史結(jié)果進(jìn)行對比分析，以探究出最優(yōu)評價模型，為耕地質(zhì)量評價及更新工作提供些許參考，推動評價更加精準(zhǔn)、更加科學(xué)。

1 材料和方法

1.1 研究區(qū)概況

陜州區(qū)位于河南省三門峽市西部，地處黃土高原東部，地勢由東峻西坦，南高北低，海拔高度范圍在252～1 884 m，氣候類型為暖溫帶大陸性季風(fēng)氣候，日照量豐富，歷年平均日照時數(shù)為2 354.4 h，氣候溫和，全年平均氣溫為13.9 ℃，歷年平均降水量為523.8 mm，但是年內(nèi)分布并不均衡，一般正常年度降雨量基本能滿足莊稼生長發(fā)育的需要。

1.2 研究流程

針對耕地質(zhì)量評價屬于多分類的情況，且需要滿足高精度的要求，Bagging 算法[21-22]的并行集成策略能大大提高模型分類的精度。因此將機器學(xué)習(xí)算法與Bagging 思想結(jié)合，將集成學(xué)習(xí)Bagging 算法作為耕地質(zhì)量評價模型的基本框架，采用人工神經(jīng)網(wǎng)絡(luò)（ANN）、XGBoost、LightGBM 等算法作為基學(xué)習(xí)器進(jìn)行集成，利用投票算法確定最終的預(yù)測結(jié)果。首先對耕地質(zhì)量數(shù)據(jù)集進(jìn)行處理，包括缺失值刪除或填充、數(shù)據(jù)歸一化處理、數(shù)值型數(shù)據(jù)分箱、分類型數(shù)據(jù)One-hot 編碼等，得到能夠使機器學(xué)習(xí)算法使用的入模變量，對于耕地質(zhì)量評價數(shù)據(jù)集類別比例不平衡的問題，選擇對少數(shù)類樣本進(jìn)行過采樣的方法降低樣本類別的不平衡度，將處理好后的數(shù)據(jù)分別用ANN、XGBoost、LightGBM 等模型進(jìn)行訓(xùn)練處理，并利用以ANN、XGBoost、LightGBM 等為基學(xué)習(xí)器的Bagging 集成耕地質(zhì)量評價模型進(jìn)行訓(xùn)練，比較不同模型表現(xiàn)。研究流程如圖1所示。

圖1 基于集成學(xué)習(xí)方法的耕地質(zhì)量評價研究流程Fig.1 Research process of cultivated land quality evaluation based on ensemble learning method

1.3 研究方法

1.3.1 集成學(xué)習(xí) 集成學(xué)習(xí)也被稱作多分類器系統(tǒng)，其基本的模型框架是先產(chǎn)生多個個體學(xué)習(xí)器，再依據(jù)某種策略方法將所產(chǎn)生的多個個體學(xué)習(xí)器組合起來，利用組合后的模型來完成學(xué)習(xí)任務(wù)。本研究所用的Bagging 算法是由BREIMA 提出的并行式集成學(xué)習(xí)算法[23-26]，其主要通過盡可能選擇相對獨立同質(zhì)的且并行訓(xùn)練的基學(xué)習(xí)器，利用投票或加權(quán)平均等方法輸出運行結(jié)果。Bagging 算法的基學(xué)習(xí)器通常傾向于選擇使用低偏差和高方差的個體學(xué)習(xí)器，其降低分類算法的泛化誤差方式主要通過減少基學(xué)習(xí)器方差。

如圖2 所示，Bagging 算法是基于Boostrapping的思想，主要從原始數(shù)據(jù)集上進(jìn)行T次的隨機有放回采樣得到T個子集，也就是產(chǎn)生了T個不同的訓(xùn)練集，再利用所產(chǎn)生的訓(xùn)練集分別訓(xùn)練產(chǎn)生T個基學(xué)習(xí)器，利用投票、加權(quán)平均等法則產(chǎn)生最終結(jié)果。通過集成并行的策略可以降低模型的方差，因此Bagging 算法的預(yù)測精度通常顯著高于單個的學(xué)習(xí)器?；鶎W(xué)習(xí)器的預(yù)測能力決定了它的整體性能，隨機采樣的過程中抽中每個樣本的概率是相同的，因此Bagging 算法具有較強的抗噪聲能力。選用ANN、XGBoost 和LightGBM 作為基學(xué)習(xí)器，通過Bagging思想投票的方法建立集成模型。

圖2 Bagging算法結(jié)構(gòu)圖Fig.2 Bagging algorithm structure diagram

1.3.2 ANN ANN 是基于網(wǎng)絡(luò)拓?fù)涞脑恚ㄟ^仿真人類大腦的構(gòu)造和機能，利用神經(jīng)網(wǎng)絡(luò)來完成對復(fù)雜信息的處理。人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由3個部分組成，分別為輸入層、隱藏層和輸出層，其中隱藏層既能夠是單層也能夠是多層。在實際中結(jié)合具體問題，神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜程度也不同，如節(jié)點的個數(shù)、隱藏層的個數(shù)[27]。本研究采用了4 層神經(jīng)網(wǎng)絡(luò)模型，其中輸入節(jié)點數(shù)為16，隱藏層共2 層，節(jié)點數(shù)分別為50、20，輸出層節(jié)點數(shù)為6。

1.3.3 XGBoost XGBoost 算法是先利用均值擬合預(yù)測值，計算出殘差，訓(xùn)練決策樹對計算出的殘差進(jìn)行擬合，得出新殘差，重復(fù)上述操作，直到殘差擬合到設(shè)定的精度為止，將訓(xùn)練的決策樹模型相加就得到最終的XGBoost 模型，LightGBM 模型也是對XGBoost的優(yōu)化加強[28]。

1.3.4 數(shù)據(jù)處理數(shù)據(jù)由河南省現(xiàn)代農(nóng)業(yè)研究院提供，查看數(shù)據(jù)特征，發(fā)現(xiàn)特征變量類型主要是int、object 和float 型3 種，其中float 浮點型有5 個，int 型有4 個，object 型有9 個，數(shù)據(jù)的具體分布如表1所示。

表1 陜州區(qū)耕地特征數(shù)據(jù)變量分布Tab.1 Distribution of data variables of cultivated land characteristics in Shanzhou District

由表1 可知，陜州區(qū)耕地特征數(shù)據(jù)主要包含數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù)2 種，其中數(shù)值型數(shù)據(jù)有海拔、有效土層厚、土壤容重、pH值、有機質(zhì)、有效磷和速效鉀含量7 種，分類型數(shù)據(jù)有耕層質(zhì)地、地形部位、灌溉能力、質(zhì)地構(gòu)型、生物多樣性、障礙因素、清潔程度、排水能力、農(nóng)田林網(wǎng)化以及作為目標(biāo)變量的質(zhì)量等級共10 種。將數(shù)值型數(shù)據(jù)采取卡方分箱處理，分類型數(shù)據(jù)采取one-hot編碼處理。

數(shù)據(jù)分箱是特征工程中經(jīng)常用到的方法，它的作用是減少數(shù)據(jù)變量的復(fù)雜程度，減小噪聲對系統(tǒng)的干擾，減小算法的過度擬合，增加了自變量與因變量之間的關(guān)聯(lián)性，從而保證了模型的穩(wěn)定性?？ǚ椒窒涫菙?shù)據(jù)離散化方法基于自下而上的合并區(qū)間思想。在該過程中，依據(jù)卡方檢驗的思想把相鄰2 個計算所得卡方值最小的區(qū)間進(jìn)行合并，直到滿足提前設(shè)定的停止準(zhǔn)則結(jié)束。其基本思想是：針對精確要求的數(shù)據(jù)分箱，在同一區(qū)間內(nèi)相對類別的頻率應(yīng)完全一致。因此，若2 個相鄰的區(qū)間類的分布非常相似，那么可以對2 個區(qū)間進(jìn)行合并；否則，它們應(yīng)該不進(jìn)行合并，保持分開。而它們之間具有相似類的特征就是低卡方值。

對于數(shù)值型的7 個變量，采用卡方分箱（P值為0.05）的方法進(jìn)行處理。對于分類型變量機器學(xué)習(xí)中一般采用one-hot 獨熱編碼進(jìn)行編碼處理，其編碼方法是對N個狀態(tài)利用N位的狀態(tài)寄存器進(jìn)行編碼，每個狀態(tài)都擁有它對應(yīng)獨立的寄存器位，并且在任意時間，其中只有一位的狀態(tài)是有效的。因此，對灌溉能力、地形部位、耕層質(zhì)地等分類變量作one-hot 編碼處理，對于上述分箱后的數(shù)值型數(shù)據(jù)，也根據(jù)其分箱結(jié)果采取one-hot 編碼處理，而對質(zhì)量等級等順序型變量才用順序1、2、3…來做編碼處理。編碼的結(jié)果如圖3所示。

圖3 數(shù)據(jù)處理后的編碼結(jié)果Fig.3 Coding results after data processing

由表2 可以看出，其中目標(biāo)變量耕地質(zhì)量等級4、5、6數(shù)量相對較多，分別為3 548、2 726、13 534個，約占總數(shù)量的97.159%，等級3、7、8 數(shù)量相對較少，分別為111、404、64 個，約占總數(shù)量的2.841%。表示樣本數(shù)據(jù)存在比較嚴(yán)重的不平衡現(xiàn)象，還需要對數(shù)據(jù)采取進(jìn)一步處理，否則模型會偏向于預(yù)測數(shù)目較多的類別，這樣即使模型預(yù)測準(zhǔn)確率較高，但卻不具備什么實際意義。

表2 陜州區(qū)耕地質(zhì)量等級分布Tab.2 Quality grade distribution of cultivated land in Shanzhou District

因此，采用合成少數(shù)類過采樣技術(shù)（SMOTE）合成新的少數(shù)類樣本，結(jié)果顯示，通過SMOTE 方法合成后的耕地質(zhì)量等級3、4、5、6、7、8 等均含有13 534個樣本，樣本數(shù)據(jù)達(dá)到平衡，能夠有效地避免在下一步的模型訓(xùn)練和預(yù)測中，因為樣本不平衡而造成的對于類別數(shù)目較少的樣本預(yù)測評價不準(zhǔn)確的現(xiàn)象，提高模型的魯棒性以及評價的準(zhǔn)確率。

1.3.5 評價指標(biāo) 選用準(zhǔn)確率（Accuracy）、精確率（Precision）、召回率（Recall）和F1 分?jǐn)?shù)（F1-score）4個評價指標(biāo)，其中，準(zhǔn)確率表示預(yù)測正確的正例和負(fù)例占全部樣本的比例，精確率表示正確分類的正類樣本數(shù)占實際預(yù)測為正類樣本數(shù)的比例，召回率表示正確分類的正類樣本數(shù)占實際正類樣本數(shù)的比例，F(xiàn)1分?jǐn)?shù)是精確率和召回率的調(diào)和平均。具體計算如公式（1）—（4）所示：

式中：TP表示預(yù)測為正類，實際也為正類的數(shù)量；FP表示預(yù)測為正類，實際為負(fù)類的數(shù)量；FN表示預(yù)測為負(fù)類，實際為正類的數(shù)量；TN表示預(yù)測為負(fù)類，實際也為負(fù)類的數(shù)量。

2 結(jié)果與分析

按照7∶3的比例將上述處理過的數(shù)據(jù)劃分為訓(xùn)練集和測試集，分別使用ANN、XGBoost、LightGBM等模型及基于XGBoost-LightGBM-ANN 的融合模型將訓(xùn)練集數(shù)據(jù)代入并訓(xùn)練模型，然后利用測試集來檢驗?zāi)Ｐ偷男Ч瑢?zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)等4個指標(biāo)作為評估指標(biāo)。

2.1 未采樣的模型預(yù)測

從表3 可以看出，經(jīng)過處理后的數(shù)據(jù)在耕地質(zhì)量評價單一以及組合模型預(yù)測中各指標(biāo)值均達(dá)到了0.97 以上，表明機器學(xué)習(xí)模型應(yīng)用到耕地質(zhì)量評價中產(chǎn)生了良好的效果。單一模型ANN、LightGBM、XGBoost對應(yīng)的各指標(biāo)值是遞增的趨勢，另外基于XGBoost-LightGBM-ANN 集成學(xué)習(xí)算法得到的各指標(biāo)值高于其他3 個單一模型，對應(yīng)的準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)值分別為0.997 2、0.983 4、0.989 4、0.986 3。

表3 未采樣各模型評價指標(biāo)值Tab.3 The values of each model evaluation index before SMOTE treatment

2.2 采樣后的模型預(yù)測

從表4 可以看出，經(jīng)過采樣后的數(shù)據(jù)在模型預(yù)測中產(chǎn)生了明顯的效果，單一以及組合模型預(yù)測中各指標(biāo)值均達(dá)到了0.99 以上，尤其是XGBoost 以及經(jīng)過模型融合后的XGBoost-LightGBM-ANN 組合模型預(yù)測結(jié)果，對應(yīng)的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)值均達(dá)到了0.998 3。通過采樣后對不平衡數(shù)據(jù)的處理，使得模型對類別數(shù)目較少的樣本預(yù)測更為精準(zhǔn)，提高了模型的泛化能力及預(yù)測的準(zhǔn)確性，也使得模型的應(yīng)用價值更加廣泛。

表4 采樣后各模型評價指標(biāo)值Tab.4 The values of each model evaluation index after SMOTE treatment

將原始數(shù)據(jù)帶入上述融合后的模型，查看此模型下的混淆矩陣，如表5 所示。由表5 可知，經(jīng)過模型融合后的XGBoost-LightGBM-ANN 組合模型在評價劃分各個耕地質(zhì)量等級時均較為準(zhǔn)確，誤差相對較小，且絕大多數(shù)的誤差都在相鄰類別，如4等地被劃分為3 等地和5 等地、5 等地被劃分為6 等地、7等地被劃分為6 等地和8 等地等。這些誤差產(chǎn)生的原因可能是模型訓(xùn)練樣本數(shù)量較少，對一些特殊特征變量覆蓋不夠?qū)е碌?，未來可通過增加各類訓(xùn)練樣本數(shù)量來加以改善?；贐agging 融合的模型對于耕地質(zhì)量評價有較好的分類效果，通過采樣的方法處理耕地質(zhì)量評價數(shù)據(jù)集的樣本不平衡現(xiàn)象，可以對分類預(yù)測效果帶來更好的提升。上述結(jié)果顯示，陜州區(qū)的耕地質(zhì)量等級分布在3～8等，依照我國耕地質(zhì)量劃分標(biāo)準(zhǔn)[29]，1～3 等地為高等地，4～6 等地為中等地，7～10 等地為低等地，計算得出陜州區(qū)0.54%的評價單元的耕地為高等地，97.16%的評價單元的耕地為中等地，2.30%的評價單元的耕地為低等地，整體耕地質(zhì)量以中等地為主。

表5 基于XGBoost-LightGBM-ANN模型的混淆矩陣Tab.5 Confusion matrix based on XGBoost-LightGBM-ANN model

3 結(jié)論與討論

本研究以三門峽市陜州區(qū)耕地為研究對象，采用基于Bagging 集成學(xué)習(xí)的耕地質(zhì)量評價方法，利用歷史已有的評價結(jié)果，通過對原始數(shù)據(jù)進(jìn)行特征處理，將處理好的數(shù)據(jù)進(jìn)行訓(xùn)練，構(gòu)建高精度且適宜的單一以及組合評價模型。將所需評價的耕地質(zhì)量數(shù)據(jù)代入到評價模型中，評價結(jié)果顯示，陜州區(qū)評價單元內(nèi)整體耕地質(zhì)量以中等地為主，占比達(dá)97.16%，高等地和低等地分別占比0.54%、2.30%。

為了避免數(shù)據(jù)變量受主觀因素的影響，本研究采用特征工程的方法處理耕地特征數(shù)據(jù)。針對分類型數(shù)據(jù)采用one-hot 編碼的形式，針對連續(xù)數(shù)值型數(shù)據(jù)采用卡方分箱的方法離散化處理，并編碼賦值。針對樣本數(shù)據(jù)量較大、數(shù)據(jù)存在不平衡，構(gòu)建的模型更容易傾向于預(yù)測數(shù)據(jù)較多的類別，實際應(yīng)用價值較低等問題，本研究采用SMOTE方法合成少數(shù)類別的樣本，使模型評價更為準(zhǔn)確，更具普適性。

考慮到耕地質(zhì)量評價工作需要達(dá)到高精確度的要求，本研究引入機器學(xué)習(xí)中ANN、XGBoost、LightGBM 等方法，并根據(jù)評價結(jié)果，通過Voting 投票機制選擇ANN、XGBoost、LightGBM等模型進(jìn)行模型融合建立耕地質(zhì)量評價Bagging 集成模型，并將預(yù)測結(jié)果對比分析。對于耕地質(zhì)量評價數(shù)據(jù)，將經(jīng)過卡方分箱、分類數(shù)據(jù)編碼處理后的數(shù)據(jù)帶入模型均產(chǎn)生了良好的效果，尤其是基于Bagging 算法的XGBoost-LightGBM-ANN 組合模型評價效果均優(yōu)于其他單一模型，這對未來的耕地質(zhì)量評價模型構(gòu)建有一定的參考意義。

傳統(tǒng)的評價方法適用性強，操作簡便，但評價過程較為主觀、繁瑣，且需要耗費較長時間。采用基于Bagging 組合模型的評價方法只需根據(jù)已有數(shù)據(jù)，通過調(diào)整相應(yīng)參數(shù)獲得高精度的評價模型，將評價單元代入模型中即可得到耕地等級劃分結(jié)果。耗費時長較短，且減少了傳統(tǒng)方法中層次分析法、特爾斐法等評價方法個人主觀因素的影響?；贐agging 集成學(xué)習(xí)評價方法在數(shù)據(jù)量較大的情況下評價結(jié)果較為準(zhǔn)確，在數(shù)據(jù)量小的情況下，數(shù)據(jù)存在一些細(xì)微偏差，可以通過調(diào)節(jié)相應(yīng)參數(shù)獲得最合適的模型，或?qū)⑵溥\用到地區(qū)的耕地質(zhì)量等級更新中，則能取得更好的效果。