亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學(xué)習(xí)方法的耕地質(zhì)量評價研究

        2023-09-04 11:11:14程桂芳王鈺鑫申會詩
        河南農(nóng)業(yè)科學(xué) 2023年8期
        關(guān)鍵詞:耕地樣本預(yù)測

        程桂芳,王鈺鑫,申會詩

        (鄭州大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,河南 鄭州 450001)

        耕地對人類來說具有舉足輕重的作用,它是人類生存以及社會發(fā)展的必要條件[1-4]。根據(jù)土地變更調(diào)查數(shù)據(jù)顯示,截止2022年底我國耕地面積約為12 760.1 萬hm2,總土地面積在世界上排第3 位[5]。因為我國的人口數(shù)量眾多,平均每人擁有的土地面積卻僅為全球平均水平的1∕3,部分土地?fù)p毀污染嚴(yán)重、人多地少、耕地質(zhì)量水平偏低等問題意味著提升與保護(hù)耕地質(zhì)量的重要性。耕地質(zhì)量評價是了解區(qū)域耕地質(zhì)量水平、進(jìn)行耕地資源管理的重要基礎(chǔ)。早在1999 年我國就開展了耕地質(zhì)量定級的工作,耕地質(zhì)量等級成果的更新工作也在2014年展開,2016年發(fā)布的《耕地質(zhì)量等級》逐漸成為判別耕地質(zhì)量水平的重要依據(jù)[6]。進(jìn)行耕地質(zhì)量等級的調(diào)查評價工作,摸清耕地地力的變化以及土壤的情況,對指導(dǎo)種植業(yè)結(jié)構(gòu)調(diào)整、降低生產(chǎn)成本、科學(xué)合理施肥具有重要的現(xiàn)實意義[7-8]。

        長期以來,國內(nèi)外學(xué)者在耕地質(zhì)量評價領(lǐng)域采用較廣的方法是層次分析法、綜合指數(shù)法、回歸分析法、模糊評價法等[9-15],此類方法具有模型簡單、適用性強等特點,但同時也存在評價過程繁瑣、主觀性較強的問題。在現(xiàn)今這個大數(shù)據(jù)時代,機器學(xué)習(xí)技術(shù)的出現(xiàn)使得許多傳統(tǒng)工作變得更加精準(zhǔn)、高效。近年來,部分學(xué)者將SVM、BP 神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)技術(shù)應(yīng)用到耕地質(zhì)量評價領(lǐng)域[16-18]。但當(dāng)前耕地質(zhì)量評價工作還存在數(shù)據(jù)利用化程度不高、相關(guān)采集數(shù)據(jù)篩選不充分、建模應(yīng)用領(lǐng)域不足等問題。鑒于此,引入特征工程、機器學(xué)習(xí)[19-20]等方法,建立模型對三門峽市陜州區(qū)的耕地質(zhì)量進(jìn)行評價,并將評價結(jié)果與歷史結(jié)果進(jìn)行對比分析,以探究出最優(yōu)評價模型,為耕地質(zhì)量評價及更新工作提供些許參考,推動評價更加精準(zhǔn)、更加科學(xué)。

        1 材料和方法

        1.1 研究區(qū)概況

        陜州區(qū)位于河南省三門峽市西部,地處黃土高原東部,地勢由東峻西坦,南高北低,海拔高度范圍在252~1 884 m,氣候類型為暖溫帶大陸性季風(fēng)氣候,日照量豐富,歷年平均日照時數(shù)為2 354.4 h,氣候溫和,全年平均氣溫為13.9 ℃,歷年平均降水量為523.8 mm,但是年內(nèi)分布并不均衡,一般正常年度降雨量基本能滿足莊稼生長發(fā)育的需要。

        1.2 研究流程

        針對耕地質(zhì)量評價屬于多分類的情況,且需要滿足高精度的要求,Bagging 算法[21-22]的并行集成策略能大大提高模型分類的精度。因此將機器學(xué)習(xí)算法與Bagging 思想結(jié)合,將集成學(xué)習(xí)Bagging 算法作為耕地質(zhì)量評價模型的基本框架,采用人工神經(jīng)網(wǎng)絡(luò)(ANN)、XGBoost、LightGBM 等算法作為基學(xué)習(xí)器進(jìn)行集成,利用投票算法確定最終的預(yù)測結(jié)果。首先對耕地質(zhì)量數(shù)據(jù)集進(jìn)行處理,包括缺失值刪除或填充、數(shù)據(jù)歸一化處理、數(shù)值型數(shù)據(jù)分箱、分類型數(shù)據(jù)One-hot 編碼等,得到能夠使機器學(xué)習(xí)算法使用的入模變量,對于耕地質(zhì)量評價數(shù)據(jù)集類別比例不平衡的問題,選擇對少數(shù)類樣本進(jìn)行過采樣的方法降低樣本類別的不平衡度,將處理好后的數(shù)據(jù)分別用ANN、XGBoost、LightGBM 等模型進(jìn)行訓(xùn)練處理,并利用以ANN、XGBoost、LightGBM 等為基學(xué)習(xí)器的Bagging 集成耕地質(zhì)量評價模型進(jìn)行訓(xùn)練,比較不同模型表現(xiàn)。研究流程如圖1所示。

        圖1 基于集成學(xué)習(xí)方法的耕地質(zhì)量評價研究流程Fig.1 Research process of cultivated land quality evaluation based on ensemble learning method

        1.3 研究方法

        1.3.1 集成學(xué)習(xí) 集成學(xué)習(xí)也被稱作多分類器系統(tǒng),其基本的模型框架是先產(chǎn)生多個個體學(xué)習(xí)器,再依據(jù)某種策略方法將所產(chǎn)生的多個個體學(xué)習(xí)器組合起來,利用組合后的模型來完成學(xué)習(xí)任務(wù)。本研究所用的Bagging 算法是由BREIMA 提出的并行式集成學(xué)習(xí)算法[23-26],其主要通過盡可能選擇相對獨立同質(zhì)的且并行訓(xùn)練的基學(xué)習(xí)器,利用投票或加權(quán)平均等方法輸出運行結(jié)果。Bagging 算法的基學(xué)習(xí)器通常傾向于選擇使用低偏差和高方差的個體學(xué)習(xí)器,其降低分類算法的泛化誤差方式主要通過減少基學(xué)習(xí)器方差。

        如圖2 所示,Bagging 算法是基于Boostrapping的思想,主要從原始數(shù)據(jù)集上進(jìn)行T次的隨機有放回采樣得到T個子集,也就是產(chǎn)生了T個不同的訓(xùn)練集,再利用所產(chǎn)生的訓(xùn)練集分別訓(xùn)練產(chǎn)生T個基學(xué)習(xí)器,利用投票、加權(quán)平均等法則產(chǎn)生最終結(jié)果。通過集成并行的策略可以降低模型的方差,因此Bagging 算法的預(yù)測精度通常顯著高于單個的學(xué)習(xí)器?;鶎W(xué)習(xí)器的預(yù)測能力決定了它的整體性能,隨機采樣的過程中抽中每個樣本的概率是相同的,因此Bagging 算法具有較強的抗噪聲能力。選用ANN、XGBoost 和LightGBM 作為基學(xué)習(xí)器,通過Bagging思想投票的方法建立集成模型。

        圖2 Bagging算法結(jié)構(gòu)圖Fig.2 Bagging algorithm structure diagram

        1.3.2 ANN ANN 是基于網(wǎng)絡(luò)拓?fù)涞脑恚ㄟ^仿真人類大腦的構(gòu)造和機能,利用神經(jīng)網(wǎng)絡(luò)來完成對復(fù)雜信息的處理。人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由3個部分組成,分別為輸入層、隱藏層和輸出層,其中隱藏層既能夠是單層也能夠是多層。在實際中結(jié)合具體問題,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜程度也不同,如節(jié)點的個數(shù)、隱藏層的個數(shù)[27]。本研究采用了4 層神經(jīng)網(wǎng)絡(luò)模型,其中輸入節(jié)點數(shù)為16,隱藏層共2 層,節(jié)點數(shù)分別為50、20,輸出層節(jié)點數(shù)為6。

        1.3.3 XGBoost XGBoost 算法是先利用均值擬合預(yù)測值,計算出殘差,訓(xùn)練決策樹對計算出的殘差進(jìn)行擬合,得出新殘差,重復(fù)上述操作,直到殘差擬合到設(shè)定的精度為止,將訓(xùn)練的決策樹模型相加就得到最終的XGBoost 模型,LightGBM 模型也是對XGBoost的優(yōu)化加強[28]。

        1.3.4 數(shù)據(jù)處理 數(shù)據(jù)由河南省現(xiàn)代農(nóng)業(yè)研究院提供,查看數(shù)據(jù)特征,發(fā)現(xiàn)特征變量類型主要是int、object 和float 型3 種,其中float 浮點型有5 個,int 型有4 個,object 型有9 個,數(shù)據(jù)的具體分布如表1所示。

        表1 陜州區(qū)耕地特征數(shù)據(jù)變量分布Tab.1 Distribution of data variables of cultivated land characteristics in Shanzhou District

        由表1 可知,陜州區(qū)耕地特征數(shù)據(jù)主要包含數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù)2 種,其中數(shù)值型數(shù)據(jù)有海拔、有效土層厚、土壤容重、pH值、有機質(zhì)、有效磷和速效鉀含量7 種,分類型數(shù)據(jù)有耕層質(zhì)地、地形部位、灌溉能力、質(zhì)地構(gòu)型、生物多樣性、障礙因素、清潔程度、排水能力、農(nóng)田林網(wǎng)化以及作為目標(biāo)變量的質(zhì)量等級共10 種。將數(shù)值型數(shù)據(jù)采取卡方分箱處理,分類型數(shù)據(jù)采取one-hot編碼處理。

        數(shù)據(jù)分箱是特征工程中經(jīng)常用到的方法,它的作用是減少數(shù)據(jù)變量的復(fù)雜程度,減小噪聲對系統(tǒng)的干擾,減小算法的過度擬合,增加了自變量與因變量之間的關(guān)聯(lián)性,從而保證了模型的穩(wěn)定性??ǚ椒窒涫菙?shù)據(jù)離散化方法基于自下而上的合并區(qū)間思想。在該過程中,依據(jù)卡方檢驗的思想把相鄰2 個計算所得卡方值最小的區(qū)間進(jìn)行合并,直到滿足提前設(shè)定的停止準(zhǔn)則結(jié)束。其基本思想是:針對精確要求的數(shù)據(jù)分箱,在同一區(qū)間內(nèi)相對類別的頻率應(yīng)完全一致。因此,若2 個相鄰的區(qū)間類的分布非常相似,那么可以對2 個區(qū)間進(jìn)行合并;否則,它們應(yīng)該不進(jìn)行合并,保持分開。而它們之間具有相似類的特征就是低卡方值。

        對于數(shù)值型的7 個變量,采用卡方分箱(P值為0.05)的方法進(jìn)行處理。對于分類型變量機器學(xué)習(xí)中一般采用one-hot 獨熱編碼進(jìn)行編碼處理,其編碼方法是對N個狀態(tài)利用N位的狀態(tài)寄存器進(jìn)行編碼,每個狀態(tài)都擁有它對應(yīng)獨立的寄存器位,并且在任意時間,其中只有一位的狀態(tài)是有效的。因此,對灌溉能力、地形部位、耕層質(zhì)地等分類變量作one-hot 編碼處理,對于上述分箱后的數(shù)值型數(shù)據(jù),也根據(jù)其分箱結(jié)果采取one-hot 編碼處理,而對質(zhì)量等級等順序型變量才用順序1、2、3…來做編碼處理。編碼的結(jié)果如圖3所示。

        圖3 數(shù)據(jù)處理后的編碼結(jié)果Fig.3 Coding results after data processing

        由表2 可以看出,其中目標(biāo)變量耕地質(zhì)量等級4、5、6數(shù)量相對較多,分別為3 548、2 726、13 534個,約占總數(shù)量的97.159%,等級3、7、8 數(shù)量相對較少,分別為111、404、64 個,約占總數(shù)量的2.841%。表示樣本數(shù)據(jù)存在比較嚴(yán)重的不平衡現(xiàn)象,還需要對數(shù)據(jù)采取進(jìn)一步處理,否則模型會偏向于預(yù)測數(shù)目較多的類別,這樣即使模型預(yù)測準(zhǔn)確率較高,但卻不具備什么實際意義。

        表2 陜州區(qū)耕地質(zhì)量等級分布Tab.2 Quality grade distribution of cultivated land in Shanzhou District

        因此,采用合成少數(shù)類過采樣技術(shù)(SMOTE)合成新的少數(shù)類樣本,結(jié)果顯示,通過SMOTE 方法合成后的耕地質(zhì)量等級3、4、5、6、7、8 等均含有13 534個樣本,樣本數(shù)據(jù)達(dá)到平衡,能夠有效地避免在下一步的模型訓(xùn)練和預(yù)測中,因為樣本不平衡而造成的對于類別數(shù)目較少的樣本預(yù)測評價不準(zhǔn)確的現(xiàn)象,提高模型的魯棒性以及評價的準(zhǔn)確率。

        1.3.5 評價指標(biāo) 選用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 分?jǐn)?shù)(F1-score)4個評價指標(biāo),其中,準(zhǔn)確率表示預(yù)測正確的正例和負(fù)例占全部樣本的比例,精確率表示正確分類的正類樣本數(shù)占實際預(yù)測為正類樣本數(shù)的比例,召回率表示正確分類的正類樣本數(shù)占實際正類樣本數(shù)的比例,F(xiàn)1分?jǐn)?shù)是精確率和召回率的調(diào)和平均。具體計算如公式(1)—(4)所示:

        式中:TP表示預(yù)測為正類,實際也為正類的數(shù)量;FP表示預(yù)測為正類,實際為負(fù)類的數(shù)量;FN表示預(yù)測為負(fù)類,實際為正類的數(shù)量;TN表示預(yù)測為負(fù)類,實際也為負(fù)類的數(shù)量。

        2 結(jié)果與分析

        按照7∶3的比例將上述處理過的數(shù)據(jù)劃分為訓(xùn)練集和測試集,分別使用ANN、XGBoost、LightGBM等模型及基于XGBoost-LightGBM-ANN 的融合模型將訓(xùn)練集數(shù)據(jù)代入并訓(xùn)練模型,然后利用測試集來檢驗?zāi)P偷男Ч瑢?zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)等4個指標(biāo)作為評估指標(biāo)。

        2.1 未采樣的模型預(yù)測

        從表3 可以看出,經(jīng)過處理后的數(shù)據(jù)在耕地質(zhì)量評價單一以及組合模型預(yù)測中各指標(biāo)值均達(dá)到了0.97 以上,表明機器學(xué)習(xí)模型應(yīng)用到耕地質(zhì)量評價中產(chǎn)生了良好的效果。單一模型ANN、LightGBM、XGBoost對應(yīng)的各指標(biāo)值是遞增的趨勢,另外基于XGBoost-LightGBM-ANN 集成學(xué)習(xí)算法得到的各指標(biāo)值高于其他3 個單一模型,對應(yīng)的準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)值分別為0.997 2、0.983 4、0.989 4、0.986 3。

        表3 未采樣各模型評價指標(biāo)值Tab.3 The values of each model evaluation index before SMOTE treatment

        2.2 采樣后的模型預(yù)測

        從表4 可以看出,經(jīng)過采樣后的數(shù)據(jù)在模型預(yù)測中產(chǎn)生了明顯的效果,單一以及組合模型預(yù)測中各指標(biāo)值均達(dá)到了0.99 以上,尤其是XGBoost 以及經(jīng)過模型融合后的XGBoost-LightGBM-ANN 組合模型預(yù)測結(jié)果,對應(yīng)的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)值均達(dá)到了0.998 3。通過采樣后對不平衡數(shù)據(jù)的處理,使得模型對類別數(shù)目較少的樣本預(yù)測更為精準(zhǔn),提高了模型的泛化能力及預(yù)測的準(zhǔn)確性,也使得模型的應(yīng)用價值更加廣泛。

        表4 采樣后各模型評價指標(biāo)值Tab.4 The values of each model evaluation index after SMOTE treatment

        將原始數(shù)據(jù)帶入上述融合后的模型,查看此模型下的混淆矩陣,如表5 所示。由表5 可知,經(jīng)過模型融合后的XGBoost-LightGBM-ANN 組合模型在評價劃分各個耕地質(zhì)量等級時均較為準(zhǔn)確,誤差相對較小,且絕大多數(shù)的誤差都在相鄰類別,如4等地被劃分為3 等地和5 等地、5 等地被劃分為6 等地、7等地被劃分為6 等地和8 等地等。這些誤差產(chǎn)生的原因可能是模型訓(xùn)練樣本數(shù)量較少,對一些特殊特征變量覆蓋不夠?qū)е碌?,未來可通過增加各類訓(xùn)練樣本數(shù)量來加以改善?;贐agging 融合的模型對于耕地質(zhì)量評價有較好的分類效果,通過采樣的方法處理耕地質(zhì)量評價數(shù)據(jù)集的樣本不平衡現(xiàn)象,可以對分類預(yù)測效果帶來更好的提升。上述結(jié)果顯示,陜州區(qū)的耕地質(zhì)量等級分布在3~8等,依照我國耕地質(zhì)量劃分標(biāo)準(zhǔn)[29],1~3 等地為高等地,4~6 等地為中等地,7~10 等地為低等地,計算得出陜州區(qū)0.54%的評價單元的耕地為高等地,97.16%的評價單元的耕地為中等地,2.30%的評價單元的耕地為低等地,整體耕地質(zhì)量以中等地為主。

        表5 基于XGBoost-LightGBM-ANN模型的混淆矩陣Tab.5 Confusion matrix based on XGBoost-LightGBM-ANN model

        3 結(jié)論與討論

        本研究以三門峽市陜州區(qū)耕地為研究對象,采用基于Bagging 集成學(xué)習(xí)的耕地質(zhì)量評價方法,利用歷史已有的評價結(jié)果,通過對原始數(shù)據(jù)進(jìn)行特征處理,將處理好的數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建高精度且適宜的單一以及組合評價模型。將所需評價的耕地質(zhì)量數(shù)據(jù)代入到評價模型中,評價結(jié)果顯示,陜州區(qū)評價單元內(nèi)整體耕地質(zhì)量以中等地為主,占比達(dá)97.16%,高等地和低等地分別占比0.54%、2.30%。

        為了避免數(shù)據(jù)變量受主觀因素的影響,本研究采用特征工程的方法處理耕地特征數(shù)據(jù)。針對分類型數(shù)據(jù)采用one-hot 編碼的形式,針對連續(xù)數(shù)值型數(shù)據(jù)采用卡方分箱的方法離散化處理,并編碼賦值。針對樣本數(shù)據(jù)量較大、數(shù)據(jù)存在不平衡,構(gòu)建的模型更容易傾向于預(yù)測數(shù)據(jù)較多的類別,實際應(yīng)用價值較低等問題,本研究采用SMOTE方法合成少數(shù)類別的樣本,使模型評價更為準(zhǔn)確,更具普適性。

        考慮到耕地質(zhì)量評價工作需要達(dá)到高精確度的要求,本研究引入機器學(xué)習(xí)中ANN、XGBoost、LightGBM 等方法,并根據(jù)評價結(jié)果,通過Voting 投票機制選擇ANN、XGBoost、LightGBM等模型進(jìn)行模型融合建立耕地質(zhì)量評價Bagging 集成模型,并將預(yù)測結(jié)果對比分析。對于耕地質(zhì)量評價數(shù)據(jù),將經(jīng)過卡方分箱、分類數(shù)據(jù)編碼處理后的數(shù)據(jù)帶入模型均產(chǎn)生了良好的效果,尤其是基于Bagging 算法的XGBoost-LightGBM-ANN 組合模型評價效果均優(yōu)于其他單一模型,這對未來的耕地質(zhì)量評價模型構(gòu)建有一定的參考意義。

        傳統(tǒng)的評價方法適用性強,操作簡便,但評價過程較為主觀、繁瑣,且需要耗費較長時間。采用基于Bagging 組合模型的評價方法只需根據(jù)已有數(shù)據(jù),通過調(diào)整相應(yīng)參數(shù)獲得高精度的評價模型,將評價單元代入模型中即可得到耕地等級劃分結(jié)果。耗費時長較短,且減少了傳統(tǒng)方法中層次分析法、特爾斐法等評價方法個人主觀因素的影響?;贐agging 集成學(xué)習(xí)評價方法在數(shù)據(jù)量較大的情況下評價結(jié)果較為準(zhǔn)確,在數(shù)據(jù)量小的情況下,數(shù)據(jù)存在一些細(xì)微偏差,可以通過調(diào)節(jié)相應(yīng)參數(shù)獲得最合適的模型,或?qū)⑵溥\用到地區(qū)的耕地質(zhì)量等級更新中,則能取得更好的效果。

        猜你喜歡
        耕地樣本預(yù)測
        自然資源部:加強黑土耕地保護(hù)
        我國將加快制定耕地保護(hù)法
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        保護(hù)耕地
        北京測繪(2021年12期)2022-01-22 03:33:36
        新增200億元列入耕地地力保護(hù)補貼支出
        用樣本估計總體復(fù)習(xí)點撥
        推動醫(yī)改的“直銷樣本”
        不必預(yù)測未來,只需把握現(xiàn)在
        一区二区三区国产精品乱码| 国产日韩欧美视频成人| 婷婷色在线视频中文字幕| 成熟妇女毛茸茸性视频| 国产色在线 | 日韩| 亚洲综合无码一区二区三区| 欧亚精品无码永久免费视频| 一区二区三区极品少妇| 国产成人午夜福利在线观看| 亚洲精品中文字幕无码蜜桃| 亚洲天堂av免费在线看| 中文字幕人妻av一区二区| 国产麻豆精品精东影业av网站 | 日日噜噜夜夜狠狠久久无码区| 欧美日韩国产另类在线观看| 亚洲韩日av中文字幕| 又大又长粗又爽又黄少妇视频| 国产在线观看免费观看| 无码一区二区三区人| 亚洲精品一区二区在线免费观看| 人人爽人人爽人人片av| 亚洲依依成人综合在线网址| 中文字幕在线一区乱码| 亚洲成人av在线蜜桃| 无码少妇一区二区性色av| 国产亚洲精久久久久久无码苍井空| 亚洲免费av第一区第二区| 伊人情人色综合网站 | 亚洲丁香婷婷综合久久小说 | 特黄大片又粗又大又暴| 日本丶国产丶欧美色综合| 国产精品国产三级国av在线观看| 精品亚洲天堂一区二区三区| 国产中文欧美日韩在线| 亚洲视频高清| 中文字幕人妻精品一区| 麻豆婷婷狠狠色18禁久久 | 久久精品国产只有精品96 | 亚洲av成人一区二区三区网址| 新视觉亚洲三区二区一区理伦| 欧美人与禽2o2o性论交|