亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CatBoost 算法的藍(lán)莓生態(tài)適宜性評(píng)估模型*

        2023-05-12 02:26:30昌文峰
        關(guān)鍵詞:麻江縣藍(lán)莓特征

        昌文峰 王 霄 楊 靖 覃 濤

        (貴州大學(xué)電氣工程學(xué)院 貴陽 550025)

        1 引言

        藍(lán)莓又名越桔、越橘、藍(lán)漿果,是杜鵑花科、越橘屬植物,營養(yǎng)價(jià)值極高,因此也被譽(yù)為“水果皇后”。藍(lán)莓在消費(fèi)市場深受大眾的喜歡[1~3],藍(lán)莓產(chǎn)業(yè)帶來的經(jīng)濟(jì)效益使得越來越多的國家和地區(qū)開始大規(guī)模種植藍(lán)莓,而藍(lán)莓的生態(tài)適宜性也直接關(guān)乎藍(lán)莓果實(shí)的品質(zhì)和產(chǎn)量[4~7]。因此,對(duì)藍(lán)莓的生態(tài)適宜性進(jìn)行評(píng)估,合理地選取藍(lán)莓種植區(qū)域,對(duì)提升藍(lán)莓果實(shí)品質(zhì)及產(chǎn)量、提高藍(lán)莓產(chǎn)業(yè)經(jīng)濟(jì)效益具有重要意義。

        近年來,國內(nèi)外對(duì)藍(lán)莓生態(tài)適宜性的研究也越來越多。曹春根等[8]利用數(shù)理統(tǒng)計(jì)方法,在浙江省西南部地區(qū)調(diào)查種植在不同地點(diǎn)、不同海拔、不同土壤類別中的藍(lán)莓樹體生長量和果實(shí)性狀產(chǎn)量等,分析了藍(lán)莓在其山地種植的適宜性。董麗等[9]利用已提取數(shù)據(jù)組定量化擬合土壤pH變化對(duì)不同品種藍(lán)莓樹體生長的影響差異。秦公偉等[10]利用判斷矩陣法、線性加權(quán)求和法和層次聚類分析法對(duì)陜西省藍(lán)莓生長的潛在適生區(qū)進(jìn)行了劃分研究。茍?bào)w忠等[11]采用地累積指數(shù)法和內(nèi)梅羅污染指數(shù)法等方法對(duì)貴州省麻江縣藍(lán)莓種植基地土壤重金屬元素富集程度和潛在生態(tài)風(fēng)險(xiǎn)進(jìn)行了評(píng)價(jià)。莫建國等[12]采用相關(guān)分析法分析了不同生育期氣象條件對(duì)藍(lán)莓品質(zhì)形成的影響。Vera 等[13]確定了在智利南部的一個(gè)農(nóng)場建立和管理高叢藍(lán)莓作物的農(nóng)場領(lǐng)土單位,制定了一個(gè)農(nóng)場級(jí)別的特征,并根據(jù)其接受能力對(duì)地區(qū)和地點(diǎn)進(jìn)行了藍(lán)莓生態(tài)適宜性分類。眾多的藍(lán)莓生態(tài)適宜性的研究都是傳統(tǒng)數(shù)理統(tǒng)計(jì)方法和決策方法,該類方法具有主觀性過強(qiáng)的缺陷,降低生態(tài)適宜性的評(píng)價(jià)結(jié)果,進(jìn)而影響到藍(lán)莓產(chǎn)業(yè)的發(fā)展和果農(nóng)的增收。

        隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)技術(shù)越來越多地應(yīng)用于社會(huì)各個(gè)領(lǐng)域[14]。麻江縣作為貴州省藍(lán)莓種植面積最廣的區(qū)縣,采用機(jī)器學(xué)習(xí)算法對(duì)藍(lán)莓生態(tài)適宜性進(jìn)行科學(xué)性和精細(xì)化的評(píng)價(jià)區(qū)劃,可為麻江縣藍(lán)莓產(chǎn)業(yè)發(fā)展規(guī)劃制定提供理論依據(jù)。本研究以適合在貴州黔東南州區(qū)域種植的兔眼藍(lán)莓為研究對(duì)象,確定藍(lán)莓生態(tài)適宜性指標(biāo),通過機(jī)器學(xué)習(xí)算法對(duì)麻江縣藍(lán)莓生態(tài)適宜性進(jìn)行模型構(gòu)建及主要影響因素分析,并采用ArcMAP 10.8 軟件對(duì)麻江縣藍(lán)莓生態(tài)適宜性地圖進(jìn)行繪制。通過實(shí)驗(yàn)發(fā)現(xiàn),CatBoost 算法在藍(lán)莓生態(tài)適宜性評(píng)估效果比傳統(tǒng)機(jī)器學(xué)習(xí)模型效果更優(yōu),能為藍(lán)莓園區(qū)選址規(guī)劃和藍(lán)莓種植提供更客觀合理的科學(xué)依據(jù),進(jìn)而減少藍(lán)莓災(zāi)害、提高藍(lán)莓生產(chǎn)率、增加果農(nóng)經(jīng)濟(jì)收入。

        2 方法和資料

        2.1 基本資料和數(shù)據(jù)來源

        貴州省麻江縣DEM(數(shù)字高程模型,Digital El?evation Model)數(shù)據(jù)來自地理空間數(shù)據(jù)云的ASTER GDEM 數(shù)據(jù),DEM 數(shù)據(jù)包括坡度、坡向、高程和ND?VI(歸一化植被指數(shù),Normalized Difference Vegeta?tion Index)。氣象數(shù)據(jù)來源于貴州省氣象局2015年-2019 年逐月平均氣溫、降水量、≥10℃積溫(3月-9 月)等,土壤類型數(shù)據(jù)來源于中國土壤數(shù)據(jù)庫(Soil Science Database),包括土壤pH 和土壤有機(jī)碳含量等。數(shù)據(jù)基本來源見表1,研究區(qū)麻江縣概況見圖1。

        表1 數(shù)據(jù)來源情況

        圖1 麻江縣概況圖

        2.2 理論方法

        CatBoost(CB)是一種基于梯度提升決策樹(Gradient Boost Decision Tree,GBDT)改進(jìn)的新型算法框架,該算法以對(duì)稱決策樹為基學(xué)習(xí)器,具有參數(shù)較少、支持類別變量和高準(zhǔn)確性等特點(diǎn),能夠高效合理地處理類別型特征;此外,CB 著重解決梯度偏差和預(yù)測偏移問題,對(duì)減少過擬合發(fā)生有良好效果,能有效提升算法準(zhǔn)確性和泛化能力[15~17]。在傳統(tǒng)GBDT 算法中,處理類別型特征常用方式是利用類別特征標(biāo)簽平均值進(jìn)行替代,并且將標(biāo)簽平均值作為節(jié)點(diǎn)分裂標(biāo)準(zhǔn)[18~19],用公式表示為

        這種方法雖然簡單易實(shí)現(xiàn),但存在一個(gè)明顯的缺點(diǎn):特征往往比標(biāo)簽包含更豐富的信息,若用直接用標(biāo)簽平均值來代替特征,當(dāng)訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)和分布不一致時(shí)會(huì)出現(xiàn)條件偏移問題。

        CB算法加入先驗(yàn)項(xiàng)和權(quán)重系數(shù),減少噪聲和低頻率類別型數(shù)據(jù)對(duì)于數(shù)據(jù)分布的影響,用公式表示為

        式中:p是添加的先驗(yàn)項(xiàng);a是權(quán)重系數(shù),通常大于0。

        由于藍(lán)莓生態(tài)適宜性評(píng)價(jià)數(shù)據(jù)集中的特征多為類別特征,因此選用CB 算法能夠更大程度地學(xué)習(xí)到更多的信息,進(jìn)而提升模型性能,圖2 為CB 算法流程圖。

        圖2 CB算法流程圖

        3 適宜性模型實(shí)驗(yàn)分析

        3.1 特征數(shù)據(jù)預(yù)處理

        通過收集麻江縣龍崩上等19 個(gè)藍(lán)莓種植基地?cái)?shù)據(jù)信息,獲取藍(lán)莓適宜性特征數(shù)據(jù)共796 例,其中藍(lán)莓適宜性良好408 例,藍(lán)莓適宜性非良好388例。藍(lán)莓生態(tài)適宜性特征10個(gè),分別為坡度、坡向、高程、年降雨量、月均溫、≥10 ℃積溫、土壤pH、土壤有機(jī)碳含量、光照強(qiáng)度和歸一化植被覆蓋指數(shù)。

        由于藍(lán)莓適宜性特征數(shù)據(jù)采集來源較多,因此藍(lán)莓適宜性特征集往往會(huì)存在特征數(shù)據(jù)重復(fù)、特征數(shù)據(jù)缺失、特征數(shù)據(jù)異常以及各特征數(shù)據(jù)之間量綱不統(tǒng)一等問題。這些問題會(huì)在一定程度上降低適宜性評(píng)估模型的預(yù)測精度,甚至?xí)?dǎo)致模型預(yù)測失敗,因此需要對(duì)特征數(shù)據(jù)集進(jìn)行預(yù)處理工作,主要包括:1)刪除重復(fù)特征數(shù)據(jù);2)補(bǔ)充缺失特征數(shù)據(jù),類別特征采用眾數(shù)補(bǔ)充,連續(xù)特征采用平均值補(bǔ)充;3)對(duì)特征數(shù)據(jù)進(jìn)行分桶,根據(jù)數(shù)據(jù)分布按分位點(diǎn)對(duì)連續(xù)特征進(jìn)行分桶并標(biāo)簽編碼(label encode),類別特征直接進(jìn)行標(biāo)簽編碼[20]。具體編碼方式如表2所示。

        表2 適宜性特征編碼情況

        3.2 實(shí)驗(yàn)環(huán)境與參數(shù)配置

        本文研究實(shí)驗(yàn)環(huán)境為jupyter notebook,package主要包括python3.8、numpy、pandas、scikit-learn、im?blearn 等。采用LR、SVM、RF 和CB 算法構(gòu)建四種不同的麻江縣藍(lán)莓生態(tài)適宜性評(píng)估模型。針對(duì)不同模型需對(duì)其參數(shù)優(yōu)化使模型表現(xiàn)出更佳性能。

        對(duì)LR、SVM 和RF 評(píng)估模型采用貝葉斯超參數(shù)優(yōu)化方法獲取最佳參數(shù)組合[21],不同模型超參數(shù)優(yōu)化結(jié)果如圖3、4、5所示。

        圖3 LR模型超參數(shù)優(yōu)化

        圖4 SVM模型超參數(shù)優(yōu)化

        圖5 RF模型超參數(shù)優(yōu)化

        對(duì)于CB模型,由于參數(shù)過多,考慮到時(shí)間消耗和計(jì)算能力,很難利用貝葉斯優(yōu)化其超參數(shù)。本文采用階梯式的網(wǎng)格搜索對(duì)CB 模型進(jìn)行調(diào)參,即一部分參數(shù)調(diào)整至模型最佳后,基于此模型調(diào)整另外一部分參數(shù),每部分參數(shù)采用網(wǎng)格搜索的方式依次進(jìn)行。根據(jù)問題的特性,部分超參數(shù)需要進(jìn)行特定的 限 制,主 要 對(duì)iterations、learning_rate、depth、l2_leaf_reg四個(gè)參數(shù)進(jìn)行調(diào)參,具體步驟如下。

        1)初始化一些基本變量,設(shè)定loss_function=Logloss、eval_metric=AUC、task_type=CPU;

        2)確定learning_rate 和iterations 的數(shù)量,先設(shè)定learning_rate=0.1,early_stop=500;采用早停的方式確定iteration數(shù)量;

        3)確定樹的生長深度,設(shè)定depth 參數(shù)的取值區(qū)間在[4,10],步長為1;

        4)確定正則化強(qiáng)度,設(shè)定l2_leaf_reg 參數(shù)的取值區(qū)間在[0,10],步長為1;

        5)降低學(xué)習(xí)率,最后降低學(xué)習(xí)率的同時(shí)增加數(shù)的數(shù)量,learning_rate 參數(shù)取值為[0.01,0.1],步長0.01。

        通過超參數(shù)尋優(yōu),最終確定CB 模型的超參數(shù)組 合 為[loss_function:Logloss,eval_metric:AUC,task_type:CPU,learning_rate:0.03,iterations:10,depth:10,l2_leaf_reg:8]。

        3.3 實(shí)驗(yàn)分析

        在模型評(píng)估過程中,分類問題往往需要使用不同的指標(biāo)進(jìn)行評(píng)估,從而完成模型訓(xùn)練的迭代過程。本研究提出精確率(P)、召回率(R)、綜合評(píng)價(jià)指標(biāo)(F1)[22]和AUC 作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:

        AUC(Area Under Curve)為ROC 曲線的線下面積大小,ROC 全稱是“受試者工作特征”(Receiver Operating Characteristic Curve)曲線。將模型的預(yù)測結(jié)果進(jìn)行排序,按照順序?qū)颖咀鳛檎M(jìn)行預(yù)測,每次計(jì)算真正率(True Positive Rate,TPR)、假正率(False Positive Rate,F(xiàn)PR),分別作為橫、縱坐標(biāo)軸,公式定義:

        本文選取AUC 作為模型最重要的評(píng)估指標(biāo),進(jìn)行對(duì)比分析。一般介于0.5~1,AUC值越大,說明模型泛化能力越好,預(yù)測表現(xiàn)越好。

        本文選取貴州省黔東南州19 個(gè)藍(lán)莓種植基地的796 例藍(lán)莓生態(tài)適宜性數(shù)據(jù)作為數(shù)據(jù)集,將數(shù)據(jù)集前70%作為訓(xùn)練集,后30%的數(shù)據(jù)作為測試集。采用LR、SVM、RF 和CB 四種算法搭建麻江縣藍(lán)莓適宜性評(píng)估模型并進(jìn)行實(shí)驗(yàn)對(duì)比,為避免實(shí)驗(yàn)結(jié)果偶然性,提高實(shí)驗(yàn)結(jié)果可靠度,本文對(duì)不同模型進(jìn)行多次實(shí)驗(yàn),模型評(píng)估指標(biāo)綜合對(duì)比如圖6、圖7所示。

        圖6 ROC曲線對(duì)比圖

        圖7 不同模型在各評(píng)估指標(biāo)上的標(biāo)準(zhǔn)差

        通過實(shí)驗(yàn)分析得,基于CB 算法的藍(lán)莓生態(tài)適宜性評(píng)估模型在AUC指標(biāo)上得分最高,值為0.897,LR、SVM 和RF 的AUC 得分分別為0.855、0.864 和0.875。進(jìn)而分析可知CB 模型具有最佳的表現(xiàn)性能,比LR、SVM 和RF 模型高4.9%、3.8%、2.5%,并且在召回率、精確率和綜合評(píng)價(jià)指標(biāo)方面都有著優(yōu)秀表現(xiàn)。

        3.4 適宜性地圖繪制

        在本文所選的機(jī)器學(xué)習(xí)中,除SVM 外,評(píng)估結(jié)果具有自然概率意義,概率值為0 表示不適宜藍(lán)莓生長,概率值為1則表示適宜藍(lán)莓生長,從0~1表示藍(lán)莓生態(tài)適宜性等級(jí)遞增。因此,通過模型輸出的結(jié)果可直接劃分每個(gè)單位的生態(tài)適宜性等級(jí)。SVM模型原理上無法直接給出預(yù)測結(jié)果的概率,但本文通過5 折交叉驗(yàn)證進(jìn)行模型的預(yù)測,同樣可以滿足結(jié)果具有自然概率意義的要求。

        將麻江縣藍(lán)莓生態(tài)適宜性劃分為5 個(gè)等級(jí):[0~0.20) 不適宜區(qū)、[0.2~0.40) 較不適宜區(qū)、[0.40~0.60) 基本適宜區(qū)、[0.60~0.80) 較適宜區(qū)、[0.80~1]最適宜區(qū)[10]。基于不同評(píng)估模型繪制麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖如圖8所示。

        圖8 麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖

        目前麻江縣多數(shù)藍(lán)莓種植點(diǎn)分布縣東南區(qū)域,市場表明該區(qū)域藍(lán)莓品質(zhì)產(chǎn)量較好。由圖8 麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖分析可見,區(qū)劃最適宜區(qū)和較適宜區(qū)主要分布在縣東南部的宣威鎮(zhèn)和龍山鎮(zhèn),與實(shí)際種植區(qū)域情況基本相吻合。由此可見,采用CB 模型構(gòu)建的藍(lán)莓生態(tài)適宜性評(píng)估模型結(jié)果較好,區(qū)劃結(jié)果也具有可靠性。

        由于模型原理差異性,SVM模型無法給出藍(lán)莓生態(tài)適宜性特征的重要性分析。除SVM 模型外,從各模型特征重要性得分可知,高程和≥10 ℃積溫兩個(gè)特征在不同模型獲得很高的分值,說明這兩個(gè)特征對(duì)藍(lán)莓生態(tài)適宜性影響程度更高,是影響藍(lán)莓生長的重要因素。各模型特征重要性如圖9所示。

        圖9 不同評(píng)估模型特征重要性

        4 結(jié)語

        本文通過多平臺(tái)收集藍(lán)莓生態(tài)適宜性特征數(shù)據(jù),構(gòu)建了麻江縣藍(lán)莓生態(tài)適宜性特征數(shù)據(jù)集。根據(jù)數(shù)據(jù)集特點(diǎn),利用CB 算法構(gòu)建藍(lán)莓生態(tài)適宜性評(píng)估模型,與其他傳統(tǒng)機(jī)器學(xué)習(xí)算法模型進(jìn)行對(duì)比分析,依據(jù)各模型評(píng)估結(jié)果繪制麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖。實(shí)驗(yàn)結(jié)果表明,CB 算法對(duì)特征數(shù)據(jù)信息挖掘更充分,模型評(píng)估效果明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。但模型效果仍有進(jìn)步空間,且單一模型效果不具備較強(qiáng)的魯棒性。因此,我們后續(xù)的研究方向旨在收集更豐富的藍(lán)莓適宜性特征數(shù)據(jù),提高數(shù)據(jù)集質(zhì)量以及融合多模型進(jìn)行藍(lán)莓生態(tài)適宜性評(píng)估,進(jìn)一步提升評(píng)估結(jié)果準(zhǔn)確性。

        猜你喜歡
        麻江縣藍(lán)莓特征
        麻江縣關(guān)工委開展青少年關(guān)愛幫扶活動(dòng)
        下一代英才(2023年3期)2023-04-18 01:05:50
        藍(lán)莓建園技術(shù)
        河北果樹(2021年4期)2021-12-02 01:15:08
        藍(lán)莓姑娘
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        西海岸的藍(lán)莓名片
        商周刊(2017年5期)2017-08-22 03:35:22
        甜甜的藍(lán)莓果
        麻江縣渠道防滲改造的具體措施
        晴隆縣關(guān)工委來麻江縣考察學(xué)習(xí)“五好”關(guān)工委創(chuàng)建工作
        晚晴(2014年9期)2014-09-19 14:05:19
        免费黄网站永久地址进入| 高清亚洲成av人片乱码色午夜| 色婷婷综合一区二区精品久久| 亚洲国产综合精品中久| 女同视频网站一区二区| av成人综合在线资源站| 最新中文字幕一区二区| 国内精品久久久久久久97牛牛| 国产精品夜间视频香蕉| 国产喷水福利在线视频| 亚洲一区二区在线视频播放| 国产性感丝袜美女av| 久久人妻少妇嫩草av蜜桃| 乱码窝窝久久国产无人精品| 亚洲av无码成人网站在线观看| 欧美mv日韩mv国产网站| 一本久道久久综合五月丁香| 国产一区,二区,三区免费视频| 伊人婷婷综合缴情亚洲五月| 免费国产在线视频自拍白浆| 制服丝袜中文字幕在线| 18无码粉嫩小泬无套在线观看| 国产一级在线现免费观看| 精品国产乱来一区二区三区| 久久精品国产亚洲av一般男女| 高清午夜福利电影在线| 国产午夜无码片在线观看影院| 国产av日韩a∨亚洲av电影| 日本视频精品一区二区| 亚洲av乱码国产精品观| 国产精品无码久久综合| av片在线观看免费| 亚洲第一区无码专区| 亚洲国产高清一区av| 伊人中文字幕亚洲精品乱码| 欧美成人片一区二区三区| 亚洲欧洲精品成人久久曰影片| 91麻豆精品久久久影院| 亚洲日韩中文字幕在线播放| 丰满熟妇乱又伦| 国产成人免费一区二区三区|