亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)的C4.5算法對(duì)玉米病蟲害治理方案分類研究

        2023-12-18 18:13:49左爽李文靜陳鵬徐會(huì)杰
        計(jì)算機(jī)時(shí)代 2023年11期
        關(guān)鍵詞:標(biāo)簽聚類病蟲害

        左爽 李文靜 陳鵬 徐會(huì)杰

        關(guān)鍵詞:玉米;病蟲害治理;方案決策;C4.5 算法

        中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2023)11-120-04

        0 引言

        玉米是我國(guó)當(dāng)前種植面積最大的糧食作物[1]。玉米病蟲害的治理,傳統(tǒng)方案分為人工篩選和機(jī)器決策。當(dāng)病蟲害的種類、數(shù)量或感染面積呈現(xiàn)不規(guī)則的區(qū)域性分布時(shí),傳統(tǒng)方法無(wú)法實(shí)現(xiàn)對(duì)病田網(wǎng)格的精細(xì)化管理,導(dǎo)致治理效果差、成本大幅提高[2-3]。運(yùn)用基于深度學(xué)習(xí)的決策樹算法,將病田細(xì)分為N*N 塊單元格,經(jīng)過提取單元格內(nèi)的玉米生長(zhǎng)周期、病蟲代數(shù)、玉米品種等特征后,進(jìn)行訓(xùn)練,對(duì)病田感染情況做出分類,同時(shí)基于單元格細(xì)化方案,進(jìn)一步精確匹配農(nóng)藥品種與農(nóng)藥噴灑量[4-5]。相比傳統(tǒng)方法,可以顯著降低治理成本、提高防治效果。

        針對(duì)傳統(tǒng)C4.5 算法在玉米病蟲害治理方案選擇中面臨大容量數(shù)據(jù)集時(shí)表現(xiàn)出精確度低、時(shí)效性差等問題[6],本文基于C4.5 算法提出一種改進(jìn)的決策算法。該算法利用K-means++算法對(duì)測(cè)試數(shù)據(jù)集進(jìn)行離散化處理,在構(gòu)建包含六種常見玉米病蟲害數(shù)據(jù)集的過程中,生成二個(gè)以上的聚類中心來處理連續(xù)性數(shù)值,并以標(biāo)簽值出現(xiàn)的概率作為權(quán)重,生成測(cè)試集缺失值。目標(biāo)函數(shù)值選用F1-Score 值和AUC 值,從而對(duì)測(cè)試集和聚類中心數(shù)量進(jìn)行優(yōu)化迭代。最終采用投票方式選擇最優(yōu)解進(jìn)行治理方案的決策。在不同容量的數(shù)據(jù)集中,該算法保證了選擇治理方案的精確度和高效性,特別是當(dāng)測(cè)試集出現(xiàn)缺失值時(shí),其表現(xiàn)優(yōu)異。

        1 C4.5 算法原理

        C4.5 算法的核心原理是針對(duì)輸入的樣本信息,采用信息增益率(GainRatio)最高的特征與標(biāo)簽值作為子樹節(jié)點(diǎn),構(gòu)建決策樹,并將測(cè)試集樣本與決策樹進(jìn)行匹配,返回最終解決方案。訓(xùn)練集樣本出現(xiàn)缺失值時(shí),會(huì)抽出缺失值樣本進(jìn)行信息增益率計(jì)算,在特征節(jié)點(diǎn)選取完成后,將含有缺失值的樣本按特征概率分配權(quán)重,劃分進(jìn)子樹中。

        設(shè)S 為訓(xùn)練樣本集,它包括n 個(gè)類別的樣本,樣本特征的標(biāo)簽值用Ci 表示,以下列出C4.5 算法的主要數(shù)學(xué)計(jì)算公式。

        選取Ration 最大的特征作為子樹節(jié)點(diǎn),并選取特征標(biāo)簽值作為下一級(jí)子樹節(jié)點(diǎn)。重復(fù)以上步驟,直到?jīng)Q策樹構(gòu)建完成。

        2 改進(jìn)C4.5 算法

        2.1 數(shù)據(jù)集制作

        數(shù)據(jù)集樣本取自2021 年7、8 月采集于河南省洛陽(yáng)市宜陽(yáng)縣李王屯村等地的玉米葉片數(shù)據(jù),針對(duì)缺少的病蟲害樣本,采用中國(guó)農(nóng)技推廣信息服務(wù)平臺(tái)發(fā)布的部分?jǐn)?shù)據(jù)進(jìn)行補(bǔ)充。最終數(shù)據(jù)集共包括多個(gè)玉米品種針對(duì)玉米薊馬、黏蟲等病蟲害的6000 多條治理方案。數(shù)據(jù)集按照60%、20%、20% 的比例分為初次訓(xùn)練集、迭代訓(xùn)練集、測(cè)試數(shù)據(jù)集三組,保存為csv 文件。

        2.2 數(shù)據(jù)預(yù)處理算法改進(jìn)

        C4.5 算法中傳統(tǒng)的離散化處理方式是對(duì)屬性值進(jìn)行升序排序,挑選信息增益最大的點(diǎn)作為二分點(diǎn),不僅包含大量耗時(shí)的對(duì)數(shù)運(yùn)算,而且面對(duì)不同周期以及藥物需求不同的病蟲害時(shí),無(wú)法滿足對(duì)精確度的要求。在這里,本文保留缺失值并基于K-means++聚類算法對(duì)數(shù)據(jù)值進(jìn)行離散化處理[7]。具體步驟為:

        步驟1 隨機(jī)選取一個(gè)樣本的標(biāo)簽值作為第一個(gè)聚類中心M0;

        步驟2 計(jì)算所有標(biāo)簽值與第一個(gè)聚類中心的距離,并取距離最大的標(biāo)簽值作為第二個(gè)聚類中心點(diǎn)M1;

        步驟3 計(jì)算所有標(biāo)簽值與距離最近的聚類中心的距離,并取距離最大的標(biāo)簽值作為下一個(gè)聚類中心點(diǎn)M2;

        步驟4 重復(fù)步驟3,直至所有初始中心點(diǎn)篩選完畢;

        步驟5 用生成的K 個(gè)聚類中心點(diǎn)替代K-means算法隨機(jī)生成的初始中心點(diǎn)。

        2.3 測(cè)試集缺失值處理改進(jìn)

        在測(cè)試集具有缺失值時(shí),C4.5 算法采用當(dāng)前特征出現(xiàn)頻率最高的標(biāo)簽值對(duì)缺失值進(jìn)行補(bǔ)充,會(huì)出現(xiàn)最終分類結(jié)果會(huì)趨向特定結(jié)果的問題。參考C4.5 算法對(duì)于訓(xùn)練集缺失值的處理方式,本文采用標(biāo)簽出現(xiàn)的概率作為權(quán)重,將缺失值補(bǔ)充至訓(xùn)練集中,并采用投票方式選取最優(yōu)解。其填補(bǔ)缺失值原理如下:

        2.4 基于梯度的訓(xùn)練集優(yōu)化

        由于初次訓(xùn)練集可能無(wú)法全面地反映整個(gè)數(shù)據(jù)集的特征和規(guī)律,導(dǎo)致訓(xùn)練算法出現(xiàn)過擬合現(xiàn)象。為提高訓(xùn)練算法效果,本文將數(shù)據(jù)集分為初次訓(xùn)練集、迭代訓(xùn)練集、測(cè)試數(shù)據(jù)集三組,并每次從迭代數(shù)據(jù)集中抽選x 條樣本對(duì)初次訓(xùn)練集進(jìn)行替換,如果AUC 值更高則進(jìn)行保存。在此基礎(chǔ)上,算法不斷調(diào)整聚類中心的數(shù)量,以提高算法的聚類效果。其部分實(shí)現(xiàn)偽代碼如下:

        3 試驗(yàn)與結(jié)果分析

        3.1 評(píng)價(jià)指標(biāo)

        本文通過F1-Score 值、AUC 值兩個(gè)指標(biāo)對(duì)算法進(jìn)行綜合評(píng)價(jià),其中F1-Score 值是精確率與召回率的調(diào)和平均數(shù),AUC 值是ROC(以FPR 假陽(yáng)率為X 軸坐標(biāo),TPR 真陽(yáng)率為Y 軸坐標(biāo))曲線下的面積。公式如下:

        其中,TP、TN 為預(yù)測(cè)為正例、負(fù)例時(shí),算法預(yù)測(cè)正確的數(shù)量,F(xiàn)P、FN 為預(yù)測(cè)為正例、負(fù)例時(shí),算法預(yù)測(cè)錯(cuò)誤的數(shù)量。

        3.2 檢測(cè)效果對(duì)比與分析

        本文選取C4.5 算法、改進(jìn)C4.5 算法、CART 算法對(duì)1000 條數(shù)據(jù)集進(jìn)行檢測(cè),分別計(jì)算3 種算法的F1-Score 值評(píng)價(jià)指標(biāo)值(如表1 所示),并作如下分析:

        ⑴ C4.5 算法采用的悲觀剪枝方法,用遞歸的方式從底向上針對(duì)每一個(gè)非葉子節(jié)點(diǎn),評(píng)估用一個(gè)最佳葉子節(jié)點(diǎn)去代替這棵子樹是否有益。該算法通過訓(xùn)練數(shù)據(jù)集上的錯(cuò)誤分類數(shù)量來估算未知樣本上的錯(cuò)誤率,所以該算法在數(shù)據(jù)集容量較小的情況下F1-Score 值與改進(jìn)C4.5 算法相近,但高于CART 算法。

        ⑵ CART 算法采用二分遞歸分割的技術(shù),采用GINI 值作為分裂節(jié)點(diǎn)的依據(jù),運(yùn)用一種“基于代價(jià)復(fù)雜度的剪枝”方法進(jìn)行后剪枝,故而在低樣本量的情況下,該算法受限于樣本數(shù)據(jù)過少,導(dǎo)致其決策的準(zhǔn)確度降低,在判斷病蟲害的F1-Score 值上明顯低于改進(jìn)C4.5 算法。

        ⑶ 由表1 可知在針對(duì)銹病的治理方案時(shí)三種算法的準(zhǔn)確率發(fā)生明顯下降,處于70%-72% 區(qū)間中,這可能與數(shù)據(jù)集中關(guān)于銹病的特征值不夠,算法難以匹配檢測(cè)目標(biāo)有關(guān)。

        ⑷ 在針對(duì)黏蟲的治理方案時(shí),改進(jìn)C4.5 算法的F1-Score 值明顯高于C4.5 算法和CART 算法。這是因?yàn)樵趯?duì)不完整的黏蟲樣本數(shù)據(jù)(即缺失值)處理時(shí),改進(jìn)C4.5 算法對(duì)訓(xùn)練集缺失值數(shù)據(jù)進(jìn)行按權(quán)分配生成,并采用投票方式選取最優(yōu)解。CART 算法此時(shí)F1-Score值最低,是由于若采用代理特征分裂(surrogatesplits)的方式進(jìn)行處理,會(huì)造成計(jì)算量過大且提升有限的問題,故此時(shí)CART 算法未對(duì)缺失值進(jìn)行處理。

        3.3 性能對(duì)比與分析

        為綜合評(píng)價(jià)算法優(yōu)劣,選擇測(cè)試集中玉米蚜的部分?jǐn)?shù)據(jù)(100 條)進(jìn)行低數(shù)據(jù)情況下的檢測(cè),檢測(cè)完成后,三種算法的檢測(cè)結(jié)果及性能指標(biāo)如表2 所示。

        AUC 值是衡量算法分類性能的重要指標(biāo)。低數(shù)據(jù)量的情況下:從整體決策的精確度來看,改進(jìn)C4.5算法的準(zhǔn)確性最高,匹配各種治理方案的AUC 值指標(biāo)達(dá)到了0.7308。結(jié)合AUC 值來看,改進(jìn)C4.5 算法整體的決策正確率相比其他兩種算法要高。

        為了增強(qiáng)可信度,選擇測(cè)試集中的部分?jǐn)?shù)據(jù)(5000 條)進(jìn)行高數(shù)據(jù)量情況下的檢測(cè)。

        由表3 可知,當(dāng)TPR=0.03 時(shí),三種算法開始出現(xiàn)明顯區(qū)別,且傳統(tǒng)C4.5 算法AUC 值明顯小于改進(jìn)C4.5算法與CART 算法。且改進(jìn)C4.5 算法的AUC 值為0.9584,可知該算法在大數(shù)量上的預(yù)測(cè)效果較為優(yōu)異。

        將兩次測(cè)量數(shù)據(jù)匯總并記錄運(yùn)行時(shí)間,如表4所示。

        由表4 可知改進(jìn)C4.5 算法在高數(shù)據(jù)量條件下時(shí)間為21.79s,相比原C4.5 算法的40.35s 具有明顯提升。

        4 結(jié)論

        針對(duì)傳統(tǒng)病蟲害治理決策的C4.5 算法存在的精確度不足、大數(shù)據(jù)量處理效率低以及測(cè)試數(shù)據(jù)值缺失問題,本文提出了一種改進(jìn)C4.5 算法。該算法采用K-means++算法對(duì)數(shù)據(jù)進(jìn)行離散化處理,并對(duì)訓(xùn)練集缺失值數(shù)據(jù)進(jìn)行按權(quán)分配并生成,參考遺傳算法對(duì)訓(xùn)練集與聚類中心點(diǎn)進(jìn)行優(yōu)化處理。實(shí)驗(yàn)結(jié)果表明,改進(jìn)C4.5 算法在處理小數(shù)據(jù)量時(shí),其F1-Score 值相較于CART 算法和C4.5 算法分別提高了5.53% 和3.33%。同時(shí),相較于C4.5 算法,該算法的運(yùn)行時(shí)間提高了2.92s。處理高容量數(shù)據(jù)集時(shí),該算法的AUC 值指標(biāo)相對(duì)于CART 算法和C4.5 算法分別提高了0.0426 和0.1011。由此可見,改進(jìn)的C4.5 算法不僅能夠保證處理不同容量數(shù)據(jù)集時(shí)的精確度,而且通過簡(jiǎn)化運(yùn)算量,可以大幅提高運(yùn)行速度。此外,該算法還能有效應(yīng)對(duì)數(shù)據(jù)缺失的情況,提高治理效率。

        猜你喜歡
        標(biāo)簽聚類病蟲害
        春季葡萄苗病蟲害咋樣防治
        夏季玉米主要病蟲害有哪些
        三招搞定花卉病蟲害
        中老年保健(2021年5期)2021-08-24 07:08:52
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于DBSACN聚類算法的XML文檔聚類
        標(biāo)簽化傷害了誰(shuí)
        基于改進(jìn)的遺傳算法的模糊聚類算法
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        特一级熟女毛片免费观看| 美女一级毛片免费观看97| 国产精品高潮无码毛片| 探花国产精品三级在线播放| 亚洲高清美女久久av| 日韩精品午夜视频在线| 91偷拍与自偷拍亚洲精品86| 日本一区二区三区一级免费| 亚洲一二三四五中文字幕| 亚洲第一幕一区二区三区在线观看| 人妻少妇-嫩草影院| 蜜臀色欲av在线播放国产日韩| 国产人妻久久精品二区三区| 中文字幕久久久精品无码| 91在线区啪国自产网页| 国产黄色一区二区三区,| 国产精品麻豆va在线播放| 尤物网址在线观看| 国产成人av一区二区三区无码| 亚洲一区二区三区久久不卡| 韩国日本在线观看一区二区| 亚洲乱码中文字幕一线区| 九九影院理论片私人影院| 亚洲色婷婷一区二区三区| 少妇白浆高潮无码免费区| 国产精品网站夜色| 麻豆国产成人av高清在线| 亚洲精品午夜久久久九九 | 一区二区免费中文字幕| 亚洲国产天堂久久综合网| 一本大道熟女人妻中文字幕在线| 99精品国产一区二区| 特级毛片a级毛片在线播放www | 日本丰满熟妇videossex8k| 精品国产黑色丝袜高跟鞋| 国产日韩亚洲中文字幕| 日韩美腿丝袜三区四区| 日本丰满少妇裸体自慰| 亚洲成a人片在线观看无码| 久久HEZYO色综合| 国产三级视频不卡在线观看|