帖軍,羅均,鄭祿,莫海芳,隆娟娟
(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 & 湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢430074)
近年來(lái),隨著人工智能技術(shù)的快速發(fā)展,研究人員們將目光聚焦到了農(nóng)業(yè)領(lǐng)域,使用人工智能技術(shù)對(duì)農(nóng)作物的生長(zhǎng)信息、健康情況進(jìn)行監(jiān)測(cè)與識(shí)別,極大地推動(dòng)了農(nóng)業(yè)信息化的發(fā)展.一些研究人員利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)強(qiáng)大的特征提取能力在計(jì)算機(jī)視覺(jué)領(lǐng)域進(jìn)行研究,并在人臉識(shí)別[1-3]、手寫字符識(shí)別[4-6]、人體行為識(shí)別[7-8]以及農(nóng)作物識(shí)別[9-13]等領(lǐng)域取得了較好的成績(jī).因此本文基于ResNet[14]網(wǎng)絡(luò)對(duì)柑橘病害圖像多類別識(shí)別問(wèn)題進(jìn)行研究,通過(guò)篩選并舍棄對(duì)識(shí)別結(jié)果有較大消極影響的殘差結(jié)構(gòu)中的identity映射得到S-ResNet模型,然后在此基礎(chǔ)上引入首層卷積核為3×3的M-ResNet模型提取柑橘病害圖像中更具表達(dá)力的特征,最后使用模型融合方法對(duì)2者進(jìn)行融合.最終對(duì)5種柑橘病害的類型識(shí)別準(zhǔn)確率達(dá)到93.6%.
本文所采集到的實(shí)驗(yàn)圖像由網(wǎng)上公開(kāi)數(shù)據(jù)集與自建數(shù)據(jù)集2部分組成,共14637張.其中,網(wǎng)上公開(kāi)數(shù)據(jù)集的來(lái)源為PlantVillage,PlantVillage是一個(gè)通用的農(nóng)作物病害數(shù)據(jù)庫(kù),主要用于供研究人員進(jìn)行農(nóng)作物病害檢測(cè)算法研究,其包含黃龍病病害圖像共4643張.自建數(shù)據(jù)集由在桂林市靈川縣九屋鎮(zhèn)果園中拍攝的圖片,包含潰瘍病病害圖像4672張、正常葉片圖像4864張、瘡痂病病害圖像175張、黑斑病病害圖像283張.為盡量模擬現(xiàn)實(shí)拍攝場(chǎng)景,所采用的拍攝設(shè)備是三星S10手機(jī),拍攝光照條件為自然光照,聚焦模式為自動(dòng)聚焦模式,不進(jìn)行光學(xué)縮放與數(shù)字縮放,所拍攝的圖像像素大小為4032×3024(大小約為3.9M).為最大限度模擬現(xiàn)實(shí)中的拍攝場(chǎng)景,保證圖像角度、光照與背景的復(fù)雜性,在拍攝圖像時(shí)選擇在陰天、晴天以及不同角度對(duì)柑橘病害葉片進(jìn)行拍攝.本文收集到的實(shí)驗(yàn)圖像由黃龍病、黑斑病、潰瘍病、瘡痂病以及正常葉片5種類別組成.收集到的部分樣本圖像如圖1所示.
圖1 柑橘病害樣本圖像Fig.1 Sample images of citrus disease
為保證實(shí)驗(yàn)圖像的復(fù)雜度以及多樣性,避免因數(shù)據(jù)集中某種類別圖像數(shù)量過(guò)少而導(dǎo)致的模型效果不佳問(wèn)題,需要使用圖像增強(qiáng)方法進(jìn)行處理.常見(jiàn)的圖像增強(qiáng)方法有調(diào)整大小、圖像翻轉(zhuǎn)、圖像校正、陰影消除、增強(qiáng)光照度等[15].本文共采用6種方法對(duì)數(shù)量較少的病害類別圖像進(jìn)行圖像增強(qiáng):旋轉(zhuǎn)(旋轉(zhuǎn)角度分別為90°、180°、270°)、翻轉(zhuǎn)(翻轉(zhuǎn)方式為上下翻轉(zhuǎn)、水平翻轉(zhuǎn))、光照度處理、對(duì)比度處理、色彩平衡處理以及銳度處理.對(duì)應(yīng)的參數(shù)調(diào)整算法如公式(1)所示:
result=image×α(α∈(0.7,1.3)),
(1)
式中result為結(jié)果圖像,image為原始圖像,α為光照、對(duì)比度、色度和銳度的系數(shù).
為使實(shí)驗(yàn)數(shù)據(jù)匹配模型的輸入規(guī)格,將所有病害圖像的寬高調(diào)整為256×256,而在調(diào)整圖像寬高時(shí)改變圖像的原始寬高比會(huì)導(dǎo)致病害區(qū)域發(fā)生形變從而影響識(shí)別準(zhǔn)確率,本文在圖像的寬或高大于256像素時(shí)才進(jìn)行調(diào)整,否則使用零填充(Zero-padding)對(duì)不足256像素的圖像進(jìn)行填充.所用數(shù)據(jù)集在數(shù)據(jù)增強(qiáng)前后的對(duì)比情況如圖2所示,數(shù)據(jù)集在進(jìn)行圖像增強(qiáng)后各類病害的圖像數(shù)量.無(wú)斜線的柱狀圖表示未進(jìn)行圖像增強(qiáng)前各類病害的圖像數(shù)量,有斜線的柱狀圖表示數(shù)據(jù)集在進(jìn)行圖像增強(qiáng)后各類病害的圖像數(shù)量.
圖2 數(shù)據(jù)集擴(kuò)充前后的對(duì)比Fig.2 Comparison before and after data expansion
在圖像分類研究中,ResNet網(wǎng)絡(luò)在植物病害分類領(lǐng)域[16-17]取得了較好的效果.ResNet網(wǎng)絡(luò)通過(guò)在殘差結(jié)構(gòu)中添加identity映射來(lái)解決深度神經(jīng)網(wǎng)絡(luò)中的梯度消失問(wèn)題,因此ResNet成為了計(jì)算機(jī)視覺(jué)領(lǐng)域的主流網(wǎng)絡(luò)之一.ResNet網(wǎng)絡(luò)的殘差結(jié)構(gòu)主要由identity映射(shortcut連接)與主干網(wǎng)絡(luò)組成,并使用特征融合方法將主干特征和shortcut特征進(jìn)行融合,融合方法如公式(2)所示:
H(x)=F(x,{wi})+x,
(2)
式中H(x)為最終輸出,F(x,{wi})為主干網(wǎng)絡(luò)的輸出,x為原始輸入,wi為第i層卷積層的線性投影.
以ResNet34網(wǎng)絡(luò)結(jié)構(gòu)為例,其每塊殘差塊結(jié)構(gòu)均相同,因此也稱為殘差結(jié)構(gòu).如圖3所示.
圖3 殘差塊基本結(jié)構(gòu)Fig.3 Basic structure of residual block
(3)
對(duì)所有的m個(gè)柑橘病害樣本,n種病害,當(dāng)病害圖像樣本j為病害種類i時(shí),yji=1,否則為0.總損失函數(shù)Lcs可以表示為:
(4)
2.3.1 M-ResNet模型
在卷積神經(jīng)網(wǎng)絡(luò)中,不同層卷積核所提取的特征表征信息的強(qiáng)弱程度并非相同,越低層(即輸入層)的卷積核所提取的分類信息越弱,空間信息越強(qiáng);而越高層(即輸出層)的卷積核所提取的分類信息越強(qiáng),空間信息越弱.對(duì)ResNet34所提取的特征信息進(jìn)行可視化展示的結(jié)果如圖4所示.
根據(jù)圖4中的(b)可以明顯發(fā)現(xiàn),低層的網(wǎng)絡(luò)特征提取層此時(shí)的主要關(guān)注點(diǎn)并不在柑橘葉片上,而是聚焦在葉片的周圍(顏色越紅表示關(guān)注度越高,顏色越藍(lán)表示關(guān)注度越低),在圖4中的(c)可以看出高層的網(wǎng)絡(luò)特征提取層的關(guān)注點(diǎn)已經(jīng)轉(zhuǎn)移到葉片的病害部位.在柑橘葉片的病害類型不同會(huì)呈現(xiàn)不同的表征,最主要的表征是病害部位的顏色和形狀不同,但是在模型低層所提取到的柑橘病害圖像特征中,空間信息占比更多,影響分類結(jié)果的分類信息相對(duì)較少.而在卷積神經(jīng)網(wǎng)絡(luò)中卷積核越大所提取的特征信息越多,但計(jì)算量也會(huì)越大,從而導(dǎo)致性能降低.因此卷積核的大小會(huì)極大影響模型的識(shí)別精度與速度,本文通過(guò)將ResNet34網(wǎng)絡(luò)最低層所有7×7大卷積核按照1∶3的比例替換成3×3小卷積核來(lái)提取病害圖像在低層中具有更強(qiáng)的表征信息局部特征.假設(shè)輸入圖像的大小為T,則使用3個(gè)3×3大小的卷積核的參數(shù)計(jì)算方式如公式(5)所示,1個(gè)7×7大小的卷積核如公式(6)所示:
圖4 ResNet34特征信息Fig.4 Feature information of ResNet34
sum3=3×(3×3×T)×C,
(5)
sum7=(7×7×T)×C,
(6)
式中sum3為3×3卷積核的參數(shù)總和,sum7為7×7卷積核的參數(shù)總和,C為卷積核的個(gè)數(shù).
根據(jù)公式(5)和公式(6)可知,使用3個(gè)3×3的小卷積核來(lái)替換7×7大卷積核后可以減少50%的計(jì)算量,本文將替換小卷積核后的ResNet34命名為Mini-ResNet,簡(jiǎn)稱為M-ResNet.
2.3.2 S-ResNet模型
現(xiàn)有研究表明[18-19],由卷積網(wǎng)絡(luò)提取的特征并非都對(duì)結(jié)果有積極影響,因此HU[20]和WOO[21]等人引入注意機(jī)制抑制消極的通道特征,他們的方法比dropout和隨機(jī)深度(Stochastic Depth)更具有適應(yīng)性,但在每個(gè)構(gòu)建塊中新增額外的分支會(huì)增加網(wǎng)絡(luò)的性能開(kāi)銷.ResNet的identity映射作用是在網(wǎng)絡(luò)得到最優(yōu)解后降低信息的冗余度以防止梯度消失,但低層卷積核所提取的空間特征信息較多,因此舍棄掉低層某些殘差塊中的identity映射可以減少傳向高層的空間特征信息,加速網(wǎng)絡(luò)提取更高維度的分類樣本特征,降低消極特征與空間特征信息在網(wǎng)絡(luò)中的占比,獲得比在所有殘差塊中都使用identity映射更好的效果,并減少網(wǎng)絡(luò)的性能開(kāi)銷.本文通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn)在舍棄第5、6、7個(gè)殘差塊(即Conv3_x層,x={1,2,3,4})的identity映射后,模型的準(zhǔn)確率相對(duì)于未舍棄identity映射之前提高了3個(gè)百分點(diǎn).舍棄identity映射后的殘差塊的對(duì)應(yīng)公式定義如下:
H(x)=F(x,{wi}),
(7)
公式(7)由公式(2)舍棄原始輸入x(即identity映射)后演化而來(lái),其中:
F(x,{wi})=ReLU(BN(H(x)i-1)),
(8)
式中ReLU為第i層的激活函數(shù),BN為批量歸一化處理.
其中,ReLU的具體表示如下:
(9)
本文將舍棄部分殘差結(jié)構(gòu)identity映射的ResNet34命名為Sparse-ResNet,簡(jiǎn)稱為S-ResNet.S-ResNet網(wǎng)絡(luò)可以表示如下:
(10)
式中type為病害類型,f為全連接層,F為殘差映射函數(shù),p為網(wǎng)絡(luò)的層數(shù).
S-ResNet的算法流程步驟如下:
Step1:使用大小為7×7×64、步長(zhǎng)為2的卷積核對(duì)病害圖像進(jìn)行初步特征提取,并使用批量標(biāo)準(zhǔn)化函數(shù)和激活函數(shù)ReLU對(duì)病害特征進(jìn)行標(biāo)準(zhǔn)化處理,然后使用步長(zhǎng)為2的最大池化層對(duì)特征進(jìn)行最大池化.
Step2:使用3組大小為3×3×64、步長(zhǎng)為1的主干網(wǎng)絡(luò)提取深層特征并與identity映射傳遞過(guò)來(lái)的特征信息進(jìn)行融合.
Step3:使用4組大小為3×3×128、步長(zhǎng)為2的主干網(wǎng)絡(luò)提取特征.
Step4:使用6組大小為3×3×256、步長(zhǎng)為2的主干網(wǎng)絡(luò)提取特征并與identity映射傳遞過(guò)來(lái)的特征信息進(jìn)行融合.
Step5:使用3組通道數(shù)為512、大小為3×3、步長(zhǎng)為2的主干網(wǎng)絡(luò)提取特征并與identity映射傳遞過(guò)來(lái)的特征信息進(jìn)行融合.
Step6:使用1×1大小的平均池化層將S-ResNet的預(yù)測(cè)值平鋪成一維映射后與M-ResNet的預(yù)測(cè)值進(jìn)行特征融合,然后使用完全連接層和softmax函數(shù)將融合預(yù)測(cè)值映射到分類結(jié)果矩陣rq中.rq表示為:
rq=soft(fc(ReLU(avgpool(xq)))),
(11)
式中rq為存儲(chǔ)預(yù)測(cè)分類結(jié)果概率的矩陣,soft為softmax函數(shù),fc為全連接層,ReLU為激活函數(shù),avgpool為平均池化層.
S-ResNet算法流程中的Step3對(duì)應(yīng)著Conv3_x層的處理流程,在Conv3_x中的殘差塊不再使用identity映射進(jìn)行特征傳遞,具體的結(jié)構(gòu)如圖5所示.
圖5 S-ResNet的Conv3_x層網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 The network structure of S-ResNet in Conv3_x
圖5中主干網(wǎng)絡(luò)(實(shí)線部分)與ResNet34中的主干網(wǎng)絡(luò)一致,identity映射(虛線部分)則用虛線標(biāo)記為被舍棄狀態(tài).在S-ResNet中,經(jīng)過(guò)Conv3_x層的特征需要經(jīng)過(guò)主干網(wǎng)絡(luò)后才會(huì)傳遞給下一個(gè)殘差塊,并通過(guò)線性投影解決殘差塊之間的輸入和輸出尺寸不匹配問(wèn)題.
在圖像分類研究中,受光照、背景、拍攝角度、特征區(qū)域大小等客觀影響,單一模型往往很難在所有場(chǎng)景中均找到最優(yōu)解.而模型融合方法則可以解決單一模型中存在的識(shí)別場(chǎng)景單一問(wèn)題,常用的模型融合算法有交叉融合法(Blending)、瀑布融合法(Waterfall)、堆疊法(Stacking)、線性加權(quán)融合法等.本文使用線性加權(quán)融合法將M-ResNet和S-ResNet進(jìn)行融合,具體的過(guò)程為:將兩個(gè)模型的最頂層的輸出特征進(jìn)行匯總,然后使用不同的算法賦予不同的權(quán)重從而進(jìn)行特征融合,從而得出最終的識(shí)別結(jié)果,如公式12所示:
(12)
式中Target為融合后的結(jié)果,s為模型數(shù)量大小,t為要進(jìn)行融合的特征數(shù)量大小,τ為模型k中第a個(gè)特征所占的權(quán)重,?為模型k中第a個(gè)特征值.
在對(duì)兩個(gè)模型進(jìn)行線性加權(quán)融合后得到融合模型Fusion-ResNet,簡(jiǎn)稱F-ResNet.F-ResNet的結(jié)構(gòu)簡(jiǎn)圖如圖6所示.
圖6 F-ResNet結(jié)構(gòu)簡(jiǎn)圖Fig.6 Diagram of F-ResNet
F-ResNet可以提取并融合不同角度的柑橘病害圖像的病害特征,增加柑橘病害識(shí)別網(wǎng)絡(luò)病害特征的多樣性,提高模型的泛化能力與識(shí)別準(zhǔn)確率.相對(duì)于S-ResNet,F(xiàn)-ResNet網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率提高了2%,同時(shí)增加了模型在自然復(fù)雜環(huán)境下的可用性.
本文實(shí)驗(yàn)環(huán)境如表1所示.所有實(shí)驗(yàn)均訓(xùn)練1000個(gè)epoch,選用Momentum為優(yōu)化器,動(dòng)量值為0.9.學(xué)習(xí)率為動(dòng)態(tài)學(xué)習(xí)率,初始值為0.01,在模型準(zhǔn)確率不再提升時(shí),動(dòng)態(tài)降低學(xué)習(xí)率提高模型的學(xué)習(xí)能力.受硬件設(shè)備限制,batch值為80并采用L2正則化在損失函數(shù)上增加懲罰項(xiàng)約束參數(shù)大小,防止網(wǎng)絡(luò)過(guò)擬合.
表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental environment
本文使用精確率(precision)和準(zhǔn)確率(accuracy)和混淆矩陣3個(gè)評(píng)價(jià)指標(biāo)評(píng)估網(wǎng)絡(luò)的性能.精確率和準(zhǔn)確率的計(jì)算方法如公式(13)和公式(14)所示:
(13)
(14)
式中P為精確率,A為準(zhǔn)確率,TP為正樣本被正確識(shí)別的數(shù)量,FP為負(fù)樣本被錯(cuò)誤識(shí)別的數(shù)量,FN為正樣本被錯(cuò)誤識(shí)別的數(shù)量,TN為負(fù)樣本被正確識(shí)別的數(shù)量.
為避免評(píng)估指標(biāo)的偶然性,對(duì)多次實(shí)驗(yàn)取平均值,平均精確率和平均準(zhǔn)確率的計(jì)算公式如式(15)和式(16)所示:
(15)
(16)
式中u為重復(fù)實(shí)驗(yàn)的次數(shù),u=10.
混淆矩陣(Confusion Matrix)是用來(lái)總結(jié)分類模型預(yù)測(cè)結(jié)果的分析表,以矩陣的形式來(lái)顯示分類模型對(duì)每一類的預(yù)測(cè)結(jié)果正確與否,其中對(duì)角線上的元素表示各類別病害被正確識(shí)別的概率,其它元素則表示被錯(cuò)誤識(shí)別的概率.
本文將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集兩部分,根據(jù)FERENTINOS[22]的工作可知,在將訓(xùn)練集與測(cè)試集的劃分比定為8∶2時(shí)模型的性能最好,因此本文的訓(xùn)練集占比為80%,測(cè)試集占比為20%.
為比較ResNet34相對(duì)于其它網(wǎng)絡(luò)的性能,本文選取VGG16[23]網(wǎng)絡(luò)和DenseNet121[24]網(wǎng)絡(luò)與ResNet34網(wǎng)絡(luò)在本文的數(shù)據(jù)集中進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2所示.
表2 不同網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)Tab.2 Comparative experiment of different network
由表2可知,ResNet34的精確率與準(zhǔn)確率在3個(gè)模型中最佳,分別為87.2%和87.5%,因此本文選用ResNet34作為自然復(fù)雜環(huán)境下柑橘病害識(shí)別研究的基礎(chǔ)網(wǎng)絡(luò).ResNet34模型的柑橘病害識(shí)別可視化過(guò)程如圖7所示,ResNet34模型提取病害圖像特征后得到5個(gè)大小分別為64、64、128、256、512的特征圖,對(duì)512大小的特征圖進(jìn)行平均池化與全連接操作后,將預(yù)測(cè)結(jié)果映射到輸出層.
圖7 柑橘病害識(shí)別的可視化過(guò)程Fig.7 Visual process of citrus disease identification
為比較S-ResNet、M-ResNet與F-ResNet的性能,使用本文的柑橘病害數(shù)據(jù)集對(duì)3個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程的準(zhǔn)確率曲線變化如圖8所示.
圖8 模型訓(xùn)練過(guò)程曲線Fig.8 Model training curve
從圖8中可以看出,S-ResNet模型與M-ResNet模型的平均準(zhǔn)確率相對(duì)于ResNet34模型有不錯(cuò)的提升,并且準(zhǔn)確率曲線更加平滑,而F-ResNet模型的平均準(zhǔn)確率相對(duì)于S-ResNet模型與M-ResNet模型均有較好的提升.
3.4.1 不同殘差結(jié)構(gòu)對(duì)比實(shí)驗(yàn)
為驗(yàn)證ResNet34模型在舍棄哪些殘差塊中的identity映射后可以達(dá)到最好的效果,本文通過(guò)消融實(shí)驗(yàn)進(jìn)行對(duì)比,即舍棄不同的殘差結(jié)構(gòu)中的identity映射并訓(xùn)練1000次.若舍棄某個(gè)殘差結(jié)構(gòu)的identity映射后,模型的準(zhǔn)確率變高則說(shuō)明該殘差結(jié)構(gòu)所提取的消極特征較多,反之消極特征較少.實(shí)驗(yàn)結(jié)果如表3所示.
表3 80%數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)Tab.3 Comparative experiment of 80% dataset
由表3可知,將Conv5_x層殘差結(jié)構(gòu)的identity映射舍棄后,ResNet34模型的準(zhǔn)確率變低,在舍棄Conv2_x層、Conv3_x層殘差結(jié)構(gòu)的identity映射后,模型的準(zhǔn)確率變高.實(shí)驗(yàn)結(jié)果表明高層殘差結(jié)構(gòu)所提取的積極特征信息較多,低層殘差結(jié)構(gòu)所提取的消極特征信息較多,因此舍棄低層的identity映射后有助于提供模型的識(shí)別準(zhǔn)確率.
3.4.2 不同測(cè)試集對(duì)比實(shí)驗(yàn)
為驗(yàn)證ResNet34模型在使用小數(shù)據(jù)集時(shí)舍棄哪些殘差塊中的identity映射后可以達(dá)到最好的效果,本文使用每種病害為200張的訓(xùn)練集進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示.
表4 每種病害200張訓(xùn)練集的對(duì)比實(shí)驗(yàn)Tab.4 Comparative experiment of 200 pictures per disease in training set
從表4中可以看出,在使用小數(shù)據(jù)集對(duì)模型訓(xùn)練時(shí),舍棄Conv3_x層identity映射的ResNet34模型,即S-ResNet,依然表現(xiàn)出最好的性能.
為了對(duì)比ResNet34與S-ResNet對(duì)不同類別病害的識(shí)別效果,通過(guò)使用不同大小的訓(xùn)練集以及不同類別病害的測(cè)試集進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示.
表5 ResNet34與S-ResNet在不同測(cè)試集與訓(xùn)練集下的準(zhǔn)確率對(duì)比Tab.5 Accuracy comparison of ResNet34 and S-ResNet in different test sets and training sets
根據(jù)表5可以發(fā)現(xiàn),本文改進(jìn)的模型S-ResNet在對(duì)不同類別病害進(jìn)行識(shí)別時(shí)的準(zhǔn)確率相較于的ResNet34模型均有較好的提高.
3.4.3 不同數(shù)據(jù)預(yù)處理對(duì)比實(shí)驗(yàn)
在本文所用數(shù)據(jù)集中,黑斑病與瘡痂病圖像數(shù)量較少,本文通過(guò)使用旋轉(zhuǎn)變換、翻轉(zhuǎn)處理、光照度處理、對(duì)比度處理、色彩平衡處理、銳度處理等操作擴(kuò)充這兩種病害的圖像數(shù)量.為驗(yàn)證這6種方法對(duì)F-ResNet的性能是否有影響,同時(shí)驗(yàn)證不同數(shù)據(jù)增強(qiáng)方法的合理性,本文通過(guò)不同的數(shù)據(jù)增強(qiáng)方法組合進(jìn)行消融實(shí)驗(yàn),觀察不同的數(shù)據(jù)增強(qiáng)方法對(duì)模型性能的影響,訓(xùn)練集與測(cè)試集的劃分比均為8∶2,實(shí)驗(yàn)結(jié)果如表6所示.
表6 不同預(yù)處理的對(duì)比實(shí)驗(yàn)Tab.6 Comparative experiment of different preprocess
根據(jù)表6中結(jié)果可以發(fā)現(xiàn),未進(jìn)行任何數(shù)據(jù)增強(qiáng)時(shí)模型的精確率與準(zhǔn)確率偏高,這是由于黑斑病和瘡痂病的測(cè)試集圖像數(shù)量過(guò)少而導(dǎo)致的.在使用所有數(shù)據(jù)增強(qiáng)方法對(duì)圖像進(jìn)行擴(kuò)充后,隨著測(cè)試集圖像的數(shù)量與復(fù)雜度增加,模型的準(zhǔn)確率相對(duì)于原來(lái)有所降低,最終準(zhǔn)確率為93.6%,相應(yīng)的混淆矩陣如圖9所示.根據(jù)圖9可以發(fā)現(xiàn)此時(shí)模型對(duì)各類病害的識(shí)別準(zhǔn)確率已經(jīng)分布比較均勻.因此使用不同數(shù)據(jù)增強(qiáng)方法對(duì)數(shù)量較少的病害圖像進(jìn)行擴(kuò)充后,可以更好地提升模型的泛化能力,并取得較好的識(shí)別性能.
圖9 使用數(shù)據(jù)擴(kuò)充后的數(shù)據(jù)集下的混淆矩陣Fig.9 The confusion matrix under the expanded dataset
為更好觀察數(shù)據(jù)集擴(kuò)充前后對(duì)模型性能的影響,本文使用未進(jìn)行數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集、采用所有數(shù)據(jù)增強(qiáng)方法的數(shù)據(jù)集以及隨機(jī)選取的只經(jīng)過(guò)銳度處理的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程中的Loss值變化對(duì)比結(jié)果如圖10所示.
圖10 不同預(yù)處理方式的Loss變化值對(duì)比Fig.10 Comparison of loss changes in different preprocess
在圖10中,“全部”表示對(duì)數(shù)據(jù)集采用所有數(shù)據(jù)增強(qiáng)方式,即6種數(shù)據(jù)增強(qiáng)方式;“無(wú)”表示未進(jìn)行數(shù)據(jù)增強(qiáng),“銳化處理”表示僅進(jìn)行銳化處理.從圖10中可以看出,在未進(jìn)行任何預(yù)處理時(shí),Loss值下降得最快,但波動(dòng)幅度也很大,這是由于未進(jìn)行數(shù)據(jù)增強(qiáng)時(shí),數(shù)據(jù)集中的黑斑病與瘡痂病圖像數(shù)量較少,模型產(chǎn)生了過(guò)擬合.經(jīng)過(guò)初步銳化處理后,模型的Loss值變化開(kāi)始變平滑,在使用所有數(shù)據(jù)增強(qiáng)方法后,Loss值變小,模型性能也進(jìn)一步改善.
本文針對(duì)實(shí)際生產(chǎn)活動(dòng)的柑橘病害識(shí)別研究,提出基于ResNet34的柑橘病害檢測(cè)方法,主要的創(chuàng)新點(diǎn)如下:
(1)通過(guò)舍棄ResNet34中Conv3_x層殘差塊的identity映射,以加強(qiáng)網(wǎng)絡(luò)低層對(duì)圖像中的病害特征的提取,相對(duì)于ResNet34的識(shí)別精度提高3.9%.
(2)使用小卷積核替換大卷積核來(lái)提取圖像中更具表達(dá)力的病害特征,并采用模型融合的方式對(duì)所提出的S-ResNet模型與M-ResNet模型進(jìn)行融合從而得到比單一模型更好的性能.
中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年6期