張 艷,王林茂,程志友,章楊凡,儲著增
(安徽大學(xué) 電子信息工程學(xué)院,安徽 合肥 230601)
中國為世界上最大的茶葉生產(chǎn)國和消費(fèi)國,茶葉產(chǎn)業(yè)為國民經(jīng)濟(jì)中的重要組成部分.茶樹會受到不同種類的病蟲害影響,茶葉病害不僅影響茶葉品質(zhì)也給茶農(nóng)造成經(jīng)濟(jì)損失.茶學(xué)專家對茶葉病害分類,去現(xiàn)場勘察,根據(jù)經(jīng)驗(yàn)進(jìn)行判斷.專家對茶葉病害分類不可避免存在主觀因素,人工費(fèi)用也非常高,于是提出了茶葉病害自動分類方法[1-3].隨著計(jì)算機(jī)科學(xué)的快速發(fā)展,研究人員提出了基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的植物病害分類方法.文獻(xiàn)[4]結(jié)合改進(jìn)的隨機(jī)森林機(jī)器學(xué)習(xí)算法、屬性評估和實(shí)例過濾,對多類花生病害進(jìn)行了分類.文獻(xiàn)[5]用支持向量機(jī)對兩種最普遍的茶葉病害進(jìn)行了分類.文獻(xiàn)[6]提出了一種基于病害紋理、顏色特征的馬鈴薯晚疫病分類方法.文獻(xiàn)[7]提出了一種基于支持向量機(jī)的青稞病害分類方法.
機(jī)器學(xué)習(xí)模型的性能主要取決于人工提取特征的優(yōu)劣,對一些病害特征不太明顯的病害其分類效果并不理想.深度學(xué)習(xí)不需人工提取目標(biāo)特征,在訓(xùn)練樣本量充足的情況下,有較高的識別精度.文獻(xiàn)[8]提出了基于AlexNet的深度卷積神經(jīng)網(wǎng)絡(luò)模型,以13 689張?zhí)O果病害圖像為對象,對4種蘋果病害進(jìn)行分類,分類精度較高.文獻(xiàn)[9]將GoogleNet,AlexNet作為預(yù)訓(xùn)練模型,以54 306張植物病害圖像為研究對象,成功分類了36類植物病害圖像.文獻(xiàn)[10]使用GoogleNet CNN架構(gòu)成功分類了14種植物葉子病害.文獻(xiàn)[11]提出了一種對馬鈴薯葉片病害進(jìn)行分類的基于注意力和殘差思想的深度卷積網(wǎng)絡(luò),該深度卷積網(wǎng)絡(luò)的分類精度較高.文獻(xiàn)[12]提出了一種改進(jìn)的對常見果實(shí)葉片病害進(jìn)行分類的殘差網(wǎng)絡(luò),該殘差網(wǎng)絡(luò)的分類效率較高.文獻(xiàn)[13] 在VGG16網(wǎng)絡(luò)模型的基礎(chǔ)上,提出了一個(gè)改進(jìn)的對蘋果病害葉片進(jìn)行分類的網(wǎng)絡(luò)模型,該模型提升了分類精度.雖然深度學(xué)習(xí)對植物葉片病害分類有較好的效果,但是上述網(wǎng)絡(luò)模型存在如下問題:①常規(guī)的深度學(xué)習(xí)在模型訓(xùn)練過程中,需要大量的標(biāo)注樣本,否則會出現(xiàn)過擬合,然而在許多病害分類中無法滿足大量樣本的要求.②沒有將病斑區(qū)域與整體區(qū)域很好地關(guān)聯(lián),使得到的特征圖沒有完全包含病害葉片的特征信息,從而影響分類效果.③在卷積過程中只用相同大小的卷積核進(jìn)行卷積,導(dǎo)致提取特征時(shí)感受野受限,進(jìn)而不能得到包含更多信息的特征圖.④網(wǎng)絡(luò)參數(shù)多,占用大量計(jì)算資源.
針對上述問題,該文擬提出一種用于小樣本茶葉病害分類的多尺度特征拼接的網(wǎng)絡(luò)模型.以關(guān)系網(wǎng)絡(luò)作為基礎(chǔ),通過多尺度注意力模塊提取茶葉葉片的顯著性特征,進(jìn)而得到顯著性圖像.對顯著性圖像與原始圖像進(jìn)行通道特征拼接,使拼接后的圖像既包含全局特征又包含局部特征.用可分離卷積代替常規(guī)卷積以減少參量數(shù),進(jìn)而提升分類效率.
該文以關(guān)系網(wǎng)絡(luò)為基礎(chǔ),針對其不足進(jìn)行改進(jìn),提出一種多尺度特征拼接的網(wǎng)絡(luò)模型.多尺度特征拼接的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示.多尺度特征拼接的網(wǎng)絡(luò)模型包含兩個(gè)模塊:多特征嵌入模塊及多通道關(guān)系模塊.多特征嵌入模塊能提取輸入圖像的特征.將輸入圖像輸入多尺度注意力模塊(multi-scale attention module, 簡稱MSAM),得到茶葉葉片的顯著性特征,依據(jù)此特征生成葉片的顯著性圖像.對顯著性圖像與原始圖像進(jìn)行通道特征拼接,將拼接后的圖像輸入卷積特征提取模塊,提取該圖像特征.多尺度關(guān)系模塊對從多特征嵌入模塊輸出的卷積特征圖進(jìn)行操作,測量查詢樣本與支持樣本間的關(guān)系得分,進(jìn)而根據(jù)關(guān)系得分對圖像進(jìn)行分類.
圖1 多尺度特征拼接的網(wǎng)絡(luò)模型結(jié)構(gòu)
1.2.1 MSAM的流程
MSAM是該文提出的一種獲取圖像顯著性區(qū)域的注意力模塊.圖2為MSAM的流程圖.在卷積塊注意力模塊(convolutional block attention module, 簡稱CBAM)[14]的通道注意力中引入多尺度特征,能夠提取不同感受野下的通道注意力特征.將圖像輸入可分離卷積模塊,生成輸入圖像所對應(yīng)的特征圖.特征圖送入多尺度通道注意力模塊Mc.在Mc中,利用不同尺度大小的卷積核將輸入特征圖轉(zhuǎn)換為2個(gè)不同感受野下的特征圖,對這2個(gè)特征圖進(jìn)行平均池化和最大池化,聚合特征映射的空間信息,得到2個(gè)不相同的空間信息Fcavg和Fcmax.使用多層感知機(jī)組成的共享網(wǎng)絡(luò),對Fcavg和Fcmax進(jìn)行計(jì)算,將2個(gè)計(jì)算結(jié)果進(jìn)行逐元素相加.通過激活函數(shù)sigmoid得到1個(gè)參數(shù),將該參數(shù)與平均池化和最大池化后的特征圖相乘,對與參數(shù)相乘后的2個(gè)特征圖進(jìn)行融合,得到多尺度通道注意力的特征圖.
圖2 MSAM的流程圖
將多尺度通道注意力的特征圖輸入空間注意力模塊Ms.Ms對該特征圖進(jìn)行平均池化和最大池化,聚合功能映射的通道信息, 生成2個(gè)2維映射:Fsavg和Fsmax.利用卷積對特征進(jìn)行串聯(lián), 得到2D 空間注意力特征圖.通過激活函數(shù)sigmoid得到1個(gè)參數(shù),將該參數(shù)與多尺度通道注意力得到的特征圖相乘,相乘后的特征圖就是MSAM的特征圖.將可分離卷積輸出的特征圖像素與MSAM的特征圖像素逐項(xiàng)相加,得到顯著性特征.
1.2.2 通道特征拼接
對顯著性圖像與原始圖像進(jìn)行通道特征拼接,使拼接后的圖像既包含全局特征又包含局部特征.如果兩路輸入的通道數(shù)相同且后面帶卷積,拼接可看成特征圖在通道維度上的相加,且整體共用同一個(gè)卷積核.假設(shè)兩路輸入通道分別為X1,X2,…,Xc與Y1,Y2,…,Yc,那么拼接后的輸出為
(1)
其中:c表示通道數(shù);Xi,Yi分別表示特征圖X,Y在第i個(gè)子通道上的特征圖;Ki表示第i個(gè)子通道上的卷積核;*表示卷積操作.
1.2.3 卷積特征提取模塊
對多個(gè)不同卷積層輸出的特征進(jìn)行融合,使特征圖能夠包含空間和語義信息.為了減少整個(gè)流程的計(jì)算時(shí)間,用可分離卷積來代替常規(guī)卷積.圖3為卷積特征提取模塊的流程圖.
圖3 卷積特征提取模塊的流程圖
在常規(guī)卷積下,卷積層參量數(shù)的計(jì)算公式為
Nstd=m×n×cincout,
(2)
其中:m×n為卷積層卷積核大小、cin為輸入通道數(shù)、cout為輸出通道數(shù).
可分離卷積分兩步進(jìn)行,先進(jìn)行逐通道卷積,后進(jìn)行逐點(diǎn)卷積.可分離卷積參量數(shù)的計(jì)算公式為
Nsep=m×n×cin+1×1×cincout,
(3)
其中:1×1×cincout為可分離卷積的卷積核大小.因此,在相同輸入和輸出的情況下,利用可分離卷積能夠大幅減少參數(shù)量.
通常的網(wǎng)絡(luò)模型,用一個(gè)固定大小的卷積核進(jìn)行多次卷積操作,用一個(gè)固定大小的感受野對圖像進(jìn)行特征提取,而大多數(shù)圖像的特征區(qū)域大小是不固定的,因此該文在多通道關(guān)系模塊中,用不同大小的卷積核進(jìn)行多通道卷積,用不同大小的感受野對嵌入模塊得到的特征圖進(jìn)行特征提取.
該文在兩個(gè)病害數(shù)據(jù)集(crop disease data(CDD) set in AI Challenger 2018和Anhui green tea disease(Ahu-GTD) set)上進(jìn)行實(shí)驗(yàn),以驗(yàn)證所提模型的性能.將Adam作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為5×10-4,總的迭代次數(shù)設(shè)置為105.
CDD數(shù)據(jù)集共有61個(gè)類別,10個(gè)物種,27種病害(其中24種病害有一般和嚴(yán)重兩種程度),47 393張圖片.數(shù)據(jù)集被隨機(jī)分為如下4個(gè)子數(shù)據(jù)集:訓(xùn)練(70%)、驗(yàn)證(10%)、測試 A(10%)及測試 B(10%).
Ahu-GTD數(shù)據(jù)集是在中國安徽巢湖的金剛山國家森林公園中拍攝的.圖像采集設(shè)備包括手持?jǐn)?shù)碼相機(jī)(佳能EOS 80D SLR相機(jī))和無人駕駛飛機(jī)(DJI phantom 4pro).該文選擇的茶葉病為如下4種:茶餅病、茶黑煤病、茶炭疽病和茶白星病.圖4為Ahu-GTD數(shù)據(jù)集中的健康及4種病害的茶葉圖像.
圖4 Ahu-GTD數(shù)據(jù)集中的健康及4種病害的茶葉圖像
對CDD和Ahu-GTD數(shù)據(jù)集中的小樣本茶葉病害圖像均進(jìn)行5-way 1-shot和5-way 5-shot實(shí)驗(yàn),對該文模型與其他5種模型的分類準(zhǔn)確率進(jìn)行比較.表1為不同模型的分類準(zhǔn)確率.
表1 不同模型的分類準(zhǔn)確率 %
由表1可知:相對于其他5種模型,該文模型CDD數(shù)據(jù)集5-way 1-shot和5-way 5-shot實(shí)驗(yàn)的分類準(zhǔn)確率均最高;相對于其他5種模型,該文模型Ahu-GTD數(shù)據(jù)集5-way 1-shot和5-way 5-shot實(shí)驗(yàn)的分類準(zhǔn)確率均最高.因此,該文模型具有較強(qiáng)的泛化性和魯棒性.
圖5為茶葉病害的原圖像及兩種模型茶葉病害特征的可視化圖像.從圖5可看出,相對于關(guān)系網(wǎng)絡(luò)模型,該文模型的茶葉病害特征的可視化圖像能更清晰地顯示原圖像的病害區(qū)域,包含了更多局部信息.
圖5 茶葉病害的原圖像及兩種模型茶葉病害特征的可視化圖像
對CDD數(shù)據(jù)集中的小樣本茶葉病害圖像,使用該文模型在不同圖像裁剪大小下進(jìn)行5-way 1-shot和5-way 5-shot實(shí)驗(yàn),分析裁剪大小對分類準(zhǔn)確率的影響.表2為該文模型圖像不同裁剪大小下的分類準(zhǔn)確率.由表2可知,不論是5-way 1-shot還是5-way 5-shot實(shí)驗(yàn),相對于12×12和42×42裁剪大小的圖像,裁剪大小為18×18的圖像分類準(zhǔn)確率最高,說明裁剪大小適中時(shí)分類效果最佳.
表2 該文模型不同圖像裁剪大小下的分類準(zhǔn)確率 %
茶葉病害分類的時(shí)間與模型中的參量總數(shù)有關(guān),下面分析該文模型用可分離卷積代替常規(guī)卷積后,參量總數(shù)的變化情況.表3為兩種模型的參量總數(shù).由表3可知,該文模型用可分離卷積代替常規(guī)卷積后,參量總數(shù)由728 348降為110 259,小于關(guān)系網(wǎng)絡(luò)模型參量總數(shù)的1/2,表明該文模型有較高的分類效率.
表3 兩種模型的參量總數(shù)
該文提出了一種基于多尺度特征拼接的網(wǎng)絡(luò)模型,用該模型對小樣本茶葉病害進(jìn)行分類實(shí)驗(yàn).分類實(shí)驗(yàn)結(jié)果表明:用可分離卷積代替常規(guī)卷積后,該文模型參量總數(shù)小于關(guān)系網(wǎng)絡(luò)模型的參量總數(shù)的1/2,提高了分類效率;圖像裁剪大小適中時(shí)分類效果最佳;相對于其他5種模型,該文模型分類準(zhǔn)確率最高.因此,該文模型具有較強(qiáng)的泛化性和魯棒性.