宋中山,汪進(jìn),鄭祿,帖軍,朱祖桐
(1.中南民族大學(xué)計算機(jī)科學(xué)學(xué)院,武漢市,430074; 2.湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢市,430074)
柑橘為世界最重要的經(jīng)濟(jì)作物、國際農(nóng)產(chǎn)品和加工品之一,也是國際貿(mào)易第一大水果。我國是柑橘主要原產(chǎn)國之一。2020年,我國柑橘產(chǎn)量為35 600 kt,占世界柑橘產(chǎn)量的四分之一。然而,柑橘病害種類繁多且頻發(fā),柑橘在病害感染下容易導(dǎo)致產(chǎn)量下降,嚴(yán)重制約著我國柑橘產(chǎn)業(yè)的發(fā)展。因此,對柑橘病害的檢測和識別研究是保證柑橘產(chǎn)量的重要措施,也對其他農(nóng)作物病害識別提供解決方法和應(yīng)用思路。
Faster R-CNN主要是針對于目標(biāo)檢測任務(wù)的網(wǎng)絡(luò)模型,其主干網(wǎng)絡(luò)作為卷積神經(jīng)網(wǎng)絡(luò)特征提取。在對病蟲害圖像的柑橘葉片進(jìn)行檢測與識別研究,各科研學(xué)者提出不同的思路,蘇鴻等[1]在柑橘病蟲害中基于34層ResNet主干網(wǎng)的專用R-CNN模型結(jié)構(gòu)改進(jìn)提出區(qū)域神經(jīng)網(wǎng)絡(luò),在自建數(shù)據(jù)集的情況下,模型準(zhǔn)確率達(dá)到90.23%,但是模型精確度相比于經(jīng)典模型較低且模型的速度較慢。王建濤等[2]在自建數(shù)據(jù)集的情況下,利用卷積神經(jīng)網(wǎng)絡(luò)和高光譜相結(jié)合的方法來檢測柑橘病蟲害,該方法運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)和高光圖譜相結(jié)合作為新方法應(yīng)用在柑橘病害的圖像識別領(lǐng)域,已有學(xué)者通過深度學(xué)習(xí)的方法進(jìn)行研究。張敏等[3]提出先使用卷積神經(jīng)網(wǎng)絡(luò)模型Alexnet對柑橘潰瘍病進(jìn)行識別的方法,然后在保證準(zhǔn)確率基本不變的情況下,優(yōu)化網(wǎng)絡(luò)模型結(jié)構(gòu),減小網(wǎng)絡(luò)參數(shù)量,使用卷積神經(jīng)網(wǎng)絡(luò)后,它對正樣本、負(fù)樣本的識別率達(dá)到98%。Sharif等[4]提出柑橘疾病檢測和分類的混合方法,通過優(yōu)化的加權(quán)分割方法提取柑橘病斑圖像,然后將顏色、紋理和幾何特征融合到密碼本中,選定的特征將饋送到多類支持向量機(jī)(M-SVM),以進(jìn)行最終的柑橘疾病分類,在柑橘類疾病圖庫數(shù)據(jù)集上實(shí)現(xiàn)97%的分類精度,在組合數(shù)據(jù)集上實(shí)現(xiàn)89%的分類精度,在本地數(shù)據(jù)集上實(shí)現(xiàn)90.4%的分類精度。上述文獻(xiàn)均使用全連接層作為整個網(wǎng)絡(luò)的分類器,但由于全連接層存在數(shù)據(jù)冗余問題,網(wǎng)絡(luò)參數(shù)約占整個網(wǎng)絡(luò)的90%左右。上述文獻(xiàn)中的模型在Rol pooling層處理Rol都會經(jīng)過全連接層,并且其計算方法為單獨(dú)計算,沒有實(shí)現(xiàn)共享計算,從而導(dǎo)致訓(xùn)練速度過慢,所以改進(jìn)全連接層是當(dāng)下研究的熱點(diǎn)問題,也是實(shí)現(xiàn)輕量級網(wǎng)絡(luò)的前提。
基于以上全連接層的問題,本文針對具有全連接層的Faster R-CNN網(wǎng)絡(luò),提出二值化Faster R-CNN(Binary Faster R-CNN)其中主要改進(jìn)為將二階段的全卷積神經(jīng)網(wǎng)絡(luò)代替原始的全連接層。改進(jìn)后的模型由于二值網(wǎng)絡(luò)權(quán)值W中的元素只占一位二進(jìn)制,因此在保存訓(xùn)練好后的模型時所需的內(nèi)存可以節(jié)省90%的壓縮率,同時又去除普通的乘法操作。
為研究柑橘病害,需采集相關(guān)柑橘病害圖像,建立柑橘病害圖像數(shù)據(jù)集。收集到的數(shù)據(jù)集圖像由網(wǎng)上公開數(shù)據(jù)集與自建數(shù)據(jù)集兩部分組成,未進(jìn)行增強(qiáng)處理的數(shù)據(jù)集共10 397張。其中,公開數(shù)據(jù)集來源于PlantVillage,PlantVillage是一個通用的農(nóng)作物病害數(shù)據(jù)庫,主要用于供科研工作者進(jìn)行農(nóng)作物病害檢測算法研究,包含黃龍病病害圖像5 507張。自建數(shù)據(jù)集拍攝于桂林市靈川縣九屋鎮(zhèn)果園,包含潰瘍病病害圖像2 423張、瘡痂病病害圖像175張、黑斑病病害圖像283張、健康葉片圖像2 009張。圖像采集所用的拍攝設(shè)備是三星S10手機(jī),圖像的分辨率4 032像素×3 024像素。考慮到現(xiàn)實(shí)情況的多變性,選擇在陰天和晴天兩種情況下進(jìn)行拍攝,拍攝時間包括下午2點(diǎn)和下午5點(diǎn);拍攝的距離分別為距離樹干1.0 m和0.5 m。采集樣本的圖像如圖1所示。
(a) 黃龍病 (b) 黑斑病 (c) 潰瘍病 (d) 瘡痂病 (e) 健康
由于數(shù)據(jù)集在每類柑橘病害的樣本分布不均衡,有限的數(shù)據(jù)訓(xùn)練容易使模型過擬合。在深度學(xué)習(xí)中,使用數(shù)據(jù)增強(qiáng)的方法對數(shù)據(jù)集進(jìn)行擴(kuò)充,可以提高模型的準(zhǔn)確率與泛化能力[5]。訓(xùn)練集采用的數(shù)據(jù)增強(qiáng)的手段主要包括以下4類:(1)圖像旋轉(zhuǎn):對本數(shù)據(jù)集的圖像進(jìn)行逆時針旋轉(zhuǎn)90°、180°、270°,以及水平翻轉(zhuǎn)與垂直翻轉(zhuǎn)處理;(2)色彩平衡:對圖像進(jìn)行色彩平衡控制,改變圖像顏色構(gòu)成,控制圖像單一化[5-6];(3)高斯模糊添加噪聲干擾:對圖像添加高斯噪聲與椒鹽噪聲,模擬在不同條件下拍攝的清晰度,從而來減少圖像噪聲帶來的干擾;(4)HSV(Hue, Saturation, Value)亮度增強(qiáng):通過更改色調(diào)(H)、飽和度(S)、亮度(V),即改變亮度V與飽和度S的分量,讓色調(diào)H保持不變,從而達(dá)到增亮的效果,同時防止模型過擬合。如圖2所示。
經(jīng)過上述柑橘病害圖像進(jìn)行分類擴(kuò)充,最后得到51 985張有效圖像數(shù)據(jù)集。如表1所示。
在虛擬環(huán)境下搭建labelImg標(biāo)注工具,對訓(xùn)練集圖像數(shù)據(jù)集進(jìn)行分類標(biāo)注,citrus_greening表示黃龍病病害,black spot表示黑斑病病害,ulcer表示潰瘍病病害,Scab表示瘡痂病病害,health表示正常葉片。對每幅病害圖像用一個矩形框進(jìn)行標(biāo)注并且標(biāo)注對應(yīng)的病害標(biāo)簽,保證矩形框的內(nèi)容盡可能單一,每張圖像至少包含一個對象,然后會生成特征工程的數(shù)據(jù)集合,其類型是具有封裝的XML文件。
樣本通過K次折中交叉驗(yàn)證(K=1)方式,選取9份作為訓(xùn)練集,1份作為驗(yàn)證集,選取方式為隨機(jī)選取。訓(xùn)練集中黑斑病選取樣本數(shù)量為1 275張,黃龍病樣本數(shù)量為24 780張,瘡痂病樣本數(shù)量為790張,潰瘍病樣本數(shù)量為10 900張,健康葉片樣本數(shù)量為9 040張。
圖2 各類數(shù)據(jù)增強(qiáng)預(yù)處理效果圖
表1 數(shù)據(jù)預(yù)處理統(tǒng)計圖Tab. 1 Statistical chart of data preprocessing
建立目標(biāo)檢測模型的目的是將目標(biāo)物體進(jìn)行定位和識別,F(xiàn)aster R-CNN在相同的數(shù)據(jù)集上準(zhǔn)確率要高于其他檢測算法如YOLO系列、SSD等[7-8]。原始的Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取網(wǎng)絡(luò)(Feature Extraction Network)、區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)和區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region with Convolutional Neural Network Features, R-CNN)3個部分,具體的模型框架圖如圖3所示。
Faster R-CNN卷積神經(jīng)網(wǎng)絡(luò)可以自動提取圖像特征,并將所得特征圖像共享給后續(xù)的區(qū)域建議網(wǎng)絡(luò)(RPN)和R-CNN。目前,VGG-16[9]等卷積神經(jīng)網(wǎng)絡(luò)都具有很強(qiáng)的特征提取能力,因此選取VGG-16卷積神經(jīng)網(wǎng)絡(luò)作為Faster R-CNN的特征提取網(wǎng)絡(luò),同時選取VGG-16、ResNet50兩個卷積神經(jīng)網(wǎng)絡(luò)作為對比試驗(yàn),以便對比分析不同特征提取網(wǎng)絡(luò)模型的性能。Faster R-CNN的區(qū)域建議網(wǎng)絡(luò)是一個全卷積神經(jīng)網(wǎng)絡(luò)。通過RPN中IOU可得到目標(biāo)物體的分?jǐn)?shù)和對應(yīng)的區(qū)域建議框,用于判斷該區(qū)內(nèi)的目標(biāo)屬于前景或背景,右邊的錨框用于檢測不同形狀物體,具體如圖4所示。
圖3 Faster R-CNN原始模型圖
圖4 原始模型架構(gòu)設(shè)計圖
RPN整體的損失函數(shù)如式(1)所示。
L=Lcls+Lreg
(1)
式中:L——RPN的損失值;
Lcls——分類層損失值;
Lreg——回歸層損失值。
由式(1)所知,RPN整體的損失值可以分成分類損失值與回歸損失值,分類損失函數(shù)與回歸損失函數(shù)如式(2)~式(3)所示。
Lcls=-log[pipi*+(1-pi*)(1-pi)]
(2)
Lreg(ti,ti*)=∑smoothL1(ti-ti*)
(3)
(4)
smoothL1(ti-ti*)=
(5)
(6)
式中:Ncls——分類樣本數(shù);
Nreg——回歸樣本數(shù);
pi——目標(biāo)的預(yù)測概率;
pi*——區(qū)域建議值;
ti——預(yù)測邊界框坐標(biāo)向量;
ti*——真實(shí)邊界框的坐標(biāo)向量;
i——第i個區(qū)域建議框;
λ——權(quán)重參數(shù);
smoothL1——平滑損失函數(shù)。
改進(jìn)二值化的Faster R-CNN(Binary Faster R-CNN)網(wǎng)絡(luò)模型:卷積網(wǎng)絡(luò)VGG-16作為骨干網(wǎng)絡(luò),VGG-16網(wǎng)絡(luò)包括13個卷積層、5個最大池化層、3個全連接層、1個softmax層,在VGG-16網(wǎng)絡(luò)中嵌入RPN層和ROI池化層進(jìn)行池化與歸一化處理,然后經(jīng)過三次全連接,將原始分類網(wǎng)絡(luò)中的全連接層fc6和fc7轉(zhuǎn)換為二進(jìn)制網(wǎng)絡(luò)的卷積層。第一層全連接層fc6的卷積運(yùn)算在conv5_3之后實(shí)現(xiàn)步幅為1的7×7濾波器,其中VGG-16網(wǎng)絡(luò)每個卷積block包含2個或3個卷積層,conv5表示第五個卷積block,conv5_3表示第五個卷積block里面的第三個卷積層,并且對第二層全連接層fc7的卷積運(yùn)算轉(zhuǎn)換為步幅為1的1×1濾波器,得到構(gòu)建的二值化的Faster R-CNN網(wǎng)絡(luò)模型,再通過一個FC-1000的全連接層得到分類的類別數(shù),最后通過一層softmax層分類器,得到分類結(jié)果[10-13]。
2.2.1 權(quán)重量化
在權(quán)重選擇量化正則化使其分布成正態(tài)分布,其中它的上界為b,下界為-b,其中b層權(quán)重絕對值不超過1,考慮到網(wǎng)絡(luò)有可能難以收斂,對網(wǎng)絡(luò)進(jìn)行裁剪,在l-th層網(wǎng)絡(luò),其中l(wèi)是網(wǎng)絡(luò)的層數(shù)(l=1,2, …,n),依次求出裁剪之后的網(wǎng)絡(luò),是其向前傳播與向后傳播,Wl∈Rnl×kl×kl是l全精度權(quán)重,nl和kl表示特征數(shù)與內(nèi)核大小。
(7)
clip(x,b)=max(-b,min(x,b))
(8)
(9)
(10)
選取每個元素Q(i=1,2,…,nl×kl×kl)。
(11)
使用式(11)獲得比例因子
(12)
對于前向傳播的神經(jīng)元x的分類二值化,使用式(13)計算。
(13)
(14)
2.2.2 二進(jìn)制網(wǎng)絡(luò)概述
二進(jìn)制網(wǎng)絡(luò)是前向傳播采用權(quán)重W激活值修飾的神經(jīng)元和二值化構(gòu)成的隱藏層網(wǎng)絡(luò),其中二值化隱藏層網(wǎng)絡(luò)值為1或-1。二值化的優(yōu)點(diǎn)有:使模型的參數(shù)占用更小的存儲空間,同時利用位移操作來代替網(wǎng)絡(luò)中的乘法運(yùn)算,大大降低運(yùn)算時間,由于二值網(wǎng)絡(luò)只是將網(wǎng)絡(luò)的參數(shù)和激活值二值化,并沒有改變網(wǎng)絡(luò)的結(jié)構(gòu),所以它跟全精度一樣。神經(jīng)網(wǎng)絡(luò)對weights的二值化并不是非常敏感,所以提出對實(shí)值weights每個輸出通道方向上提取出一個scaling factor,用于恢復(fù)二值化weights的信息,同時對activation在HW方向上每個pixel上提取一個scaling factor,用于恢復(fù)二值化activations的信息,這兩種scaling factor都無須學(xué)習(xí),直接計算相應(yīng)的L1范數(shù)就能得到,且不影響二值化高效的卷積計算過程[14-21],二進(jìn)制網(wǎng)絡(luò)模型圖如圖5所示。
針對檢測任務(wù)微調(diào)預(yù)訓(xùn)練的VGG-16模型,使用二進(jìn)制權(quán)重量化底層的權(quán)重,并對網(wǎng)絡(luò)進(jìn)行微調(diào),直到收斂為止。在下一階段,凍結(jié)這些底層,并繼續(xù)對下一層的權(quán)重進(jìn)行量化,除卷積網(wǎng)絡(luò)中的分類和位置層。改進(jìn)后的二進(jìn)制網(wǎng)絡(luò)模型如圖6所示。
圖5 二進(jìn)制網(wǎng)絡(luò)模型圖
圖6 改進(jìn)二值化的Faster R-CNN模型圖
權(quán)重更新算法是二值網(wǎng)絡(luò)的訓(xùn)練算法,其中包括權(quán)重更新和前向傳播。
前向傳播:二化值網(wǎng)絡(luò)訓(xùn)練時的權(quán)值參數(shù)W,包含實(shí)數(shù)型的參數(shù),將實(shí)數(shù)型權(quán)值參數(shù)二值化得到二值型權(quán)值參數(shù),即Wkb=Binarize(Wk)。通過利用二值化后的參數(shù)計算得到實(shí)數(shù)型的中間向量,然后該目標(biāo)向量再通過歸一化操作,得到實(shí)數(shù)型的隱藏層激活向量。實(shí)數(shù)型權(quán)值參數(shù)在輸出層的之前,就將該向量二值化。
試驗(yàn)操作平臺、運(yùn)行環(huán)境、處理器、運(yùn)行內(nèi)存、顯卡與深度學(xué)習(xí)框架參數(shù)如表2所示。
表2 環(huán)境參數(shù)Tab. 2 Environmental parameters
在試驗(yàn)中,特征提取的特征選擇尤為重要,故選用預(yù)訓(xùn)練模型,其目的可以極大地節(jié)省成本與算力,配合自建數(shù)據(jù)集聯(lián)合訓(xùn)練的方式,相比于傳統(tǒng)的訓(xùn)練方式快捷、方便且模型運(yùn)行速度大幅度提高,試驗(yàn)按照規(guī)定的初始化模型參數(shù)如表3所示。
表3 參數(shù)設(shè)置Tab. 3 Parameter setting
試驗(yàn)采用不同的網(wǎng)絡(luò)模型(Binary Faster R-CNN、Faster R-CNN、VGG-16、ResNet50)對柑橘葉片進(jìn)行目標(biāo)檢測。模型評價指標(biāo)采用平均精度與模型訓(xùn)練速度作為整個模型的試驗(yàn)結(jié)果,如表4所示。
表4 不同模型性能結(jié)果分析Tab. 4 Performance analysis of different models
表4模型網(wǎng)絡(luò)中,ResNet50、Faster R-CNN、VGG-16與Binary Faster R-CNN中識別率Faster R-CNN表現(xiàn)更佳,達(dá)到87%。在識別效率Binary Faster R-CNN上表現(xiàn)更佳突出,平均識別圖片時間0.31 s,模型參數(shù)方面Binary Faster R-CNN最小,大小為15.3 MB,在浮點(diǎn)運(yùn)算能力方面也是Binary Faster R-CNN最佳,F(xiàn)LOPs為2.58×109。由上述試驗(yàn)數(shù)據(jù)可以看出,Binary Faster R-CNN識別效率與模型的內(nèi)存占用方面都表現(xiàn)更佳,F(xiàn)aster R-CNN雖然識別能力更優(yōu),但識別效率較差,Binary Faster R-CNN在識別效果與識別率上都表現(xiàn)更好。Binary Faster R-CNN表現(xiàn)好的原因有:一是全卷積神經(jīng)網(wǎng)絡(luò)替代全連接層,二是二進(jìn)制網(wǎng)絡(luò)表現(xiàn)了良好的輕量級特性。改進(jìn)后的Binary Faster R-CNN深度學(xué)習(xí)網(wǎng)絡(luò)能夠較好地進(jìn)行病害檢測,其識別結(jié)果如圖7所示。
(a) 黃龍病 (b) 黑斑病 (c) 潰瘍病
(d) 瘡痂病 (e) 健康
通過二值化Faster R-CNN(Binary Faster R-CNN)網(wǎng)絡(luò)識別出來的目標(biāo),定為正樣本,未被檢測出來的目標(biāo)定為負(fù)樣本。通過采用IOU(交并比)閾值為檢測統(tǒng)計指標(biāo),當(dāng)IOU值大于0.5時,認(rèn)定為檢測結(jié)果為前景(正樣本);反之,IOU值小于等于0.5時,檢測結(jié)果為背景(負(fù)樣本)。試驗(yàn)有4種結(jié)果,分別為檢測出來IOU值大于0.5的目標(biāo)TP、檢測結(jié)果小于等于0.5的目標(biāo)FP、未檢查出來的真值目標(biāo)FN。
(15)
(16)
式中召回率(Recall)為識別出的柑橘數(shù)占總目標(biāo)總數(shù)的比例[22]。
(17)
式中:FN——正樣本被錯誤識別為負(fù)樣本的數(shù)量[22];
FP——負(fù)樣本被錯誤識別為正樣本的數(shù)量;
TP——正樣本被正確識別為正樣本的數(shù)量;
P——精確率;
R——召回率;
F1——精確率與召回率的調(diào)和均值。
為分析Binary Faster R-CNN與其他的網(wǎng)絡(luò)性能進(jìn)行更好的比較,選用ResNet50、Faster R-CNN和VGG-16網(wǎng)絡(luò)在本柑橘數(shù)據(jù)集中進(jìn)行對比試驗(yàn),結(jié)果如表5所示。
表5 不同網(wǎng)絡(luò)試驗(yàn)對比Tab. 5 Comparison of different network experiments
試驗(yàn)結(jié)果表明,Binary Faster R-CNN的平均準(zhǔn)確率、平均召回率和總準(zhǔn)確率與召回率的調(diào)和均值在4個模型對比試驗(yàn)中都表現(xiàn)出良好性能,分別為87.52%、87.48%和87.56%。結(jié)合表4中模型參數(shù)、檢測圖像時間和FLOPs(浮點(diǎn)運(yùn)算速度)等多個指標(biāo),所以選取二值化Faster R-CNN作為自然場景下的柑橘病害研究的網(wǎng)絡(luò)。為進(jìn)一步比較該模型的性能,再次對柑橘病害數(shù)據(jù)集準(zhǔn)確率的訓(xùn)練過程進(jìn)行比較[22-24],訓(xùn)練過程中準(zhǔn)確率曲線變化如圖8所示。
圖8 訓(xùn)練過程中4種模型準(zhǔn)確率曲線變化展示圖
在網(wǎng)絡(luò)數(shù)據(jù)集的制作過程中,根據(jù)預(yù)訓(xùn)練模型改變數(shù)據(jù)集尺寸、大小、數(shù)量來控制數(shù)據(jù)模型的尺度,進(jìn)而研究模型超參數(shù)和訓(xùn)練次數(shù)對識別精度和訓(xùn)練速度的影響。首先為防止模型的過擬合,采用early-stopping技術(shù)來減少過擬合帶來的性能影響。在訓(xùn)練過程中,設(shè)置學(xué)習(xí)率取固定值0.001時,迭代樣本數(shù)為256,如圖9所示四種網(wǎng)絡(luò)在訓(xùn)練過程中的平均損失值隨迭代次數(shù)變化曲線。試驗(yàn)結(jié)果表明,網(wǎng)絡(luò)迭代次數(shù)超過3 000次之后,損失值趨于平穩(wěn),其中Faster R-CNN和binary Faster R-CNN的損失值(Loss)收斂較快且損失浮動較小,從參數(shù)收斂情況來看下降到0.25左右,兩模型開始收斂,并且收斂較快。結(jié)合圖8準(zhǔn)確率與圖9收斂性可以看出,F(xiàn)aster R-CNN和Binary Faster R-CNN具有更好的魯棒性與泛化能力。
圖9 訓(xùn)練過程中4種模型損失值曲線變化展示圖
四種網(wǎng)絡(luò)模型識別柑橘病害的混淆矩陣如圖10所示。
(a) Binary Faster R-CNN
(b) Faster R-CNN
(c) ResNet50
(d) VGG-16
混淆矩陣也是模型分類與檢測評價的指標(biāo)之一。在混淆矩陣中,主對角線上的數(shù)字是正確預(yù)測的樣本圖像的數(shù)量,而其他位置的數(shù)字是正確預(yù)測的樣本圖像的錯誤預(yù)測,混淆矩陣的列標(biāo)簽表示預(yù)測的類別,其對應(yīng)的行數(shù)值總和作為該類別的樣本總數(shù)[25-27]。該試驗(yàn)黃龍病選取400張圖片、黑斑病選取100張圖片、潰瘍病選取200張圖片、瘡痂病選取100張圖片、健康選取200張圖片來測試其準(zhǔn)確率對該4個模型進(jìn)行對比,每種類型疾病的識別平均準(zhǔn)確率如圖10,從對角線的顏色越深表示模型的效果越好。4個模型的混淆矩陣對比中可以看出各類模型對于柑橘某種病害識別能力??梢钥闯鯞inary Faster R-CNN與Faster R-CNN識別率更優(yōu),VGG-16的識別誤差率最低,綜合表4結(jié)果,Binary Faster R-CNN綜合性能表現(xiàn)更佳突出,所以選取Binary Faster R-CNN作為柑橘病害檢測模型,可以為后續(xù)柑橘病害圖像識別提供借鑒。
1) 針對Faster R-CNN檢測網(wǎng)絡(luò)在柑橘病害圖像識別效率過慢的問題,在原始網(wǎng)絡(luò)基礎(chǔ)上提出一種對權(quán)值進(jìn)行二值化實(shí)現(xiàn)快速檢測柑橘病害圖像的區(qū)域神經(jīng)網(wǎng)絡(luò)模型。改進(jìn)模型將二階段的全卷積神經(jīng)網(wǎng)絡(luò)代替原始的全連接層,從而減少參數(shù)量,通過貪婪分層進(jìn)行逐步訓(xùn)練,保證模型快速收斂。通過試驗(yàn)驗(yàn)證模型具有較好的識別速度和魯棒性。
2) 通過試驗(yàn)表明,改進(jìn)后的模型性能表現(xiàn)良好,其中模型的總識別率為87.52%、模型的召回率為87.92%、模型大小縮小到15.3 MB、平均識別圖像時間0.31 s、FLOPs為2.58×109,同時Binary Faster R-CNN收斂性表現(xiàn)良好。
3) 本文提出的二進(jìn)制網(wǎng)絡(luò)可以對深度神經(jīng)網(wǎng)絡(luò)模型大小進(jìn)行壓縮,為輕量級網(wǎng)絡(luò)研究提供了新的研究方法,同時也為深度學(xué)習(xí)在移動端的應(yīng)用提供了借鑒。