李文逵 韓俊英
文章編號:2096-1472(2022)-02-10-04
DOI:10.19644/j.cnki.issn2096-1472.2022.002.003
摘? 要:對輕量級卷積神經(jīng)網(wǎng)絡(luò)MobileNet V2的模型結(jié)構(gòu)進行改進,將深度可分離卷積中的激活函數(shù)ReLU替換成Leaky ReLU,從而避免神經(jīng)元死亡問題,倒置殘差卷積中的跨越連接添加Dropout層,增大模型的泛化能力。實驗結(jié)果表明,預(yù)測結(jié)果的總體準(zhǔn)確率達到91.41%,最高精確率為95.12%,最高召回率為97.39%,取得較好的預(yù)測結(jié)果。這說明將MobileNet V2卷積神經(jīng)網(wǎng)絡(luò)用于植物葉片圖像識別是實際可行的,為移動端植物葉片圖像識別提供了實現(xiàn)方法和技術(shù)支撐。
關(guān)鍵詞:植物葉片;圖像識別;MobileNet V2;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
中圖分類號:TP520.40? ? ?文獻標(biāo)識碼:A
Research on Plant Leaf Image Recognition based on a Lightweight Convolutional Neural Network
LI Wenkui, HAN Junying
(College of Information Science and Technology, Gansu Agricultural University, Lanzhou 730070, China)
448671882@qq.com; 3243727977@qq.com
Abstract: This paper proposes to improve the model structure of the lightweight convolutional neural network MobileNet V2. The activation function ReLU in the deep separable convolution is replaced with Leaky ReLU, thereby avoiding the problem of neuron death. A Dropout layer is added across connections in inverted residual convolution to increase the generalization of the model. The experimental results show that the overall accuracy rate of the prediction results reaches 91.41%, the highest accuracy rate is 95.12%, and the highest recall rate is 97.39%, achieving good prediction results. It shows that it is practical to use the MobileNet V2 convolutional neural network for plant leaf image recognition, and it provides an implementation method and technical support for mobile terminal realization of plant leaf image recognition.
Keywords: plant leaf; image recognition; MobileNet V2; convolutional neural network; deep learning
1? ?引言(Introduction)
植物是自然界的基本組成部分[1],人類的許多生產(chǎn)活動與植物密切相關(guān),比如農(nóng)業(yè)中以植物類農(nóng)作物為主[2],生活中的中草藥、護膚品和化妝品[3-4]等都是對植物進行加工得到的。隨著人們對大自然不斷進行不合理的開采,人類的許多生活生產(chǎn)活動對植物生態(tài)環(huán)境構(gòu)成威脅,植物物種不斷滅絕。為了保護植物多樣性,建立植物物種數(shù)據(jù)庫是十分必要的,這就需要人類進行植物分類與識別,確認(rèn)新的或者罕有的植物品種。但是由于植物科學(xué)研究的普及性不高,通常人們能看到一些植物,卻不能快速準(zhǔn)確地獲取該植物的學(xué)名、性狀、品類和價值,使得植物保護和植物認(rèn)知研究產(chǎn)生一定的困難,因此植物識別是進行植物學(xué)習(xí)過程中的一項基本任務(wù)。相較于植物的其他器官,大部分植物的葉片是一個二維的平面,具有形狀結(jié)構(gòu)穩(wěn)定、特征性狀多、區(qū)分度大、生存周期長、采集便利等特點,從葉片出發(fā)能更加快速準(zhǔn)確地分辨植物種類。
隨著計算機視覺技術(shù)的不斷成熟,尤其是深度學(xué)習(xí)技術(shù)在圖像識別方面的不斷發(fā)展,人們已經(jīng)能對植物葉片圖像實現(xiàn)不錯的識別效果。2021 年,韓斌等[5]將LBP特征和Gabor特征融入AlexNet卷積神經(jīng)網(wǎng)絡(luò),對189 種葉片識別的平均正確識別率是96.37%;王維[6]提出改進的VGGNet神經(jīng)網(wǎng)絡(luò),植物葉片識別準(zhǔn)確率達到99.39%。2020 年,邊緣等[7]利用Flavia數(shù)據(jù)集,運用深度學(xué)習(xí)算法,識別準(zhǔn)確率超過90%;朱良寬等[8]利用遷移學(xué)習(xí)獲得96.57%的植物葉片識別精度。2019 年,張露[9]使用AlexNet、Inception-V3、VGG-16預(yù)訓(xùn)練模型,在測試集上得到的準(zhǔn)確率分別為95.31%、93.86%、95.40%。可見,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)普遍運用于植物葉片的圖像識別,其識別準(zhǔn)確率可滿足實用要求。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深度學(xué)習(xí)模型或類似于人工神經(jīng)網(wǎng)絡(luò)的多層感知器[10],常用來分析視覺圖像,可以自動從大規(guī)模矩陣數(shù)據(jù)中學(xué)習(xí)特征,并把結(jié)果向同類型未知數(shù)據(jù)泛化。MobileNet V2是一種輕量級CNN網(wǎng)絡(luò),由Google團隊在2018 年提出,屬于MobileNets系列,相比于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),極大減少了運算所需的參數(shù)量,同時也確保了準(zhǔn)確率不會降低。它體積小的特點適用于低內(nèi)存的設(shè)備,反應(yīng)延遲低的特點符合嵌入式設(shè)備的要求。本文設(shè)計了基于MobileNet V2的卷積神經(jīng)網(wǎng)絡(luò),利用深度學(xué)習(xí)算法,對11 種植物葉片進行識別,實現(xiàn)了較好的識別效果。
2? 建立植物葉片樣本數(shù)據(jù)庫(Establishing plant leaf sample database)
植物葉片樣本庫選自公共數(shù)據(jù)集,包括糖膠樹、阿江欖仁、羅勒、懸鈴木、番石榴、蒲桃、麻風(fēng)樹、檸檬、芒果、石榴、水黃皮共計11 類植物品種。植物葉片圖像原始分辨率為6000 像素×4000 像素,受顯存大小限制,所有圖像的分辨率縮小為600 像素×400 像素,從中選取沒有病蟲害和形狀相對完整的植物葉片圖像作為研究對象,共選取的圖像數(shù)量為2,277 張,按照4∶1的比例[5-11]隨機抽取圖片來劃分成訓(xùn)練集和測試集,相同類別的葉片圖像置于同一文件夾中。表1為不同植物種類訓(xùn)練集和測試集具體的葉片圖像數(shù)量,圖1為植物葉片樣本圖像數(shù)據(jù)集的示例,每個種類展示5 張圖片。
3? ?卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)
3.1? ?卷積神經(jīng)網(wǎng)絡(luò)原理
圖2表示卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu),由輸入層、卷積層、池化層和全連接層組成[12-14]。最左側(cè)輸入層的矩陣代表一張輸入圖片。卷積層[15]中每一個節(jié)點的輸入是上一層圖像矩陣中的一小塊,該小塊大小通常是3×3或者5×5,圖3表示具體卷積操作。池化層的作用是縮小上一層圖像矩陣的大小,將一張分辨率高的圖像通過算法轉(zhuǎn)化成分辨率低的圖像。通過池化層[15],可以進一步縮小最后全連接層中節(jié)點的個數(shù),從而達到減少整個神經(jīng)網(wǎng)絡(luò)參數(shù)的目的,圖4表示具體池化操作。經(jīng)過重復(fù)多次的卷積和池化,圖像矩陣中的像素信息就被泛化成高信息含量的特征向量,在特征提取完成后,接下來由全連接層及其激活函數(shù)進行分類,全連接層常用的激活函數(shù)有ReLU、Softmax、Sigmoid等。
3.2? ?MobileNet V2卷積神經(jīng)網(wǎng)絡(luò)
MobileNet V2是一個輕量級的卷積神經(jīng)網(wǎng)絡(luò)[16]。大部分傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)單元是標(biāo)準(zhǔn)卷積(Standard Convolutions),產(chǎn)生的參數(shù)量龐大,進而導(dǎo)致對內(nèi)存資源要求高和運算量巨大,無法在嵌入式等微型電子設(shè)備上運行。而MobileNet V2網(wǎng)絡(luò)結(jié)構(gòu)是針對移動設(shè)備和嵌入式微機而開發(fā)設(shè)計的,用深度可分離卷積(Depthwise Sparable Convolutions)[17]取代以往的標(biāo)準(zhǔn)卷積,還使用了兩個超參數(shù)α和β。α參數(shù)是一個倍率因子,用來調(diào)整卷積核的個數(shù),β是控制輸入網(wǎng)絡(luò)的圖像尺寸參數(shù),從而大大減少了運算量和參數(shù)數(shù)量,同時有效縮減了模型體積大小。MobileNet V2的創(chuàng)新之處是在深度可分離卷積的基礎(chǔ)上添加了殘差連接(Residual Connection),形成倒置殘差模塊(Inverted Residual Block)。傳統(tǒng)的殘差結(jié)構(gòu)中是1×1卷積降維→3×3卷積→1×1卷積升維,特征圖(Feature Map)的通道數(shù)是先減少再增加;而在倒置殘差結(jié)構(gòu)中正好相反,是1×1卷積升維→3×3卷積→1×1卷積降維,特征圖的通道數(shù)是先增加再減少。如圖5所示的是倒置殘差結(jié)構(gòu)模塊[18-20],模塊的激活函數(shù)前兩層使用ReLU6,最后一層使用線性激活函數(shù)Linear,這樣可減少特征損失。MobileNet V2的網(wǎng)絡(luò)層次不深,核心由17 個倒置殘差模塊組成[15],其模型的網(wǎng)絡(luò)層次參數(shù)配置如表2所示。
3.3? ?改進的MobileNet V2卷積神經(jīng)網(wǎng)絡(luò)
MobileNet V2使用的激活函數(shù)全部是ReLU(Rectified Linear Unit)函數(shù),其定義為:F(x)=max(0,x)。它是常用的卷積神經(jīng)網(wǎng)絡(luò)激活函數(shù),在x>0區(qū)域上,不會出現(xiàn)梯度飽和與梯度消失,計算復(fù)雜度低,不需要進行指數(shù)運算,只要一個閾值就可以得到激活值。但在x<0時,梯度為0,這個神經(jīng)元及之后的神經(jīng)元梯度永遠(yuǎn)為0,不再對任何數(shù)據(jù)有所響應(yīng),導(dǎo)致相應(yīng)參數(shù)永遠(yuǎn)不會被更新,即神經(jīng)元壞死。Leaky ReLU函數(shù)在ReLU函數(shù)的基礎(chǔ)上,當(dāng)x<0時引入一個非常小的γ值作為梯度,能夠避免神經(jīng)元壞死,同時補充了梯度。倒置殘差卷積中使用跨越連接,增加了模型的復(fù)雜程度,訓(xùn)練模型時更容易發(fā)生過擬合,因此對跨越連接添加Dropout層,隨機丟棄部分輸入數(shù)據(jù),降低過擬合的可能性,同時增大模型泛化性和魯棒性。
4? ?訓(xùn)練模型(Training model)
4.1? ?實驗環(huán)境搭建
實驗的操作系統(tǒng)為Windows 10,第三方包管理與環(huán)境管理使用Anaconda,深度學(xué)習(xí)框架采用TensorFlow Gpu 1.8版本,編程語言為Python 3.6版本,腳本編輯器為Spyder,顯卡為(GPU)NVIDIA GeForce GTX 1050,顯存大小為4 GB,中央處理器(CPU)為Intel Pentium G4600 3.6 GHz,固態(tài)內(nèi)存大小為8 GB。
4.2? ?數(shù)據(jù)增強
采用動態(tài)的數(shù)據(jù)增強方法,在每輪訓(xùn)練開始前,重新隨機選擇訓(xùn)練集中的葉片圖像進行左右翻轉(zhuǎn)或上下翻轉(zhuǎn),以及在一定范圍內(nèi)隨機設(shè)置圖片亮度、對比度和飽和度。
4.3? ?訓(xùn)練MobileNet V2模型
使用訓(xùn)練集的樣本圖像訓(xùn)練MobileNet V2模型,模型訓(xùn)練只使用顯卡運算,不使用中央處理器,每一輪參與訓(xùn)練的樣本總數(shù)為1,831。每輪訓(xùn)練采用分批次的方法,受到顯卡性能的限制,一個批次訓(xùn)練所使用的樣本數(shù)(Batch Size)不宜太大,設(shè)為4,因此每輪的迭代次數(shù)(Epoch)等于457。初始學(xué)習(xí)率(Learning Rate)設(shè)為0.01,采用動態(tài)學(xué)習(xí)率的策略,神經(jīng)網(wǎng)絡(luò)的容量(Capacity)設(shè)為100。圖6表示準(zhǔn)確率(Accuracy)和損失值(Loss)隨輪次的變化,可見隨著輪次數(shù)值接近40 次時,訓(xùn)練集損失值收斂于0,準(zhǔn)確率趨于1,表明模型訓(xùn)練成功。
5? 評估模型預(yù)測效果(Evaluate the prediction effect of the model)
5.1? ?預(yù)測結(jié)果描述
使用測試集樣本圖像測試已經(jīng)完成訓(xùn)練的MobileNet V2深度學(xué)習(xí)模型,測試集所有葉片圖像均未用于訓(xùn)練模型,總計446 張,其中各類植物葉片圖像具體數(shù)量如表1所示。模型預(yù)測結(jié)果的描述方法使用混淆矩陣,圖7表示具體的預(yù)測結(jié)果,橫軸為預(yù)測值,縱軸為真實值,對角線上的數(shù)字表示某一樣本被正確預(yù)測的個數(shù),非對角線上的數(shù)字表示某一樣本被錯誤預(yù)測為其他類別的個數(shù),對角線上方塊的顏色越深,表示該類別葉片圖像的預(yù)測效果越好。
5.2? ?預(yù)測結(jié)果評價
經(jīng)過模型預(yù)測,正確預(yù)測的樣本數(shù)為358 張,總體準(zhǔn)確率為91.41%,總體準(zhǔn)確率定義的是預(yù)測正確的個數(shù)與所有樣本的個數(shù)百分比。模型預(yù)測效果的評價指標(biāo)使用精確率和召回率[21-23],精確率定義的是預(yù)測正確的個數(shù)與預(yù)測為正例的個數(shù)百分比,召回率定義的是預(yù)測正確的個數(shù)與真實為正例的個數(shù)百分比,表3表示預(yù)測結(jié)果中各個類別的精確率和召回率。精確率最高的前5 個類別依次是懸鈴木、水黃皮、石榴、芒果、番石榴,分別是95.12%、94.54%、94.12%、92.35%、91.02%;召回率最高的前5 個類別依次是石榴、懸鈴木、蒲桃、番石榴、麻風(fēng)樹,分別是97.39%、94.35%、92.54%、91.29%、91.25%。
6? ?結(jié)論(Conclusion)
MobileNet V2卷積神經(jīng)網(wǎng)絡(luò)是針對移動端和嵌入式設(shè)備而提出的輕量級模型,具有體積小、參數(shù)量少、計算量低等優(yōu)點,適用于手機等各類移動設(shè)備。本文基于MobileNet V2卷積神經(jīng)網(wǎng)絡(luò)設(shè)計出多類別的植物葉片圖像識別方法,利用公共數(shù)據(jù)集建立包含11 類植物葉片圖像的數(shù)據(jù)集。模型訓(xùn)練開始時,首先根據(jù)硬件情況對初始學(xué)習(xí)率、輪次、步長等參數(shù)進行合理設(shè)置,創(chuàng)新使用動態(tài)數(shù)據(jù)增強方法,極大擴增了樣本訓(xùn)練量,并在接下來的測試集預(yù)測中,總體準(zhǔn)確率高達91.41%,取得較好的識別效果,表明使用該算法對植物葉片進行分類是實際可行的,同時也為實現(xiàn)葉片圖像識別的移動端提供了理論技術(shù)和實用方法。
參考文獻(References)
[1] 郭志芳.植物在維護生態(tài)平衡中的作用[J].廣東蠶業(yè),2020,54(05):18-19.
[2] 雷星梅.如何使植物保護新技術(shù)在生態(tài)農(nóng)業(yè)中發(fā)揮作用[J].農(nóng)家參謀,2020(14):92.
[3] 王升,蔣待泉,康傳志,等.藥用植物次生代謝在中藥材生態(tài)種植中的作用及利用[J].中國中藥雜志,2020,45(09):2002-2008.
[4] 鄧艷芳.植物生長物質(zhì)對農(nóng)產(chǎn)品生產(chǎn)的作用和影響[J].農(nóng)業(yè)開發(fā)與裝備,2017(10):62-63.
[5] 韓斌,曾松偉.基于多特征融合和卷積神經(jīng)網(wǎng)絡(luò)的植物葉片識別[J].計算機科學(xué),2021,48(S1):113-117.
[6] 王維.外來入侵植物葉片圖像識別與分類方法研究[D].沈陽:沈陽大學(xué),2021.
[7] 邊緣,孔小瑩,張莉,等.基于卷積神經(jīng)網(wǎng)絡(luò)的植物葉片樹種識別研究與實現(xiàn)[J].智能計算機與應(yīng)用,2020,10(10):23-26.
[8] 朱良寬,晏銘,黃建平.一種新型卷積神經(jīng)網(wǎng)絡(luò)植物葉片識別方法[J].東北林業(yè)大學(xué)學(xué)報,2020,48(04):50-53.
[9] 張露.基于深度學(xué)習(xí)的植物葉片圖像識別方法研究[D].北京:北京林業(yè)大學(xué),2019.
[10] 蓋榮麗,蔡建榮,王詩宇,等.卷積神經(jīng)網(wǎng)絡(luò)在圖像識別中的應(yīng)用研究綜述[J].小型微型計算機系統(tǒng),2021,42(09):1980-1984.
[11] 孫穎異,李健,時天,等.基于改進的AlexNet卷積神經(jīng)網(wǎng)絡(luò)的植物葉片識別[J].種子,2020,39(02):77-81.
[12] 洪奇峰,施偉斌,吳迪,等.深度卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展綜述[J].軟件導(dǎo)刊,2020,19(04):84-88.
[13] 章琳,袁非牛,張文睿,等.全卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機工程與應(yīng)用,2020,56(01):25-37.
[14] 林景棟,吳欣怡,柴毅,等.卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J].自動化學(xué)報,2020,46(01):24-37.
[15] ILESANMI A E, ILESANMI T O. Methods for image denoising using convolutional neural network: A review[J]. Complex & Intelligent Systems, 2021, 7(5):2179-2198.
[16] 蘭天翔,向子彧,劉名果,等.融合U-Net及MobileNet-V2的快速語義分割網(wǎng)[J].計算機工程與應(yīng)用,2021,57(17):175-180.
[17]呂璐璐,陳樹越,王利平,等.水體微纖維圖像識別的改進MobileNetV2算法[J].鄭州大學(xué)學(xué)報(工學(xué)版),2021,42(05):25-31.
[18] CHENG J, WANG P, LI G, et al. Recent advances in efficient computation of deep convolutional neural networks[J]. Frontiers of Information Technology & Electronic Engineering, 2018, 19(01):64-77.
[19] PAN H H, PANG Z J, WANG Y W, et al. A new image recognition and classification method combining transfer learning algorithm and mobilenet model for welding defects[J]. IEEE Access, 2020, 8:119951-119960.
[20] SO M H, HAN C S, KIM H Y. Defect classification algorithm of fruits using modified mobilenet[J]. The Journal of Korean Institute of Information Technology, 2020, 18(7):81-89.
[21] 陳智超,焦海寧,楊杰,等.基于改進MobileNet v2的垃圾圖像分類算法[J].浙江大學(xué)學(xué)報(工學(xué)版),2021,55(08):1490-1499.
[22] 周博文.基于MobileNetV2的目標(biāo)檢測算法研究與應(yīng)用[D].武漢:湖北工業(yè)大學(xué),2020.
[23] 丁常宏,王守宇,高鵬.基于SSD-MobileNet V1深度學(xué)習(xí)算法的藥用植物葉片識別方法[J].江蘇農(nóng)業(yè)科學(xué),2020,48(22):222-228.
作者簡介:
李文逵(1993-),男,碩士生.研究領(lǐng)域:圖像識別.
韓俊英(1975-),女,碩士,教授.研究領(lǐng)域:軟件工程理論與方法.本文通訊作者.
基金項目:甘肅省自然科學(xué)基金資助項目(20JR5RA023).