張 立,林祥銳,張 鈺,郭春陽(yáng)
(廣東白云學(xué)院,廣東 廣州 510450)
近年來(lái),隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型廣泛應(yīng)用在工業(yè)生產(chǎn)和生活中。如在農(nóng)業(yè)生產(chǎn)中,應(yīng)用“Inception V3”算法建立玉米病蟲害識(shí)別模型,訓(xùn)練識(shí)別精度達(dá)到93.7%,測(cè)試精度達(dá)到92.3%,通過(guò)HTTP協(xié)議將模型部署在云端,完成對(duì)圖片的識(shí)別[1];通過(guò)無(wú)人機(jī)對(duì)玉米農(nóng)田的拍攝,將圖片分析結(jié)果轉(zhuǎn)化為指令傳送至無(wú)人小車,對(duì)玉米葉片進(jìn)行農(nóng)藥噴灑[2];通過(guò)爬蟲構(gòu)建玉米病蟲害數(shù)據(jù)集,基于深度學(xué)習(xí)網(wǎng)絡(luò)模型RTA-NET建立玉米病蟲害分類模型,實(shí)現(xiàn)對(duì)玉米生長(zhǎng)狀態(tài)的實(shí)時(shí)監(jiān)控[3];為了避免深度學(xué)習(xí)模型在編碼過(guò)程中丟失語(yǔ)義信息,提出基于深度學(xué)習(xí)的CornDisNet網(wǎng)絡(luò)分割模型,在精度和召回率上都有較大的提升[4];在工業(yè)生產(chǎn)中,通過(guò)改進(jìn)ResNet-50模型和遷移學(xué)習(xí)實(shí)現(xiàn)對(duì)石油管道焊縫缺陷圖片的分類[5];通過(guò)遷移學(xué)習(xí)實(shí)現(xiàn)熱軋鋼帶的缺陷分類,為工業(yè)生產(chǎn)提供可行的解決方案[6]。
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)設(shè)定判定規(guī)則實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類處理、目標(biāo)標(biāo)定,主要包含:數(shù)據(jù)增強(qiáng)、卷積運(yùn)算、激活函數(shù)、池化運(yùn)算、反向傳播等模塊。
深度學(xué)習(xí)是基于大量數(shù)據(jù)提取語(yǔ)義特征的模型,數(shù)據(jù)輸入到模型中,經(jīng)過(guò)一系列的卷積運(yùn)算提取特征,再由反向傳播算法優(yōu)化參數(shù),最后提取用于分類的主要特征。當(dāng)數(shù)據(jù)量較少難以獲得大量的特征時(shí),通過(guò)圖像的增強(qiáng)來(lái)獲得倍增的數(shù)據(jù)集就顯得格外重要。數(shù)據(jù)增強(qiáng)的主要方式包括隨機(jī)裁剪、縮放、濾波、旋轉(zhuǎn)、彈性變換等。數(shù)據(jù)增強(qiáng)能夠擴(kuò)大訓(xùn)練集,有利于深度學(xué)習(xí)模型對(duì)分類特征的提取,提高測(cè)試集的測(cè)試精度。
卷積運(yùn)算類似濾波處理,將帶有權(quán)重的卷積核與圖像數(shù)據(jù)矩陣相乘,由左到右、由上到下,即可得到一幅新圖像。經(jīng)過(guò)卷積運(yùn)算之后,圖像的尺寸會(huì)縮減,影響特征提取。為了盡可能保留圖像邊緣信息,卷積運(yùn)算通常需要進(jìn)行邊緣填充,選擇padding=“same”;卷積滑動(dòng)的步長(zhǎng)也會(huì)影響圖像尺寸的大小,通常設(shè)置步長(zhǎng)為1或2。卷積后圖像尺寸如公式(1)所示。
式中:N為卷積后特征的尺寸,W為輸入圖像尺寸,F(xiàn)為卷積核尺寸,P為padding,S為步長(zhǎng)。
圖像相鄰位置的像素具有較強(qiáng)的關(guān)聯(lián),對(duì)圖像隔行抽取樣點(diǎn)并不會(huì)影響圖像的真實(shí)表達(dá)。池化是對(duì)一定區(qū)域內(nèi)的數(shù)據(jù)進(jìn)行采樣,不僅可以大幅減少計(jì)算量,還可以增大卷積核的感受野,保持對(duì)特征的旋轉(zhuǎn)不變性。池化函數(shù)的主要形式包括均值池化(mean pooling)、隨機(jī)池化、最大池化(max pooling)。其中均值池化可以減少均值方差并保留圖像的背景信息;最大池化可以減少估計(jì)均值的偏移,保留圖像的紋理信息。實(shí)驗(yàn)中采用最大池化,不僅減少計(jì)算量,同時(shí)還能保留用于分類的最明顯特征。
反向傳播是深度學(xué)習(xí)訓(xùn)練中常用的優(yōu)化算法,其作用是使目標(biāo)值與訓(xùn)練值盡可能接近,減小誤差。反向傳播的理論基礎(chǔ)是鏈?zhǔn)椒▌t,對(duì)神經(jīng)網(wǎng)絡(luò)的前向傳播結(jié)果進(jìn)行鏈?zhǔn)角髮?dǎo),不斷優(yōu)化前向傳播的結(jié)果和權(quán)重參數(shù)。鏈?zhǔn)椒▌t以及優(yōu)化過(guò)程如公式(2)和(3)所示。
式中:f(x)=h(g(x)),h(x)為映射函數(shù),g(x)為前向傳播函數(shù)。
式中:L(θ)為損失函數(shù),li(θ)為單個(gè)樣本損失函數(shù),θ為卷積核參數(shù)。
經(jīng)過(guò)公式(2)使得總的損失函數(shù)達(dá)到最小,即θ*=argminL(θ)。參數(shù)即為整個(gè)網(wǎng)絡(luò)所優(yōu)化的目標(biāo)。
實(shí)驗(yàn)中的玉米生長(zhǎng)狀態(tài)來(lái)自于開源數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)如圖1所示,四種生長(zhǎng)狀態(tài)分別用類別0,1,2和3代替。
圖1 玉米生長(zhǎng)狀態(tài)Figure 1 Growth status of corn
玉米病蟲害特征明顯,因此卷積神經(jīng)網(wǎng)絡(luò)的深度較淺,實(shí)驗(yàn)中使用四個(gè)卷積層提取玉米病蟲害特征和三個(gè)全連接層進(jìn)行分類。模型結(jié)構(gòu)如圖2所示。
圖2 模型結(jié)構(gòu)Figure 2 Model structure
原始數(shù)據(jù)集數(shù)量分別為360,320,160和380,增強(qiáng)后的數(shù)據(jù)集數(shù)量分別為440,360,210和450,訓(xùn)練集和測(cè)試集比例為4:1。隨機(jī)打亂圖片順序增加模型的穩(wěn)定性,再輸入模型中,訓(xùn)練30個(gè)epoch。訓(xùn)練集和測(cè)試集測(cè)試分類精度結(jié)果圖3a)所示。為了探究不同尺寸的數(shù)據(jù)集對(duì)實(shí)驗(yàn)結(jié)果的影響,采用控制變量法進(jìn)行對(duì)照實(shí)驗(yàn),如圖3 b)所示。可以看出,隨著訓(xùn)練的進(jìn)行,分類精度逐漸增加,在20epoch后精度穩(wěn)定。
圖3 分類精度變化Figure 3 Classification accuracy changesa)Test classification accuracy of training and test sets b)Classification accuracy of three dimensions
三種圖片在驗(yàn)證集中的最大精度、最小精度和平均精度,如表1所示。
表1 三種尺寸圖片精度對(duì)比Table 1 Accuracy comparison of images of three sizes
驗(yàn)證實(shí)際模型的識(shí)別效果,分別準(zhǔn)備未參加訓(xùn)練的四種數(shù)據(jù)進(jìn)行測(cè)試,分類結(jié)果以及預(yù)測(cè)矩陣如圖4所示,實(shí)驗(yàn)分類正確。
圖4 分類結(jié)果Figure 4 Classification results
本文對(duì)四種玉米病蟲害葉片進(jìn)行數(shù)據(jù)增強(qiáng),并搭建7層卷積神經(jīng)網(wǎng)絡(luò),得到平均分類精度為93.7%,為玉米葉片病蟲害的識(shí)別提供了可靠的保障。對(duì)比三種不同尺寸的數(shù)據(jù)集,分別為100×100,150×150和256×256。實(shí)驗(yàn)結(jié)果表明,保證相同結(jié)構(gòu)、參數(shù)、深度的模型,圖片尺寸越小,在驗(yàn)證集上效果越好、精度越高,尺寸最小的圖片平均精度比最大尺寸圖片的精度高出約7%。因此在模型不變的前提下,選擇較小數(shù)據(jù)集可以得到較高的精度,同時(shí)模型訓(xùn)練所需要的時(shí)間大幅減少。卷積神經(jīng)網(wǎng)絡(luò)依賴于對(duì)特征進(jìn)行分類,在不增加數(shù)據(jù)集規(guī)模時(shí),應(yīng)用VGGNet-16遷移模型可以進(jìn)一步增加模型精度。