亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進EfficientNet的植物圖像分類算法*

2022-08-30 07:18:14光金正梁鑒如劉義生

傳感器與微系統(tǒng) 2022年8期

光金正,梁鑒如,劉義生

(1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院，上海 201620; 2.蘇州科技大學(xué) 機械工程學(xué)院，江蘇蘇州 215000)

0 引言

近年來，卷積神經(jīng)網(wǎng)絡(luò)[1]已被廣泛應(yīng)用于圖像分類領(lǐng)域中。深度學(xué)習(xí)[2]也逐漸被應(yīng)用于植物圖像分類中[3]，植物圖像分類算法的精度雖然已經(jīng)得到了很大的提高[4,5]，但是大部分的高精度分類算法[6,7]的模型都很大，難以在嵌入式設(shè)備等設(shè)備終端使用。其中主要原因是大多數(shù)分類算法提升精度僅是通過對神經(jīng)網(wǎng)絡(luò)的深度、寬度和分辨率中的單一維度進行擴張獲得。例如，殘差網(wǎng)絡(luò)[8]是通過不斷加深網(wǎng)絡(luò)的深度以獲取更高的精度，但隨著網(wǎng)絡(luò)的加深，優(yōu)化難度也在加大，并且會出現(xiàn)精度逐漸趨于飽和的現(xiàn)象。經(jīng)研究發(fā)現(xiàn)[9]，僅增加網(wǎng)絡(luò)的寬度和分辨率與僅增加網(wǎng)絡(luò)深度一樣，都會出現(xiàn)精度逐漸趨于飽和的現(xiàn)象。因此，在精度即將趨于飽和時，微小的精度提升往往需要非常多的網(wǎng)絡(luò)參數(shù)。這使得模型變得十分龐大，執(zhí)行效率也變得更加慢。

綜合上述，要提高植物圖像分類的精度應(yīng)該是同時從深度、寬度和分辨率三個維度進行放縮，在放縮時最重要的問題是如何平衡網(wǎng)絡(luò)中所有維度。

本文是使用EfficientNet基線平衡網(wǎng)絡(luò)所有維度[9]，同時，對EfficientNet進一步改進以獲得更高的植物圖像分類精度。

1 原理

1.1 EfficientNet系列網(wǎng)絡(luò)

EfficientNet是一個結(jié)合神經(jīng)網(wǎng)絡(luò)搜索技術(shù)的多維度混合放縮的網(wǎng)絡(luò)。EfficientNet系列網(wǎng)絡(luò)是在EfficientNet—B0的基線上調(diào)整深度、寬度、分辨率和丟失率獲得的。深度、寬度和分辨率的放大倍率是由一個混合系數(shù)φ決定的

d=αφ,ω=βφ,r=γφ

s.t.α·β2·γ2≈2

α≥1,β≥1,γ≥1

(1)

式中α,β,γ和φ為固定常數(shù)。α=1.2，β=1.1和γ=1.15為令φ=1時通過網(wǎng)格搜索獲得的最優(yōu)常數(shù)，從而確定最基本的EfficientNet—B0模型。在固定α=1.2，β=1.1和γ=1.15值后，通過使用不同的φ值，從而計算出如表1所示的B0～B7模型的深度系數(shù)、寬度系數(shù)和分辨率。顯然，常規(guī)卷積運算的計算量(FLOPS，每秒浮點運算次數(shù))與d,W2,r2呈正比關(guān)系。例如，寬度增大為原來的2倍，則FLOPS增大為原來的4倍。而EfficientNet系列網(wǎng)絡(luò)的FLOPS是由(α·β2·γ2)φ決定的。在α·β2·γ2≈2約束下，EfficientNet系列的FLOPS約等于原來的2φ。

表1 EfficientNet系列網(wǎng)絡(luò)模型系數(shù)

1.2 EfficientNet-B0網(wǎng)絡(luò)模型

EfficientNet—B0的核心結(jié)構(gòu)是移動翻轉(zhuǎn)瓶頸卷積(mobile inverted bottleneck convolution，MBConv)。與MobileNet—V2結(jié)構(gòu)類似，MBConv是由深度可分離卷積和壓縮與激發(fā)網(wǎng)絡(luò)(squeeze-and-excitation network,SENet)組成的。EfficientNet主干網(wǎng)絡(luò)如圖1所示。

圖1 EfficientNet主干網(wǎng)絡(luò)

首先，圖像以224×224×3作為輸入，開始降采樣卷積層是用32個3×3×3和步長為2×2的卷積核。接著是進行批歸一化層處理和激活函數(shù)，輸出為112×112×32。然后進入16層不同步長和卷積核的MBConv層。主干網(wǎng)絡(luò)最后卷積層是有1 280個1×1×320和步長為1×1的卷積核，輸出大小為7×7×1 280。此外，為了提高網(wǎng)絡(luò)的泛化能力，主干網(wǎng)絡(luò)加入大量在訓(xùn)練過程中隨機丟棄的DropConnect。

1.3 激活函數(shù)

激活函數(shù)是將非線性因素從神經(jīng)元的輸入端映射到輸出端的函數(shù)，在神經(jīng)網(wǎng)絡(luò)訓(xùn)練和精度上都起重要的作用。本文實驗使用到如圖2所示的ReLU,Swish和Mish激活函數(shù)[10]。ReLU函數(shù)是神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù)，具有加快訓(xùn)練和克服梯度消失的特點，但若輸入為負(fù)數(shù)時ReLU函數(shù)就無法激活。ReLU函數(shù)數(shù)學(xué)表達(dá)式

圖2 激活函數(shù)對比

F(x)=max(0,x)

Swish函數(shù)主要克服了ReLU在輸入為負(fù)數(shù)時無效的問題。Swish函數(shù)數(shù)學(xué)表達(dá)式

F(x)=x*sigmoid(β*x)

式中β為常量。與Swish函數(shù)比，Mish函數(shù)更加平滑，負(fù)值時允許更小的負(fù)梯度流入神經(jīng)網(wǎng)絡(luò)，從而得到更好的精度。Mish函數(shù)數(shù)學(xué)表達(dá)式

F(x)=x*tanh(ln(1+ex)

1.4 遷移學(xué)習(xí)

遷移學(xué)習(xí)是一種機器學(xué)習(xí)技術(shù)，是將在某一任務(wù)上學(xué)習(xí)到的特征應(yīng)用到相近的任務(wù)上。遷移學(xué)習(xí)的具體實現(xiàn)是先凍結(jié)預(yù)訓(xùn)練好提取模型特征的前幾層，然后用目標(biāo)任務(wù)的新層替換模型剩下的幾層，最后再進行訓(xùn)練。與從頭訓(xùn)練一個模型比，遷移學(xué)習(xí)具有訓(xùn)練耗時少和精度高的特點。

1.5 EfficientNet改進

EfficientNet改進是以圖1的EfficientNet—B0主干網(wǎng)絡(luò)來提取圖像的特征，依次加入批歸一化(batch normalization，BN)層、Mish激活函數(shù)、全局平均池化層(GAP)、隨機失活(Dropout)層和SoftMax分類層，最后，把主干網(wǎng)絡(luò)中的Swish激活函數(shù)也全部替換成更優(yōu)的Mish激活函數(shù)，詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。BN層作用是為了加快模型收斂速度和緩解深層網(wǎng)絡(luò)中梯度彌散問題；全局平均池化層作用是代替全連接層，減少模型的參數(shù)量；Dropout作用是緩解網(wǎng)絡(luò)模型過擬合，提高網(wǎng)絡(luò)的泛化能力；SoftMax分類層作用是把輸出值轉(zhuǎn)化為所有類別概率之和為1的概率分布[11]。

圖3 改進EfficientNet網(wǎng)絡(luò)

1.6 損失函數(shù)

本文是植物圖像多分類問題，采用交叉熵?fù)p失函數(shù)輔助網(wǎng)絡(luò)訓(xùn)練，有利于提高植物分類精度。交叉熵?fù)p失函數(shù)是評估訓(xùn)練輸出概率與期望輸出概率之間的距離差異情況，如果距離越小，說明兩者的概率分布就越近，訓(xùn)練結(jié)果越好，反之，訓(xùn)練結(jié)果越差。交叉熵?fù)p失函數(shù)數(shù)學(xué)公式

式中y為期望輸出，a為實際輸出(a=σ(z),z=wx+b)。

2 實驗與數(shù)據(jù)分析

2.1 環(huán)境配置

本文實驗運行環(huán)境配置如下：操作系統(tǒng)(OS)采用Windows 10 Professional，CPU：Intel?CoreTMi7—10700K CPU@ 3.8 GHz,GPU：NVIDIA GeForce RTX 2080 SUPER，RAM為16 GB，DISK為1 TB，F(xiàn)rame為TensorFlow 2.3.1，CUDA為v10.1.243，cuDNN為v7.6.5，Env為PyCharm 2020.2。

2.2 數(shù)據(jù)集和評價指標(biāo)

實驗數(shù)據(jù)集由自制植物數(shù)據(jù)集(Plants 105)和牛津大學(xué)公開的花卉數(shù)據(jù)集(Oxford 102 Flowers，簡稱Flowers102)組成。由于目前在國際上沒有公開統(tǒng)一標(biāo)準(zhǔn)的植物數(shù)據(jù)集，因此本文自行構(gòu)建一個植物數(shù)據(jù)集，數(shù)據(jù)主要來源互聯(lián)網(wǎng)，少部分來源實拍。Plants105有105種常見的植物，每種植物圖片的數(shù)量有100～2 000張，共有22 717張圖片，按照6︰2︰2的比例將訓(xùn)練集劃分訓(xùn)練集13 591張、驗證集4 624張和測試集4 502張。該數(shù)據(jù)集包含常見的蔬菜、水果、藥材和花草等物種，部分植物圖片如圖4所示。另一個Flowers102有102類英國本土常見的花卉，每類花卉有40～256張圖像，總共有8 189張圖像，官方已將圖像劃分為訓(xùn)練集6 146張，驗證集1 020張，測試集1 020張。Flowers102圖像分類難度中等，它圖像的差異主要表現(xiàn)在姿態(tài)、角度、光照和比例上，然而也有少數(shù)類別間差異較小。兩個數(shù)據(jù)集圖像共30 906張，訓(xùn)練集19 740張，驗證集5 644張，測試集5 522張。

圖4 部分植物數(shù)據(jù)集例子

本文的植物圖像分類評價指標(biāo)是使用Top—1準(zhǔn)確率、Top—5準(zhǔn)確率、模型體積(model size)和CPU耗時。Top—1是指預(yù)測結(jié)果中概率最大的一個結(jié)果作為預(yù)測結(jié)果，如果預(yù)測最大結(jié)果正確，則預(yù)測正確。Top—5是指預(yù)測結(jié)果中最大的前5個結(jié)果，如果最大的前5個中有出現(xiàn)正確的結(jié)果，則預(yù)測正確。模型體積是指模型占用的存儲空間。CPU耗時是指在CPU上預(yù)測一幅圖像消耗的時間，用于檢測模型的速度。

2.3 參數(shù)設(shè)置

遷移學(xué)習(xí)可以縮短模型訓(xùn)練時間和解決過擬合問題，本文訓(xùn)練是采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的權(quán)重進行遷移訓(xùn)練[12]。首先,將輸入圖像調(diào)整為224×224×3大小輸入網(wǎng)絡(luò)中。然后，選用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器，初始學(xué)習(xí)率為0.000 1，當(dāng)驗證Loss不提升時則減少學(xué)習(xí)率，每次減少學(xué)習(xí)率因子為0.2，最小學(xué)習(xí)率為10-8。接著,Batch size設(shè)置為32，Epoch設(shè)置為50。最后，為了保證實驗精度的準(zhǔn)確性，每個模型進行10次獨立重復(fù)訓(xùn)練，取這10次實驗結(jié)果的中位數(shù)作為訓(xùn)練結(jié)果。

2.4 結(jié)果與分析

本文EfficientNet系列模型訓(xùn)練Loss曲線如圖5所示，ReLU EfficientNet是EfficientNet使用ReLU激活函數(shù)訓(xùn)練的Loss，Swish和Mish EfficientNet同理。

圖5 EfficientNet系列模型訓(xùn)練Loss曲線

從圖5中看出，在經(jīng)過20次訓(xùn)練后，ReLU、Swish和Mish的訓(xùn)練Loss曲線基本收斂，ReLU的訓(xùn)練Loss相對較大，Swish的Loss與Mish的Loss差不多，但是Swish的Loss較大一點。隨著訓(xùn)練次數(shù)的增加，最終三條Loss曲線都在0.02左右，這說明模型是穩(wěn)定收斂的。

在模型訓(xùn)練結(jié)束后，將預(yù)先劃分好的兩個測試集用本文訓(xùn)練好的模型進行測試，得到如表2所示的Top1和Top5準(zhǔn)確率。從表2得出，本文使用Mish激活函數(shù)的EfficientNet網(wǎng)絡(luò)在這兩個數(shù)據(jù)集上的精度都優(yōu)于使用Swish和ReLU函數(shù)的精度。在Plants105上，Mish Top—1精度為97.201 %，比Swish Top—1的96.801 %提高了0.4 %，比ReLU的96.002 %提高了1.2 %。而在Mish Top—5精度上因為已經(jīng)達(dá)到了99.5 %以上，雖然它的精度有提升，但是提升的幅度相對較小。同理，在另一個公開的Flowers102上也得到了類似的驗證，Mish在Top—1和Top—5的精度上都比Swish和ReLU的精度要高。從實驗結(jié)果表明，本文改進的EfficientNet算法在植物圖像分類上比原Swish函數(shù)的EfficientNet提高了0.4 %左右，比ReLU函數(shù)的EfficientNet提高了1.2 %左右。

表2 EfficientNet模型Top—1和Top—5精度 %

為了進一步了解本文改進EfficientNet (mEfficientNet)的性能，本文在表3與不同模型的Top—1準(zhǔn)確率(Top—1 Acc)、模型體積(model size)和CPU耗時進行了對比。

表3 不同模型對比

在Plants105上，mEfficientNet準(zhǔn)確率比其他模型都高，比緊接著第二名的DenseNet169高了約1 %，比MobileNetV2和NasNetMobile輕量化網(wǎng)絡(luò)高了約3 %。在另一個Flowers102數(shù)據(jù)集上，mEfficientNet除了與DenseNet169準(zhǔn)確率一樣，比其他模型的準(zhǔn)確率都高，但是DenseNet169的模型體積是mEfficientNet的3倍。在模型體積和CPU耗時上，表3前6個模型的體積都比后3個模型體積大幾倍，而且在準(zhǔn)確率上也和后3個模型相差不多。與MobileNetV2比，mEfficientNet模型體積大20 M和慢7 ms，但在Top—1準(zhǔn)確率上卻提高了1 %～3 %。如果其他模型要提高到這個準(zhǔn)確率，則需要更大的模型體積和更低的速率。例如，DenseNet169提高到這個精度，則需要比MobileNetV2增加5倍左右的模型體積和2倍的CPU耗時。因此，從實驗結(jié)果表明，改進的EfficientNet能在計算量相當(dāng)時增加少量的網(wǎng)絡(luò)參數(shù)，實現(xiàn)更高的分類準(zhǔn)確率提升，也證明了對網(wǎng)絡(luò)進行多維度的放縮能更有效地提高模型的準(zhǔn)確率。

3 結(jié)束語

本文以EfficientNet網(wǎng)絡(luò)作為植物圖像分類特征提取的主干網(wǎng)絡(luò)，并用更優(yōu)的Mish函數(shù)替換原來的激活函數(shù)。與其他網(wǎng)絡(luò)比，改進的EfficientNet在植物圖像分類上表現(xiàn)更加出色，有著更高的分類準(zhǔn)確率、更小的模型體積和更快的識別速率。本文方法因為具有對硬件設(shè)備要求低和計算量小的特點，更適合嵌入式設(shè)備末端部署。然而，本文方法如何在嵌入式設(shè)備末端部署是今后研究的重點。