亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)MobileNet的圖像分類方法研究

        2021-06-10 17:04:34高淑萍趙清源齊小剛程孟菲
        智能系統(tǒng)學(xué)報 2021年1期
        關(guān)鍵詞:分類深度特征

        高淑萍,趙清源,齊小剛,程孟菲

        (西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,陜西 西安 710126)

        圖像分類是通過涵蓋在圖像里的不同特征信息來對圖像集進(jìn)行歸類,它是目前計算機(jī)視覺領(lǐng)域的基本問題之一,也是行為檢測、目標(biāo)識別、圖像修復(fù)、圖像切割等復(fù)雜視覺任務(wù)的基礎(chǔ)。圖像分類廣泛應(yīng)用于諸多領(lǐng)域,包括醫(yī)學(xué)影像識別等。早期圖像分類技術(shù)以人工提取特征為主,而后發(fā)展為特征表達(dá)的學(xué)習(xí),首先是利用尺度不變特征轉(zhuǎn)換(scale-invariant feature transform, SIFT)、方向梯度直方圖(histogram of oriented gradient,HOG)等方法進(jìn)行底層特征提??;其次是利用核詞典編碼、Fisher向量編碼等進(jìn)行特征編碼;然后是將編碼后的特征進(jìn)行匯聚;最后利用支持向量機(jī)等分類器進(jìn)行圖像分類。雖然特征表達(dá)的學(xué)習(xí)方式能夠提取一部分圖像特征,但這種方式容易出現(xiàn)特征丟失、泛化性能差的問題,最終難以達(dá)到理想圖像分類精度的要求。

        深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)能夠完成輸入信息從淺層學(xué)習(xí)到深層學(xué)習(xí)的逐級表達(dá),提取更加準(zhǔn)確的特征,降低在圖像分類技術(shù)上的操作難度并取得顯著效果。在圖像分類領(lǐng)域,最初是由Yann LeCun[1]將CNN部署在手寫體識別上,取得了良好的識別效果;2012年后,相繼出現(xiàn)了AlexNet、GoogLeNet[2]、ResNet[3]等具有代表性的深度網(wǎng)絡(luò)結(jié)構(gòu);近幾年,國內(nèi)外提出輕量化版本的網(wǎng)絡(luò)結(jié)構(gòu),如GhostNet[4]、ShuffleNetV1[5]、MobileNetV1[6]、MobileNetV2[7]、ShuffleNetV2[8]、SqueezeNet[9]和IGCV3[10],其中MobileNet系列更具代表性。在MobileNetV1中,以深度可分離卷積替換標(biāo)準(zhǔn)卷積的方式降低了網(wǎng)絡(luò)結(jié)構(gòu)的大小和計算復(fù)雜度,而MobileNetV2在保持深度可分離卷積的基礎(chǔ)上,加入多個逐點(diǎn)卷積,進(jìn)一步提升網(wǎng)絡(luò)結(jié)構(gòu)性能和降低計算復(fù)雜度。但MobileNet系列的網(wǎng)絡(luò)結(jié)構(gòu)在應(yīng)用于圖像分類任務(wù)時,因其網(wǎng)絡(luò)內(nèi)部設(shè)計、優(yōu)化策略和激活函數(shù)的原因,導(dǎo)致會不斷地忽略輸入信息中的負(fù)值特征信息,而這些負(fù)值特征信息卻可能是圖像分類的關(guān)鍵點(diǎn)。近3年對MobileNet網(wǎng)絡(luò)結(jié)構(gòu)在圖像分類領(lǐng)域的改進(jìn)方法被相繼提出。如2019年,黃躍珍等[11]利用Squeeze-and-Excitation模塊對MobileNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),提高了車型識別精度;劉鴻智[12]在MobileNet網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,采用新的混合鏈接結(jié)構(gòu),提高了在數(shù)據(jù)集Cifar-10和Cifar-100的分類精度;2020年,Guo等[13]提出在MobileNet網(wǎng)絡(luò)結(jié)構(gòu)中插入八度卷積和中心損失函數(shù)的方法,提升了多國人臉分類識別率。

        本文在前人工作的基礎(chǔ)上,提出一種改進(jìn)的MobileNet網(wǎng)絡(luò)結(jié)構(gòu),即L-MobileNet。其主要思想為

        1)用深度可分離卷積形式代替標(biāo)準(zhǔn)卷積形式,并將深度卷積得到的特征圖執(zhí)行取反操作,通過深度卷積融合層傳遞至下一層;

        2)卷積層中使用Leaky ReLU激活函數(shù)以保留圖像更多的正負(fù)特征信息,并加入類殘差結(jié)構(gòu)[3]避免梯度彌散現(xiàn)象,降低網(wǎng)絡(luò)參數(shù)計算量。

        為了提高網(wǎng)絡(luò)結(jié)構(gòu)的泛化能力,在數(shù)據(jù)輸入時采用數(shù)據(jù)預(yù)處理技術(shù)。通過將本文L-MobileNet與經(jīng)典的CNN、MobileNetV1、MobileNetV2、經(jīng)典的CNN+Leaky ReLU[14]、MobileNetV1+Leaky ReLU[15]和MobileNetV2+Leaky ReLU[15]進(jìn)行對比實(shí)驗(yàn),結(jié)果表明L-MobileNet在Cifar-10[16]、Cifar-100 (coarse)[16]、Cifar-100 (fine)[16]和Dogs vs Cats[17]數(shù)據(jù)集上具有更好的圖像分類效果。

        1 相關(guān)預(yù)備知識

        1.1 經(jīng)典的CNN網(wǎng)絡(luò)結(jié)構(gòu)

        經(jīng)典的CNN屬于前饋神經(jīng)網(wǎng)絡(luò)類型,其結(jié)構(gòu)組件有標(biāo)準(zhǔn)卷積層、池化層、全連接層、激活函數(shù)和分類器,如圖1所示。該網(wǎng)絡(luò)主要通過標(biāo)準(zhǔn)卷積層進(jìn)行圖像特征提取,在該層中通常包括若干特征圖,每個特征圖由神經(jīng)元節(jié)點(diǎn)排列成矩形形狀,相同特征圖中神經(jīng)元節(jié)點(diǎn)之間進(jìn)行權(quán)值共享。通過權(quán)值共享可以減少神經(jīng)元節(jié)點(diǎn)之間的連接數(shù)量,避免過擬合現(xiàn)象。池化層能夠降低計算維度,進(jìn)而提升網(wǎng)絡(luò)結(jié)構(gòu)的泛化性能。激活函數(shù)用來增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性學(xué)習(xí)能力。經(jīng)過多次特征提取過程后,把最后的特征圖進(jìn)行拼接,得到一維矩陣。最后由全連接層輸入到分類器進(jìn)而輸出分類結(jié)果。

        圖1 經(jīng)典的CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Classical CNN network structure

        經(jīng)典的CNN網(wǎng)絡(luò)結(jié)構(gòu)利用卷積核提取圖像中的特征,對局部進(jìn)行感知并且通過權(quán)值共享降低參數(shù)計算量。但經(jīng)典的CNN反向傳播過程中容易出現(xiàn)參數(shù)不更新現(xiàn)象,和池化層丟失圖像中特征信息的問題。

        1.2 MobileNet網(wǎng)絡(luò)結(jié)構(gòu)

        MobileNet網(wǎng)絡(luò)系列在近幾年被廣泛應(yīng)用,更是輕量級網(wǎng)絡(luò)的典型代表。MobileNet網(wǎng)絡(luò)結(jié)構(gòu)在經(jīng)典的CNN網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,將池化層、部分全連接層用卷積層來代替,其突出特點(diǎn)是引入了深度可分離卷積的卷積形式。標(biāo)準(zhǔn)卷積是將一組卷積核與輸入數(shù)據(jù)作用后組合成單通道特征的輸出,而深度可分離卷積是因式分解的卷積形式,將標(biāo)準(zhǔn)卷積分解為深度卷積和1×1逐點(diǎn)卷積2部分,深度卷積是把單個固定大小的卷積核作用到每個輸入通道,然后逐點(diǎn)卷積通過1×1的卷積核來進(jìn)行通道信息融合并輸出。圖2顯示標(biāo)準(zhǔn)卷積(圖2(a))分解為深度卷積(圖2(b))和1×1逐點(diǎn)卷積(圖2(c))的過程。

        圖2中M表示輸入通道數(shù)量,N表示輸出通道數(shù)量,DK×DK表示卷積核大小的乘積,DF×DF表示特征映射圖大小的乘積。

        圖2 標(biāo)準(zhǔn)卷積分解過程Fig. 2 Standard convolution decomposition process

        深度卷積計算成本為

        逐點(diǎn)卷積計算成本為

        深度可分離卷積計算成本占標(biāo)準(zhǔn)卷積計算成本的比例為

        實(shí)驗(yàn)表明[6],當(dāng)使用3×3的深度可分離卷積時,其計算量比標(biāo)準(zhǔn)卷積少8~9倍,而精度只有很小的損失。MobileNet網(wǎng)絡(luò)系列在盡可能保證圖像分類精度穩(wěn)定的前提下,極大縮短網(wǎng)絡(luò)訓(xùn)練的時間與減少參數(shù)更新過程中的計算成本,也為后續(xù)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化提供了方向。但MobileNet網(wǎng)絡(luò)結(jié)構(gòu)中仍存在著特征信息提取能力不足導(dǎo)致分類精度不高和網(wǎng)絡(luò)層中激活函數(shù)丟失負(fù)值特征信息的現(xiàn)象。

        1.3 Leaky ReLU激活函數(shù)[18]

        激活函數(shù)是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中非線性學(xué)習(xí)能力的關(guān)鍵點(diǎn),ReLU激活函數(shù)可以有效緩解梯度彌散現(xiàn)象,成為大多數(shù)激活函數(shù)的主流選擇。但隨著網(wǎng)絡(luò)訓(xùn)練輪數(shù)的增加,部分神經(jīng)元對應(yīng)權(quán)重得不到更新,出現(xiàn)神經(jīng)元死亡現(xiàn)象,并且ReLU在特征提取過程中會丟棄特征圖內(nèi)的負(fù)值特征信息。ReLU輸出值的均值始終大于零,也不利于網(wǎng)絡(luò)學(xué)習(xí)能力的表達(dá)。Leaky ReLU激活函數(shù)的特性解決了ReLU的問題,有效提取負(fù)值特征信息,數(shù)學(xué)形式為

        式中:xi代表第i層的輸出;yi代表第i層經(jīng)過非線性變換后的輸出;ai是第i層中的固定參數(shù),其范圍是 (1,+∞)。Leaky ReLU激活函數(shù)如圖3所示。由于Leaky ReLU激活函數(shù)負(fù)半軸是一個較小斜率的函數(shù),可以來初始化神經(jīng)元,避免神經(jīng)元死亡的同時增加了負(fù)值特征信息的提取。由文獻(xiàn)[18]可知,當(dāng)Leaky ReLU激活函數(shù)中ai=5.5時,Leaky ReLU激活函數(shù)的分類效果要優(yōu)于ReLU激活函數(shù)。

        2 L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)

        針對經(jīng)典的CNN網(wǎng)絡(luò)結(jié)構(gòu)和MobileNet網(wǎng)絡(luò)結(jié)構(gòu)特征提取能力不足和易忽略負(fù)值特征信息的問題,本文提出一種改進(jìn)的MobileNet網(wǎng)絡(luò)結(jié)構(gòu)的圖像分類方法,即L-MobileNet。首先,研究了基于MobileNet網(wǎng)絡(luò)中存在特征信息的各個局部區(qū)域;其次,設(shè)計了深度卷積取反層和深度卷積融合層,將原圖像特征和其取反特征進(jìn)行融合提?。蛔詈?,加入類殘差結(jié)構(gòu),組合卷積塊,通過損失函數(shù)優(yōu)化整個網(wǎng)絡(luò)進(jìn)行分類。

        L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,參數(shù)設(shè)置如表1所示。深度卷積層得到的特征圖通過深度卷積取反層進(jìn)行取反操作,并將其與原特征圖的特征信息一起通過深度卷積融合層進(jìn)行特征相加,傳遞至下一個逐點(diǎn)卷積層,然后傳遞至下一個卷積塊,以此類推。其中的卷積塊中采用Leaky ReLU激活函數(shù),將其作用于每一個卷積塊中的每一個卷積層。為了防止出現(xiàn)梯度彌散現(xiàn)象,在卷積塊中加入了類殘差結(jié)構(gòu),先進(jìn)行信息通道的擴(kuò)展再進(jìn)行信息通道的壓縮。通過交叉熵?fù)p失函數(shù)優(yōu)化整個網(wǎng)絡(luò),直至收斂。最終經(jīng)過全局平均池化層和逐點(diǎn)卷積層來達(dá)到分類數(shù)目要求,通過Softmax分類器進(jìn)行輸入樣本的分類。

        圖4 L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 L-MobileNet network structure

        表1 L-MobileNet參數(shù)設(shè)置Table 1 L-MobileNet parameters setting

        2.1 特征信息的融合

        如圖4所示,本文對特征信息的融合采用的是在深度卷積層提取了原始圖像局部特征后,同步進(jìn)行深度卷積取反層,然后利用深度卷積融合層對2層特征信息進(jìn)行處理。符號說明如下:對于給定的圖像,其中l(wèi)表示當(dāng)前層,l?1 表示前一層,表示當(dāng)前層第j個特征圖,? 代表深度卷積運(yùn)算表示前一層第i個特征圖表示該層第i個特征圖和前一層第j個特征圖所作用的卷積核表示偏置值,Mj表示產(chǎn)生該層第j個特征圖相關(guān)的前一層特征圖累計值,f(·) 表示Leaky ReLU激活函數(shù)。

        深度卷積層對輸入的處理為

        深度卷積取反層同步對輸入進(jìn)行處理為

        深度卷積融合層將前2步提取的信息進(jìn)行融合為

        深度卷積融合層所提取出的特征,不僅包含了原始深度卷積層中的特征信息,而且對潛在的圖像局部區(qū)域的特征進(jìn)行提取,融合后的特征隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行,不斷學(xué)習(xí)出識別效果優(yōu)秀的高維特征信息。

        2.2 負(fù)值特征信息的提取

        如圖4可知,L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)中有6個大卷積塊,為了提高M(jìn)obileNet網(wǎng)絡(luò)中對負(fù)值特征信息的敏感度和負(fù)值特征信息傳播過程中的完整度,本文將原始的ReLU激活函數(shù)替換為Leaky ReLU激活函數(shù),并引入類殘差結(jié)構(gòu)。經(jīng)典的CNN受限于固定的卷積核大小和激活函數(shù)的選取,影響了負(fù)值特征信息的提取和傳播,而MobileNet網(wǎng)絡(luò)雖對卷積核形式有所改變但對負(fù)值特征信息量仍提取不足。由于Leaky ReLU激活函數(shù)自身特性對負(fù)值敏感,能夠保障神經(jīng)元不死亡,并且類殘差結(jié)構(gòu)可以防止梯度彌散,利于負(fù)值特征信息的傳播,所以本文在每一個卷積層后使用Leaky ReLU(ai=5.5)激活函數(shù)和在第3、5及第6卷積塊使用類殘差結(jié)構(gòu)。

        由于前向傳播過程中前面網(wǎng)絡(luò)層中梯度的計算尚可保持較大值,而越靠后的網(wǎng)絡(luò)層中梯度值會越來越小,導(dǎo)致反向傳播過程中極易出現(xiàn)梯度彌散現(xiàn)象,所以本文將類殘差結(jié)構(gòu)放置在網(wǎng)絡(luò)中后端位置。以其中一個卷積塊為例,如果特征向量的維度越低,卷積層中的計算量越小,導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)整體計算速度越快,但這并不能夠提取出輸入圖像全面且有效的特征信息。為了達(dá)到網(wǎng)絡(luò)結(jié)構(gòu)平衡的目的,本文采取含有高維特征向量的設(shè)計:卷積塊的輸入端采用1×1的逐點(diǎn)卷積結(jié)構(gòu),目的是將特征信息從低維空間映射到高維空間,同時受文獻(xiàn)[7]的啟發(fā),將其中負(fù)責(zé)維度擴(kuò)展的超參數(shù)的默認(rèn)值設(shè)置為6。卷積塊的輸出端同樣采用1×1的逐點(diǎn)卷積結(jié)構(gòu),在沒有超參數(shù)的設(shè)定下,可以將特征信息從高維空間映射到低維空間。

        逐點(diǎn)卷積計算為

        式中: (·)代表逐點(diǎn)卷積運(yùn)算;其余符號與式(5)相同。為了保證負(fù)值特征信息的完整度,在卷積塊中每一個卷積層后,摒棄掉可能會造成信息丟失的ReLU激活函數(shù),使用Leaky ReLU激活函數(shù)。卷積塊以逐點(diǎn)卷積、深度卷積、逐點(diǎn)卷積交錯的方式排列。

        2.3 傳播過程中的參數(shù)更新原理

        在反向傳播的參數(shù)更新中,L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)使用Tensorflow框架下tf.average_pooling2d進(jìn)行全局平均池化,根據(jù)輸入信息的類別數(shù)目由逐點(diǎn)卷積層輸出。

        用Softmax分類器來進(jìn)行輸出分類為

        采用交叉熵優(yōu)化的損失函數(shù)為

        式中:C表示類別;N表示樣本數(shù);γ 表示Dirichlet函數(shù);參數(shù) θ =(θ1,θ2,···,θk);R(·) 表示正則化約束項(xiàng);λ 表示正則化系數(shù)。

        損失函數(shù) ε 對輸入c的導(dǎo)數(shù)為

        式中: ε 表示損失函數(shù);c表示前一網(wǎng)絡(luò)層的輸出;f(c) 表示前一網(wǎng)絡(luò)層經(jīng)過非線性變換后的輸出;ai是 (1,+∞) 的固定參數(shù)表示從網(wǎng)絡(luò)深層傳播來的梯度表示當(dāng)前層輸入值的梯度。當(dāng)增大前向傳播中對特征信息的存儲后,將減小訓(xùn)練樣本的誤差,再通過反向傳播算法進(jìn)一步影響了網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)更新。

        參數(shù)的更新規(guī)則為

        式中:c表示前一網(wǎng)絡(luò)層的輸出;ε 表示損失函數(shù);μ 表示動量系數(shù);α 表示學(xué)習(xí)率; ω 表示權(quán)重衰減系數(shù)。本文L-MobileNet通過影響網(wǎng)絡(luò)中參數(shù)c和更新,最終影響到網(wǎng)絡(luò)結(jié)構(gòu)的分類結(jié)果。

        網(wǎng)絡(luò)模型的參數(shù)量(空間復(fù)雜度)的計算為

        網(wǎng)絡(luò)模型的計算量(時間復(fù)雜度)的計算為

        式中:Cl′為第l′層卷積核個數(shù);Cl′?1為上一層的輸出通道數(shù);kl′為卷積核尺寸;M為輸出特征映射的邊長;D為所有卷積層數(shù);O(·) 為所需要的空間資源量。由于本文使用的激活函數(shù)是Leaky ReLU函數(shù),因此可以通過原位運(yùn)算完成從輸入到輸出的非線性映射,排除輸出特征映射的參數(shù)量。根據(jù)式(15)、(16)計算表明,L-MobileNet參數(shù)總量為280萬、計算量為320百萬次,與MobileNetV1[6]的420萬個參數(shù)、575百萬次計算量和MobileNetV2[7]的340萬個參數(shù)、300百萬次計算量相比,本文方法參數(shù)量更少。

        2.4 算法步驟

        L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)的初始學(xué)習(xí)率設(shè)置為0.1,隨著訓(xùn)練輪數(shù)增加和訓(xùn)練誤差變小,學(xué)習(xí)率呈自適應(yīng)狀態(tài)且衰減系數(shù)為0.96,直到達(dá)到最大訓(xùn)練輪數(shù)時停止訓(xùn)練。對于數(shù)據(jù)集L-MobileNet網(wǎng)絡(luò)算法步驟為

        輸入訓(xùn)練數(shù)據(jù)集et網(wǎng)絡(luò)結(jié)構(gòu),圖像分類數(shù),每一批的數(shù)量,自適應(yīng)學(xué)習(xí)率的初始值和衰減系數(shù)。

        1) 利用預(yù)處理技術(shù)將數(shù)據(jù)集中的訓(xùn)練集與測試集進(jìn)行處理,轉(zhuǎn)換為符合LMobileNet網(wǎng)絡(luò)結(jié)構(gòu)輸入的四維數(shù)組即每一批輸入的圖片數(shù)和每一批次輸入的標(biāo)簽數(shù)。

        2) 將每一批輸入的圖片數(shù)和每一批次輸入的標(biāo)簽數(shù)導(dǎo)入網(wǎng)絡(luò)架構(gòu)文件中,并初始化L-Mobile-Net網(wǎng)絡(luò)中所有的權(quán)值k和偏置b。

        3) 令l=1。

        4) 用L-MobileNet網(wǎng)絡(luò)對輸入進(jìn)行訓(xùn)練,計算訓(xùn)練樣本的實(shí)際輸出值及每一網(wǎng)絡(luò)層所產(chǎn)生的誤差總和。

        5) 用RMSProp算法優(yōu)化器計算網(wǎng)絡(luò)中權(quán)值和偏置的偏導(dǎo)數(shù)以此更新相應(yīng)參數(shù)值。

        6) 判斷l(xiāng)>Epoch 訓(xùn)練輪數(shù)是否成立,成立則停止訓(xùn)練;不成立,則返回4)。

        輸出參數(shù)(權(quán)值k和偏置b)已知的L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)數(shù)據(jù)取自Cifar-10、Cifar-100和Dogs vs Cats。Cifar-10數(shù)據(jù)集中有10種類別,由60 000張32×32彩色圖片組成,每種類別包含6 000張圖片,總計有10 000張測試圖片和50 000張訓(xùn)練圖片。Cifar-10數(shù)據(jù)集分為1個測試批次和5個訓(xùn)練批次,測試批次是由每種類別中隨機(jī)選擇的1 000張圖片組成,其余5個訓(xùn)練批次是由每種類別中隨機(jī)的剩余圖片組成(某個訓(xùn)練批次可能包含某個類別的圖片數(shù)量多于另一個類別的圖片數(shù)量)。圖5顯示Cifar-10數(shù)據(jù)集中部分樣本。Cifar-100數(shù)據(jù)集與Cifar-10數(shù)據(jù)集結(jié)構(gòu)類似,但有coarse和fine 2種數(shù)據(jù)構(gòu)成。圖6顯示Dogs vs Cats數(shù)據(jù)集中部分樣本。實(shí)驗(yàn)采用的Cifar-10、Cifar-100(coarse)和Cifar-100(fine)數(shù)據(jù)集劃分采取5:1的比例,在60 000張圖片中,50 000張圖片用于訓(xùn)練,10 000張圖片用于測試驗(yàn)證。Dogs vs Cats數(shù)據(jù)集各類取前2 000張圖片用于訓(xùn)練,各類另取400張圖片用于測試驗(yàn)證。在實(shí)驗(yàn)前將4個數(shù)據(jù)集進(jìn)行了左右翻轉(zhuǎn)、上下翻轉(zhuǎn)、調(diào)整圖片亮度、調(diào)整圖片對比度和白化的數(shù)據(jù)預(yù)處理技術(shù)。

        圖5 Cifar-10數(shù)據(jù)集的部分圖例Fig. 5 Partial legend of Cifar-10 dataset

        圖6 Dogs vs Cats數(shù)據(jù)集的部分圖例Fig. 6 Partial legend of Dogs vs Cats dataset

        3.2 實(shí)驗(yàn)仿真環(huán)境

        為驗(yàn)證L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)有效性,本文將其與經(jīng)典的CNN、MobileNetV1、MobileNetV2、經(jīng)典的CNN+Leaky ReLU,MobileNetV1+Leaky ReLU和MobileNetV2+Leaky ReLU進(jìn)行對比實(shí)驗(yàn),并評價各網(wǎng)絡(luò)結(jié)構(gòu),所有對比實(shí)驗(yàn)均采用相同卷積層設(shè)置,且每層參數(shù)設(shè)置也相同。

        實(shí)驗(yàn)仿真環(huán)境采用tensorflow1.14框架,編程語言為Python3.7,框架平臺為PyCharm2019.1.1,使用Windos10,64位操作系統(tǒng),CPU使用Intel Core i7-7700K,GPU使用NVDIA GTX1080 8 G,內(nèi)存為32 G以實(shí)現(xiàn)所有實(shí)驗(yàn)。

        3.3 訓(xùn)練過程及實(shí)驗(yàn)對比

        在L-MobileNet網(wǎng)絡(luò)輸入層中,按照數(shù)據(jù)集中圖片大小輸入即可,訓(xùn)練及測試樣本batch_size為128。卷積層中,逐點(diǎn)卷積使用1×1卷積核,深度卷積使用3×3卷積核,并對每次卷積操作進(jìn)行Leaky ReLU激活函數(shù)的非線性特征提取,利用深度卷積融合層來產(chǎn)生更多的特征,使得模型增強(qiáng)數(shù)據(jù)分類學(xué)習(xí)過程中的控制力。訓(xùn)練過程中使用RMSPropOptimizer優(yōu)化策略,decay為0.9,momentum為0.9。學(xué)習(xí)率采用自適應(yīng)學(xué)習(xí)率,decay_rate為0.96。對于Cifar-10、Cifar-100(fine)、Cifar-100(coarse)和Dogs vs Cats數(shù)據(jù)集,經(jīng)典的CNN、MobileMetV1、MobileNetV2以及L-MobileNet 4種模型分別通過50、50、50和200個Epoch訓(xùn)練,每經(jīng)過一個Epoch,用測試集進(jìn)行準(zhǔn)確率的驗(yàn)證和記錄,所有網(wǎng)絡(luò)模型均達(dá)到收斂狀態(tài),4種模型隨Epoch的準(zhǔn)確率變化曲線如圖7所示。

        圖7 不同數(shù)據(jù)集下準(zhǔn)確率變化曲線Fig. 7 Accuracy curve under different datasets

        在相同的參數(shù)設(shè)置和卷積層設(shè)置下,本文還將經(jīng)典的CNN、MobileNetV1以及MobileNetV2分別作用于Leaky ReLU激活函數(shù)同L-MobileNet進(jìn)行對比實(shí)驗(yàn),在Cifar-10、Cifar-100(fine)、Cifar-100(coarse)和Dogs vs Cats數(shù)據(jù)集上,分別經(jīng)過50、50、50和200個Epoch訓(xùn)練,所有網(wǎng)絡(luò)模型均達(dá)到收斂狀態(tài),其準(zhǔn)確率隨Epoch的變化曲線如圖8所示。

        圖8 不同數(shù)據(jù)集下準(zhǔn)確率變化曲線Fig. 8 Accuracy curve under different datasets

        可以看出,對于經(jīng)典的CNN、MobileNetV1以及MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)中使用Leaky ReLU激活函數(shù)時,雖然分類準(zhǔn)確率有所提升,但仍然低于L-MobileNet的分類準(zhǔn)確率,這表明本文L-MobileNet是有效的。

        3.4 實(shí)驗(yàn)結(jié)果及分析

        本文使用的評價指標(biāo)是最高準(zhǔn)確率和平均準(zhǔn)確率。最高準(zhǔn)確率是在所有訓(xùn)練輪數(shù)中正確分類的樣本數(shù)占樣本總數(shù)的比例最大值,平均準(zhǔn)確率是所有訓(xùn)練輪數(shù)的準(zhǔn)確率平均值。在Cifar-10、Cifar-100(fine)、Cifar-100(coarse)和Dogs vs Cats 4個數(shù)據(jù)集中所有網(wǎng)絡(luò)結(jié)構(gòu)的平均準(zhǔn)確率數(shù)據(jù)和最高準(zhǔn)確率數(shù)據(jù)如表2所示。

        從圖7和表2可知,在4個數(shù)據(jù)集分類實(shí)驗(yàn)中,本文提出的L-MobileNet的分類準(zhǔn)確率要明顯高于經(jīng)典的CNN、MobileNetV1以及MobileNetV2。在Cifar-10數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中,經(jīng)典的CNN的平均準(zhǔn)確率為70.31%,MobileNet系列的準(zhǔn)確率相比經(jīng)典的CNN有較大提升,平均準(zhǔn)確率分別達(dá)到了74.31%和75.65%。在最高準(zhǔn)確率方面,MobileNetV1和MobileNetV2也比經(jīng)典的CNN分別提升了4.57%和5.67%,但仍然低于L-MobileNet中83.11%的平均準(zhǔn)確率和87.36%的最高準(zhǔn)確率。在Cifar-100(coarse)和Cifar-100(fine)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中,可以看出L-MobileNet仍是達(dá)到最好結(jié)果,在最高準(zhǔn)確率方面,相較于MobileNetV1分別提升了4.56%和2.84%,比MobileNetV2分別提升了3.26%和1.84%。在Dogs vs Cats數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中,因類別數(shù)較少,整體分類精度較高。MobileNetV1和MobileNetV2在平均準(zhǔn)確率和最高準(zhǔn)確率上的結(jié)果相較于經(jīng)典的CNN提升明顯,MobileNetV1分別達(dá)到了78.48%和84.96%,而MobileNetV2分別達(dá)到了80.87%和88.81%,本文提出的L-MobileNet比經(jīng)典的CNN在平均準(zhǔn)確率上提升了10.23%,最高準(zhǔn)確率上提升了14.08%,分別達(dá)到了85.51%和93.94%的分類精度。出現(xiàn)這樣結(jié)果的原因是MobileNet系列使用了改進(jìn)的深度可分離卷積結(jié)構(gòu),改善了經(jīng)典的CNN網(wǎng)絡(luò)結(jié)構(gòu)中的池化等丟失特征信息的問題,而本文方法在MobileNet的基礎(chǔ)上,利用深度卷積融合層和Leaky ReLU激活函數(shù)可以更全面的提取特征信息。

        表2 7種網(wǎng)絡(luò)結(jié)構(gòu)在4種數(shù)據(jù)集中準(zhǔn)確率統(tǒng)計Table 2 Accuracy statistics of seven network structures in four datasets %

        從圖8和表2可知,將經(jīng)典的CNN、MobileNetV1以及MobileNetV2分別作用于Leaky ReLU激活函數(shù)后,實(shí)驗(yàn)結(jié)果均不及本文提出的L-MobileNet。經(jīng)典的CNN+Leaky ReLU在4個數(shù)據(jù)集中都處于最差水平,L-MobileNet在4個數(shù)據(jù)集的平均準(zhǔn)確率和最高準(zhǔn)確率都處于最好水平。在Cifar-10、Cifar-100(fine)、Cifar-100(coarse)和Dogs vs Cats 4個數(shù)據(jù)集的最高準(zhǔn)確率方面,L-MobileNet比MobileNetV1+Leaky ReLU分別提升了5.82%、3.28%、1.77%和8.07%,并且改進(jìn)的MobileNet比MobileNetV2+Leaky ReLU分別提升了5%、2.36%、0.63%和3.98%。實(shí)驗(yàn)結(jié)果說明了網(wǎng)絡(luò)結(jié)構(gòu)與Leaky ReLU激活函數(shù)的結(jié)合的確可以提高圖像分類準(zhǔn)確率,原因是Leaky ReLU激活函數(shù)對潛在局部區(qū)域的負(fù)值特征信息更敏感。

        綜合以上實(shí)驗(yàn)結(jié)果表明,本文對MobileNet的改進(jìn)是有效的,所提出的L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)具有較好的分類效果。L-MobileNet在不同的數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的泛化能力,具有良好的推廣應(yīng)用前景。

        為了進(jìn)一步驗(yàn)證本文方法的有效性,在Cifar-10數(shù)據(jù)集上將L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)與近幾年圖像分類上具有代表性的8種方法進(jìn)行分類精度的對比,比較結(jié)果如表3所示。

        由表3可以得出,與傳統(tǒng)學(xué)習(xí)方法(Mean-covariance RBM、Improved local coord 、PCANet) 相比,本文提出的L-MobileNet優(yōu)勢明顯,且有較大提升。但與其他基于深度學(xué)習(xí)的方法(Highway、Maxout+Dropout、NIN)相比較,分類精度尚有不足,主要原因是NIN網(wǎng)絡(luò)結(jié)構(gòu)在卷積層后加入了BN和Dropout技術(shù),而Maxout網(wǎng)絡(luò)結(jié)構(gòu)和Highway網(wǎng)絡(luò)結(jié)構(gòu)使用了更多的網(wǎng)絡(luò)層數(shù),屬于深度網(wǎng)絡(luò)。本文提出的L-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)在低網(wǎng)絡(luò)結(jié)構(gòu)中具有一定的優(yōu)勢。

        表3 9種不同方法在Cifar-10數(shù)據(jù)集上的分類精度Table 3 Classification accuracy of 9 different methods on Cifar-10 dataset

        4 結(jié)束語

        為了解決具有復(fù)雜特征圖像分類中由于特征信息提取能力不足,尤其是對負(fù)值特征信息不敏感而造成圖像分類精度下降的問題,本文提出了一個改進(jìn)的MobileNet網(wǎng)絡(luò)結(jié)構(gòu)(L-MobileNet)。通過在4個公開數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,與其他6種神經(jīng)網(wǎng)絡(luò)圖像分類方法相比,L-MobileNet分類精度高,在輕量級網(wǎng)絡(luò)中具有優(yōu)勢,可復(fù)制能力強(qiáng),可方便移植到移動端設(shè)備,使相關(guān)設(shè)備在包含復(fù)雜特征圖像場景下,具有良好的分類能力。進(jìn)一步的研究工作內(nèi)容:1)驗(yàn)證本文改進(jìn)方法在更深網(wǎng)絡(luò)結(jié)構(gòu)下的有效性,進(jìn)一步提升模型分類性能;2)進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型結(jié)構(gòu),以適應(yīng)沒有標(biāo)簽樣本的數(shù)據(jù)集。

        猜你喜歡
        分類深度特征
        分類算一算
        深度理解一元一次方程
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        深度觀察
        深度觀察
        深度觀察
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        久久精品国产亚洲av成人文字| 青青青伊人色综合久久亚洲综合| 国产一区二区三区白浆在线观看| 久久一区二区国产精品| 人人人妻人人澡人人爽欧美一区| 精品无码专区久久久水蜜桃| 国产精品久久久久久久y| 九一精品少妇一区二区三区 | 国产成人av一区二区三区无码| 99日本亚洲黄色三级高清网站| 丁香婷婷六月综合缴清| 特黄熟妇丰满人妻无码| .精品久久久麻豆国产精品| 久久久久无码精品国| 精品久久中文字幕系列| 一边做一边喷17p亚洲乱妇50p| 人体内射精一区二区三区| 蜜臀av中文人妻系列| av色一区二区三区精品| 九九热线有精品视频86| 国产爽爽视频在线| 亚洲视频在线中文字幕乱码| 国产成人自拍高清在线| 中文字幕精品久久久久人妻红杏ⅰ| 国产精品99久久久精品免费观看| 国产av一区二区三区狼人香蕉 | 字幕网中文字幕精品一区| 天天夜碰日日摸日日澡性色av| 亚洲av区无码字幕中文色| 日本av一区二区播放| 国产一区二区视频免费在线观看| 色老板精品视频在线观看| 国产精品美女AV免费观看| 精品麻豆一区二区三区乱码| 免费a级毛片18禁网站app| 日韩在线免费| 人妖系列在线免费观看| 性欧美长视频免费观看不卡| 无码专区天天躁天天躁在线| 亚洲每天色在线观看视频| 亚洲国产美女高潮久久久|