亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的商家招牌分類(lèi)研究

        2021-01-15 07:18:32鄭雨薇魏少瑋胡克勇
        計(jì)算機(jī)工程 2021年1期
        關(guān)鍵詞:細(xì)粒度余弦間隔

        李 蘭,鄭雨薇,魏少瑋,胡克勇

        (1.青島理工大學(xué) 信息與控制工程學(xué)院,山東 青島 266520;2.西安電子科技大學(xué) 人工智能學(xué)院,西安 710071)

        0 概述

        商家招牌作為商家標(biāo)志,其識(shí)別和分類(lèi)問(wèn)題雖然耗費(fèi)大量時(shí)間及人力,但是對(duì)于傳統(tǒng)營(yíng)銷(xiāo)的網(wǎng)絡(luò)涉入、消費(fèi)者的線上線下互動(dòng)、商業(yè)信息的挖掘與電子商務(wù)數(shù)據(jù)庫(kù)的管理等實(shí)際應(yīng)用場(chǎng)景有重要作用[6-8]。本文以在自然環(huán)境下拍攝的商家招牌圖像為研究對(duì)象,采用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)算法對(duì)商家招牌進(jìn)行分類(lèi),利用卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)改進(jìn)現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu),并聯(lián)合使用余弦間隔損失函數(shù)對(duì)其進(jìn)行訓(xùn)練。

        1 相關(guān)工作

        根據(jù)使用的監(jiān)督信息不同,細(xì)粒度圖像分類(lèi)可分為基于強(qiáng)監(jiān)督的細(xì)粒度圖像分類(lèi)與基于弱監(jiān)督的細(xì)粒度圖像分類(lèi)。其中,基于強(qiáng)監(jiān)督的細(xì)粒度圖像分類(lèi)方法主要利用如Part-RCNN[9]的目標(biāo)檢測(cè)思想,先在圖像中檢測(cè)出目標(biāo)的所在位置,再檢測(cè)出目標(biāo)中有區(qū)分性區(qū)域的位置,接下來(lái)將目標(biāo)圖像(即前景)以及具有區(qū)分性的目標(biāo)區(qū)域塊同時(shí)發(fā)送至深度卷積網(wǎng)絡(luò)中進(jìn)行分類(lèi)。然而,基于強(qiáng)監(jiān)督信息的細(xì)粒度圖像分類(lèi)需依賴(lài)更多的人工標(biāo)注信息,如目標(biāo)物體的邊界框信息和關(guān)鍵點(diǎn)信息,且在實(shí)際應(yīng)用中,這些標(biāo)注信息的獲取耗時(shí)耗力,使得其應(yīng)用受到限制。因此,研究人員開(kāi)始關(guān)注基于弱監(jiān)督信息的細(xì)粒度圖像分類(lèi)方法,該方法僅需使用標(biāo)簽信息,而無(wú)需額外的標(biāo)注信息,且通常采用如AlexNet[10]、VGG[11]、GoogleNet[12]與ResNet[13]等常見(jiàn)的深度卷積網(wǎng)絡(luò)直接對(duì)圖像細(xì)粒度進(jìn)行分類(lèi)。由于上述分類(lèi)網(wǎng)絡(luò)具有較強(qiáng)的特征表示能力,因此在常規(guī)圖像分類(lèi)中能夠取得較好的效果。然而在細(xì)粒度分類(lèi)中,不同類(lèi)別之間的差異通常十分細(xì)微,直接將常規(guī)圖像分類(lèi)網(wǎng)絡(luò)應(yīng)用于細(xì)粒度圖像進(jìn)行分類(lèi)時(shí),效果并不理想。在文獻(xiàn)[14]提出的Mask-CNN 中,借助全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)部件分割模型。該網(wǎng)絡(luò)對(duì)圖像進(jìn)行精確的部件定位預(yù)測(cè)并將其分割出來(lái),且經(jīng)過(guò)3 個(gè)子網(wǎng)絡(luò)處理后,級(jí)聯(lián)得到整幅圖像的特征表示,以增強(qiáng)特征的表達(dá)能力。文獻(xiàn)[15]提出一種SWFV-CNN 模型,該模型利用CNN 選擇性地挑選出對(duì)于某些模式敏感的濾波器,并將濾波器作為初始化權(quán)重,從而訓(xùn)練一個(gè)對(duì)任務(wù)更具判別性的模型。

        雖然基于弱監(jiān)督信息的模型在細(xì)粒度圖像分類(lèi)問(wèn)題上已取得顯著效果,但是其特征表達(dá)能力仍需進(jìn)一步增強(qiáng)。由于不同類(lèi)別之間的差異更加細(xì)微,包含足夠區(qū)分度的信息往往只存在于很細(xì)微的局部區(qū)域中,如圖1 所示,因?yàn)闉鹾谛盘煳毯腿R桑信天翁的區(qū)別僅在于鳥(niǎo)喙和腹部的顏色,所以在細(xì)粒度圖像分類(lèi)問(wèn)題中捕獲具有判別性的局部特征至關(guān)重要。

        圖1 烏黑信天翁與萊桑信天翁對(duì)比Fig.1 Comparison between black albatross and lessonia albatross

        現(xiàn)有研究通過(guò)引入一些不同的注意力機(jī)制模塊來(lái)學(xué)習(xí)更加具有判別性的局部特征。文獻(xiàn)[16]提出的雙線性CNN 模型較早引入了注意力機(jī)制思想,該模型利用2 個(gè)相同的CNN 分支關(guān)注不同區(qū)域的特征,通過(guò)向量外積的方式聚合2 個(gè)分支的特征,從而得到最終特征表示。然而這種方式需要同時(shí)訓(xùn)練2 個(gè)CNN,且通過(guò)向量外積的方式匯聚特征信息會(huì)導(dǎo)致最終得到的特征向量維度呈指數(shù)級(jí)增長(zhǎng),因此造成模型參數(shù)量增大,且存在冗余的問(wèn)題。文獻(xiàn)[17]提出利用殘差注意力網(wǎng)絡(luò)(Residual Attention Network,RAN)解決大規(guī)模圖像分類(lèi)任務(wù)。該網(wǎng)絡(luò)采用一個(gè)編解碼結(jié)構(gòu)的注意力模塊,利用注意力機(jī)制對(duì)特征圖進(jìn)行精細(xì)化學(xué)習(xí),使得網(wǎng)絡(luò)的表現(xiàn)性能良好,且對(duì)輸入的噪聲魯棒性更強(qiáng)。RAN通過(guò)編解碼方式對(duì)中間特征圖進(jìn)行處理,直接得到一個(gè)三維注意圖。然而,本文使用的CBAM 不是直接計(jì)算三維注意圖,而是對(duì)三維注意圖進(jìn)行解耦合,分別計(jì)算空間注意力(Spatial Attention)及通道注意力(Channel Attention),這種分離注意力機(jī)制生成過(guò)程相比三維注意圖具有更小的參數(shù)量和計(jì)算量。CBAM 分別學(xué)習(xí)特征圖的通道注意力和空間注意力,通過(guò)對(duì)學(xué)習(xí)到的注意力與原特征圖進(jìn)行加權(quán),可強(qiáng)調(diào)關(guān)鍵局部特征,抑制無(wú)關(guān)特征,極大地增強(qiáng)特征的表達(dá)能力。與CBAM 類(lèi)似,文獻(xiàn)[18]提出注意力機(jī)制SE(Squeeze-and-Excitation)模塊,該模塊使用全局平均池化層計(jì)算通道注意力,忽略了空間注意力。然而,空間注意力對(duì)于特征定位起重要作用,且在本文可視化分析實(shí)驗(yàn)中驗(yàn)證了該結(jié)論。

        2 基于注意力機(jī)制的分類(lèi)網(wǎng)絡(luò)

        2.1 ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)

        由于CNN 具有強(qiáng)大的特征表達(dá)能力,因此在計(jì)算機(jī)視覺(jué)任務(wù)中應(yīng)用較為廣泛。當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí),存在一個(gè)難以解決的梯度消失問(wèn)題。本文采用文獻(xiàn)[14]提出的ResNet50 網(wǎng)絡(luò)模型作為基線模型,該模型通過(guò)使用跨層連接極大緩解了深度網(wǎng)絡(luò)訓(xùn)練中的梯度消失問(wèn)題。

        ResNet50 網(wǎng)絡(luò)采用一種重要的殘差模塊,其結(jié)構(gòu)如圖2 所示。其中,殘差模塊的輸入為x,期望輸出的潛在映射為H(x),則殘差定義為F(x)=H(x)-x。如果利用網(wǎng)絡(luò)直接學(xué)習(xí)期望輸出的潛在映射H(x)存在困難,則ResNet 50 網(wǎng)絡(luò)不再學(xué)習(xí)一個(gè)完整的輸出,而是學(xué)習(xí)H(x)和恒等映射x之間的差值,即殘差F(x),最終僅需對(duì)H(x)和x的元素進(jìn)行加法運(yùn)算即可得到期望輸出。圖2 所示的x恒等快捷連接表示跨層連接,這是一條從輸入直接到輸出的通路,在輸出之前將x與經(jīng)過(guò)學(xué)習(xí)的殘差值F(x)相加,可得到期望映射結(jié)果H(x)。由于跨層連接的存在,梯度在往前傳播時(shí),后一層的梯度信號(hào)可以無(wú)損傳遞到前一層,文獻(xiàn)[13]已經(jīng)通過(guò)實(shí)驗(yàn)驗(yàn)證了學(xué)習(xí)殘差而非直接學(xué)習(xí)映射的優(yōu)勢(shì)所在。

        圖2 殘差模塊Fig.2 Residual module

        2.2 基于卷積塊注意力模塊的ResNet50 網(wǎng)絡(luò)

        人類(lèi)的知覺(jué)系統(tǒng)中存在有重要作用的注意力機(jī)制,這使得人類(lèi)在日常生活中處理視覺(jué)信息時(shí)僅需關(guān)注有用信息,不必在某一時(shí)刻處理整個(gè)場(chǎng)景信息[19]。研究人員受到人類(lèi)處理視覺(jué)信息注意力機(jī)制的啟發(fā),提出多種應(yīng)用于計(jì)算機(jī)視覺(jué)的注意力機(jī)制模型。為關(guān)注重要的局部細(xì)節(jié)區(qū)域,并過(guò)濾掉不重要的局部信息,本文采用CBAM。CBAM 和其他注意力機(jī)制有相同的出發(fā)點(diǎn),即關(guān)注重要的特征信息,過(guò)濾掉不重要的特征信息[20]。然而,以往研究提出的模型均是在所有維度上應(yīng)用殘差注意力網(wǎng)絡(luò)[17]或者只是在某一特定維度上使用注意力機(jī)制SE 模塊[18]。CBAM 是依次使用通道注意力模塊和空間注意力模塊得到特征圖,因此模型可分別在通道和空間上學(xué)到“是什么”與“在哪里”。針對(duì)圖像識(shí)別和分類(lèi)問(wèn)題,這種協(xié)調(diào)通道信息和空間信息的方式可以關(guān)注到圖像間更加細(xì)微的局部差異,放大局部特征的代表性。

        營(yíng)改增的實(shí)施使得稅法稅率等發(fā)生了改變。該背景下財(cái)務(wù)、銷(xiāo)售、采購(gòu)等部門(mén)應(yīng)相互配合,整理各類(lèi)合同,使其保持規(guī)范,對(duì)合同中的各類(lèi)價(jià)格是否含稅具備清晰地認(rèn)知,既要了解稅率,又要明確發(fā)票類(lèi)型,并厘清與規(guī)定不符的發(fā)票引發(fā)的賠償責(zé)任,優(yōu)先選擇一般納稅人作為供應(yīng)商,最大程度爭(zhēng)取進(jìn)項(xiàng)稅抵扣。采購(gòu)過(guò)程中因涉及到供應(yīng)商優(yōu)惠問(wèn)題,存在普通發(fā)票的情況?,F(xiàn)實(shí)情況很難達(dá)到如此力度的優(yōu)惠,酒店仍需供應(yīng)商提供專(zhuān)用發(fā)票。

        CBAM 的結(jié)構(gòu)分為通道注意力模塊與空間注意力模塊,具體如圖3、圖4 所示,且其數(shù)學(xué)形式分別如式(1)、式(2)所示。

        圖3 通道注意力模塊Fig.3 Channel attention module

        圖4 空間注意力模塊Fig.4 Spatial attention module

        由圖3 可知,通道注意力模塊先利用最大池化層和平均池化層分別匯聚空間信息,使特征圖變?yōu)? 個(gè)1×1×N的特征向量,再將2 個(gè)特征向量輸入包含一個(gè)隱藏層的多層感知機(jī)(共享參數(shù))。接下來(lái)將2 個(gè)輸出的特征向量通過(guò)元素求和合并在一起,并經(jīng)過(guò)Sigmoid 激活函數(shù)后得到最終通道注意力。通道注意力可以理解為通道的權(quán)重,且包含重要信息的通道權(quán)重大,包含不重要信息的通道權(quán)重小。將通道注意力特征向量以廣播的形式輸入到輸入圖像的每個(gè)通道上,即可得到需要輸出的通道注意力模塊特征圖。與SE 模塊利用全局平均池化學(xué)習(xí)通道注意力相比,CBAM 同時(shí)利用全局平均池化和全局最大池化學(xué)習(xí)通道注意力,且平均池化考慮特征圖中每個(gè)通道上的平均信息,而最大池化則考慮通道上的顯著性信息,通過(guò)將兩者相結(jié)合使得CBAM 學(xué)習(xí)到的特征更具有判別性。

        空間注意力模塊是先在通道維度上使用最大池化和平均池化,然后將2 個(gè)匯集了通道信息的W×H×1 的特征圖串聯(lián)為一個(gè)W×H×2 的特征圖。再使用一個(gè)包含7×7×2×1 卷積核的卷積層進(jìn)一步提取特征,此時(shí)的特征圖變?yōu)閃×H×1。接下來(lái)經(jīng)過(guò)Sigmoid 激活函數(shù)后得到空間注意力特征圖??臻g注意力特征圖可以理解為一個(gè)通道上每個(gè)像素的權(quán)重,且包含重要信息的像素權(quán)重大,包含不重要信息的像素權(quán)重小。將空間注意力特征圖以廣播的形式輸入到開(kāi)始輸入空間注意力模塊的特征圖上,即得到整個(gè)卷積注意力模塊的最終特征圖。由此可以看出,將通道注意力和空間注意力分開(kāi)使用,可以從通道和空間2 個(gè)維度上關(guān)注到重要特征,并過(guò)濾掉不重要特征。CBAM 分別學(xué)習(xí)了通道注意力機(jī)制和空間注意力機(jī)制,通道注意力機(jī)制通過(guò)共享的全連接層實(shí)現(xiàn),且由于池化層沒(méi)有引入可學(xué)習(xí)參數(shù),從而大幅減小了使用注意力機(jī)制需要的參數(shù)量,使CBAM成為一個(gè)輕量級(jí)模塊,且其訓(xùn)練過(guò)程更加高效。

        按照如圖5 所示的方式在每個(gè)殘差模塊中插入注意力機(jī)制,結(jié)果表明,采用在原來(lái)輸出的特征圖后先后插入通道注意力模塊與空間注意力模塊的方式效果最好。直觀解釋是,先使用通道注意力模塊強(qiáng)調(diào)了該特征是什么,然后使用空間注意力模塊強(qiáng)調(diào)了該特征位置在哪。此外,從圖5 可直觀看到,相比聯(lián)合計(jì)算通道注意力與空間注意力,本文使用的CBAM 分別計(jì)算通道注意力和空間注意力所需參數(shù)及計(jì)算量更小,可以忽略不計(jì)。因此,本文方法在達(dá)到良好效果的同時(shí),并未造成參數(shù)量及計(jì)算量的增加。

        圖5 殘差模塊中插入注意力機(jī)制流程Fig.5 Procedure of inserting the attention mechanism in the residual module

        2.3 余弦間隔損失函數(shù)

        在網(wǎng)絡(luò)的優(yōu)化過(guò)程中,損失函數(shù)是不可忽略的部分。細(xì)粒度圖像分類(lèi)屬于多分類(lèi)問(wèn)題,應(yīng)用最廣泛的損失函數(shù)為Softmax 交叉熵?fù)p失函數(shù)。然而,傳統(tǒng)的Softmax 交叉熵?fù)p失函數(shù)僅關(guān)注于類(lèi)間距離,忽略了類(lèi)內(nèi)方差,因此對(duì)于噪聲點(diǎn)和邊界點(diǎn)更敏感。

        近年來(lái),研究人員提出NSL(Normalized version of Softmax Loss)[21]、A-Softmax 損失函數(shù)[22]等基于Softmax 交叉熵?fù)p失的損失函數(shù)。其中,NSL 是對(duì)Softmax 交叉熵?fù)p失中的特征向量和權(quán)重向量進(jìn)行正則化,而A-Softmax 是在NSL 的基礎(chǔ)上給特征向量和權(quán)重向量之間的夾角添加一個(gè)系數(shù),從而達(dá)到增大類(lèi)間間隔的目的。雖然上述損失函數(shù)的形式有所不同,但是它們的目的都是增大類(lèi)間間隔、縮小類(lèi)內(nèi)方差。然而,這些損失函數(shù)仍存在不足之處,如它們可實(shí)現(xiàn)縮小類(lèi)內(nèi)方差,但其在增大類(lèi)間間隔上仍達(dá)不到預(yù)期效果,不能實(shí)現(xiàn)更好的分類(lèi)效果。此外,損失函數(shù)還存在優(yōu)化困難的問(wèn)題。因此,本文提出一種優(yōu)化簡(jiǎn)單且可充分增大類(lèi)間間隔的余弦間隔損失函數(shù)。相比Softmax 交叉熵?fù)p失、NSL 和ASoftmax 損失函數(shù),余弦間隔損失函數(shù)能更大程度地增大類(lèi)間間距和縮小類(lèi)內(nèi)方差。傳統(tǒng)Softmax 交叉熵?fù)p失函數(shù)的數(shù)學(xué)描述如式(3)所示:

        其中,給定輸入向量為xi,yi是其對(duì)應(yīng)的標(biāo)簽,N和C分別代表訓(xùn)練樣本數(shù)和類(lèi)別數(shù)。fi是最后一個(gè)分類(lèi)層的輸出,表示為將偏置項(xiàng)設(shè)置為Bj=0,即可得到fj的表示形式,具體如式(4)所示:

        其中,θj是Wj和x的夾角。

        從式(4)可以看出,正則項(xiàng)和角度都對(duì)損失函數(shù)存在影響。文獻(xiàn)[21]從余弦的角度重新思考Softmax 交叉熵?fù)p失,為了只保留角度對(duì)損失函數(shù)的影響,通過(guò)L2 正則化將設(shè)置為,并將設(shè)置為,因?yàn)閷?shí)驗(yàn)證明對(duì)最終的評(píng)價(jià)指標(biāo)沒(méi)有影響,所以損失函數(shù)可表示為:

        通過(guò)將權(quán)重以及特征進(jìn)行L2 范數(shù)歸一化,使得每個(gè)樣本的特征被映射到一個(gè)超球面中,而r是該超球面的半徑。在這個(gè)超球面上,同一類(lèi)的特征向量分布聚集在一起,不同類(lèi)別的特征向量之間存在一定距離。假設(shè)一個(gè)數(shù)據(jù)集有三類(lèi)特征,則這三類(lèi)特征在超球面上的分布如圖6 所示。其中,θi表示特征向量x與權(quán)重向量Wi之間的夾角。

        圖6 三類(lèi)特征在2 種損失上的分布Fig.6 Distribution of three characteristics on two losses

        從圖6 可以看出,決策邊界附近的特征點(diǎn)很容易被錯(cuò)誤分類(lèi),因?yàn)轭?lèi)別與類(lèi)別間的距離為0,這意味著邊界十分模糊,模型的容錯(cuò)率較小。為增大類(lèi)間間距、縮小類(lèi)內(nèi)方差,通過(guò)引入超參數(shù)余弦間隔m到式(5)中,得到本文提出的余弦間隔損失函數(shù),具體的數(shù)學(xué)形式如式(6)所示:

        如圖6(b)所示,針對(duì)相同的三類(lèi)別特征,余弦間隔損失函數(shù)將決策邊界由cosθ1-cosθ2=0、cosθ2-cosθ3=0、cosθ3-cosθ1=0 調(diào)整為cosθ1-cosθ2=m、cosθ2-cosθ3=m、cosθ3-cosθ1=m。原始的Softmax Loss 以及余弦形式的Softmax Loss 不同類(lèi)別之間沒(méi)有間隔存在,而本文使用的余弦間隔損失則為不同類(lèi)別之間引入一個(gè)余弦間隔m。本文為了更好地理解間隔項(xiàng)的作用,在經(jīng)典的mnist 手寫(xiě)數(shù)字體分類(lèi)任務(wù)上采用不同的損失函數(shù)進(jìn)行實(shí)驗(yàn)。為方便在三維空間進(jìn)行特征可視化,將倒數(shù)第二個(gè)全連接層的輸出單元個(gè)數(shù)設(shè)置為3,每個(gè)輸入圖片將得到一個(gè)三維特征向量。利用傳統(tǒng)的Softmax Loss 函數(shù)的優(yōu)化準(zhǔn)確率為97.3%,利用余弦間隔損失函數(shù)的優(yōu)化準(zhǔn)確率為99.1%。

        在mnist手寫(xiě)體數(shù)字分類(lèi)上,本文對(duì)不同損失函數(shù)優(yōu)化后得到的特征向量進(jìn)行可視化,結(jié)果如圖7 所示。圖7(a)表示傳統(tǒng)的Softmax Loss 的特征分布,由此可以看出,雖然類(lèi)間具有良好的間隔,但是類(lèi)內(nèi)的距離仍然很大。與此相比,圖7(b)不僅類(lèi)間距離更大,且每個(gè)類(lèi)簇也更加緊湊,這說(shuō)明余弦間隔損失函數(shù)不僅顯著增大類(lèi)間距離,而且還顯著減少類(lèi)內(nèi)距離,使得學(xué)習(xí)到的特征向量更加穩(wěn)定且魯棒。

        圖7 不同損失函數(shù)在特征空間中的特征分布Fig.7 Feature distribution of different loss functions in the feature space

        3 實(shí)驗(yàn)方法與結(jié)果

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)用到的數(shù)據(jù)集共包含3 725 張彩色圖像,圖像是從真實(shí)環(huán)境拍攝的照片中裁剪所得。經(jīng)整理后,將圖像分為100 個(gè)類(lèi)別,且2 725 張用于訓(xùn)練,1 000 張用于測(cè)試。數(shù)據(jù)集樣本類(lèi)別多樣且每類(lèi)樣本數(shù)據(jù)多樣,具體如圖8 所示。

        圖8 樣本類(lèi)別及樣本數(shù)據(jù)Fig.8 Sample categories and sample data

        3.2 實(shí)驗(yàn)過(guò)程

        將訓(xùn)練集2 725 張圖像中的1/10 劃分出來(lái)用作驗(yàn)證集,訓(xùn)練結(jié)束后保留驗(yàn)證集上準(zhǔn)確率次高的模型,并用其在驗(yàn)證集上繼續(xù)訓(xùn)練網(wǎng)絡(luò),微調(diào)網(wǎng)絡(luò)參數(shù),觀察損失值和準(zhǔn)確率。為防止過(guò)擬合,采用數(shù)據(jù)增強(qiáng)技術(shù)來(lái)擴(kuò)充數(shù)據(jù),具體使用的技術(shù)包括水平和豎直方向隨機(jī)移動(dòng)、隨機(jī)放大、剪切變換、顏色抖動(dòng)和隨機(jī)旋轉(zhuǎn)。在訓(xùn)練過(guò)程中先把每張圖像縮放到256×256像素,然后隨機(jī)裁剪224×224 輸入到網(wǎng)絡(luò)中,且進(jìn)行測(cè)試時(shí),以中心裁剪224×224 的圖片作為輸入。本文對(duì)圖片進(jìn)行[0,1]歸一化處理,采用ImageNet[23]預(yù)訓(xùn)練權(quán)重,以Adam 為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,訓(xùn)練100 個(gè)epoch,當(dāng)驗(yàn)證集準(zhǔn)確率不再繼續(xù)增大時(shí),將學(xué)習(xí)率衰減10 倍。實(shí)驗(yàn)在Windows10系統(tǒng)、Spyder 編輯器與基于Keras 框架的NVIDIA GeForce MX150 GPU 上進(jìn)行。

        3.3 實(shí)驗(yàn)結(jié)果分析

        本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)與F1 值4 種評(píng)價(jià)指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)估,且其計(jì)算方法分別如式(7)~式(10)所示:

        其中,TP 表示被正確預(yù)測(cè)的正例,TN 表示被正確預(yù)測(cè)的負(fù)例,F(xiàn)P 表示被錯(cuò)誤預(yù)測(cè)的負(fù)例,F(xiàn)N 表示被錯(cuò)誤預(yù)測(cè)的正例。

        為分析每個(gè)模型的效果,本文在商家招牌數(shù)據(jù)集上分析并驗(yàn)證ResNet50 模型中每個(gè)模塊的性能,結(jié)果如表1 所示。其中,最優(yōu)結(jié)果加粗表示,“√”表示模型所選擇的不同模塊,“—”表示模型未選擇的模塊。

        表1 不同模塊的結(jié)果對(duì)比Table 1 Comparison of results of different modules %

        從表1 可以看出:與原始ResNet50 相比,當(dāng)使用注意力機(jī)制CBAM 后,分類(lèi)準(zhǔn)確率提高1.4 個(gè)百分點(diǎn),F(xiàn)1值提升0.8 個(gè)百分點(diǎn),這是因?yàn)镃BAM 引入的通道注意力機(jī)制極大增強(qiáng)了特征的判別性,起到特征選擇的作用,從而提高分類(lèi)效果;對(duì)比表1 中的第一行和第二行可知,由于網(wǎng)絡(luò)在優(yōu)化過(guò)程中不但增大類(lèi)間間隔,而且減小類(lèi)內(nèi)方差,這說(shuō)明相比傳統(tǒng)的交叉損失函數(shù),基于間隔的余弦損失函數(shù)取得了更優(yōu)性能;當(dāng)本文將注意力機(jī)制和余弦間隔損失函數(shù)相結(jié)合時(shí),相比原始的ResNet50,本文方法的準(zhǔn)確率與F1 值分別提高了2.2 個(gè)百分點(diǎn)與2.0 個(gè)百分點(diǎn),且分類(lèi)性能達(dá)到最優(yōu)。

        3.4 對(duì)比實(shí)驗(yàn)分析

        實(shí)驗(yàn)比較了以ResNet50 為基礎(chǔ)的雙線性卷積神經(jīng)網(wǎng)絡(luò)模塊、殘差注意力模塊、SE 模塊與本文所提CBAM 等4 種不同注意力模型的性能,結(jié)果如表2 所示。從表2 可以看出,CBAM 在模型參數(shù)量和性能上均達(dá)到最優(yōu)。

        表2 4 種不同注意力機(jī)制模型的性能對(duì)比Table 2 Performance comparison of four different attention mechanism models

        3.5 可視化實(shí)驗(yàn)分析

        為進(jìn)一步分析注意力機(jī)制的效果,本文使用類(lèi)別激活映射技術(shù)(Grad-CAM)對(duì)輸入的圖片進(jìn)行注意力可視化。如圖9 所示,左邊的一列是原始的輸入圖像,中間一列是原始的ResNet50 可視化圖,最右邊的一列是使用CBAM 的可視化特征圖。通過(guò)對(duì)比(尤其是第二行和第三行)可以看出,通過(guò)引入CBAM 使得網(wǎng)絡(luò)更加關(guān)注在招牌字符以及圖像區(qū)域的特征,并忽略其他不相關(guān)的特征區(qū)域,從而增強(qiáng)特征的判別性,有效改善分類(lèi)效果。

        圖9 注意力機(jī)制可視化結(jié)果Fig.9 Results of attention mechanism visualization

        4 結(jié)束語(yǔ)

        針對(duì)商家招牌的分類(lèi)問(wèn)題,本文提出基于端到端深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)方法。該方法通過(guò)在原始ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上插入注意力機(jī)制CBAM,構(gòu)造一種新的余弦間隔損失函數(shù),并利用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,使得模型準(zhǔn)確率達(dá)到99.3%。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法相比,該方法省略了特征提取等步驟,不僅節(jié)省大量時(shí)間與人力,而且可在較短時(shí)間內(nèi)達(dá)到較高的準(zhǔn)確率。由于本文使用的數(shù)據(jù)集僅有3 725 張圖像,因此后續(xù)將采用二叉神經(jīng)樹(shù)與循環(huán)學(xué)習(xí)率相結(jié)合的方法對(duì)ResNet50網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),以適應(yīng)更大規(guī)模的數(shù)據(jù)集。

        猜你喜歡
        細(xì)粒度余弦間隔
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        間隔問(wèn)題
        間隔之謎
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        兩個(gè)含余弦函數(shù)的三角母不等式及其推論
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        上樓梯的學(xué)問(wèn)
        精品高清一区二区三区人妖| 99久久精品国产一区二区三区| 最新国产av无码专区亚洲| 中文字幕乱偷乱码亚洲| 日韩av在线不卡一区二区三区 | 久久久久人妻一区精品色欧美 | 放荡人妻一区二区三区| 亚洲自拍偷拍一区二区三区| 波多野结衣久久精品99e| 99香蕉国产精品偷在线观看| 狠狠色综合播放一区二区| 狼人狠狠干首页综合网| 亚洲高清国产成人精品久久| 日日摸天天摸97狠狠婷婷| 国产女主播喷水视频在线观看| 无码日日模日日碰夜夜爽| 新久久久高清黄色国产| 黄色潮片三级三级三级免费| 少妇人妻综合久久中文字幕| 亚洲av无码成人网站在线观看 | 五月婷婷六月激情| 国产伦理自拍视频在线观看| 亚洲中文字幕乱码在线观看| 一区二区精品国产亚洲| 人妻无码中文字幕| 在线观看免费人成视频| 麻豆久久久国内精品| 亚洲国产精品一区二区| 国产在线一区二区三区乱码| 成人影院yy111111在线| 亚洲av纯肉无码精品动漫| 国产无套视频在线观看香蕉| 后入少妇免费在线观看| 日韩精品在线免费视频| 免费人成视频在线| 亚洲影院丰满少妇中文字幕无码| 久久伊人网久久伊人网| 懂色av一区二区三区尤物| 亚洲国产精品成人无码区| 国产亚洲精品性爱视频| 一区二区三区在线日本视频|