亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的模糊數(shù)字識別研究

        2023-01-31 08:55:56
        關(guān)鍵詞:注意力準(zhǔn)確率卷積

        符 哲 夫

        (復(fù)旦大學(xué) 上海 200433)

        0 引 言

        模糊數(shù)字識別是深度學(xué)習(xí)與模式識別下一個(gè)重要的分支。這項(xiàng)技術(shù)能夠運(yùn)用在財(cái)務(wù)報(bào)表、車牌識別、快遞分揀、犯罪證據(jù)判斷、試卷成績統(tǒng)計(jì)、銀行識別單據(jù)、統(tǒng)計(jì)金融數(shù)據(jù)等生活中方方面面,有著十分廣闊的應(yīng)用前景[1]。在全球數(shù)據(jù)化和人工智能快速發(fā)展的背景下,對于模糊數(shù)字識別研究的需要變得十分迫切,研究出準(zhǔn)確率高并且運(yùn)行時(shí)間短的識別算法有重要的意義和價(jià)值。Ghosh等[1]經(jīng)過實(shí)驗(yàn),發(fā)現(xiàn)結(jié)合注意力處理能提高大規(guī)模分類任務(wù)中CNN的性能。Fu等[2]提出了殘差注意力網(wǎng)絡(luò)可以提高特征提取性能。Sonbhadra等[3]共同提出了一種基于內(nèi)容的模糊數(shù)字識別算法,這種算法可以很好地應(yīng)對圖像邊界不清的問題。Zoran等[4]提出一種YOLO模型的檢測圖片內(nèi)容算法,最后的結(jié)果可以放到神經(jīng)網(wǎng)絡(luò)的模型中,完成圖像的識別。這種模型的檢測速度十分快速,同時(shí)還有非??捎^的準(zhǔn)確率,但是其模糊數(shù)字的邊界處理有一定的不足之處。Wang等[5]合作研究,開發(fā)出一種文本的數(shù)圖像檢測模型,使用檢測到的數(shù)字特征,再定位到數(shù)字字符的區(qū)域,最后把結(jié)果利用二值化的技術(shù)后傳送到一個(gè)全連接卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行檢測。Ma等[6]研究出了數(shù)字邊緣檢測模型,這種模型利用了滑動(dòng)窗口,可以采用共享權(quán)重的方式提取特征,并利用卷積神經(jīng)網(wǎng)絡(luò)加以檢測,能取得一定效果,但是準(zhǔn)確率和時(shí)間復(fù)雜度仍有提高的空間。

        本文主要提出基于注意力機(jī)制的SCDM模塊,用來應(yīng)對數(shù)字圖像識別中可能出現(xiàn)模糊不清難以提取特征的情況[7]。SCDM模塊具體可分為通道域(Channel)模塊和空間域(Space)模塊。使用該模塊能夠有效地利用圖像中的通道注意力信息和空間注意力信息[8],對模糊數(shù)字圖像的特征加以提取。本文介紹模SCDM模塊的基本結(jié)構(gòu)與各模塊特征的計(jì)算方法,并經(jīng)過實(shí)驗(yàn)驗(yàn)證,在ResNet網(wǎng)絡(luò)上使用該模塊,相較于之前的模糊數(shù)字識別方法準(zhǔn)確率能進(jìn)一步提高。

        1 模塊設(shè)計(jì)

        1.1 通道域模塊基本結(jié)構(gòu)

        通道域的中心思想是,使用特征中通道之間的聯(lián)系,生成新的通道注意力圖I′,并對通過卷積得到的特征圖各通道層分配以不同的權(quán)重。這顯示了該層所表示特征與目標(biāo)信息的關(guān)聯(lián)性。相應(yīng)地,權(quán)重越大,這個(gè)層所表示的信息越重要,關(guān)聯(lián)性的程度越高。權(quán)重越小,這個(gè)層所表示的信息就越不重要。獲得k維卷積層后,通過壓縮函數(shù)、Sigmoid函數(shù)和比例函數(shù)等獲得各維的權(quán)重w1,w2,…,wk。這些權(quán)重將與各通道特征相乘,以獲得新的特征[9]。通道注意力模塊如圖1所示。

        圖1 通道注意力模塊

        如果將I∈RC×H×W的特征指定為輸入,SCDM將按先后順序得到一維通道注意力圖Mc∈RC×1×1以及二維空間注意力圖Ms∈R1×H×W。整個(gè)特征提取的過程可以概括為兩個(gè)階段:

        I′=Mc(I)?I

        (1)

        I″=Mc(I′)?I′

        (2)

        (3)

        (4)

        通道域模塊注意力特征圖的計(jì)算方法為:

        MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

        (5)

        通道模塊的操作過程可以概括為以下:

        (1) 對于一個(gè)中間特征圖作為輸入,利用兩種池化方式將每一個(gè)二維通道圖映射為一個(gè)特征量α,α一定程度上具有全局的感受野。最終獲得向量的維度k和中間特征圖的通道數(shù)是一致的。

        (2) 利用共享的多層感知器MLP進(jìn)行調(diào)整,可以更好地?cái)M合特征通道間的聯(lián)系,同時(shí)也可以實(shí)現(xiàn)輕量級運(yùn)算,降低時(shí)間復(fù)雜度。再輸出經(jīng)過調(diào)整的特征F。

        (3) 將每個(gè)向量各個(gè)元素進(jìn)行逐項(xiàng)相加,映射成一個(gè)一維向量F′,再輸入到Sigmoid函數(shù),這樣可以得到位于[0,1]區(qū)間內(nèi)的向量。

        (4) 把每一個(gè)通道與輸入的中間特征圖進(jìn)行加權(quán)運(yùn)算,實(shí)現(xiàn)初始特征在通道的每一個(gè)維度上重新標(biāo)定。

        1.2 空間域模塊基本結(jié)構(gòu)

        空間域的設(shè)計(jì)思路是通過注意力機(jī)制,關(guān)注空間中的位置特性,將原來圖像中的空間特征映射到其他空間中,并保存重要的信息[13]??臻g注意力模塊如圖2所示。

        圖2 空間注意力模塊

        對于某個(gè)確定的通道域的特征I″,計(jì)算空間注意力的主要的思路與通道注意力的思想方法類似。要想獲得空間注意力圖,需要計(jì)算一個(gè)二維向量β,該向量對全部區(qū)域所有像素點(diǎn)進(jìn)行通道賦值操作,然后將這個(gè)二維向量β輸入到一個(gè)卷積層當(dāng)中并獲得輸出β′。最終將注意力圖通過Sigmoid函數(shù)進(jìn)行歸一化[14]。

        因?yàn)榫矸e操作是把不同的通道和空間信息融合在一起來獲得圖像特征,因此模糊數(shù)字識別中采用這個(gè)混合模塊來突出沿這兩個(gè)重要維度(空間域和通道域)的有價(jià)值特征[15]。為此,將空間域模塊和通道域模塊串聯(lián)使用,從而每個(gè)卷積模塊都可以單獨(dú)訓(xùn)練在通道域和空間域上的不同參數(shù)。該模塊能夠利用學(xué)習(xí)強(qiáng)化或削減某些信息,對于網(wǎng)絡(luò)內(nèi)的特征信息的提取具有重要的意義。

        空間注意力向量Ct的定義為:

        Ct=f(v,ht-1)

        (6)

        式中:f表示的是注意力映射函數(shù);v表示卷積層獲得的輸入圖像的特征;ht-1表示在t-1時(shí)隱藏層獲得的狀態(tài)。

        之后用一個(gè)神經(jīng)網(wǎng)絡(luò)層把圖像特征和隱藏層狀態(tài)一起輸入,最后添加Softmax函數(shù)用來獲得圖片的空間注意力分布。

        at=ktatanh(kvv+(khht-1))

        (7)

        γt=softmax(at)

        (8)

        式中:kta、kv、kh這幾個(gè)參數(shù)都需要通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)獲得的。

        2 實(shí)驗(yàn)和分析

        2.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集說明

        實(shí)驗(yàn)環(huán)境:本文中實(shí)驗(yàn)均采用的是如下硬件環(huán)境:CPU為Intel(R) Core i7- 920,主頻2.66 GHz,16 GB物理主存,GPU為NVIDIA GTX 1080,運(yùn)行的操作系統(tǒng)為ubuntu18.04,并通過Python3.6環(huán)境下編譯。

        使用數(shù)據(jù)集:為了驗(yàn)證本文提出模塊的有效性,利用了多個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

        (1) SVHN[16],這是源自于Google街景拍攝的數(shù)字?jǐn)?shù)據(jù)集,數(shù)據(jù)豐富,包含約30 000幅模糊數(shù)字圖像。經(jīng)過優(yōu)化后,對于圖片的預(yù)先處理要求比較低。數(shù)據(jù)集含有兩個(gè)變量X代表圖像,訓(xùn)練集X的張量需要(samples,width,height,channels)等參數(shù),所以需要進(jìn)行轉(zhuǎn)換。由于直接調(diào)用cifar 10的網(wǎng)絡(luò)模型,數(shù)據(jù)需要先做個(gè)歸一化,將所有像素除以255,另外原始數(shù)據(jù)0的標(biāo)簽是10,這里要轉(zhuǎn)化成0,并提供one_hot編碼。

        (2) MNIST[17],這是NIST共享集中的一個(gè)子數(shù)據(jù)集,已在特征方面優(yōu)化過,并添加高斯模糊處理。數(shù)據(jù)集包含了0~9共10類手寫數(shù)字圖片,每幅圖片都做了尺寸歸一化,都是28×28大小的灰度圖。每幅圖片中像素值大小在0~255之間,其中:0是黑色背景;255是白色前景。

        2.2 評價(jià)指標(biāo)

        模糊數(shù)字識別的任務(wù)里最通用的評價(jià)參數(shù)是識別準(zhǔn)確率,本文也以圖像識別準(zhǔn)確率進(jìn)行識別方法性能評估[18],如式(9)所示。

        (9)

        式中:K表示測試集中模糊數(shù)字圖像的總數(shù);Ka表示測試集數(shù)字圖片預(yù)測正確的圖片數(shù)目,識別準(zhǔn)確率可以比較好地反映識別的性能。

        平均識別時(shí)間可由式(10)得到。

        (10)

        式中:n表示測試集中模糊數(shù)字圖像預(yù)測正確的總數(shù);Ti表示第i幅測試集數(shù)字圖片預(yù)測的消耗時(shí)間。平均識別時(shí)間也能反映識別的性能。

        2.3 實(shí)驗(yàn)過程與結(jié)果分析

        可以通過實(shí)驗(yàn)說明該利用模塊的有效性。對于此部分研究,使用SVHN、MNIST等數(shù)據(jù)集的圖片當(dāng)作訓(xùn)練集并采用ResNet作為基礎(chǔ)架構(gòu)[12]。SVHN分類數(shù)據(jù)集包含用于訓(xùn)練的8 000幅圖像和用于驗(yàn)證的多種類別的12 000幅圖像。MNIST數(shù)據(jù)集則包括了5 000幅數(shù)字圖像用于訓(xùn)練,14 000幅圖像用于測試。采用以上數(shù)據(jù)集進(jìn)行訓(xùn)練,224×224規(guī)格的數(shù)字圖像在測試中被用作輸入。學(xué)習(xí)率從0.1開始,訓(xùn)練批次為100,最大迭代次數(shù)20 000。

        首先,使用ResNet模型在SVHN數(shù)據(jù)集上進(jìn)行添加SCDM模塊的模糊數(shù)字識別實(shí)驗(yàn)。先訓(xùn)練采用最大池化的ResNet模型,再將ResNet模型中初始池化層的最大池化替換成了平均池化進(jìn)行訓(xùn)練[19]。在第一個(gè)實(shí)驗(yàn)里,單獨(dú)利用通道注意力模塊,并且將壓縮比設(shè)置為16。實(shí)驗(yàn)采用跨通道域的平均池化方法和最大池化方法以及利用標(biāo)準(zhǔn)1×1卷積將通道維數(shù)減小為1的通道池[20]。另外,內(nèi)核大小分別為3和7。在第二個(gè)實(shí)驗(yàn)中,將之前討論的通道域模塊設(shè)置在空間域模塊的前面,這是為了將兩個(gè)模塊串聯(lián)使用。

        利用MNIST數(shù)據(jù)集和SVHN數(shù)據(jù)集,復(fù)現(xiàn)文獻(xiàn)[6]的Inception模型的對比實(shí)驗(yàn),發(fā)現(xiàn)相比之前的文獻(xiàn)[6]的Inception模型,準(zhǔn)確性提高了近2.56百分點(diǎn),如圖3和圖4所示。另外還作了單獨(dú)添加空間注意力模塊的實(shí)驗(yàn)結(jié)果對比。可以觀察到加了空間注意力模塊能得到更高的準(zhǔn)確率,這表明兩個(gè)子模塊一起用能得到更精確的提取特征??梢钥闯鎏砑訂瓮ǖ滥K和完整的SCDM模塊都能起到一定的效果。同時(shí)也能看出,如果只利用單通道模塊,而沒有利用完整的SCDM模塊,結(jié)果就會(huì)差一些,準(zhǔn)確率比后者要低4.35百分點(diǎn)。這說明加入SCDM模塊是一種可以提升精度的方法,可以在不增加其他可學(xué)習(xí)參數(shù)的情況下將識別準(zhǔn)確率從傳統(tǒng)方法的基礎(chǔ)上進(jìn)一步提升。在通道注意力模型里同時(shí)利用了平均池化方法和最大池化方法,且壓縮比設(shè)置為8。

        圖3 MNIST數(shù)據(jù)集上的識別準(zhǔn)確率曲線圖

        圖4 SVHN數(shù)據(jù)集在上的識別準(zhǔn)確率曲線圖

        以上的實(shí)驗(yàn)結(jié)果表明,SCDM模塊在ResNet網(wǎng)絡(luò)中能夠提高識別的準(zhǔn)確率,但是實(shí)驗(yàn)過程僅僅只考慮到了ResNet的網(wǎng)絡(luò)架構(gòu)。為了進(jìn)一步證明該模塊的泛化性,另外使用了AlexNet網(wǎng)絡(luò)模型,添加該模塊后進(jìn)行對照實(shí)驗(yàn)。學(xué)習(xí)率從0.1開始,訓(xùn)練批次為100,最大迭代次數(shù)20 000。首先單獨(dú)利用通道注意力模塊,并且將壓縮比設(shè)置為16。再將通道域模塊與空間域模塊串聯(lián)使用。實(shí)驗(yàn)結(jié)果如圖5所示。從實(shí)驗(yàn)結(jié)果可以看出,在AlexNet網(wǎng)絡(luò)下使用SCDM模塊,準(zhǔn)確率比之前的Inception模型提高2.15百分點(diǎn)。這也能看出,SCDM模塊在不同網(wǎng)絡(luò)下準(zhǔn)確率均能取得一定的提升,但是在ResNet網(wǎng)絡(luò)使用該模塊提升的準(zhǔn)確率較多。

        圖5 SVHN數(shù)據(jù)集在AlexNet網(wǎng)絡(luò)上的識別準(zhǔn)確率曲線圖

        實(shí)驗(yàn)結(jié)果數(shù)據(jù)表明在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中通過引入該附加的模塊,能有效地利用注意力機(jī)制,能從傳統(tǒng)的基本網(wǎng)絡(luò)中獲得更高的準(zhǔn)確率[21]。這說明用SCDM加強(qiáng)的網(wǎng)絡(luò)比基礎(chǔ)傳統(tǒng)網(wǎng)絡(luò)更有針對性地關(guān)注目標(biāo)特征,同時(shí)也說明該模塊具有泛化性,在不同的網(wǎng)絡(luò)中都能使用。特征的提取性能提高主要是因?yàn)橛行畔⒌年P(guān)注和無效信息的弱化[6]。并且通過實(shí)驗(yàn)也能發(fā)現(xiàn),在SVHN和MNIST數(shù)據(jù)集上目標(biāo)提取識別的性能均有比較好的改進(jìn),這也說明了SCDM模塊能適用于多種場合的數(shù)據(jù)集,具有一定的普適性。在對比不同卷積核大小產(chǎn)生的影響時(shí),發(fā)現(xiàn)在兩種情況下利用更大的卷積核將會(huì)產(chǎn)生更高的精度。這說明有必要用一個(gè)更大的感受野來確定空間上需要重點(diǎn)關(guān)注的區(qū)域[22]。因此在計(jì)算空間注意力時(shí),可以利用通道數(shù)較多和內(nèi)核較大的卷積層來計(jì)算。使用空間注意力模塊時(shí),設(shè)置卷積核大小為7。此外,也對比了使用該方法和文獻(xiàn)[6]方法的識別時(shí)間,如圖6所示。結(jié)果表明相差不大,均在1.01 s左右。這是由于這個(gè)模塊的運(yùn)算量相比卷積網(wǎng)絡(luò)來說不太大,因此引入?yún)?shù)和提高計(jì)算時(shí)間的花費(fèi)可以相對忽略[23]。

        圖6 MNIST數(shù)據(jù)集上的識別時(shí)間曲線圖

        表1 多種方法識別準(zhǔn)確率對比

        本節(jié)進(jìn)行的實(shí)驗(yàn)中,添加SCDM模塊的最終分類精確度最高為96.82%。比較現(xiàn)有的方法,采用文獻(xiàn)[6]的Inception模型的方法是分類精確度較高的一種方法。與文獻(xiàn)[6]的方法相比較,本文方法分類準(zhǔn)確度提升了2.56百分點(diǎn)。結(jié)果證實(shí)利用SCDM模塊能有效地提高模糊數(shù)字識別的準(zhǔn)確率和有效性。

        3 結(jié) 語

        本文對于不同場景下的模糊數(shù)字,提出一種基于注意力機(jī)制的SCDM模塊。在進(jìn)行訓(xùn)練時(shí)應(yīng)用該模塊,使中間的特征圖沿著空間與通道兩個(gè)不同的維度生成注意力特征圖,這樣能夠強(qiáng)化有效信息,削弱無效信息。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中通過引入該附加的模塊,能有效地突出空間和通道上的特征,從傳統(tǒng)網(wǎng)絡(luò)中獲得更高的準(zhǔn)確率。并通過MNIST和SVHN數(shù)據(jù)集的實(shí)驗(yàn),驗(yàn)證了運(yùn)用該模塊獲得的識別準(zhǔn)確率要高于已經(jīng)存在的方法,說明該模塊具有一定的泛化性與普適性,同時(shí)也證明了注意力機(jī)制的有效性。

        猜你喜歡
        注意力準(zhǔn)確率卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        国产精品欧美成人片| 风流老熟女一区二区三区| 又色又爽又黄又硬的视频免费观看| 国产欧美久久久另类精品| 男女搞黄在线观看视频| 亚洲国产av一区二区三区精品| 各种少妇正面着bbw撒尿视频| 精品乱码一区二区三区四区| 大白屁股流白浆一区二区三区| 久久精品国产熟女亚洲av麻豆| 精品国产麻豆免费人成网站 | 欧美人与动牲交片免费| 亚洲中文字幕精品一区二区| 国产亚洲午夜精品久久久| 亚洲国产精品成人综合色| 青草福利在线| 中文字幕乱码亚洲美女精品一区| 少妇人妻中文久久综合| 中文字幕+乱码+中文字幕一区| 亚洲七七久久综合桃花| 亚洲国产黄色在线观看| 国产丝袜美腿精品91在线看| 女人被爽到呻吟gif动态图视看| 中文不卡视频| 麻豆视频黄片在线免费观看| 蜜臀av在线播放一区二区三区 | 国产三级视频在线观看国产| 一区二区三区内射美女毛片| 精品久久人人妻人人做精品| 久久91精品国产91久| 一区二区三区精品免费| 日本无码欧美一区精品久久| 少妇三级欧美久久| 白丝美女扒开内露出内裤视频| 国产人妻鲁鲁一区二区| 18禁美女裸身无遮挡免费网站| 国产精品视频一区二区三区,| 色综合悠悠88久久久亚洲| 国产精品毛片完整版视频| 最新国产精品亚洲二区| 国产又大大紧一区二区三区|