亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        頻域混合注意力模型

        2022-12-22 11:46:54王芋人武德安
        計算機工程與應(yīng)用 2022年24期
        關(guān)鍵詞:特征模型

        王芋人,武德安,朱 莉

        電子科技大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,成都 610097

        目標檢測是計算機視覺中的一個備受關(guān)注的問題,其主要圍繞目標分類和目標定位兩個任務(wù)。自從具有開創(chuàng)性的R-CNN[1]提出,許多新穎的設(shè)計得以提出:Faster-RCNN[2]、YOLOv3[3]、SSD[4]、FPN[5],這些設(shè)計大多搭載強大的卷積神經(jīng)網(wǎng)絡(luò)主干:DCN[6]、Resnet[7]、AlexNet[8]、VGG[9]、GoogLeNet[10]。近些年,受視覺注意力啟示,許多學(xué)者將注意力引入到卷積神經(jīng)網(wǎng)絡(luò)中,選擇性的增強目標特征,抑制無關(guān)信息,以提高小目標檢測的準確率[11]。至此,提出了多種注意力模型,有SENet[12]、EcaNet[13]、CBAM[14]、GSoP-Net[15]、AA-Net[16]、SkNet[17],這些注意力模型如SENet、EcaNet通常以每個通道的平均值作為該通道的代表值。而CBAM采用了平均值和最大值作為代表值。盡管平均值池化(global average pooling,GAP)和最大值池化具有簡單高效的特點,但處理多種不同通道時缺乏特征多樣性,無法獲取豐富的輸入信息。所以,便有了一個疑問,平均值和最大值能否代表各種通道信息。FcaNet[18]提出了用離散余弦變化替代均值池化對通道注意力進行預(yù)處理的方法,增加了特征多樣性,但缺少對空間域注意力的探討。因此,理論分析了平均值池化和頻域預(yù)處理結(jié)果的區(qū)別,隨后用離散哈特利變化(discrete Hartley transform,DHT)[19]從通道和空間域兩個方向?qū)μ卣鲌D進行了預(yù)處理改造。最后在小目標數(shù)據(jù)集(small object dataset)[20]上驗證了該模型的改進效果。

        1 注意力模型和DHT變化

        首先介紹了通道注意力模型、空間域注意力模型、離散哈特利變化,然后簡要了證明了通道注意力和離散哈特利變化的性質(zhì)。

        (1)通道注意力模型。

        通道注意力模型廣泛用于卷積神經(jīng)網(wǎng)絡(luò)中,其能夠自動調(diào)整每個通道權(quán)重,達到提高檢測精度的作用。假設(shè)X∈?C×H×W是卷積神經(jīng)網(wǎng)絡(luò)提取到的特征圖,C是特征圖的通道數(shù)量,H是特征圖的高度,W是特征圖的寬度。注意力機制可以寫成如下形式[12-13]:

        attc=sigmoid(fc(gapc(X))) (1)

        其中,attc∈?C是通道注意力機制產(chǎn)生的C維權(quán)重向量,sigmoid是Sigmoid函數(shù),fc是全連接層或者卷積神經(jīng)網(wǎng)絡(luò),gapc是對C個通道全局平均池化。Sigmoid函數(shù)得到C個權(quán)重后,特征圖的每個通道乘以通道對應(yīng)的權(quán)重,對不同的特征通道進行適當(dāng)增強或者抑制:

        (2)空間域注意力模型。

        空間注意力模型不同于通道注意力機制從通道方向?qū)μ卣鲌D進行抑制和增強,而是從空間域?qū)μ卣鲌DH×W個C維向量進行平均值或者最大池化預(yù)處理得到H×W個實數(shù),作為全連接層的輸入。其有兩種形式如下[14]:

        其中atts∈?H×W是空間域注意力機制產(chǎn)生的權(quán)重矩陣,sigmoid是Sigmoid函數(shù),fs一般是卷積神經(jīng)網(wǎng)絡(luò),gaps和maxs分別是對特征圖H×W個C維向量全局平均池化和最大值池化。Sigmoid函數(shù)得到權(quán)重矩陣后,特征圖的H×W個C維向量乘以權(quán)重矩陣對應(yīng)的權(quán)重,對不同的特征向量進行適當(dāng)增強或者抑制:

        (3)離散哈特利變化(DHT)。

        通常,1DDHT定義公式如下[19]:

        其中,f∈?L屬于1DDHT的輸出頻譜,x∈?L是輸入向量,L是輸入x的長度。另外,二維(2D)DHT的公式如下:

        其中,f2d∈?H×W是2DDHT的輸出頻譜,x2d∈?H×W是輸入特征圖,H、W分別是輸入特征圖x2d的高和寬。相應(yīng)地,2DDHT的逆變化可以寫成如下公式:

        通過公式(1)~(5)可知,現(xiàn)有的方法采用的是平均值或者最大值作為通道注意力模型和空間域注意力模型的預(yù)處理方法。公式(6)、(7)表明DHT的輸出可以視作對特征圖上像素點乘以DHT權(quán)重的加權(quán)求和結(jié)果,如果將多種頻率的DHT權(quán)重引入到特征圖的預(yù)處理中,將增加預(yù)處理結(jié)果的多樣性,而不僅僅局限于平均值和最大值這兩種結(jié)果。接下來將證明gap是2DDHT取最低頻率權(quán)重時的特殊情況,而僅僅使用2DDHT的最低頻率權(quán)重缺乏特征多樣性。因此,分別采用2DDHT和1DDHT從通道和空間兩個方向?qū)μ卣鲌D進行了預(yù)處理改造。

        2 頻域混合注意力模型

        (1)注意力模型的理論分析。

        首先證明了現(xiàn)有的注意力模型中預(yù)處理方法gap是DHT取最低頻率權(quán)重時的特殊情況,然后從通道和空間兩個方向?qū)μ卣鲌D進行了DHT處理。

        理論1 GAP是(2D)DHT的一種特殊情況。

        證明 設(shè)公式(7)中的h和w都為0,得到:

        公式(9)中,f2d0,0代表(2D)DHT中最低頻率的部分,等于平均池化的結(jié)果。這樣理論1就得到了證明。

        基于理論1,GAP是(2D)DHT的特殊情況,因此,可以使用(2D)DHT作為注意力機制預(yù)處理的一種方式。通過公式(8)可知,特征圖上的像素點是由多種頻率成分組成的,所以特征圖也是由多種頻率成分組成。

        為方便敘述記:

        則有:

        根據(jù)公式(1)和(11),可以得出輸入特征圖X也不只由GAP組成:

        看出在公式(1)GAP預(yù)處理方法中只用到了公式(12)第一項,而其他頻率組成成分的信息被現(xiàn)有的預(yù)處理方法丟棄掉了。因此,把GAP替換成具有更多頻率組成成分的DHT作為注意力預(yù)處理的方法,用于解決特征信息多樣性缺乏的問題。

        (2)頻域混合注意力模塊。

        以卷積神經(jīng)網(wǎng)絡(luò)中的特征圖X作為輸入,如圖1所示頻域混合注意力模塊先對特征圖做頻域通道注意力模塊處理,得到通道注意力權(quán)重attc∈?C×1×1,隨后再用頻域空間域注意力模塊對特征圖處理得到atts∈。整體的過程可以總結(jié)如下[14]:

        圖1 ResBlock+頻域混合注意力模型Fig.1 ResBlock+Frequency mixture attention module

        公式(13)中?表示對應(yīng)元素相乘,X″即為頻域混合注意力模塊的輸出特征圖。接下來將會詳細描述兩個注意力模塊的細節(jié)。

        (3)頻域通道注意力模塊。

        首先將特征圖X沿通道方向拆分為n份。將其表示為[X0,X1,…,Xn-1], 其 中Xi∈,i∈{0,1,…,n-1},C'=C/n,C可 以 被 拆分為n份,n常取16。對于每份,分配對應(yīng)的2DDHT頻率。這樣,2DDHT就可以用于處理通道注意力模型:

        其中,[u,v]是對應(yīng)于Xi的頻率組成成分的二維索引。Freqic∈是一個C'維的向量。整個預(yù)處理結(jié)果用級聯(lián)形式表示為:

        其中,F(xiàn)reqc∈?C是一個C維的向量。整個頻域通道注意力模型可以表示為:

        其中,fc隱藏層為一層,輸入節(jié)點、隱藏層節(jié)點、輸出節(jié)點數(shù)量分別為通道長度C、C/16、C的全連接層。

        通過2DDHT的預(yù)處理將多種頻率組成成分的特征信息融入到注意力模型中,實現(xiàn)了頻域通道注意力模型,緩解了傳統(tǒng)注意力模型通道方向特征多樣性缺乏的問題,此過程的整體過程如圖2所示。

        圖2 頻域通道注意力模型Fig.2 Frequency channel attention module

        (4)頻域空間域注意力模塊。

        將 特 征 圖X∈?C×H×W沿 通 道 軸 線 方 向 拆 分 為H×W個C維 向 量 ,將 其 表 示 為[Y0,Y1,…,YH×W-1],Yi∈,i∈{0,1,…,H×W-1},如圖3中部的H×W個C維向量,然后為每一個C維向量分配對應(yīng)的1DDHT頻率處理。這樣,1DDHT就可以用于處理空間域注意力模型:記

        其中,[u]是對應(yīng)于Yi的頻率組成成分的一維索引。Freqis∈是一個一維的實數(shù)。整個預(yù)處理結(jié)果用矩陣形式表示為:

        其中,F(xiàn)reqs∈是一個H×W的矩陣,即為圖3右下角中黃色模塊,經(jīng)過卷積核為1×1,輸出通道為1的卷積神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果再通過Sigmoid函數(shù)映射為頻域空間注意力權(quán)重矩陣,該矩陣元素皆為0到1的權(quán)重,如圖3中右下角灰白色模塊。整個頻域空間域注意力模型可以表示為:

        其中,fs是卷積核為1×1,輸入輸出通道均為1的卷積神經(jīng)網(wǎng)絡(luò)。

        通過特征圖空間域方向的1DDHT的預(yù)處理,實現(xiàn)了頻域空間域注意力模型,從空間域方向?qū)μ卣鲌D進行了選擇性的抑制和增強,此過程的整體過程如圖3所示。

        圖3 頻域空間域注意力模型Fig.3 Frequency spatial attention module

        (5)選取頻譜成分的原則。

        由公式(6)、(7)可知對特征圖進行通道方向的2DDHT和空間域上的1DDHT變化時,分別會有H×W組和C組頻率可供選擇,選擇哪一組頻率能夠得到較好的預(yù)測準確率。本文參考FcaNet附錄中的Low-K(low‐est-k)方法,由于實驗中取頻率最低的16種頻率組成成分能取得較高的準確率,所以為兩種頻域注意力模塊選取了頻率最低的前16組頻率作頻率選擇,每次2DDHT(1DDHT)只從這16組頻率中選一組頻率作為輸入。因此,頻域通道注意力模塊中將通道分為n組,每一組對應(yīng)一個頻譜成分。所以頻域通道注意力模塊公式(15)中的n對應(yīng)取16,與頻譜成分的數(shù)目相同。

        3 注意力網(wǎng)絡(luò)結(jié)構(gòu)

        結(jié)合前文所敘述,提出的注意力網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示。主要包含兩個組件:(1)卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)。Resnet-50,用于提取圖片特征信息,卷積網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,圖片經(jīng)過Conv1、Conv2_x卷積層后,得到初步的角點、紋理信息,再經(jīng)過深層次殘差網(wǎng)絡(luò)Conv3_x、Conv4_x、Conv5_x,學(xué)習(xí)到物體的形狀、外部輪廓及一些細節(jié)特征,最后通過多分類交叉熵損失函數(shù)和Faster-RCNN的Smooth-L1邊框回歸函數(shù)進行分類回歸和邊框回歸,實現(xiàn)對目標的分類和定位。(2)頻域混合注意力模塊。豐富特征圖預(yù)處理的多樣性,隨著訓(xùn)練的加深,逐步獲得穩(wěn)定的注意力權(quán)重值,對特征圖進行選擇性的抑制和增強,從而提高特征信息辨識度和檢測精度。

        圖4 注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Attention network structure

        表1 Resnet-50卷積網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Building blocks of Resnet-50

        首先,將數(shù)據(jù)集中圖片輸送到骨干網(wǎng)絡(luò)Resnet-50中提取特征信息,隨后對第四張?zhí)卣鲌Dlayer4做頻域混合注意力處理,layer4通道、寬、高分別為2 048、7、7,頻域混合注意力模型處理過程示意圖如圖1~3所示。頻域通道注意力模塊把特征圖的2 048個通道等分為16等分,結(jié)合第2章選取的16組最低頻率組成,為每一等份分配一組頻率,進行公式(14)的2DDHT預(yù)處理得到公式(15)的C(2 048)維向量,預(yù)處理值經(jīng)過公式(16)中的全連接層得到權(quán)重值后,對通道進行抑制和增強;隨后頻域空間域注意力把特征圖拆分為7×7個2 048維度向量,將這49個向量分為16組,其中15組是3個向量一組,最后一組4個向量,對這49個向量進行公式(18)的1DDHT預(yù)處理,預(yù)處理得到一個如公式(19)所示的通道為1,寬和高為7的特征圖,特征圖經(jīng)過公式(20)中卷積核為1×1,輸入輸出通道均為1的卷積神經(jīng)網(wǎng)絡(luò)后,再經(jīng)過Sigmoid函數(shù)映射為頻域空間注意力權(quán)重矩陣,得以對特征圖空間域方向的抑制和增強。

        4 實驗分析

        4.1 實驗平臺、實驗數(shù)據(jù)和評價指標

        通實驗操作系統(tǒng)為Ubuntu18.04,深度學(xué)習(xí)框架采用Pytoch1.3.0,GPU型 號 為NVIDIA GeForce GTX 2080Ti。

        為了驗證提出的頻域混合注意力模型對小物體檢測效果,分別與SENet、EcaNet、CBAM、FcaNet一共五種注意力模型,在小目標數(shù)據(jù)集(small object dataset)做對比實驗。選取了Small Object Dataset中的蜜蜂、觀賞魚、飛蟲這三種物體作為檢測對象。

        本文使用了COCO數(shù)據(jù)集定義mAP作為評價指標:

        其中,t代表閾值。當(dāng)預(yù)測的錨框和標注框交并比IoU大于該閾值時,即算成功預(yù)測到物體,計為TP(true positives)表示真正例。而低于該閾值就規(guī)定為沒有預(yù)測到物體,計為FP(false positives)即將正例預(yù)測為負例的數(shù)量。

        其中,t=[0.50,0.55,0.60,0.65,0.70,0.75,0.80,0.85,0.90,0.95]即將IOU閾值分別設(shè)定為從0.50到0.95,步長為0.05的10個IOU閾值分別計算準確率AP求和后,再除 以10得 到mAP,并 選 取 了AP50、AP75、APs、APM、Parameters、FLOPs一共七個指標作為評價標準。

        4.2 實驗結(jié)果對比及分析

        實驗基于Small Object Dataset數(shù)據(jù)集,計算在Faster-RCNN目標檢測框架下,特征提取網(wǎng)絡(luò)選用Resnet-50時的平均精度mAP和AP50、AP75、APs、APM、Parameters、FLOPs一共七個指標。

        從表2中可以看出,頻域混合注意力模型相對其他注意力模型,在相近的參數(shù)數(shù)量和計算量下,取得了較好的準確率,mAP相對SENet、CBAM、EcaNet、FcaNet分別提高了1.2、1.1、0.9、0.7個百分點。APs相對SENet、CBAM、EcaNet、FcaNet分別提高了2、1.8、1.6、1.4個百分點。這六次對比實驗,小物體數(shù)據(jù)集訓(xùn)練時損失函數(shù)變化曲線如圖5所示。

        圖5 損失函數(shù)變化曲線Fig.5 Loss function variation curve

        表2 實驗精度對比Table 2 Object detection results of different methods on small object dataset

        可見訓(xùn)練過程中,六組實驗的損失函數(shù)曲線逐漸趨于平穩(wěn),沒有出現(xiàn)明顯的顛簸現(xiàn)象,訓(xùn)練到20個epoch時,網(wǎng)絡(luò)逐漸趨于平穩(wěn),到80個epoch時,到達最優(yōu)結(jié)果,實驗結(jié)束,其中頻域混合注意力模型能取得較好的收斂效果。

        部分檢測可視化結(jié)果對比圖如圖6、圖7所示。

        圖6 蜜蜂檢測可視化圖Fig.6 Visualization map of honeybee detection

        圖6(a)圖為Resnet-50檢測結(jié)果圖,右下角的兩只蜜蜂漏檢,而在圖6(f)頻域混合注意力模型檢測結(jié)果圖中,卻能檢測出來,而且兩只蜜蜂的分類置信度分數(shù)分別能達到90%、53%,比另外四種注意力模型同一位置的兩只蜜蜂的分類置信度均高。圖7(a)圖為Resnet-50檢測結(jié)果圖,最底部的一只觀賞魚漏檢,而在圖7(f)頻域混合注意力模型檢測結(jié)果圖中,卻能檢測出來,而且分類置信度分數(shù)能達到90%,比另外四種注意力模型同一位置的觀賞魚的分類置信度均高。表明頻域混合注意力模型的加入能提高原有Faster-RCNN的檢測精度,并且檢測精度能高于現(xiàn)有的多種注意力模型。

        圖7 觀賞魚檢測可視化圖Fig.7 Visualization map of fish detection

        5 結(jié)束語

        本文首先理論分析了平均值預(yù)處理和頻域預(yù)處理結(jié)果的區(qū)別,然后從通道和空間域兩個方面對特征圖進行DHT處理,增加了特征多樣性,獲取更為豐富的輸入信息。最后在小目標數(shù)據(jù)集(small object dataset)數(shù)據(jù)集上進行了驗證,表明相近計算量下,該模型的檢測精度要高于現(xiàn)有注意力模型,體現(xiàn)出頻域混合注意力模型的有效性。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲av综合久久九九| 一区二区三区极品少妇| 精品国产a一区二区三区v| 玩弄丰满奶水的女邻居| 欧美性猛交xxxx乱大交蜜桃| 亚洲国产AⅤ精品一区二区久 | 色婷婷精品| 亚洲av无码国产剧情| 免费黄色电影在线观看| 无码一区二区三区AV免费换脸| 92精品国产自产在线观看48页| 亚洲av一二三四五区在线| 粉嫩av国产一区二区三区 | 亚欧乱色束缚一区二区三区| 亚洲av本道一本二本三区| 国产又黄又硬又粗| 人妻少妇av无码一区二区| 国产精品不卡无码AV在线播放| 国产在线精彩自拍视频| 亚洲午夜精品一区二区麻豆av | 色窝窝免费播放视频在线| 亚洲成av人无码免费观看| 天堂网日韩av在线播放一区| 女人被狂躁c到高潮| 日韩欧美区| 大又黄又粗又爽少妇毛片| 午夜dv内射一区二区| 国产免费无码一区二区三区| 国产亚洲精品不卡在线| 亚洲毛片免费观看视频| 日韩人妻一区二区三区蜜桃视频| 一国产区在线观看| 久久国产女同一区二区| 亚洲天堂一区二区偷拍| 欧美午夜刺激影院| 国产91吞精一区二区三区| av有码在线一区二区三区| av网站在线观看亚洲国产| 夜夜夜夜曰天天天天拍国产| 欧美 国产 日产 韩国 在线 | 国产在线a免费观看不卡|