亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分層精簡雙線性注意力網絡的魚類識別

        2022-04-09 07:04:22董紹江蔡巍巍饒志榮
        計算機工程與應用 2022年5期
        關鍵詞:特征融合方法

        董紹江,劉 偉,蔡巍巍,饒志榮

        1.重慶交通大學 機電與車輛工程學院,重慶 400074

        2.大陸汽車研發(fā)(重慶)有限公司,重慶 400074

        隨著現代科學技術的發(fā)展,人們對海洋有了更多的探索和理解,對海洋資源的開發(fā)與利用,帶來了巨大的經濟效益。與此同時,海洋生態(tài)遭受了一定的破壞,海洋生物多樣性面臨著巨大挑戰(zhàn)[1]。引入現代技術手段對不同海洋魚類的存在和數量進行監(jiān)控,對保護魚類多樣性意義重大。

        近年來,越來越多的海洋研究人員通過水下攝像機的長期監(jiān)視來獲取水下魚類圖像,并采取了不同的方法實現圖像的分類[2]。較為傳統(tǒng)的方法是海洋專家對每個圖像進行手動分析歸類,此種方法不僅要求較強的專業(yè)能力,且費時費力?;趫D像處理技術的特征提取方法,使得這項任務變得相對容易起來,研究人員通過提取圖像的顏色、形狀、紋理等特征,以有效地確定魚的種類[3-4]。在特征提取方法的基礎上,針對圖像分類方法的研究也逐漸在增多,Wang等人[5]在bag-of-feature的基礎上,提出了縮小編碼系數,通過兩級字典學習的方法來識別細粒度魚類圖像,但是該方法未考慮特征之間的位置關系。Saitoh等人[6]進行了詳細的實驗,證明了視覺詞包與幾何特征的組合可以幫助獲得準確的識別結果。Khotimah等人[7]使用決策樹與圖像處理算法相結合的方法來實現了金槍魚的自動分類。上述方法大多是基于不同的特征提取方法結合機器學習工具進行圖像的分類,然而與卷積神經網絡相比,過程相對繁瑣,且基于卷積神經網絡的識別方法其準確率普遍更高。Tamou等人[8]用遷移學習方法,在AlexNet網絡上對ImageNet數據集上訓練模型進行參數遷移取得了不錯的效果。Qiu等人[9]使用改進的遷移學習和擠壓與激勵網絡在小規(guī)模魚類數據集上同樣表現出了優(yōu)越的性能。然而當前大多數基于卷積神經網絡的圖像識別算法,其關注點主要是集中在拓展網絡的深度等方式以捕捉更多的圖像特征,導致網絡模型的訓練時間大幅增加,對計算機硬件形成極大的依賴。細粒度圖像分類作為計算機視覺、模式識別中頗具挑戰(zhàn)的一類任務,需要在區(qū)分出基本類別的基礎上,對子類進行更精細的劃分[10]。此外,由于姿態(tài)、尺度、背景等因素的干擾,即使是同一子類,其差異也很大,從而使得細粒度圖像分類任務難度更大[11]。因而,針對細粒度圖像分類問題,充分結合細粒度圖像本身的特點更能體現卷積神經網絡的優(yōu)勢。

        針對細粒度魚類圖像識別任務,本文提出一種基于空間變換網絡和分層精簡雙線性特征的網絡模型。以空間變換網絡為注意力機制,移除水下圖像背景的干擾,將目標區(qū)域作為后續(xù)識別網絡的輸入。在可視化卷積特征的指導下,該方法在降低分類特征維度的同時,根據不同卷積層的響應特性融合部分卷積層的特征,增強網絡對目標圖像細粒度特征的捕捉能力,以降維近似的方式取得了同最優(yōu)算法相當的識別精度。

        1 細粒度圖像分類算法

        如前所述,細粒度圖像分類任務要求更高。對于細粒度圖像分類,傳統(tǒng)方法主要是基于特征提取,包括局部特征、視覺詞包、特征定位三種方法,存在過程繁瑣、額外處理工作復雜等弊端[10]。深度學習的廣泛應用,使得基于神經網絡算法的特征提取方法與傳統(tǒng)人工方法相比,效率更高,描述能力更強大,在一定程度上促進了細粒度圖像分類的發(fā)展。根據監(jiān)督方式的不同,可以分為強監(jiān)督[12]和弱監(jiān)督[13]兩種類別。強監(jiān)督利用bounding box和key point等額外的人工標注信息,獲取位置、大小等,有利于提高局部與全局之間的關聯(lián),從而提升分類精度。弱監(jiān)督細粒度圖像分類僅利用圖像的類別信息,不使用額外的標注,目前該類方法可以總結為圖像過濾[14]和雙線性網絡[15]兩類。圖像過濾的思想和強監(jiān)督中利用bounding box的方法類似,僅借助于圖像類別信息過濾與目標物體無關的背景。雙線性網絡(bilinear CNN,B-CNN)通過計算卷積描述向量的外積來考察不同維度之間的交互關系,由于描述向量的不同維度對應卷積特征的不同通道,不同通道提取了不同的語義特征,因此,通過雙線性操作,可以捕獲圖像的不同語義特征之間的關系。

        精簡雙線性網絡(compact bilinear pooling,CBP)是雙線性網絡的改進網絡,主要優(yōu)勢在于降低了雙線性網絡輸入分類器的特征維度,加快了網絡訓練速度,且正確率與原網絡相當。空間變換網絡作為一種空間域注意力機制,其主要作用是過濾圖像中的背景,可作為網絡結構嵌入到卷積網絡的任何位置,使得構建端到端的學習網絡成為可能。本文通過結合空間變換網絡和精簡雙線網絡各自的優(yōu)勢并引入分層特征融合的改進策略,構建了分層精簡雙線性注意力網絡,其結構如圖1所示。

        2 方法論

        2.1 空間變換網絡

        受到圖像可裁剪、平移、縮放和旋轉等圖像處理經典手段的啟發(fā),為了盡可能地減少水下圖像背景的干擾,本文采用空間變換網絡(spatial transformation network,STN)作為一種注意力機制,使識別網絡聚焦在圖像中目標物體上,對其進行特征提取。其中,空間變換服從于坐標矩陣的仿射變換??臻g變換網絡的網絡結構如圖1中下半部分所示,包括定位網絡、網格生成器和采樣器。定位網絡是一個用來回歸變換參數θ的網絡,本文中它的輸入圖像為U∈RH×W×C,H、W、C分別對應圖像的長、寬和通道數,為避免增加網絡中的參數量和特征維度,定位網絡設計為由兩個卷積層、兩個池化層、全連接層和回歸層輸出變換參數,由于進行的是2D仿射變換,因此其輸出是一個6維的向量。網格生成器依據變換參數θ構建采樣網絡,其實質是根據變換參數得到輸出圖像和輸入圖像之間坐標點的映射關系Tθ(G)。若特征圖像U的每個像素的坐標為則V的每個像素坐標為由定義在規(guī)則網格上的G={Gi}構成,其中像素則源坐標和目標坐標之間的對應關系為:

        圖1 分層精簡雙線性注意力網絡結構圖Fig.1 Structure of hierarchical compact bilinear attention network

        采樣器利用雙線性插值的方式對輸出圖像像素進行填充,輸出圖像的大小和輸入圖像保持一致,公式為:

        2.2 精簡雙線性池化

        B-CNN根據大腦工作時認知類別和關注顯著特征的方式,構建了兩個線性網絡,協(xié)調完成局部特征提取和分類的任務,特征融合采用的向量外積方式會導致雙線性特征的維度極高,CBP是對B-CNN的一種降低維度的近似。雙線性池化(bilinear pooling,BP)結果可表示為:

        式中,X=(x1,x2,…,x|S|,xs∈Rc),表示局部描述符的集合,S為空間位置的集合,B(X)視為長度為c2的向量。

        由于使用雙線性描述符的圖像分類通常使用線性支持向量機(SVM)去實現,用線性核分類可作如下推導:

        式中,X和Y為局部描述符的集合,S和U為空間位置的集合。式(5)的結果視為兩張圖像的比較內核,令k(x,y)表示此比較內核,即二階多項式核。

        Tensor sketch(TS)是一種近似多項式核的算法,可用于BP的壓縮。使用TS進行近似雙線性池化的算法原理如圖2所示。

        圖2 精簡雙線性過程Fig.2 Process of compact bilinear pooling

        TS步驟如下:

        步驟1利用Count Sketch函數Ψ將特征向量x∈Rc映射到特征空間Rd。定義兩個隨機向量sk∈{+1,-1}c,hk∈{1,2,…,d}c,k=1,2,sk(i)與hk(i)的初始化值服從均勻分布,且初始化后保持不變。定義函數Ψ(x,h,s)和φTS(x)如下:

        式(8)中,F為快速傅里葉變換,F-1為傅里葉逆變換,為按元素相乘。

        步驟2根據Count Sketch函數性質:

        步驟3通過式(11)計算精簡雙線性池化特征,并依次開符號平方根和L2規(guī)范化將特征歸一化。

        由文獻[16]可知,d的值為8 192時,CBP和B-CNN的降維度近似結果較為理想。

        2.3 分層精簡雙線性注意力網絡

        基于雙線性池化的網絡模型已經被實驗驗證了在細粒度圖像分類上的有效性,然而現有的許多方法忽略了模型的層間局部特征的交互和細粒度特征的學習是相互關聯(lián)的,并且能夠相互增強。文獻[17]中提出了一種分層雙線性池的框架來集成多個跨層雙線性特征,提高了對特征的表示能力,文章將來自不同卷積層的激活視為對不同部件屬性的響應,而不是顯式地定位對象的局部,結果表明該方法對細粒度圖像分類任務有較為顯著的作用。

        為明確CovNet中不同卷積層特征對水下圖像目標中不同部件屬性響應的有效性,采用Grad-CAM方法[18]對vgg16模型的卷積層進行了可視化,結果如圖3所示,輸入圖像為ImageNet數據集中的GoldFish類。

        根據圖3中vgg16網絡的部分卷積的激活響應可視化結果可以看出,不同的卷積層對輸入的魚類圖像不同部件存在不同的響應。除開conv5之外的低層卷積的激活響應主要是從全局的角度對魚類圖像進行特征提取,高層卷積如conv5_1對金魚的頭部、魚鰭、魚尾的響應較為強烈,conv5_2和conv5_3的激活響應則主要集中在魚的頭部,其他部位的響應相對較弱。

        圖3 vgg16部分卷積的激活響應Fig.3 Activation response of partial convolution of vgg16

        B-CNN僅對conv5_3層的特征進行外積融合,主要關注的特征集中在金魚的頭部,對于細粒度魚類圖像的識別相當不利,因為在細粒度任務中,不同魚類之間的差別較小,細微差異很可能被網絡忽略而導致識別錯誤。由于conv5_1在魚鰭、魚尾等細節(jié)部分響應較為強烈,conv5_2和conv5_3對金魚的頭部的激活響應范圍存在差異,其次雙線性池化及其精簡方法能夠加強特征間的交互,且文獻[17]中對不同的卷積層的融合方式進行了討論,在CUB-200-2011鳥類數據集上得出的結果是conv5_3與conv5_2,conv5_3與conv5_1,conv5_2與conv5_1分別進行特征融合得到的識別精度相對更高。根據魚類圖像的特點以及可視化結果中不同卷積的激活響應情況,本文選取conv5_1、conv5_2、conv5_3三個卷積層進行精簡的雙線性特征融合,融合方式如表1所示。

        表1 不同特征融合方式Table 1 Different feature fusion methods

        結合STN網絡的背景過濾能力和分層精簡雙線性池(hierarchical compact bilinear pooling,H-CBP)的低維特征表示能力,本文構建了STN-H-CBP網絡用于細粒度水下魚類圖像識別。其中STN網絡通過定位網絡獲取目標在圖像中的位置,并使用雙線性插值方法填充生成的網格,有效濾除了水下圖像背景的干擾,圖像輸出大小為224×224。特征提取器采用vgg16網絡模型為基礎,保留了vgg16網絡的所有卷積層,下稱vgg16。H-CBP在考慮了中間層卷積激活,避免了細粒度類別判別信息丟失的情況下,對雙線性池進行精簡,經過特征交互和精簡雙線性變換后將輸出維度為8 192的三組特征向量進行級聯(lián)融合后送入softmax分類器。

        3 實驗結果及分析

        3.1 數據集

        F4K是Fish4Knowledge項目在開放海域采集的魚類圖像數據集。該數據集是從實時視頻中獲取的魚類數據,共27 370個經過驗證的魚類圖像,整個數據集分為23個類別,簡稱為F4K數據集。圖4為F4K數據集的部分樣本示例。

        圖4 F4K數據集樣本示例Fig.4 Sample of F4K dataset

        3.2 實驗內容及結果分析

        實驗環(huán)境為ubuntu16.04操作系統(tǒng),GPU為NVIDIA RTX2060,內存為32 GB,顯存為6 GB,深度學習框架為TensorFlow。

        空間變換網絡在本文中作為一種注意力機制,對水下魚類圖像的背景存在抑制作用,圖5是圖像經過空間變換網絡后的圖像與原圖像的對比圖。圖5(a)是空間變換網絡輸入圖像,由F4K數據集中原圖按比例縮小而得??梢钥吹綀D5(a)中的魚類圖像背景較復雜,對精確識別其中的魚類目標造成嚴重干擾;在捕捉局部特征時,極易將外型和色彩與魚類相似的背景混淆造成誤判;此外輸入圖像采用RGB彩色圖像,過多的背景降低了模型的計算效率。圖5(b)是空間變換網絡輸出圖像。由圖5(b)可見,通過空間變換后的圖像,場景中主要目標是魚類,相對輸入圖像,很大程度過濾了背景。輸出圖像中魚類目標的位置被變換到了左下角的多邊形區(qū)域,其余像素的點各通道像素值均為零,減少了卷積過程的運算量。

        圖5 輸入圖像經空間變換前后對比圖Fig.5 Comparison of input images before and after spatial transformation

        本文分別以B-CNN、CBP、H-CBP和所提STN-H-CBP方法作對比,其中由于輸入圖像尺寸為448×448時B-CNN網絡表現最佳,限于硬件環(huán)境,且本文意在驗證所提的STN-H-CBP網絡的有效性,故文中網絡輸入圖像尺寸均為224×224。上述對比網絡模型均以vgg16作為特征提取器,為了公平比較各方法,對比實驗采用相同的訓練策略。數據集劃分采取5/7作為訓練集,1/7作為驗證集,1/7作為測試集。網絡參數初始化采用遷移學習的方法將vgg16網絡在ImageNet數據集上訓練完備的模型參數作為初始值,新添加的網絡層采用先粗調再微調的方式進行訓練。粗調采用固定學習率0.9,動量為0.9,batchsize為16。微調訓練模型的部分超參數設置如下:batchsize為16,使用指數衰減學習率,其初始值設置為0.01,動量為0.9,每1 000步更新一次學習率。

        表2是B-CNN與各改進網絡的實驗結果對比。如表2所示,CBP網絡模型在精簡雙線性池化的情況下,降低了輸入分類器的特征維度,節(jié)省了計算開銷,訓練時長縮短超40 min,但識別精度相對B-CNN網絡下降了0.13個百分點。H-CBP網絡對vgg16的高層卷積層進行特征融合,正確率較CBP網絡略有提升,由于進行了分層特征融合,訓練時長稍有上升,相比文獻[11]中分層特征融合網絡在細粒度鳥類圖像分類上的的優(yōu)良表現,在F4K魚類數據集上表現不佳,可能存在以下兩個原因:其一是F4K魚類數據集中魚類的尺度變化大,且特征融合過程受水下圖像背景干擾較大,其二是本文使用的水下魚類數據集是未經過圖像增強或復原的低質量圖像,特征融合的效果較一般。STN-H-CBP網絡模型在H-CBP網絡的基礎上進行了改進,使用空間變換網絡作為注意力機制過濾水下圖像背景,結果表明,三種不同融合方式形成的網絡在F4K數據上的識別率都有不同程度的提升,但不同的融合方式間存在性能差異,融合方式見表1,分別較H-CBP網絡的識別精度提高了0.03、0.19和0.8個百分點,且平均訓練時長縮減超20 min。由此可見,過濾圖像背景可增強目標圖像中特征融合的有效性,且對減少計算量有一定貢獻。B-CNN及其精簡模型CBP已表明高維特征交互能更有效地提升模型對細粒度特征的捕捉能力,此處結合背景過濾與分層精簡特征融合策略的實驗結果作進一步分析。方式1采取conv5中三個卷積層兩兩交互的策略,識別精度較存在高維特征交互的方式2與方式3略低,根據Grad-CAM算法的可視化結果,conv5_1在魚鰭等金魚的細粒度特征處的激活響應更為強烈,方式2采取的融合策略缺少層間的交互,僅在最后進行了級聯(lián)融合,相對而言,方式3充分利用各層與conv5_3的融合,識別精度提升也更為明顯。

        表2 實驗結果對比Table 2 Comparison of experimental results

        圖6是不同特征融合方式的網絡訓練至收斂過程中,損失函數與識別精度變化趨勢經平滑化處理后的對比圖,子圖(a)為損失函數對比曲線,子圖(b)為識別精度變化趨勢。子圖(a)與子圖(b)中,模型STN-H-CBP-a、模型STN-H-CBP-b與模型STN-H-CBP-c訓練過程中損失函數與識別精度的變化趨勢分別對應了黑色、藍色與紅色的曲線。由子圖(a)與子圖(b)可見,模型STN-HCBP-c損失函數下降速度與模型收斂速度更快,模型STN-H-CBP-b次之,模型STN-H-CBP-a最慢。結果表明,模型STN-H-CBP-c采取的融合策略性能最佳,即高維特征交互與背景過濾可改善網絡模型在魚類數據集上的性能。

        圖6 不同特征融合方式訓練過程對比Fig.6 Comparison of training process of different feature fusion methods

        綜上可知,采用空間變換網絡為注意力機制對水下魚類圖像進行背景過濾,結合分層精簡雙線性池化網絡在增強層間交互與特征降維的能力進行端到端的網絡訓練,所提方法在F4K魚類數據集上的識別精度與訓練速度較對比方法均有提升。

        4 結束語

        (1)H-CBP網絡在未經背景過濾的情況下表現一般,相對于傳統(tǒng)的B-CNN網絡識別精度略有下降,可能的原因是水下圖像分辨率較低且背景復雜,導致卷積層之間特征交互對局部特征的提取能力改善較小,下一步可結合水下圖像預處理方法進行改進。

        (2)STN作為注意力模塊嵌入網絡進行端到端訓練,可有效過濾水下圖像中的背景干擾,以F4K為實驗數據集,使得STN-H-CBP網絡在識別精度上較H-CBP網絡提高0.8個百分點,訓練時長最大縮短30 min。

        (3)STN-H-CBP網絡綜合了STN對圖像中局部目標的關注能力,和H-CBP網絡對模型的近似精簡與層間特征交互的能力,綜合表現較好。

        猜你喜歡
        特征融合方法
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數列相遇、融合
        《融合》
        現代出版(2020年3期)2020-06-20 07:10:34
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        欧美孕妇xxxx做受欧美88| 国产成+人欧美+综合在线观看 | 亚洲女同一区二区久久| 99热最新在线观看| 96精品免费视频大全| 国产高清女人对白av在在线| 国产高清不卡在线视频| 在线观看国产一区二区av| 森中文字幕一区二区三区免费| 风韵少妇性饥渴推油按摩视频| 国产aⅴ无码专区亚洲av麻豆 | 九九影院理论片私人影院| 疯狂添女人下部视频免费| 日本人与黑人做爰视频网站 | 亚洲欧美在线观看一区二区| 亚洲国产一区二区三区在观看| 琪琪av一区二区三区| 美女视频在线观看网址大全| 亚洲爆乳无码精品aaa片蜜桃| 国产乱色精品成人免费视频| 伊人婷婷在线| 亚洲人成影院在线高清| 国产黄色一区二区三区av| 亚洲人妻调教中文字幕| 国产av丝袜旗袍无码网站| 亚洲av熟妇高潮30p| 久久精品免视看国产盗摄| 国产精品成人久久一区二区| 91久久精品美女高潮喷白浆| 乱码窝窝久久国产无人精品| 色偷偷亚洲第一成人综合网址| 亚洲av熟妇高潮30p| 99久久亚洲精品加勒比| 人妻中文久久人妻蜜桃| 欧美xxxxx高潮喷水麻豆| 亚洲熟妇久久国产精品| 日韩精品久久久一区| 久久久亚洲精品免费视频| 国产亚洲一二三区精品| 日本高清视频永久网站www | 另类专区欧美在线亚洲免费|