亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進堆疊沙漏網(wǎng)絡(luò)的動物姿態(tài)估計

        2023-02-20 09:39:24張雯雯徐楊白芮陳娜
        計算機工程 2023年2期
        關(guān)鍵詞:池化沙漏動物

        張雯雯,徐楊,2,白芮,陳娜

        (1.貴州大學 大數(shù)據(jù)與信息工程學院,貴陽 550025;2.貴陽鋁鎂設(shè)計研究院有限公司,貴陽 550009)

        0 概述

        人體姿態(tài)估計作為計算機視覺領(lǐng)域的主要研究方向[1],應(yīng)用范圍十分廣泛。目前,姿態(tài)估計存在2 個方面的難點[2]:不同攝影機角度和遮擋目標的檢測與識別以及運算效率。姿態(tài)估計最初基于圖像結(jié)構(gòu)[3],即使用樹形結(jié)構(gòu)來模擬身體各部分之間的空間關(guān)系。但是當身體存在遮擋時,會導(dǎo)致重復(fù)計算。隨著機器視覺的快速發(fā)展,研究者開始采用卷積神經(jīng)網(wǎng)絡(luò)的方法進行計算,大幅提高了姿態(tài)估計的準確性[4]。近年來,動物姿態(tài)估計在動物學、生態(tài)學、生物學和農(nóng)業(yè)等領(lǐng)域廣泛應(yīng)用[5]。動物姿態(tài)估計的基本目標是定位并解析動物關(guān)鍵點,如下巴、腿和臀部等。目前,用于研究動物姿態(tài)估計的網(wǎng)絡(luò)主要是深度卷積神經(jīng)網(wǎng)絡(luò),其按階層結(jié)構(gòu)對輸入信息逐層提取抽象特征并學習計算,最終得到動物關(guān)鍵點。

        現(xiàn)有包含動物圖像的數(shù)據(jù)集多數(shù)都是為分類和檢測而構(gòu)建的,只有極少數(shù)是為解析動物關(guān)鍵點而構(gòu)建的[6],而為動物標注大量數(shù)據(jù)集代價非常高。目前,采用深度學習方法進行人體姿態(tài)估計已經(jīng)獲得了顯著的成果,但由于缺乏大量動物標注數(shù)據(jù)集,深度學習方法并不適合解析動物,將現(xiàn)有的深度學習方法直接應(yīng)用于動物姿態(tài)估計是不可行的。由于合成動物數(shù)據(jù)集[7]的成本較低,產(chǎn)生具有豐富真實地面的合成動物數(shù)據(jù)集也更容易,因此許多研究者在進行實驗時使用合成數(shù)據(jù)。然而,合成數(shù)據(jù)和真實數(shù)據(jù)之間存在很大的域間隙[8],從而使得在合成數(shù)據(jù)上訓練的模型不能很好地應(yīng)用到真實數(shù)據(jù)上。

        研究者經(jīng)實驗發(fā)現(xiàn),通過聯(lián)合使用合成動物數(shù)據(jù)集和真實動物數(shù)據(jù)集,可使成本最小而效果達到最優(yōu)[9]。CHANG等[10]創(chuàng)建了包含多種3D 模型的ShapeNet,但其中SMPL 是為人類構(gòu)建的;CAO等[11]提出一種跨域自適應(yīng)方案來學習人類和動物圖像之間的共享特征空間,從現(xiàn)有的人類姿勢數(shù)據(jù)集中進行學習,此外,還根據(jù)置信度得分選擇偽標簽進入訓練;ZUFFI等[12]為了恢復(fù)更詳細的動物三維形狀,提出從真實動物復(fù)制紋理,并以端到端的方式預(yù)測動物的3D 網(wǎng)格;VAROL等[13]為研究可變形對象的解析,渲染了真實的合成人體模型以縮小合成數(shù)據(jù)和真實數(shù)據(jù)之間的差距;TOSHEV等[14]提出深度姿態(tài)DeepPose 估計網(wǎng)絡(luò),針對人體關(guān)鍵點進行深度神經(jīng)網(wǎng)絡(luò)回歸學習,但該網(wǎng)絡(luò)很難檢測到精確的小目標;CHEN等[15]提出的級聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network,CPN),使人體被遮擋關(guān)鍵點的檢測性能得到改善,但因缺乏關(guān)節(jié)間的結(jié)構(gòu)信息,該方法對多尺度的姿態(tài)估計泛化性能較差;NEWELL等[16]提出用于姿態(tài)估計的堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Network,SHN),其改進版本在人體姿態(tài)估計領(lǐng)域得到了成功應(yīng)用[17],但在高低分辨率恢復(fù)過程中會產(chǎn)生誤差,導(dǎo)致檢測精確度不高。

        本文將堆疊沙漏網(wǎng)絡(luò)作為動物姿態(tài)的基本網(wǎng)絡(luò)框架并進行改進,聯(lián)合使用合成動物數(shù)據(jù)集和真實動物數(shù)據(jù)集訓練模型,解決動物姿態(tài)估計缺乏數(shù)據(jù)標簽的問題。設(shè)計基于SE(Squeeze-and-Excitation)注意力機制的多尺度最大池化模塊 MMPM-S,融合4 種不同尺度下的圖像特征,解決池化操作后特征信息大量丟失的問題。針對沙漏網(wǎng)絡(luò)在編碼-解碼過程中丟失網(wǎng)絡(luò)淺層定位信息的問題,設(shè)計基于 CBAM(Convolutional Block Attention Module)注意力機制的改進沙漏模塊IHNM-C,并進行多級特征融合,從而提高網(wǎng)絡(luò)對多通道信息的提取能力,優(yōu)化需要融合的特征信息,以最小的參數(shù)代價有效提高網(wǎng)絡(luò)精度。

        1 堆疊沙漏網(wǎng)絡(luò)

        堆疊沙漏網(wǎng)絡(luò)(SHN)利用多尺度特征來識別姿態(tài),其由多個沙漏模塊(Hourglass Module,HM)串聯(lián)而成,能夠在多尺度空間中進行特征提取及融合,解決模型參數(shù)量大和計算量大的問題[18]。如圖1 所示,HM 形狀呈沙漏狀,結(jié)構(gòu)類似鏡像結(jié)構(gòu)(彩色效果見《計算機工程》官網(wǎng)HTML版,下同)。

        圖1 沙漏模塊結(jié)構(gòu)Fig.1 Structure of hourglass module

        HM 使用編碼-解碼(encode-decode)的結(jié)構(gòu),主要由下采樣和上采樣操作構(gòu)成。下采樣的目的是降低分辨率和計算的復(fù)雜度,上采樣通過最近鄰插值法進行,目的是提高圖像特征的分辨率,這種自上而下和自下而上的設(shè)計使得網(wǎng)絡(luò)在每個尺度上都能提取關(guān)節(jié)點特征,層層疊加后得到最后一層特征圖,既保留了所有層的信息,又能和原圖的大小一致。

        本文使用的堆疊沙漏網(wǎng)絡(luò)由4 個主要的沙漏網(wǎng)絡(luò)構(gòu)成。由于沙漏網(wǎng)絡(luò)整合了局部和全局的信息,因此SHN 對每個沙漏網(wǎng)絡(luò)的輸出熱圖和真實熱圖都進行了損失計算,通過級聯(lián)結(jié)構(gòu)的沙漏網(wǎng)絡(luò)和多階段中間監(jiān)督對整個圖像的初始特征和檢測結(jié)果進行預(yù)測,如圖2 所示。

        圖2 中間監(jiān)督過程Fig.2 Process of intermediate supervision

        2 本文模型

        本文以SHN 作為基礎(chǔ)網(wǎng)絡(luò)進行改進,設(shè)計多尺度最大池化模塊MMPM-S,解決模型容易丟失網(wǎng)絡(luò)淺層信息的問題;同時設(shè)計單個沙漏模塊IHNM-C,提高網(wǎng)絡(luò)對多通道信息的提取能力,對需要融合的特征信息進行優(yōu)化。此外,本文還提出一種多級特征融合方法,將深淺層的特征進行融合,以獲得更準確的特征信息。本文總體網(wǎng)絡(luò)模型如圖3 所示,通過聯(lián)合使用未標記的真實動物數(shù)據(jù)集和合成動物數(shù)據(jù)集訓練該網(wǎng)絡(luò)模型,從而實現(xiàn)動物的姿態(tài)估計。

        圖3 總體模型Fig.3 The overall model

        2.1 多尺度最大池化模塊MMPM-S

        2.1.1 SE 注意力模塊

        SE 注意力模塊[19]通過明確建模通道之間的相互依賴,自適應(yīng)地重新校準通道方面的特征響應(yīng),從而提高網(wǎng)絡(luò)生成的表示的質(zhì)量,其中分為Squeeze 壓縮和Excitation 激發(fā)兩個步驟,如圖4 所示。

        圖4 SE 注意力模塊Fig.4 SE attention module

        在SE 注意力模塊中,將輸入X∈RH′×W′×C′特征映射為U∈RH×W×C,將U經(jīng)過Squeeze 壓縮,實際操作就是全局平均池化,將特征圖壓縮為1×1×C向量,得到統(tǒng)計量z∈RC,z的第c個元素計算公式為:

        為利用壓縮操作中聚合的信息,在壓縮之后進行Excitation 激發(fā)操作,目的是完全捕獲與通道相關(guān)的依賴關(guān)系。通過兩層全連接的bottleneck 結(jié)構(gòu)得到特征圖中每個通道的權(quán)值,并將加權(quán)后的特征圖作為下一層網(wǎng)絡(luò)的輸入,如式(2)所示:

        為限制模型復(fù)雜性,在得到1×1×C向量后,對原來的特征圖進行Scale 操作:

        2.1.2 MMPM-S 模塊

        本文提出基于SE 注意力機制的多尺度最大池化模塊MMPM-S,融合4 種不同尺度下的圖像特征,如圖5 所示。

        圖5 MMPM-S 模塊Fig.5 MMPM-S module

        在MMPM-S 模塊中,對輸入特征F進行4 個不同尺度的最大池化操作,得到不同尺度的圖像特征,以防止池化后特征信息的大量丟失。該模塊能夠聚合不同區(qū)域的上下文信息,提高獲取全局信息的能力。MMPM-S 生成的不同級別的特征圖,經(jīng)過卷積(Conv)、上采樣(Upsample)操作,最終通過特征融合(Concat)拼接在一起。MMPM-S 獲取了多尺度特征信息,最后能夠融合合適的全局特征,將局部和全局信息融合到一起。最后,為減小卷積池化過程中因特征圖的不同通道所占的重要性不同帶來的損失,引入SE 注意力模塊,通過卷積還原特征圖通道數(shù),得到提取后的特征圖F′。

        2.2 多級特征融合模塊

        2.2.1 堆疊沙漏網(wǎng)絡(luò)的特征融合

        深度卷積神經(jīng)網(wǎng)絡(luò)淺層特征包含較多的位置信息,但是語義信息不足;網(wǎng)絡(luò)深層特征蘊含豐富的語義信息,有利于熱圖中心點回歸預(yù)測,但是定位信息很粗略,并且在堆疊沙漏網(wǎng)絡(luò)編碼-解碼過程中容易丟失網(wǎng)絡(luò)淺層定位信息。因此,本文提出對深淺層特征進行融合。將原始圖像經(jīng)過圖像預(yù)處理后輸入到每個沙漏模塊中進行特征傳遞,以獲得更準確的特征信息。由于每一階段的熱圖都是對整個圖像的初始特征和檢測結(jié)果進行評估的全局特征信息,因此本文將每個沙漏模塊的熱圖結(jié)果作為下一個沙漏模塊卷積層的輸入,從而使下一階段的熱圖估計結(jié)果更加準確。

        2.2.2 單個沙漏模塊的特征融合

        堆疊沙漏網(wǎng)絡(luò)疊加了多個沙漏模塊,每個沙漏模塊又疊加了多個上采樣、下采樣和殘差模塊,這會使得局部特征信息大量丟失,不利于更細致地提取動物關(guān)節(jié)部位紋理和形狀等特征,并且隨著網(wǎng)絡(luò)訓練的進行,網(wǎng)絡(luò)會更加傾向于識別的動物關(guān)節(jié),而動物被遮擋的關(guān)節(jié)部分更容易被忽略,不利于提取被遮擋部分的特征信息。因此,本文在沙漏模塊進行編碼-解碼的過程中,將輸入的特征信息疊加在最外層的輸出,避免丟失大量的局部特征信息。

        2.3 改進沙漏模塊IHNM-C

        2.3.1 CBAM 注意力模塊

        CBAM 注意力模塊[20]分為通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)。CBAM 是一個輕量級的通用模塊,可以集成到任何CNN 架構(gòu)中與基本CNN 一起進行端到端的訓練。CBAM 注意力模塊如圖6 所示。

        圖6 CBAM 注意力模塊Fig.6 CBAM attention module

        假設(shè)輸入的特征F∈RC×H×W發(fā)送到通道注意力模塊,通道注意力模塊將最大池化(Maxpool)和平均池化(Avgpool)并行連接能夠減少信息的丟失,與單一的池化相比,丟失的信息更少,得到的效果更好。得到兩個一維向量RC×1×1經(jīng)過共享多層感知機(Shared MLP)處理后相加,再經(jīng)過Sigmoid 激活后得到一維通道注意力Mc∈RC×1×1,所得的Mc與輸入特征F按元素相乘得到新的特征F′,如式(4)所示:

        其中:F為輸入特 征;Mc∈RC×1×1為一維通道注意力;σ表示Sigmoid函數(shù);MLP 為多層感知機;W0∈RC/r×C和W1∈RC×C/r為MLP 兩個隱藏層的參數(shù);為兩種池化在每個通道上聚合空間信息得到的特征表示符。

        空間注意力模塊的輸入就是通道注意力模塊的輸出,假設(shè)輸入特征是F′∈RC×H×W,按空間進行最大池 化(Maxpool)和平均池化(Avgpool)產(chǎn)生兩個R1×H×W的通道描述,經(jīng)過拼接后進行7×7 卷積和Sigmoid 激活,最后得到二維空間注意力Ms∈Rc×1×1,如式(5)所示:

        其中:F′為輸入特征;Ms∈Rc×1×1為二維空間注 意力;f7×7為濾波器尺寸為7×7 的卷積運算;F′savg和F′smax為兩種池化在每個空間位置上聚合通道信息得到的特征表示符。

        將所得的Ms與特征圖F′按元素相乘得到提取后的特征圖F′,如式(6)所示:

        其中:?表示逐個元素相乘的符號;F′為注意力模塊內(nèi)部優(yōu)化的特征圖;F′為注意力模塊優(yōu)化后輸出的特征圖。

        2.3.2 IHNM-C 模塊

        由于深度卷積神經(jīng)網(wǎng)絡(luò)淺層特征包含更豐富的信息,而原始的沙漏模塊定位信息粗略,因此本文設(shè)計基于CBAM 注意力機制的改進沙漏模塊IHNM-C,如圖7 所示。

        圖7 IHNM-C 模塊Fig.7 IHNM-C module

        在IHNM-C 的編碼階段,每層網(wǎng)絡(luò)通過Residual block[21]及Maxpool操作,最終得出分辨 率逐漸降低的特征圖。在IHNM-C 的解碼階段,網(wǎng)絡(luò)通 過Interpolation block、Residual block 和多次特征融合,逐漸恢復(fù)出高分辨率的特征圖。同時,IHNM-C跳躍層經(jīng)過逐步提取關(guān)節(jié)特征,向IHNM-C 后半部分傳遞,將跳躍層保留的各尺度特征與后半部分特征進行融合,聯(lián)合網(wǎng)絡(luò)低層次和高層次的特征圖,實現(xiàn)網(wǎng)絡(luò)淺層特征和深層特征的融合,從而減少定位信息的丟失,提高動物姿態(tài)的檢測精度。在跳躍層向IHNM-C 后半部分傳遞時,以拼接的方式融合獲得的多尺度特征,容易將無效的特征輸入到最終的特征圖中,影響檢測精度。因此,本文使用CBAM 模塊學習特征融合權(quán)重,從而抑制無效特征,提高檢測精度。

        2.4 損失函數(shù)

        本文將損失函數(shù)L(n)定義為源數(shù)據(jù)集(Xs,Ys)和目標數(shù)據(jù)集Xt熱圖的均方誤差,如式(7)所示:

        其中:f(n)為訓練的模型;為訓練生成的偽標簽。

        從僅使用合成數(shù)據(jù)訓練模型開始,獲得初始模型f(0),然后重復(fù)迭代訓練n次,當?shù)趎次迭代時,用(Xs,Ys)和(Xt,)聯(lián)合使用L(n)訓練模型。

        3 實驗

        3.1 實驗數(shù)據(jù)集

        本文采用堆疊沙漏網(wǎng)絡(luò)作為實驗的基礎(chǔ)網(wǎng)絡(luò),使用合成動物數(shù)據(jù)集和TigDog 真實動物數(shù)據(jù)集對網(wǎng)絡(luò)進行訓練、驗證以及測試。

        TigDog 數(shù)據(jù)集為馬和老虎提供關(guān)鍵點注釋,其中馬的圖像取自YouTube,訓練集與測試集比例為5∶1,8 380 幅圖像用于訓練,1 772 幅圖像用于測試;老虎的圖像取自國家地理紀錄片,訓練集與測試集比例為4∶1,6 523 幅圖像用于訓練,1 765 幅圖像用于測試。

        合成動物數(shù)據(jù)集包含5 種動物類別的圖像,包括馬、老虎、羊、狗和大象,每種動物類別有10 000 幅圖像,8 000 幅圖像用于訓練,2 000 幅圖像用于驗證。

        此外,本文還在VisDA2019 數(shù)據(jù)集上測試網(wǎng)絡(luò)的泛化能力,該數(shù)據(jù)集涉及6 個領(lǐng)域,包括真實圖像、素描、剪貼畫、繪畫、信息圖表和快速繪圖。采用草圖、繪畫以及剪貼畫進行泛化能力測試,并驗證本文方法的先進性和有效性。

        3.2 評估標準

        本文使用正確關(guān)鍵點百分比(Percentage of Correct Keypoints,PCK)作為評價指標,即計算檢測的關(guān)鍵點與其對應(yīng)的groundtruth 間的歸一化距離小于設(shè)定閾值的比例。PCK@0.05 是指閾值為0.05 時的正確關(guān)鍵點百分比,計算公式如下:

        其中:i表示id為i的關(guān)鍵點;k表示第k個閾值的Tk;p表示第p個動物;dpi表示第p個動物中id為i的關(guān)鍵點預(yù)測值與人工標注值的歐式距離;表示第p個動物的尺度因子;Tk表示人工設(shè)定的閾值;表示Tk閾值下id為i的關(guān)鍵點的PCK 指標;表示Tk閾值下算法的PCK 指標。

        3.3 實驗環(huán)境與實驗設(shè)置

        本文實驗使用的軟件平臺是Python3.8,服務(wù)器的系統(tǒng)是Ubuntu 20.04 版本,顯卡是NVIDIA GeForce GTX 3090,使用PyTorch1.7.0 構(gòu)建基礎(chǔ)網(wǎng)絡(luò)。

        堆疊沙漏網(wǎng)絡(luò)的堆疊次數(shù)為4。在本文實驗中,選用 RMSProp[22]優(yōu)化器對模型進行優(yōu)化。訓練周期epoch 為200,batchsize 大小為10,初始學習率 為2.5×10-4,學習率衰減系數(shù)為0.1,分別在120 和180 周期時進行一次學習率衰減,每次衰減學習率將會減少10倍。輸入圖像被裁剪為256×256 像素,通過縮放、旋轉(zhuǎn)、翻轉(zhuǎn)和顏色擾動進行數(shù)據(jù)增強。

        3.4 實驗結(jié)果與分析

        通過上述的實驗環(huán)境和實驗設(shè)置中的參數(shù),在TigDog 數(shù)據(jù)集和合成數(shù)據(jù)集上進行實驗,對比本文模型與其他先進的動物姿態(tài)估計網(wǎng)絡(luò)模型的實驗結(jié)果。圖8 所示為訓練后得到的熱圖結(jié)果。在訓練過程中,對圖像進行隨機旋轉(zhuǎn)和翻轉(zhuǎn),以增強數(shù)據(jù)。

        圖8 熱圖結(jié)果Fig.8 Heatmap results

        在TigDog 數(shù)據(jù)集上進行實驗,當動物分別為馬和老虎時本文模型與其他模型的PCK@0.05 精度對比分別如表1 和表2 所示。其中:加粗數(shù)據(jù)表示最優(yōu)值;Real 表示僅用真實動物數(shù)據(jù)集訓練的模型;Syn 表示僅用合成數(shù)據(jù)訓練的模型;Eye、Chin、Shoulder、Hip、Elbow、Knee 和Hooves 分別代表眼睛關(guān)節(jié)點平均值、下巴關(guān)節(jié)點平均值、肩膀關(guān)節(jié)點平均值、臀部關(guān)節(jié)點平均值、肘關(guān)節(jié)點平均值、膝蓋關(guān)節(jié)點平均值和蹄關(guān)節(jié)點平均值;Mean 代表所有關(guān)節(jié)點平均值。實驗結(jié)果表明,本文方法相比于CycGAN[24]、BDL[25]、CyCADA[9]、CC-SSL[23]性能得到了較大提升。相較于有較好表現(xiàn)的CC-SSL,本文模型在對于馬的實驗上PCK@0.05 提高了4.6%,在對于老虎的實驗上PCK@0.05 提高了3.5%,結(jié)果與直接在真實圖像上訓練的結(jié)果接近。由于老虎通常生活在森林中,經(jīng)常會被周圍的生物遮擋,而用于訓練的合成動物數(shù)據(jù)集沒有這種遮擋,因此導(dǎo)致模型很難適應(yīng)遮擋比較嚴重的場景,這使得表1和表2 中所有模型對于老虎的精度都沒有達到和馬一樣的效果。

        表1 不同模型的PCK@0.05 精度對比結(jié)果(馬)Table 1 Comparison results of PCK@0.05 accuracy of different models(Horse)

        表2 不同模型的PCK@0.05 精度對比結(jié)果(老虎)Table 2 Comparison results of PCK@0.05 accuracy of different models(Tiger)

        圖9 是本文模型的姿態(tài)估計以及局部分割可視化結(jié)果??梢钥闯?,即使對于一些極端的姿勢,如趴下和騎馬等,本文模型也能產(chǎn)生準確的預(yù)測結(jié)果。此外,如圖10 所示,本文模型可以對其他動物類別進行很好的姿態(tài)估計,如羊、大象和狗。

        圖9 TigDog 數(shù)據(jù)集上的可視化結(jié)果Fig.9 Visualization results on TigDog dataset

        圖10 其他動物的可視化結(jié)果Fig.10 Visualization result of other animals

        3.5 VisDA2019 上的泛化測試

        本文采用來自視覺領(lǐng)域適應(yīng)性挑戰(zhàn)數(shù)據(jù)集(VisDA2019)的圖像進行模型泛化能力的測試,該數(shù)據(jù)集包括6 個模塊:真實圖像,草圖,剪貼畫,繪畫,信息圖,快速繪圖。本文采用草圖、繪畫以及剪貼畫進行泛化能力測試,可視化結(jié)果如圖11 所示。

        圖11 VisDA2019 的可視化結(jié)果Fig.11 Visualization results of VisDA2019

        不同模型在VisDA2019 數(shù)據(jù)集上的PCK@0.05精度對比如表3 所示。其中:Visible Kpts 精度表示只考慮直接可見的關(guān)鍵點的精度;Full Kpts 精度表示還包括自遮擋的關(guān)鍵點;加粗數(shù)據(jù)表示最優(yōu)值??梢钥闯觯篊C-SSL 和本文模型都優(yōu)于在真實圖像上訓練的模型,從而證明了聯(lián)合使用合成數(shù)據(jù)集和真實數(shù)據(jù)集訓練模型的重要性;此外,本文模型性能也優(yōu)于CC-SSL 模型。

        表3 VisDA2019 數(shù)據(jù)集上的PCK@0.05 精度Table 3 PCK@0.05 accuracy on VisDA2019 dataset

        3.6 消融實驗

        本文模型以堆疊沙漏網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)進行改進,設(shè)計多尺度最大池化模塊MMPM-S,從而解決模型容易丟失網(wǎng)絡(luò)淺層信息的問題;設(shè)計基于注意力機制CBAM 的改進沙漏網(wǎng)絡(luò)模塊IHNM-C,從而提高網(wǎng)絡(luò)對多通道信息的提?。煌瑫r還提出多級特征融合方法,以獲得更準確的特征信息。為證明模型中每個關(guān)鍵模塊的有效性和先進性,以馬為實驗對象對TigDog 數(shù)據(jù)集和合成動物數(shù)據(jù)集進行消融實驗,同時與CC-SSL 進行比較,實驗結(jié)果如表4 所示。其中:“ √ ”表示模型包含這一模塊。

        實驗結(jié)果表明:相較于目前取得較好表現(xiàn)的CC-SSL,分析PCK@0.05 指標可知,添加多尺度最大池化模塊使精度提高3.28%,而添加多級特征融合模塊提升0.69%,在此基礎(chǔ)上添加注意力機制提升0.13%,這是由于學習了特征融合權(quán)重,突出了有效特征;最終模型比基線CC-SSL 提升4.6%,證明了本文方法的可行性。

        4 結(jié)束語

        本文以堆疊沙漏網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)并進行優(yōu)化,提出多尺度最大池化模塊,提高模型獲取全局信息的能力,同時設(shè)計一種多級特征融合方法,使網(wǎng)絡(luò)充分提取和融合特征信息。此外,通過使用注意力機制學習特征融合權(quán)重,突出有效特征,從而提升總體網(wǎng)絡(luò)模型的識別效果。在TigDog 數(shù)據(jù)集上的實驗結(jié)果表明,本文模型相比于CC-SSL 模型PCK@0.05提高了4.58%。下一步將在保證精度的前提下降低模型參數(shù)量和復(fù)雜度,并提高其在動物被遮擋情況下的效果。

        猜你喜歡
        池化沙漏動物
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        有趣的沙漏
        DIY裝飾沙漏
        DIY裝飾沙漏
        回憶的沙漏
        青年歌聲(2017年12期)2017-03-15 05:20:16
        最萌動物榜
        動物可笑堂
        波多野吉衣av无码| 美腿丝袜在线一区二区| 精品久久久久久久久午夜福利| 成全高清在线播放电视剧| 国精品无码一区二区三区在线看| 成人影院免费视频观看| 亚洲av不卡一区男人天堂| 一本色道无码道在线观看| 中文在线√天堂| 放荡人妻一区二区三区| 国产综合开心激情五月| 亚欧中文字幕久久精品无码| 亚洲另类激情综合偷自拍图 | 亚洲日本在线va中文字幕| 日本免费三片在线视频| 亚洲2022国产成人精品无码区| 男女下面进入的视频| 亚洲男人堂色偷偷一区| 少妇人妻系列中文在线| 永久天堂网av手机版| 精品国产一区二区三区久久狼| 天天澡天天揉揉AV无码人妻斩| 久久精品国产亚洲av久五月天| 无码人妻aⅴ一区二区三区| 久久婷婷色综合一区二区| 少妇高潮紧爽免费观看| 91精品人妻一区二区三区久久久| 成人网站免费看黄a站视频| 欧美视频第一页| 日韩亚洲在线一区二区| 小妖精又紧又湿高潮h视频69| 性大片免费视频观看| 色偷偷亚洲第一综合网| 经典三级免费看片天堂| 97夜夜澡人人双人人人喊| 亚洲视频99| 色婷婷久色国产成人免费| 日日日日做夜夜夜夜做无码| 7777精品久久久大香线蕉| 91精品人妻一区二区三区蜜臀 | 国产亚洲精品久久午夜玫瑰园 |