亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的人體關(guān)鍵點隱式建模網(wǎng)絡(luò)

        2024-03-21 08:15:28趙佳圓張玉茹蘇曉東徐紅巖李世洲張玉榮
        計算機(jī)工程 2024年3期
        關(guān)鍵詞:關(guān)鍵點機(jī)制特征

        趙佳圓,張玉茹,蘇曉東,徐紅巖,李世洲,張玉榮

        (1.哈爾濱商業(yè)大學(xué)計算機(jī)與信息工程學(xué)院,黑龍江 哈爾濱 150028;2.黑龍江省電子商務(wù)與智能信息處理重點實驗室,黑龍江 哈爾濱 150028)

        0 引言

        近年來,人體姿態(tài)估計任務(wù)[1]已經(jīng)成為計算機(jī)視覺領(lǐng)域的研究熱點,主要應(yīng)用于人機(jī)交互[2]、行為識別[3]等領(lǐng)域。該任務(wù)的主要目的是檢測并定位圖片中所有人體關(guān)鍵點,例如手、膝蓋等。目前的研究表明,盡管卷積神經(jīng)網(wǎng)絡(luò)在姿態(tài)估計任務(wù)中表現(xiàn)不錯,但對于局部信息比較敏感,要想獲取全局上下文信息,就必須依賴更大的卷積核或更深的層。目前,許多單尺度網(wǎng)絡(luò)都采用經(jīng)典的編解碼器結(jié)構(gòu),例如文獻(xiàn)[4-5]介紹上述網(wǎng)絡(luò)通過卷積、池化等下采樣操作提取特征,并通過上采樣操作恢復(fù)分辨率。雖然這樣的結(jié)構(gòu)已經(jīng)取得了很好的性能,但對于復(fù)雜關(guān)鍵點的識別精度難以提升,主要原因是單尺度網(wǎng)絡(luò)缺乏輸入空間的上下文信息。為了解決這個問題,文獻(xiàn)[6-7]提出了多尺度結(jié)構(gòu),將不同尺度的特征進(jìn)行融合,以獲得共享的特征表達(dá)。

        雖然多尺度結(jié)構(gòu)已經(jīng)取得了不錯的效果,但是它在實際任務(wù)中仍然會受到人體可變性和外部因素的影響。此外,復(fù)雜的關(guān)鍵點(如“膝”和“腳踝”)很難被精確識別。在MPII 數(shù)據(jù)集中,高分辨率網(wǎng)絡(luò)(HRNet)對簡單的關(guān)鍵點(如“頭”和“肩”)的PCKh@0.5 精度已經(jīng)接近飽和,分別為96.2%和95.0%。然而,對于復(fù)雜的關(guān)鍵點,例如“膝”和“腳踝”,PCKh@0.5 精度僅達(dá)到84.3% 和80.6%,這限制了模型的整體性能。雖然高分辨自回歸網(wǎng)絡(luò)(HR-ARNet)[8]對HRNet[7]模型進(jìn) 行改進(jìn),并引入 了卷積注意力模塊(CBAM)注意力機(jī)制[9]和自注意力機(jī)制[10],然而單階段的自注意力機(jī)制會使模型的注意力范圍過大,缺乏對特定區(qū)域的控制,導(dǎo)致學(xué)習(xí)到的關(guān)節(jié)之間的關(guān)系不清。

        本文提出一種基于注意力機(jī)制的人體關(guān)鍵點隱式建模網(wǎng)絡(luò),旨在建模關(guān)節(jié)之間的關(guān)系,從而提高復(fù)雜關(guān)鍵點檢測的能力。該模型由兩種不同的注意力機(jī)制組成[10-11],首先通過HRNet 網(wǎng)絡(luò)對輸入圖像進(jìn)行初步的特征提取,隨后采用十字注意力網(wǎng)絡(luò)和多階段的自注意力機(jī)制準(zhǔn)確識別復(fù)雜的關(guān)鍵點,之后隱式建模關(guān)鍵點間結(jié)構(gòu)化信息以提高模型的整體性能,最后采用焦點損失函數(shù)解決訓(xùn)練過程中可能弱化不可見關(guān)鍵點的問題,加速模型收斂速度并提高識別能力。

        1 相關(guān)工作

        1.1 人體姿態(tài)估計

        早期的人體姿態(tài)估計方法大多基于概率圖和圖結(jié)構(gòu)模型來解決[12-13],用若干個可變形的“部件”(即肢體,如頭部、手臂、腿等)組成的集合來表示一個完整的人體結(jié)構(gòu),各個部件采用模板匹配來進(jìn)行檢測,然后依據(jù)各個部件之間的空間約束關(guān)系對人體姿態(tài)的關(guān)鍵點進(jìn)行建模。近年來的研究表明,深度卷積神經(jīng)網(wǎng)絡(luò)的方法在人體姿態(tài)估計任務(wù)中取得較好的效果。

        1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計

        文獻(xiàn)[14]介紹基于深度學(xué)習(xí)的人體姿態(tài)估計算法DeepPose,并借鑒深度神經(jīng)網(wǎng)絡(luò)(DNN)在圖像分類等任務(wù)上的良好表現(xiàn),展開了使用DNN 進(jìn)行人體姿態(tài)估計的研究,將原本的手工特征提取和模板匹配問題轉(zhuǎn)換為網(wǎng)絡(luò)自動提取特征和關(guān)鍵點坐標(biāo)回歸問題。文獻(xiàn)[15]介紹基于熱圖的人體姿態(tài)估計模型,提出了由深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)和馬爾可夫隨機(jī)場(MRF)組成的一種新的混合架構(gòu),通過渲染關(guān)鍵點熱圖的方法,從改變真值的角度提升模型精度。文獻(xiàn)[5]提出了Hourglass 模型,可以在所有尺度上對特征進(jìn)行處理和合并,以最好地捕捉與身體相關(guān)的各種空間關(guān)系,并且采用了重復(fù)的自下而上與自上而下的中間監(jiān)督機(jī)制來提高模型性能,且為了生成最終預(yù)測集采取池化和上采樣的連續(xù)步驟。之后出現(xiàn)了許多基于多尺度特征融合的方法,例如文獻(xiàn)[16]提出了級聯(lián)金字塔網(wǎng)絡(luò)(CPN),該網(wǎng)絡(luò)結(jié)合特征金字塔結(jié)構(gòu)與多尺度特征融合,通過多尺度信息顯式地處理“難”關(guān)鍵點,最后將不同尺度的信息通過上采樣和拼接得到最終特征圖。文獻(xiàn)[8]提出基于圖搜索方法,將殘差模塊擴(kuò)展到金字塔網(wǎng)絡(luò)中,增強(qiáng)DCNN 的尺度不變性。文獻(xiàn)[4]提出由SimpleBaseline 繼承沙漏結(jié)構(gòu),但使用殘差網(wǎng)絡(luò)(ResNet)[17]替換掉原有的對稱結(jié)構(gòu),為人體姿態(tài)估計任務(wù)提供了新的特征提取網(wǎng)絡(luò)。文獻(xiàn)[18]提出通過結(jié)構(gòu)化空間學(xué)習(xí),使用三階段多特征深度卷積網(wǎng)絡(luò)框架生成初始姿態(tài),保持時間一致性,從而獲得精準(zhǔn)的人體姿態(tài)估計結(jié)果。文獻(xiàn)[19]介紹了利用幀間時間差異建模動態(tài)上下文,利用互信息量尋找關(guān)鍵信息,去除噪聲,提升姿態(tài)估計精度。

        與上述方法不同,文獻(xiàn)[7]認(rèn)為由低到高恢復(fù)分辨率的過程會損失一些特征信息,故提出全程保持高分辨率特征的網(wǎng)絡(luò)HRNet,該網(wǎng)絡(luò)由并行高分辨率與低分辨率子網(wǎng)絡(luò)組成,并在多分辨率子網(wǎng)絡(luò)之間重復(fù)交換信息,通過重復(fù)多尺度融合,在相同深度和相似級別的低分辨率表示的幫助下提高高分辨率表示,從而使高分辨率特征圖也有豐富的姿勢估計。經(jīng)過這樣全程保持高分辨率特征,反復(fù)的多尺度特征融合,可以生成更精確的關(guān)鍵點熱圖。由于這樣密集的多尺度特征融合,使卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了共享的特征表達(dá),也使得該結(jié)構(gòu)得到了最先進(jìn)的結(jié)果。此外,文獻(xiàn)[16]使用在線難關(guān)節(jié)點挖掘(OHKM)損失函數(shù)代替普通的MSE 損失函數(shù),從損失函數(shù)的角度提升了模型的識別精度,更加關(guān)注一些復(fù)雜的關(guān)鍵點。

        1.3 注意力機(jī)制

        注意力機(jī)制是一種用于計算機(jī)視覺系統(tǒng)中快速高效地關(guān)注重點區(qū)域的特性。它被廣泛地應(yīng)用于各種計算機(jī)視覺任務(wù)中,如圖像分割[20]和目標(biāo)檢測[21]等。文獻(xiàn)[9]提出卷積注意力模塊(CBAM),如圖1所示,它結(jié)合了空間和通道之間的注意力特征。通過卷積建立特征之間的相關(guān)性,CBAM 可以提高特征在通道和空間上的聯(lián)系,更有利于提取目標(biāo)的有效特征。CBAM 中的空間注意力模塊的輸出需要經(jīng)過7×7 卷積進(jìn)行信息整合,但由于7×7 的感受野受限,對于人體姿態(tài)估計任務(wù)往往需要更大的感受野。為了解決這個問題,在語義分割任務(wù)中,文獻(xiàn)[11]介紹了十字交叉注意力網(wǎng)絡(luò)(CCNet),如圖2 所示。CCNet 將感受野擴(kuò)大到全局范圍,從而提高了圖像分割的精度。

        圖1 CBAM 注意力機(jī)制Fig.1 CBAM attention mechanism

        圖2 十字交叉注意力機(jī)制Fig.2 Cross attention mechanism

        隨著Vision Transformer[22]的推出,人體姿態(tài)估計任務(wù)的新思路隨之而來。Transformer 的主要思想是通過計算輸入之間的注意力和自注意力來獲得全局感受野。雖 然PoseFormer[23]是第1 個使用 純Transformer 架構(gòu)進(jìn)行姿態(tài)估計的模型,但由于純Transformer 結(jié)構(gòu)的特征提取能力較弱,需要大量的訓(xùn)練數(shù)據(jù),因此大多數(shù)工作使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)與Transformer 相結(jié)合 的架構(gòu)。例 如,TokenPose[24]使用CNN 進(jìn)行特征提取,并將每個關(guān)鍵點嵌入到一個Token 中,以同時從圖像中學(xué)習(xí)約束和外觀線索。HR-ARNet[8]提出了注意力細(xì)化網(wǎng)絡(luò),利用注意力機(jī)制對HRNet 提取的特征進(jìn)行細(xì)化,使用單階段自注意力機(jī)制尋找關(guān)節(jié)遠(yuǎn)距離關(guān)系。但是,使用單階段方法會使每個關(guān)鍵點的注意力不集中。受到TransPose[25]的啟發(fā),本 文方法對CNN 提取的特征進(jìn)行迭代注意力計算,以達(dá)到細(xì)化目標(biāo)關(guān)鍵點的目的。

        2 本文工作

        本文旨在構(gòu)建一個可即插即用的網(wǎng)絡(luò),用于建模人體關(guān)鍵點之間的遠(yuǎn)程關(guān)系。首先描述模型的整體架構(gòu),然后對注意力計算進(jìn)行數(shù)學(xué)分析,最后通過結(jié)合相關(guān)損失函數(shù)的方法達(dá)到對復(fù)雜關(guān)鍵點識別的目的。

        2.1 模型架構(gòu)

        本文提出一種基于注意力機(jī)制的關(guān)鍵點隱式建模網(wǎng)絡(luò),如圖3 所示,該網(wǎng)絡(luò)由3 個部分組成,分別是CNN 主干網(wǎng)絡(luò)用于特征提取、特征篩選網(wǎng)絡(luò)基于十字交叉注意力機(jī)制、多階段關(guān)節(jié)隱式建模網(wǎng)絡(luò)。

        圖3 關(guān)鍵點隱式建模架構(gòu)Fig.3 Architecture of key points implicit modeling

        2.2 主干網(wǎng)絡(luò)

        為了證明本文提出方法的有效性,本文選擇當(dāng)前精度最高的HRNet[7]作為主干網(wǎng)絡(luò),并使用經(jīng)典的特征提取網(wǎng)絡(luò)ResNet[17]作為主干網(wǎng)絡(luò)來證明本文方法的魯棒性。

        HRNet 在整個網(wǎng)絡(luò)前向傳播的過程中能夠保持輸入圖片的高分辨率特征,并且在不同階段進(jìn)行高低分辨率特征融合,從而在MSCOCO 和MPII 數(shù)據(jù)集上獲得了優(yōu)于以往研究的成果。如圖4 所示,在HRNet 的最后一層將前面各層子網(wǎng)信息進(jìn)行融合,產(chǎn)生輸出,并且全程保留高分辨率信息。由于并行的子網(wǎng)代表來自之前網(wǎng)絡(luò)中不同尺度的語義信息,直接聚合會存在信息冗余。因此,本文使用十字交叉注意力機(jī)制關(guān)注關(guān)鍵信息,抑制冗余信息,從而增強(qiáng)了網(wǎng)絡(luò)的特征融合能力。

        圖4 HRNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 HRNet network structure

        2.3 特征篩選網(wǎng)絡(luò)

        特征篩選網(wǎng)絡(luò)基于十字交叉注意力機(jī)制搭建,設(shè)從主干網(wǎng)絡(luò)輸出得到局部特征圖為F?RH×W×C,其中,H×W代表特征圖的分辨率,C代表通道數(shù)。將其通過兩個1×1 卷積映射至不同特征空間,得到兩個分別為Q與K的特征張量,{Q,K} ?RC'×W×H,C'表示特征圖的通道數(shù),且C' <C,同時通過另一個1×1卷積,得到一個V特征張量,V?RC×W×H。在Q張量中某個位置沿通道取出一向量Qu,Qu?RC'。同時,在K張量中相同位置,取出該位置所在一行與一列的 一組向量,即特征向量Ωu?R[H+W-1]×C',將 兩個向量進(jìn)行融合,融合運算定義如下:

        其中:i?[1,2,…,(H+W-1)];u代表平面維度;di,u代表特 征Qu與Ωi,u之間的 相關(guān)程 度,且di,u?R[H+W-1][W×H],Ωi,u代表Ωu中的第i個元素。經(jīng)過融合計算后,應(yīng)用Softmax 對位置關(guān)系進(jìn)行歸一化,得出注意力權(quán)重A。在V中位置u處取出該位置所在一行與一列的一組向量,即特征向量φu?R[H+W-1]×C,用于遠(yuǎn)程上下文信息聚合操作,聚合運算定義如下:

        最終輸出Hu' 大小為C×W×H,通過這樣計算,可以達(dá)到對局部特征進(jìn)行增強(qiáng)的目的,擁有一個更加寬闊的上下文視圖。

        2.4 多階段關(guān)節(jié)隱式建模網(wǎng)絡(luò)

        在人體姿態(tài)估計任務(wù)中,卷積運算只處理卷積核大小的局部信息,若想獲得遠(yuǎn)距離關(guān)鍵點之間的關(guān)系,則需要擴(kuò)大感受野。目前基于卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)大感受野的方法大多為增加卷積神經(jīng)網(wǎng)絡(luò)的深度或者增大卷積核[26],但這無疑帶來了更大的計算量。

        為解決這一問題,本文利用自注意力機(jī)制來尋找關(guān)節(jié)之間遠(yuǎn)距離依賴。設(shè)CNN 主干網(wǎng)絡(luò)輸出特征圖F?RH×W×C,首先通過1×1 卷積將其映射至特征圖Fforward?RH×W×d,以提升網(wǎng)絡(luò)對特征的表征能力。如果直接使用特征圖F計算相似性,則直接體現(xiàn)了語義上的相似性,在計算注意力權(quán)重時會產(chǎn)生一定的局限性。而映射到新的空間后,則增加了輸入之間相似性計算的多樣性,不僅僅是在語義上的相似性,更加強(qiáng)化了上下文的注意力。之后將其特征圖展開為X?RL×d的序列,其中L=H×W,經(jīng)過N層注意力網(wǎng)絡(luò)和前向傳播網(wǎng)絡(luò)。多階段關(guān)節(jié)建模網(wǎng)絡(luò)整體架構(gòu)如圖5 所示。

        圖5 多階段關(guān)節(jié)隱式建模網(wǎng)絡(luò)Fig.5 Multistage joint implicit modeling network

        對于上一階段特征圖,首先通過3個矩陣Wq、Wk、Wv?Rd×d將其映射至Q?RL×d、K?RL×d和V?RL×d。之后,注意力分?jǐn)?shù)矩陣A?RN×N計算方式如下:

        其中:Wq、Wk、Wv3 個矩陣中的參數(shù)都是可學(xué)習(xí)的。自注意力機(jī)制通過計算向量之間的相關(guān)性,很好地解釋了特征圖之間的相關(guān)性,從而建模遠(yuǎn)距離關(guān)節(jié)關(guān)系。而通過堆疊N層,可以逐漸細(xì)化響應(yīng)位置。

        網(wǎng)絡(luò)的FNN 部分是必不可少的,在自注意力機(jī)制的計算內(nèi)部結(jié)構(gòu)中進(jìn)行的是線性變換,而線性變換的學(xué)習(xí)能力不如非線性變換強(qiáng)。盡管注意力輸出利用自注意力機(jī)制,學(xué)習(xí)到了每個特征的新表達(dá)形式,但是這種表征的表達(dá)能力可能并不強(qiáng)。通過使用激活函數(shù),可以加強(qiáng)數(shù)值較大的部分并抑制數(shù)值較小的部分,從而提高相關(guān)部分的表達(dá)效果。此外,在全連接層中,將數(shù)據(jù)映射到高維空間再映射到低維空間的過程可以學(xué)習(xí)到更抽象的特征,同時也可以防止過擬合。

        2.5 損失函數(shù)

        本文提出基于熱圖的姿態(tài)估計方法,在網(wǎng)絡(luò)對圖片預(yù)測過程中,網(wǎng)絡(luò)針對每個關(guān)鍵點生成一張概率圖,共有X張概率圖,X為關(guān)節(jié)點數(shù)量。假設(shè)是模型預(yù)測第k個關(guān)鍵點概率圖,由高斯函數(shù)渲染,Hk~N(zk,σ),其 中,zk=(xk,yk),表示輸 入圖像 中第k個關(guān)鍵點位置,損失值由均方誤差計算:

        可以看出,如果通過所有關(guān)鍵點計算損失值,則有可能會使網(wǎng)絡(luò)關(guān)注簡單關(guān)鍵點,如“頭”等,而忽略復(fù)雜關(guān)鍵點,如“膝蓋”等。本文使用焦點損失,反向傳播前Y個關(guān)鍵點損失,使模型更能關(guān)注復(fù)雜關(guān)鍵點,表達(dá)式如下:

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集與評價指標(biāo)

        本文使 用公開 數(shù)據(jù)集MPII 數(shù)據(jù)集[27]和MSCOCO 數(shù)據(jù)集[28]評估本文的方法。所有模型用PyTorch 框架實現(xiàn),實驗顯卡使用一塊NVIDIA GeForce RTX 2080 Ti。

        MPII數(shù)據(jù)集包括約25 000張圖片和超過400 000個帶有16 個關(guān)鍵點的標(biāo)簽。該數(shù)據(jù)集涉及410 種人類活動,例如“騎自行車”、“滑雪”等,其中有超過33 000 個不可見關(guān)鍵點,且許多圖片的背景十分復(fù)雜。這使得該數(shù)據(jù)集非常適合評估本文的工作。本文使用官方數(shù)據(jù)集劃分,使用包含22 246 張圖片的訓(xùn)練集來訓(xùn)練模型,并使用包含2 958 張圖片的驗證集來驗證模型的有效性。參照之前的工作[6,29],輸入圖像是根據(jù)注釋中心的尺度參數(shù)從原始圖像中裁剪出256×256 像素的圖像。MSCOCO 數(shù)據(jù)集包含超過200 000 張圖片和250 000 個帶有17 個關(guān)鍵點的人體實例。在MSCOCO 數(shù)據(jù)集中,將輸入圖像的分辨率大小調(diào)整為256×192 像素。MSCOCO 數(shù)據(jù)集被劃分為train、val 和test-dev 3 個集合,分別包含57 000 張、5 000 張和20 000 張圖片。本文實驗在train 集上進(jìn)行訓(xùn)練,并在val 集上進(jìn)行驗證。

        MPII 數(shù)據(jù)集 評價指標(biāo)為PCKh[27],其計算方式如下:

        其中:X為關(guān)鍵點數(shù);PPCKh@α是頭部閾值為α?xí)r預(yù) 測正確關(guān)鍵點的比例;f(pi)代表關(guān)鍵點相似度。f(pi)計算方法如下:

        其中:0.6L表示人體頭部區(qū)域框?qū)蔷€長度的60%;是關(guān)鍵點pi的預(yù)測值是關(guān)鍵點pi的真值;代表預(yù)測值與真實值之間歐氏距離;α為頭部歸一化閾值。

        在MSCOCO 數(shù)據(jù)集上,使用Average Precision(AP)做評價指標(biāo)。AP 基于關(guān)鍵點相似度(OKS)計算,OKS 計算方式如下:

        其中:di為網(wǎng)絡(luò)預(yù)測值與真實值的歐氏距離;vi代表該關(guān)鍵點的可見性;s代表物體像素面積;ki代表關(guān)鍵點影響因子。平均精度指標(biāo)與召回率表示如下:AP50(OKS 為0.5 的AP 值),APM(中尺度目標(biāo)),APL(大尺度目標(biāo)),AP(OKS 為0.50,0.55,…,0.95 的平均精度),AR(OKS 為0.50,0.55,…,0.95 的平均召回率)。

        3.2 定量分析

        本文在Nvidia GeForce RTX 2080 Ti 顯卡上對其他模型進(jìn)行復(fù)現(xiàn),用于與本文方法進(jìn)行對比。表1與表2 為本文方法在MPII 數(shù)據(jù)集與MSCOCO 數(shù)據(jù)集上的實驗結(jié)果(加粗字體為最優(yōu)值)。

        表1 MPII 數(shù)據(jù)集實驗結(jié)果Table 1 Experimental results of MPII dataset %

        表2 MSCOCO 數(shù)據(jù)集實驗結(jié)果Table 2 Experimental results of MSCOCO dataset

        為體現(xiàn)本文方法可適用于不同特征提取網(wǎng)絡(luò),本文分別使用HRNet 與ResNet 做主干網(wǎng)絡(luò)進(jìn)行定量分析。實驗結(jié)果表明,本文方法能夠提升不同特征提取網(wǎng)絡(luò)的準(zhǔn)確性,并提高復(fù)雜關(guān)鍵點的識別能力。在MPII 數(shù)據(jù)集中,使用本文方法對HRNet 和ResNet 兩種網(wǎng)絡(luò)進(jìn)行實驗,結(jié)果顯示在HRNet 的基礎(chǔ)上,本文方法的精度提高了1.7%,而對于ResNet,精度提高了18.6%。值得注意的是,在以HRNet 為主干網(wǎng)絡(luò)的實驗中,關(guān)鍵點“膝”和“腳踝”的精度分別提高了3.1%和2.3%。在以ResNet 為主干網(wǎng)絡(luò)的實驗中,關(guān)鍵點“膝”和“腳踝”的精度分別提高了24.1%和25.6%。這表明本文方法對不同的特征提取網(wǎng)絡(luò)都有效,并且具有魯棒性。

        實驗結(jié)果顯示,在MSCOCO 數(shù)據(jù)集中,使用ResNet 作為主干網(wǎng)絡(luò)時,平均精度(AP)提高了34.7%,而使用HRNet 作為主干網(wǎng)絡(luò)時,AP 僅提高了2.6%。對比實驗結(jié)果表明,使用經(jīng)典的ResNet 作為主干網(wǎng)絡(luò)的精度可以與其他優(yōu)秀模型相媲美,這再次證明了本文提出方法的有效性。

        3.3 消融實驗

        為確定模型中超參數(shù),本文以MPII 數(shù)據(jù)集為基準(zhǔn)數(shù)據(jù)集,HRNet 為特征提取網(wǎng)絡(luò),對超參數(shù)進(jìn)行消融實驗。

        1)多頭注意力:本文使用了多頭注意力機(jī)制來建模網(wǎng)絡(luò)。不同頭數(shù)的注意力機(jī)制代表了模型從不同角度提取特征,因此導(dǎo)致了不同的最終效果。本文分別嘗試了頭數(shù)為1、2 和4 個的情況,并將結(jié)果列在表3 中。實驗結(jié)果表明,當(dāng)頭數(shù)為2 個時,模型效果最佳。然而,當(dāng)頭數(shù)增加時,效果開始下降。這可能是因為增加頭數(shù)會導(dǎo)致模型的注意力分散到其他區(qū)域,從而削弱注意力機(jī)制。相反,使用單頭注意力機(jī)制可能會使模型過度關(guān)注當(dāng)前位置,而忽略其他信息。

        表3 模型頭數(shù)消融實驗結(jié)果Table 3 Ablation experiment results of model heads

        2)隱式建模層數(shù):本文對隱式建模網(wǎng)絡(luò)中隱式建模層數(shù)N進(jìn)行消融分析,實驗結(jié)果如表4 所示。從表4 可以看出,當(dāng)隱式建模層數(shù)為4 時,模型效果最佳。相較于2 層網(wǎng)絡(luò),4 層網(wǎng)絡(luò)更注重“難”關(guān)鍵點的提取,具有更細(xì)致的特征。但是,6 層網(wǎng)絡(luò)相較于4 層網(wǎng)絡(luò)并沒有明顯提升,這表明過多的層數(shù)可能會導(dǎo)致特征冗余,影響模型精度。

        表4 隱式建模層數(shù)消融實驗結(jié)果Table 4 Ablation experiment results of implicit modeling layers

        3)特征篩選網(wǎng)絡(luò):本文對不同的特征篩選網(wǎng)絡(luò)進(jìn)行比較,實驗結(jié)果如表5 所示。從表5 可以看出,相較于CBAM 網(wǎng)絡(luò),十字交叉網(wǎng)絡(luò)更適合人體姿態(tài)估計任務(wù),這表明在人體姿態(tài)估計任務(wù)中,空間信息更有利于關(guān)鍵點的檢測。

        表5 不同特征篩選網(wǎng)絡(luò)消融實驗結(jié)果Table 5 Ablation experiment results of different feature screening networks %

        4)關(guān)鍵點損失數(shù):本文對焦點損失反向傳播關(guān)節(jié)損失個數(shù)Y進(jìn)行消融實驗,實驗結(jié)果如表6 所示。實驗結(jié)果表明,當(dāng)Y=5 時,模型表現(xiàn)最佳。相比于不使用焦點損失,即Y=16 的情況,焦點損失可以提高模型的精度,與假設(shè)一致,即焦點損失可以使模型更加關(guān)注“難”關(guān)鍵點。當(dāng)Y>5 時,模型的精度會下降,這可能是因為隨著關(guān)節(jié)損失個數(shù)的增加,模型對于“難”關(guān)鍵點的關(guān)注減弱,從而導(dǎo)致精度降低。

        表6 關(guān)鍵點損失數(shù)消融實驗結(jié)果Table 6 Ablation experiment results of key point loss count

        3.4 定性分析

        對隱式建模的每個階段的可視化如圖6 所示。從圖6 可以看出,不同的CNN 架構(gòu)具有不同的關(guān)節(jié)依賴偏好。但隨著注意力層的增加,兩個模型的關(guān)注點都會逐漸細(xì)化,即使是不可見點,模型仍然可以通過其他關(guān)節(jié)線索對其進(jìn)行推斷。如圖7 所示,分別展示了在MSCOCO 驗證集與MPII 驗證集上的結(jié)果。本文使用自注意力機(jī)制,打破卷積操作的局部感受,使用非局部方法對關(guān)鍵點結(jié)構(gòu)隱式建模,以提升模型的識別能力。但本文算法具有一定的局限性,由于本文算法仍屬于熱圖方法,需要足夠的內(nèi)存,難以在資源受限的設(shè)備上運行,雖然使用了非局部方法,但由于自注意力機(jī)制只能在有限的上下文中關(guān)注特征的相關(guān)性,因此仍有可能存在一定的局部感受,需要更詳細(xì)的分析和實驗來確定。

        圖6 不同骨干網(wǎng)絡(luò)的可視化結(jié)果Fig.6 Visualization results of different backbone networks

        圖7 在MSCOCO 和MPII 驗證集上的可視化結(jié)果Fig.7 Visualization results on MSCOCO and MPII validation sets

        4 結(jié)束語

        本文提出一種基于注意力機(jī)制的人體關(guān)鍵點隱式建模方法。首先基于十字交叉注意力機(jī)制搭建特征篩選網(wǎng)絡(luò),增強(qiáng)關(guān)鍵特征,抑制不重要特征;其次采用多階段自注意力機(jī)制構(gòu)建關(guān)鍵點隱式建模網(wǎng)絡(luò),通過反復(fù)計算關(guān)節(jié)特征之間相關(guān)性,明確學(xué)習(xí)關(guān)鍵點之間約束關(guān)系,隱式建模關(guān)節(jié)之間的高階關(guān)系;最后采用焦點損失,使模型更加關(guān)注復(fù)雜識別關(guān)鍵點,提升模型對復(fù)雜關(guān)鍵點的識別能力。實驗結(jié)果表明,本文方法能夠很好地融入任意人體姿態(tài)估計特征提取網(wǎng)絡(luò)中,即插即用,可以提高網(wǎng)絡(luò)識別精度,并具有泛化能力。下一步將從圖形學(xué)角度對本文方法進(jìn)行研究,以達(dá)到提升模型關(guān)鍵點識別能力、縮短模型的訓(xùn)練時間和提高模型魯棒性的目的。

        猜你喜歡
        關(guān)鍵點機(jī)制特征
        聚焦金屬關(guān)鍵點
        肉兔育肥抓好七個關(guān)鍵點
        如何表達(dá)“特征”
        不忠誠的四個特征
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        抓住特征巧觀察
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        醫(yī)聯(lián)體要把握三個關(guān)鍵點
        打基礎(chǔ) 抓機(jī)制 顯成效
        中國火炬(2014年4期)2014-07-24 14:22:19
        亚洲国产精品无码中文字| 精品国精品自拍自在线| 国产精品一区二区三区四区亚洲| 亚洲精品一区二区三区麻豆| 67194熟妇在线永久免费观看| 国产精品高清视亚洲乱码有限公司| 国产自产自现在线视频地址| 少妇人妻中文久久综合| 天天做天天爱天天综合网2021| 热99精品| 亚洲视频在线中文字幕乱码| 久久精品一区午夜视频| 免费99精品国产自在在线| 久久av高潮av喷水av无码| 亚洲国产精品成人一区二区三区| 日本孕妇潮喷高潮视频| 丰满少妇被猛烈进入| 亚洲成a人网站在线看| 亚洲一区域二区域三区域四| 精品国产yw在线观看| 四川少妇大战4黑人| 午夜影院91| 熟妇人妻精品一区二区视频| 日韩人妻无码一区二区三区久久| 美女裸体自慰在线观看| 精选二区在线观看视频| 男女裸体做爰视频高清| 污污内射在线观看一区二区少妇| 中文字幕一区二区三区四区在线| 日本不卡一区二区三区在线观看 | 丝袜足控一区二区三区| 亚洲粉嫩av一区二区黑人| 亚洲一区二区三区四区地址| 亚洲性爱视频| 国产高清在线精品一区αpp| 亚洲美女主播内射在线| 99精品久久精品一区二区| 午夜婷婷国产麻豆精品| 狠狠久久av一区二区三区| 欧美a级在线现免费观看| 蜜臀av一区二区|