亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融入部分卷積和解耦全連接注意力的輕量級人體姿態(tài)估計(jì)

        2024-01-23 01:41:04陳錦
        現(xiàn)代信息科技 2023年23期

        陳錦 等

        蔣錦華? 莊麗萍? 姚洪澤? 蔡志明

        摘? 要:輕量級人體姿態(tài)估計(jì)網(wǎng)絡(luò)使得網(wǎng)絡(luò)的參數(shù)量和計(jì)算量大大減少,使其能夠在計(jì)算資源有限的設(shè)備上進(jìn)行快速推理。如何在保持模型輕量化的同時(shí)提高人體姿態(tài)識別網(wǎng)絡(luò)的性能是當(dāng)前重要的研究課題。文章基于Dite-HRNet,提出融入部分卷積和解耦全連接注意力機(jī)制的LPFANet網(wǎng)絡(luò),將部分卷積與動(dòng)態(tài)分離卷積相結(jié)合,構(gòu)建了一個(gè)強(qiáng)化特征提取結(jié)構(gòu),同時(shí)使用了全局特征建模和密集特征建模進(jìn)行特征再提取。在MPII數(shù)據(jù)集上測試,實(shí)驗(yàn)表明,與Dite-HRNet相比,LPFANet在少量增加參數(shù)量和計(jì)算量的情況下,平均準(zhǔn)確率提升了1.2%。文章網(wǎng)絡(luò)在輕量化的同時(shí)有效提升了識別精確度。

        關(guān)鍵詞:輕量級;部分卷積;解耦;注意力機(jī)制

        中圖分類號:TP391.4;TP18? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)23-0093-07

        Lightweight Human Pose Estimation of Incorporating Partial Convolution and Decoupled Fully Connected Attention

        CHEN Jin, JIANG Jinhua, ZHUANG Liping, YAO Hongze, CAI Zhiming

        (Fujian University of Technology, Fuzhou? 350118, China)

        Abstract: Lightweight human pose estimation networks greatly reduce the number of parameters and computational resources, enabling fast inference on devices with limited computing resources. How to improving the performance of human pose recognition networks while keeping the model lightweight is currently an important research topic. Based on Dite-HRNet, this paper proposes LPFANet network which incorporates partial convolution and decoupled fully connected attention mechanism. It constructs a strong feature extraction structure by combining partial convolution with dynamic separable convolution, and uses both global feature modeling and dense feature modeling for feature re-extraction. It tests on the MPII dataset, and the experiments show that LPFANet improves the average accuracy by 1.2% compared to Dite-HRNet, with a small increase in the number of parameters and computational resources. The proposed network effectively improves the recognition accuracy while maintaining lightweightness.

        Keywords: lightweight; partial convolution; decoupled; attention mechanism

        0? 引? 言

        人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺中的一項(xiàng)重要任務(wù),它的目標(biāo)是從圖像或視頻中自動(dòng)檢測出人體的姿態(tài),即人體的關(guān)節(jié)位置和相對角度。這個(gè)任務(wù)對于許多應(yīng)用非常關(guān)鍵,如人機(jī)交互、人體動(dòng)作分析、游戲、體育運(yùn)動(dòng)等領(lǐng)域。

        在深度學(xué)習(xí)中,2D人體姿態(tài)估計(jì)的兩類主要方法是自頂向下和自底向上方法。自頂向下方法將人體姿態(tài)估計(jì)分為兩個(gè)步驟。首先,檢測出所有人的位置,然后為每個(gè)檢測到的人獨(dú)立地估計(jì)他們的姿態(tài)信息。自底向上方法首先使用CNN或其變體從輸入圖像中提取特征,然后使用密集的關(guān)鍵點(diǎn)檢測器來檢測出所有的關(guān)鍵點(diǎn)。最后,根據(jù)關(guān)鍵點(diǎn)之間的關(guān)系,利用圖像中所有關(guān)鍵點(diǎn)的組合來估計(jì)人體的姿態(tài)信息。

        隨著深度學(xué)習(xí)的發(fā)展,人體姿態(tài)估計(jì)網(wǎng)絡(luò)也出現(xiàn)了很多優(yōu)秀的研究成果[1],Papandreo等[2]提出了一種高效的自頂向下的多人姿態(tài)估計(jì)方法,首先使用Faster R-CNN預(yù)測可能包含人體目標(biāo)的邊界框的位置和大小,并對其進(jìn)行裁剪。然后采用全卷積ResNet網(wǎng)絡(luò)預(yù)測每個(gè)關(guān)鍵點(diǎn)的密度熱圖和偏移量,最后通過融合關(guān)鍵點(diǎn)和偏移量以確定人體關(guān)鍵點(diǎn)的準(zhǔn)確位置。Chen等[3]提出了一種級聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network, CPN),由GlobalNet和RefineNet兩個(gè)子網(wǎng)絡(luò)組成。GlobalNet利用特征金字塔網(wǎng)絡(luò)提取不同尺度的特征,以獲得包含簡單關(guān)鍵點(diǎn)的特征表示。但是,該子網(wǎng)絡(luò)無法準(zhǔn)確地識別被遮擋或不可見的關(guān)鍵點(diǎn)。而RefineNet則將GlobalNet不同分辨率下的特征表示融合在一起,利用融合后的上下文信息,以使被遮擋的關(guān)鍵點(diǎn)能夠被準(zhǔn)確定位。Sun等[4]提出了一種名為HRNet(High-Resolution Network)的新型網(wǎng)絡(luò)結(jié)構(gòu),該方法始終保持主干網(wǎng)絡(luò)為高分辨率進(jìn)行特征提取,以提高預(yù)測關(guān)鍵點(diǎn)的準(zhǔn)確性。Wang等[5]提出了一種用于增強(qiáng)多尺度特征融合的注意力改進(jìn)網(wǎng)絡(luò)HR-ARNet,其中采用了通道和空間注意機(jī)制,以增強(qiáng)重要特征并抑制不必要的特征,并解決了關(guān)鍵點(diǎn)之間不一致的問題。

        Tang等人[6]通過提出類似于沙漏網(wǎng)絡(luò)的密集連接U-Nets網(wǎng)絡(luò),實(shí)現(xiàn)了高精度的關(guān)鍵點(diǎn)定位。Debnath等人[7]受沙漏網(wǎng)絡(luò)啟發(fā),通過在MobileNets的最后兩層引入了一種新穎的分流體系結(jié)構(gòu),減少了模型的參數(shù)和緩解了過擬合,從而提高了精度。Zhang等人[8]引入全局注意力機(jī)制并提出輕量級的瓶頸塊來替換ResNet中的瓶頸塊,構(gòu)造了結(jié)構(gòu)與SimpleBaseline相似的LPN。Yu等人[9]提出采用通道加權(quán)的形式來替換ShuffleNet中的通道清洗模塊的點(diǎn)卷積,并構(gòu)建了高分辨率特征表示的Lite-HRNet網(wǎng)絡(luò)。Li等人[10]提出了動(dòng)態(tài)輕量級高分辨率網(wǎng)絡(luò)Dite-HRNet,可以有效地提取多尺度上下文信息和建模長距離空間依賴性,從而更好地進(jìn)行人體姿勢估計(jì)。

        本文基于以上研究,采用與Dite-HRNet相同的結(jié)構(gòu)框架,提出了一個(gè)融入部分卷積(Partial Convolution, PConv)[11]和解耦全連接(Decoupled Fully Connected, DFC)[12]注意力機(jī)制的輕量級的人體估計(jì)網(wǎng)絡(luò)——LPFANet(Lightweight Partial Convolution and Decoupled Fully-connected Attention Network)。

        基于以上描述,本文提出的網(wǎng)絡(luò)主要貢獻(xiàn)有以下幾點(diǎn):

        1)將PConv應(yīng)用于Dite-HRNet網(wǎng)絡(luò),保持網(wǎng)絡(luò)輕量化的同時(shí)提升網(wǎng)絡(luò)性能。

        2)使用了DFC注意力機(jī)制,在幾乎不增加模型復(fù)雜度的條件下,提升網(wǎng)絡(luò)性能。

        3)提出了一種改進(jìn)的高效網(wǎng)絡(luò)LPFANet。在實(shí)驗(yàn)中,LPFANet在MPII人體姿態(tài)估計(jì)數(shù)據(jù)集的網(wǎng)絡(luò)性能和復(fù)雜性之間取得了很好的平衡。

        1? 相關(guān)工作

        1.1? 高分辨網(wǎng)絡(luò)

        高分辨率網(wǎng)絡(luò)(HRNet)是一種用于人體姿態(tài)估計(jì)的網(wǎng)絡(luò),它是其他相關(guān)問題的基礎(chǔ),例如多人姿勢估計(jì)、視頻姿勢估計(jì)和跟蹤。HRNet背后的主要思想是在整個(gè)過程中保持高分辨率的表示,從而有可能獲得更準(zhǔn)確、空間上更精確的關(guān)鍵點(diǎn)熱圖預(yù)測。該網(wǎng)絡(luò)通過反復(fù)進(jìn)行多尺度融合來實(shí)現(xiàn)這一目標(biāo),在整個(gè)過程中通過并行多分辨率子網(wǎng)一遍又一遍地交換信息。

        HRNet分為四個(gè)階段。高分辨率階段:該階段的輸入圖像分辨率最高,通常為原始分辨率,以保留盡可能多的圖像細(xì)節(jié)。拓展階段:在該階段,HRNet對圖像進(jìn)行下采樣,以減少特征圖的空間尺寸,并增加特征圖的通道數(shù)。這有助于提高網(wǎng)絡(luò)的感受野,從而更好地捕獲全局特征。融合階段:在該階段,HRNet將不同分辨率的特征圖進(jìn)行融合。這可以幫助網(wǎng)絡(luò)同時(shí)捕獲低級別和高級別的特征。重建階段:最后一個(gè)階段使用高分辨率的特征圖來重建輸出。這有助于提高最終結(jié)果的精度,并減少信息的丟失。

        1.2? 自注意力機(jī)制

        自注意力機(jī)制[13]不是輸入語句和輸出語句之間的注意力機(jī)制,而是輸入語句內(nèi)部元素之間或者輸出語句內(nèi)部元素之間發(fā)生的注意力機(jī)制。典型的自注意力模塊對特征形狀的大小具有二次復(fù)雜度,計(jì)算復(fù)雜度較高,不太適合計(jì)算。此外,為了計(jì)算注意力圖,需要進(jìn)行大量的特征拆分和重塑操作。盡管它們的理論復(fù)雜度是可以忽略不計(jì)的,但這些操作在實(shí)踐中會(huì)增加內(nèi)存使用量和延遲時(shí)間。因此,在輕量級模型中使用原始自注意力對移動(dòng)部署不太友好。

        2? 本文模型

        2.1? LPFANet網(wǎng)絡(luò)

        如圖1所示,LPFANet是一個(gè)4級網(wǎng)絡(luò),由一個(gè)分辨率最高的主分支和三個(gè)高分辨率到低分辨率的分支組成,這些分支在每個(gè)新階段開始時(shí)被逐一并入網(wǎng)絡(luò)。與之前添加的分支相比,每個(gè)新添加的分支具有一半的分辨率和兩倍的通道數(shù)量。在LPFANet的所有四個(gè)階段中,第一階段,也被認(rèn)為是主干,包含一個(gè)3×3卷積和主分支上的DGF模塊。隨后的每個(gè)階段由一系列跨分辨率模塊組成,這些模塊由兩個(gè)DMF模塊和一個(gè)多尺度融合層組成,在所有分支之間交換信息。具有最高分辨率的主分支保持著高分辨率的表示,這為后續(xù)的姿勢估計(jì)提供了骨干網(wǎng)絡(luò)的最終輸出。為了進(jìn)行公平的比較,本文提出了LPFANet網(wǎng)絡(luò)的兩個(gè)實(shí)例,LPFANet-18和LPFANet-30,它們的網(wǎng)絡(luò)寬度和深度分別對應(yīng)于Dite-HRNet-18和Dite-HRNet-30。

        如圖2所示,本文的動(dòng)態(tài)多尺度特征模塊(Dynamic Multi-scale Feature, DMF)和動(dòng)態(tài)全局特征模塊(Dynamic Global Feature, DGF)具有相似的總體結(jié)構(gòu),應(yīng)用了ShuffleNetV2中的通道分割(channel split)、特征拼接(concatenation)和通道洗牌(channel shuffle)操作,以匯集不同層提取的不同特征。兩個(gè)塊之間的一個(gè)區(qū)別是DMF模塊在一半的通道上應(yīng)用一系列層,而DGC模塊在所有兩個(gè)通道組上應(yīng)用兩個(gè)不同的層序列。DMF塊中的層序列包含一個(gè)Dense Feature Modeling(DFM)操作、一個(gè)DFSC和一個(gè)全局特征建模(GFM)。DFM和GFM都是AFM方法的實(shí)例化。在DGF塊中,對一個(gè)通道組執(zhí)行一個(gè)3×3步幅深度可分離卷積、一個(gè)GFM和一個(gè)1×1卷積,而對另一個(gè)通道組執(zhí)行一個(gè)3×3深度可分離卷積、一個(gè)GFM、一個(gè)1×1卷積和一個(gè)3×3步幅深度可分離卷積。DGC塊中的每個(gè)卷積和DFSC層通過動(dòng)態(tài)內(nèi)核聚合(Dynamic Kernel Aggregation,DKA)生成卷積核。

        2.2? 動(dòng)態(tài)快速分離卷積

        如圖3所示,在動(dòng)態(tài)快速分離卷積(Dynamic Fast Split Convolution, DFSC)模塊中,基于FasterNet[11]的思想,使用了相比常規(guī)conv,擁有著更少的內(nèi)存訪問量的PConv來加強(qiáng)特征圖的提取。

        因?yàn)榫W(wǎng)絡(luò)的中間層特征圖存在高度冗余,所以可以使用PConv減少這種冗余。

        對于輸入I ∈ Rc×h×w,卷積核W ∈ Rk×k,輸出O ∈ Rc×h×w的常規(guī)的conv的FLOPs和內(nèi)存訪問量分別為:

        PConv典型的部分比率r = cp / c = 1/4,F(xiàn)LOPs和內(nèi)存訪問量分別為:

        PConv的FLOPs僅為常規(guī)Conv的1/16,內(nèi)存訪問量僅為常規(guī)Conv的1/4。

        為了充分有效地利用來自所有通道的信息,在PConv層之后添加了兩層逐點(diǎn)卷積層,并在兩層逐點(diǎn)卷積層直接添加了BN歸一化層和GELU激活函數(shù)。

        通道分割(channel split)和特征拼接(concatenation),通過多個(gè)不同大小的內(nèi)核提取上下文信息,并將它們集成在一個(gè)卷積層中。

        首先將通道平均分成多個(gè)組,并將具有不同DWConv(Ki×Ki | C = G)(·)內(nèi)核大小的深度可分離卷積并行應(yīng)用于每組通道。

        每組卷積的輸出正式定義如下:

        其中Xi和Yi分別表示第i組通道上的深度可分離卷積的輸入和輸出。是深度可分離卷積,核大小為Ki×Ki,通道維度為C = G,其中C表示組間通道總數(shù),G表示組數(shù)。

        在深度可分離卷積之后,分組的特征被連接在一起。為了進(jìn)一步整合不同尺度的分離信息,在DFSC模塊的底部使用了通道洗牌操作[14]。DFSC模塊不會(huì)擴(kuò)展網(wǎng)絡(luò)的寬度,它只是將通道分成不同的組,并對它們并行執(zhí)行不同的卷積操作。

        動(dòng)態(tài)內(nèi)核聚合(DKA)[10]。DKA通過基于輸入圖像的核注意權(quán)重,動(dòng)態(tài)聚合多個(gè)核來增強(qiáng)卷積核的輸入依賴性,DFSC模塊即使使用小卷積核也能學(xué)習(xí)豐富的上下文信息。

        標(biāo)準(zhǔn)卷積核由具有4個(gè)維度的權(quán)重矩陣w定義,這些維度分別決定了核大小和輸入/輸出通道。本文沒有將不同卷積的輸出特征拼接起來,而是在計(jì)算卷積結(jié)果之前聚合核權(quán)重矩陣{wi},從而為不同的輸入動(dòng)態(tài)生成不同的卷積核。DKA操作計(jì)算不同卷積核的注意力權(quán)重,然后將逐元素乘積應(yīng)用于注意力權(quán)重和核權(quán)重。本文定義的DKA操作如下:

        其中ai(X)是第i個(gè)卷積核的注意力權(quán)重,W(X)是N個(gè)卷積核的聚合權(quán)重矩陣。輸入相關(guān)的注意力權(quán)重a(X)是根據(jù)輸入X計(jì)算如下:

        其中GAP(·)代表全局平均池化,F(xiàn)C(·)代表全連接層。兩個(gè)函數(shù)Sigmoid(·)和ReLU(·)在兩個(gè)全連接層之后用于非線性激活。

        由于DKA操作發(fā)生在計(jì)算卷積結(jié)果之前,因此聚合核只對每個(gè)輸入特征圖進(jìn)行一次卷積操作,而不會(huì)擴(kuò)展網(wǎng)絡(luò)寬度。

        2.3? 自適應(yīng)特征建模

        解耦全連接(DFC)[12]注意力機(jī)制?;诰矸e的輕量模型在建模長程相關(guān)性方面較弱,這限制了性能的進(jìn)一步提高。對于注意力來增強(qiáng)表征能力,捕獲長程空間信息至關(guān)重要。

        雖然自注意力操作可以很好地模擬長程相關(guān)性,但是典型的自注意力并不太適用于移動(dòng)部署。與之相比,固定權(quán)重的全連接(FC)層更簡單,更容易實(shí)現(xiàn),生成的注意圖還具有全局感受野。詳細(xì)的計(jì)算過程如下所示。

        給定一個(gè)特征Z ∈ RH×W×C,可以看作是HW個(gè)向量zi ∈ RC,即Z = {z11,z12,…,zHW}。FC層生成注意力圖的直接實(shí)現(xiàn)被公式化為:

        F是全連接(FC)層的可學(xué)習(xí)權(quán)重, 是逐元素乘法,A = {a11,a12,…,aHW}是生成的注意力圖。通過將所有標(biāo)記與可學(xué)習(xí)的權(quán)重結(jié)合起來以捕獲全局信息,這比傳統(tǒng)的自注意力更簡單。

        因?yàn)镃NN中的特征圖一般情況下是低秩的[15],所以無須密集地連接不同空間位置的所有輸入和輸出標(biāo)記。該特征的二維形狀自然地提供了一個(gè)減少全連接層計(jì)算的角度,即分解等式。式(1)分成兩個(gè)FC層,并分別沿水平和垂直方向聚集特征。它可以表述為:

        其中FH和FW表示變換權(quán)重,Z表示原始特征輸入。DFC注意力可以在水平和垂直方向上對像素進(jìn)行聚合,式(2)和式(3)表示DFC注意力的一般公式。由于共享一部分變換權(quán)重,可以通過卷積方便地實(shí)現(xiàn),因此避免了影響實(shí)際推理速度的張量重塑和轉(zhuǎn)置操作。為了處理具有不同分辨率的輸入圖像,濾波器的大小可以與特征圖的大小解耦,即在輸入特征上依次應(yīng)用兩個(gè)深度可分離卷積,兩個(gè)卷積核的大小分別為1×KH和KW×1。

        DFC注意可以捕獲長程空間信息,同時(shí)保持輕量級卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)效率。在DFC中,只有全連接(FC)層參與生成注意力地圖。具體地,將FC層分解為水平FC和垂直FC,以聚合CNN的2D特征圖中的像素。這兩個(gè)FC層涉及沿著它們各自方向的長距離中的像素,并且堆疊它們將產(chǎn)生全局感受野。由于水平和垂直變換的解耦,可以有效地降低注意力模塊的計(jì)算復(fù)雜度。

        本文基于DFC創(chuàng)建了自適應(yīng)特征建模(Adaptive Feature Modeling, AFM)的兩個(gè)實(shí)例,分別是密集特征建模和全局特征建模。

        2.3.1? 密集特征建模

        密集特征建模(Dense Feature Modeling, DFM)密集地模擬來自一個(gè)階段的所有分辨率分支的特征的空間上下文關(guān)系。

        在第n階段,來自所有n個(gè)分支的輸入特征被匯集到最低分辨率Hn×Wn。然后,將所有合并的特征連接在一起,以便可以對并行上下文特征進(jìn)行密集的上下文轉(zhuǎn)換。

        將移位后的上下文特征上采樣到相應(yīng)的分辨率,并分配回相應(yīng)的分支,用于后續(xù)的上下文加權(quán)。此實(shí)例實(shí)現(xiàn)為:

        其中ACPool(Hn, Wn)(Xk)表示自適應(yīng)上下文池,它將輸入特征Xk池化為特定輸出大小Hk×Wk,Shift(·)表示上下文平移,Weight(·)表示上下文權(quán)重,Cat(·)和Upsamp(·)表示特征分別是連接和上采樣。Xk表示具有第k個(gè)最高分辨率的輸入張量。 表示來自第k個(gè)分支的池化張量。 表示移位的張量,該張量以? 的形式分布到第k個(gè)分支。Yk表示相應(yīng)的第k個(gè)輸出張量。最后加入DFC注意力機(jī)制,增強(qiáng)特征提取。

        2.3.2? 全局特征建模

        全局特征建模(Global Feature Modeling, GFM)。為了在每個(gè)分辨率下單獨(dú)建模全局空間依賴性,本文在網(wǎng)絡(luò)的每個(gè)分支上應(yīng)用GFM操作。當(dāng)自適應(yīng)上下文池的輸出大小為1×1時(shí),它是AFM的實(shí)例。第k個(gè)分支上的GFM操作的輸出特征定義如下:

        最后加入DFC注意力機(jī)制,增強(qiáng)特征提取。

        GFM操作在包含豐富上下文特征信息的全局方面捕獲所有具有相同分辨率的特征的空間關(guān)系,而DFM操作在包含更多像素特征信息的適度方面捕獲所有具有不同分辨率的特征的空間關(guān)系。同時(shí),這兩種操作都增加了特征之間的信息交換并捕獲長程空間信息,增強(qiáng)了表征能力,因此可以更好地替代shuffle塊中的1×1卷積[14],而不是Dite-HRNet中的單純信息交換。

        3? 實(shí)驗(yàn)及結(jié)果分析

        3.1? 數(shù)據(jù)集和評價(jià)指標(biāo)

        本文使用MPII數(shù)據(jù)集,該數(shù)據(jù)集包含約2.5萬張圖像,約有4萬個(gè)均被標(biāo)注了16個(gè)識別關(guān)鍵點(diǎn)的個(gè)體目標(biāo),其中2.8萬個(gè)作為訓(xùn)練集,1.1萬個(gè)作為測試集。MPII數(shù)據(jù)集將PCK(Percentageof Correct Keypoints)作為人體關(guān)鍵點(diǎn)估計(jì)的標(biāo)準(zhǔn)。PCKh以人體頭部作為歸一化指標(biāo)計(jì)算預(yù)測正確的關(guān)鍵點(diǎn)比例,即預(yù)測關(guān)鍵點(diǎn)距離標(biāo)注關(guān)鍵點(diǎn)之間的歸一化距離小于設(shè)定閾值的比例,本文選用閾值為0.5的PCKh@0.5作為評估標(biāo)準(zhǔn),評估的指標(biāo)還包括運(yùn)算速度(GFLOPs)和模型復(fù)雜度(Params)。

        3.2? 實(shí)驗(yàn)環(huán)境配置

        本文實(shí)驗(yàn)環(huán)境為Windows 10,GPU為NVIDIA RTX 2080Ti,顯存為11 GB,使用的PyTorch版本為1.8.0,Python版本為3.6,網(wǎng)絡(luò)使用的優(yōu)化器為Adam,設(shè)置的訓(xùn)練周期為260輪,初始學(xué)習(xí)率設(shè)置為2×10-3,在訓(xùn)練170輪后為2×10-4,在訓(xùn)練210輪后為2×10-5。本文采用和Dite-HRNet網(wǎng)絡(luò)相同的數(shù)據(jù)預(yù)處理,將所有人體檢測框擴(kuò)展到固定的寬高比4:3,然后裁剪帶有檢測框的圖像,對于MPII數(shù)據(jù)集,這些檢測框的大小調(diào)整為256×256。所有圖像都使用數(shù)據(jù)增強(qiáng),包括隨機(jī)旋轉(zhuǎn)(系數(shù)為30)、隨機(jī)縮放(系數(shù)為0.25)和隨機(jī)翻轉(zhuǎn)。測試時(shí),采用兩階段自頂向下的范式進(jìn)行測試,該范式首先生成人物檢測框,然后預(yù)測人物關(guān)鍵點(diǎn)。對于MPII數(shù)據(jù)集,標(biāo)準(zhǔn)測試策略使用提供的人物框。通過2D高斯來估計(jì)熱圖,然后對原始圖像和翻轉(zhuǎn)圖像進(jìn)行平均。熱圖中具有最高熱值的位置在從最高響應(yīng)到第二高響應(yīng)的方向上進(jìn)行四分之一偏移,以獲得關(guān)鍵點(diǎn)位置。

        3.3? 實(shí)驗(yàn)結(jié)果

        本文對LPFANet網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,使用MPII數(shù)據(jù)集進(jìn)行了測試,并將結(jié)果與Dite-HRNet以及其他先進(jìn)的方法進(jìn)行了對比,以平均精度(PCKh@0.5)作為評價(jià)標(biāo)準(zhǔn),并比較了運(yùn)算速度(GFLOPs)和模型復(fù)雜度(Params)。

        表1展示了本文網(wǎng)絡(luò)與其他輕量級網(wǎng)絡(luò)相比的結(jié)果,本文的LPFANet-18在略微提升模型復(fù)雜度的情況下,比Dite-HRNet-18[10]提高了1.2個(gè)PKCh@0.5分?jǐn)?shù),與Dite-HRNet-30[10]相比,具有相當(dāng)?shù)哪P蛷?fù)雜度和GFLOPs的分?jǐn)?shù)但提高了0.4個(gè)PKCh@0.5分?jǐn)?shù)。與Lite-HRNet-18[9]和Lite-HRNet-30[9]相比,分別提高了1.9個(gè)和1.1個(gè)PKCh@0.5分?jǐn)?shù)。本文網(wǎng)絡(luò)比MobileNetV2[16]、MobileNetV3[17]和ShuffleNetV2[14]具有更低的參數(shù)和GFLOPs,并且表現(xiàn)更好。在與最先進(jìn)的輕量級網(wǎng)絡(luò)Dite-HRNet-30相比中,本文的LPFANet-30取得了最佳結(jié)果,PKCh@0.5為88.4。

        值得注意的是,LPFANet-18相對于Dite-HRNet-18的精度改進(jìn)要比LPFANet-30相對于Dite-HRNet-30更顯著。因此,本文提出的方法對于小型網(wǎng)絡(luò)更加有效,而且比增加網(wǎng)絡(luò)深度要高效得多。

        訓(xùn)練過程中損失值變化如圖4所示,曲線趨于平緩,證明模型已經(jīng)擬合到最佳效果區(qū)域,對應(yīng)的PKCh@0.5變化如圖5所示。

        3.4? 消融實(shí)驗(yàn)

        本文在MPII數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),首先分別將部分卷積(PConv)和DFC注意力單獨(dú)用在本文方法,以此來驗(yàn)證各個(gè)模塊對LPFANet網(wǎng)絡(luò)的影響,隨后將兩個(gè)模塊同時(shí)用在本文的方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果如表2所示。

        結(jié)果表明,PConv和DFC注意力都對LPFANet網(wǎng)絡(luò)有著重要的的作用,都能提升模型的性能,其中Fast模塊對本文網(wǎng)絡(luò)模型的性能提升占主導(dǎo)地位。

        4? 結(jié)? 論

        為了保持網(wǎng)絡(luò)的輕量化,在盡可能低的參數(shù)量和計(jì)算量情況下,提升網(wǎng)絡(luò)的性能,本文結(jié)合部分卷積和解耦全連接注意力機(jī)制兩種方法提出了LPFANet網(wǎng)絡(luò)。由于DFSC和AFM模塊的有效性,即通過融入PConv和DFC增強(qiáng)了網(wǎng)絡(luò)的特征提取,使得網(wǎng)絡(luò)能夠在保持輕量化的條件下,大幅提高了網(wǎng)絡(luò)的整體性能。最終,本文網(wǎng)絡(luò)的最終預(yù)測精度在MPII人體姿態(tài)估計(jì)數(shù)據(jù)集上能與現(xiàn)有的優(yōu)秀的輕量級網(wǎng)絡(luò)相媲美。在接下來的研究中,需要重點(diǎn)考慮如何在進(jìn)一步減少網(wǎng)絡(luò)參數(shù)量和計(jì)算量的同時(shí)提高現(xiàn)有網(wǎng)絡(luò)的性能,并通過優(yōu)化模型結(jié)構(gòu)來實(shí)現(xiàn)在真實(shí)場景中的應(yīng)用。

        參考文獻(xiàn):

        [1] 張國平,馬楠,貫懷光,等.深度學(xué)習(xí)方法在二維人體姿態(tài)估計(jì)的研究進(jìn)展 [J].計(jì)算機(jī)科學(xué),2022,49(12):219-228.

        [2] PAPANDREOU G,ZHU T,KANAZAWA N,et al. Towards Accurate Multi-person Pose Estimation in the Wild [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:3711-3719.

        [3] CHEN Y L,WANG Z C,PENG Y X,et al. Cascaded Pyramid Network for Multi-person Pose Estimation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7103-7112.

        [4] SUN K,XIAO B,LIU D,et al. Deep High-Resolution Representation Learning for Human Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:5686-5696.

        [5] WANG X Y,TONG J W,WANG R. Attention Refined Network for Human Pose Estimation [J]. Neural Processing Letters,2021,53(4):2853-2872.

        [6] TANG Z Q,PENG X,GENG S J,et al. Quantized Densely Connected U-Nets for Efficient Landmark Localization [C]//ECCV 2018: Computer Vision – ECCV 2018.Munich:Springer,2018:348–364.

        [7] DEBNATH B,O'BRIEN M,YAMAGUCHI M,et al. Adapting MobileNets for mobile based upper body pose estimation [C]//2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Auckland:IEEE,2018:1-6.

        [8] ZHANG Z,TANG J,WU G S,et al. Lightweight Human Pose Estimation under Resource-Limited Scenes [C]//ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Toronto:IEEE,2021:2170-2174.

        [9] YU C,XIAO B,GAO C X,et al. Lite-HRNet: A Lightweight High-Resolution Network [J/OL].arXiv:2104.06403 [cs.CV].(2021-04-13).https://arxiv.org/abs/2104.06403.

        [10] LI Q,ZHANG Z Y,XIAO F,et al. Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation [J/OL].arXiv:2204.10762 [cs.CV].(2022-05-24). https://arxiv.org/abs/2204.10762.

        [11] CHEN J R,KAO S H,HE H,et al. Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks [J/OL].arXiv:2303.03667 [cs.CV].(2023-05-21).https://arxiv.org/abs/2303.03667.

        [12] TANG Y H,HAN K,GUO J Y,et al. GhostNetV2: Enhance Cheap Operation with Long-Range Attention [J/OL].arXiv:2211.12905 [cs.CV].(2022-11-23).https://arxiv.org/abs/2211.12905.

        [13] 劉圣杰,何寧,于海港,等.引入坐標(biāo)注意力和自注意力的人體關(guān)鍵點(diǎn)檢測研究 [J].計(jì)算機(jī)工程,2022,48(12):86-94.

        [14] MA N N,ZHANG X Y,ZHENG H T,et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design [C]//ECCV 2018: Computer Vision – ECCV 2018.Munich:Springer,2018:122–138.

        [15] TAI C,XIAO T,ZHANG Y,et al. Convolutional neural networks with low-rank regularization [J/OL].arXiv:1511.06067 [cs.LG].(2016-02-14).https://arxiv.org/abs/1511.06067.

        [16] SANDLER M,HOWARD A,ZHU M L,et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510-4520.

        [17] HOWARD A,SANDLER M,CHEN B, et al. Searching for MobileNetV3 [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019:1314-1324.

        作者簡介:陳錦(1998—),男,漢族,福建福州人,碩士研究生在讀,研究方向:人體姿態(tài)估計(jì);蔣錦華(1997—),女,漢族,福建龍巖人,碩士研究生在讀,研究方向:人體姿態(tài)估計(jì);莊麗萍(1998—),女,漢族,福建漳州人,碩士研究生在讀,研究方向:人體姿態(tài)估計(jì);姚洪澤(2001—),男,漢族,安徽蚌埠人,碩士研究生在讀,研究方向:人體姿態(tài)估計(jì);通訊作者:蔡志明(1977—),男,漢族,福建漳州人,教授,博士,研究方向:機(jī)器人與機(jī)器識別。

        收稿日期:2023-05-06

        基金項(xiàng)目:福建工程學(xué)院橫向科研項(xiàng)目(GY-H-22190);校科研啟動(dòng)基金(GY-Z21064)

        91麻豆国产香蕉久久精品| 日韩中文字幕在线观看一区| 久久精品国产亚洲夜色av网站| 国产盗摄xxxx视频xxxx| 中文字幕喷水一区二区| 人妻爽综合网| 日本黄色影院一区二区免费看| 人妻少妇精品无码专区| 亚洲爱婷婷色婷婷五月| 亚欧免费视频一区二区三区| 白白色日韩免费在线观看| 一 级做人爱全视频在线看| 毛片24种姿势无遮无拦| 久久久精品电影| 国产我不卡在线观看免费| 国产色视频一区二区三区qq号| 国产在线精品欧美日韩电影| 一区二区三区日本大片| 亚洲中文乱码在线视频| 超碰人人超碰人人| 免费男人下部进女人下部视频| 色窝综合网| 最近更新中文字幕一区二区| 疯狂添女人下部视频免费| 91久久青青草原线免费| 国产一区二区黑丝美女| 极品美女一区二区三区免费| 久久99精品国产麻豆宅宅| 国产精品欧美久久久久老妞| 国产成人高清亚洲一区二区| 久久久久成人精品免费播放动漫| 国产av人人夜夜澡人人爽| 亚洲AVAv电影AV天堂18禁| 国内精品国产三级国产| 欧美人伦禁忌dvd放荡欲情| 国产黄三级三·级三级| 91九色国产在线观看| 亚洲av日韩av激情亚洲| 亚洲av无码1区2区久久| 日韩欧美亚洲国产一区二区三区| 麻豆精品一区二区三区|