林浩翔,李萬益,鄔依林,黃靖敏,黃用有
(廣東第二師范學(xué)院計算機學(xué)院,廣州 510303)
長期以來,人體姿態(tài)估計是計算機視覺中一個熱門研究課題。近年來,由于該技術(shù)的應(yīng)用需求不斷增加,它受到越來越多的關(guān)注。盡管先進的深度學(xué)習(xí)技術(shù)在這一領(lǐng)域已經(jīng)取得了重大進展,但遮擋問題比較困難,人群場景中的姿態(tài)估計仍然極具挑戰(zhàn)性。人群姿態(tài)估計的趨勢模型強烈依賴于熱圖表示來估計關(guān)節(jié): 雖然這些方法對可見關(guān)節(jié)有效,但在遮擋上的性能卻不夠完善。迄今為止,許多研究人員在遮擋問題中付出了艱苦的努力,采取了許多對應(yīng)的措施。然而,遮擋問題受到的關(guān)注很少,解決它的方法也比較少。 由于復(fù)雜的背景圖、復(fù)雜的人體姿態(tài)和隨機的遮擋形狀,最先進的SOTA 法仍會產(chǎn)生不準確的姿勢。為了揭示隱藏的關(guān)節(jié),我們提出了一種方法進行全面推理,例如:人類可以利用來自動作類型和圖像上下文的線索推斷出不可見關(guān)節(jié)的位置。因此,我們提出一個新的框架OPEC-Net并深入研究了隱形關(guān)節(jié)推理所需的線索,并將這些線索納入多人姿態(tài)估計,最后實驗得出結(jié)果。
圖1 兩種方法的比較
基于熱圖的用于姿態(tài)估計的模型。多人姿態(tài)估計模型(MPPE)可分為兩類,即自下而上兩種方法和自上而下兩種方法。
自下而上的方法:首先檢測關(guān)節(jié),然后將它們分配給匹配的人。作為自下而上方法的先鋒工作,試圖設(shè)計不同的聯(lián)合分組策略。DeepCut提出了一個整數(shù)線性規(guī)劃(ILP)。根據(jù)學(xué)習(xí)的評分功能數(shù)將關(guān)節(jié)分組,提出了一種新的二維向量場部分親和場(PAFs)來進行關(guān)聯(lián)。然而,之前的工作都存在一個嚴重的缺陷,隱形關(guān)節(jié)會大大降低性能。
自上而下的方法:首先檢測場景中的所有人,然后對每個人進行姿態(tài)估計?,F(xiàn)有的大多數(shù)自上而下的方法都集中于提出一種更有效的人體探測器,以獲得更好的結(jié)果。大多數(shù)主流的方法都是基于熱圖的,因此僅限于估計缺乏視覺信息的無形關(guān)節(jié)。因此,我們提出了一個與這些工作完全不同的OPEC-Net,它能夠通過推理而不是本地化來估計不可見的關(guān)節(jié)。
圖2 管道示意圖(描述了一個項目的兩個評估階段單體式)
在此階段,使用AlphaPose+作為基礎(chǔ)模塊來生成可見關(guān)節(jié)的熱圖,我們將在下面描述一個實例級的人體姿態(tài)估計的過程。
首先,基本模塊的三層解碼器生成三個不同層次的對應(yīng)特征圖: 粗糙特征圖、中間特征圖和精細特征圖。基本模塊輸出一個熱圖,從熱圖H 中估計的姿態(tài)可以表示為P,其中包含了每個關(guān)節(jié)的估計結(jié)果:
其中x和y是第一個關(guān)節(jié)的位置,c是置信度得分,是骨架中關(guān)節(jié)的數(shù)量。
我們提出了一種圖像引導(dǎo)圖來校正網(wǎng)絡(luò),采用上述模塊生成的初始姿勢并調(diào)整關(guān)節(jié)的隱式關(guān)系來估計結(jié)果。
我們用G∈R 作為訓(xùn)練集中第個姿態(tài)的輸入特征,其中為特征維數(shù)。
我們建立了一個新的數(shù)據(jù)集Occluded Pose(OCPose),它包含了具有挑戰(zhàn)性的隱形關(guān)節(jié)和復(fù)雜的相互交織在一起的人體姿勢。我們大多考慮雙人互動的姿勢場景,如舞蹈、滑冰和摔跤, 因為它們有更可靠的注釋和實用價值。當遮擋非常嚴重時,人體姿態(tài)的關(guān)鍵點位可能很難識別。我們首先使用拳擊、舞蹈和摔跤等關(guān)鍵詞從互聯(lián)網(wǎng)上搜索視頻。然后,手動篩選剪輯網(wǎng)上視頻,在隱私問題許可下,選擇高質(zhì)量的圖像。各數(shù)據(jù)集的比較見表1。
表1 光遮擋水平的比較
(1)實施細節(jié)。對于訓(xùn)練,我們設(shè)置了參數(shù)= 0.3、= 0.5、= 1 和epochs=30。每 批提供10 張圖像來訓(xùn)練整個框架。初始學(xué)習(xí)速率設(shè)置為1,并以余弦函數(shù)的規(guī)律衰減。MSCOCO 的輸入圖像尺寸大小為384×288,其他數(shù)據(jù)集的輸入圖像尺寸大小為320×256。采用自適應(yīng)優(yōu)化算法對參數(shù)進行反向傳播優(yōu)化。
(2)評價指標。我們遵循MSCOCO 的標準評價度量,報告了平均精度(mAP)值為0.5∶0.95、0.5、0.75、0.80和0.90。建議姿態(tài)必須包含超過5 個可見點,OKS 值大于0.3。這是現(xiàn)有工作和廣泛使用的指標。
(3)基線。為了進行比較,我們使用三種最先 進 方 法 的MPPE: Mask RCNN, Alpha-Pose+和SimplePose來評估性能。這是現(xiàn)有工作和廣泛使用的基線。
各數(shù)據(jù)集的定量結(jié)果見表2。
表2 OCPose數(shù)據(jù)集的比較
與所有基線相比,本文的方法獲得了最好的映射。與AlphaPose+ 相比,該方法提高了2.0mAP@0.5:0.95。與定位方法相比,本文的OPEC-Net 推理能力比較準確??傊?,這些結(jié)果驗證了本文的OPEC-Net 模塊在MPPE 任務(wù)上的顯著有效性。雙聯(lián)曲線圖的評價結(jié)果見表2和圖3。與OPEC-Net 相比,雙聯(lián)曲線圖基線也顯示提升了0.8mAP@0.5∶0.95,這驗證了人類的互動線索是相當突出的。如圖3 所示,CoupleGraph曲線圖在質(zhì)量上顯著優(yōu)于OPEC-Net。
圖3 人體姿態(tài)估計CoupleGraph和OPEC-Net的定性評價
圖3 人體姿態(tài)估計CoupleGraph和OPEC-Net的定性評價(續(xù))
在大量基準數(shù)據(jù)集上的廣泛評估證明了我們的模型對遮擋問題的有效性。在現(xiàn)有基準測試上的實驗結(jié)果如表3、表4、圖4 所示。我們的模型超過了所有的基線。
表3 關(guān)于數(shù)據(jù)遮擋數(shù)據(jù)集的定性結(jié)果
表4 MSCOCO 2017 測試-開發(fā)集
圖4 不同數(shù)據(jù)集的評估結(jié)果對比
CrowdPose 如表3 所示,OPEC-Net 在AlphaPose+上的估計結(jié)果提高了2.1mAP@0.5∶0.95。
在最大的基準測試MSCOCO 上的結(jié)果顯示,我們的模型只略微提高了精度的準確性。此外許多不可見的關(guān)節(jié)在MSCOCO上缺乏注釋。
為了分別研究對不可見(Inv)和可見(V)關(guān)節(jié)的有效性,我們根據(jù)類似的OKS 規(guī)則報告了每種類型關(guān)節(jié)的統(tǒng)計數(shù)據(jù)。從表5 可以看出,本文的OPEC 網(wǎng)絡(luò)主要改進了看不見的關(guān)節(jié),而不是可見的關(guān)節(jié)。
表5 CrowdPose和OCPose上可見和不可見關(guān)節(jié)的結(jié)果
在本文中,我們提出了一個新的OPEC-Net模塊和一個具有挑戰(zhàn)性的遮擋姿態(tài)(OCPose)數(shù)據(jù)集來解決群體姿態(tài)估計中的遮擋問題。兩個復(fù)雜的組件,圖像引導(dǎo)漸進GCN 和級聯(lián)特征適應(yīng),設(shè)計利用自然人體約束和圖像上下文。我們對四個基準和消融研究進行了徹底的實驗,以證明其有效性并提供各種見解。熱圖和坐標模塊可以協(xié)同工作,在各個方面都取得了顯著的改進。通過提供該數(shù)據(jù)集,我們希望能引起人們的注意,并增加人們對姿態(tài)估計中的遮擋問題的研究興趣。