周 偉, 劉智威, 李群智
(1.中金甲子 (北京) 私募投資基金管理公司, 北京 100020;2.中國科學(xué)院 自動化研究所, 北京 100190;3.北京空間飛行器總體設(shè)計(jì)部, 北京 100094)
人體姿態(tài)估計(jì)通常可分為單人人體姿態(tài)估計(jì)和多人人體姿態(tài)估計(jì)2 種任務(wù)。 其中多人人體姿態(tài)估計(jì)任務(wù)一般在實(shí)際中應(yīng)用更為廣泛。 該任務(wù)指在無約束場景下同時(shí)完成人體目標(biāo)的檢測以及人體關(guān)節(jié)點(diǎn)的定位,可為諸如行為識別[1-3]、姿態(tài)跟蹤[4-5]、行人重識別[6-7]和人機(jī)交互等計(jì)算機(jī)視覺任務(wù)提供重要的先決條件或先驗(yàn)信息。 近年來,基于自頂向下方法的多人人體姿態(tài)估計(jì)算法[8-11]取得了較為領(lǐng)先的性能。 該類方法分為2 步:第1 步采用人體檢測器檢測出圖片中所有人的檢測框;第2 步將每個檢測框內(nèi)的人體圖像分別送入單人人體姿態(tài)估計(jì)網(wǎng)絡(luò)中進(jìn)行姿態(tài)估計(jì)。 因此算法的最終性能取決于人體檢測器和單人人體姿態(tài)估計(jì)算法2 個模塊。 目前,人體姿態(tài)估計(jì)算法的提升空間遠(yuǎn)大于人體檢測器。
在無約束場景下的人體姿態(tài)估計(jì)任務(wù)中,多變的人物服飾、復(fù)雜的場景和高靈活度的姿態(tài)等因素導(dǎo)致樣本的分布極為復(fù)雜,給算法帶來了極大的挑戰(zhàn)。 具體來說,2 個樣本在擁有相似的服飾和背景等表觀的情況下,其人體姿態(tài)仍可能存在很大的差別,同時(shí),2 個樣本在擁有差距較大的服飾和背景等表觀的情況下,其人體姿態(tài)也可以保持一致。 由此可知,現(xiàn)實(shí)中的任何訓(xùn)練集都無法為每種姿態(tài)涵蓋所有諸如服飾、皮膚、背景和遮擋等因素造成的表觀變化。 然而,當(dāng)今主流的人體姿態(tài)估計(jì)方法通常采用坐標(biāo)響應(yīng)圖回歸的框架,其優(yōu)化目標(biāo)是建立每個訓(xùn)練樣本的人體表觀信息與相應(yīng)關(guān)節(jié)點(diǎn)坐標(biāo)之間的對應(yīng)關(guān)系,因而對訓(xùn)練數(shù)據(jù)的多樣性有較強(qiáng)的依賴。由于訓(xùn)練集中的樣本存在同表觀姿態(tài)不足或同姿態(tài)表觀不足的現(xiàn)象,回歸網(wǎng)絡(luò)在學(xué)習(xí)中容易將姿態(tài)的判別與姿態(tài)無關(guān)的表觀信息關(guān)聯(lián)起來,從而難以訓(xùn)練出能夠有效提取人體姿態(tài)特征的特征提取器。 該問題最終也影響了算法在未知樣本上的泛化性能。
為了解決上述問題,針對人體姿態(tài)估計(jì)算法提出了新的設(shè)計(jì)維度:通過建模并引入樣本間的姿態(tài)相似度信息,根據(jù)該信息用度量學(xué)習(xí)方法對網(wǎng)絡(luò)進(jìn)行優(yōu)化,使得高層特征具有對姿態(tài)的強(qiáng)判別能力,從而增強(qiáng)網(wǎng)絡(luò)在未知測試樣本上的泛化性。 實(shí)現(xiàn)該方法需要設(shè)計(jì)的2 個核心環(huán)節(jié)為樣本間姿態(tài)相似度的建模以及優(yōu)化目標(biāo)函數(shù)的選取。 其中,目標(biāo)函數(shù)可選用判別學(xué)習(xí)任務(wù)中常見的分類損失或度量學(xué)習(xí)損失,其優(yōu)化目標(biāo)是對于2 個姿態(tài)相似度高的樣本,網(wǎng)絡(luò)對其提取的高層特征也應(yīng)該接近。 反之,對于2個姿態(tài)相似度低的樣本,網(wǎng)絡(luò)對其提取的高層特征也應(yīng)該相差較遠(yuǎn)。 由于人體姿態(tài)空間較為復(fù)雜,樣本類別的邊界難以人工界定,簡單地對數(shù)據(jù)集通過現(xiàn)有姿態(tài)聚類的方式進(jìn)行劃分,容易產(chǎn)生樣本分布不均衡以及“長尾”現(xiàn)象等常見的優(yōu)化問題[12]。
為了解決上述問題,本文結(jié)合人體姿態(tài)任務(wù)的特點(diǎn)對上述特征判別性學(xué)習(xí)方法進(jìn)行了更合理的設(shè)計(jì),提出了一個基于點(diǎn)特征優(yōu)化的局部樣本關(guān)系模型(Local Sample Relation Module,L-SRM)。 該模型在回歸網(wǎng)絡(luò)的高層將整體姿態(tài)特征分解成逐點(diǎn)特征,并將對整體姿態(tài)的分類問題轉(zhuǎn)化為每個關(guān)節(jié)點(diǎn)各自的分類問題。 該方法可根據(jù)不同樣本中對應(yīng)關(guān)節(jié)點(diǎn)所處的圖像空間位置信息來近似計(jì)算樣本間的相似度。 最終,L-SRM 在增強(qiáng)網(wǎng)絡(luò)高層特征對人體姿態(tài)的判別性的同時(shí),也避免了在復(fù)雜的姿態(tài)空間中進(jìn)行樣本間相似度定義所帶來的問題。 除此之外,為了進(jìn)一步提升點(diǎn)特征優(yōu)化的優(yōu)化質(zhì)量,同時(shí)在L-SRM 中提出了Multi-Context Uncertainty Module(MCUM)。 綜上,本文的貢獻(xiàn)總結(jié)如下:
① 針對人體姿態(tài)估計(jì)算法提出了新的設(shè)計(jì)維度:通過建模樣本間的姿態(tài)相似度關(guān)系對網(wǎng)絡(luò)進(jìn)行優(yōu)化,增強(qiáng)網(wǎng)絡(luò)對人體姿態(tài)的判別能力及在未知測試樣本上的泛化能力。
② 對基于姿態(tài)相似度度量學(xué)習(xí)的人體姿態(tài)估計(jì)算法的設(shè)計(jì)進(jìn)行了深入的研究。 通過分析人體姿態(tài)空間存在的類別難界定以及樣本姿態(tài)分布不均等問題,提出了局部樣本關(guān)系模型對姿態(tài)相似度進(jìn)行建模并用于網(wǎng)絡(luò)優(yōu)化。
③ 所提出的方法不僅在人體姿態(tài)估計(jì)主流數(shù)據(jù)集上的精度超過了所有同期方法,同時(shí)有效提升了算法在跨域數(shù)據(jù)集上的泛化性能。
人體姿態(tài)估計(jì)作為一個具有學(xué)術(shù)和實(shí)際雙重價(jià)值的經(jīng)典計(jì)算機(jī)視覺任務(wù),已有數(shù)十年的研究歷史。在手工特征時(shí)代,其中一類代表性的方法是將圖像中的人體姿態(tài)描述為一個全局的特征,并通過該全局特征直接進(jìn)行分類或回歸從而得到估計(jì)結(jié)果[13-14]。 由于通過手工形式直接設(shè)計(jì)出的人體姿態(tài)全局特征表達(dá)能力較弱,該類型方法只可在約束場景下得以應(yīng)用。 另一類代表性方法為基于圖結(jié)構(gòu)(Pictorial Structure,PS)[15-18]的方法,其通過設(shè)計(jì)手工特征對圖像中人體部件可能的位置進(jìn)行檢測,再通過建模部件間的空間位置關(guān)系對部件的位置加以約束,最終推理得到人體的整體姿態(tài)。 得益于訓(xùn)練數(shù)據(jù)規(guī)模的增大以及深度學(xué)習(xí)方法的引入,人體姿態(tài)估計(jì)取得了重要的突破,基于深度學(xué)習(xí)的方法在性能上也遠(yuǎn)遠(yuǎn)超越了基于手工特征的方法。 而其中自頂向下的人體姿態(tài)估計(jì)方法在多人人體姿態(tài)估計(jì)任務(wù)取得了主導(dǎo)地位,該類型方法的研究重點(diǎn)為人體姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。 現(xiàn)有人體姿態(tài)估計(jì)網(wǎng)絡(luò)主要包括多尺度上下文融合、人體骨架結(jié)構(gòu)先驗(yàn)以及級聯(lián)回歸3 個代表性的設(shè)計(jì)思路,以下分別對其進(jìn)行介紹。
多尺度上下文融合:Newell 等[19]提出了一個對稱的沙漏結(jié)構(gòu)網(wǎng)絡(luò)用于人體姿態(tài)估計(jì)任務(wù)。 設(shè)計(jì)時(shí)采用前半段連續(xù)降采樣,后半段上采樣的形式,使得整體網(wǎng)絡(luò)結(jié)構(gòu)類似一個沙漏。 同時(shí)通過跨層連接將網(wǎng)絡(luò)前半段的底層特征與網(wǎng)絡(luò)后半段的高層特征在相同分辨率上進(jìn)行融合。 跨層連接的過程可看作對不同尺度上下文的融合,最終保證了網(wǎng)絡(luò)的輸出既具有通過大感受野學(xué)習(xí)到的高層語義信息,也保存了底層特征中的細(xì)節(jié)信息。 Chen 等[8]提出的級聯(lián)金字塔網(wǎng)絡(luò)則借鑒了目標(biāo)檢測任務(wù)中特征金字塔網(wǎng)絡(luò)[20]所使用的多尺度上下文融合方法,并設(shè)計(jì)了一個全局網(wǎng)絡(luò)和一個校正網(wǎng)絡(luò)分別在不同層級對多尺度上下文進(jìn)行融合。 Sun 等[11]則提出了一個高分辨率網(wǎng)絡(luò),其在網(wǎng)絡(luò)的所有層級均保持著一個高分辨率的特征圖。 并通過并行結(jié)構(gòu)逐漸將主網(wǎng)絡(luò)中的高分辨率特征圖與子網(wǎng)絡(luò)中的低分辨率特征圖進(jìn)行融合,該網(wǎng)絡(luò)的性能也超越了當(dāng)時(shí)的人體姿態(tài)估計(jì)方法。
人體骨架結(jié)構(gòu)先驗(yàn):人體骨架結(jié)構(gòu)的先驗(yàn)知識可作為輔助人體姿態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的重要手段。 其中一類代表性的方法[21-23]利用人體關(guān)節(jié)點(diǎn)中已知的連接關(guān)系,在網(wǎng)絡(luò)訓(xùn)練中加入了人體部件響應(yīng)圖的回歸。 相比單獨(dú)回歸關(guān)節(jié)點(diǎn)響應(yīng)圖的方法,該方法引入了關(guān)節(jié)連接關(guān)系作為額外的約束,從而提升了性能。 然而該類型方法僅僅利用了單個人體樣本內(nèi)部的關(guān)節(jié)點(diǎn)連接關(guān)系,尚未考慮不同樣本間的關(guān)系。
級聯(lián)回歸:通過級聯(lián)回歸逐漸校正預(yù)測結(jié)果的思想最早在圖像分類任務(wù)中以網(wǎng)絡(luò)深層監(jiān)督的方式出現(xiàn)。 Szegedy 等[24]提出了在分類網(wǎng)絡(luò)中間層加入輔助分類器的方法,從而有效地幫助了深層網(wǎng)絡(luò)的優(yōu)化。 在人體姿態(tài)估計(jì)任務(wù)中,級聯(lián)回歸通常表現(xiàn)為多個子網(wǎng)絡(luò)堆疊而成的網(wǎng)絡(luò)結(jié)構(gòu)。 其中堆疊結(jié)構(gòu)中的每一級根據(jù)前一級提取出的圖像特征及其預(yù)測結(jié)果,預(yù)測出更加精準(zhǔn)的響應(yīng)圖。 級聯(lián)回歸的思想在許多人體姿態(tài)任務(wù)[19,25-26]中都得到了成功的應(yīng)用并有效地提升了性能。
總的來說,上述人體姿態(tài)估計(jì)算法在設(shè)計(jì)中均只考慮了單個人體樣本的信息,而本文提出在網(wǎng)絡(luò)訓(xùn)練中從多個人體樣本的角度出發(fā),對人體樣本間的關(guān)系進(jìn)行建模并以此通過判別性學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)。其對于避免網(wǎng)絡(luò)過擬合以及提升網(wǎng)絡(luò)在未知樣本上的泛化能力等方面具有重要的意義。
考慮到自頂向下方法在性能上的優(yōu)勢,本文選用自頂向下的多人人體姿態(tài)估計(jì)算法進(jìn)行研究,并選取了其中代表性的SimpleBaseline[10]方法作為研究的基礎(chǔ)算法框架。 為此對SimpleBaseline 算法進(jìn)行簡要的介紹。 首先,基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)算法的目標(biāo)是尋找一個非線性映射:
式中,I∈RH×W×3表示輸入姿態(tài)估計(jì)網(wǎng)絡(luò)的人體圖像,該圖像由前一階段的人體檢測器檢測得到;y∈R2N表示網(wǎng)絡(luò)預(yù)測出的人體關(guān)節(jié)點(diǎn)坐標(biāo);fW為對應(yīng)參數(shù)為W的卷積神經(jīng)網(wǎng)絡(luò)。 在SimpleBaseline 算法中,fW為一個全卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)可分為前后2 個部分。前半部分為主干網(wǎng)絡(luò),通過逐層下采樣的方式來提取用于表達(dá)圖像中人體姿態(tài)的高層特征,該主干網(wǎng)絡(luò)的結(jié)構(gòu)采用視覺任務(wù)中常用的殘差網(wǎng)絡(luò)[27]。
為了便于理解,將殘差網(wǎng)絡(luò)中不同階段輸出的特征圖分別定義為C2,C3,C4,C5。 整個基礎(chǔ)框架的后半部分由建立在殘差網(wǎng)絡(luò)的頂層輸出C5上的3 個連續(xù)反卷積層所組成,其通過連續(xù)上采樣和一個1×1 的卷積層將高層特征解碼成空間響應(yīng)圖用于提取關(guān)節(jié)點(diǎn)坐標(biāo)。 響應(yīng)圖上的峰值位置即為網(wǎng)絡(luò)預(yù)測的關(guān)節(jié)點(diǎn)坐標(biāo)位置。 該部分所使用的反卷積個數(shù)以及核大小等參數(shù)均為實(shí)驗(yàn)所得的最優(yōu)參數(shù)。圖1 為所采用的基礎(chǔ)網(wǎng)絡(luò)框架SimpleBaseline 的結(jié)構(gòu)示意。
圖1 SimpleBaseline 的網(wǎng)絡(luò)結(jié)構(gòu)示意Fig.1 SimpleBaseline network structure
在無約束場景下的人體姿態(tài)估計(jì)任務(wù)中,無規(guī)則變化的人物服飾、復(fù)雜的場景和高靈活度的姿態(tài)等天然存在的數(shù)據(jù)特點(diǎn)使得該任務(wù)有著極為復(fù)雜的樣本分布。 舉例來說,2 個樣本在擁有相似的服飾和背景等表觀的情況下,其人體姿態(tài)仍可能存在很大的差別,如圖2 中樣本一和樣本二所示。 同時(shí),2 個樣本在擁有差距較大的服飾和背景等表觀的情況下,其人體姿態(tài)也可以保持一致,如圖2 中樣本二和樣本三所示。 因此訓(xùn)練集通常遠(yuǎn)遠(yuǎn)無法涵蓋所有可能的變化情況,存在由于一些樣本不足的少見姿態(tài)形式所導(dǎo)致的樣本不均衡現(xiàn)象。 該現(xiàn)象最終也導(dǎo)致了回歸網(wǎng)絡(luò)難以魯棒地提取人體姿態(tài)特征,且未知樣本上的泛化能力不足。 為了應(yīng)對上述問題,提出判別學(xué)習(xí)是在訓(xùn)練數(shù)據(jù)有限的情況下增強(qiáng)網(wǎng)絡(luò)對姿態(tài)識別魯棒性的一個有力方法。 具體來說,通過建模并引入樣本間的姿態(tài)相似度信息,根據(jù)該信息用度量學(xué)習(xí)方法對網(wǎng)絡(luò)進(jìn)行優(yōu)化,從而增強(qiáng)網(wǎng)絡(luò)對人體姿態(tài)的判別能力。 如圖2 所示,當(dāng)網(wǎng)絡(luò)在優(yōu)化過程中將樣本一、樣本二和樣本三之間的姿態(tài)相似度作為已知先驗(yàn)時(shí),很容易在特征提取階段將服飾顏色等姿態(tài)無關(guān)的表觀信息進(jìn)行去除,并選擇學(xué)習(xí)對姿態(tài)更有判別力的特征提取方式。 因此,如何更好地將判別學(xué)習(xí)與人體姿態(tài)任務(wù)相結(jié)合是本研究的重點(diǎn)。 通過介紹一種直觀的判別學(xué)習(xí)方法來對該問題進(jìn)行更為深入的分析。
圖2 關(guān)鍵點(diǎn)語義不確定性帶來的優(yōu)化難問題Fig.2 Optimization problem related to the semantic uncertainty of landmark
在人體姿態(tài)任務(wù)中,判別學(xué)習(xí)的目的在于約束網(wǎng)絡(luò)對2 個具有相似姿態(tài)的樣本所提取出的高層特征盡可能接近,同時(shí),對2 個姿態(tài)相差較大的樣本所提取的高層特征相差較遠(yuǎn)。 為了找到較好的樣本姿態(tài)相似度建模方式,首先使用代表性的無監(jiān)督聚類方法k-means 對訓(xùn)練集中所有樣本的姿態(tài)進(jìn)行聚類,此時(shí)屬于同一簇的姿態(tài)即可看作相似姿態(tài)。 以下詳細(xì)闡述姿態(tài)聚類的過程。
在聚類過程中,每個樣本的姿態(tài)被表示為關(guān)節(jié)點(diǎn)坐標(biāo)串聯(lián)而成的2N維向量,其中N代表人體中的關(guān)節(jié)點(diǎn)個數(shù)。 由于人體姿態(tài)估計(jì)數(shù)據(jù)集通常包含許多部件被遮擋或超出圖像邊界的人體樣本。 因此該類樣本部分關(guān)節(jié)點(diǎn)的標(biāo)注也相應(yīng)缺失,從而由于向量維度不一致而無法直接參與聚類。 為了解決該問題,提出了一個人體姿態(tài)重建(Human Pose Restoration,HPR)算法對姿態(tài)標(biāo)簽中缺失的關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行估計(jì),從而保證每個樣本的姿態(tài)標(biāo)簽都可參與到無監(jiān)督聚類過程之中。 HPR 算法的流程如算法1所示。 使用HPR 方法估計(jì)出所有樣本中缺失的標(biāo)注后,對所有樣本的姿態(tài)進(jìn)行面內(nèi)幾何變化的數(shù)據(jù)增廣,再通過k-means 進(jìn)行聚類。 由于聚類的類別個數(shù)屬于超參數(shù)。 實(shí)際使用中,分別實(shí)驗(yàn)了聚類中心個數(shù)設(shè)置為500,1 000,2 000 時(shí)算法的性能表現(xiàn),并從中選取最優(yōu)的結(jié)果作為最終結(jié)果。
算法1 人體姿態(tài)重建算法輸入: 原始訓(xùn)練集中所有的姿態(tài)標(biāo)簽G、原始訓(xùn)練集中所有標(biāo)注完整無缺失點(diǎn)的姿態(tài)標(biāo)簽Ga輸出: 姿態(tài)重建后的所有姿態(tài)標(biāo)簽Gr 1.Gr=Ga 2.找出訓(xùn)練集中所有包含缺失點(diǎn)的姿態(tài)標(biāo)簽Gm ←G-Ga 3.在Ga 上使用k-means 聚類出典型的姿態(tài)模板集合(聚類中心集合):Ta=kmeans(Ga)4.for Gm 中每個姿態(tài)標(biāo)簽向量p do 5. 初始化最小距離:dmin=inf 6. for Ta 中每個姿態(tài)標(biāo)簽向量pt do 7. 使用常規(guī)普氏分析法求解從Gr 變換到p 的相似度變換矩陣8. 計(jì)算變換后的pt 與p 的歐氏距離:d=‖M(pi)-p‖2 2 9. if d 接下來,為了根據(jù)上述定義好的樣本間的姿態(tài)相似度關(guān)系進(jìn)行優(yōu)化,使網(wǎng)絡(luò)的高層特征具有對姿態(tài)的強(qiáng)判別性。 在基礎(chǔ)架構(gòu)SimpleBaseline 中殘差網(wǎng)絡(luò)的頂層輸出C5之上加入了一個新的分支,該分支包含2 個連續(xù)的全連接層和一個Softmax 分類器,根據(jù)當(dāng)前樣本所屬的姿態(tài)類別對高層特征進(jìn)行分類。 在網(wǎng)絡(luò)的訓(xùn)練過程中,該分支所引導(dǎo)的姿態(tài)分類任務(wù)和原有解碼器分支引導(dǎo)的響應(yīng)圖回歸任務(wù)協(xié)同進(jìn)行。 從而使網(wǎng)絡(luò)的高層特征C5既具有對人體姿態(tài)所屬類別的判別性,也包含了用于判別關(guān)節(jié)點(diǎn)位置的細(xì)節(jié)信息。 由于該方法在定義樣本間姿態(tài)相似度時(shí)將每個樣本的姿態(tài)看作一個整體。 本文將該算法框架稱之為全局樣本關(guān)系模型(Global Sample Relation Module,G-SRM)。 G-SRM 的 算 法 框 架 如圖3 所示。 圖3 全局樣本關(guān)系模型的算法框架Fig.3 Global sample relation module 根據(jù)后續(xù)實(shí)驗(yàn)所示,在SimpleBaseline 的基礎(chǔ)架構(gòu)下加入G-SRM 雖可在一定程度上提升人體姿態(tài)估計(jì)的精度。 然而,G-SRM 為算法性能帶來的增益較為有限,仍未達(dá)到理想的效果。 通過分析可知,導(dǎo)致其性能受限的原因可分為以下幾點(diǎn):① 由于現(xiàn)實(shí)中任何訓(xùn)練集都無法為每種姿態(tài)涵蓋大量諸如服飾、皮膚、背景和遮擋等因素造成的表觀變化,部分少見的姿態(tài)缺少足夠的樣本,使得姿態(tài)分類任務(wù)存在樣本分布不均衡以及“長尾”現(xiàn)象等常見的分類優(yōu)化難問題。 ② k-means 聚類方法對類別個數(shù)較為敏感,手動調(diào)節(jié)的姿態(tài)類別數(shù)難以保證聚類結(jié)果的可靠性。 ③ 圖像空間中復(fù)雜的姿態(tài)形式會加大聚類中不同類別各自的類內(nèi)方差,最終影響了聚類的質(zhì)量。 總的來說,G-SRM 的主要缺點(diǎn)在于聚類得到的典型姿態(tài)模板(類中心)難以真正對樣本間的姿態(tài)相似度(樣本關(guān)系)進(jìn)行可靠的建模。 為了解決上述問題,將上述對姿態(tài)特征的判別學(xué)習(xí)任務(wù)分解成多個對人體關(guān)節(jié)點(diǎn)特征的判別學(xué)習(xí)子任務(wù),從而簡化對樣本間姿態(tài)相似度的定義。 具體地,將新的樣本間姿態(tài)相似度定義為:對于人體結(jié)構(gòu)中任意位置的關(guān)節(jié)點(diǎn),若2 個樣本中該關(guān)節(jié)點(diǎn)所處的圖像空間位置接近,則網(wǎng)絡(luò)對上述樣本提取的關(guān)節(jié)點(diǎn)高層特征也應(yīng)該接近;否則,提取的關(guān)節(jié)點(diǎn)高層特征應(yīng)該相差較遠(yuǎn)。 在該定義中,每個樣本的狀態(tài)空間大小為N×Hg×Wg,其中N為人體結(jié)構(gòu)中的關(guān)節(jié)點(diǎn)總數(shù),Hg×Wg代表圖像空間中劃分的網(wǎng)格個數(shù)。 相比G-SRM所定義的樣本間姿態(tài)相似度,上述新的相似度定義方法在有效描述姿態(tài)間相似度的同時(shí),大大減少了樣本分布的復(fù)雜性。 從而避免了直接建模復(fù)雜的全局姿態(tài)間關(guān)系時(shí)所遇到的問題。 據(jù)此,將G-SRM 進(jìn)行改進(jìn)并提出了一個基于關(guān)節(jié)點(diǎn)特征分布優(yōu)化的L-SRM。 下文對L-SRM 的算法細(xì)節(jié)進(jìn)行介紹。 2.3.1 解離的關(guān)節(jié)點(diǎn)表達(dá)學(xué)習(xí) 為了在網(wǎng)絡(luò)高層分別優(yōu)化每個人體關(guān)節(jié)點(diǎn)的特征分布,首先需要獲取獨(dú)立的關(guān)節(jié)點(diǎn)特征。 為此在局部樣本關(guān)系模型中提出了一個關(guān)節(jié)點(diǎn)解離表達(dá)模塊 ( DisentangledJointRepresentationModule,DJRM),該模塊替換了基礎(chǔ)框架SimpleBaseline 中原有的解碼器部分,在把高層特征解碼成關(guān)節(jié)點(diǎn)坐標(biāo)響應(yīng)圖的同時(shí)將整體姿態(tài)特征解離成每個關(guān)節(jié)點(diǎn)獨(dú)立的特征。 考慮到整體姿態(tài)特征會包含關(guān)節(jié)點(diǎn)連接關(guān)系等人體結(jié)構(gòu)先驗(yàn)信息,且該信息對于推斷遮擋點(diǎn)等方面具有重要的作用。 L-SRM 的算法框架如圖4 所示。 因此,DJRM 在SimpleBaseline 網(wǎng)絡(luò)的大部分層中都保留了整體姿態(tài)特征,其僅在C5之后的層將其解離成不同人體關(guān)節(jié)點(diǎn)各自獨(dú)立的特征。 具體地,DJRM 首先在共享特征C5的基礎(chǔ)上增加了一個3×3 的卷積層用于建立共享特征到關(guān)節(jié)點(diǎn)獨(dú)立特征的映射,即圖4 中C5層到DF層的過程。 圖4 局部樣本關(guān)系模型的算法框架Fig.4 Local sample relation module 之后在DF層之上通過4 個組數(shù)為N的分組反卷積來回歸出N個關(guān)節(jié)點(diǎn)的響應(yīng)圖。 由于所有分組反卷積層的組數(shù)均被設(shè)置為關(guān)節(jié)點(diǎn)個數(shù),因此對不同關(guān)節(jié)點(diǎn)坐標(biāo)的解碼是個完全獨(dú)立的過程。 即從DF層開始,任意一個關(guān)節(jié)點(diǎn)的位置信息只與每層特定的幾個通道中的特征有關(guān)。 DJRM 在訓(xùn)練時(shí)采用均方誤差(Mean Squared Error,MSE)損失來監(jiān)督坐標(biāo)高斯響-應(yīng)圖的回歸。 其公式如下: 2.3.2 樣本局部關(guān)系的定義與優(yōu)化 如上所述,關(guān)節(jié)點(diǎn)解離表達(dá)模塊可在網(wǎng)絡(luò)高層將原有的全局姿態(tài)特征解離成每個關(guān)節(jié)點(diǎn)的專屬特征。 由此可通過分別優(yōu)化每個關(guān)節(jié)點(diǎn)特征的方式來提升網(wǎng)絡(luò)高層特征對姿態(tài)的判別性,以減少姿態(tài)無關(guān)表觀信息對算法魯棒性造成的潛在影響。 為了實(shí)現(xiàn)對每個關(guān)節(jié)點(diǎn)特征的判別性學(xué)習(xí),首先要從關(guān)節(jié)點(diǎn)的角度對樣本間姿態(tài)相似度進(jìn)行定義。 對于人體結(jié)構(gòu)中第k個位置的關(guān)節(jié)點(diǎn)來說,L-SRM 首先將尺度為H×W像素大小的輸入圖像分為Hc×Wc個空間網(wǎng)格。 并將每個網(wǎng)格看作分類任務(wù)中的一個類別。如果在某一樣本中,該關(guān)節(jié)點(diǎn)的標(biāo)注位置落入了第i個網(wǎng)格中,L-SRM 即在優(yōu)化時(shí)將第k個關(guān)節(jié)點(diǎn)所屬的類別視為第i類。 為了根據(jù)該相似度信息對關(guān)節(jié)點(diǎn)特征進(jìn)行優(yōu)化,L-SRM 在DF層的基礎(chǔ)上額外增加了N個分支網(wǎng)絡(luò)。 其中N代表關(guān)節(jié)點(diǎn)個數(shù),每個分支網(wǎng)絡(luò)包含3 個連續(xù)的全連接層和一個Softmax分類器,且只與DF中特定關(guān)節(jié)點(diǎn)對應(yīng)的特征相連。在網(wǎng)絡(luò)訓(xùn)練時(shí),每個分支根據(jù)其對應(yīng)的關(guān)節(jié)點(diǎn)的所屬類別進(jìn)行分類學(xué)習(xí),從而使每個關(guān)節(jié)點(diǎn)的高層特征具有對該點(diǎn)所在空間位置的判別性。 分類的損失函數(shù)公式為: 式中,DFk表示DF層中第k個關(guān)節(jié)點(diǎn)對應(yīng)的特征部分;gk表示與DF相連的第k個分支網(wǎng)絡(luò)所對應(yīng)的映射;i和j分別為圖像空間中網(wǎng)格的索引,即關(guān)節(jié)點(diǎn)類別的索引,其中i表示第k個關(guān)節(jié)點(diǎn)真實(shí)位置對應(yīng)的網(wǎng)格索引。 從整體姿態(tài)的視角來看,2 個樣本中的人體擁有相似的姿態(tài)可以近似等價(jià)于大部分關(guān)節(jié)點(diǎn)在2 個樣本中所處的空間位置都比較接近。 此時(shí)L-SRM 可通過拉近大部分關(guān)節(jié)點(diǎn)的高層特征使得整體特征也擁有了對人體姿態(tài)的判別性。 對于優(yōu)化目標(biāo)函數(shù)的選取,除了Softmax 分類損失,三元組損失(Triplet Loss)[28]也是增強(qiáng)特征判別性的有效方法,該損失直接優(yōu)化高層特征間的歐式距離。 在L-SRM 中對基于三元組損失的優(yōu)化方式也進(jìn)行了實(shí)驗(yàn),具體公式如下: 不同樣本中的不同人體關(guān)節(jié)點(diǎn)由于其內(nèi)在屬性或所處外在環(huán)境的不同,人類對這些人體關(guān)節(jié)點(diǎn)位置的認(rèn)知難度也有所不同。 舉例來說,相比膝蓋、胯等處于身體中央且易被服飾遮擋的人體關(guān)節(jié)點(diǎn),處于人體頭部的關(guān)節(jié)點(diǎn)通常擁有更易于辨別的表觀信息。 不同標(biāo)注人員對該類點(diǎn)標(biāo)注位置的方差也較小。 該現(xiàn)象可稱為不同關(guān)節(jié)點(diǎn)內(nèi)在屬性的不同所導(dǎo)致的認(rèn)知難度差異,MS-COCO[29]數(shù)據(jù)集在其評測規(guī)則中也考慮了該現(xiàn)象。 另一方面,在較復(fù)雜的擁擠或遮擋場景下,被遮擋的關(guān)節(jié)點(diǎn)由于其周邊表觀信息的反常變化,相比其他可見的關(guān)節(jié)點(diǎn)也具有更大的認(rèn)知難度。 已有人體姿態(tài)估計(jì)算法通常在優(yōu)化目標(biāo)中將人體結(jié)構(gòu)中的每個關(guān)節(jié)點(diǎn)等同看待。 由于不同關(guān)節(jié)點(diǎn)的認(rèn)知難度有所不同。 對所有關(guān)節(jié)點(diǎn)等同優(yōu)化時(shí),部分本身難以優(yōu)化且誤差過大的關(guān)節(jié)點(diǎn)會影響其他易優(yōu)化關(guān)節(jié)點(diǎn)的學(xué)習(xí)。 基于上述問題,本文將不確定度估計(jì)的思想[30-33]引入L-SRM 中以解決人體姿態(tài)估計(jì)任務(wù)的相關(guān)問題。 具體地,提出了MCUM 用于L-SRM 中的關(guān)節(jié)點(diǎn)回歸學(xué)習(xí)。 MCUM根據(jù)當(dāng)前輸入圖片,通過無監(jiān)督學(xué)習(xí)的方式為每個關(guān)節(jié)點(diǎn)預(yù)測出一個不確定度。 該不確定度可用于度量圖片中每個關(guān)節(jié)點(diǎn)的認(rèn)知難度。 在學(xué)習(xí)不確定度的同時(shí),MCUM 在訓(xùn)練中自適應(yīng)地降低了認(rèn)知難度較大關(guān)節(jié)點(diǎn)的學(xué)習(xí)權(quán)重,以便網(wǎng)絡(luò)將學(xué)習(xí)能力集中在更容易收斂的關(guān)節(jié)點(diǎn)上。 MCUM 對不確定度的預(yù)測過程可表示為: 式中,σ=[σ1,σ2,…,σn]∈RN表示MCUM 對當(dāng)前樣本中每個關(guān)節(jié)點(diǎn)預(yù)測出的不確定度;M代表MCUM 所對應(yīng)的映射函數(shù);N代表關(guān)節(jié)點(diǎn)個數(shù);C2,C3,C4,C5作為殘差網(wǎng)絡(luò)中不同層級的特征,也對應(yīng)著不同尺度的上下文信息,將其結(jié)合有助于對關(guān)節(jié)點(diǎn)不確定度進(jìn)行更好的預(yù)測。 圖5 所示為MCUM的網(wǎng)絡(luò)結(jié)構(gòu)。 圖5 基于多尺度上下文的不確定度預(yù)測模塊結(jié)構(gòu)Fig.5 Multi-context uncertainty module 為了通過預(yù)測不確定度的方式對樣本中每個關(guān)節(jié)點(diǎn)的學(xué)習(xí)進(jìn)行自適應(yīng)加權(quán)。 將預(yù)測出的關(guān)節(jié)點(diǎn)坐標(biāo)和不確定度分別看作一個高斯分布的均值與方差,并將原有的坐標(biāo)響應(yīng)圖回歸問題替換為一個后驗(yàn)概率最大化問題。 式中,y∈RN×2為網(wǎng)絡(luò)預(yù)測出的關(guān)節(jié)點(diǎn)坐標(biāo)響應(yīng)圖通過Softmax[34]層計(jì)算得到的關(guān)節(jié)點(diǎn)坐標(biāo);∈RN×2為標(biāo)注的關(guān)節(jié)點(diǎn)坐標(biāo)位置。 采用極大似然估計(jì)的思想求解上述后驗(yàn)概率最大化問題,并通過負(fù)對數(shù)似然損失對其求解,該損失如下: 不難看出,上述損失函數(shù)的理想目標(biāo)要求σ與同時(shí)趨近于0。 實(shí)際訓(xùn)練中,如果網(wǎng)絡(luò)對于某個關(guān)節(jié)點(diǎn)位置的認(rèn)知難度較大,則項(xiàng)的值一般較大。 為了降低整體的損失值,MCUM 可預(yù)測出更大的不確定度σ來降低該關(guān)節(jié)點(diǎn)的學(xué)習(xí)權(quán)重。 總的來說,MCUM 的使用有利于緩解網(wǎng)絡(luò)在訓(xùn)練過程中難以優(yōu)化某些離群樣本點(diǎn)以及認(rèn)知較難樣本點(diǎn)時(shí)所帶來的問題,從而有效提升局部樣本關(guān)系模型L-SRM 的性能。 綜上所述,L-SRM 所使用的整體損失函數(shù)可定義為: 式中,λ1,λ2,λ3為超參數(shù),分別表示各項(xiàng)子損失函數(shù)的學(xué)習(xí)權(quán)重;LRSM表示判別學(xué)習(xí)任務(wù)的優(yōu)化目標(biāo);LMSE和LReg表示回歸任務(wù)的優(yōu)化目標(biāo)。 后續(xù)實(shí)驗(yàn)表明,當(dāng)λ1設(shè)置為10-4,λ2及λ3設(shè)置為1 時(shí),算法取得了最理想的性能。 為了從多方面驗(yàn)證上述方法的有效性,在實(shí)驗(yàn)階段使用了MS-COCO[29]和CrowdPose[35]兩個均具有挑戰(zhàn)性且數(shù)據(jù)分布差異較大的數(shù)據(jù)集。 MS-COCO:MS-COCO[29]是一個具有挑戰(zhàn)性的無約束場景多人人體姿態(tài)估計(jì)數(shù)據(jù)集,共包含了200 000 余張圖片和250 000 余個人體實(shí)例。 該數(shù)據(jù)集為每個人體實(shí)例標(biāo)注了最多17 個關(guān)節(jié)點(diǎn)。 其中很多人體實(shí)例由于遮擋,超出邊界等原因只含有部分關(guān)節(jié)點(diǎn)的標(biāo)注。 這也大大增加了該數(shù)據(jù)集的挑戰(zhàn)性。 所有的實(shí)驗(yàn)均按照MS-COCO 標(biāo)準(zhǔn)協(xié)議所規(guī)定的訓(xùn)練集和測試集進(jìn)行訓(xùn)練和測試。 在分析實(shí)驗(yàn)中使用val2017 測試集進(jìn)行算法性能測試并最終在test-dev2017 測試集上與其他主流方法進(jìn)行了公平的性能對比。 按照MS-COCO 的測試協(xié)議,實(shí)驗(yàn)采用目標(biāo)關(guān)鍵點(diǎn)相似度(Object Keypoint Similarity,OKS)來計(jì)算對每個人體實(shí)例姿態(tài)估計(jì)的誤差。 并通過為OKS 設(shè)置10 個不同的閾值,來計(jì)算算法的平均準(zhǔn)確率(mean Average Precision,mAP)用于最后的評測結(jié)果。 CrowdPose:CrowdPose[35]數(shù)據(jù)集是一個面向擁擠場景的人體姿態(tài)估計(jì)數(shù)據(jù)集。 該數(shù)據(jù)集為圖像中的每個人體實(shí)例標(biāo)注了最多14 個關(guān)節(jié)點(diǎn),且14 個關(guān)節(jié)點(diǎn)中的絕大部分關(guān)節(jié)點(diǎn)對應(yīng)的語義位置均在MS-COCO 的標(biāo)注范圍之內(nèi)。 值得注意的是,該數(shù)據(jù)集中人與人之間的交互重疊率遠(yuǎn)大于MS-COCO 數(shù)據(jù)集,因此使用該數(shù)據(jù)集驗(yàn)證算法在跨域數(shù)據(jù)上的泛化能力。 CrowdPose 共標(biāo)注了20 000 張圖片中的80 000 個人體實(shí)例。 該數(shù)據(jù)集所使用的評測指標(biāo)同樣為不同OKS 下的mAP。 實(shí)驗(yàn)設(shè)置細(xì)節(jié):本方法在實(shí)驗(yàn)中使用殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),該主干網(wǎng)絡(luò)的初始模型參數(shù)由ImageNet上預(yù)訓(xùn)練得到。 而全局樣本關(guān)系模型和局部樣本關(guān)系模型中新加入的網(wǎng)絡(luò)層均采用0 均值,方差為0.01的高斯分布進(jìn)行初始化。 在局部樣本關(guān)系模型中的關(guān)節(jié)點(diǎn)解離表達(dá)模塊中,所有分組反卷積中每組的輸出通道個數(shù)均設(shè)置為32,即每個分組反卷積層的通道總數(shù)為32×N,N為每個人體關(guān)節(jié)點(diǎn)的個數(shù)。DF層的通道個數(shù)同樣被設(shè)置為32×N。 同時(shí),全局樣本關(guān)系模型和局部樣本關(guān)系模型中所有用于分類的分支網(wǎng)絡(luò)均將隱含層的輸出維度設(shè)置為1 024。 數(shù)據(jù)增廣方面,采用與基礎(chǔ)架構(gòu)SimpleBasline[10]一樣的參數(shù)設(shè)置。 具體地,在訓(xùn)練時(shí)所使用的面內(nèi)幾何變換操作包括水平翻轉(zhuǎn)、-40°到40°的面內(nèi)旋轉(zhuǎn)以及70%到130%的包圍盒尺度變換等操作。 對于增廣后的訓(xùn)練圖片,在實(shí)驗(yàn)中根據(jù)不同需求將其縮放到256 pixel×192 pixel 與384 pixel×288 pixel 兩種尺度作為網(wǎng)絡(luò)的輸入。 訓(xùn)練的初始學(xué)習(xí)率為0.001,訓(xùn)練總epoch 數(shù)為140。 訓(xùn)練過程中分別在90 和120 個epoch 時(shí)將學(xué)習(xí)率下降10倍。 實(shí)驗(yàn)所用的優(yōu)化器為Adam[36]。 訓(xùn)練所使用的硬件計(jì)算資源為8 塊NVIDIA Titan X (Pascal)GPU。 在測試階段,由于本文所提出的方法屬于自頂向下的多人人體姿態(tài)估計(jì)方法,因此需要先對原始圖像進(jìn)行目標(biāo)檢測以提取每個人體的檢測框。 公平起見,實(shí)驗(yàn)采用SimpleBasline[10]所使用的人體檢測結(jié)果作為人體檢測結(jié)果。 同時(shí)為了與已有方法保持一致[8,10,19],測試時(shí)對輸入的測試圖片進(jìn)行鏡像翻轉(zhuǎn),并將原圖和鏡像圖的人體姿態(tài)估計(jì)結(jié)果求平均作為最終結(jié)果。 為了驗(yàn)證本文提出的L-SRM 中各個模塊發(fā)揮的作用,通過控制變量配置了5 組不同的實(shí)驗(yàn)并在MS-COCO 的val2017 測試集上進(jìn)行了測試和分析。為了公平對比各個方法,實(shí)驗(yàn)中所使用的主干網(wǎng)絡(luò)均為50 層的殘差網(wǎng)絡(luò),輸入圖片的尺度均為256 pixel×192 pixel。 首先,為了驗(yàn)證在人體姿態(tài)估計(jì)網(wǎng)絡(luò)原有的回歸任務(wù)中引入判別性學(xué)習(xí)的作用,在基礎(chǔ)框架SimpleBasline 上加入基于整體姿態(tài)判別性學(xué)習(xí)的G-SRM 進(jìn)行實(shí)驗(yàn),評估采用MS-COCO 的val2017 測試集。 如表1 所示,加入G-SRM 將算法的mAP 從70.4 提升到了71.4。 該現(xiàn)象證明了判別學(xué)習(xí)在人體姿態(tài)估計(jì)任務(wù)中對性能提升的有效性。 為了對比L-SRM 中的關(guān)節(jié)點(diǎn)特征優(yōu)化方法與G-SRM 中的整體姿態(tài)特征優(yōu)化方法,使用不包含基于MCUM 的L-SRM 進(jìn)行實(shí)驗(yàn)。 對比表1 中第2 行和第4 行的結(jié)果可知,L-SRM 將G-SRM 的性能從71.4 進(jìn)一步提升到了72.0。 該現(xiàn)象證明,關(guān)節(jié)點(diǎn)特征判別學(xué)習(xí)可以克服整體姿態(tài)判別學(xué)習(xí)的缺點(diǎn),帶來更多的性能增益。 表1 各模塊對整體算法性能的影響Tab.1 Influence of different modules on the overall algorithm performance 除此之外,判別學(xué)習(xí)中優(yōu)化方式,即損失函數(shù)的選取也是一個關(guān)鍵的環(huán)節(jié)。 進(jìn)一步對L-SRM 中不同損失函數(shù)的表現(xiàn)進(jìn)行了對比,并分別選取Softmax分類損失和三元組損失2 種損失函數(shù)進(jìn)行了實(shí)驗(yàn)和分析。 為了使三元組損失達(dá)到更好的效果,在對其實(shí)驗(yàn)中加入了困難樣本挖掘以及超參數(shù)搜索等策略。 然而,如表1 中第3 行和第4 行所示,三元組損失僅達(dá)到了70.1 mAP,該結(jié)果顯著低于Softmax 分類損失72.0 mAP 的結(jié)果。 可見Softmax 分類損失相比對采樣策略等其他因素要求較為嚴(yán)格的三元組損失,更適用于人體姿態(tài)估計(jì)任務(wù)中的判別性學(xué)習(xí)。 最后,對L-SRM 中使用的MCUM 的有效性進(jìn)行了驗(yàn)證。 如表1 中第4 行和第5 行的實(shí)驗(yàn)結(jié)果所示,將MCUM 引入L-SRM,使得mAP 性能從72. 0提升到了73.2。 該結(jié)果說明,MCUM 與L-SRM 中判別學(xué)習(xí)任務(wù)之間存在較好的互補(bǔ)性,可以顯著地提升網(wǎng)絡(luò)的優(yōu)化質(zhì)量。 各項(xiàng)優(yōu)化目標(biāo)的權(quán)重平衡:如式(10)所示,本方法的整體優(yōu)化目標(biāo)主要由2 部分所組成,是一個多任務(wù)學(xué)習(xí)的過程。 多任務(wù)學(xué)習(xí)中每個任務(wù)的學(xué)習(xí)權(quán)重往往對算法的最終性能有著重要的影響。 對此,進(jìn)一步研究了為判別學(xué)習(xí)和回歸2 個任務(wù)設(shè)置不同學(xué)習(xí)權(quán)重比時(shí)算法整體性能的差異。 具體地,本實(shí)驗(yàn)將式(10)中的λ2與λ3設(shè)置為1,并通過調(diào)節(jié)λ1/λ2的值來進(jìn)行該實(shí)驗(yàn),實(shí)驗(yàn)選用50 層的殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),選用尺度為256 pixel×192 pixel的輸入圖片。 如表2 所示,當(dāng)判別學(xué)習(xí)任務(wù)即Softmax 分類損失的學(xué)習(xí)權(quán)重被設(shè)置為10-4時(shí),算法的性能達(dá)到了最優(yōu)。 此時(shí)可認(rèn)為判別學(xué)習(xí)任務(wù)和回歸任務(wù)達(dá)到了一個較好的平衡。 表2 式(10)中分類任務(wù)與回歸任務(wù)不同學(xué)習(xí)權(quán)重比所帶來的影響Tab.2 Different learning rates in equation (10) 基于誤差分布的算法泛化性分析:為了分析判別性學(xué)習(xí)在提升人體姿態(tài)估計(jì)算法泛化性方面發(fā)揮的作用,本實(shí)驗(yàn)對不同方法在測試集不同樣本上的誤差分布進(jìn)行了觀察和分析。 由于已有人體姿態(tài)估計(jì)算法通常對訓(xùn)練數(shù)據(jù)的依賴性較強(qiáng),可以認(rèn)為算法在測試集中預(yù)測誤差較大的樣本往往和訓(xùn)練樣本之間有一定的分布差異。 因此該預(yù)測誤差較大的難測試樣本可用于分析算法的泛化性能。 具體來說,本實(shí)驗(yàn)首先采用基準(zhǔn)算法SimpleBaseline 對測試集中的所有樣本進(jìn)行預(yù)測,之后根據(jù)SimpleBaseline 在每個測試樣本上預(yù)測得到的OKS 大小將測試樣本分成10 組。 此時(shí)可認(rèn)為對應(yīng)OKS 值較小(預(yù)測誤差較大)的組中的樣本與訓(xùn)練樣本之間有一定程度的分布差異。 如圖6 所示,當(dāng)使用不包含MCUM 的L-SRM 方法時(shí),算法在原本測試誤差較大的樣本上有著顯著的性能提升。 該現(xiàn)象可說明本方法引入的判別性學(xué)習(xí)更關(guān)注提升人體姿態(tài)估計(jì)算法在未知樣本上的泛化性能和魯棒性,而不是進(jìn)一步提升簡單樣本的回歸精度。 當(dāng)進(jìn)一步加入MCUM,即使用標(biāo)準(zhǔn)的L-SRM 方法進(jìn)行測試時(shí),算法的整體性能雖然從72.0 提升到了73. 2,然而從圖6 中無法觀察到MCUM 對算法測試誤差分布的改變。 可見MCUM并沒有對算法泛化性能的提升起到明顯的促進(jìn)作用。 圖6 對比不同方法在MS-COCO 測試集上的誤差分布變化Fig.6 The deviation distribution on the MS-COCO test set 跨數(shù)據(jù)集的算法泛化性分析:為了從跨數(shù)據(jù)集的角度驗(yàn)證L-SRM 對提升算法泛化性方面發(fā)揮的作用。 本實(shí)驗(yàn)使用MS-COCO[29]訓(xùn)練集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并在與該訓(xùn)練集分布差異較大的Crowd-Pose[35]測試集上對算法性能進(jìn)行測試,實(shí)驗(yàn)選用50 層的殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò), 選用尺度為256 pixel×192 pixel 的輸入圖片。 如表3 所示,引入L-SRM 在跨域的CrowdPose 測試集上取得了7. 8%的性能提升。 該結(jié)果遠(yuǎn)高于在同域的MS-COCO val2017 上2.3%的性能提升。 由于CrowdPose 相比MS-COCO 更有挑戰(zhàn)性,該現(xiàn)象也進(jìn)一步說明了L-SRM 在提升算法泛化性上的作用。 表3 L-SRM 在跨域數(shù)據(jù)集上對SimpleBaseline性能提升發(fā)揮的作用Tab.3 Performance improvement of L-SRM to the SimpleBaseline on trans-domain datasets 網(wǎng)格數(shù)目分析:如2.3.2 節(jié)所述,L-SRM 在優(yōu)化關(guān)節(jié)點(diǎn)特征時(shí),將輸入圖像空間分成Hc×Wc個網(wǎng)格,并根據(jù)樣本中每個關(guān)節(jié)點(diǎn)在圖像中所處的網(wǎng)格對其特征進(jìn)行分類。 以此實(shí)現(xiàn)關(guān)節(jié)點(diǎn)特征的判別性學(xué)習(xí)。 因此,分類網(wǎng)格的劃分密度是該優(yōu)化過程中的一個重要超參數(shù)。 過于稀疏的分類網(wǎng)格會導(dǎo)致類內(nèi)樣本的空間差異過大,而過于稠密的分類網(wǎng)格可能存在由于約束過于嚴(yán)格而導(dǎo)致的優(yōu)化難問題。 本實(shí)驗(yàn)對比了不同網(wǎng)格密度下L-SRM 的算法性能,實(shí)驗(yàn)選用50 層的殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),選用尺度為256 pixel×192 pixel 的輸入圖片,網(wǎng)格密度代表類別數(shù)與坐標(biāo)響應(yīng)圖尺度的比值。 如表4 所示,當(dāng)網(wǎng)格密度為1 時(shí),算法的性能達(dá)到最優(yōu)。 表4 不同密度分類網(wǎng)格下L-SRM 的性能對比Tab.4 Performance of L-SRM in different densities of grid 為了從定性的角度驗(yàn)證局部樣本關(guān)系模型通過優(yōu)化使網(wǎng)絡(luò)的高層特征對人體姿態(tài)具有了更強(qiáng)的判別性。 通過實(shí)驗(yàn)對不同方法中網(wǎng)絡(luò)提取的高層特征進(jìn)行了可視化分析。 實(shí)驗(yàn)步驟如下,首先使用2.2 節(jié)所提到的聚類方法對全部樣本的姿態(tài)進(jìn)行了聚類,并從聚類結(jié)果中隨機(jī)選取了6 個簇,其中每個簇可代表一組有相似姿態(tài)的樣本。 之后分別采用基準(zhǔn)方法SimpleBaseline 與所提出的L-SRM 提取所有樣本的特征。 對于每個樣本,本實(shí)驗(yàn)提取其在網(wǎng)絡(luò)C5層的特征,并采用t-SNE 算法[37]將所有的特征降到二維進(jìn)行可視化。 如圖7 所示,顯而易見,相比SimpleBaseline 提取的特征,L-SRM 提取的特征擁有對姿態(tài)更強(qiáng)的判別性,從而證實(shí)了判別性學(xué)習(xí)對于人體姿態(tài)估計(jì)算法的重要意義。 圖7 不同方法的高層特征降維可視化對比Fig.7 Visualization of the high-level features of different methods 驗(yàn)證集結(jié)果分析: 本實(shí)驗(yàn)在 MS-COCO 的val2017 驗(yàn)證集上將本文所提出的方法與現(xiàn)有主流方法進(jìn)行了性能對比,如表5 所示。 為了公平,所有方法的主干網(wǎng)絡(luò)均采用50 層的殘差網(wǎng)絡(luò)[27]。 本實(shí)驗(yàn)選取了256 pixel×192 pixel 和384 pixel×288 pixel兩種尺度的輸入圖片,以進(jìn)行更全面的對比。 由表5可以看出,在基準(zhǔn)方法中加入G-SRM 可在256 pixel×192 pixel 的輸入圖片尺度下將mAP 從70.4 提升到71.4,在384 pixel×288 pixel 的輸入圖片尺度下將mAP 從72.2 提升到72.9。 該現(xiàn)象證實(shí)了引入判別學(xué)習(xí)對于算法性能提升的有效性。 當(dāng)使用L-SRM替換G-SRM 時(shí),在256 pixel×192 pixel 輸入圖片尺度下算法的mAP 從71.4 進(jìn)一步提升到了73.2,在384 pixel×288 pixel 輸入圖片尺度下算法的mAP 從72.9 進(jìn)一步提升到了74.5。 該結(jié)果說明,基于關(guān)節(jié)點(diǎn)特征的優(yōu)化方案克服了基于整體姿態(tài)特征優(yōu)化方案的缺點(diǎn),從而得到了更高的性能增益。 最終本方法在該驗(yàn)證集上取得了所有同期方法中的最佳性能。 表5 不同方法在MS-COCO 驗(yàn)證集(val2017)上性能對比Tab.5 Performance on the MS-COCO evaluation set (val2017) 測試集結(jié)果分析:除了在上述驗(yàn)證集上的性能對比實(shí)驗(yàn)以外,同樣在MS-COCO 測試集上對本方法與更多不同類型的方法進(jìn)行了全面的性能對比。為了公平,本實(shí)驗(yàn)只對比了僅使用MS-COCO 標(biāo)準(zhǔn)訓(xùn)練集進(jìn)行訓(xùn)練的方法。 為了驗(yàn)證本方法在更強(qiáng)主干網(wǎng)絡(luò)下的有效性,實(shí)驗(yàn)將主干網(wǎng)絡(luò)替換為特征表達(dá)能力更強(qiáng)的152 層殘差網(wǎng)絡(luò),并使用尺度為384 pixel×288 pixel 的輸入圖片用于訓(xùn)練和測試。 如表6 所示,即使152 層的殘差網(wǎng)絡(luò)已經(jīng)擁有很強(qiáng)的特征表達(dá)能力和魯棒性,本文所提出的L-SRM 仍然將其mAP 性能從73.7 提升到了75.3。 最終,本方法在性能上顯著超越了所有以殘差網(wǎng)絡(luò)為主干的現(xiàn)有方法。 表6 不同方法在MS-COCO 測試集(test-dev)上性能對比Tab.6 Performance on the MS-COCO test set (test-dev) 在人體姿態(tài)估計(jì)領(lǐng)域中,基于響應(yīng)圖回歸的深度學(xué)習(xí)方法雖占據(jù)主導(dǎo)地位,但其優(yōu)化方式對訓(xùn)練數(shù)據(jù)多樣性有較強(qiáng)的依賴。 真實(shí)世界中的訓(xùn)練集遠(yuǎn)遠(yuǎn)無法為每種姿態(tài)形式都涵蓋表觀變化豐富的樣本,影響了網(wǎng)絡(luò)在未知樣本上的泛化能力。 基于上述問題,為了利用有限的訓(xùn)練數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)對姿態(tài)識別的魯棒性,在現(xiàn)有回歸任務(wù)訓(xùn)練方法的基礎(chǔ)上,進(jìn)一步對樣本間的姿態(tài)相似度信息進(jìn)行挖掘,并提出在回歸網(wǎng)絡(luò)中引入度量學(xué)習(xí)方法來優(yōu)化高層特征對人體姿態(tài)的判別性。 同時(shí),為了更好地在人體姿態(tài)估計(jì)的框架下建模該判別學(xué)習(xí)任務(wù),進(jìn)一步提出了基于點(diǎn)特征優(yōu)化的L-SRM。 通過在公開人體姿態(tài)數(shù)據(jù)集MS-COCO 和CrowdPose 上的實(shí)驗(yàn)驗(yàn)證,本文所提方法在相同主干網(wǎng)絡(luò)下取得了所有算法中最好的性能,且有效提升了在跨域數(shù)據(jù)集上的泛化性能。2.3 局部樣本關(guān)系模型
2.4 基于多尺度上下文的不確定度預(yù)測模塊
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
3.2 算法各模塊分析
3.3 分析實(shí)驗(yàn)
3.4 可視化分析
3.5 對比實(shí)驗(yàn)
4 結(jié)束語