龍辰志,陳平,李傳坤
(中北大學(xué)信息探測(cè)與處理山西省重點(diǎn)實(shí)驗(yàn)室,山西 太原 030051)
多人姿態(tài)估計(jì)旨在預(yù)測(cè)圖像中所有人體目標(biāo)各個(gè)重要關(guān)鍵點(diǎn)的位置,在許多視覺(jué)應(yīng)用中對(duì)理解人體行為至關(guān)重要[1]。多人姿態(tài)估計(jì)通常有自頂向下和自底向上2種實(shí)現(xiàn)方法。自頂向下的方法[2-4]把多人姿態(tài)估計(jì)分解為多個(gè)單人姿態(tài)估計(jì):首先利用目標(biāo)檢測(cè)模型預(yù)測(cè)圖像上的人體檢測(cè)框,然后根據(jù)檢測(cè)框從圖像中裁剪出對(duì)應(yīng)區(qū)域,并作為單人姿態(tài)估計(jì)模型的輸入得到對(duì)應(yīng)的所有關(guān)鍵點(diǎn)輸出。自底向上的方法[5-7]直接預(yù)測(cè)所有人體目標(biāo)的關(guān)鍵點(diǎn):首先檢測(cè)出圖像中所有目標(biāo)的關(guān)鍵點(diǎn),之后采用關(guān)鍵點(diǎn)匹配算法把所有的關(guān)鍵點(diǎn)進(jìn)行分組,從而獲得每個(gè)人體目標(biāo)對(duì)應(yīng)的關(guān)鍵點(diǎn)。自頂向下方法相比于自底向上方法最大的優(yōu)勢(shì)在于顯式地解耦了圖像中的不同目標(biāo),使得姿態(tài)估計(jì)模型只需要預(yù)測(cè)關(guān)鍵點(diǎn)位置而不用考慮關(guān)鍵點(diǎn)和目標(biāo)之間的相關(guān)關(guān)系。雖然2種多人姿態(tài)估計(jì)方法都能夠有效地識(shí)別正常尺度大小的目標(biāo),但對(duì)于小尺度的目標(biāo),由于像素信息有限,因此2種方法均難以有效識(shí)別。自底向上的方法不依賴于目標(biāo)檢測(cè)模型,一次性得到所有目標(biāo)的關(guān)鍵點(diǎn),但無(wú)法有效處理尺度變化問(wèn)題以及目標(biāo)信息冗余問(wèn)題,導(dǎo)致小目標(biāo)的姿態(tài)丟失或預(yù)測(cè)錯(cuò)誤。而自頂向下方法因存在目標(biāo)檢測(cè)框,能夠從圖像中裁剪出不同目標(biāo)對(duì)應(yīng)的圖像區(qū)域,并通過(guò)仿射變換和插值實(shí)現(xiàn)不同目標(biāo)的尺度統(tǒng)一,使得該方法的識(shí)別精度更高。盡管如此,自頂向下方法嚴(yán)重依賴于人體目標(biāo)檢測(cè),而當(dāng)前的目標(biāo)檢測(cè)模型在識(shí)別小目標(biāo)上仍是1個(gè)難點(diǎn)。
為此,本文提出一種融合全局-局部上下文信息的多人姿態(tài)估計(jì)方法。采用自底向上的方法實(shí)現(xiàn)小目標(biāo)的多人姿態(tài)估計(jì),無(wú)須額外的目標(biāo)檢測(cè)階段,結(jié)合多解剖中心和可變形采樣對(duì)多尺度目標(biāo)進(jìn)行精確定位,同時(shí)從聚類的角度,利用交叉注意力機(jī)制融合全局-局部上下文信息,實(shí)現(xiàn)高效準(zhǔn)確的小目標(biāo)多人姿態(tài)估計(jì)。
自頂向下的方法首先利用目標(biāo)檢測(cè)模型得到人體檢測(cè)框,然后對(duì)檢測(cè)框裁剪的區(qū)域執(zhí)行單人姿態(tài)估計(jì)。自底向上的方法直接預(yù)測(cè)所有可能的關(guān)鍵點(diǎn),再將不同目標(biāo)的關(guān)鍵點(diǎn)進(jìn)行組合。文獻(xiàn)[8]提出的高分辨網(wǎng)絡(luò)(HRNet)在整個(gè)過(guò)程中保持多分支多分辨率表示,并通過(guò)融合多分辨率特征來(lái)豐富高分辨率特征表示。文獻(xiàn)[9]提出的上下文實(shí)例解耦(CID)通過(guò)每個(gè)目標(biāo)的中心位置線索來(lái)構(gòu)建不同目標(biāo)的空間和通道特征,實(shí)現(xiàn)不同目標(biāo)的特征解耦。文獻(xiàn)[10]提出的對(duì)偶解剖中心(DAC)采用多尺度訓(xùn)練的方法以及多解剖中心的姿態(tài)偏置回歸,實(shí)現(xiàn)小目標(biāo)姿態(tài)估計(jì)。文獻(xiàn)[11]通過(guò)結(jié)構(gòu)化空間學(xué)習(xí)和中途時(shí)間評(píng)估來(lái)學(xué)習(xí)豐富的特征結(jié)構(gòu)信息和時(shí)序一致性信息,確保視頻數(shù)據(jù)下姿態(tài)的連貫性和穩(wěn)定性。文獻(xiàn)[12]提出的Bi-Pose通過(guò)圖像輔助的3D偏移預(yù)測(cè)和雙向2D-3D轉(zhuǎn)換策略提出一種利用圖像信息和2D姿態(tài)進(jìn)行3D姿態(tài)估計(jì)的方法,并利用2D誤差和反投影網(wǎng)絡(luò)進(jìn)一步提高3D姿態(tài)的精度。
現(xiàn)有的姿態(tài)估計(jì)算法缺乏對(duì)小目標(biāo)的研究,小目標(biāo)識(shí)別多見于目標(biāo)檢測(cè)領(lǐng)域。文獻(xiàn)[13]通過(guò)生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)大目標(biāo)與小目標(biāo)之間的殘差表示,為小目標(biāo)生成媲美大目標(biāo)的超分辨率特征。文獻(xiàn)[14]針對(duì)小目標(biāo)像素區(qū)域小的問(wèn)題,對(duì)包含小目標(biāo)的圖像進(jìn)行過(guò)采樣,并在保證沒(méi)有重疊的情況下復(fù)制粘貼小目標(biāo)數(shù)量來(lái)增加小目標(biāo)的像素。文獻(xiàn)[15-16]采用多尺度特征學(xué)習(xí)的方式,通過(guò)逐層上采樣融合淺層特征和深層特征以獲得空間定位能力和目標(biāo)表征能力更強(qiáng)的特征。其他方法[17]利用環(huán)境和物體之間的關(guān)系以及物體與物體之間的關(guān)系來(lái)識(shí)別目標(biāo),通過(guò)1組對(duì)象的外觀特征和幾何特征實(shí)現(xiàn)關(guān)系建模,實(shí)現(xiàn)目標(biāo)上下文信息的提取。
隨著注意力機(jī)制[18-19]的發(fā)展,直接基于Transformer的模型已被廣泛應(yīng)用于多人姿態(tài)估計(jì)領(lǐng)域[20-23]。TokenPose[20]利用Transformer模塊解碼卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征,并引入關(guān)鍵點(diǎn)Token從圖像中學(xué)習(xí)視覺(jué)線索和關(guān)鍵點(diǎn)約束。PETR[21]利用Transformer編碼器細(xì)化CNN提取的多尺度特征,并采用Transformer解碼器直接捕捉關(guān)鍵點(diǎn)與目標(biāo)之間的關(guān)系。GCEHNet[22]采用雙分支輸入把Transformer模塊編碼的全局上下文信息與CNN特征進(jìn)行融合,擴(kuò)大了CNN網(wǎng)絡(luò)的感受野。CAPose[23]利用交叉注意力模塊實(shí)現(xiàn)高分辨率特征和不同尺度低分辨率特征的有效融合,提高了Transformer編碼器的學(xué)習(xí)效率。
對(duì)于1張包含多人的RGB圖像I,多人姿態(tài)估計(jì)的目的在于定位出M個(gè)人體實(shí)例以及對(duì)應(yīng)的K個(gè)關(guān)鍵點(diǎn)位置。本文通過(guò)多中心點(diǎn)對(duì)小目標(biāo)進(jìn)行定位,并利用注意力機(jī)制提取有效的小目標(biāo)上下文信息,實(shí)現(xiàn)小目標(biāo)的姿態(tài)估計(jì),模型的整體架構(gòu)如圖1所示。
圖1 模型整體架構(gòu)Fig.1 Overall architecture of model
考慮到小目標(biāo)所占圖像的像素區(qū)域小,不容易進(jìn)行定位,本文通過(guò)設(shè)置多個(gè)解剖中心對(duì)小目標(biāo)樣本進(jìn)行數(shù)據(jù)增強(qiáng),保證在1個(gè)中心點(diǎn)無(wú)法定位的情況下通過(guò)多中心點(diǎn)對(duì)小目標(biāo)進(jìn)行定位。同時(shí),多中心點(diǎn)的結(jié)果可以互相修正小目標(biāo)的定位精度。在定位過(guò)程中可以不需要精確的結(jié)果,但必須定位出所有可能存在小目標(biāo)的位置。中心點(diǎn)劃分策略如圖2所示,以COCO數(shù)據(jù)集為例,采用3種關(guān)鍵點(diǎn)劃分方式。對(duì)于中等目標(biāo)和大目標(biāo),只設(shè)置了1個(gè)中心點(diǎn)進(jìn)行監(jiān)督,圖2(a)、圖2(b)和圖2(c)對(duì)小目標(biāo)分別設(shè)置了1個(gè)、3個(gè)和5個(gè)中心點(diǎn)進(jìn)行監(jiān)督。對(duì)于不同的關(guān)鍵點(diǎn)劃分方式,本文通過(guò)計(jì)算其內(nèi)部的所有關(guān)鍵點(diǎn)坐標(biāo)的均值點(diǎn)來(lái)表示監(jiān)督的中心點(diǎn)坐標(biāo)信息。
圖2 中心點(diǎn)劃分策略Fig.2 The strategies of center point partition
基于CenterNet等方法[9,24-25]的啟發(fā),本文通過(guò)回歸中心點(diǎn)熱圖來(lái)定位目標(biāo)的中心點(diǎn)坐標(biāo),并利用中心點(diǎn)的坐標(biāo)從多尺度的特征中采樣目標(biāo)對(duì)應(yīng)的局部上下文信息。
假設(shè)HRNet網(wǎng)絡(luò)提取的第l級(jí)尺度特征為F(l)∈Cl×Hl×Wl。不同尺度的特征首先通過(guò)1×1卷積和上采樣操作實(shí)現(xiàn)尺度和特征通道數(shù)的統(tǒng)一,然后把所有特征沿通道維度進(jìn)行拼接,并通過(guò)1×1卷積頭輸出通道數(shù)量為K+C的關(guān)鍵點(diǎn)熱圖H∈(K+C)×H×W,額外的C個(gè)通道表示中心點(diǎn)數(shù)量,H和W表示輸入圖像高和寬的1/4。上下文信息提取的結(jié)構(gòu)如圖3所示。
圖3 上下文信息提取結(jié)構(gòu)Fig.3 Structure of contextual information extraction
模型在訓(xùn)練過(guò)程中需要計(jì)算K+C個(gè)熱圖,K個(gè)多人關(guān)鍵點(diǎn)熱圖用于輔助訓(xùn)練,在推理階段可以直接舍棄,只保留C個(gè)中心點(diǎn)的熱圖。熱圖的標(biāo)簽通常根據(jù)平滑的高斯分布生成,對(duì)于第k類關(guān)鍵點(diǎn)坐標(biāo)(xk,yk),由式(1)計(jì)算其在熱圖標(biāo)簽H*∈(K+C)×H×W上的響應(yīng):
(1)
其中:σ表示人體目標(biāo)的標(biāo)準(zhǔn)差,采用文獻(xiàn)[9]中的方法,通過(guò)計(jì)算目標(biāo)所有關(guān)鍵點(diǎn)的最小外接矩陣自適應(yīng)地計(jì)算目標(biāo)標(biāo)準(zhǔn)差,以緩解不同目標(biāo)的尺度變化問(wèn)題。
在訓(xùn)練階段,對(duì)模型生成的多人熱圖采用Focal loss[26]進(jìn)行監(jiān)督訓(xùn)練,以平衡熱圖回歸中前景點(diǎn)和背景點(diǎn)之間數(shù)量的不平衡。Focal loss的計(jì)算如式(2)所示:
(2)
由于教育教學(xué)督導(dǎo)和評(píng)價(jià)機(jī)制的主要目的是督促和引導(dǎo)教學(xué)良性發(fā)展,使教師的教學(xué)工作和學(xué)生的學(xué)習(xí)效果都有提升,所以,教育教學(xué)督導(dǎo)和評(píng)價(jià)機(jī)制的建立、發(fā)展和完善都與學(xué)校和學(xué)院的教學(xué)質(zhì)量保障和建設(shè)息息相關(guān)。因此針對(duì)教師的教育教學(xué)督導(dǎo)和評(píng)價(jià)機(jī)制提出以下的改進(jìn)辦法:
小目標(biāo)通常包含較少的像素區(qū)域,在網(wǎng)絡(luò)下采樣的過(guò)程中很可能會(huì)進(jìn)一步丟失小目標(biāo)的空間信息。而上下文信息提供了除目標(biāo)區(qū)域以外的信息,能夠彌補(bǔ)小目標(biāo)缺少的信息,有效提高小目標(biāo)的識(shí)別精度。對(duì)于1個(gè)人體目標(biāo),其形狀通常是不規(guī)則的,用完全包裹的矩形框進(jìn)行采樣可能會(huì)引入無(wú)關(guān)的背景信息或其他目標(biāo)信息。為此,基于可變形卷積[28]的思想,以中心點(diǎn)向量v∈D為輸入,利用全連接網(wǎng)絡(luò)輸出1個(gè)S×S大小的中心點(diǎn)采樣偏置,用中心點(diǎn)坐標(biāo)加上偏置得到的坐標(biāo)對(duì)不同尺度的特征進(jìn)行雙線性插值采樣,得到S×S長(zhǎng)度的目標(biāo)局部上下文信息。圖4所示為可變形采樣的實(shí)現(xiàn)過(guò)程。
圖4 可變形采樣的實(shí)現(xiàn)過(guò)程Fig.4 The implementation process of deformable sampling
為了獲取可區(qū)分的目標(biāo)上下文信息,本文采用對(duì)比學(xué)習(xí)中的InfoNCE[29]損失函數(shù),通過(guò)最小化第m個(gè)目標(biāo)向量與其他目標(biāo)向量之間的余弦相似度,推斷不同目標(biāo)局部上下文信息之間的距離。對(duì)比損失如式(3)所示:
(3)
其中:sim(·,·)表示計(jì)算輸入之間的余弦相似度;vm∈D表示采樣第m個(gè)目標(biāo)的平均局部上下文信息;τ=0.07表示模擬退火參數(shù),用于控制輸出的平滑程度,該值越趨近于0,輸出越接近于獨(dú)熱編碼的形式。
受圖像分割[30]工作的啟發(fā),Transformer模型可以解釋為帶參數(shù)的聚類過(guò)程,Query可作為初始化的聚類中心,Query與Key計(jì)算注意力權(quán)重的過(guò)程相當(dāng)于計(jì)算簇分配矩陣,注意力權(quán)重與Value的計(jì)算實(shí)現(xiàn)了聚類中心的更新,多層Transformer模型的堆疊相當(dāng)于多次迭代的聚類過(guò)程。以采樣的局部上下文信息作為初始化的聚類中心即Query,圖像的全局上下文信息作為Key和Value,通過(guò)Transformer模型的聚類過(guò)程,實(shí)現(xiàn)局部和全局上下文信息的融合,即聚類中心的迭代更新,最終的聚類中心作為增強(qiáng)的目標(biāo)上下文信息用來(lái)解耦得到不同目標(biāo)對(duì)應(yīng)的關(guān)鍵點(diǎn)熱圖。目標(biāo)上下文信息與多尺度特征的計(jì)算實(shí)現(xiàn)了隱式的聚類過(guò)程,即通過(guò)計(jì)算上下文信息與每個(gè)空間像素特征之間的距離實(shí)現(xiàn)聚類,無(wú)須采用任何關(guān)鍵點(diǎn)后處理分組方法,實(shí)現(xiàn)自底向上的多人姿態(tài)估計(jì)。
采用ViT[31]方法添加可學(xué)習(xí)分類Token的思想,本文增加1個(gè)可學(xué)習(xí)的姿態(tài)TokenP∈K×D來(lái)表示最終融合的K個(gè)D維關(guān)鍵點(diǎn)上下文信息,把局部上下文信息Q∈L×D和姿態(tài)TokenP的拼接結(jié)果當(dāng)作Transformer解碼模塊的輸入Query。對(duì)于HRNet提取的深層低分辨率特征經(jīng)過(guò)傅里葉位置編碼[19]后直接鋪平為1維的圖像塊,作為全局上下文信息G∈(H×W)×D,用于映射為Transformer解碼模塊中交叉注意力的Key和Value。圖5所示為Transformer解碼器結(jié)構(gòu)。
圖5 Transformer解碼器結(jié)構(gòu)Fig.5 Structure of Transformer decoder
整個(gè)Transformer解碼模塊共3層,注意力頭設(shè)置為8,交叉注意力計(jì)算式如下:
(K+L)×(H×W)
(4)
Z=A*(G*Wv),Z∈(K+L)×D
(5)
其中:Wq,Wk,Wv∈D×D為映射矩陣,把輸入映射為Query、Key、Value;*表示矩陣乘法;Z作為注意力的輸出,當(dāng)作新的Query作為下一層Transformer的輸入。
最后,根據(jù)多層Transformer輸出的姿態(tài)TokenP,從全局特征F中解耦得到不同的實(shí)例熱圖,如式(6)所示:
Hk=σ(Norm(pk)*Norm(F))
(6)
其中:σ表示Sigmoid激活函數(shù);Hk∈1×H×W表示解耦的第k類熱圖;Norm表示對(duì)特征維度進(jìn)行L2歸一化;F∈D×H×W表示降維后的多尺度特征;pk∈1×D表示經(jīng)過(guò)多層Transformer解碼模塊得到的姿態(tài)Token。模型根據(jù)不同目標(biāo)的上下文信息生成不同的關(guān)鍵點(diǎn)熱圖,無(wú)須采用后處理方法對(duì)關(guān)鍵點(diǎn)進(jìn)行分組,輸出熱圖中只包含1個(gè)目標(biāo)對(duì)應(yīng)的關(guān)鍵點(diǎn)。該輸出結(jié)果同樣采用Focal loss進(jìn)行監(jiān)督訓(xùn)練,模型的整體損失如式(7)所示:
=λ1multi+λ2contrastive+λ3single
(7)
其中:λ1、λ2、λ3表示不同損失的權(quán)重系數(shù);multi表示多目標(biāo)中心點(diǎn)熱圖的Focal loss;contrastive表示上下文信息之間的對(duì)比損失;single表示單目標(biāo)關(guān)鍵點(diǎn)熱圖的Focal loss。
本文在COCO多人姿態(tài)估計(jì)數(shù)據(jù)集上訓(xùn)練和驗(yàn)證模型。COCO關(guān)鍵點(diǎn)數(shù)據(jù)集包含64 000張帶有270 000個(gè)人體實(shí)例標(biāo)注的圖像,每個(gè)實(shí)例標(biāo)注17個(gè)關(guān)鍵點(diǎn)。
實(shí)驗(yàn)平臺(tái)采用Ubuntu 18.04.5 LTS,顯卡為NVIDIA Tesla V100,顯存32 GB,CUDA 11.4,cudnn470.57.02,實(shí)驗(yàn)代碼采用PyTorch1.7.1和Python3.6.9實(shí)現(xiàn)。優(yōu)化器采用Adam,初始學(xué)習(xí)率設(shè)置為0.000 5,學(xué)習(xí)率衰減系數(shù)為0.1,共訓(xùn)練140個(gè)周期,在90個(gè)和120個(gè)周期時(shí)進(jìn)行學(xué)習(xí)率衰減。本文采用包含隨機(jī)旋轉(zhuǎn)[-30°, 30°],隨機(jī)縮放[0.75,1.50],隨機(jī)平移[-40,40]和隨機(jī)水平翻轉(zhuǎn)(0.5)等數(shù)據(jù)增強(qiáng)方式進(jìn)行訓(xùn)練。
本文對(duì)于COCO數(shù)據(jù)集采用平均精度(AP)進(jìn)行評(píng)估,并采用目標(biāo)關(guān)鍵點(diǎn)相似度(OKS)來(lái)計(jì)算預(yù)測(cè)關(guān)鍵點(diǎn)和真實(shí)關(guān)鍵點(diǎn)的相似度,并比較不同相似度下的AP值。OKS計(jì)算式如下:
(8)
根據(jù)不同的OKS值計(jì)算不同的AP,AP50表示當(dāng)OKS=0.5時(shí)的平均精度,同理AP75表示當(dāng)OKS=0.75時(shí)的平均精度,AP表示OKS=0.5∶0.05∶0.95之間的平均精度均值,APM表示像素區(qū)域32×32像素96×96像素范圍內(nèi)目標(biāo)的平均精度。
本文對(duì)比所提的方法與其他自底向上多人姿態(tài)估計(jì)方法在COCO test-dev2017和COCO val2017數(shù)據(jù)集上的結(jié)果,如表1所示。本文方法在COCO test-dev2017數(shù)據(jù)集上實(shí)現(xiàn)了69.0%的AP,比DEKR方法提高了1.7個(gè)百分點(diǎn),在APM上提高了3.3個(gè)百分點(diǎn),比SWAHR方法的AP提高了1.1個(gè)百分點(diǎn),在APM上提高了2.4個(gè)百分點(diǎn)。盡管本文方法的AP結(jié)果比CID方法提高了0.1個(gè)百分點(diǎn),但是對(duì)比中等目標(biāo),APM實(shí)現(xiàn)了1.6個(gè)百分點(diǎn)的提升。與同樣針對(duì)小目標(biāo)姿態(tài)的DAC方法相比,本文方法的AP提高了0.5個(gè)百分點(diǎn),APM也提高了1.4個(gè)百分點(diǎn),與基于Transformer的PETR方法相比,本文方法的AP提高了0.5個(gè)百分點(diǎn),但APM顯著提高了2.3個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果證明了融合全局-局部上下文信息方法的有效性。
表1 不同方法在COCO test-dev2017和COCO val2017上的性能比較Table 1 Performance comparison among different methods on COCO test-dev2017 and COCO val2017
為了詳細(xì)說(shuō)明不同模塊對(duì)模型性能的影響,本文在COCO val2017數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),分別探究了中心點(diǎn)數(shù)量、可變形采樣、對(duì)比學(xué)習(xí)損失、Transformer數(shù)量、損失函數(shù)權(quán)重系數(shù)的影響,并對(duì)算法效率進(jìn)行分析。
表2所示為不同Transformer層數(shù)對(duì)模型性能的影響。隨著Transformer層數(shù)的增加,模型的性能先提高后降低,可能的原因是隨著層數(shù)的增加,模型開始過(guò)擬合??紤]到模型的計(jì)算效率和性能,本文最終選擇3層的Transformer,后續(xù)的消融實(shí)驗(yàn)同樣采用3層Transformer進(jìn)行測(cè)試。
表2 Transformer層數(shù)的消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment results of Transformer layers number
表3所示為不同的中心點(diǎn)數(shù)量對(duì)模型性能的影響。從表3可以看出,1個(gè)中心點(diǎn)取得68.7%的AP,而3個(gè)中心點(diǎn)取得69.3%的AP。因?yàn)樾∧繕?biāo)的單一中心點(diǎn)容易被遮擋,多中心點(diǎn)保證在有部分中心點(diǎn)遮擋的情況下還可以利用可見的部分對(duì)小目標(biāo)進(jìn)行姿態(tài)估計(jì)。隨著中心點(diǎn)數(shù)量的增加,模型的AP開始降低,AP50卻進(jìn)一步增加,表明多中心點(diǎn)的確利于預(yù)測(cè)被遮擋的目標(biāo),但因引入了冗余的上下文信息,反而降低了模型的性能。
表3 中心點(diǎn)數(shù)量的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment results of center point number
表4所示為不同的損失權(quán)重系數(shù)對(duì)模型性能的影響。由于對(duì)比損失的數(shù)量級(jí)遠(yuǎn)小于熱圖損失,且模型的輸出結(jié)果更容易受到單目標(biāo)熱圖損失single的影響,因此本文固定λ1=1,λ2=1,僅改變?chǔ)?的大小。實(shí)驗(yàn)結(jié)果表明,隨著λ3的變大,模型的精度在穩(wěn)步提升,直到λ3=3之后精度開始飽和,進(jìn)一步增大λ3的值反而導(dǎo)致精度降低。
表4 損失權(quán)重系數(shù)對(duì)模型性能的影響Table 4 Influence of loss weight factors on model performance
表5所示為本文方法與其他自底向上方法的參數(shù)量大小和浮點(diǎn)運(yùn)算量,以及在Tesla V100 GPU上對(duì)比了batch size=1下的算法推理速度。從表5可以看出,本文方法在引入額外的多層Transformer的情況下,推理速度媲美其他方法。本文方法并行計(jì)算效率高,因此在參數(shù)量和計(jì)算量都不占優(yōu)的情況下,仍能在GPU上取得很快的推理速度。圖6所示為在不同人員數(shù)量下的推理時(shí)間。隨著圖像中人員數(shù)量的增加,本文方法的推理時(shí)間增長(zhǎng)緩慢。
表5 算法效率分析Table 5 Analysis of algorithms efficiency
圖6 在不同人員數(shù)量下的推理時(shí)間Fig.6 Inference time under different numbers of person
表6所示為消融實(shí)驗(yàn)結(jié)果。第1組實(shí)驗(yàn)在不采用任一種模塊的情況下AP只有68.0%,加入對(duì)比損失后的AP相比第1組實(shí)驗(yàn)有0.7個(gè)百分點(diǎn)的提升,加入多中心監(jiān)督后的AP有0.9個(gè)百分點(diǎn)的提升,同時(shí)加入對(duì)比損失和多中心監(jiān)督后的AP有1.3個(gè)百分點(diǎn)的提升,同時(shí)加入上述3種模塊后的AP有2.2個(gè)百分點(diǎn)的提升,APM甚至有3.0個(gè)百分點(diǎn)的提升。消融實(shí)驗(yàn)結(jié)果表明本文提出的多個(gè)模塊均能有效提高模型的性能。
表6 消融實(shí)驗(yàn)結(jié)果Table 6 Ablation experiment results %
對(duì)于訓(xùn)練好的模型,本文在COCO test-dev2017數(shù)據(jù)集上選取了部分帶有小目標(biāo)的圖像進(jìn)行測(cè)試。本文方法在COCO test-dev2017數(shù)據(jù)集上的可視化結(jié)果如圖7所示。本文方法在一定程度上提高了小目標(biāo)的姿態(tài)估計(jì)性能,對(duì)于512×512像素的輸入圖像,如圖7中第1行的第2列所示,模型最小能識(shí)別19×19像素的目標(biāo)(用矩形框標(biāo)出)。然而,在圖7中,對(duì)于擁擠場(chǎng)景下的目標(biāo),本文方法無(wú)法得到滿意的結(jié)果,面對(duì)嚴(yán)重遮擋的情況也只能對(duì)未被遮擋的部分進(jìn)行預(yù)測(cè)。
圖7 本文方法在COCO test-dev2017數(shù)據(jù)集上的可視化結(jié)果Fig.7 Visualization results of the proposed method on COCO test-dev2017 dataset
本文提出一種融合全局-局部上下文信息的多人姿態(tài)估計(jì)方法。利用多中心監(jiān)督信息來(lái)增強(qiáng)小目標(biāo)的定位能力,基于粗糙的定位結(jié)果,采用可變形的雙線性插值采樣方式有效提取小目標(biāo)的上下文信息,結(jié)合HRNet提取的全局上下文信息和Transformer解碼器對(duì)不同小目標(biāo)的上下文信息進(jìn)行聚類增強(qiáng),實(shí)現(xiàn)了準(zhǔn)確的小目標(biāo)多人姿態(tài)估計(jì)。在COCO test-dev2017和COCO val2017公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法有效改善了小目標(biāo)的識(shí)別精度。下一步將針對(duì)遮擋和擁擠場(chǎng)景下的多人姿態(tài)估計(jì),在保持小目標(biāo)檢測(cè)性能的同時(shí)實(shí)現(xiàn)對(duì)遮擋目標(biāo)的有效識(shí)別。