張?jiān)鰰?huì) 姚彥鑫
摘要:近年來(lái)隨著深度學(xué)習(xí)和人工智能的蓬勃發(fā)展,人體姿態(tài)檢測(cè)逐漸成為計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)問(wèn)題,許許多多的人體姿態(tài)檢測(cè)方法和研究理論也在被不斷地提出。人體姿態(tài)檢測(cè)可以理解為人體關(guān)鍵點(diǎn)識(shí)別以及連接問(wèn)題,本文通過(guò)對(duì)姿態(tài)檢測(cè)的算法的描述,主要介紹單人與多人這兩種主要人體姿態(tài)檢測(cè)的主流算法,同時(shí)重點(diǎn)對(duì)于多人場(chǎng)景下的人體姿態(tài)檢測(cè)算法介紹。通過(guò)對(duì)不同算法的對(duì)比得出各個(gè)算法的優(yōu)缺點(diǎn),并對(duì)人體姿態(tài)檢測(cè)的應(yīng)用進(jìn)行闡述。本文的結(jié)尾結(jié)合人體姿態(tài)檢測(cè)領(lǐng)域的發(fā)展現(xiàn)狀,對(duì)此領(lǐng)域的未來(lái)發(fā)展趨勢(shì)進(jìn)行展望。
關(guān)鍵詞:深度學(xué)習(xí);人體姿態(tài)檢測(cè);人體關(guān)鍵點(diǎn)識(shí)別
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)27-0092-02
1 概述
隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步以及人工智能時(shí)代的來(lái)臨,人體姿態(tài)識(shí)別技術(shù)已經(jīng)成了計(jì)算機(jī)視覺(jué)領(lǐng)域不可或缺的一部分,也越來(lái)越引起各個(gè)國(guó)家和科研機(jī)構(gòu)的重視。人體姿態(tài)檢測(cè)作為計(jì)算機(jī)視覺(jué)當(dāng)下的研究熱點(diǎn),在生活中也具有十分廣泛的應(yīng)用,例如在視頻監(jiān)控?zé)┠莻€(gè)面對(duì)公共領(lǐng)域的安全問(wèn)題進(jìn)行保障,以及在人機(jī)交互方面增強(qiáng)人與機(jī)器之間的流暢度。
一般來(lái)說(shuō)人體姿態(tài)檢測(cè)從算法層面上講就是先使用卷積神經(jīng)網(wǎng)絡(luò)將圖片或者視頻中的人體的關(guān)鍵節(jié)點(diǎn)檢測(cè)出來(lái),然后對(duì)這些關(guān)鍵點(diǎn)進(jìn)行連接的一個(gè)過(guò)程。通過(guò)對(duì)人體不同的關(guān)鍵點(diǎn)之間的連接得到人體完整的人體節(jié)點(diǎn)信息。在將深度學(xué)習(xí)算法應(yīng)用于人體姿態(tài)檢測(cè)之前,不少算法采用基于圖形結(jié)構(gòu)[1]算法來(lái)處理人體姿態(tài)檢測(cè)問(wèn)題。這些方法主要是基于局部檢測(cè)器,局部檢測(cè)器使用的原理即通過(guò)人體關(guān)鍵點(diǎn)之間的內(nèi)在聯(lián)系來(lái)建立模型,雖然在識(shí)別精確度方面有所提高,但是往往容易受到拍攝角度以及光照等不確定因素的影響。除此之外還容易受到人工標(biāo)注等因素的制約,如邊緣特征[2],方向梯度直方圖[3],此種標(biāo)注需要耗費(fèi)大量的人力和物力。
人體姿態(tài)估計(jì)通??梢苑譃槎S人體姿態(tài)和三維人體姿態(tài)兩種,由于在現(xiàn)實(shí)生活中需要處理的圖像大多為二維圖像,所以一般來(lái)說(shuō)我們理解的人體姿態(tài)檢測(cè)為二維人體姿態(tài)檢測(cè)。本文亦是針對(duì)二維條件下的人體姿態(tài)檢測(cè)算法進(jìn)行綜述,根據(jù)不同的算法的不同應(yīng)用場(chǎng)景,有隊(duì)人體姿態(tài)檢測(cè)分為單人和多人兩種情況分別介紹。
2單人人體姿態(tài)檢測(cè)算法
2.1堆疊沙漏網(wǎng)絡(luò)算法
堆疊沙漏網(wǎng)絡(luò)[4](Stacked Hourglass Network)作為當(dāng)下人體姿態(tài)檢測(cè)算法以定位精度著稱,該網(wǎng)絡(luò)以殘差網(wǎng)絡(luò)為基本模塊,該模塊可以在提取圖像高層特征的同時(shí)保留低層的信息,利用殘差網(wǎng)絡(luò)的購(gòu)車還能夠給可以更加有效的提取不同尺度的特征信息,除此之外,使用多個(gè)沙漏網(wǎng)絡(luò)進(jìn)行堆疊對(duì)于捕捉不同特征點(diǎn)間的空間關(guān)系也具有十分重要的作用,通過(guò)對(duì)多個(gè)沙漏模塊的堆疊,通過(guò)卷積層和下采樣層之后,與隨后的上采樣層獲取的特征進(jìn)行融合,最終獲得圖像的多尺度的特征圖,由此可以多層次的提取圖像中多尺度特征,與殘差網(wǎng)絡(luò)中可能出現(xiàn)的特征丟失相互補(bǔ)。
2.2卷積姿態(tài)機(jī)
卷積姿態(tài)機(jī)(convolutional pose machines)[5]主要繼承了姿態(tài)機(jī)(Pose Mchines)的優(yōu)點(diǎn),主要突出了學(xué)習(xí)和推理之間的緊密結(jié)合,解決了多個(gè)關(guān)鍵點(diǎn)之間的長(zhǎng)距離依賴以及圖像的隱式學(xué)習(xí)問(wèn)題。卷積姿態(tài)機(jī)主要還發(fā)揮了姿態(tài)機(jī)和卷積網(wǎng)絡(luò)二者相互結(jié)合的優(yōu)點(diǎn),既可以通過(guò)學(xué)習(xí)圖像的特征,又可以提高空間上下文的表達(dá)能力,同時(shí)又可以進(jìn)行全局聯(lián)合訓(xùn)練,對(duì)于大規(guī)模處理數(shù)據(jù)集具有很好的效果。卷積姿態(tài)機(jī)的主要算法思想即是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)空間信息的表達(dá)進(jìn)行有效的學(xué)習(xí),又由于身體部位不同的關(guān)鍵點(diǎn)可以適配不同的感受野,因此可以對(duì)不同的部位進(jìn)行不同程度的檢測(cè)。首先該方法對(duì)原始圖像中的單個(gè)個(gè)體目標(biāo)的關(guān)鍵點(diǎn)進(jìn)行預(yù)測(cè),此種預(yù)測(cè)方法主要可以使用直接回歸關(guān)鍵點(diǎn)坐標(biāo)的方法,以及通過(guò)heatmap來(lái)確定關(guān)鍵點(diǎn)的回歸。
3多人人體姿態(tài)檢測(cè)算法
多人姿態(tài)檢測(cè)與單人姿態(tài)檢測(cè)算法不同,多人姿態(tài)檢測(cè)算法要求在將圖片中人體關(guān)鍵點(diǎn)檢測(cè)出來(lái)的同時(shí)還要將每個(gè)人的關(guān)鍵點(diǎn)進(jìn)行準(zhǔn)確的劃分。一般來(lái)說(shuō)可以分為自上而下和自下而上兩種方法。其中自上而下的方法又包括人體檢測(cè)和單個(gè)人體關(guān)鍵點(diǎn)檢測(cè)兩個(gè)部分,即先通過(guò)目標(biāo)檢測(cè)算法將圖像中存在的人體檢測(cè)出來(lái),然后在檢測(cè)出人體的基礎(chǔ)上,對(duì)每個(gè)人體的關(guān)鍵點(diǎn)進(jìn)行檢測(cè)。而自下而上的方法則是包含關(guān)鍵點(diǎn)檢測(cè)以及對(duì)檢測(cè)出的關(guān)鍵點(diǎn)進(jìn)行聚類組合兩部分,首先將圖像中所有人的關(guān)鍵點(diǎn)檢測(cè)出來(lái),而后對(duì)檢測(cè)出的關(guān)鍵點(diǎn)進(jìn)行聚類分析,進(jìn)一步組合成不同的個(gè)體。以下對(duì)兩種方法進(jìn)行不同介紹。
3.1自上而下方法
在當(dāng)下的眾多自上而下人體姿態(tài)檢測(cè)算法中,比較有代表性的主要包括G-RMI算法[6],AlphaPose[7]算法以及CPN( cascaded pyramid network)[8]算法等。G-RMI算法主要解決的是各種復(fù)雜場(chǎng)景下的人與人在有遮擋的情況下對(duì)人體姿態(tài)進(jìn)行識(shí)別的問(wèn)題,主要利用的是FastRCNN[9]檢測(cè)圖片中人體的目標(biāo)框的相應(yīng)位置和大小,然后對(duì)每個(gè)位置框中的人體關(guān)鍵點(diǎn)進(jìn)行檢測(cè)。對(duì)于每種關(guān)鍵點(diǎn)的類型的預(yù)測(cè),使用ResNet預(yù)測(cè)出關(guān)鍵點(diǎn)的heatmap以及相關(guān)的偏移量,并且結(jié)合相應(yīng)的輸出引入了新的聚合方法對(duì)關(guān)鍵點(diǎn)進(jìn)行精準(zhǔn)的預(yù)測(cè),為了避免對(duì)相應(yīng)的關(guān)鍵點(diǎn)的重復(fù)檢測(cè),該算法采用了基于OKS指標(biāo)的新型非極大值抑制(NMS)機(jī)制,而不是采用比較粗糙的基于邊界框的NMS。
CPN網(wǎng)絡(luò)主體主要由兩部分組成,分別是GlobalNet和RefineNet。GlobalNet主要對(duì)圖像中的關(guān)鍵點(diǎn)進(jìn)行粗提取,RefineNet主要是基于GlobalNet生成的特征金字塔,主要用于對(duì)不同的層之間的信息進(jìn)行整合,更好地對(duì)關(guān)鍵點(diǎn)進(jìn)行特征定位。
3.2自下而上方法