亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        球類運(yùn)動(dòng)中人體姿態(tài)估計(jì)研究進(jìn)展

        2023-01-03 09:20:56張漫秸楊芳艷季云峰
        電子科技 2023年1期
        關(guān)鍵詞:特征檢測(cè)

        張漫秸,楊芳艷,季云峰

        (1.上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093; 2.上海理工大學(xué) 機(jī)器智能研究院,上海 200093)

        在體育運(yùn)動(dòng)中,運(yùn)動(dòng)員的姿態(tài)分析可以直觀呈現(xiàn)運(yùn)動(dòng)員的姿勢(shì),為運(yùn)動(dòng)員、教練員或者裁判員對(duì)賽事評(píng)價(jià)提供參考。隨著計(jì)算機(jī)視覺技術(shù)日益成熟,在體育運(yùn)動(dòng)中也開始引入人體姿態(tài)估計(jì)技術(shù)來為運(yùn)動(dòng)員的比賽姿態(tài)提供了準(zhǔn)確的動(dòng)作分析。

        在球類運(yùn)動(dòng)中進(jìn)行人體姿態(tài)估計(jì)分析有助于運(yùn)動(dòng)員技術(shù)訓(xùn)練和比賽輔助判罰。技術(shù)訓(xùn)練是指通過對(duì)運(yùn)動(dòng)員的比賽視頻進(jìn)行分析,提取出其比賽動(dòng)作和軌跡并進(jìn)行信息處理,為運(yùn)動(dòng)員量身定做訓(xùn)練計(jì)劃,提升其競(jìng)技水平。比賽輔助判罰主要是在球類運(yùn)動(dòng)中通過對(duì)運(yùn)動(dòng)員比賽動(dòng)作和球的位置定位,對(duì) “遮擋球”和“兩跳球”等爭(zhēng)議球的判罰提供依據(jù)。

        人體姿態(tài)估計(jì)的目的是通過對(duì)圖片、視頻以及攝像頭視頻流等對(duì)人體關(guān)鍵點(diǎn)進(jìn)行定位,抽象表示出人體的形態(tài),并同時(shí)進(jìn)行目標(biāo)識(shí)別、分割、回歸與檢測(cè)等多方面的任務(wù)。主流的人體姿態(tài)估計(jì)算法由基于傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法組成?;趫D結(jié)構(gòu)模型和形變部件模型是傳統(tǒng)算法的基礎(chǔ),且需要進(jìn)行特征人工標(biāo)注,將人體姿態(tài)估計(jì)問題轉(zhuǎn)變?yōu)榛貧w問題,通過回歸函數(shù)得到人體的關(guān)節(jié)點(diǎn)坐標(biāo),精度低且適用范圍小。近年來深度學(xué)習(xí)的發(fā)展日趨完善,人體姿態(tài)估計(jì)通過使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)捕捉圖片信息,可獲得不同感受野下多尺度多類型的人體關(guān)鍵點(diǎn)的特征向量和每個(gè)關(guān)鍵點(diǎn)的全部上下文,從而更準(zhǔn)確地反映人體姿態(tài)信息。

        隨著深度學(xué)習(xí)的發(fā)展,人體姿態(tài)估計(jì)逐漸被應(yīng)用在球類運(yùn)動(dòng)中,并且在提高運(yùn)動(dòng)員競(jìng)技水平方面取得了一定的效果。通過對(duì)高分辨率的視頻進(jìn)行實(shí)時(shí)標(biāo)定、分析,將長(zhǎng)片段分解為各小片段,可將運(yùn)動(dòng)員的各個(gè)動(dòng)作進(jìn)行分解,得到運(yùn)動(dòng)員每個(gè)動(dòng)作的關(guān)節(jié)點(diǎn)的坐標(biāo)數(shù)據(jù)。依賴這項(xiàng)技術(shù)可以對(duì)運(yùn)動(dòng)員的姿勢(shì)進(jìn)行比對(duì),清晰地反映出運(yùn)動(dòng)員的不規(guī)范動(dòng)作,促進(jìn)運(yùn)動(dòng)員訓(xùn)練和比賽水平的提高。

        1 球類運(yùn)動(dòng)中視頻分析系統(tǒng)與技術(shù)研究

        體育比賽中因誤判球?qū)е卤荣惤Y(jié)果爭(zhēng)議的事件時(shí)有發(fā)生,國(guó)內(nèi)外運(yùn)動(dòng)組織和團(tuán)隊(duì)先后開始借助網(wǎng)絡(luò)技術(shù)來提高比賽判罰的科學(xué)性,例如在眾多大型比賽中引入“鷹眼”[1]或“視頻助理裁判(Video Assistant Referee,VAR)”[2]等技術(shù)來提高比賽裁決的科學(xué)性。近年來,隨著對(duì)視頻分析系統(tǒng)的研究越發(fā)深入,通過視頻分析可以直觀地表現(xiàn)出運(yùn)動(dòng)員的運(yùn)動(dòng)軌跡和相關(guān)力學(xué)作用,最大程度上降低了誤判的可能,同時(shí)該技術(shù)也可以作為運(yùn)動(dòng)員科學(xué)訓(xùn)練的輔助手段。

        1.1 球類運(yùn)動(dòng)的視頻分析系統(tǒng)應(yīng)用現(xiàn)狀

        美國(guó)STATS的SportVU(https://www.stats.com/sportvu-footbal)多鏡頭動(dòng)態(tài)追蹤系統(tǒng)于2013年率先被應(yīng)用于籃球比賽中。該系統(tǒng)由6個(gè)3D高清攝像頭和計(jì)算機(jī)組成,每個(gè)攝像頭在每秒內(nèi)能采集25張圖片。該系統(tǒng)采用光學(xué)追蹤技術(shù)捕捉運(yùn)動(dòng)員的動(dòng)作,其統(tǒng)計(jì)算法能夠提取出球員和球的坐標(biāo),結(jié)合機(jī)器學(xué)習(xí)中的主動(dòng)框架追蹤和分析數(shù)據(jù),可將比賽時(shí)獲得的實(shí)時(shí)數(shù)據(jù)與運(yùn)動(dòng)員日常訓(xùn)練的數(shù)據(jù)相結(jié)合,整體分析運(yùn)動(dòng)員的動(dòng)作和速度。但該系統(tǒng)只能將比賽場(chǎng)上的對(duì)象以圓點(diǎn)的形式進(jìn)行表現(xiàn),并不能描繪出人體姿態(tài)。在2014年的索契冬奧會(huì)上,瑞士的“Dartfish”[3]運(yùn)動(dòng)視頻分析系統(tǒng)也被投入使用。該系統(tǒng)使用數(shù)字視頻作為輸入,能夠生成二維標(biāo)記位置的值,同時(shí)能將運(yùn)動(dòng)員的動(dòng)作進(jìn)行疊加和分解,逐幀看到運(yùn)動(dòng)員的姿態(tài),但是該系統(tǒng)的操作步驟較為復(fù)雜。由8部分辨率極高的快速黑白攝像機(jī)組成的“鷹眼”[1]系統(tǒng)能夠以每秒2 000幀的速度讀取攝像機(jī)中的圖像,并將其傳輸給主控電腦。該系統(tǒng)能全面分析發(fā)球的速度、時(shí)間、方向等問題,為運(yùn)動(dòng)員的訓(xùn)練和判罰提供依據(jù),因此也被稱為“即時(shí)回放系統(tǒng)”。但是該系統(tǒng)也無法定位到人體的各個(gè)關(guān)節(jié)點(diǎn),不能將人體坐標(biāo)與球坐標(biāo)融合。在國(guó)內(nèi),創(chuàng)冰DATA(http://data.champdas.com)系統(tǒng)主要用于對(duì)足球比賽的數(shù)據(jù)分析。通過對(duì)每場(chǎng)比賽視頻進(jìn)行秒級(jí)數(shù)據(jù)切片,可多維度地對(duì)云端數(shù)據(jù)進(jìn)行分析。該系統(tǒng)依賴于分布式計(jì)算平臺(tái),雖可保證比賽數(shù)據(jù)的準(zhǔn)確性,但依然缺少對(duì)于球員的定位與分析。靈信體育近幾年開發(fā)的“賽事數(shù)據(jù)采集與分析系統(tǒng)”(http://www.listensport.com)由8部具有熱成像功能的高速相機(jī)和靈信體育大數(shù)據(jù)分析軟件組成,主要被應(yīng)用于足球比賽中。其利用圖像的顏色信息分割出球員,通過結(jié)合基于靈信體育系統(tǒng)中模板匹配的方法來實(shí)現(xiàn)球員的追蹤,但運(yùn)動(dòng)員的動(dòng)作分析準(zhǔn)確率和效率仍有待提高。

        1.2 球類運(yùn)動(dòng)的視頻分析技術(shù)研究進(jìn)展

        隨著視頻分析在運(yùn)動(dòng)訓(xùn)練和判罰領(lǐng)域被逐步開發(fā)應(yīng)用,視頻分析的技術(shù)也在不斷提高。視頻分析從最初的提取低層次特征作為研究對(duì)象提升為提取高層次特征進(jìn)行處理分析。文獻(xiàn)[4]提出了一種基于子窗口區(qū)域的鏡頭分類方法,在HSV (Hue Saturation Value)顏色空間中計(jì)算出像素比率,結(jié)合檢測(cè)到的邊緣信息,對(duì)足球視頻中的各類型鏡頭進(jìn)行分類。文獻(xiàn)[5]提出了一種基于隱馬爾可夫模型的分類技術(shù),對(duì)每一幀的顏色變化速度進(jìn)行計(jì)算,并將其作為HMM(Hidden Markov Model)中的觀察序列進(jìn)行分類。文獻(xiàn)[6]提出體育視頻冗余數(shù)據(jù)的概念,采用主區(qū)域顏色和多重區(qū)域分割的算法檢測(cè)出較為準(zhǔn)確的比賽視頻。文獻(xiàn)[7]利用光流和顏色特征對(duì)足球比賽視頻進(jìn)行檢測(cè),基于光流變化分割視頻的連續(xù)幀,并對(duì)檢測(cè)到的所有事件進(jìn)行分類。文獻(xiàn)[8]引入了共享粒子,使用組合外觀和運(yùn)動(dòng)模型全局評(píng)估的模型場(chǎng)粒子,將目標(biāo)之間的交互封裝在狀態(tài)空間模型中。該方法在足球比賽中能較好地進(jìn)行有相似外觀和不可預(yù)測(cè)運(yùn)動(dòng)模式的運(yùn)動(dòng)員追蹤。文獻(xiàn)[9]提出一種基于粗糙時(shí)間約束的語義匹配足球視頻標(biāo)注的方法,利用視頻事件和外部文本信息在時(shí)間序列上的語義進(jìn)行匹配,并結(jié)合高級(jí)特征分析足球比賽視頻。文獻(xiàn)[10]提出自動(dòng)分類球員和跟蹤球運(yùn)動(dòng)的技術(shù),利用上下文信息跟蹤球員并結(jié)合多模特征進(jìn)行球員比賽的動(dòng)作跟蹤與分析。

        僅提取出視頻中的關(guān)鍵幀并對(duì)各事件進(jìn)行分類已經(jīng)無法滿足運(yùn)動(dòng)員對(duì)于視頻分析的要求,準(zhǔn)確定位到運(yùn)動(dòng)員的關(guān)節(jié)點(diǎn)并進(jìn)行姿態(tài)分析的應(yīng)用需求對(duì)視頻分析技術(shù)提出了更高的要求。文獻(xiàn)[11]提出了一種用于瑜伽訓(xùn)練的糾正不良姿勢(shì)的系統(tǒng),通過計(jì)算機(jī)視覺技術(shù)提取身體輪廓、骨骼主導(dǎo)軸和特征點(diǎn),將姿態(tài)矯正可視化。文獻(xiàn)[12]提出了一種使用聯(lián)合糾正管道來估計(jì)游泳比賽中運(yùn)動(dòng)員的關(guān)節(jié)點(diǎn)坐標(biāo),利用關(guān)節(jié)整流的時(shí)間一致性來提高關(guān)節(jié)點(diǎn)定位的準(zhǔn)確性,進(jìn)而輔助運(yùn)動(dòng)員矯正動(dòng)作姿勢(shì)。文獻(xiàn)[13]將運(yùn)動(dòng)員的追蹤與動(dòng)作識(shí)別通過一個(gè)聯(lián)合框架完成,用一種縮放和遮擋魯棒跟蹤器來定位運(yùn)動(dòng)員在每幀畫面中的位置,并用一種長(zhǎng)期循環(huán)的區(qū)域引導(dǎo)卷積網(wǎng)絡(luò)進(jìn)行動(dòng)作識(shí)別和姿態(tài)估計(jì)。文獻(xiàn)[14]在乒乓球比賽中提出了一種基于長(zhǎng)期-短期位姿的乒乓球?qū)崟r(shí)預(yù)測(cè)系統(tǒng),以運(yùn)動(dòng)員的姿態(tài)估計(jì)坐標(biāo)作為輸入,并結(jié)合乒乓球的軌跡坐標(biāo)來預(yù)測(cè)乒乓球的落點(diǎn)坐標(biāo),主要用于無法預(yù)測(cè)落點(diǎn)的乒乓球訓(xùn)練中。表1展示了當(dāng)前應(yīng)用在運(yùn)動(dòng)類的視頻分析技術(shù)的研究成果。

        表1 運(yùn)動(dòng)類視頻分析技術(shù)研究進(jìn)展Table 1. Research progress of motion video analysis technology

        2 球類運(yùn)動(dòng)視頻分析中的人體姿態(tài)估計(jì)

        隨著人體姿態(tài)估計(jì)算法的不斷創(chuàng)新,在球類運(yùn)動(dòng)中通過提取視頻信息逐幀分析運(yùn)動(dòng)員的比賽動(dòng)作的工作效率已有大幅提高。根據(jù)人體姿態(tài)估計(jì)算法原理的不同,可以將其分為基于傳統(tǒng)算法和基于深度學(xué)習(xí)算法兩種方法。下文將基于這兩種方法來回顧人體姿態(tài)估計(jì)的研究過程。

        圖1 人體姿態(tài)估計(jì)方法分類Figure 1. Human body pose estimation methods classification

        2.1 基于傳統(tǒng)算法

        傳統(tǒng)算法是基于幾何先驗(yàn)基礎(chǔ)進(jìn)行模塊匹配。其中文獻(xiàn)[15]提出的圖結(jié)構(gòu)模型是最具代表性的傳統(tǒng)算法。利用圖結(jié)構(gòu)進(jìn)行人體檢測(cè)是將待檢測(cè)的物件表示為多個(gè)部件的集合,且在部件之前存在著空間約束。關(guān)節(jié)點(diǎn)的檢測(cè)則需要經(jīng)過人工指定的特征檢測(cè)組件來完成。其中圖結(jié)構(gòu)主要包括部件模型和空間模型兩部分。

        在部件模型方面,文獻(xiàn)[16]在2005年提出了HOG(Histogram of Oriented Gradient)特征描述方法,其構(gòu)成特征需計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的方向梯度直方圖。這種方法首先引入細(xì)胞單元的概念,即將圖像分為各小的連通區(qū)域,然后采集細(xì)胞單元中各像素點(diǎn)或邊緣的方向直方圖,最后組合采集到的該圖像的直方圖。文獻(xiàn)[17]提出的SIFT(Scale Invariant Feature Transform)特征通過對(duì)特征點(diǎn)進(jìn)行極值檢測(cè)、定位、方向賦值及描述來提取圖像的特征。這種方法檢測(cè)的特征能較好地應(yīng)對(duì)旋轉(zhuǎn)、尺度縮放、亮度變化等情況,是一種較穩(wěn)定的局部特征。

        在空間模型方面,文獻(xiàn)[18]提出的混合部件模型除了關(guān)注兩個(gè)部件之間的空間約束,也有了一些更大工作范圍的約束,能夠表達(dá)更為復(fù)雜多樣的空間約束,用于解決人體姿態(tài)估計(jì)中的自遮擋問題。

        但是傳統(tǒng)算法依賴于人為設(shè)計(jì)的模板,難以應(yīng)用到多人姿態(tài)估計(jì)中,并且由于模型結(jié)構(gòu)的單一簡(jiǎn)單,因此對(duì)于復(fù)雜場(chǎng)景中的人體姿態(tài)估計(jì)較為低效,當(dāng)人體姿態(tài)發(fā)生大幅度變化時(shí),可能出現(xiàn)姿態(tài)估計(jì)不唯一的情況。

        2.2 基于深度學(xué)習(xí)算法

        傳統(tǒng)算法中由于模型的結(jié)構(gòu)單一,當(dāng)人體姿態(tài)變化較大時(shí),不能準(zhǔn)確地刻畫和表達(dá)出這種變化,同一數(shù)據(jù)存在多個(gè)可行的解,也就是說姿態(tài)估計(jì)結(jié)果不唯一。另一方面,這種傳統(tǒng)的基于手工提取特征并利用部件模型建立特征之間聯(lián)系的方法較為低效和昂貴。卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展給計(jì)算機(jī)視覺技術(shù)發(fā)展帶來了新方向。文獻(xiàn)[19]提出了Deep-Pose網(wǎng)絡(luò),將人體姿態(tài)估計(jì)的研究由傳統(tǒng)算法帶入到深度學(xué)習(xí)方法?;谏疃葘W(xué)習(xí)方法的人體姿態(tài)估計(jì)可以被分為單人姿態(tài)估計(jì)和多人姿態(tài)估計(jì)。

        2.2.1 單人姿態(tài)估計(jì)

        單人姿態(tài)估計(jì)是對(duì)輸入的單人圖片進(jìn)行檢測(cè),檢測(cè)出其全部關(guān)鍵點(diǎn)。單人姿態(tài)估計(jì)主要有以下幾種思路:基于坐標(biāo)回歸、基于熱圖檢測(cè)以及兩者混合模式。

        基于坐標(biāo)回歸的模型(Coordinate Net)將關(guān)節(jié)點(diǎn)的二維坐標(biāo)作為Ground Truth,訓(xùn)練網(wǎng)絡(luò)可直接得到每個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)。文獻(xiàn)[19]首先提出了基于深度學(xué)習(xí)進(jìn)行單人姿態(tài)估計(jì)的Deep-Pose網(wǎng)絡(luò),并設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),通過運(yùn)用多階段回歸的思路,以關(guān)節(jié)點(diǎn)二維坐標(biāo)作為優(yōu)化目標(biāo)直接回歸到人體骨骼關(guān)節(jié)二維坐標(biāo)。這種方法被稱為多階段直接回歸,可以在檢測(cè)初期得到人體關(guān)節(jié)點(diǎn)的大概位置,并以當(dāng)前得到的關(guān)節(jié)點(diǎn)作為坐標(biāo)中心在進(jìn)入下一階段進(jìn)行回歸前,對(duì)檢測(cè)到的關(guān)節(jié)點(diǎn)附近切取小尺度的子圖像,并以此作為該階段回歸的輸入,不斷修正坐標(biāo)值。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。文獻(xiàn)[20]在基于坐標(biāo)回歸的基礎(chǔ)上提出了另一種多階段分步回歸的IEF(Iterative Error Feedback)模型。IEF模型并不像Deep-Pose方法使用多階段端到端進(jìn)行一個(gè)批次的訓(xùn)練,而是在訓(xùn)練時(shí)分成4個(gè)階段,每個(gè)階段進(jìn)行3個(gè)完整的批次迭代,通過反饋錯(cuò)誤預(yù)測(cè)逐步調(diào)整初始預(yù)測(cè)。這種方法將關(guān)節(jié)點(diǎn)的二維坐標(biāo)作為迭代目標(biāo),將熱圖作為特征圖,同包含紋理信息的原始圖像級(jí)聯(lián)起來輸入網(wǎng)絡(luò),通過多階段回歸得到關(guān)節(jié)點(diǎn)位置。

        圖2 Deep-Pose網(wǎng)絡(luò)結(jié)構(gòu)Figure 2. Deep-Pose network architecture

        總體而言,基于坐標(biāo)回歸的結(jié)構(gòu)可以看出它并沒有結(jié)合人體各關(guān)節(jié)間的信息,且通過以上文獻(xiàn)的訓(xùn)練結(jié)果不難看出單獨(dú)使用坐標(biāo)回歸進(jìn)行人體姿態(tài)估計(jì)誤差較大。坐標(biāo)回歸模型對(duì)多尺度的姿態(tài)估計(jì)泛化性能較差,因此在2015年以后這種方法很少被采用,但是該網(wǎng)絡(luò)所呈現(xiàn)的利用多分辨率進(jìn)行圖像處理的策略和多階段的思想得到了廣泛應(yīng)用。

        基于熱圖檢測(cè)的模型(Heatmap Net)用概率圖heatmap來表示關(guān)節(jié)點(diǎn)坐標(biāo),其估算圖像中每一個(gè)像素對(duì)應(yīng)了一個(gè)概率值。當(dāng)像素點(diǎn)位置越接近關(guān)節(jié)點(diǎn)時(shí),其對(duì)應(yīng)的概率值越接近1,越遠(yuǎn)離關(guān)節(jié)點(diǎn)越接近0。Heatmap Net的優(yōu)點(diǎn)在于建立了基于概率分布的Ground Truth,同時(shí)建立了部分人體部件之間的結(jié)構(gòu)信息。文獻(xiàn)[21]將圖結(jié)構(gòu)模型與CNN進(jìn)行聯(lián)合訓(xùn)練,將人體關(guān)節(jié)看為抽象的變量節(jié)點(diǎn),通過heatmap得到關(guān)于關(guān)節(jié)點(diǎn)變量的概率分布,并依賴MRF(Markov Random Field)[22]對(duì)所有相鄰關(guān)節(jié)點(diǎn)組成的關(guān)節(jié)對(duì)進(jìn)行建模。最后,構(gòu)建相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算每個(gè)pair-wise內(nèi)的條件概率分布,使得每個(gè)pair-wise內(nèi)的節(jié)點(diǎn)可以互相修正相鄰節(jié)點(diǎn)的heatmap。每個(gè)pair-wise關(guān)系需要構(gòu)建4個(gè)子網(wǎng)絡(luò)模塊作為部件檢測(cè)器進(jìn)行訓(xùn)練,其中兩個(gè)用于訓(xùn)練heatmap,另外兩個(gè)用于訓(xùn)練親和力圖。整體的MRF進(jìn)行訓(xùn)練時(shí),會(huì)不斷刪除聯(lián)合概率較小的冗余pair-wise關(guān)節(jié)點(diǎn),優(yōu)化人體所有關(guān)節(jié)點(diǎn)的聯(lián)合概率分布,進(jìn)而生成一個(gè)相對(duì)準(zhǔn)確完整的人體姿態(tài)關(guān)節(jié)點(diǎn)位置分布圖。

        文獻(xiàn)[23]提出的堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Network)同時(shí)利用了局部信息和全局信息,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。其主要貢獻(xiàn)在于利用多尺度特征識(shí)別姿態(tài),整體的網(wǎng)絡(luò)結(jié)構(gòu)是單個(gè)沙漏模塊串聯(lián)組成,通過重復(fù)利用全身關(guān)節(jié)信息提高了單個(gè)關(guān)節(jié)的識(shí)別精度。堆疊沙漏網(wǎng)絡(luò)一方面通過多分辨率的heatmap檢測(cè)局部關(guān)節(jié)點(diǎn)的位置信息;另一方面通過多尺度感受野機(jī)制學(xué)習(xí)獲得關(guān)節(jié)之間的學(xué)習(xí)特征。文獻(xiàn)[24]在堆疊沙漏網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行了改進(jìn),通過對(duì)殘差模塊嵌入多支卷積搭建了一個(gè)金字塔殘差模塊來學(xué)習(xí)圖像特征,用以解決因?yàn)槿梭w姿態(tài)大幅度變化導(dǎo)致的關(guān)節(jié)點(diǎn)尺度變化。特征金字塔模塊PRM(Pyramid Residual Module)共有4種,分別是PRM-A、PRM-B、PRM-C和PRM-D,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。PRM-A在原有殘差模塊的分支基礎(chǔ)上加入了分辨率分支,增加的多個(gè)分辨率分支主要是通過下采樣實(shí)現(xiàn)其分辨率的不同。殘差模塊需要將不同分支的結(jié)果進(jìn)行相加得到最終的殘差模塊結(jié)果,因此下采樣后的特征需要通過上采樣恢復(fù)原來的分辨率。PRM-B則是以PRM-A為基礎(chǔ),將PRM-A中不同分辨率的分支以1×1卷積的方式進(jìn)行參數(shù)共享,減少了參數(shù)數(shù)量。PRM-C將PRM-B中多分辨率特征的相加改為了串聯(lián),串聯(lián)后的特征通道與舊模式有所不同,因此可能需要引入一個(gè)1×1的卷積將特征通道對(duì)齊后與原特征進(jìn)行相加。PRM-D則是使用空洞卷積代替下采樣和上采樣得到多尺度的特征。除此之外,對(duì)原始特征添加一個(gè)Bn-ReLU-Conv操作即可解決原始特征直接與卷積后的特征相加導(dǎo)致的方差較大的問題。

        圖3 堆疊沙漏網(wǎng)絡(luò)Figure 3. Stacked hourglass network

        圖4 特征金字塔模型(a)PRM-A (b)PRM-B=Addition; PRM-C=Concatenation (c)PRM-DFigure 4. Pyramid residual modules(a)PRM-A (b)PRM-B=Addition; PRM-C=Concatenation (c)PRM-D

        文獻(xiàn)[25]提出了一種新穎的高分辨率網(wǎng)絡(luò)HRNet(High-Resoultion Net),不同于之前的網(wǎng)絡(luò)在信息融合過程中采用低層信息與高層信息融合的方式,HRNet能保持高分辨率進(jìn)行特征提取,并在學(xué)習(xí)過程中進(jìn)行多次多尺度融合使預(yù)測(cè)的熱圖精確率更高。文獻(xiàn)[26]在HRNet的基礎(chǔ)上設(shè)計(jì)了一種編碼-解碼網(wǎng)絡(luò),其中編碼器沿用HRNet,解碼器采用了提出的一種高效網(wǎng)絡(luò)結(jié)構(gòu)CCM(Cascaded Context Mixer)。CCM可以有效整合空間和上下文信息并逐步完善信息。該研究還開發(fā)了一種利用大量未標(biāo)記的數(shù)據(jù)進(jìn)行困難負(fù)樣本的人體檢測(cè)策略,使CCM能夠從大量不同的姿態(tài)中學(xué)習(xí)識(shí)別特征。文獻(xiàn)[27]提出了一個(gè)用于人體姿態(tài)估計(jì)的統(tǒng)一框架:UniPose。該網(wǎng)絡(luò)基于WASP(Waterfall Atrous Spatial Pooling)模塊,不僅不依賴后續(xù)處理的信息,還結(jié)合了上下文分割和聯(lián)合定位功能,使得人體姿態(tài)估計(jì)在單階段具備高精度。

        回歸與檢測(cè)的混合模型主要是將Coordinate Net和Heatmap Net的結(jié)構(gòu)通過串聯(lián)或者并聯(lián)結(jié)構(gòu)直接級(jí)聯(lián)在一起。文獻(xiàn)[28]率先提出Coordinate Net和Heatmap Net的串聯(lián)結(jié)構(gòu),即整體包括部件檢測(cè)器和回歸網(wǎng)絡(luò)兩部分。在部件檢測(cè)器獲得部分heatmap信息后預(yù)測(cè)可見關(guān)節(jié)點(diǎn)的近似熱力圖,串聯(lián)回歸網(wǎng)絡(luò)模塊獲得更多關(guān)節(jié)點(diǎn)互相依賴的語義信息,并且在回歸模塊中設(shè)計(jì)了同樣大小的卷積核,這樣低置信度的heatmap對(duì)后面坐標(biāo)修正的影響較小,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。文獻(xiàn)[29]提出了雙源卷積網(wǎng)絡(luò)用來構(gòu)建兩個(gè)并行的網(wǎng)絡(luò)模塊,即設(shè)置了關(guān)節(jié)點(diǎn)檢測(cè)網(wǎng)絡(luò)和關(guān)節(jié)點(diǎn)定位回歸網(wǎng)絡(luò)交互式輔助訓(xùn)練,其具體結(jié)構(gòu)如圖6所示。關(guān)節(jié)點(diǎn)檢測(cè)網(wǎng)絡(luò)用于檢測(cè)圖像補(bǔ)丁(Part Patch)包含的局部關(guān)節(jié)點(diǎn)類別信息。關(guān)節(jié)點(diǎn)定位網(wǎng)絡(luò)模塊通過結(jié)合整幅圖像(Body Patch)。Part Patch和Body Patch的二進(jìn)制掩碼回歸關(guān)節(jié)點(diǎn)位置坐標(biāo),檢測(cè)模塊利用Body Patch的全局特征判斷腕關(guān)節(jié)的左右屬性,定位回歸模塊則根據(jù)Part Patch的局部信息歸一化位置坐標(biāo)。

        圖5 串聯(lián)結(jié)構(gòu)圖Figure 5. Diagram of the series structure

        圖6 雙源卷積網(wǎng)絡(luò)結(jié)構(gòu)Figure 6. Dual-source deep convolutional neural networks

        2.2.2 多人姿態(tài)估計(jì)

        通過以上單人姿態(tài)估計(jì)的方法可以得到單人的2D關(guān)節(jié)點(diǎn)坐標(biāo),但是多人姿態(tài)估計(jì)并不僅僅是單人的多次檢測(cè),還需要區(qū)分不同人體的關(guān)節(jié)點(diǎn),避免不同人之間的關(guān)節(jié)點(diǎn)誤連。因此,多人姿態(tài)估計(jì)的算法主要分為自頂向下的兩步法和自底向上的基于部件的框架兩種。

        自頂向下的人體姿態(tài)估計(jì)方法可分為兩步:首先進(jìn)行目標(biāo)檢測(cè),將圖像中的人體框處;隨后對(duì)每個(gè)框內(nèi)進(jìn)行單獨(dú)的人體檢測(cè)。目前經(jīng)典的目標(biāo)檢測(cè)算法可分為兩步走和一步走兩類。兩步走策略基于先選出候選區(qū)域然后通過CNN進(jìn)行分類;一步走算法則可以通過端到端進(jìn)行輸出類別的劃分和關(guān)節(jié)點(diǎn)定位。文獻(xiàn)[30]構(gòu)建了1個(gè)兩階段網(wǎng)絡(luò),其中第1階段使用FasterR-CNN[31]劃分出可能包含人的區(qū)域;第2階使用全卷積殘差網(wǎng)絡(luò)預(yù)測(cè)每個(gè)人的關(guān)節(jié)點(diǎn)坐標(biāo),并引入了兩個(gè)偏移參數(shù)來提高關(guān)節(jié)點(diǎn)的預(yù)測(cè)精度。文獻(xiàn)[32]通過將第1階段網(wǎng)絡(luò)得到的所有層次特征整合到一起,并結(jié)合在線困難關(guān)鍵點(diǎn)挖掘技術(shù),更側(cè)重于“困難”關(guān)鍵點(diǎn)的檢測(cè),其網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。文獻(xiàn)[33]提出了1種新的方法進(jìn)行人體姿態(tài)估計(jì),其通過剪切視頻的中心幀,將視頻剪切成重疊的片段然后進(jìn)行人體檢測(cè),將來自不同時(shí)空的姿勢(shì)合并成任意長(zhǎng)度的軌跡。文獻(xiàn)[34]針對(duì)自頂向下方法中數(shù)據(jù)處理所存在的沒有系統(tǒng)考慮的問題,提出了1種將分類與回歸組合進(jìn)行編碼解碼的數(shù)據(jù)處理方法。該算法有效解決了由于關(guān)鍵點(diǎn)預(yù)測(cè)過程中進(jìn)行的翻轉(zhuǎn)操作所帶來結(jié)果不對(duì)齊的問題。文獻(xiàn)[35]針對(duì)Anchor-Free模型用于行人搜索過程中所存在的尺度不對(duì)齊、區(qū)域不對(duì)齊、任務(wù)不對(duì)齊問題提出了AlignPS(Feature Aligned Person Search Network)模型。該模型通過可變性卷積重新塑造了FPN(Feature Pyramid Networks)網(wǎng)絡(luò),使用3×3的可變形卷積代替FPN中相鄰側(cè)所連接的1×1的卷積,擴(kuò)大了輸入圖像的感受野;使用連接代替求和從而融合了多尺度特征;輸出層使用3×3的可變形卷積代替FPN輸出層的3×3卷積,提高了特征圖的精度。文獻(xiàn)[36]提出1種基于“上下文建?!钡姆椒ㄟM(jìn)行人體姿態(tài)估計(jì),即估計(jì)出1個(gè)關(guān)節(jié)的位置可相互充當(dāng)其它關(guān)節(jié)的“上下文”。在估計(jì)某一關(guān)節(jié)點(diǎn)時(shí),首先通過其“上下文”的信息收集特征,并對(duì)其施加肢體長(zhǎng)度的約束,隨后整合其收集的特征并更新該關(guān)節(jié)點(diǎn)。

        圖7 級(jí)聯(lián)金字塔網(wǎng)絡(luò)Figure 7. Cascaded pyramid network

        自底向上的人體姿態(tài)估計(jì)算法過程與自頂向下相反,其基于部件的框架進(jìn)行人體檢測(cè)時(shí),分為進(jìn)行關(guān)節(jié)點(diǎn)部件檢測(cè)和關(guān)節(jié)點(diǎn)部件聚類。文獻(xiàn)[37]通過在向量場(chǎng)中對(duì)人體不同肢體結(jié)構(gòu)建模,有效解決了單純使用肢體中間點(diǎn)方法所產(chǎn)生的多人檢測(cè)中的錯(cuò)連問題。文獻(xiàn)[38]則通過部位分割對(duì)關(guān)鍵點(diǎn)間的關(guān)系進(jìn)行建模,該方法既可以提供人體關(guān)鍵點(diǎn)之間的空間先驗(yàn)知識(shí),還對(duì)關(guān)鍵點(diǎn)的聚類產(chǎn)生輔助作用。文獻(xiàn)[39]提出了一種新的自底向上的人體姿態(tài)估計(jì)方法,利用高分辨率特征金字塔來學(xué)習(xí)尺度感知表示,將圖像進(jìn)行上采樣之后再進(jìn)行特征提取與檢測(cè),解決了自底向上的多人姿態(tài)估計(jì)問題中的尺度變化問題,特別是小尺寸關(guān)鍵點(diǎn)的精確定位問題。文獻(xiàn)[40]提出了1種從単目RGB圖像中進(jìn)行多人姿態(tài)識(shí)別的方法,使用高分辨率的體積熱圖對(duì)關(guān)節(jié)位置進(jìn)行建模。利用完全卷積網(wǎng)絡(luò)將熱圖壓縮成密集的中間表示,可以有效減少熱圖的四維體積,使其輸出形狀與二維卷積輸出一致,隨后利用Code Predictor來預(yù)測(cè)解壓時(shí)的原始值。文獻(xiàn)[41]針對(duì)自底向上方法所存在的針對(duì)同一張圖不同尺度對(duì)象會(huì)對(duì)應(yīng)不同的感受野問題,提出了尺度自適應(yīng)熱力圖回歸,根據(jù)人體大小自適應(yīng)生成對(duì)應(yīng)感受野的標(biāo)準(zhǔn)差。該研究還提出了權(quán)重自適應(yīng)回歸平衡正負(fù)樣本,提高了尺度自適應(yīng)熱力圖回歸效果。文獻(xiàn)[42]提出了一種基于YOLOv3算法的行人檢測(cè)模型,通過構(gòu)造Darknet19為主干網(wǎng)絡(luò),引入廣義交并比損失函數(shù)來提高檢測(cè)精度。

        3 人體姿態(tài)估計(jì)數(shù)據(jù)集與方法技術(shù)指標(biāo)

        為了保證算法訓(xùn)練的準(zhǔn)確性,需要進(jìn)行大量的數(shù)據(jù)訓(xùn)練與學(xué)習(xí)。本章節(jié)總結(jié)了近年主流的用于算法測(cè)試的數(shù)據(jù)集,并對(duì)算法測(cè)試的結(jié)果進(jìn)行對(duì)比。

        3.1 相關(guān)數(shù)據(jù)集基準(zhǔn)

        如表2所示,列舉了近年來主流的人體姿態(tài)估計(jì)數(shù)據(jù)集。由于早期研究資源的匱乏,人體姿態(tài)數(shù)據(jù)集多是針對(duì)單人姿態(tài)估計(jì)的標(biāo)注。LSP(Leeds Sports Pose)[43]和FLIC(Frames Labeled in Cinema)[44]數(shù)據(jù)集則是針對(duì)單人姿態(tài)進(jìn)行標(biāo)注。隨后,MPII[45]數(shù)據(jù)集標(biāo)注了16個(gè)人體關(guān)節(jié)點(diǎn),并將其作為單人人體姿態(tài)估計(jì)算法的訓(xùn)練與評(píng)估的基準(zhǔn)。在多人姿態(tài)估計(jì)方面,MSCOCO(Microsoft Common Objects in Context)[46]是于2014年發(fā)布的用于深度學(xué)習(xí)的綜合性數(shù)據(jù)集,其標(biāo)注了人體17個(gè)關(guān)節(jié)點(diǎn)。AI Challenger[47]數(shù)據(jù)集包含了海量的人體姿態(tài)訓(xùn)練測(cè)試圖,是當(dāng)前最大的人體姿勢(shì)圖像數(shù)據(jù)集。Crowd Pose[48]從現(xiàn)有的數(shù)據(jù)集中篩選出20 000張有關(guān)人體姿態(tài)研究的圖片,且將人體關(guān)節(jié)點(diǎn)統(tǒng)一標(biāo)注為14個(gè),作為研究擁擠場(chǎng)景下的人體姿態(tài)的數(shù)據(jù)集。

        表2 人體姿態(tài)估計(jì)數(shù)據(jù)集介紹Table 2. Introduction to human pose estimation data sets

        3.2 評(píng)價(jià)指標(biāo)

        現(xiàn)在主流的人體姿態(tài)估計(jì)算法評(píng)價(jià)指標(biāo)有PCP(Percentage of Correct Parts)、PCK(Percentage of Correct Keypoints)和mAP(mean Average Precision)等。

        PCP即正確估計(jì)人體部位的百分比。其評(píng)判標(biāo)準(zhǔn)是兩個(gè)預(yù)測(cè)的關(guān)節(jié)點(diǎn)位置與實(shí)際關(guān)節(jié)點(diǎn)的關(guān)節(jié)點(diǎn)位置距離應(yīng)小于肢體長(zhǎng)度的一半。

        PCK即正確估計(jì)人體關(guān)節(jié)點(diǎn)的比例。其依據(jù)肢體長(zhǎng)度為基準(zhǔn)值,以此來評(píng)估身體其他部位的檢測(cè)精度,也就是被檢測(cè)的關(guān)節(jié)點(diǎn)是否與其對(duì)應(yīng)的真實(shí)標(biāo)注數(shù)據(jù)間的統(tǒng)一化距離小于設(shè)定的閾值。

        mAP即平均精度。其計(jì)算方式是將每一個(gè)關(guān)節(jié)點(diǎn)在不同閾值下所檢測(cè)到的AP值取平均值得到最終的結(jié)果,可反映人體全部關(guān)節(jié)的平均檢出率。

        3.3 對(duì)比分析

        本文從單人姿態(tài)估計(jì)和多人姿態(tài)估計(jì)兩個(gè)角度比較各個(gè)算法的性能。表3列出了在FILC、LSP、MPII數(shù)據(jù)集上單人姿態(tài)估計(jì)算法的表現(xiàn)情況。表4列出了在MPII、MSCOCO、MAP數(shù)據(jù)集上不同多人姿態(tài)估計(jì)算法的表現(xiàn)。

        表3 單人人體姿態(tài)估計(jì)方法比較Table 3. Comparison of individual body pose estimation methods

        表4 多人人體姿態(tài)估計(jì)方法比較Table 4. Comparison of human body pose estimation methods for multiple people

        4 結(jié)束語

        本文對(duì)球類視頻分析系統(tǒng)的發(fā)展做了介紹,對(duì)人體姿態(tài)估計(jì)的研究進(jìn)行了全面綜述。由于球類運(yùn)動(dòng)具有快速性和連續(xù)性,因此引入人體姿態(tài)估計(jì)可以有效解決人體遮擋問題,并準(zhǔn)確定位人體與球的坐標(biāo),進(jìn)行空間坐標(biāo)分析。較之以往,當(dāng)下對(duì)于運(yùn)動(dòng)中人體姿態(tài)的數(shù)據(jù)集的需求顯著增加,正確標(biāo)注的運(yùn)動(dòng)姿態(tài)的數(shù)據(jù)集能提高人體姿態(tài)估計(jì)的準(zhǔn)確性,這也是將人體姿態(tài)估計(jì)推廣應(yīng)用到各類比賽中的重要基礎(chǔ)。對(duì)于人體姿態(tài)估計(jì)方面,可將基于傳統(tǒng)算法的幾何先驗(yàn)知識(shí)與基于深度學(xué)習(xí)算法融合,同時(shí)將多模態(tài)信息融合,并進(jìn)一步通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)來提高人體姿態(tài)估計(jì)的準(zhǔn)確率,可為以后的體育視頻分析提供新的更加有效的方法。

        猜你喜歡
        特征檢測(cè)
        抓住特征巧觀察
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        国产午夜精品一区二区三区不| 无码熟妇人妻av在线影片最多| 性无码免费一区二区三区在线| 亚洲天堂2017无码中文| 亚洲综合久久1区2区3区 | 女优av性天堂网男人天堂| 久久99精品久久久久婷婷| 中国凸偷窥xxxx自由视频| 欧美xxxx新一区二区三区| 一区二区三区国产97| 永久免费观看的黄网站在线| 国产成人av一区二区三区在线观看 | 老熟妇乱子伦av| 久久精品爱国产免费久久| 高清成人在线视频播放| 中文字幕日本av网站| 久久精品国产亚洲av久| 国产成a人亚洲精v品无码性色| 久久99欧美| 亚洲av中文字字幕乱码| 亚洲桃色蜜桃av影院| 欧美性生交活xxxxxdddd| 激情 人妻 制服 丝袜| 日韩精人妻无码一区二区三区 | 亚洲av永久无码精品网站在线观看| 亚洲成av人最新无码| 亚洲视频一区二区久久久| 中文字幕文字幕视频在线| 成 人片 黄 色 大 片| 玩弄人妻少妇500系列网址| 国产精品天干天干在线观蜜臀| 国产一级黄色录像大片| 亚洲中文字幕无码中文字在线| 国产精品第1页在线观看| 综合人妻久久一区二区精品| 男女激情视频网站在线| 国产成人无码18禁午夜福利p| 成人国产午夜在线视频| 免费一区二区三区av| 成人免费播放视频777777| 玩中年熟妇让你爽视频|