亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        球類運動中人體姿態(tài)估計研究進展

        2023-01-03 09:20:56張漫秸楊芳艷季云峰
        電子科技 2023年1期
        關(guān)鍵詞:關(guān)節(jié)點姿態(tài)卷積

        張漫秸,楊芳艷,季云峰

        (1.上海理工大學(xué) 機械工程學(xué)院,上海 200093; 2.上海理工大學(xué) 機器智能研究院,上海 200093)

        在體育運動中,運動員的姿態(tài)分析可以直觀呈現(xiàn)運動員的姿勢,為運動員、教練員或者裁判員對賽事評價提供參考。隨著計算機視覺技術(shù)日益成熟,在體育運動中也開始引入人體姿態(tài)估計技術(shù)來為運動員的比賽姿態(tài)提供了準確的動作分析。

        在球類運動中進行人體姿態(tài)估計分析有助于運動員技術(shù)訓(xùn)練和比賽輔助判罰。技術(shù)訓(xùn)練是指通過對運動員的比賽視頻進行分析,提取出其比賽動作和軌跡并進行信息處理,為運動員量身定做訓(xùn)練計劃,提升其競技水平。比賽輔助判罰主要是在球類運動中通過對運動員比賽動作和球的位置定位,對 “遮擋球”和“兩跳球”等爭議球的判罰提供依據(jù)。

        人體姿態(tài)估計的目的是通過對圖片、視頻以及攝像頭視頻流等對人體關(guān)鍵點進行定位,抽象表示出人體的形態(tài),并同時進行目標識別、分割、回歸與檢測等多方面的任務(wù)。主流的人體姿態(tài)估計算法由基于傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法組成?;趫D結(jié)構(gòu)模型和形變部件模型是傳統(tǒng)算法的基礎(chǔ),且需要進行特征人工標注,將人體姿態(tài)估計問題轉(zhuǎn)變?yōu)榛貧w問題,通過回歸函數(shù)得到人體的關(guān)節(jié)點坐標,精度低且適用范圍小。近年來深度學(xué)習(xí)的發(fā)展日趨完善,人體姿態(tài)估計通過使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)捕捉圖片信息,可獲得不同感受野下多尺度多類型的人體關(guān)鍵點的特征向量和每個關(guān)鍵點的全部上下文,從而更準確地反映人體姿態(tài)信息。

        隨著深度學(xué)習(xí)的發(fā)展,人體姿態(tài)估計逐漸被應(yīng)用在球類運動中,并且在提高運動員競技水平方面取得了一定的效果。通過對高分辨率的視頻進行實時標定、分析,將長片段分解為各小片段,可將運動員的各個動作進行分解,得到運動員每個動作的關(guān)節(jié)點的坐標數(shù)據(jù)。依賴這項技術(shù)可以對運動員的姿勢進行比對,清晰地反映出運動員的不規(guī)范動作,促進運動員訓(xùn)練和比賽水平的提高。

        1 球類運動中視頻分析系統(tǒng)與技術(shù)研究

        體育比賽中因誤判球?qū)е卤荣惤Y(jié)果爭議的事件時有發(fā)生,國內(nèi)外運動組織和團隊先后開始借助網(wǎng)絡(luò)技術(shù)來提高比賽判罰的科學(xué)性,例如在眾多大型比賽中引入“鷹眼”[1]或“視頻助理裁判(Video Assistant Referee,VAR)”[2]等技術(shù)來提高比賽裁決的科學(xué)性。近年來,隨著對視頻分析系統(tǒng)的研究越發(fā)深入,通過視頻分析可以直觀地表現(xiàn)出運動員的運動軌跡和相關(guān)力學(xué)作用,最大程度上降低了誤判的可能,同時該技術(shù)也可以作為運動員科學(xué)訓(xùn)練的輔助手段。

        1.1 球類運動的視頻分析系統(tǒng)應(yīng)用現(xiàn)狀

        美國STATS的SportVU(https://www.stats.com/sportvu-footbal)多鏡頭動態(tài)追蹤系統(tǒng)于2013年率先被應(yīng)用于籃球比賽中。該系統(tǒng)由6個3D高清攝像頭和計算機組成,每個攝像頭在每秒內(nèi)能采集25張圖片。該系統(tǒng)采用光學(xué)追蹤技術(shù)捕捉運動員的動作,其統(tǒng)計算法能夠提取出球員和球的坐標,結(jié)合機器學(xué)習(xí)中的主動框架追蹤和分析數(shù)據(jù),可將比賽時獲得的實時數(shù)據(jù)與運動員日常訓(xùn)練的數(shù)據(jù)相結(jié)合,整體分析運動員的動作和速度。但該系統(tǒng)只能將比賽場上的對象以圓點的形式進行表現(xiàn),并不能描繪出人體姿態(tài)。在2014年的索契冬奧會上,瑞士的“Dartfish”[3]運動視頻分析系統(tǒng)也被投入使用。該系統(tǒng)使用數(shù)字視頻作為輸入,能夠生成二維標記位置的值,同時能將運動員的動作進行疊加和分解,逐幀看到運動員的姿態(tài),但是該系統(tǒng)的操作步驟較為復(fù)雜。由8部分辨率極高的快速黑白攝像機組成的“鷹眼”[1]系統(tǒng)能夠以每秒2 000幀的速度讀取攝像機中的圖像,并將其傳輸給主控電腦。該系統(tǒng)能全面分析發(fā)球的速度、時間、方向等問題,為運動員的訓(xùn)練和判罰提供依據(jù),因此也被稱為“即時回放系統(tǒng)”。但是該系統(tǒng)也無法定位到人體的各個關(guān)節(jié)點,不能將人體坐標與球坐標融合。在國內(nèi),創(chuàng)冰DATA(http://data.champdas.com)系統(tǒng)主要用于對足球比賽的數(shù)據(jù)分析。通過對每場比賽視頻進行秒級數(shù)據(jù)切片,可多維度地對云端數(shù)據(jù)進行分析。該系統(tǒng)依賴于分布式計算平臺,雖可保證比賽數(shù)據(jù)的準確性,但依然缺少對于球員的定位與分析。靈信體育近幾年開發(fā)的“賽事數(shù)據(jù)采集與分析系統(tǒng)”(http://www.listensport.com)由8部具有熱成像功能的高速相機和靈信體育大數(shù)據(jù)分析軟件組成,主要被應(yīng)用于足球比賽中。其利用圖像的顏色信息分割出球員,通過結(jié)合基于靈信體育系統(tǒng)中模板匹配的方法來實現(xiàn)球員的追蹤,但運動員的動作分析準確率和效率仍有待提高。

        1.2 球類運動的視頻分析技術(shù)研究進展

        隨著視頻分析在運動訓(xùn)練和判罰領(lǐng)域被逐步開發(fā)應(yīng)用,視頻分析的技術(shù)也在不斷提高。視頻分析從最初的提取低層次特征作為研究對象提升為提取高層次特征進行處理分析。文獻[4]提出了一種基于子窗口區(qū)域的鏡頭分類方法,在HSV (Hue Saturation Value)顏色空間中計算出像素比率,結(jié)合檢測到的邊緣信息,對足球視頻中的各類型鏡頭進行分類。文獻[5]提出了一種基于隱馬爾可夫模型的分類技術(shù),對每一幀的顏色變化速度進行計算,并將其作為HMM(Hidden Markov Model)中的觀察序列進行分類。文獻[6]提出體育視頻冗余數(shù)據(jù)的概念,采用主區(qū)域顏色和多重區(qū)域分割的算法檢測出較為準確的比賽視頻。文獻[7]利用光流和顏色特征對足球比賽視頻進行檢測,基于光流變化分割視頻的連續(xù)幀,并對檢測到的所有事件進行分類。文獻[8]引入了共享粒子,使用組合外觀和運動模型全局評估的模型場粒子,將目標之間的交互封裝在狀態(tài)空間模型中。該方法在足球比賽中能較好地進行有相似外觀和不可預(yù)測運動模式的運動員追蹤。文獻[9]提出一種基于粗糙時間約束的語義匹配足球視頻標注的方法,利用視頻事件和外部文本信息在時間序列上的語義進行匹配,并結(jié)合高級特征分析足球比賽視頻。文獻[10]提出自動分類球員和跟蹤球運動的技術(shù),利用上下文信息跟蹤球員并結(jié)合多模特征進行球員比賽的動作跟蹤與分析。

        僅提取出視頻中的關(guān)鍵幀并對各事件進行分類已經(jīng)無法滿足運動員對于視頻分析的要求,準確定位到運動員的關(guān)節(jié)點并進行姿態(tài)分析的應(yīng)用需求對視頻分析技術(shù)提出了更高的要求。文獻[11]提出了一種用于瑜伽訓(xùn)練的糾正不良姿勢的系統(tǒng),通過計算機視覺技術(shù)提取身體輪廓、骨骼主導(dǎo)軸和特征點,將姿態(tài)矯正可視化。文獻[12]提出了一種使用聯(lián)合糾正管道來估計游泳比賽中運動員的關(guān)節(jié)點坐標,利用關(guān)節(jié)整流的時間一致性來提高關(guān)節(jié)點定位的準確性,進而輔助運動員矯正動作姿勢。文獻[13]將運動員的追蹤與動作識別通過一個聯(lián)合框架完成,用一種縮放和遮擋魯棒跟蹤器來定位運動員在每幀畫面中的位置,并用一種長期循環(huán)的區(qū)域引導(dǎo)卷積網(wǎng)絡(luò)進行動作識別和姿態(tài)估計。文獻[14]在乒乓球比賽中提出了一種基于長期-短期位姿的乒乓球?qū)崟r預(yù)測系統(tǒng),以運動員的姿態(tài)估計坐標作為輸入,并結(jié)合乒乓球的軌跡坐標來預(yù)測乒乓球的落點坐標,主要用于無法預(yù)測落點的乒乓球訓(xùn)練中。表1展示了當(dāng)前應(yīng)用在運動類的視頻分析技術(shù)的研究成果。

        表1 運動類視頻分析技術(shù)研究進展Table 1. Research progress of motion video analysis technology

        2 球類運動視頻分析中的人體姿態(tài)估計

        隨著人體姿態(tài)估計算法的不斷創(chuàng)新,在球類運動中通過提取視頻信息逐幀分析運動員的比賽動作的工作效率已有大幅提高。根據(jù)人體姿態(tài)估計算法原理的不同,可以將其分為基于傳統(tǒng)算法和基于深度學(xué)習(xí)算法兩種方法。下文將基于這兩種方法來回顧人體姿態(tài)估計的研究過程。

        圖1 人體姿態(tài)估計方法分類Figure 1. Human body pose estimation methods classification

        2.1 基于傳統(tǒng)算法

        傳統(tǒng)算法是基于幾何先驗基礎(chǔ)進行模塊匹配。其中文獻[15]提出的圖結(jié)構(gòu)模型是最具代表性的傳統(tǒng)算法。利用圖結(jié)構(gòu)進行人體檢測是將待檢測的物件表示為多個部件的集合,且在部件之前存在著空間約束。關(guān)節(jié)點的檢測則需要經(jīng)過人工指定的特征檢測組件來完成。其中圖結(jié)構(gòu)主要包括部件模型和空間模型兩部分。

        在部件模型方面,文獻[16]在2005年提出了HOG(Histogram of Oriented Gradient)特征描述方法,其構(gòu)成特征需計算和統(tǒng)計圖像局部區(qū)域的方向梯度直方圖。這種方法首先引入細胞單元的概念,即將圖像分為各小的連通區(qū)域,然后采集細胞單元中各像素點或邊緣的方向直方圖,最后組合采集到的該圖像的直方圖。文獻[17]提出的SIFT(Scale Invariant Feature Transform)特征通過對特征點進行極值檢測、定位、方向賦值及描述來提取圖像的特征。這種方法檢測的特征能較好地應(yīng)對旋轉(zhuǎn)、尺度縮放、亮度變化等情況,是一種較穩(wěn)定的局部特征。

        在空間模型方面,文獻[18]提出的混合部件模型除了關(guān)注兩個部件之間的空間約束,也有了一些更大工作范圍的約束,能夠表達更為復(fù)雜多樣的空間約束,用于解決人體姿態(tài)估計中的自遮擋問題。

        但是傳統(tǒng)算法依賴于人為設(shè)計的模板,難以應(yīng)用到多人姿態(tài)估計中,并且由于模型結(jié)構(gòu)的單一簡單,因此對于復(fù)雜場景中的人體姿態(tài)估計較為低效,當(dāng)人體姿態(tài)發(fā)生大幅度變化時,可能出現(xiàn)姿態(tài)估計不唯一的情況。

        2.2 基于深度學(xué)習(xí)算法

        傳統(tǒng)算法中由于模型的結(jié)構(gòu)單一,當(dāng)人體姿態(tài)變化較大時,不能準確地刻畫和表達出這種變化,同一數(shù)據(jù)存在多個可行的解,也就是說姿態(tài)估計結(jié)果不唯一。另一方面,這種傳統(tǒng)的基于手工提取特征并利用部件模型建立特征之間聯(lián)系的方法較為低效和昂貴。卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展給計算機視覺技術(shù)發(fā)展帶來了新方向。文獻[19]提出了Deep-Pose網(wǎng)絡(luò),將人體姿態(tài)估計的研究由傳統(tǒng)算法帶入到深度學(xué)習(xí)方法?;谏疃葘W(xué)習(xí)方法的人體姿態(tài)估計可以被分為單人姿態(tài)估計和多人姿態(tài)估計。

        2.2.1 單人姿態(tài)估計

        單人姿態(tài)估計是對輸入的單人圖片進行檢測,檢測出其全部關(guān)鍵點。單人姿態(tài)估計主要有以下幾種思路:基于坐標回歸、基于熱圖檢測以及兩者混合模式。

        基于坐標回歸的模型(Coordinate Net)將關(guān)節(jié)點的二維坐標作為Ground Truth,訓(xùn)練網(wǎng)絡(luò)可直接得到每個關(guān)節(jié)點的坐標。文獻[19]首先提出了基于深度學(xué)習(xí)進行單人姿態(tài)估計的Deep-Pose網(wǎng)絡(luò),并設(shè)計卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),通過運用多階段回歸的思路,以關(guān)節(jié)點二維坐標作為優(yōu)化目標直接回歸到人體骨骼關(guān)節(jié)二維坐標。這種方法被稱為多階段直接回歸,可以在檢測初期得到人體關(guān)節(jié)點的大概位置,并以當(dāng)前得到的關(guān)節(jié)點作為坐標中心在進入下一階段進行回歸前,對檢測到的關(guān)節(jié)點附近切取小尺度的子圖像,并以此作為該階段回歸的輸入,不斷修正坐標值。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。文獻[20]在基于坐標回歸的基礎(chǔ)上提出了另一種多階段分步回歸的IEF(Iterative Error Feedback)模型。IEF模型并不像Deep-Pose方法使用多階段端到端進行一個批次的訓(xùn)練,而是在訓(xùn)練時分成4個階段,每個階段進行3個完整的批次迭代,通過反饋錯誤預(yù)測逐步調(diào)整初始預(yù)測。這種方法將關(guān)節(jié)點的二維坐標作為迭代目標,將熱圖作為特征圖,同包含紋理信息的原始圖像級聯(lián)起來輸入網(wǎng)絡(luò),通過多階段回歸得到關(guān)節(jié)點位置。

        圖2 Deep-Pose網(wǎng)絡(luò)結(jié)構(gòu)Figure 2. Deep-Pose network architecture

        總體而言,基于坐標回歸的結(jié)構(gòu)可以看出它并沒有結(jié)合人體各關(guān)節(jié)間的信息,且通過以上文獻的訓(xùn)練結(jié)果不難看出單獨使用坐標回歸進行人體姿態(tài)估計誤差較大。坐標回歸模型對多尺度的姿態(tài)估計泛化性能較差,因此在2015年以后這種方法很少被采用,但是該網(wǎng)絡(luò)所呈現(xiàn)的利用多分辨率進行圖像處理的策略和多階段的思想得到了廣泛應(yīng)用。

        基于熱圖檢測的模型(Heatmap Net)用概率圖heatmap來表示關(guān)節(jié)點坐標,其估算圖像中每一個像素對應(yīng)了一個概率值。當(dāng)像素點位置越接近關(guān)節(jié)點時,其對應(yīng)的概率值越接近1,越遠離關(guān)節(jié)點越接近0。Heatmap Net的優(yōu)點在于建立了基于概率分布的Ground Truth,同時建立了部分人體部件之間的結(jié)構(gòu)信息。文獻[21]將圖結(jié)構(gòu)模型與CNN進行聯(lián)合訓(xùn)練,將人體關(guān)節(jié)看為抽象的變量節(jié)點,通過heatmap得到關(guān)于關(guān)節(jié)點變量的概率分布,并依賴MRF(Markov Random Field)[22]對所有相鄰關(guān)節(jié)點組成的關(guān)節(jié)對進行建模。最后,構(gòu)建相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)計算每個pair-wise內(nèi)的條件概率分布,使得每個pair-wise內(nèi)的節(jié)點可以互相修正相鄰節(jié)點的heatmap。每個pair-wise關(guān)系需要構(gòu)建4個子網(wǎng)絡(luò)模塊作為部件檢測器進行訓(xùn)練,其中兩個用于訓(xùn)練heatmap,另外兩個用于訓(xùn)練親和力圖。整體的MRF進行訓(xùn)練時,會不斷刪除聯(lián)合概率較小的冗余pair-wise關(guān)節(jié)點,優(yōu)化人體所有關(guān)節(jié)點的聯(lián)合概率分布,進而生成一個相對準確完整的人體姿態(tài)關(guān)節(jié)點位置分布圖。

        文獻[23]提出的堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Network)同時利用了局部信息和全局信息,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。其主要貢獻在于利用多尺度特征識別姿態(tài),整體的網(wǎng)絡(luò)結(jié)構(gòu)是單個沙漏模塊串聯(lián)組成,通過重復(fù)利用全身關(guān)節(jié)信息提高了單個關(guān)節(jié)的識別精度。堆疊沙漏網(wǎng)絡(luò)一方面通過多分辨率的heatmap檢測局部關(guān)節(jié)點的位置信息;另一方面通過多尺度感受野機制學(xué)習(xí)獲得關(guān)節(jié)之間的學(xué)習(xí)特征。文獻[24]在堆疊沙漏網(wǎng)絡(luò)基礎(chǔ)上進行了改進,通過對殘差模塊嵌入多支卷積搭建了一個金字塔殘差模塊來學(xué)習(xí)圖像特征,用以解決因為人體姿態(tài)大幅度變化導(dǎo)致的關(guān)節(jié)點尺度變化。特征金字塔模塊PRM(Pyramid Residual Module)共有4種,分別是PRM-A、PRM-B、PRM-C和PRM-D,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。PRM-A在原有殘差模塊的分支基礎(chǔ)上加入了分辨率分支,增加的多個分辨率分支主要是通過下采樣實現(xiàn)其分辨率的不同。殘差模塊需要將不同分支的結(jié)果進行相加得到最終的殘差模塊結(jié)果,因此下采樣后的特征需要通過上采樣恢復(fù)原來的分辨率。PRM-B則是以PRM-A為基礎(chǔ),將PRM-A中不同分辨率的分支以1×1卷積的方式進行參數(shù)共享,減少了參數(shù)數(shù)量。PRM-C將PRM-B中多分辨率特征的相加改為了串聯(lián),串聯(lián)后的特征通道與舊模式有所不同,因此可能需要引入一個1×1的卷積將特征通道對齊后與原特征進行相加。PRM-D則是使用空洞卷積代替下采樣和上采樣得到多尺度的特征。除此之外,對原始特征添加一個Bn-ReLU-Conv操作即可解決原始特征直接與卷積后的特征相加導(dǎo)致的方差較大的問題。

        圖3 堆疊沙漏網(wǎng)絡(luò)Figure 3. Stacked hourglass network

        圖4 特征金字塔模型(a)PRM-A (b)PRM-B=Addition; PRM-C=Concatenation (c)PRM-DFigure 4. Pyramid residual modules(a)PRM-A (b)PRM-B=Addition; PRM-C=Concatenation (c)PRM-D

        文獻[25]提出了一種新穎的高分辨率網(wǎng)絡(luò)HRNet(High-Resoultion Net),不同于之前的網(wǎng)絡(luò)在信息融合過程中采用低層信息與高層信息融合的方式,HRNet能保持高分辨率進行特征提取,并在學(xué)習(xí)過程中進行多次多尺度融合使預(yù)測的熱圖精確率更高。文獻[26]在HRNet的基礎(chǔ)上設(shè)計了一種編碼-解碼網(wǎng)絡(luò),其中編碼器沿用HRNet,解碼器采用了提出的一種高效網(wǎng)絡(luò)結(jié)構(gòu)CCM(Cascaded Context Mixer)。CCM可以有效整合空間和上下文信息并逐步完善信息。該研究還開發(fā)了一種利用大量未標記的數(shù)據(jù)進行困難負樣本的人體檢測策略,使CCM能夠從大量不同的姿態(tài)中學(xué)習(xí)識別特征。文獻[27]提出了一個用于人體姿態(tài)估計的統(tǒng)一框架:UniPose。該網(wǎng)絡(luò)基于WASP(Waterfall Atrous Spatial Pooling)模塊,不僅不依賴后續(xù)處理的信息,還結(jié)合了上下文分割和聯(lián)合定位功能,使得人體姿態(tài)估計在單階段具備高精度。

        回歸與檢測的混合模型主要是將Coordinate Net和Heatmap Net的結(jié)構(gòu)通過串聯(lián)或者并聯(lián)結(jié)構(gòu)直接級聯(lián)在一起。文獻[28]率先提出Coordinate Net和Heatmap Net的串聯(lián)結(jié)構(gòu),即整體包括部件檢測器和回歸網(wǎng)絡(luò)兩部分。在部件檢測器獲得部分heatmap信息后預(yù)測可見關(guān)節(jié)點的近似熱力圖,串聯(lián)回歸網(wǎng)絡(luò)模塊獲得更多關(guān)節(jié)點互相依賴的語義信息,并且在回歸模塊中設(shè)計了同樣大小的卷積核,這樣低置信度的heatmap對后面坐標修正的影響較小,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。文獻[29]提出了雙源卷積網(wǎng)絡(luò)用來構(gòu)建兩個并行的網(wǎng)絡(luò)模塊,即設(shè)置了關(guān)節(jié)點檢測網(wǎng)絡(luò)和關(guān)節(jié)點定位回歸網(wǎng)絡(luò)交互式輔助訓(xùn)練,其具體結(jié)構(gòu)如圖6所示。關(guān)節(jié)點檢測網(wǎng)絡(luò)用于檢測圖像補丁(Part Patch)包含的局部關(guān)節(jié)點類別信息。關(guān)節(jié)點定位網(wǎng)絡(luò)模塊通過結(jié)合整幅圖像(Body Patch)。Part Patch和Body Patch的二進制掩碼回歸關(guān)節(jié)點位置坐標,檢測模塊利用Body Patch的全局特征判斷腕關(guān)節(jié)的左右屬性,定位回歸模塊則根據(jù)Part Patch的局部信息歸一化位置坐標。

        圖5 串聯(lián)結(jié)構(gòu)圖Figure 5. Diagram of the series structure

        圖6 雙源卷積網(wǎng)絡(luò)結(jié)構(gòu)Figure 6. Dual-source deep convolutional neural networks

        2.2.2 多人姿態(tài)估計

        通過以上單人姿態(tài)估計的方法可以得到單人的2D關(guān)節(jié)點坐標,但是多人姿態(tài)估計并不僅僅是單人的多次檢測,還需要區(qū)分不同人體的關(guān)節(jié)點,避免不同人之間的關(guān)節(jié)點誤連。因此,多人姿態(tài)估計的算法主要分為自頂向下的兩步法和自底向上的基于部件的框架兩種。

        自頂向下的人體姿態(tài)估計方法可分為兩步:首先進行目標檢測,將圖像中的人體框處;隨后對每個框內(nèi)進行單獨的人體檢測。目前經(jīng)典的目標檢測算法可分為兩步走和一步走兩類。兩步走策略基于先選出候選區(qū)域然后通過CNN進行分類;一步走算法則可以通過端到端進行輸出類別的劃分和關(guān)節(jié)點定位。文獻[30]構(gòu)建了1個兩階段網(wǎng)絡(luò),其中第1階段使用FasterR-CNN[31]劃分出可能包含人的區(qū)域;第2階使用全卷積殘差網(wǎng)絡(luò)預(yù)測每個人的關(guān)節(jié)點坐標,并引入了兩個偏移參數(shù)來提高關(guān)節(jié)點的預(yù)測精度。文獻[32]通過將第1階段網(wǎng)絡(luò)得到的所有層次特征整合到一起,并結(jié)合在線困難關(guān)鍵點挖掘技術(shù),更側(cè)重于“困難”關(guān)鍵點的檢測,其網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。文獻[33]提出了1種新的方法進行人體姿態(tài)估計,其通過剪切視頻的中心幀,將視頻剪切成重疊的片段然后進行人體檢測,將來自不同時空的姿勢合并成任意長度的軌跡。文獻[34]針對自頂向下方法中數(shù)據(jù)處理所存在的沒有系統(tǒng)考慮的問題,提出了1種將分類與回歸組合進行編碼解碼的數(shù)據(jù)處理方法。該算法有效解決了由于關(guān)鍵點預(yù)測過程中進行的翻轉(zhuǎn)操作所帶來結(jié)果不對齊的問題。文獻[35]針對Anchor-Free模型用于行人搜索過程中所存在的尺度不對齊、區(qū)域不對齊、任務(wù)不對齊問題提出了AlignPS(Feature Aligned Person Search Network)模型。該模型通過可變性卷積重新塑造了FPN(Feature Pyramid Networks)網(wǎng)絡(luò),使用3×3的可變形卷積代替FPN中相鄰側(cè)所連接的1×1的卷積,擴大了輸入圖像的感受野;使用連接代替求和從而融合了多尺度特征;輸出層使用3×3的可變形卷積代替FPN輸出層的3×3卷積,提高了特征圖的精度。文獻[36]提出1種基于“上下文建模”的方法進行人體姿態(tài)估計,即估計出1個關(guān)節(jié)的位置可相互充當(dāng)其它關(guān)節(jié)的“上下文”。在估計某一關(guān)節(jié)點時,首先通過其“上下文”的信息收集特征,并對其施加肢體長度的約束,隨后整合其收集的特征并更新該關(guān)節(jié)點。

        圖7 級聯(lián)金字塔網(wǎng)絡(luò)Figure 7. Cascaded pyramid network

        自底向上的人體姿態(tài)估計算法過程與自頂向下相反,其基于部件的框架進行人體檢測時,分為進行關(guān)節(jié)點部件檢測和關(guān)節(jié)點部件聚類。文獻[37]通過在向量場中對人體不同肢體結(jié)構(gòu)建模,有效解決了單純使用肢體中間點方法所產(chǎn)生的多人檢測中的錯連問題。文獻[38]則通過部位分割對關(guān)鍵點間的關(guān)系進行建模,該方法既可以提供人體關(guān)鍵點之間的空間先驗知識,還對關(guān)鍵點的聚類產(chǎn)生輔助作用。文獻[39]提出了一種新的自底向上的人體姿態(tài)估計方法,利用高分辨率特征金字塔來學(xué)習(xí)尺度感知表示,將圖像進行上采樣之后再進行特征提取與檢測,解決了自底向上的多人姿態(tài)估計問題中的尺度變化問題,特別是小尺寸關(guān)鍵點的精確定位問題。文獻[40]提出了1種從単目RGB圖像中進行多人姿態(tài)識別的方法,使用高分辨率的體積熱圖對關(guān)節(jié)位置進行建模。利用完全卷積網(wǎng)絡(luò)將熱圖壓縮成密集的中間表示,可以有效減少熱圖的四維體積,使其輸出形狀與二維卷積輸出一致,隨后利用Code Predictor來預(yù)測解壓時的原始值。文獻[41]針對自底向上方法所存在的針對同一張圖不同尺度對象會對應(yīng)不同的感受野問題,提出了尺度自適應(yīng)熱力圖回歸,根據(jù)人體大小自適應(yīng)生成對應(yīng)感受野的標準差。該研究還提出了權(quán)重自適應(yīng)回歸平衡正負樣本,提高了尺度自適應(yīng)熱力圖回歸效果。文獻[42]提出了一種基于YOLOv3算法的行人檢測模型,通過構(gòu)造Darknet19為主干網(wǎng)絡(luò),引入廣義交并比損失函數(shù)來提高檢測精度。

        3 人體姿態(tài)估計數(shù)據(jù)集與方法技術(shù)指標

        為了保證算法訓(xùn)練的準確性,需要進行大量的數(shù)據(jù)訓(xùn)練與學(xué)習(xí)。本章節(jié)總結(jié)了近年主流的用于算法測試的數(shù)據(jù)集,并對算法測試的結(jié)果進行對比。

        3.1 相關(guān)數(shù)據(jù)集基準

        如表2所示,列舉了近年來主流的人體姿態(tài)估計數(shù)據(jù)集。由于早期研究資源的匱乏,人體姿態(tài)數(shù)據(jù)集多是針對單人姿態(tài)估計的標注。LSP(Leeds Sports Pose)[43]和FLIC(Frames Labeled in Cinema)[44]數(shù)據(jù)集則是針對單人姿態(tài)進行標注。隨后,MPII[45]數(shù)據(jù)集標注了16個人體關(guān)節(jié)點,并將其作為單人人體姿態(tài)估計算法的訓(xùn)練與評估的基準。在多人姿態(tài)估計方面,MSCOCO(Microsoft Common Objects in Context)[46]是于2014年發(fā)布的用于深度學(xué)習(xí)的綜合性數(shù)據(jù)集,其標注了人體17個關(guān)節(jié)點。AI Challenger[47]數(shù)據(jù)集包含了海量的人體姿態(tài)訓(xùn)練測試圖,是當(dāng)前最大的人體姿勢圖像數(shù)據(jù)集。Crowd Pose[48]從現(xiàn)有的數(shù)據(jù)集中篩選出20 000張有關(guān)人體姿態(tài)研究的圖片,且將人體關(guān)節(jié)點統(tǒng)一標注為14個,作為研究擁擠場景下的人體姿態(tài)的數(shù)據(jù)集。

        表2 人體姿態(tài)估計數(shù)據(jù)集介紹Table 2. Introduction to human pose estimation data sets

        3.2 評價指標

        現(xiàn)在主流的人體姿態(tài)估計算法評價指標有PCP(Percentage of Correct Parts)、PCK(Percentage of Correct Keypoints)和mAP(mean Average Precision)等。

        PCP即正確估計人體部位的百分比。其評判標準是兩個預(yù)測的關(guān)節(jié)點位置與實際關(guān)節(jié)點的關(guān)節(jié)點位置距離應(yīng)小于肢體長度的一半。

        PCK即正確估計人體關(guān)節(jié)點的比例。其依據(jù)肢體長度為基準值,以此來評估身體其他部位的檢測精度,也就是被檢測的關(guān)節(jié)點是否與其對應(yīng)的真實標注數(shù)據(jù)間的統(tǒng)一化距離小于設(shè)定的閾值。

        mAP即平均精度。其計算方式是將每一個關(guān)節(jié)點在不同閾值下所檢測到的AP值取平均值得到最終的結(jié)果,可反映人體全部關(guān)節(jié)的平均檢出率。

        3.3 對比分析

        本文從單人姿態(tài)估計和多人姿態(tài)估計兩個角度比較各個算法的性能。表3列出了在FILC、LSP、MPII數(shù)據(jù)集上單人姿態(tài)估計算法的表現(xiàn)情況。表4列出了在MPII、MSCOCO、MAP數(shù)據(jù)集上不同多人姿態(tài)估計算法的表現(xiàn)。

        表3 單人人體姿態(tài)估計方法比較Table 3. Comparison of individual body pose estimation methods

        表4 多人人體姿態(tài)估計方法比較Table 4. Comparison of human body pose estimation methods for multiple people

        4 結(jié)束語

        本文對球類視頻分析系統(tǒng)的發(fā)展做了介紹,對人體姿態(tài)估計的研究進行了全面綜述。由于球類運動具有快速性和連續(xù)性,因此引入人體姿態(tài)估計可以有效解決人體遮擋問題,并準確定位人體與球的坐標,進行空間坐標分析。較之以往,當(dāng)下對于運動中人體姿態(tài)的數(shù)據(jù)集的需求顯著增加,正確標注的運動姿態(tài)的數(shù)據(jù)集能提高人體姿態(tài)估計的準確性,這也是將人體姿態(tài)估計推廣應(yīng)用到各類比賽中的重要基礎(chǔ)。對于人體姿態(tài)估計方面,可將基于傳統(tǒng)算法的幾何先驗知識與基于深度學(xué)習(xí)算法融合,同時將多模態(tài)信息融合,并進一步通過改進網(wǎng)絡(luò)結(jié)構(gòu)來提高人體姿態(tài)估計的準確率,可為以后的體育視頻分析提供新的更加有效的方法。

        猜你喜歡
        關(guān)節(jié)點姿態(tài)卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
        關(guān)節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
        攀爬的姿態(tài)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        全新一代宋的新姿態(tài)
        汽車觀察(2018年9期)2018-10-23 05:46:40
        跑與走的姿態(tài)
        中國自行車(2018年8期)2018-09-26 06:53:44
        基于傅里葉域卷積表示的目標跟蹤算法
        搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        337p日本欧洲亚洲大胆| 91亚洲国产成人久久精品网站| 国产白浆一区二区三区佳柔| 色欲一区二区三区精品a片| 国产成本人片无码免费2020| 少妇精品无码一区二区三区| 国产精品狼人久久久影院| 99久久精品一区二区国产 | 亚洲一区二区三区四区五区六| 极品粉嫩小仙女高潮喷水网站| 亚洲欧美日韩成人高清在线一区| 国产精品久久国产精麻豆99网站 | 亚洲乱码一区二区三区在线观看| 亚洲av无码av制服另类专区 | 亚洲亚洲亚洲亚洲亚洲天堂| 亚州中文热码在线视频| 亚洲av无码国产精品永久一区| 五十路熟女一区二区三区| 免费人人av看| 亚洲免费女女在线视频网站| 国产精品久久国产精品99| 精品手机在线视频| 四虎影视国产884a精品亚洲| 日产一区一区三区区别| 欧美成人秋霞久久aa片| 又黄又爽的成人免费视频 | 免费大学生国产在线观看p| 少妇又紧又爽丰满在线视频| 成年女人黄小视频| 久久久久久人妻精品一区百度网盘 | 无码精品人妻一区二区三区漫画| 丰满人妻被黑人中出849| 日韩av中出在线免费播放网站| 蜜桃传媒免费在线观看| 精品伊人久久大香线蕉综合| 97色在线视频| 午夜国产精品一区二区三区| 日本边添边摸边做边爱喷水| 久久久久久久99精品国产片| 国产天堂av手机在线| 在线人成视频播放午夜|