亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于輕量化二維人體姿態(tài)估計(jì)的小樣本動(dòng)作識(shí)別算法

        2022-10-09 11:47:50尹繼堯劉董經(jīng)典
        廣西科學(xué) 2022年4期
        關(guān)鍵詞:輕量化姿態(tài)人體

        尹繼堯,周 琳,李 強(qiáng),劉董經(jīng)典

        (1.深圳市城市公共安全技術(shù)研究院,廣東深圳 518046;2.中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇徐州 221116)

        隨著視頻監(jiān)控網(wǎng)絡(luò)的全面覆蓋、移動(dòng)互聯(lián)網(wǎng)的不斷普及、流媒體的逐漸興起,產(chǎn)生了大量包含人體動(dòng)作信息的視頻數(shù)據(jù)。對(duì)視頻數(shù)據(jù)中人體動(dòng)作進(jìn)行時(shí)序數(shù)據(jù)挖掘可用于監(jiān)控安防、安全生產(chǎn)、人機(jī)交互、視頻內(nèi)容分析等方面,具有十分廣泛的應(yīng)用范圍[1]。但是現(xiàn)階段的動(dòng)作識(shí)別算法需要大量的標(biāo)記訓(xùn)練數(shù)據(jù)集,存在泛化性差、實(shí)時(shí)性差、場(chǎng)景受限的問題。

        現(xiàn)有基于視頻的動(dòng)作識(shí)別算法主要分為3類:基于時(shí)空卷積的動(dòng)作識(shí)別算法、基于雙流卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別算法以及基于人體骨骼[2,3]的動(dòng)作識(shí)別算法。其中基于時(shí)空卷積的動(dòng)作識(shí)別算法與基于雙流卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別算法直接利用時(shí)空卷積技術(shù)對(duì)視頻幀流進(jìn)行學(xué)習(xí)[4-11]。由于采用神經(jīng)網(wǎng)絡(luò)為學(xué)習(xí)框架,這類算法通常需要依賴大量的視頻數(shù)據(jù),且泛化性較差。基于人體骨骼的動(dòng)作識(shí)別算法[12-14]利用人體姿態(tài)檢測(cè)或?qū)S性O(shè)備提取人體的骨骼信息用于識(shí)別。由于人體骨骼與背景無(wú)關(guān),可以保證一定的泛化性,但是現(xiàn)階段基于圖卷積的骨骼動(dòng)作分類同樣需要一定的訓(xùn)練數(shù)據(jù),且無(wú)法動(dòng)態(tài)地?cái)U(kuò)展識(shí)別動(dòng)作的類別。為此,本研究提出一種基于輕量化二維人體姿態(tài)估計(jì)的小樣本動(dòng)作識(shí)別算法,研究極少視頻樣本下多種動(dòng)作的有效識(shí)別,并驗(yàn)證算法的有效性,以期降低動(dòng)作識(shí)別算法對(duì)大規(guī)模數(shù)據(jù)的依賴。

        1 相關(guān)工作

        目前主流的3類動(dòng)作識(shí)別方法中,基于時(shí)空卷積的動(dòng)作識(shí)別算法如C3D[4]、I3D[5]、P3D[6]、T3D[7]、R2+1D[8]、SlowFast[9],以及基于雙流卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別算法如LSTM two-stream[10]、TSN[11]等,使用RGB圖像、光流圖像等像素級(jí)特征作為神經(jīng)網(wǎng)絡(luò)的輸入,通過(guò)擬合訓(xùn)練實(shí)現(xiàn)動(dòng)作的分類。但是這些方法會(huì)受到圖像背景的干擾,泛化能力受限?;谌梭w骨骼的動(dòng)作識(shí)別算法[15]相比其他算法更注重人體的信息,能夠去除場(chǎng)景帶來(lái)的干擾以適應(yīng)更多的環(huán)境?,F(xiàn)階段主要采用基于圖神經(jīng)網(wǎng)絡(luò)GCN架構(gòu)的時(shí)空卷積模型進(jìn)行訓(xùn)練[16,17],依舊需要一定量級(jí)的數(shù)據(jù)才能保證收斂。由于動(dòng)作在空間與時(shí)間上存在歧義性與多樣性,現(xiàn)有基于監(jiān)督訓(xùn)練的方法普遍需要依賴大量的訓(xùn)練數(shù)據(jù),這在實(shí)際應(yīng)用中限制了算法的普適性[18]。因此本研究采用無(wú)需訓(xùn)練的方式來(lái)研究極少樣本下多動(dòng)作的有效識(shí)別,可以緩解動(dòng)作識(shí)別任務(wù)對(duì)數(shù)據(jù)樣本強(qiáng)依賴的現(xiàn)狀,促進(jìn)動(dòng)作識(shí)別的落地。

        此外,如何有效地從視頻中獲取和表征人體姿態(tài)信息是影響識(shí)別的關(guān)鍵?,F(xiàn)有基于姿態(tài)估計(jì)的動(dòng)作識(shí)別中的姿態(tài)信息主要來(lái)源于深度相機(jī)傳感器標(biāo)注和基于人體姿態(tài)估計(jì)提取。深度相機(jī)傳感器雖然標(biāo)注精準(zhǔn)但是需要特殊的設(shè)備,硬件成本較高[12]。基于人體姿態(tài)估計(jì)的人體姿態(tài)表征雖然可以直接基于視頻數(shù)據(jù)提取信息,但是由于需要多階段的識(shí)別,需要權(quán)衡計(jì)算成本與識(shí)別精度[13,14]。因此,本研究同時(shí)研究輕量化二維人體姿態(tài)估計(jì)方法及與其配套的姿態(tài)動(dòng)作特征構(gòu)建方法,以保證在極少數(shù)據(jù)下動(dòng)作識(shí)別的速度與準(zhǔn)確性。

        2 算法描述

        本研究的算法如圖1所示。該算法主要包括3個(gè)組件:輕量級(jí)人體檢測(cè)算法HYOLOv5、基于Lite-HRNet[2]的二維人體姿態(tài)動(dòng)作表征以及基于動(dòng)態(tài)時(shí)間規(guī)整的小樣本動(dòng)作匹配。輕量級(jí)人體檢測(cè)HYOLOv5基于小規(guī)模的YOLOv5算法,僅檢測(cè)人體目標(biāo),能夠有效地去除視頻中與人體無(wú)關(guān)的背景信息?;谳p量化二維人體姿態(tài)估計(jì)Lite-HRNet的識(shí)別結(jié)果,算法根據(jù)動(dòng)作的時(shí)空屬性對(duì)人體姿態(tài)進(jìn)行歸一化表征,獲取用于識(shí)別的姿態(tài)動(dòng)作特征序列。考慮到僅使用極少樣本進(jìn)行識(shí)別,本研究采用模板匹配的思想,結(jié)合姿態(tài)動(dòng)作特征序列特征設(shè)計(jì)姿態(tài)序列動(dòng)態(tài)時(shí)間規(guī)整相似度度量方法,并通過(guò)類別中心選擇算法降低匹配過(guò)程的時(shí)空復(fù)雜度,構(gòu)建動(dòng)作識(shí)別模板庫(kù)用于動(dòng)作識(shí)別。為驗(yàn)證算法的有效性,基于COCO 2017[3]構(gòu)建Human COCO 2017數(shù)據(jù)集訓(xùn)練并測(cè)試HYOLOv5。本研究采集10種動(dòng)作視頻,在每個(gè)動(dòng)作僅使用4個(gè)訓(xùn)練視頻的情況下對(duì)算法進(jìn)行測(cè)試。

        圖1 算法示意圖

        2.1 輕量級(jí)人體檢測(cè)器HYOLOv5

        為了有效去除背景干擾,本研究構(gòu)建輕量級(jí)的人體檢測(cè)器?,F(xiàn)有用于動(dòng)作識(shí)別的人體檢測(cè)算法通常是借助已經(jīng)訓(xùn)練好的多目標(biāo)檢測(cè)器,通過(guò)類別過(guò)濾,僅保留人體檢測(cè)框。然而這種方式會(huì)帶來(lái)額外的計(jì)算成本,并且人體檢測(cè)會(huì)受到其他類別信息的干擾,在與其他類別目標(biāo)高度重合的時(shí)候會(huì)被誤判為其他類別。因此本研究考慮使用已有的公開數(shù)據(jù),重新訓(xùn)練僅用于識(shí)別人的目標(biāo)檢測(cè)器,進(jìn)一步輕量化檢測(cè)頭。同時(shí),考慮到動(dòng)作識(shí)別的實(shí)時(shí)性要求,本研究最終使用YOLOv5-S和YOLOv5-N作為骨干網(wǎng)絡(luò)訓(xùn)練輕量級(jí)人體檢測(cè)器HYOLOv5。

        YOLOv5的核心思想是利用整張圖作為網(wǎng)絡(luò)的輸入,直接回歸邊界框的位置坐標(biāo)及其類別。具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要由Backbone、Neck和Head組成。Backbone在輸入端增加了Focus操作,即將輸入圖片等分切片成4份后堆疊,在不丟失信息的情況下將RGB通道擴(kuò)充至12個(gè),降低了網(wǎng)絡(luò)運(yùn)算的特征分辨率尺度。在Darknet[19]網(wǎng)絡(luò)的基礎(chǔ)上引入了CSP[20]結(jié)構(gòu)來(lái)增強(qiáng)表征能力。Neck層利用CSP結(jié)構(gòu)構(gòu)建特征金字塔(Feature Pyramid Networks,F(xiàn)PN),引入路徑聚合網(wǎng)絡(luò)[21](Path Aggregation Network,PAN)來(lái)對(duì)齊多尺度表征。

        圖2 YOLOv5模型結(jié)構(gòu)

        與YOLOv5用于多分類的Head不同,HYOLOv5的類別為1,因此網(wǎng)絡(luò)的輸出維度為6,第1至第4維用于描述識(shí)別框,第5維為目標(biāo)置信度,第6維為類別置信度。YOLOv5設(shè)有深度系數(shù)與寬度系數(shù)來(lái)控制網(wǎng)絡(luò)的規(guī)模,由小到大有YOLOv5-N、YOLOv5-S、YOLOv5-M、YOLOv5-L和YOLOv5-X 5種網(wǎng)絡(luò)。HYOLOv5同時(shí)在更大尺度上又提供了第6版系列權(quán)重,具有更高的準(zhǔn)確率。

        為訓(xùn)練HYOLOv5,本研究提取了COCO 2017數(shù)據(jù)集中所有包含人標(biāo)注的數(shù)據(jù)構(gòu)建了Human COCO 2017數(shù)據(jù)集,使用原始訓(xùn)練集中的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),使用驗(yàn)證集中的數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)。依據(jù)遷移學(xué)習(xí)思想,基于YOLOv5-S6和YOLOv5-N6權(quán)重訓(xùn)練HYOLOv5-S6和HYOLOv5-N6。與第6版系列權(quán)重輸入分辨率1 280不同,為降低計(jì)算復(fù)雜度,HYOLOv5-S6和HYOLOv5-N6的輸入分辨率均為640,模型的深度系數(shù)均為0.33,寬度系數(shù)分別為0.50和0.25。

        經(jīng)過(guò)極大值抑制算法即可對(duì)圖像中的人進(jìn)行目標(biāo)檢測(cè)。令檢測(cè)到的人體框?yàn)閇xmin,ymin,xmax,ymax],對(duì)應(yīng)人體框的左、上、右、下邊界??紤]到識(shí)別框會(huì)出現(xiàn)人體檢測(cè)不全的情況,最終用于二維人體姿態(tài)估計(jì)的人體框描述數(shù)組(H)為

        H=[xmin-dl,ymin-dt,xmax+dr,ymax+db],

        (1)

        其中dl、dt、dr、db分別為左、上、右、下邊界的擴(kuò)充像素?cái)?shù)。

        2.2 基于Lite-HRNet的二維人體姿態(tài)動(dòng)作表征

        在獲取到人體框后,根據(jù)H從原始圖像中裁剪出人體像素特征。對(duì)于之前的動(dòng)作識(shí)別方法而言,人體像素特征可直接作為模型的輸入特征進(jìn)行訓(xùn)練,但是由于空間維度較大,往往需要一定的數(shù)據(jù)規(guī)模才能保證識(shí)別精度。因此,為了實(shí)現(xiàn)少樣本數(shù)據(jù)下多動(dòng)作的有效識(shí)別,本研究采用二維人體姿態(tài)信息作為人體動(dòng)作表征的基礎(chǔ),其具有低空間維度與高行為描述的優(yōu)勢(shì)。

        綜合考慮識(shí)別精度與模型規(guī)模,本研究以輕量化二維姿態(tài)檢測(cè)算法Lite-HRNet為基礎(chǔ),構(gòu)建人體姿態(tài)特征描述算子。

        Lite-HRNet是HRNet[22]的輕量化版本。HRNet的核心思想起源于CPN[23]工作中提到的:較高的空間分辨率有利于特征點(diǎn)精確定位,低分辨率具有更多的語(yǔ)義信息。為保證高分辨率特征的強(qiáng)度,采用網(wǎng)絡(luò)并行連接從高到低的子網(wǎng)的方式來(lái)保持高分辨率表征,替代從低分辨率表征恢復(fù)高分辨率特征的方法,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)在設(shè)計(jì)中維持一個(gè)高分辨率表征的主干分支,在整個(gè)網(wǎng)絡(luò)中不降低分辨率,為彌補(bǔ)高分辨率表征感受也受限的問題,并行引入漸進(jìn)增加的低分辨率子網(wǎng)獲取全局信息。同時(shí),通過(guò)設(shè)計(jì)的特征融合模塊來(lái)實(shí)現(xiàn)高、低分辨率表征的信息交換,用低分辨率信息增強(qiáng)高分辨率表征學(xué)習(xí)的同時(shí),利用高分辨率表征獲取的局部信息來(lái)增強(qiáng)全局的低分辨率表征。但是因?yàn)椴捎玫氖遣⑿薪Y(jié)構(gòu),且在骨干網(wǎng)絡(luò)與特征融合模塊大量使用高計(jì)算成本的卷積,參數(shù)的計(jì)算量很大。

        圖3 Lite-HRNet網(wǎng)絡(luò)結(jié)構(gòu)

        為解決這個(gè)問題,Lite-HRNet采用輕量化骨干網(wǎng)絡(luò)ShuffleNet[24]的高效Shuffle塊來(lái)替代HRNet中的基本模塊。Shuffle塊的結(jié)構(gòu)如圖4所示。然而由于密集的平行子網(wǎng)間的信息交換,1×1的卷積需要對(duì)每個(gè)feature的特征點(diǎn)進(jìn)行遍歷計(jì)算,成為計(jì)算的瓶頸。因此,通道加權(quán)(Conditional Channel Weighting,CCW)被提出來(lái)替代1×1的卷積,如圖4所示。

        圖4 Lite-HRNet基礎(chǔ)模塊結(jié)構(gòu)

        Lite-HRNet在COCO 2017驗(yàn)證數(shù)據(jù)集上根據(jù)網(wǎng)絡(luò)深度與輸入圖像分辨率的不同提供了4種不同的預(yù)訓(xùn)練權(quán)重,如表1所示。由于二維人體姿態(tài)識(shí)別結(jié)果的精度與穩(wěn)定性決定了動(dòng)作識(shí)別的精度,本研究使用輸入尺度為384×288的Lite-HRNet-30作為二維姿態(tài)特征提取網(wǎng)絡(luò)。

        表1 Lite-HRNet在COCO 2017上的結(jié)果

        在確定人體姿態(tài)特征后,需要進(jìn)一步構(gòu)建動(dòng)作特征。令Lite-HRNet的識(shí)別結(jié)果為關(guān)節(jié)點(diǎn)坐標(biāo)集合P與每個(gè)關(guān)節(jié)點(diǎn)對(duì)應(yīng)的置信度c,則

        P={(Ji,1,Ji,2,…,Ji,17)|1≤i≤t},

        (2)

        其中t為總幀數(shù),Ji,j為第i幀關(guān)節(jié)點(diǎn)j坐標(biāo)(x,y),x和y分別對(duì)應(yīng)橫、縱坐標(biāo),17為COCO的關(guān)節(jié)點(diǎn)標(biāo)注數(shù)。

        對(duì)比每個(gè)關(guān)節(jié)點(diǎn)的置信度,發(fā)現(xiàn)“鼻子”“左眼”“右眼”“左耳”“右耳”(分別對(duì)應(yīng)編號(hào)1,2,3,4,5)的置信度不高,且存在大量闖動(dòng)的情況,因此在構(gòu)建人體姿態(tài)動(dòng)作特征時(shí)不采用這5個(gè)點(diǎn)的信息。

        每一個(gè)由二維人體姿態(tài)估計(jì)生成的關(guān)節(jié)點(diǎn)的坐標(biāo)都是相對(duì)于H的絕對(duì)坐標(biāo),隨著H坐標(biāo)系的變化,關(guān)節(jié)點(diǎn)坐標(biāo)的數(shù)值也會(huì)變化,因此需要坐標(biāo)轉(zhuǎn)換來(lái)獲取與H無(wú)關(guān)的坐標(biāo)描述。本研究選取每一幀的“左肩”和“右肩”的中心點(diǎn)C作為坐標(biāo)原點(diǎn)進(jìn)行坐標(biāo)轉(zhuǎn)換。由于人的體型、拍攝位置的影響,二維人體姿態(tài)估計(jì)生成的人體姿態(tài)在尺度上會(huì)有很大的差異,同樣也會(huì)影響關(guān)節(jié)點(diǎn)的坐標(biāo),因此本研究使用初始幀中“左肩”與“右肩”的距離D作為人體姿態(tài)特征的標(biāo)尺,經(jīng)尺度歸一化后獲得人體姿態(tài)動(dòng)作特征A(如圖5中紅色虛線所示):

        i≤t}。

        (3)

        圖5 人體姿態(tài)動(dòng)作特征

        2.3 基于動(dòng)態(tài)時(shí)間規(guī)整的中心特征選擇模板匹配

        經(jīng)過(guò)人體檢測(cè)與姿態(tài)表征,高維視頻序列被降維成低維姿態(tài)點(diǎn)集。基于深度學(xué)習(xí)的姿態(tài)行為識(shí)別,無(wú)論是監(jiān)督、半監(jiān)督或者自監(jiān)督,通常需要一定量級(jí)的數(shù)據(jù)才能保證訓(xùn)練的精度,且識(shí)別的類別受限,無(wú)法滿足極小樣本下有效動(dòng)作識(shí)別的需求。因此,本研究采用模板匹配的思想進(jìn)行動(dòng)作的識(shí)別。

        為了有效度量?jī)蓚€(gè)人體姿態(tài)動(dòng)作特征序列間的相似度,本研究提出了基于人體姿態(tài)動(dòng)作特征的動(dòng)態(tài)時(shí)間規(guī)整距離度量ADTW。令人體姿態(tài)動(dòng)作特征A的第j個(gè)關(guān)節(jié)點(diǎn)序列為Aj,則

        (4)

        對(duì)于任意兩個(gè)人體姿態(tài)動(dòng)作特征序列A1,A2,理論上可以直接計(jì)算A1j與A2j間的歐式距離來(lái)度量相似度。但是由于動(dòng)作在時(shí)序上很難保證同步,且序列長(zhǎng)度不一,因此本研究采用動(dòng)態(tài)時(shí)間規(guī)整距離DTW來(lái)度量A1j與A2j間的相似性。通過(guò)對(duì)所有關(guān)節(jié)點(diǎn)序列的DTW值求和取平均,可以得到ADTW計(jì)算公式:

        (5)

        基于ADTW,根據(jù)少量多類動(dòng)作視頻來(lái)構(gòu)建動(dòng)作模板庫(kù)。假設(shè)有n種動(dòng)作,每種動(dòng)作有m個(gè)訓(xùn)練數(shù)據(jù),如果直接將對(duì)應(yīng)的人體姿態(tài)動(dòng)作特征存入動(dòng)作特征庫(kù),直接利用K-Nearest Neighbor (KNN)進(jìn)行匹配分類,空間和時(shí)間復(fù)雜度至少為O(mn)。并且如果錄制過(guò)程中部分訓(xùn)練數(shù)據(jù)自身存在噪聲,同樣會(huì)影響動(dòng)作識(shí)別的精度,因此本研究提出了基于類別中心選擇的動(dòng)作模板匹配方法,在新動(dòng)作數(shù)據(jù)錄入過(guò)程中動(dòng)態(tài)選擇每個(gè)動(dòng)作中最具代表性的中心特征Cent。

        令A(yù)k為某類動(dòng)作第k個(gè)動(dòng)作特征序列。計(jì)算Ak與所有類內(nèi)動(dòng)作特征序列的ADTW之和,用以度量該動(dòng)作特征序列的重要性。所求的值越小,說(shuō)明該動(dòng)作特征序列與其他動(dòng)作特征序列相比,與其他序列計(jì)算時(shí)獲得更低ADTW值的可能性就越大,更能代表這個(gè)動(dòng)作,則有

        (6)

        中心特征Cent即為Ai。動(dòng)作特征庫(kù)中僅存儲(chǔ)每個(gè)類的中心特征,在匹配過(guò)程中復(fù)雜度降為O(n)。

        在構(gòu)建完動(dòng)作模板庫(kù)后,動(dòng)作的識(shí)別過(guò)程僅需計(jì)算待識(shí)別序列與每個(gè)類別的中心特征的ADTW距離,值最小的類別即為最終的識(shí)別結(jié)果。

        3 驗(yàn)證實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)采用的硬件實(shí)驗(yàn)環(huán)境為Centos 7系統(tǒng),CPU型號(hào)為Intel Xeon Gold 5120處理器,GPU使用2張NVIDIA GeForce 2080Ti,可用顯存為22 GB,使用CUDA 10.0與Cudnn 7進(jìn)行深度學(xué)習(xí)加速訓(xùn)練,使用的深度學(xué)習(xí)框架為Pytorch。

        3.2 HYOLOv5實(shí)驗(yàn)

        如2.1節(jié)所述,本實(shí)驗(yàn)采用的數(shù)據(jù)集為Human COCO 2017數(shù)據(jù)集。數(shù)據(jù)集中共有63 935張訓(xùn)練集數(shù)據(jù)與2 685張測(cè)試數(shù)據(jù)。訓(xùn)練輪次為300輪,batch_size為64??紤]到輕量化需求,雖然采用了原分辨率為1 280的第6版系列權(quán)重,但是實(shí)際訓(xùn)練中的輸入分辨率為640。精度指標(biāo)為識(shí)別精度,以及各類別在不同交并比下的平均準(zhǔn)確率(mean Average Precision,mAP),主要有mAP@0.5和mAP@0.5∶0.95。

        為證明模型的優(yōu)越性,算法在Human COCO 2017測(cè)試集上與YOLOv5原始權(quán)重進(jìn)行對(duì)比,測(cè)試結(jié)果如表2所示,HYOLOv5系列網(wǎng)絡(luò)在識(shí)別的精度上均不弱于原始權(quán)重,且參數(shù)量低于原始權(quán)重,其中HYOLOv5-S的mAP@0.5∶0.95達(dá)到了50.7%,在小規(guī)模人體檢測(cè)網(wǎng)絡(luò)中保持了較高的識(shí)別效果。

        表2 在Human COCO 2017上的識(shí)別結(jié)果

        3.3 動(dòng)作識(shí)別實(shí)驗(yàn)

        為驗(yàn)證小樣本動(dòng)作識(shí)別效果,本研究在不同室內(nèi)環(huán)境下對(duì)多名體型各異的人員采集了10種肢體姿態(tài)的單人視頻數(shù)據(jù)集,具體類別為側(cè)抬右手、側(cè)抬左手、側(cè)推右手、側(cè)推左手、右手上舉、右手畫Λ、右高抬腿、左手上舉、左手畫Λ和左高抬腿,標(biāo)簽對(duì)應(yīng)0-9,每個(gè)人員重復(fù)采集相同動(dòng)作3-4次。結(jié)合實(shí)際應(yīng)用情況,將每組動(dòng)作的前4個(gè)動(dòng)作序列作為訓(xùn)練集,剩下的作為測(cè)試集進(jìn)行測(cè)試。訓(xùn)練與測(cè)試數(shù)據(jù)比例為1∶4,訓(xùn)練遠(yuǎn)少于測(cè)試數(shù)據(jù)。dl、dt、dr、db的值均為60。

        為證明基于動(dòng)態(tài)時(shí)間規(guī)整的小樣本動(dòng)作匹配的有效性,利用相同數(shù)據(jù)使用KNN、Support Vector Machine(SVM)算法進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。經(jīng)對(duì)比,在極少樣本的情況下,KNN、SVM的識(shí)別精度遠(yuǎn)低于本研究的方法。在使用HYOLOv5-S作為人體檢測(cè)器的情況下,本研究的方法在多類別分類上可以達(dá)到91.8%的準(zhǔn)確率。從表中可以看出,人體檢測(cè)器的精度會(huì)對(duì)動(dòng)作識(shí)別的準(zhǔn)確度造成影響。這說(shuō)明對(duì)人體特征的有效表征能夠降低視頻動(dòng)作識(shí)別對(duì)數(shù)據(jù)的強(qiáng)依賴,證明了小樣本行為識(shí)別的可行性。

        表3 動(dòng)作識(shí)別結(jié)果

        為進(jìn)一步展示識(shí)別的細(xì)節(jié),分別繪制了使用人體檢測(cè)器HYOLOv5-N和HYOLOv5-S的動(dòng)作分類識(shí)別混淆矩陣,如圖6所示。識(shí)別的誤判主要集中在存在細(xì)微差別的動(dòng)作類上,如“側(cè)抬右手”和“側(cè)推右手”,但是在包含全身語(yǔ)義的動(dòng)作中識(shí)別效果極佳,可達(dá)到100%的正確率。

        (a) HYOLOv5-N

        4 結(jié)論

        本研究提出了一種基于輕量化二維人體姿態(tài)估計(jì)的小樣本動(dòng)作識(shí)別算法,能夠在極少視頻樣本下對(duì)多種動(dòng)作進(jìn)行有效識(shí)別。其中,輕量化二維人體姿態(tài)動(dòng)作表征方法可以快速準(zhǔn)確地提取視頻中人體的特征,可以為其他基于姿態(tài)估計(jì)的動(dòng)作識(shí)別算法提供數(shù)據(jù)基礎(chǔ)。此外,用于動(dòng)作識(shí)別的基于動(dòng)態(tài)時(shí)間規(guī)整的中心特征選擇模板匹配算法,為解決其他時(shí)序數(shù)據(jù)挖掘算法提供了思路。本研究的主要貢獻(xiàn)包括4個(gè)方面:

        ①提出了一種基于輕量化二維人體姿態(tài)估計(jì)的小樣本動(dòng)作識(shí)別算法,僅需少量樣本即可實(shí)現(xiàn)動(dòng)作視頻識(shí)別;

        ②構(gòu)建了Human COCO 2017數(shù)據(jù)集并訓(xùn)練了輕量級(jí)人體檢測(cè)算法HYOLOv5,可以有效地識(shí)別視頻中的人體;

        ③基于輕量級(jí)人體姿態(tài)估計(jì)算法Lite-HRNet構(gòu)建了人體姿態(tài)動(dòng)作特征及姿態(tài)序列動(dòng)態(tài)時(shí)間規(guī)整相似度度量方法;

        ④設(shè)計(jì)了一種基于中心特征選擇的模板匹配算法,可以有效地降低模板匹配任務(wù)的時(shí)空復(fù)雜度,提高識(shí)別效率。

        總體來(lái)看,本研究綜合利用視覺智能算法將人的行為降維成時(shí)間序列表達(dá),將行為識(shí)別問題簡(jiǎn)化建模為時(shí)間序列匹配問題,用靈活的識(shí)別機(jī)制來(lái)解決復(fù)雜的識(shí)別目標(biāo),具有一定的實(shí)際應(yīng)用價(jià)值。未來(lái)的工作應(yīng)包括2個(gè)方面:一是并行優(yōu)化動(dòng)態(tài)時(shí)間規(guī)整的運(yùn)算效率,進(jìn)一步提高算法的實(shí)時(shí)性;二是進(jìn)一步提高輕量化人體姿態(tài)表征的精度以提升動(dòng)作識(shí)別的精度。

        猜你喜歡
        輕量化姿態(tài)人體
        人體“修補(bǔ)匠”
        汽車輕量化集成制造專題主編
        人體冷知識(shí)(一)
        排便順暢,人體無(wú)毒一身輕
        攀爬的姿態(tài)
        一種輕量化自卸半掛車結(jié)構(gòu)設(shè)計(jì)
        全新一代宋的新姿態(tài)
        汽車觀察(2018年9期)2018-10-23 05:46:40
        跑與走的姿態(tài)
        奇妙的人體止咳點(diǎn)
        特別健康(2018年3期)2018-07-04 00:40:10
        瞄準(zhǔn)掛車輕量化 鑼響掛車正式掛牌成立
        專用汽車(2016年1期)2016-03-01 04:13:19
        在线小黄片视频免费播放| 妺妺窝人体色www在线图片| 国内久久婷婷精品人双人| 五月停停开心中文字幕 | 色一情一乱一伦一区二区三区日本| 亚洲熟女网站| 国产一区亚洲一区二区| 国产精品女直播一区二区| 天天夜碰日日摸日日澡| 国产精品自产拍在线观看免费| 亚洲视一区二区三区四区| 亚洲av成人一区二区三区本码| 欧洲熟妇色xxxx欧美老妇多毛| 国产一区a| 免费人成网站在线播放| 无套内谢孕妇毛片免费看| 军人粗大的内捧猛烈进出视频| 永久免费看免费无码视频| 国产福利一区二区三区在线观看| 免费不卡无码av在线观看| 嗯啊哦快使劲呻吟高潮视频| 99久久精品国产片| 久久精品国产亚洲av久按摩| 亚洲精品无码av人在线播放| 日本成人久久| 一区两区三区视频在线观看| 美女脱了内裤露出奶头的视频| 久久久久国产一区二区| 日本一区二区啪啪视频| 亚洲av成人波多野一区二区| 亚洲av综合色区| 5级做人爱c视版免费视频| 亚洲一区二区三区品视频| 国产人妻熟女高跟丝袜| 国产尤物精品福利视频| 日韩av中出在线免费播放网站| 青青草视频是针对华人| 国内精品视频在线播放不卡| 亚洲精品黄网在线观看| 成人影院羞羞的视频免费观看| 精品久久久bbbb人妻|