亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于乘積格拉斯曼流形的人體骨架動作識別

        2022-09-06 13:17:14
        計算機(jī)應(yīng)用與軟件 2022年8期
        關(guān)鍵詞:動作方法

        林 楓

        (中國科學(xué)技術(shù)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 安徽 合肥 230027)

        0 引 言

        動作識別一直是計算機(jī)視覺領(lǐng)域中的重要研究分支。根據(jù)數(shù)據(jù)源的不同,它可以劃分為基于RGB圖像的動作識別和基于3D人體骨架數(shù)據(jù)的動作識別[1-3]。近年來,隨著深度攝像等技術(shù)發(fā)展,基于3D人體骨架數(shù)據(jù)的動作識別受到越來越多的關(guān)注。相比于RGB圖像,3D人體骨架數(shù)據(jù)表達(dá)能力更高,且在不同的光照、視角、移動速度等條件下具有更好的魯棒性[4]。

        動作識別的目標(biāo)是在對人體骨架實(shí)施的動作進(jìn)行判別分析。人體骨架通??杀硎緸橐粋€由關(guān)節(jié)連接起來的剛性段組成的鉸鏈系統(tǒng),而骨架的動作則可以視為這些剛性段在空間形態(tài)上的連續(xù)演化[5]。因此,3D人體骨架動作數(shù)據(jù)主要描述人體骨架的空間變化,通常以人體多關(guān)節(jié)點(diǎn)坐標(biāo)的時間序列的形式呈現(xiàn)。這種數(shù)據(jù)往往比較復(fù)雜,難以用簡單的向量進(jìn)行表示。

        針對3D人體骨架的動作識別任務(wù),研究者提出很多方法,包括基于人工特征的方法[6-7]、基于幾何模型的方法[8-11]和基于深度學(xué)習(xí)的方法[12-14]。相比于其他方法,基于幾何模型的識別方法注重挖掘骨架數(shù)據(jù)的幾何結(jié)構(gòu),通過格拉斯曼流形[15]、李群[6,16]等幾何模型來描述數(shù)據(jù)空間,同時強(qiáng)調(diào)動作序列的魯棒表示,具有更好的可解釋性。由于數(shù)據(jù)維數(shù)較高,這類方法能用降維的方式把高維序列樣本直接映射成幾何空間的一個點(diǎn),有效減少數(shù)據(jù)的冗余信息,但這個壓縮過程所造成的時序信息損失很容易會被忽略。文獻(xiàn)[17]指出一個動作從開始執(zhí)行到完成的演化過程蘊(yùn)含一種本征性的時序。這意味著時序信息對動作的確定十分關(guān)鍵。因此,這種損失最終會影響動作的識別效果。文獻(xiàn)[18]試圖通過構(gòu)造漢克爾矩陣的方式編碼時序信息,但能包含的時序信息非常有限[19]。其他研究者則大多利用線性動態(tài)系統(tǒng)(Linear Dynamic System,LDS)來建模時序[20-22]。然而,這種基于連續(xù)幀建模的方式通常是高度冗余的,會大大增加計算代價[23]。

        為了在保持降維優(yōu)點(diǎn)的同時考慮時序信息,本文提出一種基于乘積格拉斯曼流形的動作識別方法。針對流形表示中時序信息缺失的問題,引入乘積格拉斯曼流形來建模不同時間視角下的局部動作變化,從而構(gòu)造一種自包含時序信息的序列表示?;谶@種表示,利用流形上的非線性度量分析骨架動作序列的異同,對序列數(shù)據(jù)進(jìn)行學(xué)習(xí),得到動作序列的分類判別模型,實(shí)現(xiàn)更加準(zhǔn)確的動作識別。

        1 相關(guān)理論

        1.1 格拉斯曼流形核

        在格拉斯曼流形上的經(jīng)典內(nèi)積定義為:

        〈X,Y〉=tr(XTY)

        (1)

        式中:X和Y為格拉斯曼流形上的任意兩點(diǎn)。

        文獻(xiàn)[24]指出,在實(shí)際中,利用投影映射:

        (2)

        (3)

        由上述內(nèi)積誘導(dǎo)出相應(yīng)的距離度量,可以寫成如下形式:

        (4)

        事實(shí)上,格拉斯曼流形上有效的核函數(shù)不止投影核一種,還有Binet-Cauchy(BC)核、不定核、仿射核、歸一化核等其他種類[26-27]。它們被統(tǒng)稱為格拉斯曼核(Grassmann Kernels)。可以基于這類核函數(shù)進(jìn)行格拉斯曼流形上的學(xué)習(xí)。文獻(xiàn)[26]討論了以子空間為單位在格拉斯曼流形上進(jìn)行判別學(xué)習(xí)的可行性,基于線性判別分析(Linear Discriminant Analysis,LDA)的思想和格拉斯曼核提出了格拉斯曼判別分析(Grassmann Discriminant Analysis,GDA),通過最大化類間距離、最小化類內(nèi)距離得到最佳判別函數(shù)。除此之外還有圖嵌入判別分析[28]、投影度量學(xué)習(xí)[25]等方法陸續(xù)被提出。

        1.2 乘積格拉斯曼流形

        由多個格拉斯曼流形空間的笛卡爾積構(gòu)成的乘積空間也是一個光滑流形,被稱為乘積格拉斯曼流形(Product Grassmann Manifold,PGM)??梢员硎緸?

        (5)

        對于PGM上的任意兩個點(diǎn),X={X1,…,Xm}和Y={Y1,…,Ym},可以構(gòu)造出PGM上的度量:

        (6)

        作為一族格拉斯曼流形的組合模型,乘積格拉斯曼流形非常適合于表示有多級變化因子的數(shù)據(jù)[29]。

        2 本文方法

        2.1 基于PGM的序列表示

        給定一組序列數(shù)據(jù),考察其中一個樣本。例如一個動作序列X,它可以描述為:

        X=[X1,X2,…,XT]

        (7)

        式中:Xi(i=1,2,…,T)是時刻i的3D骨架數(shù)據(jù),它通常為一個3×J的矩陣或簡化成一個長為3J的向量,J表示骨架中關(guān)節(jié)的個數(shù)。

        不妨假設(shè)所有動作在時序上都是可比較的,即每個動作序列的本征時序都能用一個固定長度m的有序分組表示。

        式(7)中序列X可重新表示為:

        {[X1,…,Xt1],[Xt1+1,…,Xt2],…,[Xtm-1+1,…,XT]}

        (8)

        本文簡記:

        Sj=[Xtj-1,…,Xtj] 1≤j≤m

        (9)

        t0=1且tm=T。

        Sj(j=1,…,m)描述的是動作第j個時序階段執(zhí)行的局部子動作。它可能包含多個可描述的動作單元,但為了降低序列表示的冗余信息,我們并不關(guān)注這個局部子動作在每一個時刻的表示,而只考慮它在當(dāng)前階段的全局表現(xiàn)。注意到,除非|tj-tj-1|足夠小,否則Sj的維數(shù)依然會很高。因此,我們需要對Sj進(jìn)行降維表示,提取其中的主要信息。因?yàn)镾j跨越的是一個相對較小時間段,在計算時,不必?fù)?dān)心局部時序信息的損失,可以直接將它映射到格拉斯曼流形上。

        考慮對Sj進(jìn)行奇異值分解(Singular Value Decomposition,SVD):

        (10)

        P(X)={Π(U1),…,Π(Um)}

        (11)

        這種PGM表示自然包含了動作序列的本征時序,因此能為動作識別帶來很大的方便。

        2.2 PGM上的學(xué)習(xí)

        對于單格拉斯曼流形,研究者已經(jīng)提出一些有效的判別分析方法。事實(shí)上,這些方法都遵循著傳統(tǒng)機(jī)器學(xué)習(xí)的思路,即構(gòu)造一個目標(biāo)函數(shù)并優(yōu)化從而得到最佳的模型參數(shù)。只不過優(yōu)化的目標(biāo)函數(shù)不再是普通向量,而是子空間。

        (12)

        式中:ω是模型參數(shù);C是正則化參數(shù);φ(X)是X的子空間表示;l(·)是基本損失函數(shù),當(dāng)它為合頁函數(shù)l(X,y;ω)=max{0,1-yωTφ(X)}時,上述分類器即為格拉斯曼流形上的支持向量器(Support Vector Machine,SVM)。類似地,邏輯回歸或者概率向量機(jī)模型[30]等也可以擴(kuò)展到格拉斯曼流形上。

        單格拉斯曼流形上的分類方法可以推廣到PGM上。這里以SVM為例。應(yīng)當(dāng)注意到,PGM上的點(diǎn)的分布是其在組成該P(yáng)GM的各個單格拉斯曼流形上投影的分布疊加作用的結(jié)果。因此,可以構(gòu)造經(jīng)驗(yàn)損失函數(shù):

        (13)

        這里的φ是一個非線性映射函數(shù)。

        最小化式(13)中的目標(biāo)函數(shù)并不是一件容易的事。因此,可以不直接優(yōu)化該函數(shù),而是去求解其對偶問題,引入核方法,這樣做大大降低了求解難度,也提高了求解效率。

        2.3 核方法

        通過引入一個輔助變量α=(αi)i=1,…,n,本文可以將PGM上的分類模型式(13)轉(zhuǎn)換成為一個帶核模型:

        (14)

        式中:Kt(·,·)是格拉斯曼核。注意到式(14)的形式和通常的SVM優(yōu)化函數(shù)非常相似,只有核函數(shù)的部分是有差異的。我們可以提取出式(14)中的核:

        (15)

        本文將K(·,·)稱為PGM核。它是一個格拉斯曼核的加性組合。顯然,影響PGM核的關(guān)鍵是各單格拉斯曼核的形式。當(dāng)然,最常用的核自然是投影核,其形式如式(3)所示,不再贅述。

        式(15)中的PGM核將每個單格拉斯曼流形核對結(jié)果的貢獻(xiàn)度都看作是一致的,但事實(shí)上不同的局部可能會產(chǎn)生不同的影響。因此,也可以考慮將簡單的加法模型修正為一個加權(quán)的多核模型:

        (16)

        在確定核的形式之后,可以基于數(shù)據(jù)的PGM表示事先計算核矩陣,再最小化式(14)中的目標(biāo)函數(shù)。

        2.4 算法流程與代價分析

        為了挖掘序列數(shù)據(jù)的流形結(jié)構(gòu),本文提出一種基于PGM的動作識別算法。該算法以3D骨架動作序列為輸入,再將序列映射到PGM上得到降維表示?;谶@種PGM表示,利用多核學(xué)習(xí)的方法可以計算出核矩陣。之后的參數(shù)學(xué)習(xí)過程就可以像求解一般SVM優(yōu)化問題那樣去求解目標(biāo)函數(shù)式(14)的最小化問題,得到最佳的模型參數(shù)核評分函數(shù)。最后利用訓(xùn)練得到的模型,對一般的骨架動作序列進(jìn)行分類識別。算法的步驟如圖1所示。

        圖1 基于PGM的人體骨架動作識別

        值得注意的是,該算法在構(gòu)建降維表示時的計算代價與PGM的因子個數(shù)m成正比,并受SVD分解的效率影響,因此復(fù)雜度約為O(mSLr),S是骨架坐標(biāo)表示的維數(shù),L是序列長度,r是降維SVD分解時保留的奇異值個數(shù)。為了降低信息的冗余,通常m不會很大;而局部包含信息通常比全局信息少,因此降維時r也會較小。這時,算法復(fù)雜度與一般基于格拉斯曼流形的降維表示方法相近。因此,其計算代價并不會高于其他在格拉斯曼流形上進(jìn)行學(xué)習(xí)的方法。同時,訓(xùn)練出的分類器具有很好的泛化能力,能夠?qū)崿F(xiàn)高效、準(zhǔn)確的動作識別。當(dāng)然,受到SVM方法自身的限制,其實(shí)時預(yù)測的效率一定程度上依賴于核矩陣的計算。為了更好地提高識別的實(shí)時性,可通過一定策略[31]對分類器進(jìn)行在線優(yōu)化。

        3 實(shí)驗(yàn)分析

        實(shí)驗(yàn)使用了MATLAB R2017b作為開發(fā)工具,并使用了LibSVM工具包[32]。

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文在MSR Action3D[33]、Florence 3D[34]和KARD[35]三個常用的3D人體骨架動作數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集信息如表1所示。

        表1 數(shù)據(jù)集信息

        MSR Action3D數(shù)據(jù)集來自于微軟研究院,通過深度相機(jī)收集。但這些樣本有一部分有缺失,因此實(shí)際中往往會棄用這部分?jǐn)?shù)據(jù)。KARD數(shù)據(jù)集則利用微軟Kinect相機(jī)捕捉骨架坐標(biāo),數(shù)據(jù)更加可靠、準(zhǔn)確。而Florence 3D數(shù)據(jù)集由佛羅倫薩大學(xué)的研究者收集得到,同樣是利用了Kinect相機(jī)。該數(shù)據(jù)集中的動作具有高度的類間相似性和類內(nèi)的波動性,因此該數(shù)據(jù)集的動作對于機(jī)器識別起來會有一定困難。

        3.2 實(shí)驗(yàn)設(shè)置

        本文的三個實(shí)驗(yàn)均按照相應(yīng)數(shù)據(jù)集文獻(xiàn)中的標(biāo)準(zhǔn)實(shí)驗(yàn)進(jìn)行。對于MSR Action3D數(shù)據(jù)集,依照文獻(xiàn)[28]中的設(shè)定將它劃分為三個數(shù)據(jù)子集。而每個子集則按動作執(zhí)行對象將數(shù)據(jù)的50%用于訓(xùn)練,50%用于測試。在Florence 3D數(shù)據(jù)集上則采用每次留一人(Leave-one-subject-out)用于測試的學(xué)習(xí)規(guī)則。而對于KARD數(shù)據(jù)集,同樣將它劃分為三個識別難度不同的數(shù)據(jù)子集,但是使用了更多不同的實(shí)驗(yàn)設(shè)置。在KARD數(shù)據(jù)集上進(jìn)行了三個子實(shí)驗(yàn)(A/B/C),分別使用(A)每個對象數(shù)據(jù)的1/2、(B)每個對象數(shù)據(jù)的2/3和(C)全部數(shù)據(jù)的1/2用于訓(xùn)練。

        為了選擇合適的參數(shù),本文在所有的實(shí)驗(yàn)中均使用了10折交叉驗(yàn)證。其中,分類器參數(shù)C的選擇范圍為-103~104,而控制局部降維的參數(shù)r則通常不超過10。m作為PGM表示最重要的參數(shù),在本文實(shí)驗(yàn)中從1~10中進(jìn)行篩選。在實(shí)際測試中,m不宜過大也不宜過小。

        3.3 結(jié)果分析

        為了驗(yàn)證本文方法的有效性,在MSR Action3D數(shù)據(jù)集上,將本文方法與文獻(xiàn)[14]、文獻(xiàn)[25]、文獻(xiàn)[26]、文獻(xiàn)[28]和文獻(xiàn)[36]提出的方法進(jìn)行實(shí)驗(yàn)對比,如表2所示。

        表2 MSR Action3D數(shù)據(jù)集上的準(zhǔn)確率結(jié)果比較(%)

        可以看出,相比其他算法,本文方法在這三個不同的子集上均表現(xiàn)良好。在子集1上雖然比文獻(xiàn)[25]的方法略有不如,但比其他方法的準(zhǔn)確率都要更高;在子集2上也達(dá)到了最高的識別準(zhǔn)確率;而子集3上的識別準(zhǔn)確率更是遠(yuǎn)超其他算法。本文方法平均識別準(zhǔn)確率也大幅上升,比其他方法提高了2%,這充分說明該算法對于常規(guī)動作有很強(qiáng)的識別能力。該方法在不同子集上的混淆矩陣如圖2所示。可以看出,它在大多數(shù)類別動作的判別上表現(xiàn)很好,只是對少數(shù)幾個易混淆類動作的識別還有待提高。整體上看,矩陣對角線的顏色明顯比非對角線的更深,表明本文方法分類效果較好。

        (a) 子集1

        (b) 子集2

        (c) 子集3圖2 MSR Action3D子集上的混淆矩陣

        除了MSR Action3D數(shù)據(jù)集,我們還在Florence 3D數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果如表3所示。該實(shí)驗(yàn)的結(jié)果是經(jīng)過10次測試取平均值得到的。從表3可以看到,本文方法在該數(shù)據(jù)集上能取得最高的準(zhǔn)確率。這體現(xiàn)了它在小規(guī)模數(shù)據(jù)集上良好的泛化能力。

        表3 Florence 3D數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(%)

        為了進(jìn)一步驗(yàn)證算法對骨架動作數(shù)據(jù)建模的流形結(jié)構(gòu)是有效的,本文又在KARD數(shù)據(jù)集的三個不同子集上進(jìn)行了三組實(shí)驗(yàn),并將結(jié)果與文獻(xiàn)[25]、文獻(xiàn)[26]和文獻(xiàn)[28]等基于流形的方法進(jìn)行比較,如表4所示。

        表4 KARD數(shù)據(jù)集上的準(zhǔn)確率結(jié)果對比(%)

        可以看出,在第一個子集上采用實(shí)驗(yàn)設(shè)置A的時候,本文方法是其中識別最準(zhǔn)確的;在B和C設(shè)置下結(jié)果也與準(zhǔn)確率最高的算法非常接近。在第二個子集上,文獻(xiàn)[26]的方法表現(xiàn)非常突出,本文方法的識別率也相差無幾。第三個子集是區(qū)分難度最大的子集。在這個子集上,無論什么設(shè)置,本文方法都有著最高的識別準(zhǔn)確率。綜合來看,其他算法在動作識別時都有一定的不穩(wěn)定性,可能在某個子集上效果非常好,但在另一個子集上的效果卻相對較差。這表明它們對數(shù)據(jù)的建??赡艽嬖谝欢ㄆ睿夯芰Σ蛔?。而本文方法在三個數(shù)據(jù)子集上的表現(xiàn)都很穩(wěn)定,準(zhǔn)確率很高,結(jié)果不會因?yàn)閷?shí)驗(yàn)設(shè)置的改變或者數(shù)據(jù)子集的變化而產(chǎn)生巨大波動。這意味著相比于其他幾個基于流形的算法,該方法對數(shù)據(jù)的建模可能更接近數(shù)據(jù)的真實(shí)結(jié)構(gòu)。

        4 結(jié) 語

        本文提出一種基于PGM的3D人體骨架動作識別方法。該方法將動作序列數(shù)據(jù)投影到PGM上,直接在流形上進(jìn)行學(xué)習(xí)。為了保留低維表示優(yōu)點(diǎn)的同時捕捉時序信息,本文的方法利用PGM可以表示多因子數(shù)據(jù)的特點(diǎn),提取時間序列在不同時間視角下的局部信息,并整合進(jìn)行模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明該方法在多個數(shù)據(jù)集上均能有效提高識別效果。在未來的研究中,我們會將這種方法的思想推廣到其他流形,進(jìn)一步提高這種方法在不同數(shù)據(jù)環(huán)境下的準(zhǔn)確性與魯棒性以及算法的實(shí)時預(yù)測能力,并探索方法在更廣泛的時間序列學(xué)習(xí)上的應(yīng)用。

        猜你喜歡
        動作方法
        下一個動作
        學(xué)習(xí)方法
        動作描寫要具體
        畫動作
        讓動作“活”起來
        動作描寫不可少
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        美女网站免费观看视频| 亚洲成片在线看一区二区| 国产成人8x视频网站入口| 天天插天天干天天操| 白浆高潮国产免费一区二区三区| 区一区二区三免费观看视频| 亚洲自偷自拍另类第1页| 国产亚洲av无码专区a∨麻豆| 国产系列丝袜熟女精品视频| 欧美成人a视频免费专区| 国产福利不卡视频在线| 午夜天堂精品久久久久| 国产午夜三级一区二区三| 99riav精品国产| 91国语对白在线观看| av剧情演绎福利对白| 欧美一区二区三区激情| 亚洲区日韩精品中文字幕| 日本人妻少妇精品视频专区| 亚洲无av高清一区不卡| 一区二区三区国产免费视频| 51国偷自产一区二区三区| 一级一级毛片无码免费视频| 少妇人妻字幕一区二区| 日本护士xxxxhd少妇| 日本大片免费观看视频| 午夜无码大尺度福利视频| 免费无码中文字幕A级毛片| 中文字幕日韩精品亚洲精品| 综合亚洲伊人午夜网| 国产乱人伦av在线a| 精品一区二区三区影片| 好看的日韩精品视频在线| 忘忧草社区www日本高清| a在线免费| 日本97色视频日本熟妇视频| 三个男吃我奶头一边一个视频| 韩国v欧美v亚洲v日本v| 无码毛片高潮一级一免费| 精品亚洲av一区二区| 亚洲国产精品一区二区毛片|