亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于流形假設(shè)的骨架序列動(dòng)作識(shí)別算法

        2022-11-15 07:55:34彭亞新
        關(guān)鍵詞:關(guān)節(jié)點(diǎn)流形骨架

        彭亞新, 趙 倩

        (上海大學(xué)理學(xué)院, 上海 200444)

        人體動(dòng)作識(shí)別一直是模式識(shí)別任務(wù)中最活躍的研究課題之一, 由于應(yīng)用場(chǎng)景廣泛, 眾多學(xué)者都對(duì)這一課題進(jìn)行了深入研究. 在過(guò)去的數(shù)十年里, 動(dòng)作識(shí)別算法能夠處理的數(shù)據(jù)類型已經(jīng)涵蓋了RGB 圖像[1-2]、深度圖像[3-4]以及3D 骨架數(shù)據(jù)[5-6](見(jiàn)圖1). RGB 圖像可為動(dòng)作識(shí)別算法提供豐富的背景信息, 輔助判斷當(dāng)前人體執(zhí)行的動(dòng)作類別. Poppe 等[7]最先總結(jié)了基于RGB 圖像的動(dòng)作識(shí)別方法, 并針對(duì)動(dòng)作識(shí)別領(lǐng)域的基本挑戰(zhàn)提出了解決方法, 隨后從圖像表示和動(dòng)作分類過(guò)程出發(fā), 討論了該領(lǐng)域的工作進(jìn)展. Weinland 等[8]則從空域和時(shí)域的角度出發(fā), 概述了該領(lǐng)域工作的處理方法. Wu 等[9]概述了基于深度學(xué)習(xí)的視頻分類和捕捉任務(wù),介紹了常用的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)模型的基本結(jié)構(gòu), Samitha 等[10]則討論了常用的深度識(shí)別框架, 并對(duì)其進(jìn)行定量分析. 上述工作都為輸入數(shù)據(jù)的預(yù)處理帶來(lái)很多啟發(fā), 其中RGB 圖像容易受光線、遮擋等因素影響, 導(dǎo)致圖像內(nèi)容不清晰, 為動(dòng)作識(shí)別帶來(lái)了極大挑戰(zhàn), 這也是眾多基于RGB 圖像的計(jì)算機(jī)視覺(jué)任務(wù)所面臨的共同難題.

        與RGB 圖像相比, 深度圖像受光線以及照明條件的影響降低, 并且可對(duì)3D 結(jié)構(gòu)信息進(jìn)行編碼, 例如人體的形狀、邊界以及整個(gè)場(chǎng)景的幾何結(jié)構(gòu), 但是深度圖像中冗余的背景信息會(huì)對(duì)動(dòng)作識(shí)別產(chǎn)生干擾. 近年來(lái), 基于RGB 圖像和深度圖像的人體姿態(tài)估計(jì)算法[11-13]日益精進(jìn), 研究人員通過(guò)提取動(dòng)作的3D 骨架數(shù)據(jù)來(lái)進(jìn)行動(dòng)作分類. Microsoft Kinect[14]低價(jià)傳感器的推出, 也使獲取骨架的3D 數(shù)據(jù)更加容易.

        與RGB 圖像、深度圖像相比, 3D骨架數(shù)據(jù)具有3 個(gè)主要特征.

        (1) 空間幾何信息. 3D 骨架數(shù)據(jù)記錄了人體關(guān)節(jié)點(diǎn)的位置信息, 因此每副人體骨架都對(duì)特定時(shí)刻特定動(dòng)作的空間位置關(guān)系進(jìn)行了編碼.

        (2) 時(shí)間信息. 一個(gè)完整的動(dòng)作采集的數(shù)據(jù)實(shí)際上是一個(gè)3D 骨架序列, 它是一個(gè)時(shí)間序列, 能夠直觀地展現(xiàn)骨架不同位置的先后順序以及在時(shí)域上的相對(duì)位置.

        (3) 3D 骨架序列避免了冗余背景信息的干擾. 不同于深度圖像和RGB 圖像中, 需要正確識(shí)別前景信息, 避免背景信息的干擾, 3D 骨架序列只存在關(guān)節(jié)點(diǎn)數(shù)據(jù), 不存在背景信息.

        近年來(lái), 應(yīng)用于3D 骨架序列的動(dòng)作識(shí)別算法大致分為3 類: 基于概率統(tǒng)計(jì)的動(dòng)作識(shí)別算法[1,15-16]、基于深度學(xué)習(xí)的動(dòng)作識(shí)別算法[17-25]以及基于流形假設(shè)的動(dòng)作識(shí)別算法[26-28].Presti 等[29]首次總結(jié)了3D 骨架序列建模以及動(dòng)作識(shí)別, 闡述了3D 骨架數(shù)據(jù)的獲得與預(yù)處理以及動(dòng)作的表示與分類問(wèn)題. Ren 等[30]則從3 個(gè)深度學(xué)習(xí)框架CNN、RNN 和圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GCN)出發(fā), 介紹三者之間的差異與應(yīng)用動(dòng)機(jī), 總結(jié)了基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法的最新進(jìn)展. 上述工作是基于歐氏結(jié)構(gòu)對(duì)骨架序列進(jìn)行編碼, 但實(shí)際上, 人的行為動(dòng)作往往是分布在低維流形上的非線性規(guī)律, 因此流形能夠?qū)Ψ蔷€性結(jié)構(gòu)和規(guī)律進(jìn)行很好的描述. 通過(guò)流形假設(shè), 可以對(duì)骨架進(jìn)行合適的建模, 并且流形提供了幾何計(jì)算工具, 便于對(duì)動(dòng)作進(jìn)行比較和度量. 因此, 本工作將對(duì)基于流形假設(shè)的動(dòng)作識(shí)別算法進(jìn)行概述.

        1 方 法

        骨架是由關(guān)節(jié)點(diǎn)和骨骼連接而成的鉸鏈結(jié)構(gòu)(見(jiàn)圖2), 其中紅點(diǎn)li(i=1,2,··· ,15)為關(guān)節(jié)點(diǎn), 黑色實(shí)線ej(j= 1,2,··· ,14)為帶有位置和方向的人體骨骼. 基于流形假設(shè)的骨架表示,就是對(duì)骨架結(jié)構(gòu)進(jìn)行建模, 將骨架從形狀空間映射到流形上. 一套完整的動(dòng)作對(duì)應(yīng)一個(gè)骨架序列. 一個(gè)完整的骨架序列就可以看成由流形上離散點(diǎn)構(gòu)成的軌跡(見(jiàn)圖3). 處理流形上的動(dòng)作軌跡存在一個(gè)重大挑戰(zhàn), 即軌跡的時(shí)間錯(cuò)位問(wèn)題. 這會(huì)導(dǎo)致在對(duì)軌跡進(jìn)行度量和比較時(shí)產(chǎn)生扭曲, 因此需要進(jìn)行軌跡時(shí)間對(duì)齊. 軌跡時(shí)間對(duì)齊之后, 需要提取合適的特征來(lái)對(duì)動(dòng)作序列進(jìn)行進(jìn)一步表征, 并將該特征作為輸入數(shù)據(jù), 輸入到合適的分類器中進(jìn)行動(dòng)作分類. 因此, 本工作主要圍繞骨架表示、軌跡時(shí)間對(duì)齊、動(dòng)作序列表征和動(dòng)作分類這4 個(gè)步驟來(lái)概述當(dāng)前最新的工作進(jìn)展, 具體框架如圖4 所示.

        圖2 骨架圖Fig.2 An example skeleton

        圖3 將骨架序列表示為流形上的軌跡Fig.3 Representation of skeletal sequences as a trajectory in the manifold

        圖4 基于流形假設(shè)的動(dòng)作識(shí)別框架Fig.4 Action recognition framework based on manifold assumption

        1.1 骨架表示

        在現(xiàn)有工作中, 骨架常用的表示空間有矩陣?yán)钊篠E(3)、Grassmann 流形、肯德?tīng)栃螤羁臻g(Kendall’s shape space)、對(duì)稱正定(symmetric positive definite, SPD)矩陣流形等.

        (1) 基于李群的骨架表示.

        3D 骨架具有天然的鉸接結(jié)構(gòu), 因此可以通過(guò)對(duì)骨骼之間的空間位置進(jìn)行編碼, 將3D 骨架映射到李群SE(3)上. Vemulapalli 等[26]將骨骼之間的相對(duì)位置表示成特殊歐氏群SE(3)上的一個(gè)點(diǎn), 即

        式中:Rm′,m(t)和dm′,m(t)是將em移動(dòng)到em′位置和方向上的旋轉(zhuǎn)和平移. 同理, 對(duì)骨骼em′構(gòu)建局部坐標(biāo)系, 可以得到骨骼em與em′在時(shí)刻t時(shí)的相對(duì)幾何Pm,m′(t). 一個(gè)完整的3D骨架序列可以當(dāng)成是M(M-1)個(gè)SE(3)的積空間, 即李群SE(3)×···×SE(3)上的一條軌跡, 記為

        圖5 骨骼em′ 在em 局部坐標(biāo)系下的表示Fig.5 Representation of body part em′ in the local coordinate system of em

        該工作還將每條軌跡上的離散點(diǎn)映射到李代數(shù)上, 即單位元處的切空間, 它等價(jià)于6 維的向量空間v= [ω1,ω2,ω3,v1,v2,v3], 由此獲得軌跡的向量表示. 實(shí)驗(yàn)結(jié)果表明, 軌跡的李代數(shù)是一個(gè)有效的分類特征[26]. Vemulapalli 等[27]發(fā)現(xiàn), 骨架的平移元素對(duì)最后分類結(jié)果的影響并不明顯, 因此在骨架表示中移除了平移元素, 將骨架序列映射為特殊正交群積空間SO(3)×···×SO(3)上的軌跡, 同時(shí)提出將滾動(dòng)映射與對(duì)數(shù)映射相結(jié)合, 克服對(duì)數(shù)映射在求取李代數(shù)時(shí)產(chǎn)生的扭曲. Xu 等[28]和Anirudh 等[31]同樣選擇了矩陣?yán)钊篠E(3)×···×SE(3)作為骨架表示空間.

        (2) 基于Grassmann 流形的骨架表示.

        假設(shè)每個(gè)動(dòng)作樣本有T幀骨架圖, 每副骨架上標(biāo)記了N個(gè)關(guān)節(jié)點(diǎn)的位置. Slama 等[32]首先將一個(gè)動(dòng)作描述為關(guān)節(jié)點(diǎn)3D 位置的時(shí)間序列矩陣, 即F= [p(1),p(2),··· ,p(T)], 其中p(t) = [x1(t),y1(t),z1(t),··· ,xN(t),yN(t),zN(t)]T∈R3N,t= 1,2,··· ,T是第t幀骨架圖中所有關(guān)節(jié)點(diǎn)位置的集合, 再采用ARMA (auto-regressive moving average)模型[42]來(lái)捕捉骨架序列矩陣F的動(dòng)態(tài)變化過(guò)程, 即構(gòu)建線性動(dòng)力系統(tǒng)

        式中:h ∈Rd是隱藏狀態(tài)向量;A ∈Rd×d是過(guò)渡矩陣;C ∈R3N×d是度量矩陣;w和u分別是服從均值為0, 協(xié)方差矩陣為R ∈R3N×3N和Q ∈Rd×d的正態(tài)分布. 該工作通過(guò)對(duì)骨架序列矩陣F進(jìn)行奇異值分解(singular value decomposition, SVD), 最終求得模型參數(shù)(A,C).由于比較兩個(gè)骨架序列的ARMA 模型可以轉(zhuǎn)換為直接比較它們的觀測(cè)矩陣, 因此作者采用有限觀測(cè)矩陣(finite observability matrix)[43]:

        記有限觀測(cè)矩陣θTm ∈R3mN×d的列向量張成的子空間為U, 該子空間恰好對(duì)應(yīng)于Grassmann流形上的一個(gè)點(diǎn). 骨架序列之間的相似度就可以通過(guò)Grassmann 流形上兩個(gè)子空間之間的距離來(lái)度量. 假設(shè)U1和U2是Grassmann 流形G(d,D)上的兩個(gè)子空間, 二者之間的測(cè)地距離為

        式中:θi是主角向量, 可以通過(guò)U1TU2的SVD 分解得到.

        Hong 等[33]采用了與文獻(xiàn)[32]相同的方法, 將動(dòng)作骨架序列建模為線性動(dòng)力系統(tǒng), 然后將線性動(dòng)力系統(tǒng)的觀測(cè)矩陣映射到Grassmann 流形上, 該項(xiàng)工作的目的在于數(shù)據(jù)增強(qiáng). 另外, 該工作提出的VGM (variant Grassmann manifolds)方法, 將Y個(gè)動(dòng)作骨架序列的子空間表示為U1,U2,··· ,UY, 對(duì)應(yīng)的黎曼流形為G(d1,D),G(d2,D),··· ,G(dY,D), 其中d1到dY小于滿秩子空間U的秩d. 定義從Grassmann 流形到對(duì)稱矩陣空間的投影映射為

        對(duì)每個(gè)子空間U, 定義α ∈{0,1}m來(lái)選擇子空間的基, 那么每個(gè)動(dòng)作訓(xùn)練樣本可以得到Y(jié)個(gè)累加表示, 即

        式中: 1 表示元素全為1 的向量;Gαi表示按向量αi選擇該子空間上的基.

        (3) 基于肯德?tīng)栃螤羁臻g的骨架表示.

        Amor 等[35]將骨架序列表示成肯德?tīng)栃螤羁臻g上的軌跡. 肯德?tīng)栃螤羁臻g是一種黎曼流形, 能夠表示Rd(d= 2 或3)上N個(gè)地標(biāo)點(diǎn)的形狀, 并且在不同變換下建立與形狀保持相等的等價(jià)關(guān)系, 這些變換包括平移、旋轉(zhuǎn)和全局縮放[44]. 在骨架表示方法中, 3D骨架的關(guān)節(jié)點(diǎn)就是R3上的地標(biāo)點(diǎn). 具體地, 令X ∈RN×d表示一副骨架形狀,N為關(guān)節(jié)點(diǎn)數(shù)量,d為坐標(biāo)維度. 為了保持形狀平移不變性, Amor 等[35]采用了(N-1)×N的Helmert 半矩陣H, 用于對(duì)齊形狀中心. Helmert 半矩陣H的第j行元素為(hj,··· ,hj,-jhj,0,··· ,0), 其中hj={-j(j+1)}-1/2,j=1,2,··· ,N-1. 例如, 當(dāng)N=3 時(shí),

        對(duì)任意X ∈RN×d,HX ∈R(N-1)×d, 形狀集合記為

        為了保持縮放不變性, 定義了一個(gè)預(yù)形狀空間

        (4) 基于SPD 流形的骨架表示.

        SPD 流形也是常用的骨架表示空間. 給定一個(gè)動(dòng)作樣本, 有T幀骨架圖, 每幀骨架圖上有N個(gè)關(guān)節(jié)點(diǎn). 令第t幀骨架圖中所有關(guān)節(jié)點(diǎn)位置向量為

        f(t)中共有3N個(gè)元素. Harandi 等[36]采用關(guān)節(jié)點(diǎn)協(xié)方差算子[37]

        (5) 基于半正定錐的骨架表示.

        Kacem 等[38]基于3D 關(guān)節(jié)點(diǎn)矩陣的Gramian 矩陣, 將骨架序列表示為半正定矩陣錐上的軌跡. 假設(shè)一個(gè)動(dòng)作的骨架序列為{X0,X1,··· ,XT}, 每副骨架Xi(0 ≤i≤T)是一個(gè)秩為d(d= 2 或d= 3)的N×d矩陣,N為關(guān)節(jié)點(diǎn)的數(shù)量. 作者選擇形狀之間的成對(duì)距離矩陣作為一種形狀表示. 為了便于處理, 該工作考慮距離的平方矩陣, 同時(shí)將骨架的質(zhì)心平移到坐標(biāo)原點(diǎn). 假設(shè)li,i= 1,2,··· ,N為新坐標(biāo)系下的關(guān)節(jié)點(diǎn)坐標(biāo),l0= (0,0)(d= 2) 或者l0=(0,0,0)(d=3)時(shí), 成對(duì)距離矩陣D的形式為

        式中:‖·‖表示L2內(nèi)積〈·,·〉誘導(dǎo)的范數(shù). 該成對(duì)距離矩陣D可以由N×N的Gram 矩陣計(jì)算獲得. 事實(shí)上, Gram 矩陣G中的元素是點(diǎn)l1,l2,··· ,lN之間成對(duì)的內(nèi)積:

        成對(duì)距離矩陣D中的元素

        因此, Gram 矩陣集合和成對(duì)距離矩陣之間可以建立線性等價(jià)關(guān)系, 從而將骨架映射到半正定錐上. 同時(shí), Kacem 等[38]提出了Gram 矩陣之間的偽測(cè)地線計(jì)算方法, 從而將整個(gè)骨架序列表示為半正定錐上的軌跡.

        1.2 軌跡時(shí)間對(duì)齊

        基于流形假設(shè)的動(dòng)作識(shí)別算法中, 一項(xiàng)重要挑戰(zhàn)就是軌跡的時(shí)間錯(cuò)位問(wèn)題. 通過(guò)骨架表示, 我們可以得到位于不同流形上的軌跡, 并利用流形幾何計(jì)算工具來(lái)分析、度量和比較軌跡.動(dòng)作的執(zhí)行速率會(huì)直接影響軌跡的度量和比較結(jié)果. 所謂動(dòng)作的執(zhí)行速率, 就是動(dòng)作完成的快慢. 例如, 兩位演員執(zhí)行一個(gè)相同的動(dòng)作. 如果一位演員前半部分動(dòng)作執(zhí)行得很慢, 后半部分動(dòng)作執(zhí)行得很快, 而另外一位演員剛好相反, 那么即便是相同的動(dòng)作, 最后采集的數(shù)據(jù)幀也會(huì)存在動(dòng)作不一致的情況. 如圖6 所示, 第一行動(dòng)作的執(zhí)行速度明顯快于第二行, 導(dǎo)致對(duì)應(yīng)幀的骨架圖并不一致, 這就是時(shí)間錯(cuò)位問(wèn)題.

        圖6 揮手動(dòng)作骨架序列的時(shí)間錯(cuò)位Fig.6 Temporal misalignment of the skeletal sequences for the hand-raising action

        解決時(shí)間錯(cuò)位問(wèn)題的方法主要分為兩種: DTW[45]和TSRVF 表示方法[41].

        (1) 基于DTW 算法的軌跡時(shí)間對(duì)齊.

        DTW 算法是一種時(shí)間魯棒性較強(qiáng)的算法, 它的基本思想是基于動(dòng)態(tài)規(guī)劃方法, 將復(fù)雜的全局最優(yōu)化問(wèn)題拆分成多個(gè)局部最優(yōu)問(wèn)題, 該算法通過(guò)計(jì)算時(shí)間長(zhǎng)度不同的兩序列間的最優(yōu)匹配路徑, 來(lái)對(duì)不同序列進(jìn)行時(shí)間規(guī)整. 假設(shè)一個(gè)樣本動(dòng)作軌跡為P={p1,p2,··· ,pS}, 待匹配的動(dòng)作軌跡為Q={q1,q2,··· ,qT}, 其中S /=T,ps(i= 1,2,··· ,S),qt(j= 1,2,··· ,T)為兩個(gè)動(dòng)作軌跡上的離散點(diǎn). DTW 算法通過(guò)計(jì)算這兩條軌跡之間的最優(yōu)匹配路徑, 將待匹配動(dòng)作軌跡上的離散點(diǎn)與樣本動(dòng)作軌跡進(jìn)行對(duì)齊. 全局匹配距離L可由

        求得, 其中d(pS(k),qT(k)) 為兩條動(dòng)作軌跡對(duì)應(yīng)離散點(diǎn)的匹配距離;N是匹配點(diǎn)對(duì)的數(shù)目.DTW 算法能夠自動(dòng)搜索最優(yōu)匹配路徑使得L最小.當(dāng)二者距離小于設(shè)定的閾值δ時(shí), 獲得最終的對(duì)齊模板, 并采用DTW 算法進(jìn)行最后一次對(duì)齊.

        在文獻(xiàn)[27]中, Vemulapalli 等[27]首先將骨架序列表示為李群SO(3)×···×SO(3)上的軌跡, 然后運(yùn)用DTW 算法進(jìn)行時(shí)間對(duì)齊. 不同于文獻(xiàn)[26]中的方法, 作者在DTW 算法中采用了兩種距離度量方式. 第一種是歐氏距離, 先將動(dòng)作軌跡映射到李代數(shù)上, 然后采用文獻(xiàn)[26]中相同的計(jì)算步驟, 獲取對(duì)齊模板. 除此之外, 在文獻(xiàn)[27]中更新對(duì)齊模板時(shí), 并沒(méi)有直接對(duì)李代數(shù)進(jìn)行線性平均, 而是采用Karcher 均值算法更新對(duì)齊模板. 第二種是直接采用SO(3)上定義的測(cè)地距離

        式中:R0,R1∈SO(3);‖·‖F(xiàn)是Frobenius 范數(shù). 更新對(duì)齊模板時(shí), 同樣采取了Karcher 均值算法. 作者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn), DTW 算法結(jié)合SO(3)上的測(cè)地距離, 對(duì)最后的分類結(jié)果并沒(méi)有顯著改善.

        Kacem 等[38]在半正定矩陣錐上定義了軌跡的相似性度量

        式中:S+表示半正定錐;、是半正定錐上的兩條軌跡;γ*(t)是最優(yōu)時(shí)間規(guī)整;dS+為兩條軌跡之間的偽測(cè)地距離. DTW 算法采用該相似性度量進(jìn)行軌跡時(shí)間對(duì)齊.

        (2) 基于TSRVF 表示的軌跡時(shí)間對(duì)齊.

        Su 等[41]首次提出將TSRVF 表示方法用于軌跡的統(tǒng)計(jì)分析. TSRVF 的定義是一種平行移動(dòng), 即將一條光滑軌跡的縮放速度向量場(chǎng)平行移動(dòng)到一個(gè)參考點(diǎn)處, 用公式表示為

        式中:β為流形上的光滑軌跡;c是流形上的參考點(diǎn);M是黎曼流形;|·|是黎曼流形上的黎曼度量; 最終得到的hβ就是TSRVF. 不同軌跡的TSRVF 之間的距離定義為

        式中: 距離dh是標(biāo)準(zhǔn)的L2范數(shù), 滿足對(duì)稱性、正定性以及三角不等式.

        假設(shè)兩條流形上的光滑軌跡β1、β2,γ是時(shí)間規(guī)整,即γ:[0,1]→[0,1],γ(0)=0,γ(1)=1.軌跡對(duì)(β1,β2)和(β1°γ,β2°γ)的匹配點(diǎn)完全相同,但是兩對(duì)軌跡之間的距離卻不同.TSRVF框架對(duì)軌跡的速率不變性進(jìn)行分析時(shí), 希望得到一個(gè)在相同時(shí)間規(guī)整下, 保持距離不變的度量. 上述定義的TSRVFs 之間距離dh恰好滿足這一條件, 即dh(hβ1°γ,hβ2°γ) =dh(hβ1,hβ2).此外, TSRVF 表示方法還定義了軌跡等價(jià)類之間的距離

        式中:γ1、γ2是不同的時(shí)間規(guī)整. TSRVF 表示方法解決軌跡的時(shí)間錯(cuò)位問(wèn)題, 即尋找一個(gè)最優(yōu)匹配γ*, 對(duì)任意δ >0, 使得

        該目標(biāo)函數(shù)可通過(guò)動(dòng)態(tài)規(guī)劃(dynamic programming, DP)算法進(jìn)行求解.γ*最后的取值可能并不唯一, 但任意一個(gè)滿足條件的γ*都可以達(dá)到最優(yōu)匹配的結(jié)果.

        DTW 算法在解決時(shí)間錯(cuò)位問(wèn)題時(shí), 采用定義在骨架表示空間上的度量, 多為歐氏距離或者相似性度量. 前者不便擴(kuò)展到非歐空間, 后者并不是合適的距離度量. 因此, TSRVF 表示方法廣泛應(yīng)用于軌跡時(shí)間對(duì)齊. Amor 等[35]先將骨架序列表示成肯德?tīng)栃螤羁臻g的軌跡, 再根據(jù)TSRVF 的定義來(lái)對(duì)齊軌跡, 具體如下: 首先定義用于對(duì)齊的模板軌跡, 給定J條軌跡β1(t),β2(t),··· ,βJ(t),t=0,1,··· ,T, 初始化對(duì)齊模板βμ(t)=β1(t). 根據(jù)以下3 個(gè)公式更新對(duì)齊模板, 即

        Anirudh 等[31]首先將骨架序列表示成李群上的軌跡, 然后采用軌跡Karcher 均值計(jì)算方法[41]得到模板軌跡. 具體如下: 給定J條軌跡β1(t),β2(t),··· ,βJ(t),t= 0,1,··· ,T; 第一步, 隨機(jī)初始化Karcher 均值軌跡βμ(t) =β1(t), 計(jì)算該軌跡的TSRVF 為hβμ; 第二步, 根據(jù)式(3), 將每條動(dòng)作軌跡的TSRVFhβj匹配到hβμ上, 由動(dòng)態(tài)規(guī)劃算法找出最優(yōu)匹配γ*j, 對(duì)齊后的軌跡為~βj=βj °γ*j; 第三步, 計(jì)算對(duì)齊后軌跡的TSRVFh~βj,j=1,2,··· ,J, 并且根據(jù)

        更新模板的hβμ; 第四步, 根據(jù)模板軌跡的初始條件βμ(0)=β1(0), 對(duì)

        進(jìn)行積分求解, 從而對(duì)模板軌跡βμ(t)進(jìn)行更新, 其中c →βμ(t)表示將hβμ(t)從參考點(diǎn)c平行移動(dòng)到βμ(t). 軌跡進(jìn)行時(shí)間對(duì)齊后, 每條軌跡的TSRVF 應(yīng)該與模板軌跡的TSRVF 更加接近. 因此, 整個(gè)更新過(guò)程的目標(biāo)函數(shù)可以表達(dá)為

        當(dāng)Obj 小于給定的超參數(shù)δ時(shí), 算法達(dá)到收斂. 最后, 根據(jù)算法第二步, 將所有動(dòng)作軌跡與模板軌跡進(jìn)行時(shí)間對(duì)齊.

        1.3 動(dòng)作序列表征

        對(duì)軌跡進(jìn)行時(shí)間對(duì)齊之后, 需要提取合適的特征來(lái)對(duì)動(dòng)作序列進(jìn)行表征. 通常用于動(dòng)作序列表征的有李代數(shù)、局部切叢(local tangent bundle, LTB)、稀疏系數(shù)向量、軌跡的TSRVF 和正交投影向量、射擊向量的歐氏編碼系數(shù)以及軌跡的相似性矩陣.

        (1) 基于李代數(shù)的動(dòng)作序列表征.

        Vemulapalli 等[26]將骨架序列表示為李群SE(3)×···×SE(3)上的軌跡ξ(t) = (P1,2(t),P2,1(t),··· ,PM-1,M(t),PM,M-1(t)), 為了便于分類, 將軌跡映射到李代數(shù)上. 李代數(shù)是李群?jiǎn)挝辉幍那锌臻g, 用李代數(shù)來(lái)表征動(dòng)作序列, 可以記為

        式中: vec 表示將李代數(shù)用向量表示. 在任意時(shí)刻t, C(t) 是6M(M-1) 維的向量. 之后,Vemulapalli 等[27]采用李群SO(3)×···×SO(3)的李代數(shù)來(lái)表征動(dòng)作序列. 與文獻(xiàn)[26]中不同之處在于, C(t)的維度為3M(M-1), 該動(dòng)作表征利用了李群上自然、有效的幾何計(jì)算方法,在實(shí)驗(yàn)中取得了良好表現(xiàn), 但僅考慮了單個(gè)動(dòng)作軌跡的特征, 并沒(méi)有度量不同軌跡之間的距離.

        (2) 基于局部切叢的動(dòng)作序列表征.

        Slama 等[32]將骨架序列表示為Grassmann 流形上的點(diǎn), 并提出了局部切叢的概念. 假定有N個(gè)動(dòng)作類別. 作者首先采用Karcher 均值算法, 計(jì)算每類動(dòng)作的平均μi,i= 1,2,··· ,N.局部切叢就是通過(guò)對(duì)數(shù)映射, 計(jì)算每個(gè)數(shù)據(jù)點(diǎn)映射到每個(gè)動(dòng)作類別Karcher 均值點(diǎn)的切向量. 最后, 每個(gè)動(dòng)作序列就可以用一個(gè)向量矩陣進(jìn)行表征. 如圖7 所示,μ1、μ2、μ3為三類動(dòng)作的Karcher 均值中心,Tμ1、Tμ2、Tμ3為每類動(dòng)作Karcher 均值中心的切空間; 棕色點(diǎn)為Grassmann 流形上的一個(gè)數(shù)據(jù)點(diǎn), 黑色虛線表示從數(shù)據(jù)點(diǎn)映射到每類動(dòng)作Karcher 均值中心的過(guò)程, 最終得到的表征結(jié)果用紅、藍(lán)、綠3 種顏色表示. 比起考慮單個(gè)數(shù)據(jù)點(diǎn)的切空間, 該表征更加注重比較數(shù)據(jù)點(diǎn)之間的距離. 然而, 對(duì)數(shù)映射在度量?jī)蓚€(gè)數(shù)據(jù)點(diǎn)之間的距離時(shí), 可能會(huì)產(chǎn)生扭曲, 尤其是當(dāng)兩個(gè)數(shù)據(jù)點(diǎn)相距較遠(yuǎn)時(shí), 會(huì)對(duì)最終提取的LTB 的有效性產(chǎn)生影響.

        圖7 動(dòng)作序列的LTB表征[30]Fig.7 LTB characterization of action sequences[30]

        (3) 基于稀疏系數(shù)向量的動(dòng)作序列表征.

        Harandi 等[36]將骨架序列映射到SPD 流形上, 并采用稀疏編碼和字典學(xué)習(xí), 找到一組動(dòng)作序列的字典矩陣. 每一個(gè)動(dòng)作都可以由字典矩陣與一個(gè)稀疏系數(shù)向量相乘得到.因此, 該稀疏系數(shù)向量就可以用于表征動(dòng)作序列. 具體地, 在SPD 流形Sn++上, 令X={X1,X2,··· ,XN},Xi ∈Sn++為黎曼字典,φ:Sn++→H為嵌入函數(shù). 現(xiàn)給定一個(gè)黎曼點(diǎn)x,需要尋找一個(gè)稀疏向量y ∈RN, 使得φ(X)可以由{φ(X1),φ(X2),··· ,φ(XN)}稀疏表示. 換句話說(shuō), 該稀疏表示的目標(biāo)函數(shù)為

        最終求解得出的稀疏向量y即可用來(lái)表征動(dòng)作序列.

        Tanfous 等[34]將骨架序列映射到肯德?tīng)栃螤羁臻gS中, 該工作同樣采用稀疏表示和字典學(xué)習(xí), 找到一組字典矩陣. 不同的是, 該工作通過(guò)最小化每個(gè)動(dòng)作序列到所有字典矩陣元素的測(cè)地距離, 得到每個(gè)動(dòng)作序列的稀疏系數(shù)向量表征. 具體地, 現(xiàn)有黎曼字典X={X1,X2,··· ,XN},Xi ∈S, 給定一個(gè)數(shù)據(jù)點(diǎn)x ∈S, 定義S上的測(cè)地距離為dS(x,Xi)=‖logxXi‖x. 因此, 目標(biāo)函數(shù)為

        該表征采用的并不是切空間的向量表示, 而是利用稀疏編碼和字典學(xué)習(xí)提取有用的信息特征,進(jìn)而對(duì)動(dòng)作序列進(jìn)行表征.

        (4) 基于軌跡的TSRVF 和正交投影向量的動(dòng)作序列表征.

        Amor 等[35]首先將骨架序列表示為肯德?tīng)栃螤羁臻gS上的軌跡. 由式(2)可知, 一條軌跡β(t)的TSRVF 是關(guān)于時(shí)間t的導(dǎo)數(shù), 由軌跡上連續(xù)點(diǎn)之間的射擊向量組成(見(jiàn)圖8), 即

        圖8 軌跡上點(diǎn)到點(diǎn)的射擊向量Fig.8 Point-to-point shooting vector on the trajectory

        Amor 等[35]發(fā)現(xiàn), 用β(t+δ),δ= 2,3,···, 代替β(t+1)可以提高最后的分類結(jié)果, 于是將篩選出的TSRVF 記為hβ,δ(t), 同時(shí)將每條動(dòng)作軌跡的TSRVF 映射到一組正交基F上, 由此可以得到一組投影系數(shù)向量cβ,δ(t), 最后, 每個(gè)動(dòng)作序列可以由該動(dòng)作軌跡的hβ,δ(t)和cβ,δ(t)級(jí)聯(lián)來(lái)進(jìn)行表征. 該工作采用了兩種向量特征,hβ,δ(t)考慮的是單條動(dòng)作軌跡的特征, 投影系數(shù)cβ,δ(t) 則考慮軌跡之間的相互表示, 因此, 動(dòng)作序列表征更加豐富.

        (5) 基于射擊向量矩陣的歐氏編碼系數(shù)的動(dòng)作序列表征.

        Anirudh 等[31]將骨架序列表示為李群SE(3)×···×SE(3)上的軌跡, 并采用軌跡的Karcher 均值方法求取平均軌跡, 將每條動(dòng)作軌跡與平均軌跡對(duì)齊之后, 提出采用射擊向量來(lái)表征動(dòng)作序列. 如圖9 所示, 射擊向量是切向量, 它在τ= 0 時(shí)刻從平均軌跡βμ(t)出發(fā), 在τ= 1 時(shí)刻到達(dá)動(dòng)作軌跡βi(t). 具體地, 在t時(shí)刻, 平均軌跡βμ(t)到對(duì)齊后的動(dòng)作軌跡~βi(t)的射擊向量為

        假設(shè)動(dòng)作序列共有T幀骨架圖, 射擊向量矩陣為

        此外, Anirudh 等[31]為了達(dá)到降維的目的, 采用了歐氏編碼函數(shù)K: RD →Rd, 其中d ?D.對(duì)射擊向量矩陣進(jìn)行歐氏編碼, 最終得到[A,B] =K(V). 因此, 每個(gè)動(dòng)作序列可用編碼系數(shù)[A,B]表征. 該動(dòng)作序列表征方法的優(yōu)勢(shì)在于, 如果歐氏編碼函數(shù)是可逆的, 那么也可以通過(guò)最后的編碼系數(shù)重構(gòu)出動(dòng)作軌跡.

        (6) 基于軌跡相似性矩陣的動(dòng)作序列表征.

        Kacem 等[38]在半正定錐S+上提出偽測(cè)地線(pseudo-geodesic)的計(jì)算方式, 從而將骨架序列表示成半正定錐上的軌跡. 為了表征動(dòng)作序列, 根據(jù)式(1)定義的軌跡相似性度量, 計(jì)算每條動(dòng)作軌跡的相似性矩陣. 具體地, 令潛在流形上的時(shí)間參數(shù)化軌跡集合為T(mén)=βG:[0,1]→S+. 給定m條軌跡β1G,β2G,··· ,βmG, 定義兩條軌跡β1G,β2G ∈T之間的相似性函數(shù)PT:T×T →R+:

        對(duì)任意一條軌跡βG ∈T, 定義映射

        φ(βG)∈Rm即為軌跡的相似性矩陣, 可以用于表征動(dòng)作序列, 該表征考慮了軌跡之間的比較和度量, 但缺乏對(duì)單條軌跡的特征分析.

        1.4 動(dòng)作分類

        動(dòng)作序列表征過(guò)程中提取的特征可以作為動(dòng)作分類的輸入數(shù)據(jù), 選擇合適的動(dòng)作分類器有助于提高最終的分類結(jié)果. 目前大部分工作的分類方法都是基于SVM 的. Vemulapalli等[26-27]采用One-vs-all 線性SVM 來(lái)分類動(dòng)作, 即在分類時(shí), 選擇其中某一類動(dòng)作為第一類,余下所有動(dòng)作為第二類, 訓(xùn)練一個(gè)二分類SVM. One-vs-all 線性SVM 同時(shí)訓(xùn)練N個(gè)二分類SVM, 其中N為動(dòng)作類別數(shù)目. 同樣采用線性SVM 的工作還有文獻(xiàn)[31-32,34-36]. Wang等[6]采用非線性SVM 分類器來(lái)分類特征, 由于最終表征動(dòng)作序列的是一個(gè)協(xié)方差矩陣, 故將SPD 矩陣空間常用的核函數(shù)log-Euclidean 核應(yīng)用到SVM 分類器中. Xu 等[28]提出了一種PSO 算法來(lái)優(yōu)化SVM. PSO 算法可以根據(jù)實(shí)際情況快速動(dòng)態(tài)地平衡自適應(yīng)粒子, 準(zhǔn)確找到支持向量機(jī)的最優(yōu)參數(shù). 通過(guò)優(yōu)化懲罰參數(shù)和核半徑參數(shù), 最小化SVM 誤差, 從而使優(yōu)化后的SVM 可以進(jìn)行更好的分類. Kacem 等[38]提出了PPF SVM 用于分類特征, 該分類器的策略實(shí)際上涉及輸入的構(gòu)造, 即計(jì)算每條軌跡到其余所有軌跡的相似性度量, 最后將常規(guī)的SVM 應(yīng)用到計(jì)算得到的數(shù)據(jù)上. 除了SVM 分類器外, 最近鄰分類方法也被用于動(dòng)作分類[35].

        2 實(shí)驗(yàn)結(jié)果及分析

        2.1 基準(zhǔn)數(shù)據(jù)集

        下面介紹3 個(gè)常用的動(dòng)作識(shí)別數(shù)據(jù)集: Florence3D-Action 數(shù)據(jù)集[46]、UTKinect-Action數(shù)據(jù)集[47]和MSR-Action3D 數(shù)據(jù)集[48].

        (1) Florence3D Action 數(shù)據(jù)集.

        Florence3D Action 是2012 年在佛洛倫薩大學(xué)使用Kinect 相機(jī)采集的數(shù)據(jù)集. 它包含215 個(gè)動(dòng)作序列,每個(gè)動(dòng)作序列采集的幀數(shù)為8~35 幀,分別由10 位演員執(zhí)行9 個(gè)動(dòng)作:“wave”“drink” “answer phone” “clap” “tight lace” “sit down” “stand up” “read watch”以及“bow”.每位演員重復(fù)每個(gè)動(dòng)作2 到3 次. 每幀骨架上包含15 個(gè)關(guān)節(jié)點(diǎn), 展示了Florence3D 數(shù)據(jù)集中動(dòng)作“bow”的部分骨架序列(見(jiàn)圖10).

        圖10 Florence3D數(shù)據(jù)集中, 動(dòng)作“bow”的部分骨架序列Fig.10 Part of the skeletal sequences of the action “bow” in the Florence3D Action dataset

        (2) UTKinect Action 數(shù)據(jù)集.

        UTKinect Action 是2012 年使用單個(gè)靜態(tài)Kinect 相機(jī)采集的數(shù)據(jù)集. 它由199 個(gè)動(dòng)作序列組成, 每個(gè)動(dòng)作序列采集的幀數(shù)為5~74 幀, 分別由10 位演員執(zhí)行10 個(gè)動(dòng)作: “walk”“sit down”“stand up”“pick up”“carry”“throw”“push”“pull”“wave hands” 以及“clap hands”. 每個(gè)動(dòng)作重復(fù)執(zhí)行兩次. 每幀骨架上包含20個(gè)關(guān)節(jié)點(diǎn). 這個(gè)數(shù)據(jù)集的挑戰(zhàn)性在于, 所有的動(dòng)作序列并不是在同一視角下捕捉到的. 圖11(a)和(b)雖然都是動(dòng)作“walk”的骨架序列, 但是視角完全相反, 因此在處理該數(shù)據(jù)集時(shí), 必須克服視角變換的差異.

        圖11 UTKinect 數(shù)據(jù)集中動(dòng)作“walk”在兩個(gè)視角下的部分骨架序列Fig.11 Part of the skeletal sequences of the action “walk” in the two perspectives in the UTKinect Action dataset

        (3) MSR-Action3D 數(shù)據(jù)集.

        MSR-Action3D 是2010 年由一個(gè)與Kinect 類似的深度傳感器采集的數(shù)據(jù)集. 它包含557個(gè)動(dòng)作序列, 每個(gè)動(dòng)作序列采集的幀數(shù)為24~59 幀, 分別由10 位演員執(zhí)行20 個(gè)動(dòng)作: “high arm wave”“horizontal arm wave”“hammer”“hand catch”“forward punch”“high throw”“draw X”“draw tick”“draw circle”“hand clap”“two hand wave”“side boxing”“bend”“forward kick”“side kick”“jogging”“tennis swing”“tennis serve”“golf swing”以及“pick up and throw”. 每個(gè)動(dòng)作重復(fù)執(zhí)行2 到3 次. 每幀骨架上包含20 個(gè)關(guān)節(jié)點(diǎn), 骨架序列從左到右, 展示了動(dòng)作“high arm wave”的部分骨架序列(見(jiàn)圖12).

        圖12 MSR-Action3D 數(shù)據(jù)集中動(dòng)作“high arm wave”的部分骨架序列Fig.12 Part of the skeletal sequences of the action “high arm wave” in the MSR-Action3D dataset

        2.2 實(shí)驗(yàn)結(jié)果

        由表1~3 可知, 在這3 個(gè)基準(zhǔn)數(shù)據(jù)集上, Tanfous 等[34]的工作均取得了最高的動(dòng)作識(shí)別正確率, 在Florence3D Action 數(shù)據(jù)集上, 實(shí)驗(yàn)結(jié)果達(dá)到了94.48%, 比第二名Vemulapalli 等[27]取得的結(jié)果高出了3.08%, 比第三名Xu 等[28]取得的結(jié)果高出3.28%. 在UTKinect Action 數(shù)據(jù)集上, Tanfous 等[34]的實(shí)驗(yàn)結(jié)果為98.49%, 與Kacem 等[38]的實(shí)驗(yàn)結(jié)果相同, 并列第一. Xu等[28]的實(shí)驗(yàn)結(jié)果達(dá)到了97.45%, 比最優(yōu)結(jié)果低1.04%. 在MSR-Action3D 數(shù)據(jù)集上, Tanfous等[34]的實(shí)驗(yàn)結(jié)果達(dá)到了94.19%, Xu 等[28]的實(shí)驗(yàn)結(jié)果達(dá)到了93.75%, 二者相差0.44%, 后者位列第二.

        表1 基于流形假設(shè)的動(dòng)作識(shí)別方法在Florence3D Action 數(shù)據(jù)集上的表現(xiàn)Table 1 Performance on Florence3D Action dataset of action recognition method based on manifold assumption

        表2 基于流形假設(shè)的動(dòng)作識(shí)別方法在UTKinect Action 數(shù)據(jù)集上的表現(xiàn)Table 2 Performance on UTKinect Action dataset of action recognition method based on manifold assumption

        表3 基于流形假設(shè)的動(dòng)作識(shí)別方法在MSR-Action3 數(shù)據(jù)集上的表現(xiàn)Table 3 Performance on MSR-Action3D dataset of action recognition method based on manifold assumption

        2.3 結(jié)果分析

        Tanfous 等[34]提出將骨架序列表示為肯德?tīng)栃螤羁臻g上的軌跡. 該骨架表示方法能夠在剛體變換下維持骨架形狀的不變性, 具有良好的魯棒性. 此外, 由于該骨架表示直接對(duì)關(guān)節(jié)點(diǎn)的位置進(jìn)行編碼, 得到的動(dòng)作軌跡保留了更多的位置信息. 該工作還采用了稀疏編碼和字典學(xué)習(xí)算法, 對(duì)骨架序列的有效特征進(jìn)行提取. 因此該方法在各個(gè)數(shù)據(jù)集上均取得了優(yōu)異表現(xiàn).

        Vemulapalli 等[27]與Xu 等[28]采用的是基于李群的骨架表示. Vemulapalli 等[27]對(duì)身體骨骼之間的相對(duì)旋轉(zhuǎn)進(jìn)行編碼, 并且提出將滾動(dòng)映射與對(duì)數(shù)映射相結(jié)合, 克服了對(duì)數(shù)映射在求取李代數(shù)時(shí)易產(chǎn)生扭曲的問(wèn)題. 滾動(dòng)映射將李群上的軌跡展平, 確保當(dāng)兩條軌跡相近時(shí), 它們的李代數(shù)也保持相近. 因此, 該方法最終使得表征動(dòng)作序列的李代數(shù)更加有效, 分類效果更好.Xu 等[28]同時(shí)對(duì)骨骼之間的相對(duì)旋轉(zhuǎn)平移進(jìn)行編碼, 該工作在Florence3D Action 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果低于Vemulapalli 等結(jié)果的0.2%. 這是因?yàn)樵摴ぷ鞯闹饕暙I(xiàn)在于提出粒子群優(yōu)化算法來(lái)優(yōu)化SVM 分類器, 從而提高動(dòng)作的分類正確率, 并未對(duì)提取的動(dòng)作特征進(jìn)行進(jìn)一步優(yōu)化. 由于基于李群的骨架表示主要對(duì)身體骨骼之間的相對(duì)幾何進(jìn)行編碼, 最后得到的動(dòng)作軌跡是不可逆的, 即僅根據(jù)骨骼之間的相對(duì)幾何, 無(wú)法得到關(guān)節(jié)點(diǎn)的位置信息. 此外, 由于相似動(dòng)作的骨架會(huì)有一定程度的相像, 僅憑骨骼之間的相對(duì)位置很難進(jìn)行判別, 因此, 基于李群的骨架表示對(duì)于相似動(dòng)作的識(shí)別正確率通常相對(duì)較低.

        Kacem 等[38]采用的是基于半正定錐的骨架表示. 該骨架表示用關(guān)節(jié)點(diǎn)成對(duì)距離矩陣來(lái)刻畫(huà)骨架形狀, 并通過(guò)Gram 矩陣來(lái)建立骨架到半正定錐的映射. 這種骨架表示方法的優(yōu)勢(shì)在于它同時(shí)對(duì)關(guān)節(jié)點(diǎn)位置的空間協(xié)方差進(jìn)行編碼, 對(duì)于動(dòng)作幅度較大的動(dòng)作, 能夠得到更加精確的表征, 但在處理精細(xì)動(dòng)作時(shí), 往往識(shí)別正確率不高. 因此, 該方法在UTKinect Action數(shù)據(jù)集上取得的結(jié)果排名第一, 但在Florence3D Action 數(shù)據(jù)集上卻排名第六, 它在識(shí)別動(dòng)作“answering phone”時(shí)正確率僅為68.2%, “reading watch”識(shí)別正確率為73.9%.

        3 基于骨架序列的動(dòng)作識(shí)別算法應(yīng)用

        3.1 醫(yī)療康復(fù)領(lǐng)域

        基于骨架序列的動(dòng)作識(shí)別算法在醫(yī)療健康領(lǐng)域有著重要的研究意義. 每年全球有數(shù)百萬(wàn)的中風(fēng)患者因運(yùn)動(dòng)功能下降而致殘, 這嚴(yán)重限制了一個(gè)人日?;顒?dòng)的能力. 近十年來(lái), 康復(fù)系統(tǒng)的發(fā)展開(kāi)始幫助中風(fēng)患者恢復(fù)部分運(yùn)動(dòng)功能. Chen 等[49]開(kāi)發(fā)的中風(fēng)康復(fù)系統(tǒng)(見(jiàn)圖13), 其中白色球?yàn)椴杉瘎?dòng)作信息的傳感器. 該系統(tǒng)使用14 個(gè)標(biāo)記點(diǎn)來(lái)分析和研究患者的運(yùn)動(dòng), 例如,伸手和抓握, 評(píng)價(jià)指標(biāo)通常是由治療師提供的運(yùn)動(dòng)質(zhì)量評(píng)分, 如Wolf 運(yùn)動(dòng)功能測(cè)試. Anirudh等[31]結(jié)合該中風(fēng)康復(fù)系統(tǒng), 對(duì)中風(fēng)患者的運(yùn)動(dòng)質(zhì)量進(jìn)行預(yù)測(cè). 他們采集了19 名中風(fēng)患者多次重復(fù)伸展和抓握的動(dòng)作, 每個(gè)動(dòng)作共有14 個(gè)標(biāo)記點(diǎn), 并讓治療師給出每個(gè)動(dòng)作的WMFT評(píng)分. 該工作將每個(gè)動(dòng)作表示為李群SE(3)×···×SE(3)上的軌跡, 然后根據(jù)TSRVF 算法進(jìn)行軌跡時(shí)間對(duì)齊, 并采用射擊向量的歐氏系數(shù)編碼進(jìn)行動(dòng)作表征. 最后, 將動(dòng)作分類問(wèn)題轉(zhuǎn)化為WMFT 評(píng)分的預(yù)測(cè)問(wèn)題, ground truth為治療師給出的WMFT 評(píng)分. 實(shí)驗(yàn)結(jié)果與真實(shí)WMFT 評(píng)分的相關(guān)度最高達(dá)到了97.84%. 這項(xiàng)工作可以協(xié)助醫(yī)生對(duì)中風(fēng)患者的康復(fù)狀況進(jìn)行評(píng)估, 具有重大的醫(yī)療意義.

        圖13 中風(fēng)康復(fù)系統(tǒng)[49]Fig.13 Stroke rehabilitation system[49]

        3.2 監(jiān)控安全領(lǐng)域

        防護(hù)監(jiān)控是動(dòng)作識(shí)別算法的另一應(yīng)用領(lǐng)域. 隨著家用攝像頭的普及, 人們可以用它對(duì)家中老人、小孩的行為活動(dòng)進(jìn)行監(jiān)控, 一旦發(fā)生意外, 及時(shí)預(yù)警. 如圖14 所示, 攝像頭捕捉人物的摔倒動(dòng)作[50], 然后在人體姿態(tài)估計(jì)模型[13]的幫助下, 將采集的視頻數(shù)據(jù)分割為單獨(dú)的幀, 并對(duì)每幀中的人物提取關(guān)節(jié)點(diǎn)信息, 在2D 或3D 上形成一副骨架, 從而得到摔倒動(dòng)作的骨架序列.之后進(jìn)一步采用基于骨架序列的動(dòng)作識(shí)別算法對(duì)當(dāng)前動(dòng)作進(jìn)行識(shí)別, 一旦判定為摔倒等危險(xiǎn)動(dòng)作, 及時(shí)發(fā)出預(yù)警通知家人.

        圖14 對(duì)摔倒動(dòng)作的RGB 圖像序列提取骨架序列Fig.14 Extract the skeletal sequences from the RGB image sequence of the fall action

        安全監(jiān)控也是銀行、酒店、出租車(chē)內(nèi)等社會(huì)公共場(chǎng)景防范暴力犯罪的重要手段. 通過(guò)監(jiān)控?cái)z像頭, 可以實(shí)現(xiàn)人體目標(biāo)的追蹤以及動(dòng)作數(shù)據(jù)的采集, 然后利用動(dòng)作識(shí)別技術(shù), 對(duì)目標(biāo)的行為動(dòng)作進(jìn)行識(shí)別與預(yù)測(cè). 當(dāng)目標(biāo)出現(xiàn)擊打等暴力行為時(shí), 可以立即通知安保人員并報(bào)警. 動(dòng)作識(shí)別技術(shù)能夠起到重要的防范作用, 因此在監(jiān)控安全領(lǐng)域有著重大的研究意義.

        3.3 其他應(yīng)用領(lǐng)域

        相似的應(yīng)用場(chǎng)景還有健身App 的使用. 當(dāng)用戶使用健身App 時(shí), 攝像頭會(huì)捕捉并記錄用戶在運(yùn)動(dòng)過(guò)程中的動(dòng)作, 通過(guò)人體姿態(tài)估計(jì)模型提取出骨架序列后; 再采用流形假設(shè)等方法對(duì)骨架序列進(jìn)行分析, 找出健身練習(xí)動(dòng)作中的錯(cuò)誤; 最后將對(duì)錯(cuò)誤動(dòng)作的描述以及改進(jìn)建議反饋給用戶.

        動(dòng)作識(shí)別技術(shù)還可應(yīng)用于行人再識(shí)別任務(wù). 通過(guò)采集不同目標(biāo)的行為動(dòng)作, 可以構(gòu)建目標(biāo)與步態(tài)數(shù)據(jù)的一對(duì)一映射. 然后利用動(dòng)作識(shí)別技術(shù), 刻畫(huà)不同目標(biāo)步態(tài)之間的差異, 實(shí)現(xiàn)不同目標(biāo)的步態(tài)分類, 最后由一對(duì)一映射達(dá)到行人再識(shí)別的目的.

        4 結(jié)束語(yǔ)

        流形可以很好地描述非線性結(jié)構(gòu)和規(guī)律. 本工作從動(dòng)作識(shí)別框架的4 個(gè)步驟著手, 對(duì)基于流形假設(shè)的動(dòng)作識(shí)別方法進(jìn)行了回顧與分析. 據(jù)我們所知, 這是第一篇從流形假設(shè)的角度出發(fā), 對(duì)基于骨架序列的動(dòng)作識(shí)別方法進(jìn)行探討的工作. 在這類方法中, 通過(guò)流形假設(shè), 能夠?qū)羌軘?shù)據(jù)的空間幾何信息進(jìn)行編碼, 將動(dòng)作的骨架序列表示為流形上的一條軌跡或者一個(gè)數(shù)據(jù)點(diǎn). 骨架序列之間的時(shí)序關(guān)系處理也是一大挑戰(zhàn). 針對(duì)動(dòng)作軌跡存在的時(shí)間錯(cuò)位問(wèn)題, 多項(xiàng)工作采用了DTW 算法和SRVF 表示兩種方法進(jìn)行處理. 同時(shí), 流形上的幾何計(jì)算工具為分析和度量動(dòng)作軌跡提供了便利. 在動(dòng)作表征時(shí), 除了考慮單條動(dòng)作軌跡的特征分析, 還需要從全局層面度量軌跡之間的相似性, 提取軌跡間的信息特征. 最后, 文章對(duì)當(dāng)前常用的動(dòng)作分類器進(jìn)行了概述.

        縱觀發(fā)展現(xiàn)狀, 動(dòng)作識(shí)別框架的每個(gè)步驟都存在優(yōu)化的潛能, 因此我們對(duì)以下5 點(diǎn)進(jìn)行展望. (1) 更加有效、魯棒的骨架表示仍是一個(gè)可研究的方向. 當(dāng)前的骨架表示方法都有適用的數(shù)據(jù)集, 當(dāng)兩個(gè)數(shù)據(jù)集分布差異大時(shí), 直接采用已有的骨架表示方法, 可能無(wú)法取得良好的動(dòng)作識(shí)別結(jié)果. 因此, 可以考慮將域遷移引入到骨架表示中, 構(gòu)建一個(gè)更加有效、魯棒的骨架表示框架. (2) 針對(duì)軌跡的時(shí)間錯(cuò)位問(wèn)題, DTW 算法需要結(jié)合流形上合適的距離度量, TSRVF表示則需要軌跡上的每個(gè)離散點(diǎn)均可導(dǎo). 這兩類方法在進(jìn)行時(shí)間對(duì)齊時(shí), 都需要找到一條合適的對(duì)齊模板. 這個(gè)模板通常是向量空間的線性平均向量, 或者是流形上通過(guò)Karcher 均值算法計(jì)算得到的平均軌跡. 然而, 在向量空間進(jìn)行時(shí)間對(duì)齊時(shí), 特征已經(jīng)失去了骨架結(jié)構(gòu)的非歐信息. Karcher 均值算法在尋找平均軌跡時(shí), 需要初始化對(duì)齊模板, 最后得到的平均軌跡事實(shí)上依賴于初始值的選擇. 因此, 在進(jìn)行軌跡對(duì)齊時(shí), 尋找一個(gè)無(wú)偏的對(duì)齊模板仍是一個(gè)值得研究的問(wèn)題. (3) 在動(dòng)作表征階段, 除了對(duì)流形幾何工具的運(yùn)用, 更需要考慮如何提取軌跡以及軌跡間相互關(guān)系的特征. (4) 動(dòng)作分類器的選擇是當(dāng)前可做研究最多的地方. 目前, 大多數(shù)基于流形假設(shè)的動(dòng)作識(shí)別方法, 采用的是基于SVM 的分類器, 少數(shù)工作中采用了最近鄰分類法. 由于動(dòng)作序列最后都由一個(gè)矩陣或一個(gè)向量表征, 因此可以考慮度量學(xué)習(xí)等更加魯棒的分類方法來(lái)進(jìn)行動(dòng)作分類. (5) 從應(yīng)用的角度出發(fā), 動(dòng)作識(shí)別算法還可應(yīng)用于病患的步態(tài)分析. 通過(guò)采集患者進(jìn)行復(fù)健時(shí)的動(dòng)作序列, 分析當(dāng)前患者的康復(fù)程度, 從而幫助醫(yī)生制定患者下一階段的復(fù)健療程.

        猜你喜歡
        關(guān)節(jié)點(diǎn)流形骨架
        電子樂(lè)園·上旬刊(2022年5期)2022-04-09 22:18:32
        基于深度學(xué)習(xí)和視覺(jué)檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
        關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
        緊流形上的Schr?dinger算子的譜間隙估計(jì)
        骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
        搞好新形勢(shì)下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
        基于多故障流形的旋轉(zhuǎn)機(jī)械故障診斷
        內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
        国产精品白浆视频免费观看| 国内自拍视频一区二区三区| 免费亚洲老熟熟女熟女熟女| 亚洲成a∨人片在线观看不卡 | 成人精品国产亚洲av久久| 黄片一级二级三级四级| 国产专区亚洲专区久久| 亚洲 欧美 综合 在线 精品 | 日韩一区二区av极品| 国产激情久久久久久熟女老人av| 香蕉人妻av久久久久天天| 狠狠躁夜夜躁人人爽天天| 久久国产精品国产精品久久| 亚洲精品综合中文字幕组合| 国产a级三级三级三级| 亚洲成av人片天堂网| 精品人妻无码视频中文字幕一区二区三区| 精品久久久久久久久免费午夜福利| 国产精品九九久久一区hh| 国产成人美涵人妖视频在线观看 | 国产又滑又嫩又白| 98bb国产精品视频| 欧美人与物videos另类| 亚洲岛国一区二区三区| 欧美老妇牲交videos| 欧美精品中文字幕亚洲专区| 久久免费国产精品一区二区| 国产影院一区二区在线| 全黄性性激高免费视频| 亚洲av中文无码乱人伦在线r▽| 一个人免费观看在线视频播放| 国产精品自拍视频在线| 18禁裸男晨勃露j毛网站| 国产欧美日韩在线观看| 亚洲AV秘 片一区二区三区| 久久综合精品国产丝袜长腿| 一本久道综合在线无码人妻| 中文字幕人妻丝袜美腿乱| 亚洲人成7777影视在线观看| 久久精品国产精品亚洲婷婷| 一区二区视频中文字幕|