孫懷江 夏貴羽 張國慶 封 磊
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京,210094)
人體運(yùn)動(dòng)捕獲數(shù)據(jù)的重用技術(shù)綜述*
孫懷江 夏貴羽 張國慶 封 磊
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京,210094)
人體運(yùn)動(dòng)捕獲數(shù)據(jù)作為一種新型的多媒體數(shù)據(jù),因其高度的逼真性,已經(jīng)在多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。但運(yùn)動(dòng)捕獲設(shè)備的高昂價(jià)格導(dǎo)致運(yùn)動(dòng)捕獲數(shù)據(jù)使用的成本過高,所以運(yùn)動(dòng)重用技術(shù)就成為解決這一問題的有效手段??墒沁\(yùn)動(dòng)捕獲數(shù)據(jù)復(fù)雜的結(jié)構(gòu)和特性給運(yùn)動(dòng)重用帶來了很大的挑戰(zhàn),盡管已經(jīng)過多年的研究,但仍然有很多尚未解決的問題,需要研究人員更多的關(guān)注和研究投入。本文針對運(yùn)動(dòng)重用過程中各個(gè)環(huán)節(jié)的重要技術(shù),從研究的意義、問題的難點(diǎn)、現(xiàn)有方法思路及使用的模型等多個(gè)角度進(jìn)行了介紹,并針對一些具有代表性的方法做了較為詳細(xì)的描述。最后總結(jié)了現(xiàn)有運(yùn)動(dòng)捕獲數(shù)據(jù)重用技術(shù)的研究進(jìn)展,展望了未來的發(fā)展趨勢。本文旨在引起人們對該領(lǐng)域的深入思考,并為以后的研究提供有價(jià)值的參考。
人體運(yùn)動(dòng);計(jì)算機(jī)動(dòng)畫;運(yùn)動(dòng)捕獲;運(yùn)動(dòng)重用;機(jī)器學(xué)習(xí)
圖1 動(dòng)畫電影海報(bào)Fig.1 Posters of two animated movies
隨著運(yùn)動(dòng)捕獲技術(shù)的日趨成熟和虛擬現(xiàn)實(shí)技術(shù)的高速發(fā)展,運(yùn)動(dòng)捕獲數(shù)據(jù)作為一種新興的多媒體數(shù)據(jù),被用于電影、游戲、醫(yī)療和體育等多個(gè)領(lǐng)域。近年來,多部運(yùn)動(dòng)捕獲數(shù)據(jù)驅(qū)動(dòng)角色的動(dòng)畫電影都取得了不錯(cuò)的票房成績,運(yùn)動(dòng)數(shù)據(jù)高度的逼真性賦予動(dòng)畫角色生命力,給觀眾帶來了超越現(xiàn)實(shí)的視聽感受, 其中就包括大家所熟知的電影《魔獸》和《超能陸戰(zhàn)隊(duì)》(見圖1)。除了在電影制作上, 運(yùn)動(dòng)捕獲數(shù)據(jù)在電子游戲領(lǐng)域也取得了令人矚目的成就。運(yùn)動(dòng)捕獲數(shù)據(jù)的應(yīng)用使得游戲人物更加真實(shí),打斗動(dòng)作更加流暢,帶來了更好的游戲體驗(yàn)。 此外,對運(yùn)動(dòng)員技術(shù)動(dòng)作的捕獲可以讓教練更好地分析運(yùn)動(dòng)中存在的問題,從而做出相應(yīng)的調(diào)整。
光學(xué)運(yùn)動(dòng)捕獲系統(tǒng),如Vicon,是一類常用的運(yùn)動(dòng)捕獲系統(tǒng),演員的各個(gè)關(guān)節(jié)位置會被貼上一些反光的標(biāo)簽,捕獲系統(tǒng)中的多個(gè)攝像機(jī)會跟蹤這些反光標(biāo)簽在運(yùn)動(dòng)中的位置變化,經(jīng)過處理之后被記錄成某一時(shí)刻人體各個(gè)關(guān)節(jié)的空間位置或朝向,也就是運(yùn)動(dòng)中的一幀,如圖 2,一個(gè)序列的運(yùn)動(dòng)幀就構(gòu)成了一段人體運(yùn)動(dòng)。
雖然運(yùn)動(dòng)捕獲數(shù)據(jù)的出現(xiàn)給人們的生活帶來了很多積極的影響,但一些尚未解決的問題卻給運(yùn)動(dòng)捕獲數(shù)據(jù)的推廣帶來了困難,而問題的根源在于運(yùn)動(dòng)捕獲的成本太高。盡管市場上已經(jīng)出現(xiàn)了一些廉價(jià)的運(yùn)動(dòng)捕獲設(shè)備,如微軟公司的Kinect,但此類設(shè)備捕獲的精度太低,導(dǎo)致捕獲的運(yùn)動(dòng)數(shù)據(jù)只能用于一些對數(shù)據(jù)質(zhì)量要求不高的應(yīng)用,而高精度運(yùn)動(dòng)捕獲設(shè)備的價(jià)格則高達(dá)數(shù)十萬甚至上百萬,只有少數(shù)的大公司和科研機(jī)構(gòu)才能進(jìn)行高精度的人體運(yùn)動(dòng)捕獲。并且,從硬件技術(shù)上來說,運(yùn)動(dòng)捕獲的高成本問題在短時(shí)間內(nèi)無法解決,所以利用已有的運(yùn)動(dòng)捕獲數(shù)據(jù)生成新的符合各種應(yīng)用需求的運(yùn)動(dòng)數(shù)據(jù),即運(yùn)動(dòng)重用,就成了最有效的解決方法??墒沁\(yùn)動(dòng)數(shù)據(jù)重用是一項(xiàng)十分具有挑戰(zhàn)性的工作,因?yàn)槿梭w運(yùn)動(dòng)是一種復(fù)雜的自然現(xiàn)象,并且包含一些重要的特性:
(1)黎曼流形結(jié)構(gòu)。人體運(yùn)動(dòng)是一種典型的非線性數(shù)據(jù)。人體骨架的樹形結(jié)構(gòu)導(dǎo)致每個(gè)關(guān)節(jié)相對于其父關(guān)節(jié)的運(yùn)動(dòng)嚴(yán)格地處于一個(gè)球上,球的半徑就是這段骨骼的長度。而球則是一個(gè)最簡單的黎曼流形,所以人體運(yùn)動(dòng)從幾何上具有黎曼流形結(jié)構(gòu)[1-3]。
圖2 光學(xué)運(yùn)動(dòng)捕獲系統(tǒng)Fig.2 Optical motion capture system
(2)低秩和稀疏性。這是人體運(yùn)動(dòng)的一個(gè)本質(zhì)屬性。在一個(gè)運(yùn)動(dòng)序列中,大多數(shù)運(yùn)動(dòng)都是可以由少數(shù)幾個(gè)關(guān)鍵幀進(jìn)行運(yùn)動(dòng)插值產(chǎn)生,運(yùn)動(dòng)插值可以理解為是流形上的線性變換,這與低秩的定義十分相符,那些關(guān)鍵幀的個(gè)數(shù)也可以理解成該運(yùn)動(dòng)序列的秩。而低秩和稀疏在本質(zhì)上相同,從稀疏表示[4-5]的角度來說,關(guān)鍵幀自然也就可以理解成最具代表性(系數(shù)不為0)的幀。
(3)時(shí)序連續(xù)性。人體運(yùn)動(dòng)是一種序列數(shù)據(jù),每一幀都與前后幀有著密不可分的關(guān)系,在進(jìn)行各種操作時(shí)都要考慮到是否會破壞運(yùn)動(dòng)的時(shí)序連續(xù)性。
(4)含噪性。除了捕獲系統(tǒng)的電子設(shè)備會產(chǎn)生一些噪聲之外,演員的表演也不可避免地會產(chǎn)生一些噪聲。例如,運(yùn)動(dòng)過程中衣服的滑動(dòng)會導(dǎo)致反光標(biāo)記位置的突變,身體和衣服的相互遮擋會導(dǎo)致標(biāo)記在鏡頭中消失,這些噪聲都屬于非高斯噪聲,不易處理。
(5)運(yùn)動(dòng)學(xué)特性。人體運(yùn)動(dòng)自然具備一些運(yùn)動(dòng)學(xué)特性,例如平滑性、骨段長度的剛性和動(dòng)作的合理性。
運(yùn)動(dòng)重用的最終目的是生成新的運(yùn)動(dòng)數(shù)據(jù),即運(yùn)動(dòng)合成,但為了完成運(yùn)動(dòng)合成,還需要完成許多前期的工作,這也就衍生出了一系列運(yùn)動(dòng)重用過程中的相關(guān)技術(shù),這些技術(shù)基本上貫穿了運(yùn)動(dòng)捕獲數(shù)據(jù)重用的整個(gè)周期。如圖3所示, 建立一個(gè)可持續(xù)運(yùn)作的運(yùn)動(dòng)捕獲數(shù)據(jù)重用系統(tǒng)大約需要4個(gè)步驟:捕獲后處理、數(shù)據(jù)存儲、數(shù)據(jù)瀏覽以及最終的運(yùn)動(dòng)合成。
(1) 捕獲后處理。運(yùn)動(dòng)捕獲是一個(gè)復(fù)雜的過程,除了演員表演外還涉及到各種機(jī)械和電子設(shè)備,任何一個(gè)環(huán)節(jié)都可能產(chǎn)生噪聲,而噪聲會嚴(yán)重影響運(yùn)動(dòng)數(shù)據(jù)的使用。因此,運(yùn)動(dòng)數(shù)據(jù)的捕獲后處理不僅僅是運(yùn)動(dòng)數(shù)據(jù)重用的一個(gè)重要步驟,也決定了后續(xù)很多應(yīng)用的質(zhì)量。
(2) 數(shù)據(jù)存儲。運(yùn)動(dòng)數(shù)據(jù)通常是以120幀/秒的頻率被記錄,這為數(shù)據(jù)的存儲和瀏覽帶了了很大的挑戰(zhàn)。如果仍按120幀/秒的頻率進(jìn)行存儲不僅占用過大的空間,也為查詢和瀏覽帶來了不便。所以進(jìn)行數(shù)據(jù)壓縮能夠有效地減少存儲成本,方便數(shù)據(jù)瀏覽,但運(yùn)動(dòng)數(shù)據(jù)的特殊性導(dǎo)致其需要定制的壓縮算法。
(3)瀏覽。與視頻類似,如果瀏覽整個(gè)運(yùn)動(dòng)序列必然效率低下,用戶只需要知道運(yùn)動(dòng)的主要內(nèi)容就能夠決定是否需要該運(yùn)動(dòng)。構(gòu)建一個(gè)有效的瀏覽機(jī)制需要解決兩個(gè)重要問題:(1)如何為每一個(gè)運(yùn)動(dòng)生成一個(gè)高質(zhì)量的摘要;(2)如何根據(jù)用戶提供的輸入快速、準(zhǔn)確地搜索到滿足要求的運(yùn)動(dòng)。
(4) 運(yùn)動(dòng)合成。運(yùn)動(dòng)合成是運(yùn)動(dòng)重用最終的目的。高效便捷的運(yùn)動(dòng)合成算法能夠有效地提高運(yùn)動(dòng)重用的普及度,降低運(yùn)動(dòng)數(shù)據(jù)的使用成本。
這其中囊括了6項(xiàng)基本技術(shù):運(yùn)動(dòng)恢復(fù)和去噪、運(yùn)動(dòng)分割、運(yùn)動(dòng)壓縮、運(yùn)動(dòng)關(guān)鍵幀提取、運(yùn)動(dòng)檢索和運(yùn)動(dòng)合成。但每種技術(shù)并不絕對地只適用于其中一個(gè)步驟,圖3反映了它們之間的大致關(guān)系,如運(yùn)動(dòng)分割就是一個(gè)基礎(chǔ)性的操作,在多種應(yīng)用之前都有可能需要進(jìn)行運(yùn)動(dòng)分割。近年來,由于機(jī)器學(xué)習(xí)方法的興起,傳統(tǒng)的信號處理和運(yùn)動(dòng)學(xué)方法在這幾項(xiàng)技術(shù)上已經(jīng)失去了優(yōu)勢,因?yàn)閭鹘y(tǒng)的方法并不能很好地對上述運(yùn)動(dòng)數(shù)據(jù)的一些重要特性進(jìn)行建模,而合適的機(jī)器學(xué)習(xí)方法不僅能夠?qū)ζ溥M(jìn)行建模,還能有效地利用這些特性完成特定任務(wù)。
圖3 運(yùn)動(dòng)捕獲數(shù)據(jù)重用流程與相關(guān)技術(shù)Fig.3 Process of motion capture data reuse and related technologies
運(yùn)動(dòng)恢復(fù)和運(yùn)動(dòng)去噪在任務(wù)上略有差別,前者致力于恢復(fù)在捕獲過程中丟失的關(guān)節(jié)位置,后者重點(diǎn)在于抗擊噪聲, 但它們所使用的技術(shù)卻是相似的。早期研究人員使用高斯低通濾波器和卡曼濾波器[6-7]對運(yùn)動(dòng)數(shù)據(jù)進(jìn)行去噪,此類方法單獨(dú)處理運(yùn)動(dòng)數(shù)據(jù)的每一個(gè)自由度,但卻破壞了運(yùn)動(dòng)數(shù)據(jù)的時(shí)空特性。而基于插值的方法[8-10]能夠保留運(yùn)動(dòng)數(shù)據(jù)的時(shí)空特性,但它們只能處理一些短時(shí)間的運(yùn)動(dòng)恢復(fù)問題。因?yàn)椴逯抵皇且环N簡單線性方法,當(dāng)某一標(biāo)記丟失時(shí)間變長時(shí),其非線性特征就更加明顯,線性方法的劣勢也就顯現(xiàn)出來。
(1)
式中:λ為一個(gè)調(diào)諧參數(shù),根據(jù)之前的假設(shè),當(dāng)?shù)玫溅林?,可以認(rèn)為α也是完整運(yùn)動(dòng)幀f的稀疏表示,這樣就可以用
(2)
來預(yù)測丟失的數(shù)據(jù)。在這樣的一個(gè)理論框架下,字典D決定了運(yùn)動(dòng)恢復(fù)的質(zhì)量,字典太小則其包含的信息不夠完備,字典太大則會導(dǎo)致求解問題(1)太過耗時(shí),所以Xiao 等維護(hù)了一個(gè)規(guī)模中等的字典,但根據(jù)恢復(fù)運(yùn)動(dòng)類型以及字典中原子使用的頻率不斷地更新字典中的內(nèi)容,這樣就能兩者兼顧。
僅僅使用一個(gè)未經(jīng)學(xué)習(xí)的字典并不能很好地獲取和凝練藏于數(shù)據(jù)的有效信息,所以Hou 等[13]學(xué)習(xí)了一個(gè)由各個(gè)關(guān)節(jié)的運(yùn)動(dòng)軌跡構(gòu)成的字典,然后用類似的方式進(jìn)行運(yùn)動(dòng)恢復(fù)。但該方法存在兩個(gè)問題:(1)軌跡的數(shù)量過于龐大,導(dǎo)致字典的學(xué)習(xí)時(shí)間太長;(2)連續(xù)丟失的軌跡長度有可能超過字典中原子的長度,這就導(dǎo)致該方法無法正常工作。為了獲得更為細(xì)膩的去噪效果, Xiao 等[14]將人體運(yùn)動(dòng)拆分成5個(gè)部分(四肢和軀干)分別構(gòu)建字典并進(jìn)行去噪,將得到的去噪后的各部分運(yùn)動(dòng)再重新組合在一起。該方法得到的運(yùn)動(dòng)細(xì)節(jié)更為豐富,但忽略了人體各部分之間的關(guān)系,有可能導(dǎo)致去噪后的運(yùn)動(dòng)肢體不協(xié)調(diào)。鑒于以上方法存在的問題,Xia 等[15]在稀疏表示的框架下,綜合利用運(yùn)動(dòng)數(shù)據(jù)的統(tǒng)計(jì)信息和運(yùn)動(dòng)學(xué)信息進(jìn)行運(yùn)動(dòng)恢復(fù)。他們首先通過實(shí)驗(yàn)的方式驗(yàn)證了上文提到的假設(shè)的可靠性,如圖 4所示。
圖4 完整運(yùn)動(dòng)幀和不完整運(yùn)動(dòng)幀的稀疏表示系數(shù)對比Fig.4 Comparison between sparse representations of complete and incomplete frames
從圖中可以看出,完整運(yùn)動(dòng)幀和不完整運(yùn)動(dòng)幀在同一個(gè)字典下的稀疏表示系數(shù)非常接近,即便如此,Xia 等[15]還通過修改傳統(tǒng)的字典學(xué)習(xí)方式使這種相似性取得一定程度上的理論保證,其字典學(xué)習(xí)的目標(biāo)函數(shù)為
(3)
(4)
s.t.HοX=M
式中:o代表矩陣中每個(gè)元素相乘;H為一個(gè)狀態(tài)矩陣,表示M中每一個(gè)元素的丟失況,如果Mij丟失,則Hij=0,否則Hij=1,直接最小化矩陣的秩是一個(gè)NP-Hard問題,通常的做法是用x核范數(shù)代替矩陣的秩進(jìn)行優(yōu)化。隨后Tan 等[19]改進(jìn)了這一方法,他們用一個(gè)由各個(gè)關(guān)節(jié)運(yùn)動(dòng)軌跡構(gòu)成的矩陣代替了由運(yùn)動(dòng)幀構(gòu)成的矩陣M,因?yàn)榍罢叩闹缺群笳吒?,而矩陣的秩越低,恢?fù)的結(jié)果越可靠。Feng 等[16]則不僅考慮到了人體運(yùn)動(dòng)的低秩特性,同時(shí)還考慮到了運(yùn)動(dòng)學(xué)特性,他們在低秩恢復(fù)的目標(biāo)函數(shù)里加上了平滑約束項(xiàng),避免恢復(fù)后的運(yùn)動(dòng)出現(xiàn)抖動(dòng),影響數(shù)據(jù)的使用。
運(yùn)動(dòng)分割是一項(xiàng)基本的操作,在多種基于運(yùn)動(dòng)捕獲數(shù)據(jù)的應(yīng)用中都有可能需要進(jìn)行運(yùn)動(dòng)分割。運(yùn)動(dòng)分割雖然只是一個(gè)序列分割的問題,但因?yàn)槿梭w運(yùn)動(dòng)數(shù)據(jù)的復(fù)雜結(jié)構(gòu),導(dǎo)致運(yùn)動(dòng)分割遠(yuǎn)不止想象的那么簡單。在早期的方法[21-22]中通常先提取運(yùn)動(dòng)序列的一些物理特征,如速度、加速度和關(guān)節(jié)夾角等,然后對提取的運(yùn)動(dòng)特征進(jìn)行處理,根據(jù)這些特征的分布變化,如局部極值,提取一段運(yùn)動(dòng)序列的分割點(diǎn)。此類方法方便、快捷易于實(shí)現(xiàn),但僅僅利用了運(yùn)動(dòng)數(shù)據(jù)的低層次的特性,使得分割結(jié)果缺乏語義含義。為了獲取運(yùn)動(dòng)數(shù)據(jù)的高層次信息,Barbic 等[23]提出了3種方案,即分別利用主成分分析(Principal component analysis, PCA),概率主成分分析( Probabilistic principal component analysis, PPCA)和高斯混合模型(Gaussian mixture model, GMM) 進(jìn)行運(yùn)動(dòng)分割。具體地來說,基于PCA 的方法只保留前ρ個(gè)主成分,然后分別利用這前ρ個(gè)主成分重構(gòu)每一幀,當(dāng)重構(gòu)誤差增加過快的時(shí)候說明出現(xiàn)了一個(gè)分割點(diǎn),該方法利用原始數(shù)據(jù)的統(tǒng)計(jì)分布代替了原先的物理特征的分布進(jìn)行分割,提高了利用信息的層次。Barbic 等首先用 PPCA 對運(yùn)動(dòng)數(shù)據(jù)的概率分布進(jìn)行估計(jì),然后仍然采用與之前類似的策略,在概率分布變化最快的位置進(jìn)行分割?;?GMM 的方法假設(shè)不同的運(yùn)動(dòng)片段來自于不同的高斯分布,所以運(yùn)動(dòng)分割問題就轉(zhuǎn)化成了在不破壞時(shí)序連續(xù)性的前提下為運(yùn)動(dòng)序列尋找最優(yōu)的高斯分布問題。此類方法也十分簡單、高效,但只適用于短運(yùn)動(dòng)的分割,當(dāng)運(yùn)動(dòng)過長時(shí),其分割效率將大大降低。Gong 等[24]將運(yùn)動(dòng)分割轉(zhuǎn)化成了一個(gè)一維搜索問題,并為此提出了一種核化的時(shí)序分割算法(Kernelized temporal cut,KTC)[25]。該方法使用一個(gè)核函數(shù)計(jì)算幀與幀之間的內(nèi)積,并設(shè)計(jì)了一個(gè)以幀與幀之間關(guān)系為基礎(chǔ)的目標(biāo)函數(shù),不同的分割點(diǎn)會影響目標(biāo)函數(shù)的值。然后用在一個(gè)預(yù)先設(shè)定的窗口內(nèi),通過一維線性搜索的方式尋找使得目標(biāo)函數(shù)最小的幀,即為分割點(diǎn)。接著以該分割點(diǎn)為起點(diǎn),開始新一輪的搜索,直到完成所有的分割。該方法最大的問題在于窗口的大小難以確定,窗口過小,容易導(dǎo)致過分割,窗口過大會嚴(yán)重降低分割的速度,并且有可能漏掉一些分割點(diǎn)。因?yàn)樵摲椒ㄊ且环N依賴于局部極值的方法,窗口較大時(shí)就會有多個(gè)局部極值落在該窗口內(nèi),而根據(jù)算法策略只會選取其中一個(gè)使得目標(biāo)函數(shù)最小的極值,其他的則會被忽略。在核k-means、譜聚類以及他們之前工作[26]的基礎(chǔ)上,Zhou等[27]針對人體運(yùn)動(dòng)數(shù)據(jù)提出了一種叫分層對齊聚類分析(Hierarchical aligned cluster analysis,HACA)的時(shí)序聚類方法。該方法可以首先將運(yùn)動(dòng)數(shù)據(jù)分成多個(gè)運(yùn)動(dòng)片段,每個(gè)片段屬于其中一個(gè)聚類,然后在一個(gè)更低的層次再將各個(gè)運(yùn)動(dòng)片段拆分成更小的運(yùn)動(dòng)單元以實(shí)現(xiàn)更細(xì)膩的分割。該方法需要計(jì)算一個(gè)核矩陣,矩陣的規(guī)模由待分割運(yùn)動(dòng)序列的長度決定,所以 HACA 在分割之前使用了一個(gè)時(shí)序約減算法以消除時(shí)序上的冗余并減少核矩陣的規(guī)模。但該時(shí)序約減算法過分依賴于數(shù)據(jù)的無噪性,即使數(shù)據(jù)只含有少量噪聲,該時(shí)序約減算法就無法有效地消除時(shí)序冗余,導(dǎo)致核矩陣的計(jì)算過于耗時(shí),也增加了分割的計(jì)算量。Elhamifar 等[28]構(gòu)建了一個(gè)源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的不相似性矩陣,根據(jù)這個(gè)矩陣用目標(biāo)數(shù)據(jù)集中的樣本表示源數(shù)據(jù)集的樣本,然后根據(jù)這些表示選擇源數(shù)據(jù)集中的部分樣本作為其中一個(gè)類別,從而達(dá)到聚類的目的。Elhamifar 等將此方法用于運(yùn)動(dòng)捕獲數(shù)據(jù)的分割作為驗(yàn)證。該方法的可擴(kuò)展性很強(qiáng),源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集不需要是同一類型的數(shù)據(jù),只需要構(gòu)建它們之間的不相似性即可,而且算法的框架也不僅限于聚類,也可適用其他類型的應(yīng)用,如變量選擇等。但針對于運(yùn)動(dòng)數(shù)據(jù)的分割,該方法缺少時(shí)序聚類的控制,導(dǎo)致分割的結(jié)果缺乏時(shí)序連續(xù)性。
上述的多種方法在一定條件下都能取得不錯(cuò)的分割結(jié)果,但它們并沒有考慮到運(yùn)動(dòng)捕獲數(shù)據(jù)的一些特性,例如黎曼流形結(jié)構(gòu),也沒有利用運(yùn)動(dòng)數(shù)據(jù)關(guān)節(jié)與關(guān)節(jié)之間的相關(guān)性,而只是把一幀看成一個(gè)整體來處理。并且,目前尚沒有一種魯棒的運(yùn)動(dòng)捕獲數(shù)據(jù)的分割方法來處理運(yùn)動(dòng)捕獲過程中產(chǎn)生的多種噪聲,所以這些都將是運(yùn)動(dòng)分割領(lǐng)域新的研究方向。
高效實(shí)時(shí)的人體運(yùn)動(dòng)捕獲數(shù)據(jù)壓縮方法能夠有效地降低運(yùn)動(dòng)數(shù)據(jù)的存儲空間,提高網(wǎng)絡(luò)傳輸速度, 為很多基于運(yùn)動(dòng)捕獲數(shù)據(jù)的在線應(yīng)用提供更好的用戶體驗(yàn)。人體運(yùn)動(dòng)數(shù)據(jù)是一種序列的空間數(shù)據(jù),由時(shí)域和空域兩個(gè)部分組成,所以運(yùn)動(dòng)數(shù)據(jù)時(shí)空域的冗余是運(yùn)動(dòng)壓縮可行性的基礎(chǔ)。此外,相似運(yùn)動(dòng)片段間的信息冗余也可以利用進(jìn)行運(yùn)動(dòng)壓縮的重要因素。下面本文將從消除冗余的角度[29]對運(yùn)動(dòng)壓縮及其所應(yīng)用的技術(shù)進(jìn)行介紹。
3.1 基于消除時(shí)空域數(shù)據(jù)冗余的方法
此類方法又可以細(xì)分為基于曲線擬合的方法、基于數(shù)據(jù)降維的方法、基于信號處理的方法、基于四元數(shù)空間稀疏表達(dá)的方法和基于關(guān)鍵幀提取的方法。其中基于關(guān)鍵幀提取的方法將在下一節(jié)做詳細(xì)介紹。
(1) 基于曲線擬合的方法。Khan 等[30]將人體運(yùn)動(dòng)位移及旋轉(zhuǎn)數(shù)據(jù)作為N維歐氏空間的曲線,采用二次 Bézier 曲線最小二乘進(jìn)行擬合。Arikan 等[31]則首先將運(yùn)動(dòng)數(shù)據(jù)進(jìn)行分割,然后采用等間隔分割策略利用三次 Bézier 曲線對分割后的片段進(jìn)行擬合。Han 等[32]提出利用多項(xiàng)式曲線擬合對人體運(yùn)動(dòng)數(shù)據(jù)進(jìn)行精簡表示,從而使得人體運(yùn)動(dòng)數(shù)據(jù)可存儲且應(yīng)用在功耗要求較苛刻的移動(dòng)設(shè)備上。
(2) 基于數(shù)據(jù)降維的方法。Liu 等[33]首先基于運(yùn)動(dòng)分割方法對運(yùn)動(dòng)進(jìn)行分割, 將運(yùn)動(dòng)數(shù)據(jù)分割成短小的片段。然后利用 PCA 對其進(jìn)行降維后,將每個(gè)運(yùn)動(dòng)片段的幾個(gè)關(guān)鍵幀投影到 PCA 得到的少數(shù)幾個(gè)主元上。在該方法中,提取關(guān)鍵幀消除了時(shí)域冗余,PCA 降維消除了空間冗余。文獻(xiàn)[34]提出分析人體運(yùn)動(dòng)各局部節(jié)點(diǎn)誤差與目標(biāo)誤差矩陣的關(guān)系, 引入拉格朗日乘子來平衡壓縮比與誤差, 然后以一段運(yùn)動(dòng)序列為單位進(jìn)行 PCA 的降維, 最后采用熵編碼對降維后的數(shù)據(jù)進(jìn)行編碼壓縮。主測地線分析(Principal geodesic analysis,PGA)是 PCA 在黎曼流形上的擴(kuò)展, Tournier 等[35]運(yùn)用PGA對人體運(yùn)動(dòng)進(jìn)行降維, 并利用逆向運(yùn)動(dòng)學(xué)(Inverse kinematics, IK)對PGA的參數(shù)進(jìn)行匹配和優(yōu)化,最后只需要保留末端效應(yīng)器及根節(jié)點(diǎn)軌跡的相關(guān)參數(shù), 就能有效地對數(shù)據(jù)進(jìn)行還原。
(3) 基于信號處理的方法?;谛盘柼幚淼姆椒? 如小波技術(shù), 通常將各自由度作為相互獨(dú)立的信號進(jìn)行處理。Beaudoin 等[36]定義了一個(gè)變形矩陣來度量壓縮前后的誤差變化, 然后針對每個(gè)自由度,選擇使得變形矩陣最小的優(yōu)化小波系數(shù)。通過這種優(yōu)化, 能很大程度上提高壓縮質(zhì)量, 并在解碼速度上優(yōu)于Arikan 等[31]的方法。Li 等[37]舍棄了一些低頻分量對應(yīng)的小波系數(shù),在對數(shù)據(jù)進(jìn)行壓縮的同時(shí),并未造成很大的重構(gòu)誤差。針對文獻(xiàn)[36]方法計(jì)算復(fù)雜的缺點(diǎn),Lee 等[38]在其之前工作[39-40]的基礎(chǔ)上設(shè)計(jì)了一個(gè)基于多分辨率小波的壓縮方法,根據(jù)自適應(yīng)的誤差估計(jì)矩陣來平衡需保留的小波系數(shù)與視覺效果,以達(dá)到最優(yōu)的壓縮誤差比。Chattopadhyay 等[41]提出了一個(gè)在移動(dòng)設(shè)備上壓縮和傳輸人體動(dòng)畫參數(shù)數(shù)據(jù)的算法——BAP-Indexing。該算法利用人體骨骼的層次結(jié)構(gòu)智能地索引運(yùn)動(dòng)數(shù)據(jù),根據(jù)運(yùn)動(dòng)矩陣的浮點(diǎn)數(shù)分布情況將數(shù)據(jù)放入不同的桶中,使得每個(gè)浮點(diǎn)數(shù)都可用1個(gè)索引來表示,從而有效地壓縮了數(shù)據(jù),該算法利用3個(gè)預(yù)先定義的質(zhì)量控制參數(shù)就能有效地控制壓縮質(zhì)量與壓縮比的平衡。
(4) 基于四元數(shù)空間稀疏表達(dá)的方法。Zhu等[42]提出在四元數(shù)空間中直接進(jìn)行人體運(yùn)動(dòng)的稀疏分解的方法(Quaternion space sparse decomposition, QSSD), 它將人體的旋轉(zhuǎn)數(shù)據(jù)分解成字典和稀疏表示系數(shù)2個(gè)部分。這樣, 歐拉空間中的線性組合及權(quán)重操作就分別轉(zhuǎn)變成了四元數(shù)空間的乘及冪操作。在壓縮之前, 首先提取參考姿態(tài)、根節(jié)點(diǎn)信息及所有節(jié)點(diǎn)的旋轉(zhuǎn)信息, 并利用Tournier 等[35]提出的方法對根節(jié)點(diǎn)及旋轉(zhuǎn)信息進(jìn)行壓縮, 然后將壓縮后的節(jié)點(diǎn)旋轉(zhuǎn)信息利用QSSD方法進(jìn)行分解, 最后利用算術(shù)編碼進(jìn)行編碼壓縮。
3.2 基于消除片段域數(shù)據(jù)冗余的方法
運(yùn)動(dòng)數(shù)據(jù)中存儲著大量相似的運(yùn)動(dòng)片段,而這些類型相同的運(yùn)動(dòng)片段之間存在著大量的冗余信息。以走路運(yùn)動(dòng)為例,在一個(gè)標(biāo)準(zhǔn)的走路運(yùn)動(dòng)的基礎(chǔ)上,可以衍生出許多不同風(fēng)格的走路運(yùn)動(dòng),比如高興地走、垂頭喪氣的走和蹣跚地走等等。如果可以有效地提取不同風(fēng)格走路運(yùn)動(dòng)與標(biāo)準(zhǔn)走路運(yùn)動(dòng)之間的關(guān)系,那么只需要存儲標(biāo)準(zhǔn)的走路運(yùn)動(dòng),再根據(jù)提取的關(guān)系重構(gòu)出不同風(fēng)格的走路運(yùn)動(dòng),此舉可以有效地減少對冗余信息的存儲,達(dá)到運(yùn)動(dòng)壓縮的目的。Lin 等[43]定義了主片段、重復(fù)片段和唯一片段的概念。主片段是運(yùn)動(dòng)庫中具有代表性的一些動(dòng)作,重復(fù)片段是與此類代表性動(dòng)作相似的重復(fù)動(dòng)作,而唯一性片段是指沒有其他相似片段的孤本。該方法首先進(jìn)行運(yùn)動(dòng)分割,然后對這些片段進(jìn)行聚類。聚類后, 用 PCA 對每個(gè)運(yùn)動(dòng)片段進(jìn)行降維。隨后,各聚類中的運(yùn)動(dòng)被連接起來,并運(yùn)用Kovar 等[44]的運(yùn)動(dòng)檢索方法進(jìn)行重復(fù)運(yùn)動(dòng)片段的分析,就可得到相似姿態(tài)路徑,對這些相似路徑進(jìn)行分析、切分,就能得到主片段以及與其相似的重復(fù)片段。這樣,在每個(gè)聚類中,只需要存儲主片段的原始值以及重復(fù)片段與主片段的差值就能還原數(shù)據(jù),但對唯一片段需要單獨(dú)保存。Lin等[43]算法集成了多種優(yōu)秀的運(yùn)動(dòng)分析及編碼算法,取得了很高的壓縮比,但由于該算法依賴 Match web[44]進(jìn)行運(yùn)動(dòng)片段的分析提取,其較高的時(shí)間復(fù)雜度使得算法難以擴(kuò)展到大型運(yùn)動(dòng)數(shù)據(jù)庫。
Hou 等[45]將人體運(yùn)動(dòng)切分成統(tǒng)一長度的片段集,利用運(yùn)動(dòng)片段之間的關(guān)聯(lián)性,采用低秩逼近的方法將這些片段投射到一對正交的矩陣上,從而拋棄大部分冗余的元素。
圖5 文獻(xiàn)[46]中曲線簡化的基本步驟Fig.5 Main steps of curve simplification[46]
關(guān)鍵幀提取在存儲、傳輸和瀏覽的過程中都扮演著很重要的角色,所以在運(yùn)動(dòng)數(shù)據(jù)相關(guān)的研究領(lǐng)域一直都是一個(gè)熱門的研究課題。關(guān)鍵幀提取本質(zhì)上就是一個(gè)時(shí)序重采樣問題,所以最簡單的關(guān)鍵幀提取方法就是均勻采樣,即間隔相同的時(shí)間段提取一個(gè)運(yùn)動(dòng)幀作為關(guān)鍵幀。但問題是運(yùn)動(dòng)的節(jié)奏并不固定,所以當(dāng)運(yùn)動(dòng)過快或者過慢時(shí)就會出現(xiàn)過采樣或者欠采樣問題。過采樣導(dǎo)致信息冗余,欠采樣導(dǎo)致信息丟失。所以基于內(nèi)容的自適應(yīng)關(guān)鍵幀提取技術(shù)得到了廣泛的應(yīng)用?,F(xiàn)有的關(guān)鍵幀提取技術(shù)按照實(shí)現(xiàn)方式可以分為以下5類。
(1) 基于曲線簡化的關(guān)鍵幀提取。曲線簡化[46-51]是一種常用的關(guān)鍵幀提取技術(shù)。一個(gè)運(yùn)動(dòng)幀可以看成高維姿態(tài)空間中的一個(gè)點(diǎn),由于運(yùn)動(dòng)的時(shí)空連續(xù)性,連續(xù)的運(yùn)動(dòng)幀就構(gòu)成了運(yùn)動(dòng)曲線,所以關(guān)鍵幀提取就轉(zhuǎn)化成了如何在曲線上找到一些能最好地描述該曲線的點(diǎn),其基本原理如圖5所示。Halit等[50]使用多尺度高斯濾波器識別運(yùn)動(dòng)曲線中特別突出的幀,并使用centre-surround算子[52-53]計(jì)算每一幀的顯著性,最后根據(jù)顯著性曲線的局部極值來提取關(guān)鍵幀。Wei等[51]等提出了一種基于最小平方距離曲線的關(guān)鍵幀提取算法。該方法根據(jù)每個(gè)運(yùn)動(dòng)幀與同一個(gè)標(biāo)準(zhǔn)幀的距離,將一個(gè)運(yùn)動(dòng)序列表示成一個(gè)距離曲線,然后通過局部極值搜索的方式提取關(guān)鍵幀。此類方法通常需要人工指定關(guān)鍵幀的數(shù)目,但實(shí)際上關(guān)鍵幀的數(shù)量很難人為預(yù)測。此外,曲線簡化只利用了運(yùn)動(dòng)序列的局部信息,而忽略了全局信息。
(2) 基于聚類的關(guān)鍵幀提取。此類方法[54-57]的策略很簡單,即使用諸如k-means 之類的聚類方法將一個(gè)序列中相似的幀聚成一個(gè)類,然后選取該類中最具代表性的一幀作為關(guān)鍵幀。但它們忽略了一個(gè)重要的問題——運(yùn)動(dòng)的周期性。時(shí)序信息也是人體運(yùn)動(dòng)的一個(gè)重要組成部分,但顯然基于聚類的關(guān)鍵幀提取方法基本上都沒有考慮并利用運(yùn)動(dòng)的時(shí)序信息。當(dāng)一個(gè)運(yùn)動(dòng)序列中存在周期性運(yùn)動(dòng)時(shí),比如走路運(yùn)動(dòng),那么多個(gè)走路周期就會被聚在一個(gè)類中,并且只提取一組關(guān)鍵幀,所以并不能從提取的關(guān)鍵幀中了解整個(gè)運(yùn)動(dòng)的概況,比如運(yùn)動(dòng)的長度。
(3) 基于矩陣分解的關(guān)鍵幀提取。一些研究人員提出將一個(gè)運(yùn)動(dòng)序列可以表示成矩陣,然后可以通過奇異值分解[58]或低階離散余弦變化[59]之類的技術(shù)將該矩陣分解成一個(gè)關(guān)鍵幀矩陣和一個(gè)權(quán)重矩陣。Huang 等[60]將關(guān)鍵幀提取轉(zhuǎn)化成了一個(gè)帶約束的矩陣分解問題,并通過最小二乘優(yōu)化高效地解決了這個(gè)問題。此類方法通常以最小重構(gòu)誤差為優(yōu)化目標(biāo),所以可以保證提取關(guān)鍵幀的信息完整性。但在使用的過程中通常需要針對不同的輸入設(shè)定不同的閾值,這為此類方法的推廣帶來困難。
(4) 基于優(yōu)化的關(guān)鍵幀提取。近年來,出現(xiàn)了一些基于遺傳算法[61-62]的關(guān)鍵幀提取方法。遺傳算法很適合復(fù)雜的離散優(yōu)化問題,它能在不需要任何初始化的情況下找到全局最優(yōu)解。此類方法通常將重構(gòu)誤差作為適應(yīng)度函數(shù),用0-1序列表示一個(gè)運(yùn)動(dòng)序列中每幀是否被選為關(guān)鍵幀,可以無障礙地進(jìn)行變異、交叉等操作。但其缺陷也很明顯,就是過慢的收斂速度導(dǎo)致了過大時(shí)間開銷,嚴(yán)重制約了此類方法的實(shí)際應(yīng)用。即使 Liu 等[61]試圖通過概率單純形算法加速遺傳算法的收斂速度,但效果依然不明顯。
(5)基于稀疏表示的關(guān)鍵幀提取。利用人體運(yùn)動(dòng)的稀疏特性,Xia 等[63]提出采用基于稀疏表示的框架進(jìn)行關(guān)鍵幀提取。該方法首先利用測地線指數(shù)核[64]將運(yùn)動(dòng)數(shù)據(jù)投影到高維的希爾伯特空間中。測地線指數(shù)核由測地線距離演化而來,而相比于歐式距離,測點(diǎn)線距離能夠更好的描述球面上兩點(diǎn)之間的距離,如圖6(a)所示,所以測地線指數(shù)核的引入能夠有效地解決運(yùn)動(dòng)數(shù)據(jù)的流形結(jié)構(gòu)問題。然后在希爾伯特空間將一個(gè)運(yùn)動(dòng)序列表示成一個(gè)矩陣,矩陣的每一列就是一個(gè)運(yùn)動(dòng)幀,以該矩陣作為字典對其自身進(jìn)行表示,通過group lasso[65]使得表示系數(shù)為“行稀疏”,那么在重構(gòu)系數(shù)矩陣中,稀疏行對應(yīng)的運(yùn)動(dòng)幀并沒有用來表示運(yùn)動(dòng)序列中的任何幀,所以不稀疏的行所對應(yīng)的幀則為關(guān)鍵幀。除此之外,該方法還通過三角約束阻斷了相距非常遠(yuǎn)的運(yùn)動(dòng)幀之間的聯(lián)系,有效地解決了周期性運(yùn)動(dòng)關(guān)鍵幀分布不合理的問題。其目標(biāo)函數(shù)為
(5)
式中:W=[wW1,wW2,…,wWd]Wi為第i關(guān)節(jié)帶有三角約束的重構(gòu)系數(shù);Xi為在一個(gè)關(guān)節(jié)中所有幀的第i個(gè)關(guān)節(jié)的轉(zhuǎn)向;φ(·)為基于測地線指數(shù)核的隱式映射;λ為一個(gè)調(diào)諧參數(shù)。式(5)以及關(guān)鍵幀提取的過程可以用圖6(b)形象地表示。
圖6 測地線距離與歐式距離示意圖[63]和文獻(xiàn)[63]的關(guān)鍵幀提取框架Fig.6 Geodesic distance and Euclidean distance[63] and the key frame extraction framework in Ref.[63]
對運(yùn)動(dòng)數(shù)據(jù)的瀏覽和檢索是運(yùn)動(dòng)數(shù)據(jù)使用過程中一個(gè)不可缺少的環(huán)節(jié)。隨著數(shù)據(jù)量的不斷增加,為用戶提供一個(gè)高效快捷的瀏覽和檢索方式對運(yùn)動(dòng)捕獲以及計(jì)算機(jī)動(dòng)畫產(chǎn)業(yè)來說非常重要。與單個(gè)運(yùn)動(dòng)幀不同,一段運(yùn)動(dòng)捕獲數(shù)據(jù)是一種隨著時(shí)間變化的高維矢量,這大大增加了處理的難度,因此一些簡單的檢索方法往往難以奏效,且效率低下。針對這一問題,研究人員近年做了大量的研究,開發(fā)了許多杰出的運(yùn)動(dòng)檢索方法[42,44,66-69],這也使得基于內(nèi)容的運(yùn)動(dòng)檢索成為一個(gè)重要的研究課題。解決運(yùn)動(dòng)檢索問題的關(guān)鍵在于設(shè)計(jì)一種合適的相似性度量準(zhǔn)則。早期的方法通常將一個(gè)運(yùn)動(dòng)片段看成高維向量,但由于運(yùn)動(dòng)的長度不等,所以導(dǎo)致樣本的維度不一致。為了進(jìn)行統(tǒng)一的相似性度量,研究人員通常使用時(shí)間動(dòng)態(tài)彎曲算法(Dynamictimewarping,DTW),根據(jù)幀與幀之間的距離,建立運(yùn)動(dòng)間的整體時(shí)間對應(yīng)關(guān)系,從而達(dá)到統(tǒng)一運(yùn)動(dòng)長度的目的。然后再根據(jù)提取的特征,計(jì)算運(yùn)動(dòng)片段之間的相似度,選取相似度最高的運(yùn)動(dòng)片段作為檢索結(jié)果。但DTW算法的復(fù)雜度高,占用存儲空間大,不適合大規(guī)模數(shù)據(jù)庫的檢索。Kovar等[44]在DTW的基礎(chǔ)上提出了一種更高效的檢索方法。該方法先按給定閾值檢索出相似運(yùn)動(dòng),再將檢索出的相似運(yùn)動(dòng)作為新樣本繼續(xù)檢索,經(jīng)過多輪迭代得到最終符合用戶需求的結(jié)果。Jeff等[70]提出了一種自適應(yīng)的特征提取方法可以有效地獲取與待檢索樣本密切相關(guān)特征,該方法能夠根據(jù)檢索的差異性自適應(yīng)地選取特征子集,但為了滿足實(shí)時(shí)性的要求,需要對運(yùn)動(dòng)片段進(jìn)行編碼和對檢索輸入進(jìn)行人工編輯。
將運(yùn)動(dòng)片段作為高維向量進(jìn)行處理需要大量的計(jì)算開銷,所以近年來,不少研究人員將人體運(yùn)動(dòng)轉(zhuǎn)換為離散表示,從而有效地避免了龐大的計(jì)算開銷。這種做法不僅能有效地節(jié)約時(shí)間成本,還能使得檢索的過程和結(jié)果更接近于人們的直觀理解,這是因?yàn)榘ㄗ址甗71]、狀態(tài)[70]和文本文檔[42]在內(nèi)的離散表示具有更高的語義層次,使得計(jì)算運(yùn)動(dòng)間的相似度時(shí)能夠獲得邏輯上正確的結(jié)果。Muller等[72]在原數(shù)值特征的基礎(chǔ)上,計(jì)算除了實(shí)際中具有幾何意義的特征,如雙手間的距離、膝關(guān)節(jié)的瞬時(shí)速度和大小臂間的夾角等,再通過設(shè)定閾值,將它們離散化成二值向量,這種離散表示為提高了特征的語義層次和檢索出邏輯相似的運(yùn)動(dòng)奠定了良好的基礎(chǔ)。雖然對運(yùn)動(dòng)的離散化處理導(dǎo)致部分細(xì)節(jié)丟失,但特征的高層語義有助于提高檢索結(jié)果的邏輯正確性,而大部分的檢索需求都是邏輯上的正確性,而并非運(yùn)動(dòng)細(xì)節(jié)的絕對相似。Zhu等[42]使用隱狄利克雷分配(Latentdirichletallocation,LDA)來挖掘人體運(yùn)動(dòng)中的主題,并將運(yùn)動(dòng)表示成這些主題上的概率分布,該方法選用一些特征來作為運(yùn)動(dòng)詞匯表,并將人體運(yùn)動(dòng)用幾何特征描述后轉(zhuǎn)化為“詞”,在忽略詞序的前提下,用“詞”的切換頻率和運(yùn)動(dòng)幅度近似替代一個(gè)運(yùn)動(dòng)文本中該“詞”出現(xiàn)的頻率。相比之前的方法,主題特征在語義層次上有了較大的提升。但隨后,Lan等[73]指出,Zhu等[42]的方法并沒有合理地建立文本的概念,運(yùn)動(dòng)字典的擴(kuò)展性不夠,在需要表示新的運(yùn)動(dòng)時(shí)還需要重新構(gòu)建字典,并且,以幾何特征為詞匯的運(yùn)動(dòng)文檔無法可視化,不能給人一種直觀的感受。所以Lan等[73]提出了一種新的通用運(yùn)動(dòng)表示方式,如圖7所示。他們將所有運(yùn)動(dòng)的關(guān)鍵幀進(jìn)行聚類,從每一個(gè)類別中選取一個(gè)運(yùn)動(dòng)幀作為“詞”,如圖7中的第1行,然后統(tǒng)計(jì)每一個(gè)運(yùn)動(dòng)中這些“詞”出現(xiàn)的頻率,構(gòu)建運(yùn)動(dòng)數(shù)據(jù)的類文本表示方式,最后通過計(jì)算這些類文本表示間的相似度給出檢索結(jié)果。該方法的主要貢獻(xiàn)在于提出了一種自動(dòng)的可擴(kuò)展的運(yùn)動(dòng)表示方式,并且可對運(yùn)動(dòng)字典進(jìn)行可視化,進(jìn)一步提升了運(yùn)動(dòng)表示的語義層次。2015年,Wang等[69]則提出了一種基于語義縮略圖的運(yùn)動(dòng)檢索方法。該方法首先對運(yùn)動(dòng)數(shù)據(jù)進(jìn)行聚類和特征匹配,然后對用于訓(xùn)練的待檢索運(yùn)動(dòng)進(jìn)行檢索,更新數(shù)據(jù)庫中每個(gè)運(yùn)動(dòng)被正確檢索的頻率。在實(shí)際應(yīng)用時(shí),根據(jù)數(shù)據(jù)庫中每個(gè)運(yùn)動(dòng)被正確檢索的頻率,對最新得出的檢索結(jié)果進(jìn)行排序以提高檢索的正確率。最后使用一個(gè)基于可視化數(shù)據(jù)分析的關(guān)鍵幀提取算法為每個(gè)運(yùn)動(dòng)制作語義縮略圖。
圖7 運(yùn)動(dòng)詞匯表及文檔的示意圖[73]Fig.7 Illustration of motion vocabulary and document [73]
運(yùn)動(dòng)合成是運(yùn)動(dòng)數(shù)據(jù)重用的重點(diǎn)和關(guān)鍵技術(shù),也是運(yùn)動(dòng)重用過程中最困難的環(huán)節(jié)。運(yùn)動(dòng)捕獲數(shù)據(jù)維度高、信息量大且結(jié)構(gòu)復(fù)雜,具有時(shí)空連續(xù)性以及黎曼流形結(jié)構(gòu),這些都給運(yùn)動(dòng)合成帶來了挑戰(zhàn)。合成后的運(yùn)動(dòng)數(shù)據(jù)最終要用來被人觀賞,而人眼又十分善于發(fā)現(xiàn)運(yùn)動(dòng)中不協(xié)調(diào)的地方,這又對運(yùn)動(dòng)合成提出了更高層次的要求,所以一直以來運(yùn)動(dòng)合成都是一項(xiàng)十分熱門的研究課題,隨著研究的深入也出現(xiàn)了一些優(yōu)秀的運(yùn)動(dòng)合成算法。其中,數(shù)據(jù)驅(qū)動(dòng)的運(yùn)動(dòng)合成方法能夠保持運(yùn)動(dòng)數(shù)據(jù)的時(shí)空特性,因而得到了廣泛的研究和應(yīng)用。
(1)運(yùn)動(dòng)混合。運(yùn)動(dòng)混合[74-77]是一種簡潔高效的運(yùn)動(dòng)合成模型。此類方法首先對同類型的運(yùn)動(dòng)片段進(jìn)行預(yù)處理,包括利用DTW算法對其進(jìn)行時(shí)序?qū)R,然后通過線性變換使得每個(gè)運(yùn)動(dòng)幀都有相似的空間坐標(biāo),即坐標(biāo)對齊。經(jīng)過時(shí)序?qū)R和坐標(biāo)對齊的運(yùn)動(dòng)在結(jié)構(gòu)上得到了統(tǒng)一,對這些結(jié)構(gòu)統(tǒng)一的運(yùn)動(dòng)進(jìn)行有權(quán)重的插值,再對插值后的運(yùn)動(dòng)進(jìn)行約束重建就能得到十分逼真的新運(yùn)動(dòng)。但此類方法的數(shù)據(jù)組織方式過于簡單,無法挖掘出數(shù)據(jù)中的內(nèi)在規(guī)律,且用戶無法與系統(tǒng)進(jìn)行實(shí)時(shí)交互,很難控制運(yùn)動(dòng)合成的結(jié)果使其滿足用戶的需求。
(2)基于圖搜索和運(yùn)動(dòng)過渡的運(yùn)動(dòng)合成。此類方法[78-80]將運(yùn)動(dòng)圖作為一種表示運(yùn)動(dòng)數(shù)據(jù)之間關(guān)系的數(shù)據(jù)結(jié)構(gòu),節(jié)點(diǎn)表示運(yùn)動(dòng)幀,邊表示不同運(yùn)動(dòng)片段之間的運(yùn)動(dòng)過渡。根據(jù)用戶設(shè)定的不同階段的運(yùn)動(dòng)狀態(tài),在運(yùn)動(dòng)圖中搜索最優(yōu)路徑,并合成出符合要求的運(yùn)動(dòng)。其優(yōu)勢在于對建圖運(yùn)動(dòng)數(shù)據(jù)的要求比較寬泛,并且能產(chǎn)生長度不同、過渡自然的運(yùn)動(dòng),但合成運(yùn)動(dòng)的表達(dá)能力依賴于原運(yùn)動(dòng)數(shù)據(jù),且容易造成根節(jié)點(diǎn)的位置計(jì)算不準(zhǔn)確,導(dǎo)致腳步的滑動(dòng)和朝向抖動(dòng)。
(3)參數(shù)化的運(yùn)動(dòng)合成。參數(shù)化的運(yùn)動(dòng)模型[44,81-82]能夠利用運(yùn)動(dòng)的一些物理特性有效地解決運(yùn)動(dòng)圖存在的問題。Kwon等[82]將運(yùn)動(dòng)的類型、速度、加速度和落腳點(diǎn)等以參數(shù)的形式引入合成模型, 在合成的過程中進(jìn)行控制,可以解決一些諸如腳步滑動(dòng)、朝向抖動(dòng)之類的問題。Heck等[81]將運(yùn)動(dòng)圖的節(jié)點(diǎn)構(gòu)造為連續(xù)參數(shù)空間,為原本非常有限的拼接組合方式帶來了細(xì)粒度的控制,例如該方法可以通過對參數(shù)的調(diào)節(jié)合成出更為豐富和細(xì)膩的出拳運(yùn)動(dòng),如圖8(a)所示。這些方法很大程度上提高了運(yùn)動(dòng)合成過程的可控性,但這些物理參數(shù)的語義層次太低,內(nèi)容需要預(yù)先人為指定,無法自動(dòng)適應(yīng)運(yùn)動(dòng)類型的變化。
圖8 出拳運(yùn)動(dòng)參數(shù)化的運(yùn)動(dòng)圖[81]和運(yùn)動(dòng)可變模型的交互方式[83]Fig.8 Parametric motion diagram for punching[81] and interactive modes of motion[83]
針對上述問題,一些研究人員[83-90]根據(jù)運(yùn)動(dòng)各維度之間高度相關(guān)這一特性,提出使用降維方法自動(dòng)獲取運(yùn)動(dòng)的內(nèi)在自由度,并將其作為參數(shù)參與運(yùn)動(dòng)合成。在降維后的空間對其直接修改后,重構(gòu)回原始空間以合成新的運(yùn)動(dòng)。例如王宇杰等[85]將原始運(yùn)動(dòng)投影到低維流形上,然后學(xué)習(xí)低維樣本點(diǎn)與原始運(yùn)動(dòng)的對應(yīng)關(guān)系,形成低維參數(shù)空間到原始空間的逆映射,就能夠通過修改低維變量完成原始空間的運(yùn)動(dòng)合成。Min等[83]利用PCA對運(yùn)動(dòng)數(shù)據(jù)進(jìn)行降維后,獲取時(shí)域和空域兩類參數(shù),然后根據(jù)用戶輸出的合成條件,優(yōu)化調(diào)整這兩類參數(shù),重構(gòu)回原始空間,達(dá)到交互式合成的目的,且交互方式并不單一(見圖8(b))。為了盡可能多地保留原始數(shù)據(jù)的信息或是能夠在低維(兩到三維)空間顯示降維后樣本的位置,此類方法通常使用諸如PCA和多元尺度(Multi-dimensionalscaling,MDS)之類的降維方法,這使得獲取的低維參數(shù)與所有的人體關(guān)節(jié)都有關(guān),所以這類方法獲取的參數(shù)同樣缺乏語義含義,不易被用戶理解和使用。
因此藍(lán)榮祎等[91]利用稀疏主成分分析對同一類型的一組運(yùn)動(dòng)進(jìn)行降維,使得降維后的主成分只依賴于少數(shù)幾個(gè)人體關(guān)節(jié),從而有效地為低維參數(shù)賦予了語義含義。但用此方法進(jìn)行降維后,某些關(guān)節(jié)出現(xiàn)在了多個(gè)低維參數(shù)里,這就使得調(diào)整不同的參數(shù)時(shí),會對某些關(guān)節(jié)造成交叉影響。為解決此問題,夏貴羽等[92]提出了模板化的人體運(yùn)動(dòng)合成模型。該模型進(jìn)一步強(qiáng)化了低維運(yùn)動(dòng)參數(shù)語義含義,并通過Exclusivegrouplasso[65]有效地抑制了運(yùn)動(dòng)參數(shù)之間交叉影響的問題,其目標(biāo)函數(shù)為
(6)
(4) 基于深度學(xué)習(xí)的運(yùn)動(dòng)合成。自適應(yīng)提取參數(shù)的運(yùn)動(dòng)合成方法存在缺陷,即需要將訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)一處理,這其中包含了一系列操作,如運(yùn)動(dòng)分割、運(yùn)動(dòng)分類、時(shí)序?qū)R和坐標(biāo)對齊,處理過程復(fù)雜且耗時(shí)。并且,其合成后的運(yùn)動(dòng)有可能會出現(xiàn)腳步滑動(dòng)朝向抖動(dòng)等問題。隨著深度學(xué)習(xí)理論的快速發(fā)展,Holden等[93]提出了一個(gè)基于深度學(xué)習(xí)框架的運(yùn)動(dòng)合成方法,該方法對訓(xùn)練數(shù)據(jù)的格式要求比較寬泛,不需要上述的各種操作,任何類型和長短的運(yùn)動(dòng)捕獲數(shù)據(jù)都可以參與訓(xùn)練。其網(wǎng)絡(luò)結(jié)構(gòu)和方法框架如圖9(b)所示,經(jīng)過此框架學(xué)習(xí)得到的運(yùn)動(dòng)流形由一個(gè)卷積自編碼器的隱藏單元表示,能夠根據(jù)用戶提供的高層參數(shù),合成出多種類型的復(fù)雜運(yùn)動(dòng),并能通過對隱單元空間的約束解決腳步滑動(dòng)和朝向抖動(dòng)等問題。
圖9 踢腿運(yùn)動(dòng)模板示意圖[92]和基于深度學(xué)習(xí)的運(yùn)動(dòng)合成框架[93]Fig.9 Kick template [92] and deep learning based motion synthesis framework [93]
隨著以運(yùn)動(dòng)數(shù)據(jù)驅(qū)動(dòng)的多部動(dòng)畫電影的熱映,運(yùn)動(dòng)捕獲技術(shù)得到了空前的關(guān)注,但大部分注意力還是集中在運(yùn)動(dòng)的捕獲和數(shù)據(jù)的使用上。雖然運(yùn)動(dòng)捕獲數(shù)據(jù)相關(guān)的研究已經(jīng)持續(xù)了很多年,但早期的研究主要集中于圖形學(xué)領(lǐng)域,僅采用一些運(yùn)動(dòng)學(xué)和統(tǒng)計(jì)學(xué)技術(shù)處理運(yùn)動(dòng)數(shù)據(jù),針對性不夠。近年來,機(jī)器學(xué)習(xí)研究的熱潮也覆蓋到了運(yùn)動(dòng)捕獲數(shù)據(jù)領(lǐng)域。機(jī)器學(xué)習(xí)技術(shù)能夠有效地挖掘運(yùn)動(dòng)捕獲數(shù)據(jù)中蘊(yùn)藏的規(guī)律,但大多數(shù)方法只是將通用技術(shù)簡單地應(yīng)用到了運(yùn)動(dòng)數(shù)據(jù)上,這就丟棄了早期研究積累的經(jīng)驗(yàn),導(dǎo)致對運(yùn)動(dòng)數(shù)據(jù)的研究不夠深入,所以未來需要更多在機(jī)器學(xué)習(xí)框架下針對運(yùn)動(dòng)數(shù)據(jù)本身特性的、結(jié)合運(yùn)動(dòng)學(xué)和統(tǒng)計(jì)學(xué)優(yōu)勢的定制型方法的出現(xiàn)。
[1]DevanneM,WannousH,BerrettiS,etal. 3-DhumanactionrecognitionbyshapeanalysisofmotiontrajectoriesonRiemannianmanifold[J].IEEETransactionsonSystemsMan&Cybernetics, 2014, 45(7):1023-1029.
[2]HaubergS,PedersenKS.Spatialmeasuresbetweenhumanposesforclassificationandunderstanding[M]//ArticulatedMotionandDeformableObjects.Berlin,Heidelberg:Springer, 2012:26-36.
[3]TuzelO,PorikliF,MeerP.PedestriandetectionviaclassificationonRiemannianmanifolds[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2008, 30(10):1713-1727.
[4]MairalJ,BachF,PonceJ,etal.Onlinedictionarylearningforsparsecoding[C]//InternationalConferenceonMachineLearning.Montreal,Quebec,Canada:[s.n.], 2009:689-696.
[5]Sch?lkopfB,PlattJ,HofmannT.Efficientsparsecodingalgorithms[C]//AdvancesinNeuralInformationProcessingSystems19,ProceedingsoftheTwentiethConferenceonNeuralInformationProcessingSystems.Vancouver,BritishColumbia,Canada:DBLP, 2006:801-808.
[6]Uller-UlhaasKD.RobustopticalusermotiontrackingusingaKalmanfilter[C]//SymposiumonVirtualRealitySoftware&Technology.[S.l.]:ACM,2003:45-48.
[7]WelchG,VicciL,KellerK,etal.TheHiBallTracker:High-performancewide-areatrackingforvirtualandaugmentedenvironments[C]//ACMSymposiumonVirtualRealitySoftwareandTechnology. [S.l.]:DBLP, 1999:1-10.
[8]GuoS,RobergJ.Ahigh-levelcontrolmechanismforhumanlocomotionbasedonparametricframespaceinterpolation[C]//EurographicsWorkshoponComputerAnimationandSimulation.NewYork:Springer-Verlag, 1996:95-107.
[9]LiuG,McmillanL.Estimationofmissingmarkersinhumanmotioncapture[J].TheVisualComputer, 2006, 22(9):721-728.
[10]RoseC,CohenMF,BodenheimerB.Verbsandadverbs:Multidimensionalmotioninterpolation[J].IEEEComputerGraphics&Applications, 1999, 18(5):32-40.
[11]HuiL,ChaiJ.Example-basedhumanmotiondenoising[J].IEEETransactionsonVisualization&ComputerGraphics, 2010, 16(5):870-879.
[12]XiaoJ,FengY,HuW.Predictingmissingmarkersinhumanmotioncaptureusingl1-sparserepresentation[J].ComputerAnimationandVirtualWorlds, 2011, 22(2/3):221-228.
[13]HouJ,ChauLP,HeY,etal.Humanmotioncapturedatarecoveryviatrajectory-basedsparserepresentation[C]//IEEEInternationalConferenceonImageProcessing.Melbourne,Australia:IEEE, 2013:709-713.
[14]XiaoJ,FengY,JiM,etal.Sparsemotionbasesselectionforhumanmotiondenoising[J].SignalProcessing, 2014, 110:108-122.
[15]XiaG,SunH,ZhangG,etal.Humanmotionrecoveryjointlyutilizingstatisticalandkinematicinformation[J].InformationSciences, 2016, 339:189-205.
[16]FengY,XiaoJ,ZhuangY,etal.Exploitingtemporalstabilityandlow-rankstructureformotioncapturedatarefinement[J].InformationSciences, 2014, 277(2):777-793.
[17]LaiRYQ,YuenPC,LeeKKW.Motioncapturedatacompletionanddenoisingbysingularvaluethresholding[C]//ProcEurographicsAssociation.Llandudno,UK: [s.n.], 2011:1-4.
[18]LiuX,CheungYM,PengSJ,etal.Automaticmotioncapturedatadenoisingviafilteredsubspaceclusteringandlowrankmatrixapproximation[J].SignalProcessing, 2014, 105(12):350-362.
[19]TanCH,HouJ,ChauLP.Humanmotioncapturedatarecoveryusingtrajectory-basedmatrixcompletion[J].ElectronicsLetters, 2013, 49(12):752-754.
[20]CandesE,RechtB.Exactmatrixcompletionviaconvexoptimization[J].FoundationsofComputationalMathematics, 2009, 9(6):717-772.
[21]LlerM,DerT,ClausenM.Efficientcontent-basedretrievalofmotioncapturedata[J].ACMTransactionsonGraphics, 2005, 24(2):677-685.
[22]KwonT,ShinSY.Motionmodelingforon-linelocomotionsynthesis[C]//ACMSiggraph/EurographicsSymposiumonComputerAnimation(SCA).LosAngeles,CA,USA:ACM, 2005:29-38.
[23]BecherJC,KeelingJW,McintoshN,etal.Segmentingmotioncapturedataintodistinctbehaviors[J].Proceedings-GraphicsInterface, 2004, 2004(5):185-194.
[24]GongD,MedioniG,ZhaoX.Structuredtimeseriesanalysisforhumanactionsegmentationandrecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2014, 36(7):1414-1427.
[25]GongD,MedioniG,ZhuS,etal.Kernelizedtemporalcutforonlinetemporalsegmentationandrecognition[J].LectureNotesinComputerScience, 2012, 7574(1):229-243.
[26]ZhouF,TorreF,HodginsJK.Alignedclusteraanalysisfortemporalsegmentationofhumanmotion[C]//IEEEInternationalConferenceonAutomaticFace&GestureRecognition.Amsterdam,Netherlands:IEEE, 2008:1083-1084.
[27]ZhouF,TorreFDL,HodginsJK.Hierarchicalalignedclusteranalysisfortemporalclusteringofhumanmotion[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2013, 35(3):582-96.
[28]ElhamifarE,SapiroG,SastryS.Dissimilarity-basedsparsesubsetselection[J].IEEETransactionsonSoftwareEngineering, 2014, 38(11):1.
[29]王鵬杰, 潘志庚, 李威. 人體運(yùn)動(dòng)捕獲數(shù)據(jù)壓縮技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2016, 28(7):1037-1046.
WangPengjie,PanZhigeng,LiWei.Recentadvancesincompressionofhumanmotioncapturedata[J].JournalofComputer-AidedDesign&ComputerGraphics, 2016, 28(7):1037-1046.
[30]KhanMA.AnefficientalgorithmforcompressionofmotioncapturesignalusingmultidimensionalquadraticBéziercurvebreak-and-fitmethod[J].MultidimensionalSystemsandSignalProcessing, 2016, 27(1):1-23.
[31]ArikanO.Compressionofmotioncapturedatabases[J].ACMTransactionsonGraphics, 2006, 25(3):890-897.
[32]HanY.Computeranimationinmobilephonesusingamotioncapturedatabasecompressedbypolynomialcurve-fittingtechniques[J].IEEETransactionsonConsumerElectronics, 2008, 54(3):1008-1016.
[33]LiuG,McmillanL.Segment-basedhumanmotioncompression[C]//ACMSiggraph/EurographicsSymposiumonComputerAnimation(SCA).Vienna,Austria:ACM, 2006:127-135.
[34]Vá?aL,BrunnettG.Rate-distortionoptimizedcompressionofmotioncapturedata[J].ComputerGraphicsForum, 2014, 33(2):283-292.
[35]TournierM,WuX,CourtyN,etal.Motioncompressionusingprincipalgeodesicsanalysis[J].ComputerGraphicsForum, 2009, 28(2):355-364.
[36]BeaudoinP,PoulinP,PanneMVD.Adaptingwaveletcompressiontohumanmotioncaptureclips[C]//GraphicsInterface2007Conference.Montreal,Canada:DBLP, 2007:313-318.
[37]LiS,OkudaM,TakahashiSI.Compressionofhumanmotionanimationusingthereductionofinterjointcorrelation[J].JournalonImage&VideoProcessing, 2008, 2008(2):1-15.
[38]LeeCH,LasenbyJ.Anefficientwavelet-basedframeworkforarticulatedhumanmotioncompression[C]//InternationalSymposiumonAdvancesinVisualComputing.LasVegas,NV,USA:Springer-Verlag, 2008:75-86.
[39]LeeCH,LasenbyJ. 3Dhumanmotioncompressionusingwaveletdecomposition[C]//ACMSiggraphResearchPosters. [S.l.]:ACM, 2006:104.
[40]LeeC,LasenbyJ.Acompactrepresentationforarticulatedhumanmotion[C]//ACMSiggraph2007Posters.SanDiego,California,USA:ACM, 2007:96.
[41]ChattopadhyayS,BhandarkarSM,LiK.Humanmotioncapturedatacompressionbymodel-basedindexing:Apowerawareapproach[J].IEEETransactionsonVisualization&ComputerGraphics, 2007, 13(1):5-14.
[42]ZhuM,SunH,LanR,etal.Humanmotionretrievalusingtopicmodel[J].ComputerAnimation&VirtualWorlds, 2012, 23(5):469-476.
[43]LinIC,PengJY,LinCC,etal.Adaptivemotiondatarepresentationwithrepeatedmotionanalysis[J].IEEETransactionsonVisualization&ComputerGraphics, 2011, 17(4):527-538.
[44]KovarL,GleicherM.Automatedextractionandparameterizationofmotionsinlargedatasets[J].ACMTransactionsonGraphics, 2004, 23(3):559-568.
[45]HouJ,ChauLP,HeY,etal.Low-rankbasedcompactrepresentationofmotioncapturedata[C]//IEEEInternationalConferenceonImageProcessing.Paris:IEEE, 2014:1480-1484.
[46]LimIS,ThalmannD.Key-postureextractionoutofhumanmotiondata[C]//Proceedingsofthe23rdAnnualInternationalConferenceofEngineeringinMedicineandBiologySociety.[S.l.]:IEEE, 2001:1167-1169.
[47]TogawaH,OkudaM.Position-basedkey-frameselectionforhumanmotionanimation[C]//InternationalConferenceonParallelandDistributedSystemsProceedings.[S.l.]:IEEE, 2005:182-185.
[48]LiNS,OkudaM,TakahashiS.Embeddedkey-frameextractionforcganimationbyframedecimation[C]// 2005IEEEInternationalConferenceonMultimediaandExpo.Amsterdam,Netherlands:IEEE, 2005:1404-1407.
[49]XiaoJ,ZhuangY,YangT,etal.Anefficientkey-frameextractionfrommotioncapturedata[M]//AdvancesinComputerGraphics.Berlin,Heidelberg:Springer, 2006:494-501.
[50]HalitC,CapinT.Multiscalemotionsaliencyforkey-frameextractionfrommotioncapturesequences[J].ComputerAnimationandVirtualWorlds, 2011, 22(1):3-14.
[51]IttiL,KochC,NieburE.Amodelofsaliency-basedvisualattentionforrapidsceneanalysis[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 1998, 20(11):1254-1259.
[52]LeeCH,VarshneyA,JacobsDW.Meshsaliency[J].ACMTransactionsonGraphics, 2005, 24(3):659-666.
[53]WeiX,LiuR,ZhangQ.Key-frameextractionofhumanmotioncapturedatabasedonleast-squaredistancecurve[J].JournalofConvergenceInformationTechnology, 2012, 7(12):11-19.
[54]MinJP,ShinSY.Example-basedmotioncloning[J].ComputerAnimationandVirtualWorlds, 2004, 15(3/4):245-257.
[55]朱登明, 王兆其. 基于運(yùn)動(dòng)序列分割的運(yùn)動(dòng)捕獲數(shù)據(jù)關(guān)鍵幀提取[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2008, 20(6):787-792.
ZhuDengming,WangZhaoqi.Extractionofkeyframefrommotioncapturedatabasedonmotionsequencesegmentation[J].JournalofComputer-AidedDesign&ComputerGraphics, 2008, 20(6):787-792.
[56]QiangZ,YuSP,ZhouDS,etal.Anefficientmethodofkey-frameextractionbasedonaclusteralgorithm[J].JournalofHumanKinetics, 2013, 39(1):5-13.
[57]LiuF,ZhuangY,WuF,etal. 3Dmotionretrievalwithmotionindextree[J].ComputerVision&ImageUnderstanding, 2003, 92(2):265-284.
[58]GongY,LiuX.Videosummarizationusingsingularvaluedecomposition[C]//IEEEConferenceonComputerVision&PatternRecognition.Madison,Wisconsin:IEEE, 2003:157-168.
[59]CooperM,FooteJ.Summarizingvideousingnon-negativesimilaritymatrixfactorization[C]//IEEEWorkshoponMultimediaSignalProcessing.[S.l.]:IEEE, 2002:25-28.
[60]HuangKS,ChangCF,HsuYY,etal.Keyprobe:Atechniqueforanimationkey-frameextraction[J].TheVisualComputer, 2005, 21(8):532-541.
[61]LiuXM,HaoAM,ZhaoD.Optimization-basedkeyframeextractionformotioncaptureanimation[J].TheVisualComputer, 2013, 29(1):85-95.
[62]LeeTY,LinCH,WangYS,etal.Animationkey-frameextractionandsimplificationusingdeformationanalysis[J].IEEETransactionsonCircuits&SystemsforVideoTechnology, 2008, 18(4):478-486.
[63]XiaG,SunH,NiuX,etal.Key-frameextractionforhumanmotioncapturedatabasedonjointkernelsparserepresentation[J].IEEETransactionsonIndustrialElectronics, 2017,64(2):1589-1599.
[64]JayasumanaS,HartleyR,SalzmannM,etal.Combiningmultiplemanifold-valueddescriptorsforimprovedobjectrecognition[C]//InternationalConferenceonDigitalImageComputing:TechniquesandApplications.Hobart,Australia: [s.n.], 2013:1-6.
[65]ChenX,YuanX,YanS,etal.Towardsmulti-semanticimageannotationwithgraphregularizedexclusivegroupLasso[C]//InternationalConferenceonMultimedea.Scottsdale,AZ,USA:ACM, 2011:263-272.
[66]LiuF,ZhuangY,WuF,etal. 3Dmotionretrievalwithmotionindextree[J].ComputerVision&ImageUnderstanding, 2003, 92(2):265-284.
[67]ForbesK,FiumeE.AnefficientsearchalgorithmformotiondatausingweightedPCA[C]//ProceedingsoftheACMSiggraph/EurographicsSymposiumonComputerAnimation.LosAngeles,CA,USA:ACM, 2005:67-76.
[68]ChiuCY,ChaoSP,WuMY,etal.Content-basedretrievalforhumanmotiondata[J].JournalofVisualCommunication&ImageRepresentation, 2004, 15(3):446-466.
[69]WangX,ChenL,JingJ,etal.Humanmotioncapturedataretrievalbasedonsemanticthumbnail[J].MultimediaTools&Applications, 2015, 75(19):1-18.
[70]WuS,WangZ,XiaS.Indexingandretrievalofhumanmotiondatabyahierarchicaltree[C]//ACMSymposiumonVirtualRealitySoftwareandTechnology.Kyoto,Japan:ACM, 2009:207-214.
[71]DengZ,GuQ,LiQ.Perceptuallyconsistentexample-basedhumanmotionretrieval[C]//SymposiumonInteractive3DGraphicsandGames.Boston,Massachusetts,USA:ACM, 2009:191-198.
[72]LlerM,DerT,ClausenM.Efficientcontent-basedretrievalofmotioncapturedata[J].ACMTransactionsonGraphics, 2005, 24(2):677-685.
[73]LanR,SunH,ZhuM.Text-likemotionrepresentationforhumanmotionretrieval[M]//IntelligentScienceandIntelligentDataEngineering.Berlin,Heidelberg:Springer, 2013:72-81.
[74]KovarL,GleicherM.Flexibleautomaticmotionblendingwithregistrationcurves[C]//ACMSiggraph/eurographicsSymposiumonComputerAnimation.SanDiego,California,USA:ACM, 2003:214-224.
[75]WitkinA,PopovicZ.Motionwarping[C]//ConferenceonComputerGraphicsandInteractiveTechniques. [S.l.]:ACM, 1995:105-108.
[76]WangJ,BodenheimerB.Synthesisandevaluationoflinearmotiontransitions.[J].ACMTransactionsonGraphics, 2008, 27(1):329-339.
[77]OshitaM.Interactivemotionsynthesiswithoptimalblending[J].ComputerAnimationandVirtualWorlds, 2014, 25(3/4):311-319.
[78]KovarL,GleicherM,PighinF.Motiongraphs[J].ACMTransactionsonGraphics, 2002, 21(3):473-482.
[79]ArikanO,ForsythDA.Interactivemotiongenerationfromexamples[J].ACMTransactionsonGraphics, 2002, 21(3):483-490.
[80]LeeJ,ChaiJ,ReitsmaPSA,etal.Interactivecontrolofavatarsanimatedwithhumanmotiondata[J].ACMTransactionsonGraphics, 2002, 21(3):491-500.
[81]HeckR,GleicherM.Parametricmotiongraphs[J].ACMSymposiumonInteractivedGraphics, 2007, 2007:129-136.
[82]KwonT,ShinSY.Motionmodelingforon-linelocomotionsynthesis[C]//ACMSiggraph/eurographicsSymposiumonComputerAnimation(SCA).LosAngeles,CA,USA:ACM, 2005:29-38.
[83]MinJ,ChenYL,ChaiJ.Interactivegenerationofhumananimationwithdeformablemotionmodels[J].ACMTransactionsonGraphics, 2009, 29(1):89-97.
[84]ShinHJ,LeeJ.Motionsynthesisandeditinginlow-dimensionalspaces:Researcharticles[J].ComputerAnimation&VirtualWorlds, 2006, 17(3/4):219-227.
[85]王宇杰, 肖俊, 魏寶剛. 基于非線性流形學(xué)習(xí)的3維人體運(yùn)動(dòng)合成[J]. 中國圖象圖形學(xué)報(bào), 2010, 15(6):936-943.
WangYujie,XiaoJun,WeiBaogang. 3Dhumanmotionsynthesisbasedonnonlinearmanifoldlearning[J].JournalofImage&Graphics, 2010, 15(6):936-943.
[86]LiuH,HeF,CaiX,etal.Humanmotionsynthesisusingwindow-basedlocalprincipalcomponentanalysis[C]//InternationalConferenceonComputer-AidedDesignandComputerGraphics.Jinan,Shandong,China:IEEE, 2011:282-287.
[87]SafonovaA,HodginsJK,PollardNS.Synthesizingphysicallyrealistichumanmotioninlow-dimensional,behavior-specificspaces[J].ACMTransactionsonGraphics, 2004, 23(3):514-521.
[88]李淳芃, 王兆其, 夏時(shí)洪. 人體運(yùn)動(dòng)的函數(shù)數(shù)據(jù)分析與合成[J]. 軟件學(xué)報(bào), 2009, 20(6):1664-1672.
LiChunpeng,WangZhaoqi,XiaShihong,etal.Motionsynthesisforvirtualhumanusingfunctionaldataanalysis[J].JournalofSoftware, 2009, 20(6):1664-1672.
[89]劉更代, 徐明亮, 張明敏. 基于獨(dú)立時(shí)空特征空間的人體運(yùn)動(dòng)合成[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(3):464-472.
LiuGengdai,XuMingliang,ZhangMingmin.Humanmotionsynthesisbasedonindependentspatio-temporalfeaturespace[J].ChineseJournalofComputers, 2011, 34(3):464-472.
[90]藍(lán)榮祎, 孫懷江. 基于逆運(yùn)動(dòng)學(xué)和重構(gòu)式ICA的人體運(yùn)動(dòng)風(fēng)格分析與合成[J]. 自動(dòng)化學(xué)報(bào), 2014, 40(6):1135-1147.
LanRongyi,SunHuaijiang.StyleanalysisandhumanlocomotionsynthesisbasedoninversekinematicsandreconstructiveICA[J].ActaAutomaticaSinica, 2014, 40(6):1135-1147.
[91]藍(lán)榮祎, 孫懷江. 人體運(yùn)動(dòng)的稀疏語義參數(shù)化模型與交互式合成[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2013, 25(3):341-349.
LanRongyi,SunHuaijiang.Asparsesemanticparametricmodelforinteractivemotionsynthesis[J].JournalofComputer-AidedDesign&ComputerGraphics, 2013, 25(3):341-349.
[92]夏貴羽, 孫懷江. 模板化的人體運(yùn)動(dòng)合成[J]. 自動(dòng)化學(xué)報(bào), 2015, 41(4):758-771.
XiaGuiyu,SunHuaijiang.Templatedhumanmotionsynthesis[J].ActaAutomaticaSinica, 2015, 41(4):758-771.
[93]HoldenD,SaitoJ,KomuraT.Adeeplearningframeworkforcharactermotionsynthesisandediting[J].ACMTransactionsonGraphics, 2016, 35(4):1-11.
Survey on Reuse of Human Motion Capture Data
Sun Huaijiang, Xia Guiyu, Zhang Guoqing, Feng Lei
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, 210094, China)
Human motion capture data, as a new type of multimedia data, is widely used in many areas because of its high fidelity, but the expensive motion capture equipment yields the high cost of the use of motion capture data. Therefore, the technologies of motion capture data reuse become the effective means to solve the problem. However, the complex structure and characteristics of motion capture data make the motion capture data reuse challenging. Even it has been researched for many years, there are still many problems to be solved and more attentions and research efforts are needed. In this paper, in terms of the important technologies used in the process of motion capture data reuse, we give introductions on the research significance, difficulties, strategy and used models of current methods and so on. And we give a detailed description on some representative methods. Finally, we conclude the research advances of motion capture data reuse and discuss the possible directions for future works. This aims to cause the deep thinking of this field and provides a valuable reference for the future research.
human motion; computer animation; motion capture; motion reuse; machine learning
2016-11-06;
2017-01-10
TP39
A
孫懷江(1968-),男,教授,研究方向:神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和人體運(yùn)動(dòng)捕獲數(shù)據(jù)分析與合成,E-mail:sunhuaijiang@njust.edu.cn。
夏貴羽(1989-),男,博士研究生,研究方向:模式識別與機(jī)器學(xué)習(xí)、人體運(yùn)動(dòng)捕獲數(shù)據(jù)分析與重用。
張國慶(1986-),男,博士研究生,研究方向:模式識別與機(jī)器學(xué)習(xí)、圖像處理與計(jì)算機(jī)視覺,E-mail:xiayang14551@163.com。
封磊(1987-),男,博士研究生,研究方向:模式識別與機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和壓縮感知。