亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        跨視角步態(tài)識別綜述

        2023-05-20 07:37:30許文正黃天歡賁晛燁曾翌張軍平
        中國圖象圖形學(xué)報 2023年5期
        關(guān)鍵詞:步態(tài)卷積數(shù)據(jù)庫

        許文正,黃天歡,賁晛燁*,曾翌,張軍平

        1.山東大學(xué)信息科學(xué)與工程學(xué)院,青島 266237;2.復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院,上海 200437

        0 引 言

        步態(tài)識別是指通過一個人的行走方式來確定其身份。行走方式可以通過許多傳感設(shè)備記錄,如壓力傳感器、加速度傳感器、陀螺儀和攝像機等。其中,攝像機是日常生活中常見的視覺傳感設(shè)備,由攝像機拍攝的步態(tài)視頻可以直接使用,也可以通過前景—背景分割轉(zhuǎn)換為二值化的輪廓圖序列。隨著公共場所監(jiān)控攝像頭的大規(guī)模部署,基于視頻的步態(tài)識別成為目前主流的步態(tài)識別方式。

        與人臉、指紋和虹膜等其他生物特征識別方法相比,基于視頻的步態(tài)識別具有許多獨特優(yōu)勢。首先,步態(tài)特征可以通過攝像頭從遠(yuǎn)距離以較低的分辨率獲取,而人臉、虹膜等特征均需要近距離采集,指紋還需要接觸式采集;其次,步態(tài)識別不需要被識別者的明確配合,可以以其不易察覺的方式進行,而其他識別方法則可能出現(xiàn)被識別者拒絕配合的情況;最后,步態(tài)特征難以偽裝或隱藏,而人臉識別系統(tǒng)則很容易被假冒圖像或佩戴口罩所欺騙?;谝陨溪毺貎?yōu)勢,步態(tài)識別在安防監(jiān)控、調(diào)查取證和日常考勤等場景下具有廣闊的應(yīng)用前景。

        然而,目前基于視頻的步態(tài)識別系統(tǒng)的魯棒性還有待提升,其性能很容易受到視角變化、著裝、攜物和遮擋等協(xié)變量的影響。在這些協(xié)變量中,視角的變化在實際應(yīng)用中經(jīng)常發(fā)生,并會使行人的外觀產(chǎn)生很大改變。因此,實現(xiàn)跨視角的步態(tài)識別一直是該領(lǐng)域最具挑戰(zhàn)性和最重要的任務(wù)之一,許多學(xué)者對此進行了研究。1994 年,Niyogi 和Adelson(1994)首次將步態(tài)特征用于身份識別,但僅研究了步行者的側(cè)視輪廓。2006 年,Han 和Bhanu(2006)提出了步態(tài)能量圖(gait energy image,GEI),通過對步態(tài)周期中的二值輪廓求平均值,將步態(tài)中的時空信息聚合到單個圖像中,這種表示方法后來得到廣泛使用。2015 年,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)首次用于步態(tài)識別(Wu 等,2015)。隨后的幾年中,新的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不斷涌現(xiàn),步態(tài)識別的性能得到大幅提高。

        隨著近幾年步態(tài)識別的快速發(fā)展,許多綜述文獻對該領(lǐng)域的進展進行了總結(jié)。一些文獻(何逸煒和張軍平,2018;王科俊 等,2019;Nambiar 等,2020;Sepas-Moghaddam 和Etemad,2023;Santos 等,2023)專注于綜述基于視頻的步態(tài)識別研究,另一些(Connor 和Ross,2018;Wan 等,2019)則同時關(guān)注基于視頻和其他傳感器的方法。2019 年之前的綜述沒有涵蓋近兩年最新的深度學(xué)習(xí)方法,而兩篇最新的綜述 文 章(Sepas-Moghaddam 和Etemad,2023;Santos等,2023)則只回顧了基于深度學(xué)習(xí)的方法,沒有專門關(guān)注步態(tài)識別中的跨視角問題。

        由于賁晛燁等人(2012)在10 多年前綜述了2012 年之前的步態(tài)特征表達及識別方法,因此,不同于現(xiàn)有的綜述文獻,本文重點關(guān)注2012 年之后基于視頻的跨視角步態(tài)識別的重要研究,并且不局限于基于深度學(xué)習(xí)的方法。

        1 跨視角步態(tài)數(shù)據(jù)庫

        步態(tài)數(shù)據(jù)庫是研究步態(tài)識別不可或缺的工具,數(shù)據(jù)庫中的數(shù)據(jù)規(guī)模和協(xié)變量等因素會影響步態(tài)識別算法的性能。表1 按時間順序總結(jié)了幾種主流的跨視角步態(tài)數(shù)據(jù)庫。其中,CASIA-A(CASIA gait database,dataset A)、CASIA-B 和CASIA-E 數(shù)據(jù)庫由中國科學(xué)院自動化研究所建立。CASIA-A 建立時間較早,所含樣本和視角數(shù)也較少;CASIA-B 是使用最廣泛的跨視角步態(tài)數(shù)據(jù)庫,包含了相對較多的樣本數(shù)、視角數(shù)和其他協(xié)變量,其他數(shù)據(jù)庫很少在這3 方面均占優(yōu)勢;CASIA-E 是新建立的大規(guī)模數(shù)據(jù)庫,包含更多的樣本和協(xié)變量,增加了俯視視角和熱紅外模態(tài)子集,未來具有很好的應(yīng)用前景。USF(University of South Florida)數(shù)據(jù)庫的協(xié)變量較多,但僅有兩個視角,在早期跨視角步態(tài)識別工作中應(yīng)用較多。OU-ISIR Speed(OU-ISIR gait database,treadmill dataset A)、OU-ISIR Clothing、OU-ISIR MV、OU-ISIR LP(OU-ISIR gait database,large population dataset)、OU-MVLP(OU-ISIR gait database,multi-view large population dataset)和OU-MVLP Pose 均由日本大阪大學(xué)建立。OU-ISIR Speed 和OU-ISIR Clothing 數(shù)據(jù)庫分別包含速度和服裝協(xié)變量,但所含樣本和視角數(shù)較少;OU-ISIR MV 包含較多視角數(shù),但樣本規(guī)模較小且沒有其他協(xié)變量;OU-ISIR LP和OU-MVLP使用較廣泛,其中OU-ISIR LP 視角較少且變化范圍小,OU-MVLP 包含最多的樣本,但沒有其他協(xié)變量;OU-MVLP Pose 在OU-MVLP 的基礎(chǔ)上提取了姿勢序列。Gait3D 是最近提出的數(shù)據(jù)庫,其中采用了39 個攝像頭采集的步態(tài)信息對人體進行3 維建模。圖1給出了常用數(shù)據(jù)庫的采集環(huán)境示例。

        表1 主流的跨視角步態(tài)數(shù)據(jù)庫Table 1 Popular cross-view gait databases

        圖1 常用數(shù)據(jù)庫采集環(huán)境示例Fig.1 Examples of commonly used database acquisition environments((a)USF;(b)CASIA-B;(c)OU-ISIR LP;(d)OU-MVLP)

        2 跨視角步態(tài)識別方法

        步態(tài)識別通常包括數(shù)據(jù)采集、特征表示和分類3 個基本步驟,許多綜述對此進行詳細(xì)介紹。本文重點關(guān)注基于視頻的跨視角步態(tài)識別方法,從特征表示和分類的角度介紹針對跨視角問題的解決方案,包括基于3 維步態(tài)信息的識別方法、基于視角轉(zhuǎn)換模型的識別方法、基于視角不變特征的識別方法和基于深度學(xué)習(xí)的識別方法。

        2.1 基于3維步態(tài)信息的識別方法

        3 維步態(tài)信息方法從多個拍攝視角的步態(tài)視頻中提取信息,構(gòu)建3 維步態(tài)模型用于跨視角步態(tài)識別。Shakhnarovich 等人(2001)通過4 個靜態(tài)校準(zhǔn)攝像頭生成行人的多視角分割輪廓,用于構(gòu)建3 維視覺外殼模型,并通過最近鄰算法進行分類。視覺外殼模型具有可以重建任何3 維形狀的通用性優(yōu)勢,但對分割錯誤非常敏感。另外,大多數(shù)視覺外殼算法不會對輪廓形狀中的不確定性建模。為了解決以上問題,Grauman 等人(2003)提出了一種用于視覺外殼重建的貝葉斯方法,在視覺外殼重建中使用基于類的先驗知識來減少輪廓提取時分割錯誤的影響。Gu 等人(2010)提出了一種融合姿勢恢復(fù)和分類的視角無關(guān)框架,使用視覺外殼重建體積序列,采用無標(biāo)記姿勢恢復(fù)方法從體積數(shù)據(jù)中獲取3 維人體關(guān)節(jié),并通過基于樣本的隱馬爾可夫模型(exemplarbased hidden Markov models,EHMM)對歸一化關(guān)節(jié)位置進行建模,然后采用最大后驗(maximum a posteriori,MAP)分類器進行分類。

        為了在垂直高傾角和透視失真的情況下跟蹤和估計步行者的3 維身體姿勢,Rogez 等人(2014)使用低維流形對3 維姿勢和相機視角進行建模并學(xué)習(xí)輪廓的生成模型,通過在場景的水平面和姿勢視角流形上聯(lián)合使用遞歸貝葉斯采樣,進行具有高透視效果的視角不變3 維步態(tài)跟蹤。然而,這種跟蹤必須在人為設(shè)置的環(huán)境中進行。Luo 等人(2016)提出了基于3 維人體重建和虛擬姿勢合成的多協(xié)變量步態(tài)識別方法(arbitrary view gait recognition based on body reconstruction and virtual posture synthesis,AVGR-BRPS),框架如圖2 所示,利用多視角步態(tài)輪廓估計的靜態(tài)形狀和運動姿勢特征組合形成3 維步態(tài)向量,進而構(gòu)建3 維步態(tài)詞典。與視覺外殼模型相比,這種參數(shù)化的模型更加精確。該方法還引入了基于壓縮感知的自遮擋優(yōu)化同步稀疏表示模型,并通過在稀疏表示中搜索最小重構(gòu)殘差進行分類,步態(tài)模型輸出Y的最終分類可以表示為

        圖2 AVGR-BRPS框架(Luo等,2016)Fig.2 The framework of AVGR-BRPS(Luo et al.,2016)

        式中,A是訓(xùn)練集詞典,是稀疏表示向量,δi是選擇第i類相關(guān)系數(shù)的特征函數(shù)。為了解決背景變化、遮擋等造成的輪廓分割不完整問題,Tang 等人(2017)提出了3 維步態(tài)局部相似性匹配框架。首先使用水平集能量消耗函數(shù)估計3 維姿勢,然后使用拉普拉斯形變能量函數(shù)實現(xiàn)身體形狀變形以修復(fù)不完整的步態(tài)輪廓,最后通過多線性子空間分類器和多數(shù)投票法融合,進行任意視角的步態(tài)識別。

        基于3 維步態(tài)信息的方法對大視角變化具有較好的魯棒性,但是往往需要昂貴復(fù)雜的校準(zhǔn)多攝像機系統(tǒng),或大量的計算和幀同步,這些因素都限制了其在現(xiàn)實監(jiān)控場景中的應(yīng)用。

        2.2 基于視角轉(zhuǎn)換模型的識別方法

        典型的視角轉(zhuǎn)換模型(view transformation model,VTM)利用奇異值分解(singular value decomposition,SVD)將特征矩陣分解為視角無關(guān)和對象無關(guān)矩陣,設(shè)g是受試者m(m= 1,2,…,M)在視角θi(i= 1,2,…,I)下的步態(tài)特征。奇異值分解的過程為

        式中,向量v是受試者任何視角下的固有步態(tài)特征,它構(gòu)成了視角無關(guān)矩陣;對象無關(guān)矩陣Pθ是投影矩陣,它可以將v投影為特定視角θ下的步態(tài)特征向量。從視角θi到θj的步態(tài)特征變換方式為

        式中,P是Pθi的偽逆。

        Makihara 等人(2006)提出了一種使用頻域特征和視角轉(zhuǎn)換模型從不同視角識別步態(tài)的方法。通過基于步態(tài)周期性的傅里葉分析提取頻域特征,即

        式中,Ngait是第i個子序列的幀長,g(x,y,n)表示第n幀輪廓坐標(biāo)(x,y)處的像素值,ω0是對應(yīng)于Ngait的基角頻率,Gi(x,y,k)是g(x,y,n)的離散傅里葉變換。該方法使用多個視角的多人訓(xùn)練集來獲得視角轉(zhuǎn)換模型,并在識別階段將注冊特征轉(zhuǎn)換為與輸入特征相同的視角方向以進行匹配。

        基于SVD(singular value decomposition)的VTM(view transformation model)方法假設(shè)步態(tài)特征矩陣可以分解為視角無關(guān)和對象無關(guān)子矩陣,且二者沒有重疊元素,但在數(shù)學(xué)上尚未得到驗證。此外,使用全局特征進行視角轉(zhuǎn)換可能會因環(huán)境變化而產(chǎn)生噪聲和不確定性。為了克服這些局限性,Kusakunniran等人(2010)將VTM 的構(gòu)造重新表述為一個回歸問題,提出了利用支持向量回歸(support vector regression,SVR)從不同視角的步態(tài)能量圖(gait energy images,GEI)建立VTM 的新方法,通過源視角下的局部興趣區(qū)域(region of interest,ROI)預(yù)測目標(biāo)視角下相應(yīng)的運動信息。設(shè)和分別為受試者m在源視角θi和目標(biāo)視角θj下的GEI,則通過預(yù)測的回歸模型f定義為

        式中,p表示g的第p個像素,ROI表示g上與p相關(guān)的局部興趣區(qū)域,<·,·> 表示點積運算,w和b是可學(xué)習(xí)的參數(shù)。由于VTM 的大小僅取決于ROI 的大小和支持向量的數(shù)量,計算復(fù)雜性可以得到很好的控制,同時系統(tǒng)對噪聲更具魯棒性。隨后,Kusakunniran 等人(2012)又提出了另一種基于回歸的VTM,采用基于彈性網(wǎng)絡(luò)的稀疏回歸來避免過擬合,為構(gòu)建VTM提供了更穩(wěn)定的回歸模型。

        在利用SVD 或回歸訓(xùn)練VTM 時,目標(biāo)視角與離散的訓(xùn)練視角不一致會導(dǎo)致精度下降。為了解決視角離散性問題,Muramatsu等人(2015)提出了用于跨視角匹配的任意視角轉(zhuǎn)換模型(arbitrary VTM,AVTM),將3 維步態(tài)體積投影到目標(biāo)視角,生成2 維步態(tài)輪廓以提取步態(tài)特征。盡管使用了3 維步態(tài)體積,但不同于視覺外殼方法,該方法只需要獨立受試者而不是目標(biāo)受試者的數(shù)據(jù)。該方法還將步態(tài)特征分為不同身體部分,分別估計每個部分合適的目標(biāo)視角,并使用轉(zhuǎn)換到估計視角的一對步態(tài)特征計算每個部分的匹配分?jǐn)?shù),從而抑制轉(zhuǎn)換誤差并提高識別精度。VTM 方法的另一個問題是不同步態(tài)特征對的視角轉(zhuǎn)換質(zhì)量可能不同,這會產(chǎn)生不均勻偏差的匹配分?jǐn)?shù)。為此,Muramatsu等人(2016)提出了具有質(zhì)量度量和分?jǐn)?shù)歸一化框架的VTM,如圖3所示,量化了編碼偏差程度的轉(zhuǎn)換質(zhì)量Qt和相異性邊界質(zhì)量Qb,用于計算兩個步態(tài)特征來自同一受試者的后驗概率以及匹配分?jǐn)?shù)。Qt和Qb的計算式為

        圖3 包含質(zhì)量度量和分?jǐn)?shù)歸一化框架的VTM(Muramatsu等,2016)Fig.3 VTM incorporating a score normalization framework with quality measures(Muramatsu et al.,2016)

        式中,x為視角θ1下的注冊步態(tài)特征,x為視角θ2下的查詢步態(tài)特征,Rθ1和Rθ2為對象無關(guān)的投影矩陣,R和R是其對應(yīng)的偽逆。

        基于VTM 的方法不需要多攝像機系統(tǒng)與幀同步,且在測試階段計算速度快,適合實時應(yīng)用。但VTM 的參數(shù)對用于訓(xùn)練的多視角圖像非常敏感,需要足夠的訓(xùn)練樣本來構(gòu)建更通用的VTM。另外,雖然VTM 使變換后的步態(tài)特征與原始步態(tài)特征之間的誤差最小化,但其沒有考慮區(qū)分性因素。

        2.3 基于視角不變特征的識別方法

        視角不變特征提取的核心思想是從跨視角步態(tài)數(shù)據(jù)中提取不隨視角變化的步態(tài)特征。早期方法嘗試從步態(tài)中提取手工制作的視角不變特征。例如,Bobick 和Johnson(2001)恢復(fù)了受試者的靜態(tài)身體和步幅參數(shù),并使用線性回歸映射不同視角間的特征。Wang 等人(2003)提出了基于統(tǒng)計形狀分析的步態(tài)識別算法,使用改進的背景減法提取行人的運動外輪廓,然后將輪廓的時間變化表示為公共坐標(biāo)系中復(fù)向量配置的相關(guān)序列,并通過Procrustes 形狀分析(Procrustes shape analysis,PSA)獲得平均形狀作為步態(tài)特征,最后采用基于全Procrustes 距離度量的監(jiān)督模式分類進行識別。Jean等人(2009)使用從輪廓序列中提取的雙腳和頭部的2 維軌跡作為步態(tài)特征,并對其進行視角規(guī)范化。Goffredo等人(2010)將無標(biāo)記運動估計的下肢姿勢作為視角不變的步態(tài)特征,為了解決特征空間高維性的問題,在識別階段采用自適應(yīng)順序前向浮動選擇搜索算法,使用基于驗證的評估準(zhǔn)則找到分類錯誤最小化的特征子集,并確保不同類別之間的良好可分性。該方法可以有效地進行大視角變化下的步態(tài)識別,但在視角變化較小或正面視角情況下性能較差,且無標(biāo)記運動估計不具有魯棒性。Kusakunniran 等人(2013)通過改進的PSA方案從步態(tài)輪廓而不是肢體姿勢構(gòu)建視角不變特征,并基于Procrustes 距離連續(xù)測量步態(tài)相似性,增加了方法的魯棒性。

        視角相關(guān)信息往往復(fù)雜地嵌入步態(tài)中,使得視角不變特征很難準(zhǔn)確提取。為此,一些方法將原始步態(tài)特征映射到判別子空間,以更好地獲得視角不變特征。例如,Cheng 等人(2008)通過高斯過程潛變 量 模 型(Gaussian process latent variable model,GP-LVM)將步態(tài)輪廓非線性轉(zhuǎn)化為低維嵌入,并通過隱馬爾可夫模型(hidden Markov model,HMM)對步態(tài)序列的時間動力學(xué)進行建模。Bashir 等人(2010)沒有將步態(tài)特征投影到一個公共空間,而是通過典型相關(guān)分析(canonical correlation analysis,CCA)將每對步態(tài)特征投影到兩個具有最大相關(guān)性的子空間。對于一對步態(tài)特征Gx和Gy,CCA 的目標(biāo)是找到相應(yīng)的投影矩陣Px和Py,使投影后Gx和Gy間的相關(guān)系數(shù)ρ最大,即

        式中,Cxx和Cyy分別為Gx和Gy的集合內(nèi)協(xié)方差矩陣,Cxy和Cyx為集合間協(xié)方差矩陣。Px和Py可由特征值方程求得,具體為

        Hu(2014)提出的稀疏局部判別典型相關(guān)分析(sparse local discriminant CCA,SLDCCA)采用局部稀疏約束對CCA 進行改進,進一步提出了不相關(guān)多線 性SLDCCA(uncorrelated multilinear SLDCCA,UMSLDCCA)框架,直接從多維步態(tài)特征中提取不相關(guān)的判別特征。Kusakunniran 等人(2014)注意到視角變化對不同部分的步態(tài)特征影響不同,并且來自不同視角的局部特征間存在相關(guān)性,使用二分圖對不同視角特征間的相關(guān)性進行建模,通過運動聯(lián)合聚類將不同視角中最相關(guān)的步態(tài)片段劃分為同一組,并在這些分組上應(yīng)用CCA,而不是像Bashir 等人(2010)那樣使用全局步態(tài)特征,其模型框架如圖4所示。為了克服CCA 在處理高維特征時計算困難的不足,Xing 等人(2016)提出完全典型相關(guān)分析(complete canonical correlation analysis,C3A),將奇異廣義特征值計算轉(zhuǎn)化為兩個特征值分解問題,以更低的計算成本更精確地計算投影向量。不同于Xing 等人(2016)將向量作為輸入,Ben 等人(2020)提出耦合雙線性判別投影(coupled bilinear discriminant projection,CBDP),直接將不同視角的原始GEI(而不是向量化GEI)映射到公共矩陣子空間,從而保留了空間信息。另外,與無監(jiān)督CCA 相比,該方法能最大化類間距離并最小化類內(nèi)距離。為了解決不同視角間可能共享的步態(tài)信息沒有得到充分利用的問題,Ben 等人(2019a)提出了耦合塊對齊(coupled patch alignment,CPA)算法,首先構(gòu)建由樣本及其類內(nèi)和類間近鄰組成的塊,為每個塊設(shè)計目標(biāo)函數(shù),然后將所有局部獨立的塊組合成一個統(tǒng)一的目標(biāo)函數(shù)。不同于CCA 使用全局樣本集,CPA 根據(jù)類內(nèi)和類間近鄰度量的局部塊對集合進行重新排序。上述大多數(shù)方法都訓(xùn)練了多個不同視角的映射矩陣,Hu等人(2013)則提出了采用酉線性投影的視角不變判別投影(view-invariant discriminative projection,ViDP),ViDP 的單一性使得跨視角步態(tài)識別能夠在查詢視角未知的情況下進行。Hu(2013)還設(shè)計了一種稱為增強Gabor 步態(tài)(enhanced Gabor gait,EGG)的步態(tài)特征,通過非線性映射對統(tǒng)計和結(jié)構(gòu)特征進行編碼,并使用正則化局部張量判別分析(regularized locally tensor discriminant analysis,RLTDA)提取對視角變化魯棒的非線性流形。

        圖4 Kusakuniran等人(2014)提出的模型框架Fig.4 The framework of the model proposed by Kusakuniran et al.(2014)

        一些工作還引入度量學(xué)習(xí)方法來提取更多有判別力的信息。例如,Martín-Félez和Xiang(2012)將步態(tài)識別作為一個二分排序問題。對于一對查詢樣本q和注冊樣本g,二分排序旨在學(xué)習(xí)排序分?jǐn)?shù)函數(shù),即

        式中,x是表示(q,g)對的特征向量,ω是權(quán)重向量,表示每個特征對排序分?jǐn)?shù)δ的重要性,更高的分?jǐn)?shù)意味著注冊g與查詢q更相關(guān)。通過RankSVM(ranking support vector machines)算法在高維空間中學(xué)習(xí)排序函數(shù),使得真實匹配和錯誤匹配比在原始空間中更易分離。Lu 等人(2014)提出了基于稀疏重建的度量學(xué)習(xí)方法,通過學(xué)習(xí)距離度量來最小化類內(nèi)稀疏重建誤差,同時最大化類間稀疏重建誤差,從而利用有判別力的信息進行識別。Ben 等人(2019b)提出了基于耦合度量學(xué)習(xí)的通用張量表示框架,從GEI 中提取不同尺度和方向的Gabor 特征,然后通過提出的張量耦合映射準(zhǔn)則,將基于Gabor的表示投影到公共子空間進行識別。

        在視角差異較大的情況下,這些方法有時很難為特征找到一個魯棒的視角不變子空間或度量。

        2.4 基于深度學(xué)習(xí)的識別方法

        近幾年,一些深度學(xué)習(xí)方法用于提取視角不變步態(tài)特征,取得了很好的效果。深度學(xué)習(xí)通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)步態(tài)特征的深層表示,本節(jié)介紹幾種常見的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在提取步態(tài)時空特征中的應(yīng)用。

        2.4.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷 積 神 經(jīng) 網(wǎng) 絡(luò)(convolution neural network,CNN)通常是由卷積層、池化層和全連接層組成的前饋神經(jīng)網(wǎng)絡(luò)。通過多層卷積和池化操作,CNN 能夠?qū)W習(xí)圖像的整體特征而不受局部空間變化的影響。因此常用于從不同視角的步態(tài)圖像中提取不受視角變化影響的空間步態(tài)特征。Wu 等人(2015)從步態(tài)序列中隨機挑選一些輪廓,并輸入CNN 中學(xué)習(xí)視角不變的特征,這種方法的問題是隨機選擇的輪廓圖像集沒有考慮步態(tài)特征的有用動態(tài)信息。為此,Wu等人(2017)將步態(tài)能量圖(gait energy image,GEI)作為輸入,并對3 種不同深度和結(jié)構(gòu)的深度CNN 進行了廣泛評估。GEI的構(gòu)建方式為

        式中,N是圖像序列一個完整周期中的幀數(shù),I(x,y,n)表示第n幀輪廓坐標(biāo)(x,y)處的像素值。通過對步態(tài)周期中的輪廓圖求平均值,GEI 不僅節(jié)省了存儲空間和計算時間,而且能在一定程度上反映步態(tài)序列的時間信息。Song等人(2019)將輪廓分割、特征提取、特征學(xué)習(xí)和相似性度量這幾個步驟集成到一個框架中,首次提出了用于跨視角步態(tài)識別的端到端網(wǎng)絡(luò)GaitNet。該網(wǎng)絡(luò)由用于步態(tài)分割和分類的兩個卷積神經(jīng)網(wǎng)絡(luò)組成,這兩個網(wǎng)絡(luò)在聯(lián)合學(xué)習(xí)過程中建模,這種策略大幅簡化了傳統(tǒng)的分步方式,并且每個組件可以在聯(lián)合學(xué)習(xí)中顯著提高性能。Takemura 等人(2019)詳細(xì)討論了用于跨視角步態(tài)識別的CNN 的網(wǎng)絡(luò)結(jié)構(gòu),指出不同視角輸入對間的差異是在經(jīng)過多層卷積和池化后提取的深層特征上計算的,因此即使在視角變化較大的情況下,CNN 也能夠透過類內(nèi)外觀差異學(xué)習(xí)到更為本質(zhì)的步態(tài)特征;而在視角變化很小時,通過在較淺層上獲取細(xì)微的空間差異,可以提高網(wǎng)絡(luò)的類間區(qū)分性。受該方法的啟發(fā),Xu 等人(2021)提出了一種用于跨視角步態(tài)識別的成對空間變換網(wǎng)絡(luò)(pairwise spatial transformer network,PSTN),首先通過CNN 學(xué)習(xí)像素級的空間變換參數(shù),將不同視角的輸入GEI 轉(zhuǎn)換到它們共同的中間視角,再輸入后續(xù)基于CNN 的識別網(wǎng)絡(luò)中,從而減少識別步驟之前由于視角差異而導(dǎo)致的特征對齊錯誤,進一步提高了基于CNN 的跨視角步態(tài)識別精度。

        步態(tài)能量圖簡單易實現(xiàn),但容易丟失細(xì)粒度的時空信息,而圖像序列的順序約束可能會使步態(tài)識別缺乏靈活性。為了解決這個問題,Chao 等人(2022)提出了GaitSet模型,如圖5所示,將步態(tài)視為無序的幀集合,使用CNN 從每個輪廓中獨立提取幀級特征。該方法不受幀順序和幀長的影響,并且可以將不同場景下拍攝的不同視頻幀進行拼接。同時,該方法還將水平金字塔匹配(horizontal pyramid mapping,HPM)引入步態(tài)識別,通過將特征圖分割成不同尺度的水平條帶,綜合利用局部和全局空間特征。Hou 等人(2020)同樣將步態(tài)輪廓視為無序集,提出了步態(tài)橫向網(wǎng)絡(luò)(gait lateral network,GLN),利用深層CNN 中固有的特征金字塔聚合由淺至深的不同卷積層提取的特征來增強步態(tài)的區(qū)分性表示。GLN 還具有一個緊湊塊,使其與GaitSet 相比可以在不影響精度的前提下顯著降低步態(tài)表示的維數(shù)。Han 等人(2022)從度量學(xué)習(xí)的角度進一步改進 了GaitSet,使 用 角softmax(angular softmax,A-Softmax)損失施加一個角裕度來提取可分離特征,其表達式為

        圖5 GaitSet框架(Chao等,2022)Fig.5 The framework of GaitSet(Chao et al.,2022)

        式中,N表示訓(xùn)練集中的樣本數(shù),xi是提取的第i個樣本的特征向量,yi表示其對應(yīng)的標(biāo)簽,ψ(θyi,i)=(-1)kcos (mθyi,i) - 2k,θyi,i是特征向量xi和網(wǎng)絡(luò)權(quán)重Wyi間的夾角,,k∈{0,…,m-1},m是控制角裕度大小的整數(shù)超參數(shù)。該方法還聯(lián)合三元組損失(triplet loss)提取更有判別力的特征。三元組損失是步態(tài)識別中廣泛應(yīng)用的損失函數(shù),其表達式為

        式中,da,p和da,n分別表示相同標(biāo)簽和不同標(biāo)簽樣本間的距離,m是用于控制da,n比da,p大多少的超參數(shù),通過適當(dāng)調(diào)整m,可以在保證模型收斂的前提下提高模型的區(qū)分度。

        為了充分利用步態(tài)信息,許多方法將CNN 與1 維卷積等結(jié)構(gòu)相結(jié)合,在整體到局部的多尺度時空維度上提取視角不變的步態(tài)特征。例如,汪堃等人(2020)利用水平金字塔映射提取多尺度空間特征,并通過對輪廓圖特定區(qū)域進行隨機遮擋,使模型更關(guān)注著裝和攜物等協(xié)變量影響范圍外的局部步態(tài)特征。Fan 等人(2020)提出的GaitPart 將人體分成幾個部分,通過基于1 維卷積的微動捕捉模塊提取局部短距離時空特征,并使用聚焦卷積層(focal convolution layer,F(xiàn)Conv)來增強空間特征的細(xì)粒度學(xué)習(xí),如圖6 所示,圖中C、H和W分別為特征圖的通道數(shù)、高和寬。Wu等人(2021)注意到局部身體部位對識別性能的貢獻隨著不同的視角和著裝條件而變化,提出了一種條件感知比較方案來衡量步態(tài)對的相似性,并設(shè)計了膨脹時間金字塔卷積(dilated temporal pyramid convolution,DTPC)來提取多時間跨度特征。為了進一步學(xué)習(xí)靈活、魯棒的多尺度時間特征,Huang 等人(2021a)提出了一種上下文敏感的時間特征學(xué)習(xí)網(wǎng)絡(luò),將時間特征聚集在幀級、短期和長期3 個尺度上,根據(jù)時間上下文信息獲得運動表示,并通過顯著空間特征學(xué)習(xí)模塊選擇有判別力的空間局部特征。Li等人(2022)注意到很多方法以相同的概率從每一幀中提取特征,導(dǎo)致無法充分利用步態(tài)序列中包含相鄰人體部位最重要信息的關(guān)鍵幀。為此,通過引入殘差幀注意力機制關(guān)注步態(tài)序列的時間重要性以提取關(guān)鍵幀,并通過切片提取器分割和關(guān)聯(lián)相鄰的身體部位來增強空間細(xì)粒度學(xué)習(xí)。Hou等人(2022)則試圖同時找出序列中的每幀輪廓和輪廓中的每個部分在步態(tài)識別中的相對重要性,提出了步態(tài)質(zhì)量感知網(wǎng)絡(luò)(gait quality aware network,GQAN),通過幀質(zhì)量塊(frame quality block,F(xiàn)QBlock)和部分質(zhì)量塊(part quality block,PQBlock)兩個模塊評估每幀輪廓和每個部分的質(zhì)量。

        圖6 聚焦卷積層Fig.6 The focal convolution layer

        除了以上GEI、輪廓圖等基于外觀的表示方法,近年來基于模型的表示也用做卷積神經(jīng)網(wǎng)絡(luò)的輸入?;谀P偷谋硎痉椒▽σ暯恰⒄趽醯葏f(xié)變量具有魯棒性,但傳統(tǒng)模型往往難以準(zhǔn)確擬合。基于深度學(xué)習(xí)的姿勢估計方法很好地解決了這個問題。Liao 等人(2020)使用基于CNN 的OpenPose 估計步態(tài)的骨架信息,同時融合3 種手工特征,將它們共同作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。Li 等人(2020c)使用蒙皮多人線性(skinned multi-person linear,SMPL)模型進行人體建模,并使用預(yù)訓(xùn)練的人體網(wǎng)格恢復(fù)(human mesh recovery,HMR)網(wǎng)絡(luò)估計其參數(shù),最后使用CNN 或長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)進行識別,其模型框架如圖7 所示。與Liao(2020)等人先估計骨架信息再通過CNN提取判別性特征的兩步識別不同,Li等人(2020c)提出的整個網(wǎng)絡(luò)以端到端的方式進行訓(xùn)練。但是,以上兩種方法均提取步態(tài)模型的整體結(jié)構(gòu)或整體運動,而忽略了其局部模式。為此,Xu 等人(2022)提出了一種局部圖骨架描述符(local graphical skeleton descriptor,LGSD)來描述人體步態(tài)骨架的局部模式,并采用基于雙流CNN 的成對相似網(wǎng)絡(luò)來最大化真實匹配對的相似度、最小化虛假匹配對的相似度。徐碩等人(2022)將基于外觀和模型的表示方法相結(jié)合,分別使用GaitSet 網(wǎng)絡(luò)和5 層卷積網(wǎng)絡(luò)提取輪廓圖像和骨架特征,并通過通道注意力機制對二者進行融合,以結(jié)合兩種表示方法的優(yōu)點。

        圖7 Li等人(2020c)提出的模型框架Fig.7 The framework of the model proposed by Li et al.(2020c)

        2.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)通過帶自反饋的神經(jīng)元來處理時序數(shù)據(jù),在跨視角步態(tài)識別中常用于從步態(tài)序列中提取時間特征。長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(gated recurrent units,GRU)是兩種常用的RNN 變體。LSTM 的循環(huán)單元結(jié)構(gòu)如圖8(a)所示,上一時刻外部狀態(tài)ht-1和當(dāng)前輸入Xt經(jīng)過logistic 激活函數(shù)σ(·)和tanh激活函數(shù)計算出遺忘門ft、輸入門it、輸出門ot和候選狀態(tài)C~t,然后結(jié)合ft和it更新記憶單元Ct,最后結(jié)合ot更新外部狀態(tài)ht。GRU 的循環(huán)單元結(jié)構(gòu)如圖8(b)所示,它直接用更新門zt代替LSTM 的遺忘門和輸入門,同時通過重置門rt控制當(dāng)前候選狀態(tài)h~t對上一時刻外部狀態(tài)ht-1的依賴性。

        圖8 LSTM和GRU的循環(huán)單元Fig.8 Recurrent units of LSTM and GRU

        RNN 常與CNN 等其他網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合來學(xué)習(xí)步態(tài)序列中的時空信息。例如,Li 等人(2019)通過ResNet-50 模型和空間注意力組件從輪廓圖序列中提取與身份相關(guān)的空間特征,并將其輸入LSTM 單元以學(xué)習(xí)步態(tài)運動特征。同時,針對LSTM 的每個時間步的輸出對步態(tài)識別有不同的貢獻,提出了一種專注時間摘要(attentive temporal summary,ATS)組件來自適應(yīng)地為LSTM 的輸出分配不同的權(quán)重,以增強有判別力的時間步并抑制冗余時間步。Zhang 等人(2020)首先通過簡化的空間變換網(wǎng)絡(luò)定位人體輪廓的水平部位,然后利用CNN 提取每個水平部位的步態(tài)特征,最后引入LSTM 單元作為時間注意力模型來學(xué)習(xí)輸出特征序列的幀級注意力權(quán)重,從而更多地關(guān)注具有判別性的幀。此外,提出了稱為角中心損失(angle center loss,ACL)的步態(tài)相關(guān)損失函數(shù),通過為相同身份的每個視角學(xué)習(xí)多個子中心,更好地實現(xiàn)類內(nèi)跨視角特征的緊湊性。

        除了提取時間特征,RNN 還能用來學(xué)習(xí)步態(tài)圖像中局部分塊特征間的關(guān)系,從而使步態(tài)識別系統(tǒng)對視角變化更魯棒。Sepas-Moghaddam 和Etemad(2021)注意到基于多尺度時空特征表示的方法能有效地學(xué)習(xí)視角不變的步態(tài)特征,但這些學(xué)習(xí)到的局部特征往往直接連接成特征向量用于識別,忽略了它們之間的關(guān)系和位置屬性。為了解決這個問題,他們首次使用RNN 學(xué)習(xí)局部特征間的關(guān)系,其模型框架如圖9所示。首先通過CNN 和時間池化提取步態(tài)幀的卷積能量圖(gait convolutional energy maps,GCEM),然后采用雙向門控循環(huán)單元(bi-directional gated recurrent units,BGRU)學(xué)習(xí)GCEM 分割塊的前向和后向關(guān)系,最后使用注意力機制選擇性地關(guān)注重要的局部特征。

        圖9 Sepas-Moghaddam和Etemad(2021)提出的模型框架Fig.9 The framework of the model proposed by Sepas-Moghaddam and Etemad(2021)

        2.4.3 自編碼器

        自編碼器(auto encoder,AE)通過學(xué)習(xí)編碼器—解碼器結(jié)構(gòu)的最小化重建損失來提取輸入數(shù)據(jù)的潛在特征,圖10 展示了一個簡單的自編碼器結(jié)構(gòu),其中重建損失可以表示為

        圖10 自編碼器圖示Fig.10 The illustration of the auto encoder

        式中,N是一個批量中步態(tài)樣本的數(shù)目,xj和x′j分別表示輸入和輸出特征。在跨視角步態(tài)識別任務(wù)中,通過設(shè)計合理的損失函數(shù),自編碼器能夠?qū)⑿凶哒叩牟綉B(tài)特征與視覺外觀分離開來,從而利用編碼器提取的對外觀變化不敏感的步態(tài)表示進行識別。

        Zhang 等人(2019b)提出了一種自編碼器框架,通過交叉重建損失和步態(tài)相似性損失從RGB 圖像序列中學(xué)習(xí)姿勢特征和姿勢無關(guān)特征,并將姿勢特征輸入LSTM 生成基于序列的步態(tài)特征。最近,又將姿勢無關(guān)特征分離為規(guī)范特征和外觀特征,并通過設(shè)計規(guī)范一致性損失進一步提高識別的準(zhǔn)確性(Zhang 等,2022)。受Zhang 等人(2022)的啟發(fā),Li等人(2020b)將解糾纏思想擴展到直接從GEI 中解糾纏身份和協(xié)變量特征,因為基于輪廓的表示可以忽略RGB 中的顏色和紋理等無關(guān)信息。他們還通過將協(xié)變量特征從一個對象轉(zhuǎn)移到另一個對象來合成新的步態(tài)模板。Zhai等人(2022)則利用自編碼器從GEI 中分離身份和視角特征。如圖11 所示,其模型由視角編碼器、身份編碼器和步態(tài)解碼器組成。視角和身份編碼器分別對原始步態(tài)輸入的視角和身份特征進行編碼,步態(tài)解碼器使用它們的合并特征來重建輸入。為了更好地分離特征,他們使用了多種損失函數(shù),如通過視角回歸和身份模糊損失來確保視角特征只包含視角信息、通過不相似性損失來增加身份特征與視角特征間的分布差異。

        圖11 Zhai等人(2022)提出的模型框架Fig.11 The framework of the model proposed by Zhai et al.(2022)

        除了將自編碼器用于分離協(xié)變量特征,Zhang等人(2021)還提出了一種基于卷積變分自編碼器和深度庫普曼(Koopman)嵌入的步態(tài)動力學(xué)框架,將Koopman 算子作為線性化嵌入空間的動力學(xué)特征用于跨視角步態(tài)識別,為步態(tài)識別系統(tǒng)提供了堅實的物理解釋能力。

        2.4.4 生成對抗網(wǎng)絡(luò)

        生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)利用生成器和判別器的對抗性訓(xùn)練,生成符合真實數(shù)據(jù)分布的樣本。在跨視角步態(tài)識別任務(wù)中,GAN 基于輸入樣本生成特定視角下的步態(tài)圖像,可以起到視角轉(zhuǎn)換的效果。例如,Yu 等人(2019)提出GaitGANv2模型,如圖12所示,使用類似自編碼器的編碼器—解碼器結(jié)構(gòu)生成側(cè)視視角下的標(biāo)準(zhǔn)GEI,為了在生成的側(cè)視圖中保留身份信息,在傳統(tǒng)GAN的基礎(chǔ)上設(shè)計了兩個判別器,真假判別器確保生成步態(tài)圖像的真實性,識別判別器確保生成的步態(tài)圖像包含身份信息。張紅穎和包雯靜(2022)在生成器和判別器中引入自注意力機制,以學(xué)習(xí)更多全局特征的相關(guān)性,從而提高生成GEI 的質(zhì)量。He 等人(2019)提出的多任務(wù)生成對抗網(wǎng)絡(luò)(multi-task generative adversarial networks,MGANs)以基于GEI改進的周期能量圖像(period energy image,PEI)作為輸入,首先將PEI 編碼為潛在空間中特定視角的特征,然后基于視角流形的假設(shè)在保持身份信息的同時對視角特征進行轉(zhuǎn)換,再將轉(zhuǎn)換后的特征輸入生成器以生成目標(biāo)PEI,并通過多個子判別器確保生成的PEI 屬于特定域(如視角域、身份域或通道域)。不同于GaitGANv2 中兩個判別器相互獨立,MGANs 中不同的判別器共享網(wǎng)絡(luò)權(quán)重。以上基于GAN 的方法均使用步態(tài)序列聚合成的單幅步態(tài)圖像(GEI 或PEI)作為GAN 的輸入和輸出,且生成的步態(tài)樣本直接用于識別階段而不增加訓(xùn)練數(shù)據(jù)量。Chen 等人(2021)提出多視角步態(tài)生成對抗網(wǎng)絡(luò)(multiview gait generative adversarial network,MvGGAN),以步態(tài)輪廓序列和視角標(biāo)簽作為輸入,通過控制視角標(biāo)簽,用一個生成器生成多種視角的虛假步態(tài)樣本,從而擴展現(xiàn)有步態(tài)數(shù)據(jù)庫,解決了基于深度學(xué)習(xí)的跨視角步態(tài)識別方法由于缺少不同視角的樣本而性能受限的問題。

        圖12 GaitGANv2框架(Yu等,2019)Fig.12 The framework of GaitGANv2(Yu et al.,2019)

        2.4.5 3維卷積神經(jīng)網(wǎng)絡(luò)

        傳統(tǒng)的CNN 在用于跨視角步態(tài)識別時都是對步態(tài)圖像的空間維進行操作,而時間維度的幀間運動信息通常需要配合1維卷積或RNN等模塊進行提取。3 維卷積神經(jīng)網(wǎng)絡(luò)(3D convolution neural network,3D CNN)通過將卷積運算擴展到時域,更好地獲取視頻圖像序列中時空信息間的關(guān)聯(lián),從而直接學(xué)習(xí)整個步態(tài)序列的時空動力學(xué)特征。為了克服3D CNN需要固定長度的幀作為輸入,且只關(guān)注單個時間尺度的局限性,Lin等人(2020)提出了多時間尺度3 維卷積神經(jīng)網(wǎng)絡(luò)(multiple-temporal-scale 3D CNN,MT3D),如圖13 所示,使用多時間尺度框架整合小尺度和大尺度時間信息,同時通過引入幀池化操作,打破了3D CNN 輸入要求的限制。為了使3D CNN 更好地提取時空特征,他們提出了圖13下方所示的兩種基礎(chǔ)3 維卷積塊(BasicBlock3D,B3D),將傳統(tǒng)的卷積核大小為(3,3,3)的3 維卷積(3 × 3 × 3 conv)作為主干從步態(tài)序列中提取時空特征,而低秩卷積(1 × 3 × 3 conv,3 × 1 × 1 conv,1 × 1 × 1 conv)作為分支以增強主干的特征表示,圖中LReLU(leaky-ReLU)指帶泄露的ReLU 激活函數(shù)。Huang等人(2022)將時空雙注意力單元集成到類似B3D的3 種核尺寸并行的3D CNN 中,在保留時空信息相關(guān)性的同時解耦時間和空間特征提取。

        圖13 MT3D框架(Lin等,2020)Fig.13 The framework of MT3D(Lin et al.,2020)

        考慮到全局特征往往忽略了步態(tài)的細(xì)節(jié),而局部特征表示可能會丟失全局上下文信息,Lin 等人(2021)在3D CNN 框架中構(gòu)建了稱為全局和局部特征提取器(global and local feature extractor,GLFE)的特征提取模塊,通過將全局和局部步態(tài)特征相結(jié)合來獲得更具判別性的特征表示。另外,在CNN 中通常使用空間池化層來降低采樣特征分辨率,這會使空間信息逐漸丟失。為此,他們開發(fā)了局部時間聚合(local temporal aggregation,LTA)操作來取代傳統(tǒng)的空間池化層,并在局部片段中聚合時間信息的同時保留空間信息。他們在提取局部特征時,將全局特征圖水平劃分為幾個部分,這也是許多基于局部特征的模型的通用做法。顯然,這些基于水平條帶的分割方法無法靈活準(zhǔn)確地定位身體部位。為了解決這個問題,Huang 等人(2021b)提出了一種稱為3 維局部卷積神經(jīng)網(wǎng)絡(luò)的3D CNN 構(gòu)建塊,以自適應(yīng)的時空尺度、位置和長度從序列中提取局部3 維體積,從而更好地學(xué)習(xí)身體部位的時空模式。

        2.4.6 圖卷積網(wǎng)絡(luò)

        首先,注重入門引導(dǎo)。學(xué)生對專業(yè)的興趣是建立在專業(yè)入門時的引導(dǎo)上,學(xué)生剛剛接觸專業(yè)是培育學(xué)生興趣的最佳時機,因此教師應(yīng)該在專業(yè)入門的引導(dǎo)上下功夫,讓每一名學(xué)生都能找到自己感興趣的點,這樣才能培養(yǎng)學(xué)生的專業(yè)興趣,讓學(xué)生真的能夠“鉆進去,學(xué)出來”。在學(xué)生剛剛接觸專業(yè)時,應(yīng)注重學(xué)習(xí)方法的傳授,而不是知識的傳授,告訴學(xué)生怎么學(xué),學(xué)什么,比給學(xué)生講一個知識點重要得多。同時教師要在課程中融入專業(yè)的文化,培養(yǎng)學(xué)生對專業(yè)的責(zé)任感和使命感,這也能提高學(xué)生對所學(xué)專業(yè)的興趣。

        在跨視角步態(tài)識別領(lǐng)域,基于骨架圖的步態(tài)表示方法忽略了與外觀相關(guān)的冗余信息,能夠反映更純粹的步態(tài)特征,但骨架圖結(jié)構(gòu)中的數(shù)據(jù)是非歐幾里德的,不能在常規(guī)的CNN 中操作。2.4.1 節(jié)提到的一些方法(Liao 等,2020)利用先驗知識設(shè)計時空特征形成中間向量,并在CNN 模型中進一步細(xì)化。然而,在動態(tài)模式中具有實際效果的特征可能會在人工假設(shè)中丟失。近幾年興起的圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)將CNN 擴展到圖上,直接處理圖結(jié)構(gòu)的數(shù)據(jù)而不需要對其進行轉(zhuǎn)化,這為基于骨架的步態(tài)識別提供了新思路。

        Li 等人(2020a)提出一種基于模型的步態(tài)識別方法JointsGait,使用步態(tài)圖卷積網(wǎng)絡(luò)從2 維骨架中提取時空特征,并通過關(guān)節(jié)關(guān)系金字塔映射(joints relationship pyramid mapping,JRPM)根據(jù)人體結(jié)構(gòu)和行走習(xí)慣將時空步態(tài)特征劃分為不同的身體子區(qū)域,以獲得更具判別力的特征表示。Liu等人(2022)觀察到步態(tài)特征具有獨特的對稱性,提出了對稱驅(qū)動的超特征圖卷積網(wǎng)絡(luò)(symmetry-driven hyper feature graph convolutional network,SDHF-GCN),通過在鄰接矩陣中引入基于先驗知識的對稱連接來增強相關(guān)關(guān)節(jié)之間的聯(lián)系,并減少聯(lián)合估計引起的噪聲。并且,采用超特征網(wǎng)絡(luò)來聚合深層的動態(tài)特征、中層的結(jié)構(gòu)化特征和淺層的靜態(tài)特征,通過層次語義特征互補來提高模型的表達和識別能力。Li 和Zhao(2022)受步態(tài)周期性的啟發(fā),將基于步態(tài)周期性的時間特征金字塔聚合器(periodicity-inspired temporal feature pyramid aggregator,PTP)與 空 間GCN 結(jié)合,提出了基于骨架的步態(tài)識別方法CycleGait,如圖14 所示,首先通過設(shè)計的不規(guī)則步速轉(zhuǎn)換器(irregular pace converter,IPC)將正常步速的骨架序列轉(zhuǎn)換為不規(guī)則步速,生成不同周期的步態(tài)樣本進行數(shù)據(jù)增強,然后通過GCN-PTP 網(wǎng)絡(luò)和他們之前提出的JRPM(joints relationship pyramid mapping)(Li等,2020a)分別提取骨架圖的時空特征和身體局部特征,最后采用混合損失函數(shù)優(yōu)化步態(tài)表示學(xué)習(xí)。

        圖14 CycleGait框架(Li和Zhao,2022)Fig.14 The framework of CycleGait(Li and Zhao,2022)

        3 性能比較和分析

        3.1 性能比較

        為了進一步了解不同跨視角步態(tài)識別方法的性能,本文比較了一些代表性方法的特征表示、采用的識別方法、損失函數(shù)和度量函數(shù)及在CASIA-B、OUISIR LP 和OU-MVLP 這3 個常用數(shù)據(jù)庫上的識別準(zhǔn)確率,如表2 和表3 所示。表3 中結(jié)果直接從相應(yīng)的原始論文中獲取。

        在CASIA-B數(shù)據(jù)庫上,分別對比了正常、帶包和穿外套3 種情況的平均準(zhǔn)確率。其中,帶下劃線結(jié)果為在中等樣本訓(xùn)練設(shè)置下得到,其余結(jié)果為在大樣本訓(xùn)練設(shè)置下得到,兩種設(shè)置分別以62和74名受試者為訓(xùn)練集,剩下的為測試集。測試集中每個受試者每個視角的前4 次正常行走的步態(tài)序列為注冊集,其余序列(后2次正常行走序列、2次穿外套行走序列、2 次帶包行走序列)為查詢集。多數(shù)基于輪廓的方法輸入圖像為64 × 44像素的標(biāo)準(zhǔn)尺寸,部分采用128 × 88 像素或更大輸入輪廓尺寸得到的結(jié)果以“*”標(biāo)出。

        在OU-ISIR LP 數(shù)據(jù)庫上,主要對比了該數(shù)據(jù)庫兩種常用的性能評估方案。第1 種方案將包含1 912 名受試者的子集分為人數(shù)相等的2 組,分別用于訓(xùn)練和測試,共進行10次交叉驗證實驗;第2種方案將所有受試者隨機分為5組,進行5次交叉驗證實驗,每次保留1 組用于測試,剩下的4 組用于訓(xùn)練。有些方法采用了其他評估方案,結(jié)果在表3中的OUISIR LP數(shù)據(jù)庫欄中單獨列出。

        在OU-MVLP 數(shù)據(jù)庫上,分別對比了4 個視角(0°,30°,60°,90°)和全部視角下的平均準(zhǔn)確率。在所有的步態(tài)序列中,5 153名受試者的序列用于訓(xùn)練,5 154 名受試者的序列用于測試。在測試集中,第1 次和第2 次采集的步態(tài)序列分別作為注冊集和查詢集。

        3.2 結(jié)果分析

        從表2和表3可以看出,輪廓序列和GEI是最常用的兩種步態(tài)特征,CNN 是最常用的識別方法。多數(shù)方法都結(jié)合使用了兩種或更多的損失函數(shù),其中三元組損失和交叉熵?fù)p失最為普遍。對于OU-ISIR LP 數(shù)據(jù)庫,由于其所含視角數(shù)較少,且角度變化范圍較小,表中方法均達到了90%以上的準(zhǔn)確率,其中Ben 等人(2019a)和Wu 等人(2021)提出的方法分別在兩種評估方案下實現(xiàn)了最高的性能。對于CASIA-B 數(shù)據(jù)庫,早期基于非深度學(xué)習(xí)的方法準(zhǔn)確率較低,且很多測試沒有遵循常規(guī)測試協(xié)議,隨著CNN 等深度學(xué)習(xí)方法的引入,準(zhǔn)確率得到了顯著提高。在大樣本訓(xùn)練設(shè)置下,Huang 等人(2021a)的方法實現(xiàn)了標(biāo)準(zhǔn)輸入輪廓尺寸下最高的正常、穿外套和平均準(zhǔn)確率。最近,Hou 等人(2022)以128 × 88像素的輪廓圖作為輸入,在各種條件下的CASIA-B數(shù)據(jù)庫上均達到最高準(zhǔn)確率。Huang 等人(2021b)提出的基于3D CNN 的方法在包含全部視角的OUMVLP 數(shù)據(jù)庫上識別效果最好,在CASIA-B 上也取得了較好的效果。Chao 等人(2022)的方法在OUMVLP 數(shù)據(jù)庫4 個視角情況下實現(xiàn)了最好的識別性能。其他幾種方法(Huang 等,2022;Lin 等,2021;Chen 等,2021;Li 等,2020c)也在相應(yīng)數(shù)據(jù)庫上實現(xiàn)了先進的性能。

        表2 跨視角步態(tài)識別方法比較Table 2 Comparison of cross-view gait recognition methods

        表3 跨視角步態(tài)識別方法的Rank-1指標(biāo)對比Table 3 Comparison of Rank-1 metrics for cross-view gait recognition methods/%

        結(jié)構(gòu)結(jié)合的方法(Wu 等,2021;Huang 等,2021a)在相應(yīng)數(shù)據(jù)庫上實現(xiàn)了很好的識別效果。值得注意的是,近幾年采用人體模型結(jié)合深度神經(jīng)網(wǎng)絡(luò)的方法(Li等,2020c)在僅視角變化的條件下表現(xiàn)出優(yōu)異的性能,而當(dāng)存在服裝變化等協(xié)變量時,準(zhǔn)確率下降比較明顯。這可能是因為姿勢估計模型大多關(guān)注整體特征,使得服裝等協(xié)變量對其影響相對較大。另外,目前最先進的方法在多數(shù)數(shù)據(jù)庫上都達到了90%以上的準(zhǔn)確率,但在CASIA-B 穿外套條件下的識別準(zhǔn)確率還相對較低(未超過85%)。如何提高跨視角步態(tài)識別在復(fù)雜條件下的魯棒性是未來需要進一步解決的問題。

        4 未來研究方向

        4.1 建立包含復(fù)雜協(xié)變量的大規(guī)模步態(tài)數(shù)據(jù)庫

        隨著深度學(xué)習(xí)在跨視角步態(tài)識別領(lǐng)域的廣泛應(yīng)用,缺少可供深層網(wǎng)絡(luò)訓(xùn)練的具有復(fù)雜協(xié)變量條件的大規(guī)模步態(tài)數(shù)據(jù)成為亟待解決的問題?,F(xiàn)實場景中攝像頭通常位于俯視視角拍攝,視頻背景復(fù)雜,通常包含不止一位行人,且可能存在遮擋情況。飲酒、患病和勞累等特殊狀態(tài)以及長時間跨度導(dǎo)致的步態(tài)特征改變也是需要考慮的因素。然而,現(xiàn)有跨視角步態(tài)數(shù)據(jù)庫樣本數(shù)量普遍較少,且大多是在室內(nèi)采集,步態(tài)序列中僅包含單個受試者,幾乎沒有遮擋,拍攝背景也較為單一。另外,受試者的步態(tài)通常在提前告知的情況下采集,與日常自然行走時的步態(tài)相比可能存在差異。因此,未來一個重要的研究方向是建立模擬現(xiàn)實監(jiān)控場景的大規(guī)模步態(tài)數(shù)據(jù)庫,同時還要研究魯棒的分割方法以更好地從復(fù)雜背景中分割步態(tài)輪廓。此外,還可以通過生成對抗網(wǎng)絡(luò)等手段生成新的步態(tài)圖像以解決步態(tài)數(shù)據(jù)采集中的隱私敏感問題。

        4.2 跨數(shù)據(jù)庫的步態(tài)識別

        目前幾乎所有的跨視角步態(tài)識別任務(wù)都在相同的數(shù)據(jù)集上進行訓(xùn)練和測試,而實際應(yīng)用時,待識別的步態(tài)數(shù)據(jù)和訓(xùn)練模型使用的數(shù)據(jù)必然會存在差異。因此,未來有必要通過遷移學(xué)習(xí)等方法對步態(tài)識別模型進行跨數(shù)據(jù)庫訓(xùn)練和測試,從而提高模型在現(xiàn)實場景中的泛化能力。另外,跨數(shù)據(jù)庫識別也能在一定程度上緩解目前可供訓(xùn)練的步態(tài)數(shù)據(jù)不足的問題。

        4.3 步態(tài)特征的自監(jiān)督學(xué)習(xí)方法

        實際上,人們很容易通過監(jiān)控攝像頭或網(wǎng)絡(luò)視頻等途徑獲取大量的步態(tài)樣本,難點在于獲取這些樣本對應(yīng)的身份信息(即標(biāo)簽)。自監(jiān)督學(xué)習(xí)可以通過代理任務(wù)(pretext task)從大量無標(biāo)簽的樣本中學(xué)習(xí)對下游任務(wù)有用的特征,這為利用這些無標(biāo)簽步態(tài)樣本提供了新思路。然而,對于跨視角步態(tài)識別任務(wù),其不同視角的類內(nèi)差異通常大于相同視角的類間差異,這使得目前流行的基于對比學(xué)習(xí)的自監(jiān)督方法很難學(xué)習(xí)到魯棒的特征。未來可以針對視角變化設(shè)計更有效的數(shù)據(jù)增強策略和新的代理任務(wù)用于視角不變步態(tài)特征的自監(jiān)督學(xué)習(xí)。

        4.4 步態(tài)特征的解糾纏表示學(xué)習(xí)方法

        現(xiàn)有的跨視角步態(tài)識別方法在實驗室環(huán)境中已經(jīng)取得了良好的識別效果,但實際應(yīng)用中視角、遮擋和光照等復(fù)雜協(xié)變量互相作用,會顯著降低識別準(zhǔn)確率。解糾纏表示學(xué)習(xí)因其能將原始數(shù)據(jù)空間中互相糾纏的要素分離為互不相關(guān)的表示,最近在計算機視覺領(lǐng)域得到了廣泛關(guān)注。目前一些步態(tài)識別方法開始通過解糾纏分離身份和協(xié)變量特征,但很少將視角變化考慮在內(nèi)。未來可以通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),設(shè)計用于處理包括視角變化在內(nèi)多種協(xié)變量的更全面的解糾纏表示學(xué)習(xí)方法。

        4.5 進一步開發(fā)基于模型的步態(tài)表示方法

        基于外觀的步態(tài)表示方法因其便于CNN 等神經(jīng)網(wǎng)絡(luò)處理而受到了更多關(guān)注,然而基于模型的方法在應(yīng)對視角變化、遮擋等協(xié)變量時具有天然的魯棒性優(yōu)勢。隨著各種基于深度學(xué)習(xí)的姿勢估計方法和圖神經(jīng)網(wǎng)絡(luò)的興起,步態(tài)模型的建立和處理能力都得到了很大提升?;谀P?,特別是骨架模型的步態(tài)表示方法展現(xiàn)出優(yōu)良的前景。目前行為識別領(lǐng)域已經(jīng)對基于骨架的動作表示進行了許多研究,而跨視角步態(tài)識別領(lǐng)域的相關(guān)工作還較少。未來可以借鑒相關(guān)領(lǐng)域的優(yōu)秀成果,從優(yōu)化姿勢估計算法、開發(fā)新的圖卷積網(wǎng)絡(luò)結(jié)構(gòu)、模型與外觀表示方法相結(jié)合等方面進一步開發(fā)基于模型的步態(tài)特征表示方法。

        4.6 探索新的時間特征提取方法

        目前的跨視角步態(tài)識別方法在空間特征提取方面取得了更大的突破,而對時間特征的提取仍有待進一步研究。GEI 雖然節(jié)省了存儲空間,但丟失了步態(tài)的時序信息;基于RNN 的方法對步態(tài)識別準(zhǔn)確率的提升有限;近幾年3D CNN 實現(xiàn)了較好的識別效果,但其模型較大,在時空相關(guān)性方面可能會引入不必要的冗余或干擾,且在數(shù)據(jù)量少時容易過擬合。未來可以考慮引入運動學(xué)和動力學(xué)相關(guān)方法對步態(tài)序列的時間特征顯式建模,以提高步態(tài)識別的可解釋性和魯棒性。此外,另一個值得研究的方向是從低幀率視頻中提取視角不變步態(tài)特征,這對實時步態(tài)識別和擁擠人流等低有效幀的識別場景具有重要的應(yīng)用價值。

        4.7 多模態(tài)融合步態(tài)識別

        步態(tài)與人臉、指紋和虹膜等其他生物特征相比,具有無需受試者明確配合、無需近距離接觸等獨特優(yōu)勢,但對視角等協(xié)變量魯棒性較差,而傳統(tǒng)生物特征識別目前的準(zhǔn)確率通常高于步態(tài)識別。很多方法正研究將步態(tài)和其他多種生物特征相融合以實現(xiàn)優(yōu)勢互補。另外,將壓力傳感器、深度傳感器等傳感設(shè)備采集的多模態(tài)步態(tài)數(shù)據(jù)相融合,也可彌補視覺傳感器易受視角變化影響的局限性,從而提高跨視角步態(tài)識別的魯棒性。

        4.8 提高步態(tài)識別系統(tǒng)的安全性

        一般來說,步態(tài)特征不易偽裝或隱藏,但隨著步態(tài)識別技術(shù)的快速發(fā)展,一些攻擊手段可能會對步態(tài)識別系統(tǒng)的安全性造成潛在威脅。例如,通過特殊設(shè)計的可改變步態(tài)的服裝等物品進行欺騙,或者通過合成數(shù)據(jù)進行對抗性攻擊。另外,由于視頻步態(tài)特征容易獲得且與年齡、性別、情緒和健康狀況等信息有很強的關(guān)聯(lián)性,步態(tài)識別中的隱私泄露問題也不容忽視。目前步態(tài)識別關(guān)于這方面的研究很少,未來可以借鑒人臉識別領(lǐng)域的先進經(jīng)驗,設(shè)計適當(dāng)?shù)陌踩珯C制來檢測和抵御欺騙攻擊,同時設(shè)計加密方法來保護步態(tài)特征中的隱私信息。

        5 結(jié) 語

        步態(tài)識別以其獨特優(yōu)勢在安防監(jiān)控等領(lǐng)域發(fā)揮著重要作用。然而,在實際應(yīng)用中,步態(tài)特征往往會受到視角變化等協(xié)變量的影響,導(dǎo)致識別性能下降。因此,提高步態(tài)識別在跨視角條件下的魯棒性對推動其實用化意義重大。本文首先介紹了跨視角步態(tài)識別數(shù)據(jù)庫,然后從基于3 維步態(tài)信息的識別方法、基于視角轉(zhuǎn)換模型的識別方法、基于視角不變特征的識別方法和基于深度學(xué)習(xí)的識別方法4 個方面對現(xiàn)有的跨視角步態(tài)識別方法進行了全面綜述。最后,對跨視角步態(tài)識別方法的性能進行了對比分析,并提出了幾種有價值的未來研究方向。

        猜你喜歡
        步態(tài)卷積數(shù)據(jù)庫
        小螞蟻與“三角步態(tài)”
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于面部和步態(tài)識別的兒童走失尋回系統(tǒng)
        電子制作(2018年18期)2018-11-14 01:48:04
        基于Kinect的學(xué)步期幼兒自然步態(tài)提取
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        日本一区二区三区在线观看免费 | 视频一区视频二区制服丝袜| 亚洲人午夜射精精品日韩| 精品2021露脸国产偷人在视频| av熟女一区二区久久| 91九色中文视频在线观看| 最新日本一道免费一区二区| 人禽无码视频在线观看| 久久洲Av无码西西人体| 女同一区二区三区在线观看| 波多野结衣久久精品99e| 7777精品久久久大香线蕉| 国产一区二区精品网站看黄| 亚洲国产综合精品中久| 性无码专区无码| 婷婷成人亚洲| 成人影院免费观看在线播放视频 | 亚洲熟妇夜夜一区二区三区| 黄色一区二区三区大全观看| 国产精品泄火熟女| 精品2021露脸国产偷人在视频| 色偷偷亚洲女人的天堂| 日韩 亚洲 制服 欧美 综合| 成人区人妻精品一熟女| 日韩av一区二区三区四区av| av在线播放免费观看| 67194熟妇人妻欧美日韩| 手机看片久久国产免费| 久久精品网站免费观看| 国产一区二区三区精品免费av | 亚洲精品无码专区在线在线播放 | 99久久精品费精品国产一区二 | 97无码人妻一区二区三区蜜臀| 水蜜桃男女视频在线观看网站| 末成年女a∨片一区二区| 国产一级毛片卡| av一区二区三区有码| 领导边摸边吃奶边做爽在线观看 | 人妻少妇粉嫩av专区一| 精品+无码+在线观看| 久久精品成人欧美大片|