尤凱軍,侯振杰,梁久禎,鐘卓錕,施海勇
常州大學(xué)計(jì)算機(jī)與人工智能學(xué)院,常州 213000
隨著計(jì)算機(jī)視覺(jué)的不斷發(fā)展,行為識(shí)別在視頻監(jiān)控和人機(jī)交互等諸多領(lǐng)域中展現(xiàn)出廣泛的應(yīng)用前景和研究?jī)r(jià)值。利用深度圖序列(許艷 等,2018;李興 等,2019;施海勇 等,2023)進(jìn)行人體行為識(shí)別是機(jī)器視覺(jué)和人工智能中的一個(gè)重要研究領(lǐng)域,廣泛使用的深度圖序列盡管可以提供深度信息,但易受其他因素影響,行為數(shù)據(jù)的時(shí)空結(jié)構(gòu)信息大量喪失。點(diǎn)云(Guo等,2021b;陶帥兵 等,2021)的出現(xiàn)彌補(bǔ)了深度圖數(shù)據(jù)的劣勢(shì)。點(diǎn)云就是分布在三維空間中的離散點(diǎn)集,它對(duì)復(fù)雜場(chǎng)景以及物體的外形表達(dá)具有獨(dú)特的優(yōu)勢(shì),但由于點(diǎn)云分布不規(guī)則且無(wú)序的性質(zhì),在點(diǎn)云上應(yīng)用深度學(xué)習(xí)是不容易的。點(diǎn)云學(xué)習(xí)可分為基于多視圖的、基于體積的和基于點(diǎn)的方法。基于多視圖的方法首先將一個(gè)三維形狀投影到多個(gè)視圖中,并提取視圖特征,然后融合這些特征進(jìn)行精確的形狀分類(lèi);基于體積的方法通常是將點(diǎn)云體素化為三維網(wǎng)格,然后應(yīng)用三維卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)其進(jìn)行形狀分類(lèi);基于點(diǎn)的方法根據(jù)每個(gè)點(diǎn)的特征學(xué)習(xí)所使用的網(wǎng)絡(luò)架構(gòu),獨(dú)立地對(duì)每個(gè)點(diǎn)建模,然后使用對(duì)稱(chēng)聚合函數(shù)聚合全局特征。PointNet(Qi 等,2017a)是點(diǎn)云深度學(xué)習(xí)的開(kāi)山之作。PointNet 的核心思想是利用一組多層感知機(jī)(multilayer perceptron,MLP)抽象每個(gè)點(diǎn)來(lái)學(xué)習(xí)其對(duì)應(yīng)的空間編碼,然后通過(guò)一個(gè)對(duì)稱(chēng)函數(shù)將所有單獨(dú)的點(diǎn)特征集合起來(lái)得到一個(gè)全局的點(diǎn)云特征。但是PointNet 缺乏對(duì)局部特征的提取及處理,而且現(xiàn)實(shí)場(chǎng)景中的點(diǎn)云往往是疏密不同的,而PointNet 是基于均勻采樣的點(diǎn)云進(jìn)行訓(xùn)練的,導(dǎo)致了其在實(shí)際場(chǎng)景中準(zhǔn)確率的下降。因此提出了一個(gè)分層網(wǎng)絡(luò)PointNet++(Qi 等,2017b),PointNet++的特征提取由3 部分組成,分別為采樣層、分組層和PointNet 層,這3個(gè)層構(gòu)成一個(gè)抽象層,PointNet++由幾個(gè)抽象操作集合組成,PointNet++通過(guò)幾個(gè)抽象層的層級(jí)結(jié)構(gòu)逐步利用局部區(qū)域信息學(xué)習(xí)特征,網(wǎng)絡(luò)結(jié)構(gòu)更具有魯棒性,但隨機(jī)的最遠(yuǎn)距離點(diǎn)采樣(farthest point sample,F(xiàn)PS)不可避免地會(huì)損失點(diǎn)云數(shù)據(jù)的時(shí)空信息。
為了解決上述問(wèn)題,本文提出了一種結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)將深度圖序列進(jìn)行了信息轉(zhuǎn)換,生成點(diǎn)云序列,并對(duì)其進(jìn)行時(shí)空建模。網(wǎng)絡(luò)由兩個(gè)模塊組成,即特征提取模塊和時(shí)空信息注入模塊。特征提取模塊將每個(gè)點(diǎn)云框架抽象為一個(gè)外觀輪廓的特征向量,以此來(lái)捕捉復(fù)雜的時(shí)空結(jié)構(gòu)。在時(shí)空信息注入模塊中,為點(diǎn)云的外觀輪廓特征向量注入時(shí)空信息,其中借助可學(xué)習(xí)的正態(tài)分布隨機(jī)張量的方法尋找空間結(jié)構(gòu)信息上的特征變化,不僅能更好地表示數(shù)據(jù)的空間結(jié)構(gòu)信息,也能加快網(wǎng)絡(luò)的運(yùn)行速度。在進(jìn)行三維動(dòng)作識(shí)別之前,將網(wǎng)絡(luò)中的不同尺度特征串聯(lián)起來(lái)。在結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)中,不同的點(diǎn)云框架在最終的分類(lèi)網(wǎng)絡(luò)層之前共享相同的網(wǎng)絡(luò)架構(gòu)和網(wǎng)絡(luò)權(quán)重。
本文的主要貢獻(xiàn)如下:1)提出一種結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò),通過(guò)點(diǎn)云特征提取模塊和時(shí)空信息注入模塊,解決了深度圖序列時(shí)空結(jié)構(gòu)信息的利用率不足的問(wèn)題;2)通過(guò)構(gòu)造時(shí)空信息注入模塊,為靜態(tài)點(diǎn)云序列注入動(dòng)態(tài)信息(點(diǎn)云序列間的時(shí)序信息和運(yùn)動(dòng)幀的空間結(jié)構(gòu)信息),彌補(bǔ)了點(diǎn)云抽象操作下采樣時(shí)部分信息丟失的不足;3)設(shè)計(jì)了點(diǎn)間注意力機(jī)制模塊,通過(guò)可學(xué)習(xí)的正態(tài)分布隨機(jī)張量將數(shù)據(jù)映射到相應(yīng)的空間中,不斷尋找最優(yōu)的投影空間,得到最佳的空間結(jié)構(gòu)信息權(quán)重矩陣,以此表征運(yùn)動(dòng)幀的空間結(jié)構(gòu)特征。用運(yùn)動(dòng)幀的空間結(jié)構(gòu)特征替代點(diǎn)云幀的點(diǎn)特征。
由于點(diǎn)云分布不規(guī)則且無(wú)序的性質(zhì),在點(diǎn)云上應(yīng)用深度學(xué)習(xí)是不容易的,基于點(diǎn)云序列的三維人體動(dòng)作識(shí)別是一項(xiàng)具有挑戰(zhàn)性的新任務(wù)。PointNet是點(diǎn)云深度學(xué)習(xí)的開(kāi)創(chuàng)之舉。PointNet 利用多層感知機(jī)、最大池化和剛性變化來(lái)保證置換和旋轉(zhuǎn)下的不變性。PointNet++在此基礎(chǔ)上通過(guò)幾個(gè)抽象層的層級(jí)結(jié)構(gòu)逐步學(xué)習(xí)局部特征,網(wǎng)絡(luò)結(jié)構(gòu)更具有魯棒性。點(diǎn)云數(shù)據(jù)在時(shí)空維度上展現(xiàn)了不規(guī)則性和無(wú)序性,不同幀中點(diǎn)的出現(xiàn)也無(wú)法保證一致性。為此Fan 等人(2022)提出了PST 卷積(point spatiotemporal convolution)來(lái)編碼點(diǎn)云序列的時(shí)空局部結(jié)構(gòu)。PST 卷積首先解開(kāi)點(diǎn)云序列的時(shí)空糾纏。此外,將PST 卷積用分層的方式合并到一個(gè)深網(wǎng)絡(luò)PSTNet 中模擬點(diǎn)云序列。為了避免點(diǎn)跟蹤,F(xiàn)an 等人(2021)提出了P4Transformer(point 4D Transformer)網(wǎng)絡(luò)建模點(diǎn)云視頻。P4Transformer包括一個(gè)點(diǎn)4D 卷積和一個(gè)Transformer。Xu 等人(2021)介紹了一種用于三維點(diǎn)云處理的通用卷積運(yùn)算PAConv(position adaptive convolution),通過(guò)動(dòng)態(tài)組裝存儲(chǔ)在權(quán)重庫(kù)中的基本權(quán)重矩陣來(lái)構(gòu)造卷積核,使得PAConv 比2D 卷積具有更大的靈活性,可以更好地處理不規(guī)則且無(wú)序的點(diǎn)云數(shù)據(jù)。Li等人(2023)對(duì)稱(chēng)構(gòu)造了兩個(gè)點(diǎn)云特征圖,從點(diǎn)云序列中識(shí)別人類(lèi)行為,即點(diǎn)云外觀圖(point cloud appearance map,PCAM)和點(diǎn)云運(yùn)動(dòng)圖(point cloud motion map,PCMM)。為了構(gòu)建PCAM,Li 等人(2023)設(shè)計(jì)了一種類(lèi)似MLP 的網(wǎng)絡(luò)架構(gòu),用于在虛擬動(dòng)作序列中捕獲人類(lèi)動(dòng)作的時(shí)空外觀特征;使用類(lèi)似MLP 的網(wǎng)絡(luò)架構(gòu)在虛擬動(dòng)作差分序列中捕獲人體動(dòng)作的運(yùn)動(dòng)特征來(lái)構(gòu)建PCMM,最后,將兩個(gè)點(diǎn)云特征圖描述符連接起來(lái)并發(fā)送到一個(gè)全連接的分類(lèi)器,以進(jìn)行人類(lèi)行為識(shí)別。
此外,Transformer 也逐漸應(yīng)用于圖像視覺(jué)任務(wù),且效果優(yōu)于流行的卷積網(wǎng)絡(luò)。其中,Guo 等人(2021a)提出了一種新的點(diǎn)云學(xué)習(xí)框架PCT(point cloud Transformer),PCT 的核心思想是利用Transformer 固有的順序不變性,避免定義點(diǎn)云數(shù)據(jù)的順序,并通過(guò)注意力機(jī)制進(jìn)行特征學(xué)習(xí),注意力權(quán)重的分布與部分語(yǔ)義高度相關(guān),并且不會(huì)隨空間距離而嚴(yán)重衰減。Song 等人(2022b)提出了一種用于三維點(diǎn)云分析的新型增強(qiáng)型局部語(yǔ)義學(xué)習(xí)Transformer,其中局部語(yǔ)義學(xué)習(xí)點(diǎn)云互感器(local semantic learning point cloud Transformer,LSLPCT)不僅可以學(xué)習(xí)3D 點(diǎn)云的全局信息,還可以端到端地增強(qiáng)對(duì)局部語(yǔ)義信息的感知,局部語(yǔ)義學(xué)習(xí)自我注意機(jī)制(local semantic learning self-attention,LSL-SA)可以并行感知全局上下文信息并捕獲更細(xì)粒度的局部語(yǔ)義特征。Liu 等人(2022)提出了一個(gè)新的端到端優(yōu)化雙流框架,稱(chēng)為幾何Transformer(geometrymotion-Transformer,GMT),GMT 使用特征提取模塊(feature extraction module,F(xiàn)EM)在不使用體素化過(guò)程的情況下在幀之間生成一對(duì)一的對(duì)應(yīng)關(guān)系,從原始點(diǎn)云中顯式提取幾何和多尺度運(yùn)動(dòng)表示,并提出了一種改進(jìn)的基于Transformer 的特征融合模塊(feature fusion module,F(xiàn)FM),以有效地融合雙流特征。
結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)根據(jù)將點(diǎn)云的時(shí)間和空間維度進(jìn)行解耦,處理每個(gè)點(diǎn)云框架的空間結(jié)構(gòu)和時(shí)間變化,從而進(jìn)行時(shí)空特征提取。使用位置編碼為點(diǎn)云抽象特征加入時(shí)序信息,通過(guò)可學(xué)習(xí)的隨機(jī)張量對(duì)空間結(jié)構(gòu)進(jìn)行投影,尋找最佳的空間結(jié)構(gòu)信息權(quán)重。最后將網(wǎng)絡(luò)中不同層次的特征聚合后進(jìn)行行為識(shí)別。
本文提出的結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)由特征提取模塊和時(shí)空信息注入模塊組成,在特征提取模塊中,輸入每一幀的點(diǎn)云集,輸出對(duì)應(yīng)幀外觀輪廓的時(shí)空特征向量,以此表征時(shí)空信息。通過(guò)時(shí)空信息注入模塊給所有幀加入時(shí)序信息和空間尺度信息。之后將多尺度的人體運(yùn)動(dòng)特征數(shù)據(jù)和時(shí)空特征數(shù)據(jù)有效融合,并利用全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作分類(lèi)識(shí)別。
圖1 結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)模塊圖Fig.1 Module diagram of human behavior recognition network in point cloud based on coordinate transformation and spatiotemporal information injection
人體行為識(shí)別的研究大量采用了深度圖像序列。與RGB 圖像相比,深度圖像基本不受自然光線(xiàn)影響,并提供了三維信息數(shù)據(jù),但該數(shù)據(jù)只代表在可視范圍內(nèi)目標(biāo)與深度攝像機(jī)的距離,數(shù)據(jù)冗余量大,對(duì)時(shí)空結(jié)構(gòu)信息的表達(dá)也不充分。點(diǎn)云是在同一空間參考系下表達(dá)目標(biāo)空間分布和目標(biāo)表面特性的海量的點(diǎn)集合。點(diǎn)云的獲取方式有多種,如通過(guò)各種類(lèi)型的3D 掃描儀、激光雷達(dá)和RGB-D 相機(jī)。點(diǎn)云數(shù)據(jù)可以提供豐富的幾何、形狀和尺度信息,這是深度圖所不能比擬的。通過(guò)坐標(biāo)轉(zhuǎn)換將深度圖序列轉(zhuǎn)換為點(diǎn)云序列,可以很容易地找到相鄰點(diǎn)信息,彌補(bǔ)了深度圖數(shù)據(jù)的不足。
深度圖到點(diǎn)云數(shù)據(jù)的轉(zhuǎn)換通常采用坐標(biāo)系變換的方法,通過(guò)將圖像坐標(biāo)系轉(zhuǎn)換為世界坐標(biāo)系,深度圖轉(zhuǎn)換為點(diǎn)云數(shù)據(jù)。其中,圖像坐標(biāo)系轉(zhuǎn)換為世界坐標(biāo)系計(jì)算為
式中,x,y,z為點(diǎn)云坐標(biāo)系,D為深度值,fx,fy分別為鏡頭x,y方向的焦距,x′和y′是圖像坐標(biāo)系。得到圖像點(diǎn)到世界坐標(biāo)點(diǎn)的變換關(guān)系,具體為
式中,cx,cy分別是光心在圖像坐標(biāo)系下的坐標(biāo)。
通過(guò)上述公式的變化,深度圖序列中的每一幀深度圖像轉(zhuǎn)換成對(duì)應(yīng)的點(diǎn)云幀,組成點(diǎn)云序列,相應(yīng)深度數(shù)據(jù)集轉(zhuǎn)換為點(diǎn)云數(shù)據(jù)集后作為網(wǎng)絡(luò)的輸入,如圖2所示。
圖2 深度序列轉(zhuǎn)換為點(diǎn)云序列Fig.2 Graph of depth sequence to point cloud sequence
受PointNet++的啟發(fā),本文構(gòu)建了特征提取模塊。該模塊由兩個(gè)抽象操作層、一組多層感知機(jī)和最大池化層組成。
抽象操作層由采樣層、分組層、通道,空間注意力層(convolutional block attention module,CBAM)和PointNet層組成。
1)在采樣層,使用最遠(yuǎn)距離點(diǎn)采樣(FPS)從N個(gè)點(diǎn)的點(diǎn)集中選擇n個(gè)點(diǎn),降低數(shù)據(jù)集規(guī)模。FPS算法的流程為:首先隨機(jī)選取一個(gè)點(diǎn)作為初始點(diǎn)加入初始點(diǎn)集,計(jì)算剩余點(diǎn)到初始點(diǎn)的歐氏距離,選距離最遠(yuǎn)的點(diǎn)加入到初始點(diǎn)集中,然后計(jì)算其余點(diǎn)到初始點(diǎn)集的距離,其余點(diǎn)中某個(gè)點(diǎn)到初始點(diǎn)集中所有點(diǎn)的歐氏距離中最小的值作為這個(gè)點(diǎn)到初始點(diǎn)集的距離,選取其余點(diǎn)中到初始點(diǎn)集距離最大的點(diǎn)加入初始點(diǎn)集,以此類(lèi)推,直到初始點(diǎn)集長(zhǎng)度為n。尋找初始點(diǎn)集及FPS算法的過(guò)程描述為
式中,P代表初始點(diǎn)集,‖x-P‖代表點(diǎn)到初始點(diǎn)集的歐氏距離,xi代表初始點(diǎn)集中以及即將加入初始點(diǎn)集的點(diǎn),范圍是1 到n。xj代表初始點(diǎn)集外的其余點(diǎn),范圍為1 到N-i+1。定義Pt={x1,x2,…,xn}為第t幀的點(diǎn)云集,PT=為T(mén)幀的點(diǎn)云序列。
2)在分組層,通過(guò)質(zhì)心點(diǎn)與周?chē)嗤霃絻?nèi)的局部點(diǎn)組成局部鄰域,便于網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)與點(diǎn)之間的空間結(jié)構(gòu)關(guān)系。球半徑查詢(xún)方法可以查找在質(zhì)心點(diǎn)半徑范圍內(nèi)所有點(diǎn)。第1 個(gè)分組層的輸入是一組大小為n×(d+c)(具有d維坐標(biāo)和c維點(diǎn)特征的n個(gè)點(diǎn))的點(diǎn)集和一組大小為n′×d的質(zhì)心的坐標(biāo),輸出是一組大小為n1×k×(d+c1)的點(diǎn)集,其中每組對(duì)應(yīng)一個(gè)局部區(qū)域,k是質(zhì)心點(diǎn)鄰域中的點(diǎn)數(shù)。
3)在通道注意力和空間注意力層,使用通道注意力和空間注意力沿著通道和空間兩個(gè)維度進(jìn)行注意力權(quán)重學(xué)習(xí),對(duì)點(diǎn)云特征進(jìn)行自適應(yīng)調(diào)整,獲取重要特征,壓縮不重要特征,表征每一幀人體行為靜態(tài)外觀的時(shí)間信息和空間結(jié)構(gòu),如圖3 所示。為了有效計(jì)算通道注意力,需要對(duì)輸入特征圖的空間維度進(jìn)行壓縮,對(duì)于空間信息的聚合,常用的方法是平均池化。另外,最大池化可以收集到難區(qū)分物體之間更重要的線(xiàn)索,以獲得更詳細(xì)的通道注意力,所以平均池化和最大池化的特征是同時(shí)使用的。因此,通道注意力模塊同時(shí)使用平均池化和最大池化后的點(diǎn)云特征,然后將它們依次送入一個(gè)共享權(quán)重的多層感知機(jī)中,最后將輸出的特征向量進(jìn)行合并??臻g注意力主要聚焦于哪部分的有效信息較豐富,這是對(duì)通道注意力的補(bǔ)充。通過(guò)最大池化和平均池化各獲得一張?zhí)卣鲌D,而后將它們拼接成一張2D 特征圖,再送入標(biāo)準(zhǔn)7×7 卷積進(jìn)行參數(shù)學(xué)習(xí),最終得到一幅1D 的權(quán)重特征圖,該圖編碼了需要關(guān)注的位置。從空間的角度來(lái)看,通道注意力是全局的,而空間注意力是局部的。本文CBAM 模塊的結(jié)構(gòu)表達(dá)為
圖3 通道注意力和空間注意力Fig.3 Channel attention and spatial attention
式中,A()表示通道注意力和空間注意力操作,in表示模塊的輸入,MLP表示多層感知機(jī)操作,m和n表示平均池化和最大池化操作,σ表示激活函數(shù)。
4)在PointNet 層,由一組MLP 和一個(gè)最大池化操作組成,通過(guò)MLP 和最大池化操作來(lái)表征局部區(qū)域特征。在這一層中,輸入的是數(shù)據(jù)為n1×k×(d+c1+1)的n1個(gè)局部區(qū)域,輸出數(shù)據(jù)為n1×(d+c1),由n1個(gè)具有d維坐標(biāo)的子采樣點(diǎn)和總結(jié)本地上下文的新c1維特征向量組成。輸出中的每個(gè)局部區(qū)域都是其質(zhì)心和質(zhì)心鄰域的局部抽象特征的連接。
抽象操作2 與抽象操作1 類(lèi)似,輸入的數(shù)據(jù)為n1×(d+c1),輸出為n2×(d+c2),將輸出記為fab。
最后,通過(guò)一組多層感知機(jī)和最大池化層表征整個(gè)點(diǎn)云框架的時(shí)空信息,計(jì)算為
式中,f為一幀點(diǎn)云幀通過(guò)多層感知機(jī)和最大池化操作后的特征向量,MAX表示最大池化操作,所有點(diǎn)云幀通過(guò)特征提取模塊的輸出為F=,T為一個(gè)行為動(dòng)作的總幀數(shù),f的大小為1×do,F(xiàn)的大小為T(mén)×do,do為輸出通道的大小。
通過(guò)點(diǎn)云對(duì)深度圖像進(jìn)行信息表征彌補(bǔ)了深度圖數(shù)據(jù)時(shí)空信息不足的缺點(diǎn),但點(diǎn)云序列的轉(zhuǎn)換以及隨機(jī)最遠(yuǎn)點(diǎn)采樣會(huì)使原本的時(shí)空結(jié)構(gòu)信息損失完整性,在一定程度上損失一部分時(shí)空結(jié)構(gòu)信息,所以有必要對(duì)點(diǎn)云序列進(jìn)行額外時(shí)空結(jié)構(gòu)信息注入。
2.3.1 時(shí)序信息注入
由圖1 所示,經(jīng)過(guò)特征提取模塊形成的外觀輪廓的時(shí)空特征向量序列F=在進(jìn)入時(shí)空信息注入模塊后首先進(jìn)行時(shí)序信息注入。為了對(duì)人體動(dòng)作的時(shí)間信息進(jìn)行編碼,使用位置編碼、共享MLP層和滑動(dòng)塊最大池化層。位置編碼層為特征向量序列注入時(shí)間位置信息。共享的MLP 層對(duì)每個(gè)獨(dú)立的特征向量執(zhí)行一組MLP,以提取每個(gè)點(diǎn)云框架的時(shí)空信息。采用滑動(dòng)塊最大池化層在多個(gè)時(shí)間尺度上提取序列空間信息。
1)位置編碼層。給定輸入特征向量序列F=,通過(guò)加入位置編碼注入順序信息。因?yàn)檎液陀嘞液瘮?shù)在無(wú)序方向中,每個(gè)向量的位置具有唯一性和很好的魯棒性,所以使用不同頻率的正弦和余弦函數(shù)作為時(shí)間位置編碼。
式中,PE表示二維矩陣,大小和ft相同,p表示時(shí)間位置。l表示特征向量的位置,dm表示特征向量的維度。偶數(shù)位置使用正弦函數(shù),奇數(shù)位置使用余弦函數(shù)。將位置編碼函數(shù)與ft聚合以此加入時(shí)間位置信息生成特征向量是經(jīng)過(guò)位置編碼后的新的特征向量。
2)共享的MLP 層。經(jīng)過(guò)時(shí)間位置嵌入層后,將順序信息簡(jiǎn)單地嵌入到空間信息序列中。為了進(jìn)一步提取時(shí)空信息,對(duì)每個(gè)特征向量應(yīng)用一組MLP,即
3)滑動(dòng)塊最大池化層。在這一層中,使用最大池化操作對(duì)多個(gè)特征向量進(jìn)行聚合。為了捕獲點(diǎn)云序列內(nèi)的子動(dòng)作和更有鑒別性的運(yùn)動(dòng)信息,提出滑動(dòng)塊最大池化策略,將向量序列分成與點(diǎn)云幀等量的塊,其中前e個(gè)塊組成滑動(dòng)塊,然后對(duì)滑動(dòng)塊進(jìn)行最大池化操作,生成相應(yīng)的子特征。之后將滑動(dòng)塊向后滑動(dòng)m個(gè)點(diǎn)云幀距離,再進(jìn)行最大池化操作并生成子特征,直到滑動(dòng)塊到達(dá)序列末為止。最后,所有的子特征被簡(jiǎn)單地連接起來(lái),形成人類(lèi)行為的時(shí)間子特征FTi。
為了獲得更充足的人體運(yùn)動(dòng)時(shí)空信息,從位置編碼前的不同階段整合人體動(dòng)作特征(如圖1 中階段特征),以此豐富時(shí)間特征序列。整合方法為
2.3.2 空間信息注入
Li等人(2022)指出了強(qiáng)空間結(jié)構(gòu)和弱時(shí)間變化的人類(lèi)行為特性,即當(dāng)人們觀察多幀的人體動(dòng)作時(shí),即使時(shí)間順序雜亂,也可以通過(guò)靜態(tài)外觀表象進(jìn)行大致有效的動(dòng)作識(shí)別,說(shuō)明空間結(jié)構(gòu)信息表征在動(dòng)作識(shí)別時(shí)的重要性,意味著點(diǎn)云序列動(dòng)作識(shí)別中強(qiáng)空間結(jié)構(gòu)信息的學(xué)習(xí)和表征對(duì)網(wǎng)絡(luò)性能有著不可或缺的作用,而原始PointNet++中的抽象操作使用FPS采樣,在加大感受野的同時(shí),也不可避免地?fù)p失其余的空間信息。在經(jīng)過(guò)滑動(dòng)池化層后,將帶有時(shí)序信息的特征向量稱(chēng)為三維向量關(guān)系序列(即FTi)。如圖4 所示,三維向量關(guān)系序列同一組可學(xué)習(xí)的kaiming正態(tài)分布的隨機(jī)張量進(jìn)行乘積,將三維向量關(guān)系序列投影到相應(yīng)的維度空間中,再通過(guò)網(wǎng)絡(luò)學(xué)習(xí)隨機(jī)張量的系數(shù),尋找更能關(guān)注點(diǎn)云間結(jié)構(gòu)關(guān)系的最優(yōu)投影空間。
圖4 點(diǎn)間注意力機(jī)制(空間信息注入)Fig.4 Inter-point attention mechanism(spatial information injection)
聚類(lèi)之后進(jìn)入點(diǎn)間注意力機(jī)制模塊,通過(guò)點(diǎn)間注意力機(jī)制進(jìn)一步學(xué)習(xí)點(diǎn)云數(shù)據(jù)點(diǎn)與點(diǎn)之間的結(jié)構(gòu)關(guān)系,并生成可以表征點(diǎn)云數(shù)據(jù)空間結(jié)構(gòu)關(guān)系的權(quán)重系數(shù)矩陣。
1)隨機(jī)張量。為了更好地進(jìn)行點(diǎn)云深度學(xué)習(xí),讓網(wǎng)絡(luò)自主地學(xué)習(xí)到更適合表征數(shù)據(jù)空間結(jié)構(gòu)的關(guān)系矩陣,采用一組設(shè)定好大小但數(shù)據(jù)隨機(jī)的張量集,通過(guò)迭代不斷學(xué)習(xí)更優(yōu)的數(shù)據(jù)參數(shù),尋找最優(yōu)投影空間。張量是一種強(qiáng)大的表示方向和空間的方法,通過(guò)張量不僅能更好地表示數(shù)據(jù)的空間結(jié)構(gòu)信息,也能加快網(wǎng)絡(luò)的運(yùn)行速度。
2)點(diǎn)間注意力機(jī)制。點(diǎn)間注意力機(jī)制由一組多層感知機(jī)和softmax 函數(shù)等組成,多層感知機(jī)可以很好地學(xué)習(xí)到點(diǎn)云數(shù)據(jù)中更關(guān)鍵點(diǎn)的時(shí)空信息,再經(jīng)過(guò)softmax 函數(shù)層轉(zhuǎn)換成權(quán)重系數(shù),即生成了可以表征點(diǎn)云數(shù)據(jù)空間結(jié)構(gòu)關(guān)系的權(quán)重系數(shù)矩陣,其表現(xiàn)形式為
式中,F(xiàn)s表示生成的可以表征點(diǎn)云數(shù)據(jù)空間結(jié)構(gòu)關(guān)系的權(quán)重系數(shù)矩陣(時(shí)空特征1),R表示隨機(jī)張量,C表示聚類(lèi)操作,Φ表示特征映射操作,即為softmax后的卷積和批正則化等操作。
為了將點(diǎn)間關(guān)系與點(diǎn)云序列數(shù)據(jù)各點(diǎn)相結(jié)合,使用的方法為
式中,F(xiàn)Ti為經(jīng)過(guò)時(shí)序信息注入后生成的三維向量關(guān)系序列,將其抽象(時(shí)空特征2)并與時(shí)空特征1 結(jié)合,生成空間結(jié)構(gòu)信息特征向量序列Fo。
最后,將時(shí)間特征向量序列TTime和空間結(jié)構(gòu)特征向量序列Fo進(jìn)行簡(jiǎn)單的拼接,然后發(fā)送到一組全連接層中進(jìn)行人類(lèi)動(dòng)作識(shí)別。
在兩個(gè)大型公共動(dòng)作識(shí)別數(shù)據(jù)集NTU RGB+d60(Shahroudy 等,2016)和NTU RGB+d120(Liu 等,2020a)以及一個(gè)小型公共數(shù)據(jù)集MSR Action3D(Li等,2010)上評(píng)估了所提出的方法。
NTU RGB+d60 數(shù)據(jù)集由60 個(gè)動(dòng)作的56 880 個(gè)深度視頻序列組成,是最大的人類(lèi)動(dòng)作數(shù)據(jù)集之一。
NTU RGB+d120 數(shù)據(jù)集是目前最大的三維動(dòng)作識(shí)別數(shù)據(jù)集,是NTU RGBD 60 數(shù)據(jù)集的擴(kuò)展。NTU RGB+d120 數(shù)據(jù)集由120 個(gè)動(dòng)作的114 480 個(gè)深度視頻序列組成。
MSR Action3D 數(shù)據(jù)集包含來(lái)自10 個(gè)受試者的20 個(gè)動(dòng)作的557 個(gè)深度視頻樣本,每個(gè)動(dòng)作由每個(gè)受試者執(zhí)行2或3次。
首先,從點(diǎn)云集合中隨機(jī)抽取2 048 個(gè)點(diǎn)。然后,利用PFS 算法從2 048 個(gè)點(diǎn)中選取512 個(gè)點(diǎn)。在特征提取模塊中,對(duì)每個(gè)點(diǎn)云框架進(jìn)行兩次集合抽象操作,采用SequentialPointNet 中獲取的最佳參數(shù)設(shè)置。在第1組抽象操作中,選擇128個(gè)質(zhì)心來(lái)確定點(diǎn)組,組半徑設(shè)置為0.06。每個(gè)點(diǎn)組中的點(diǎn)數(shù)設(shè)置為48。在第2 組抽象操作中,選擇32 個(gè)質(zhì)心來(lái)確定點(diǎn)組,組半徑設(shè)置為0.1。每個(gè)點(diǎn)組的點(diǎn)數(shù)設(shè)置為16,如表1 所示。在進(jìn)行提取空間結(jié)構(gòu)信息前,首先使用聚類(lèi)生成三維向量關(guān)系序列,聚類(lèi)半徑設(shè)置為20。在進(jìn)行提取空間結(jié)構(gòu)信息時(shí),隨機(jī)張量大小設(shè)置為(8,64,64),dropout 設(shè)置為0.5。用Adam 作為優(yōu)化器。學(xué)習(xí)速率從0.001 開(kāi)始,每10 個(gè)epoch 以0.5的速率衰減,使用交叉熵?fù)p失函數(shù)。
表1 特征提取實(shí)驗(yàn)設(shè)置Table 1 Feature extraction experiment set
為了探索哪種數(shù)據(jù)更有利于空間信息的提取,以及不同數(shù)據(jù)庫(kù)對(duì)于不同數(shù)據(jù)提取方式的效果,本文進(jìn)行了不同的對(duì)比實(shí)驗(yàn),尋找最適合的實(shí)驗(yàn)方法。
使用MSR Action3D 小數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先使用兩種不同的數(shù)據(jù)作為時(shí)空信息注入模塊的輸入,其中之一為原始三維點(diǎn)云數(shù)據(jù),即為抽象操作之前的三維點(diǎn)云數(shù)據(jù);另外一種數(shù)據(jù)為經(jīng)過(guò)位置編碼,已經(jīng)進(jìn)行特征提取后,通過(guò)聚類(lèi)生成的三維向量關(guān)系序列(以下分別稱(chēng)為原始數(shù)據(jù)和關(guān)系數(shù)據(jù))。之后進(jìn)行多次實(shí)驗(yàn)并記錄最后的實(shí)驗(yàn)結(jié)果,如表2所示。
表2 MSR Action3D數(shù)據(jù)集上的實(shí)驗(yàn)過(guò)程Table 2 The experimental process on MSR Action3D dataset
由表2 實(shí)驗(yàn)1—實(shí)驗(yàn)4 可以看出,當(dāng)批次大小相同都設(shè)置為8、迭代次數(shù)為100 時(shí),使用原始數(shù)據(jù)作為輸入且注入時(shí)空特征的準(zhǔn)確率為89.71%,使用關(guān)系數(shù)據(jù)作為輸入且注入時(shí)空特征的準(zhǔn)確率為91.91%,而當(dāng)批次大小設(shè)置為150 時(shí),使用原始數(shù)據(jù)的準(zhǔn)確率為92.65%,使用關(guān)系數(shù)據(jù)的準(zhǔn)確率達(dá)到了93.01%。由此可見(jiàn),使用關(guān)系數(shù)據(jù)作為輸入比使用原始數(shù)據(jù)作為輸入效果更優(yōu)。再結(jié)合實(shí)驗(yàn)6 和7可得出結(jié)論,當(dāng)?shù)螖?shù)為150 時(shí),準(zhǔn)確率趨于平穩(wěn)且最優(yōu)。
由表2 實(shí)驗(yàn)4—實(shí)驗(yàn)9 可以看出,當(dāng)批次大小都設(shè)置為8、迭代次數(shù)為150 時(shí),使用關(guān)系數(shù)據(jù)作為輸入的前提下,只注入時(shí)空特征1或時(shí)空特征2的準(zhǔn)確率分別為86.76%和91.18%,均低于未注入時(shí)空特征的準(zhǔn)確率,其中只注入時(shí)空特征1的準(zhǔn)確率比原來(lái)低5.18%,而將時(shí)空特征1與時(shí)空特征2融合后注入,準(zhǔn)確率達(dá)到93.01%。由此可見(jiàn)注入完整時(shí)空特征的重要性。再由表2 中實(shí)驗(yàn)4 和5 可知,MSR Action3D小數(shù)據(jù)集上的批次大小設(shè)置為8最為合適。
使用MSR Action3D 小數(shù)據(jù)集得出結(jié)果后,將參數(shù)遷移,開(kāi)始對(duì)NTU RGB+d120 和NTU RGB+d60 大數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),使用關(guān)系數(shù)據(jù)作為時(shí)空信息注入模塊的輸入,并記錄結(jié)果,如表3所示。
表3 NTU RGB+d60/120數(shù)據(jù)集上的實(shí)驗(yàn)過(guò)程Table 3 The experimental procedure on NTU RGB+d60/120 dataset
通過(guò)實(shí)驗(yàn)對(duì)比尋找NTU RGB+d60/120 數(shù)據(jù)集最適合的批次大小。由表3 實(shí)驗(yàn)1—實(shí)驗(yàn)3 結(jié)果可知,準(zhǔn)確率的大小與批次大小不是正相關(guān)關(guān)系,當(dāng)批次大小設(shè)置為32時(shí),結(jié)果為97.82%且最優(yōu),當(dāng)批次大小為16 和64 時(shí),準(zhǔn)確率有所下降。在NTU RGB+d120 大數(shù)據(jù)集上,準(zhǔn)確率的大小與批次大小也不是正相關(guān)的關(guān)系,當(dāng)批次大小設(shè)置為48 時(shí),結(jié)果為95.34%且最優(yōu),這也直接證明了時(shí)空信息注入的合理性和可行性。由NTU 數(shù)據(jù)集的實(shí)驗(yàn)可得出結(jié)論,該網(wǎng)絡(luò)模型結(jié)構(gòu)對(duì)于人體行為識(shí)別的分類(lèi)具有較好的優(yōu)越性。
為了驗(yàn)證網(wǎng)絡(luò)的性能,在NTU RGB+d60 數(shù)據(jù)集、NTU RGB+d120 數(shù)據(jù)集和MSR Action3D 數(shù)據(jù)集上實(shí)現(xiàn)了與其他先進(jìn)方法的對(duì)比實(shí)驗(yàn)。
1)NTU RGB+d60 數(shù)據(jù)集。首先比較結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)和NTU RGB+d60 數(shù)據(jù)集上的最先進(jìn)的方法。NTU RGB+d60 數(shù)據(jù)集是一種大規(guī)模的室內(nèi)人類(lèi)活動(dòng)數(shù)據(jù)集。如表4 所示,結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到了97.8%。本文方法表現(xiàn)出與其他方法相當(dāng)甚至更好的性能,達(dá)到了最先進(jìn)的性能。
表4 NTU RGB+d60數(shù)據(jù)集上的行為識(shí)別準(zhǔn)確率Table 4 Behavior recognition accuracy on NTU RGB+d60 dataset
2)NTU RGB+d120 數(shù)據(jù)集。將結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)與NTURGB+d120 數(shù)據(jù)集上的最先進(jìn)的方法進(jìn)行比較。NTU RGB+d120 數(shù)據(jù)集是用于3D 動(dòng)作識(shí)別的最大數(shù)據(jù)集。與NTU RGB+d60 數(shù)據(jù)集相比,在NTU RGB+d120 數(shù)據(jù)集上進(jìn)行三維人體動(dòng)作識(shí)別更具挑戰(zhàn)性。如表5 所示,結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到了95.3%,僅低于SequentialPointNet,并且展現(xiàn)出比其他網(wǎng)絡(luò)更優(yōu)秀的性能。
表5 NTU RGB+d120數(shù)據(jù)集上的行為識(shí)別準(zhǔn)確率Table 5 Behavior recognition accuracy on NTU RGB+d120 dataset
3)MSR Action3D 數(shù)據(jù)集。為了綜合評(píng)價(jià)本文方法,在小型MSR Action3D 數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。為了緩解小尺度數(shù)據(jù)集上的過(guò)擬合問(wèn)題,將批量大小設(shè)置為8,其他參數(shù)設(shè)置與兩個(gè)大規(guī)模數(shù)據(jù)集上的設(shè)置相同。表6 展示了不同方法的識(shí)別精度,結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)在MSR Action3D 數(shù)據(jù)集上取得了最先進(jìn)的性能。
表6 MSR Action3D數(shù)據(jù)集上的行為識(shí)別準(zhǔn)確率Table 6 Behavior recognition accuracy on MSR Action3D dataset
根據(jù)表4—表6的對(duì)比結(jié)果可知,在NTU兩個(gè)數(shù)據(jù)集上,本文方法領(lǐng)先于絕大部分網(wǎng)絡(luò),展現(xiàn)出較好的準(zhǔn)確率優(yōu)勢(shì),而在MSR Action3D 小數(shù)據(jù)集上,本文方法以明顯的優(yōu)勢(shì)領(lǐng)先于其他網(wǎng)絡(luò),其中準(zhǔn)確率比SequentialPointNet 提升了1.07%。由此可見(jiàn),本文方法在大數(shù)據(jù)集和小數(shù)據(jù)集上都表現(xiàn)良好,尤其更有利于小數(shù)據(jù)集的識(shí)別。
本文提出的結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)為了提高時(shí)空結(jié)構(gòu)信息的利用率,提出特征提取模塊和時(shí)空信息注入模塊,為靜態(tài)點(diǎn)云序列注入動(dòng)態(tài)信息,彌補(bǔ)了點(diǎn)云的不足。其中點(diǎn)間注意力機(jī)制可以尋找最優(yōu)的投影空間,得到了最佳的空間結(jié)構(gòu)表征,這也導(dǎo)致了本文方法良好的性能。
為了進(jìn)一步證明結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)的性能,在原來(lái)識(shí)別率指標(biāo)的基礎(chǔ)上引入NTU RGB+d60 數(shù)據(jù)集和NTU RGB+d120 數(shù)據(jù)集的另外3 個(gè)指標(biāo)cross-subject、cross-view 和cross-setwp。不同指標(biāo)的區(qū)別為訓(xùn)練集和測(cè)試集劃分方式的不同。NTU RGB+d60 和NTU RGB+d120 的cross-subject 根據(jù)受試者ID 劃分;NTU RGB+d60 的cross-view 根據(jù)相機(jī)ID 劃分;NTU RGB+d120 的cross-steup 指定id 為偶數(shù)的樣本進(jìn)行訓(xùn)練,id 為奇數(shù)的樣本進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表7 和表8所示。本文方法在8 個(gè)結(jié)果中僅NTU RGB+d120 上的cross-setup 低于SequentialPointNet 0.1%。其中,在NTU RGB+d60 上的cross-subject 和cross-setup 識(shí)別率分別高于SequentialPointNet 0.3%和0.2%,在NTU RGB+d120 上的cross-subject 識(shí)別率高于SequentialPointNet 0.5%,這也進(jìn)一步表明了本文方法的優(yōu)越性。
表7 SequentialPointNet與本文方法在NTU RGB+d60數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)Table 7 Comparison of SequentialPointNet and the method of ours on NTU RGB+d60 dataset
表8 SequentialPointNet與本文方法在NTU RGB+d120數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)Table 8 Comparison of SequentialPointNet and the method of ours on NTU RGB+d120 dataset
在SequentialPointNet 的時(shí)空結(jié)構(gòu)中,空間結(jié)構(gòu)和時(shí)間變化是獨(dú)立建模的,SequentialPointNet 提出的強(qiáng)空間結(jié)構(gòu)和弱時(shí)間變化的觀念,SequentialPoint-Net 著重強(qiáng)調(diào)對(duì)空間結(jié)構(gòu)特征的提取。Sequential-PointNet 認(rèn)為將空間信息和時(shí)間信息同等對(duì)待是不合理的,因?yàn)槿说男袨樵诳臻g維度上是復(fù)雜的,而在時(shí)間維度上是簡(jiǎn)單的。本文方法同等對(duì)待時(shí)間和空間特征的地位,在最終特征聚合階段,時(shí)間特征和空間特征以同等維度大小融合。在某些動(dòng)作,例如NTU RGB+d120 中的嗅聞(A117)或耳語(yǔ)(A79)等微小動(dòng)作(這類(lèi)動(dòng)作id 大多為奇數(shù))中,空間結(jié)構(gòu)的重要性大于時(shí)序信息,這導(dǎo)致本文方法在NTU RGB+d120 上的cross-setup 識(shí)別率相比于SequentialPoint-Net較低。
本文提出了一個(gè)結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)采取坐標(biāo)轉(zhuǎn)換的方式,將深度圖序列轉(zhuǎn)換為三維點(diǎn)云序列進(jìn)行人體行為信息的表征,彌補(bǔ)了深度信息空間信息與幾何特征不足的缺點(diǎn),提高了時(shí)空結(jié)構(gòu)信息的利用率。網(wǎng)絡(luò)由兩個(gè)模塊組成,即特征提取模塊和時(shí)空信息注入模塊。特征提取模塊提取點(diǎn)云序列的空間結(jié)構(gòu)特征和時(shí)間變化特征。為了捕獲時(shí)空結(jié)構(gòu),使用兩個(gè)抽象操作將每個(gè)點(diǎn)云框架抽象為一個(gè)外觀輪廓的特征向量。在時(shí)空信息注入模塊中,采用時(shí)間位置編碼和滑動(dòng)池化策略對(duì)特征向量序列進(jìn)行時(shí)序信息注入。此外,通過(guò)一組可學(xué)習(xí)的正態(tài)分布隨機(jī)張量尋找最優(yōu)的投影空間,在最優(yōu)投影空間中,通過(guò)點(diǎn)間注意力機(jī)制輸出最佳的空間結(jié)構(gòu)信息權(quán)重系數(shù)矩陣,為了保留原有的空間結(jié)構(gòu),系數(shù)矩陣與三維向量關(guān)系序列進(jìn)行特征聚合,從而注入空間結(jié)構(gòu)信息。最后對(duì)人體動(dòng)作的多層次特征進(jìn)行了融合與分類(lèi)。在本文方法中,不同的點(diǎn)云框架共享相同的網(wǎng)絡(luò)架構(gòu)和權(quán)重。
在3 個(gè)公共數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)展現(xiàn)了其優(yōu)異的性能,其中,在MSR Action 3D 數(shù)據(jù)集上,本文方法以明顯的優(yōu)勢(shì)領(lǐng)先于其他網(wǎng)絡(luò),準(zhǔn)確率比SequentialPointNet 提升了1.07%;本文方法在NTU RGB+d120 數(shù)據(jù)集上的準(zhǔn)確率僅次于SequentialPointNet。原因在于SequentialPointNet 與本文方法在時(shí)空特征權(quán)重的處理上不同。SequentialPointNet 更加側(cè)重于對(duì)空間結(jié)構(gòu)特征的提取,對(duì)于微小動(dòng)作的分類(lèi)更加準(zhǔn)確,因此,在cross-setup 指標(biāo)下本文方法的準(zhǔn)確率比SequentialPointNet 低0.1%。但在cross-subject 和cross-view 指標(biāo)下,本文方法均比SequentialPointNet準(zhǔn)確率高0.2%以上。
由于NTU 數(shù)據(jù)集的規(guī)模較大,將訓(xùn)練小數(shù)據(jù)集的網(wǎng)絡(luò)參數(shù)遷移,從而進(jìn)行訓(xùn)練大數(shù)據(jù)集并不能完全展現(xiàn)網(wǎng)絡(luò)的性能,下一步研究應(yīng)探究不同的網(wǎng)絡(luò)參數(shù)對(duì)于大數(shù)據(jù)集行為識(shí)別的影響,并增強(qiáng)網(wǎng)絡(luò)的輕便性。未來(lái)工作將聚焦在研究點(diǎn)云人體行為識(shí)別的輕量性和實(shí)用性方面。在探究降低參數(shù)量實(shí)現(xiàn)網(wǎng)絡(luò)輕量化的同時(shí),設(shè)計(jì)適用于不同動(dòng)作的時(shí)空特征融合方式,從而加強(qiáng)網(wǎng)絡(luò)對(duì)不同動(dòng)作,特別是微小動(dòng)作的識(shí)別能力,提高網(wǎng)絡(luò)的泛化性,并將結(jié)合坐標(biāo)轉(zhuǎn)換和時(shí)空信息注入的點(diǎn)云人體行為識(shí)別網(wǎng)絡(luò)進(jìn)一步應(yīng)用于智能駕駛等領(lǐng)域中。