姜海洋,劉翔宇,趙洪利
(1.航天工程大學(xué) 研究生管理大隊(duì), 北京 101416; 2.航天工程大學(xué), 北京 101416)
戰(zhàn)場(chǎng)目標(biāo)聚集行為是聯(lián)合作戰(zhàn)環(huán)境常見(jiàn)的群體行為,其通常是兵力調(diào)整、戰(zhàn)斗集結(jié)、突然襲擊等重要作戰(zhàn)事件的先兆[1]。預(yù)先識(shí)別敵方戰(zhàn)場(chǎng)聚集行為,對(duì)評(píng)估戰(zhàn)場(chǎng)情況,奪得戰(zhàn)場(chǎng)作戰(zhàn)先機(jī)具有重要意義。就目前而言,對(duì)戰(zhàn)場(chǎng)聚集行為的識(shí)別還需要人工判讀,在分秒必爭(zhēng)的戰(zhàn)場(chǎng)環(huán)境中效率低下,技術(shù)方面,國(guó)內(nèi)外已有一些關(guān)于人體行為的識(shí)別算法,將智能識(shí)別算法引入對(duì)聚集行為進(jìn)行識(shí)別,是智能化戰(zhàn)場(chǎng)發(fā)展的必然趨勢(shì)。
聚集行為識(shí)別工作主要分為兩個(gè)過(guò)程:特征表征和行為的識(shí)別及理解。特征表征是在視頻影像數(shù)據(jù)中提取能夠表征這段視頻關(guān)鍵信息的特征,這個(gè)過(guò)程在整個(gè)識(shí)別過(guò)程起了關(guān)鍵的作用,特征的好壞直接會(huì)影響到最終的識(shí)別效果。行為識(shí)別及理解階段是將前一階段得到的特征向量作為輸入經(jīng)過(guò)機(jī)器學(xué)習(xí)算法進(jìn)行學(xué)習(xí),并將在測(cè)試過(guò)程或應(yīng)用場(chǎng)景中得到的特征向量輸入到上述過(guò)程得到的模型中進(jìn)行類型的識(shí)別[2]。
行為特征提取算法早期有基于時(shí)空興趣點(diǎn),光流特征,剪影特征的計(jì)算方法。近年來(lái)隨著深度學(xué)習(xí)(Deep Learning)理論,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)的發(fā)展,行為識(shí)別也得到了長(zhǎng)足的發(fā)展[3-4]。本文在介紹傳統(tǒng)算法的基礎(chǔ)上,重點(diǎn)分析了基于卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展算法在行為識(shí)別中的研究進(jìn)展。
總體來(lái)說(shuō)基于情報(bào)影像的戰(zhàn)場(chǎng)目標(biāo)聚集行為識(shí)別中的挑戰(zhàn)來(lái)自以下幾個(gè)方面:
1)空間復(fù)雜性。不同光照、視角拍攝到的情報(bào)影像出現(xiàn)不同的戰(zhàn)場(chǎng)背景,而在不同的戰(zhàn)場(chǎng)背景中相同的戰(zhàn)場(chǎng)目標(biāo)行為會(huì)產(chǎn)生差異。即使在相同的戰(zhàn)場(chǎng)背景中,聚集行為的特征空間依舊非常大,產(chǎn)生聚集行為的作戰(zhàn)單元數(shù)目不確定,根據(jù)作戰(zhàn)目標(biāo)、任務(wù)分配、作戰(zhàn)環(huán)境等差異,相同的作戰(zhàn)任務(wù)可能出現(xiàn)不同的聚集行為,導(dǎo)致聚集行為特征空間大;
2)時(shí)間維度差異。在時(shí)間維度上,聚集行為是作戰(zhàn)單元群體密度從低到高變化的時(shí)間序列。時(shí)間差異性是指聚集行為發(fā)生的時(shí)間點(diǎn)不可預(yù)測(cè),而且行為的持續(xù)間隔也不盡相同。時(shí)間差異性要求識(shí)別過(guò)程中能夠辨別行為的起止時(shí)間,同時(shí)有效判斷行為作用的有效時(shí)間和間隔,對(duì)行為在時(shí)域和時(shí)序范圍內(nèi)進(jìn)行更加細(xì)致的分析,導(dǎo)致聚集行為在不同速率、順序和組合情況下都會(huì)存在差異。
本文首先介紹課題的研究背景。第1節(jié)介紹傳統(tǒng)的行為識(shí)別方法的研究成果。第2節(jié)介紹了多個(gè)深度學(xué)習(xí)算法的理論基礎(chǔ)及其在行為識(shí)別上的研究進(jìn)展。第3、4節(jié)介紹下一步研究方向和結(jié)論。
傳統(tǒng)行為識(shí)別方法一般是通過(guò)人工觀察和設(shè)計(jì),手動(dòng)設(shè)計(jì)出能夠表征動(dòng)作特征的特征提取方法。光流特征和時(shí)空特征是目前動(dòng)作識(shí)別中被普遍采用的表觀特征。
時(shí)空特征是將一段視頻作為一個(gè)(x,y,t)三維空間中的時(shí)空體來(lái)分析和處理,既將序列圖像在時(shí)間軸上級(jí)聯(lián),然后提取3維數(shù)據(jù)模式,如時(shí)空興趣點(diǎn)、時(shí)空立方體等,用于動(dòng)作描述。
2004年Laptev和Lindeberg最先提出時(shí)空興趣點(diǎn)(STIP),本質(zhì)上是基于Harris角點(diǎn)的時(shí)域擴(kuò)展,通過(guò)在三維時(shí)空上進(jìn)行對(duì)應(yīng)的高斯模糊和局部角點(diǎn)提取,獲取時(shí)空興趣點(diǎn)并在時(shí)空興趣點(diǎn)周?chē)M(jìn)行像素直方圖的統(tǒng)計(jì)最終形成描述動(dòng)作的特征向量。雖然這種方法可以對(duì)像機(jī)的對(duì)運(yùn)動(dòng)出現(xiàn)的跟蹤誤差進(jìn)行補(bǔ)償,但其缺點(diǎn)相當(dāng)明顯。如:只可以提取數(shù)量較少的穩(wěn)定的興趣點(diǎn)[5]。Dollar等[6]為時(shí)空維度添加高斯濾波器進(jìn)行濾波,使檢測(cè)出來(lái)的興趣點(diǎn)數(shù)目就會(huì)隨著局部鄰域塊的尺寸大小的改變而改變。Knopp等[7]將二維SURF(Speeded Up Robust Features)特征擴(kuò)展到三維,3DSURF特征的每個(gè)單元包含了全部Harr-wavelet特征。
時(shí)空立方體特征是一種將提取到的時(shí)空興趣點(diǎn)進(jìn)一步映射到一個(gè)立方體上進(jìn)行表征的一種技術(shù)。Sae和Milanfar[8]用時(shí)空局部回歸核(Space TimeLocal RegressionKernels,3DLSKs)對(duì)圖像中人體動(dòng)作進(jìn)行表征,通過(guò)時(shí)空立方體的匹配完成動(dòng)作識(shí)別。文獻(xiàn)[9]也通過(guò)坐標(biāo)變換利用一個(gè)LED時(shí)空立方體將Kinect構(gòu)建的三維人體關(guān)節(jié)模型進(jìn)行表征。
基于時(shí)空興趣點(diǎn)的行為識(shí)別因角點(diǎn)檢測(cè)技術(shù)的發(fā)展而容易實(shí)現(xiàn),但是這類方法沒(méi)有很好利用局部特征之間的空間幾何關(guān)系。雖然基于時(shí)空立方體的行為識(shí)別依賴于其他特征的提取效果,但是對(duì)聚集行為識(shí)別這一研究熱點(diǎn)有重要意義。
光流是行為識(shí)別中的一種重要?jiǎng)討B(tài)特征,是運(yùn)動(dòng)物體在觀測(cè)成像面上的像素運(yùn)動(dòng)的瞬時(shí)速度。1950年,Gibso首先提出了光流的概念,用于運(yùn)動(dòng)圖像的分析。光流計(jì)算的基本假設(shè)是圖像模式中的點(diǎn)(x,y)在t時(shí)刻的灰度值為I(z,y,t),在較短的時(shí)間間隔內(nèi)該值保持不變,即
從而得到光流約束方程:
然后通過(guò)假設(shè)光流在整個(gè)圖像上的變化平滑這一約束條件完成光流約束方程的求解。Efros等[8]利用光流信息實(shí)現(xiàn)一定距離上人體動(dòng)作的識(shí)別。Zhang[11]根據(jù)光流場(chǎng)的二值圖像構(gòu)建目標(biāo)模板,通過(guò)目標(biāo)匹配的方法實(shí)現(xiàn)物體追蹤。Mahbub[12]用光流場(chǎng)中特征點(diǎn)水平和垂直方向的平均差和標(biāo)準(zhǔn)差計(jì)算實(shí)現(xiàn)對(duì)運(yùn)動(dòng)及方向的檢測(cè)。基于光流技術(shù)的行為識(shí)別容易受光照和遮擋的影響,為克服這一缺陷,近年來(lái)開(kāi)展許多相關(guān)研究。2009年Wang等[13]用稠密光流軌跡將運(yùn)動(dòng)場(chǎng)景分割為前景與背景,并使用運(yùn)動(dòng)邊界編碼,這種方法對(duì)無(wú)規(guī)則的動(dòng)作更具魯棒性,對(duì)復(fù)雜動(dòng)作的捕獲更為精確。光流法的優(yōu)點(diǎn)是當(dāng)攝像機(jī)運(yùn)動(dòng)時(shí)時(shí)也能準(zhǔn)確提取特征,但是光流法有著不容忽視的缺點(diǎn),即便是目前最好的光流計(jì)算法算法,也存在著噪聲,同時(shí)計(jì)算復(fù)雜度高。
傳統(tǒng)行為識(shí)別方法具有直觀、易于理解的優(yōu)點(diǎn)。時(shí)空興趣點(diǎn)、時(shí)空立方體的特征提取方式可以獲得較長(zhǎng)時(shí)間的的動(dòng)態(tài)特性,對(duì)遮擋等事件的處理更加魯棒有效。光流特征可以表征出物體的運(yùn)動(dòng)趨勢(shì)。以上方法在一定程度上解決了行為識(shí)別的問(wèn)題,但算法的準(zhǔn)確率主要取決于所提取的特征是否能對(duì)數(shù)據(jù)特點(diǎn)有良好的表達(dá),當(dāng)面對(duì)復(fù)雜的行為影像時(shí),這些特征的描述能力可能變得十分有限。雖然多特征融合可以提高特征提取能力,但人工挑選的特征在一定程度上難以融合。此外,特征提取耗時(shí)較長(zhǎng),導(dǎo)致效率低下。這些缺陷在一定時(shí)間內(nèi)難以解決。深度學(xué)習(xí)的提出,為行為識(shí)別提供了一種新的思路。
深度學(xué)習(xí)(Deep Learning)目前作為機(jī)器學(xué)習(xí)領(lǐng)域的火熱的一個(gè)分支,在結(jié)構(gòu)上,深度學(xué)習(xí)的網(wǎng)絡(luò)模型擁有了更深的層次。當(dāng)樣本足夠多時(shí),深度網(wǎng)絡(luò)學(xué)習(xí)到的特征往往具有一定的語(yǔ)義特征,適合提取目標(biāo)和行為的抽象特征。目前為止,圖像分類和目標(biāo)檢測(cè)等基于圖像的任務(wù)已經(jīng)在深度學(xué)習(xí)(尤其是卷積神經(jīng)網(wǎng)絡(luò))的推動(dòng)下實(shí)現(xiàn)了革命性的發(fā)展。根據(jù)時(shí)序建模方式的不同,基于深度學(xué)習(xí)的行為檢測(cè)方法可以分為:基于雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-Stream CNN)的模型、基于3D卷積核的3D-CNN模型、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的LSTM模型。
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是基于深度學(xué)習(xí)理論的一種人工神經(jīng)網(wǎng)絡(luò),在靜態(tài)圖像識(shí)別問(wèn)題中取得了空前的成功。雙流卷積神經(jīng)網(wǎng)絡(luò)由兩路卷積神經(jīng)網(wǎng)絡(luò)和模型融合部分組成。圖1是雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)框圖。空間流輸入為單幀的RGB圖像,用于識(shí)別一些和行為相關(guān)的表面特征。時(shí)域流的輸入為光流堆,既多幀光流圖,用于學(xué)習(xí)視頻中時(shí)域的行為信息。
圖1 雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)框圖
文獻(xiàn)[14]首次提出雙流卷積神經(jīng)網(wǎng)絡(luò)的概念,K.Simonyan等以單幀RGB作為輸入的CNN來(lái)處理空間維度的信息,使用以多幀密度光流場(chǎng)作為輸入的CNN來(lái)處理時(shí)間維度的信息,并通過(guò)多任務(wù)訓(xùn)練的方法將兩個(gè)行為分類的數(shù)據(jù)集聯(lián)合起來(lái)(UCF101與HMDB),去除過(guò)擬合進(jìn)而獲得更好效果??臻g流與時(shí)間流在不同的位置融合,網(wǎng)絡(luò)識(shí)別精度會(huì)有不同的效果,C.Feichtenhofer等[15]改進(jìn)雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在Conv5卷積層對(duì)時(shí)空網(wǎng)絡(luò)進(jìn)行融合,并使用VGG深度模型替換了AlexNet,在UCF101數(shù)據(jù)集上的識(shí)別率高達(dá)92.5%。針對(duì)前期行為識(shí)別網(wǎng)絡(luò)僅能處理短期行為的問(wèn)題,文獻(xiàn)[16]在雙流卷積網(wǎng)絡(luò)的基礎(chǔ)上提出時(shí)域分割網(wǎng)絡(luò)(TSN),L.Wang首先使用稀疏時(shí)間采樣策略和基于視頻監(jiān)督的策略,將視頻進(jìn)行時(shí)域分割后隨機(jī)抽取片段,來(lái)彌補(bǔ)雙流卷積網(wǎng)絡(luò)智能處理短期視頻的問(wèn)題,然后使用交叉預(yù)訓(xùn)練、正則化技術(shù)和數(shù)據(jù)擴(kuò)張技術(shù)來(lái)彌補(bǔ)雙流卷積網(wǎng)絡(luò)的理解能力不足的問(wèn)題。
傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)從理論上可建立長(zhǎng)時(shí)間間隔狀態(tài)之間的依賴關(guān)系,但是訓(xùn)練過(guò)程會(huì)出現(xiàn)梯度爆炸或消失,實(shí)際上只能學(xué)習(xí)到短周期的依賴關(guān)系。Hochreiter與Schmidhuber提出一個(gè)很好的解決方法,引入門(mén)機(jī)制控制信息的積累速度,設(shè)置遺忘處理,選擇遺忘之前累積的信息,即LSTM單元。LSTM單元是循環(huán)神經(jīng)網(wǎng)絡(luò)的變形模式,能夠有效地解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸或梯度消失問(wèn)題[17]。
加州大學(xué)伯克利分校的Donahue等[18]使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)視頻的時(shí)間信息進(jìn)行建模,挖掘視頻幀與幀之間的信息,不僅利用了幀的空間信息,還利用了視頻的時(shí)序信息,進(jìn)而生成針對(duì)一段視頻的語(yǔ)言描述,完成了視頻中動(dòng)作的分類以及語(yǔ)句標(biāo)注。將LSTM與CNN相結(jié)合能夠?qū)μ卣鬟M(jìn)行更完整的學(xué)習(xí),文獻(xiàn)[19]將LSTM與CNN結(jié)合提出長(zhǎng)期循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(LRCN),利用CNN網(wǎng)絡(luò)提取各幀的空間特征,將CNN網(wǎng)絡(luò)的輸出調(diào)整規(guī)模依次輸入到LSTM網(wǎng)絡(luò)來(lái)獲取序列時(shí)序特征,并計(jì)算各個(gè)時(shí)刻LSTM輸出的平均值,輸出最后的分類結(jié)果。充分利用RNN在時(shí)間T上的展開(kāi)相當(dāng)于多層,且時(shí)間序列中權(quán)重W在每個(gè)時(shí)間步驟上都是復(fù)用的特點(diǎn),使得網(wǎng)絡(luò)嚴(yán)格按照時(shí)間步驟來(lái)學(xué)習(xí)而不會(huì)導(dǎo)致參數(shù)的成比例增長(zhǎng)。但是其算法的識(shí)別準(zhǔn)確率不及two-stream。文獻(xiàn)[20]提出利用特征池化,LSTM+soft組合的方式處理視頻段中的時(shí)間信息,算法在長(zhǎng)時(shí)視頻的處理方面具有長(zhǎng)足的優(yōu)勢(shì)。視頻需要更高維度的特征去表達(dá),從而需要收集更多帶標(biāo)簽的數(shù)據(jù)并進(jìn)行大量的數(shù)據(jù)標(biāo)記工作,針對(duì)這個(gè)問(wèn)題,文獻(xiàn)[21]引入LSTM+Autoencoder的組合來(lái)對(duì)視頻特征進(jìn)行無(wú)監(jiān)督學(xué)習(xí),該文章在創(chuàng)新方面可分為兩點(diǎn):借助可視化手段能夠分析問(wèn)題;通過(guò)無(wú)監(jiān)督學(xué)習(xí)對(duì)有監(jiān)督學(xué)習(xí)參數(shù)進(jìn)行初始化,提升有監(jiān)督學(xué)習(xí)處理分類任務(wù)的能力。
傳統(tǒng)的視頻影像處理主要采用2D卷積進(jìn)行特征提取,然后在對(duì)行為識(shí)別,由于行為動(dòng)作連續(xù)幀之間具有一定的規(guī)律性,因此2D卷積無(wú)法根據(jù)這一特性進(jìn)行特征提取。為了有效的綜合運(yùn)動(dòng)信息,因此3D卷積被提出來(lái)。圖2為2D卷積與3D卷積的區(qū)別。3D卷積最大的特性是能夠在連續(xù)視頻幀數(shù)據(jù)立方體中進(jìn)行特征提取,這種操作可以同時(shí)捕捉到時(shí)間維度和空間維度上的特征信息,且該操作一次性對(duì)多幀圖像進(jìn)行處理。
圖2 2D卷積與3D卷積
文獻(xiàn)[22]提出了使用3D卷積核對(duì)連續(xù)視頻幀數(shù)據(jù)立方體進(jìn)行特征提取,這種操作一次性對(duì)多幀圖像進(jìn)行處理,可以同時(shí)捕捉到時(shí)間維度和空間維度上的特征信息,該文章證明3D卷積比2D卷積更能完好的捕捉運(yùn)動(dòng)和外觀。該算法配合iDT與SVM在UCF-101數(shù)據(jù)集上的識(shí)別率達(dá)到90.3%。文獻(xiàn)[23]提出P3D算法,將3D卷積核拆分為2D卷積核與1D卷積核的級(jí)聯(lián),在大幅度降低了卷積的運(yùn)算量的同時(shí),獲得了不錯(cuò)的檢測(cè)準(zhǔn)確率。文獻(xiàn)[24]針對(duì)3D-CNN無(wú)法對(duì)長(zhǎng)時(shí)域信息充分挖掘的問(wèn)題,改進(jìn)時(shí)域3D卷積核,用時(shí)域變換層TTL來(lái)替換pooling層,提出了T3D網(wǎng)絡(luò),實(shí)現(xiàn)了端到端的訓(xùn)練。
深度學(xué)習(xí)技術(shù)在個(gè)體行為識(shí)別方面表現(xiàn)突出。雙流卷積神經(jīng)網(wǎng)絡(luò)使用兩個(gè)二維卷積神經(jīng)網(wǎng)絡(luò)提取特征,在網(wǎng)絡(luò)末端充分融合空間信息與時(shí)序動(dòng)態(tài)信息,識(shí)別準(zhǔn)確率得到了提高。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其擴(kuò)展算法使用CNN提取空間特征,利用RNN提取時(shí)序特征。3D卷積神經(jīng)網(wǎng)絡(luò)利用3D卷積核同時(shí)捕獲空間與時(shí)序信息,提高了識(shí)別速度。上述模型的共同點(diǎn)是將行為檢測(cè)任務(wù)設(shè)計(jì)成一個(gè)端到端的學(xué)習(xí)模型。與需要大量專業(yè)知識(shí)和經(jīng)驗(yàn)的人工特征相比,深度學(xué)能通過(guò)深層架構(gòu)自動(dòng)學(xué)習(xí)數(shù)據(jù)特征,這是深度學(xué)習(xí)方法的關(guān)鍵優(yōu)勢(shì)?,F(xiàn)存的基于深度學(xué)習(xí)的行為識(shí)別算法表現(xiàn)優(yōu)異的一方面原因是充分利用了單幀信息,但戰(zhàn)場(chǎng)目標(biāo)聚集行為是一種群體行為,提取單幀級(jí)別特征意義較小,設(shè)計(jì)一種可以充分提取時(shí)間維度特征的網(wǎng)絡(luò)結(jié)構(gòu)是亟待解決的問(wèn)題,其中一種解決思路是使用視頻流取代單幀圖像輸入網(wǎng)絡(luò)。
聚集行為識(shí)別存在的難點(diǎn)主要有:
1) 連續(xù)行為的分割和長(zhǎng)時(shí)視頻中動(dòng)作的識(shí)別。一段影像中可能含有包括聚集行為在內(nèi)的多個(gè)行為動(dòng)作,行為動(dòng)作之間沒(méi)有明顯的邊界指示。現(xiàn)有的動(dòng)作識(shí)別算法大多數(shù)是對(duì)已經(jīng)從時(shí)間域分割好的視頻片斷來(lái)進(jìn)行分類,而不能識(shí)別長(zhǎng)時(shí)視頻中發(fā)生的多個(gè)動(dòng)作,也不能定位事件發(fā)生的開(kāi)始幀和結(jié)束幀。
2) 大量訓(xùn)練集的標(biāo)注。訓(xùn)練適用于聚集行為識(shí)別的深度學(xué)習(xí)算法勢(shì)必需要大規(guī)模的數(shù)據(jù)集,目前現(xiàn)有的數(shù)據(jù)庫(kù)中的數(shù)據(jù)集數(shù)量有限,如何對(duì)大量的視頻進(jìn)行標(biāo)注是一個(gè)問(wèn)題。利用人工標(biāo)注的方法費(fèi)時(shí)費(fèi)力。這就需要視頻數(shù)據(jù)的自動(dòng)標(biāo)注工具。
聚集行為研究也有許多值得進(jìn)一步研究與努力的方向:
1) 識(shí)別的速度問(wèn)題。現(xiàn)有的深度學(xué)習(xí)影像識(shí)別算法的參數(shù)規(guī)模隨著網(wǎng)絡(luò)層數(shù)的增多而擴(kuò)大,導(dǎo)致算法的識(shí)別速度下降。由于戰(zhàn)場(chǎng)環(huán)境快速變化和不可預(yù)測(cè)性,對(duì)算法的識(shí)別速度提出了較高的要求。如何從網(wǎng)絡(luò)結(jié)構(gòu)入手,在保證識(shí)別率的基礎(chǔ)上提高識(shí)別速度是研究者們追求的目標(biāo)。
2) 真實(shí)場(chǎng)景下的行為識(shí)別問(wèn)題。早期的行為識(shí)別算法的研究都是在較為簡(jiǎn)單的數(shù)據(jù)集上進(jìn)行的,這類數(shù)據(jù)集中的視頻畫(huà)面往往干擾較少,有固定的事件主題目標(biāo)。但是實(shí)際情況下,包含聚集行為的影像資料往往有分辨率較低,場(chǎng)景復(fù)雜,光照變化等問(wèn)題,因此行為識(shí)別算法還有廣闊的發(fā)展空間。
戰(zhàn)場(chǎng)目標(biāo)聚集行為識(shí)別對(duì)推動(dòng)戰(zhàn)場(chǎng)智能化發(fā)展具有重要的現(xiàn)實(shí)意義。本文在回顧傳統(tǒng)識(shí)別算法的基礎(chǔ)上,對(duì)近年來(lái)提出的基于深度學(xué)習(xí)的行為識(shí)別算法逐一介紹與總結(jié)分析,為下一步研究指明了方向。人工智能技術(shù)為戰(zhàn)場(chǎng)智能化發(fā)展提供了發(fā)展動(dòng)力,但同時(shí)存在不少困難,對(duì)其研究任重道遠(yuǎn)。