馬偉 高振懷
摘要:該文對相關概念進行分析,并分別闡述卷積神經(jīng)網(wǎng)絡與布谷鳥搜素算法在人體行為識別中的應用。以未剪切長視頻為例,提出三維卷積與循環(huán)神經(jīng)網(wǎng)絡相結合的方式,根據(jù)識別結果可知,與前人研究相比,識別準確率有顯著提升,說明該方案科學可行,人體行為檢測變得更加實用高效。
關鍵詞:卷積神經(jīng)網(wǎng)絡;布谷鳥搜索;人體行為
中圖分類號:TP183? ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)01-0090-02
在科技飛速發(fā)展下,高清視頻監(jiān)控產(chǎn)品陸續(xù)誕生,人體行為識別在軍事安防、智能家居與智慧城市等領域得到廣泛應用。在智能終端逐漸普及下,大量短視頻產(chǎn)生,需要更加便利地檢索、分類與審核,而視頻主體便是人體行為,應采用卷積神經(jīng)網(wǎng)絡、布谷鳥搜索等方式,使人體行為得到準確快速地識別。
1相關概念分析
1.1人體行為識別
人體行為代表的是人類行為,主要是對環(huán)境或者其他物體產(chǎn)生的反應。在人體行為研究中可分為整體與部分兩項內容。其中局部行為包括手勢、面部表情等;而整體行為以行為、姿勢和動作為主。因行為復雜程度不同,可將其分為手勢、姿態(tài)、表情與交互行為等。從本質上看,人體行為識別主要對個人行為、群體行為以及人與外界環(huán)境間的行為進行理解和分析。在靜態(tài)手勢、表情識別與人體行為等方面較為成熟,取得一定成就。
1.2卷積神經(jīng)網(wǎng)絡
1)局部連接。受生物學影響,視覺皮層的神經(jīng)元可接受局部信息。圖像像素的空間關聯(lián)與距離較近的像素有較強關聯(lián)性,反之則較弱。對此,神經(jīng)元單純接收自己所負責的局部感受范圍,無需感知全部像素,個別信息科由下一層信息融合起來,變?yōu)槿娌季?
2)卷積原理。該原理主要體現(xiàn)在利用相同卷積核對整體圖像進行處理,對個別特點與其他位置特征進行提取,使其他位置均能利用相同的學習特點。通過權值共享的方式,可使特征唯獨、參數(shù)量等得到顯著降低,神經(jīng)網(wǎng)絡時空復雜度也會隨之下降。通過對圖像結構特點進行分析,依靠深層特點可將圖像本身含義體現(xiàn)出來,卷積定義為:對R上可積的函數(shù)[f(x)]與[g(x)]的卷積[h(x)]表示為:
[h(x)=f(τ)g(x-τ)dτ]
式中,[f(x)]在[g(x)]中卷積用[f(x)]·[g(x)]表示,在定義域內[f(x)]與[g(a-x)]乘積積分;[a]代表的是卷積函數(shù)自變量,也就是卷積所處位置。
3)多層卷積核。首個卷積層在運行后,卷積層內特征圖像帶有淺層特征,如線條輪廓、邊緣信息等。在圖像識別時要求采用深層特征,而淺層特點無法將圖像語義充分體現(xiàn)出來。一種卷積核只可利用相同的特征圖,要想取得更深層的特點,便要對多層卷積的特點全面提取,繪制帶有眾多信息的特征圖。在圖像識別方面,從初始階段到利用像素勾勒的簡單紋理曲線,最終形成圖案,變成圖像中的各個物體[1]。
1.3布谷鳥搜索算法
布谷鳥是具有代表性的巢寄生育雛行為的鳥類,一些布谷鳥自己不筑巢和產(chǎn)卵,而是偷偷將蛋產(chǎn)在其他鳥巢中,由宿主代為孵化與養(yǎng)育。在繁殖過程中,先要尋找育雛期與自己相近、卵顏色相似的宿主,再趁其外出時迅速將蛋產(chǎn)在宿主的巢中。為不被宿主察覺,在產(chǎn)卵之前還會將宿主原本巢中的一枚或者多枚蛋拿走,使巢內原本卵量不變。一旦寄生卵被發(fā)現(xiàn),便會被宿主移走,寄生繁殖便失敗。根據(jù)上述行為,布谷鳥搜索算法誕生,實現(xiàn)流程如下:一是對搜索空間、種群規(guī)模、迭代最大值等進行設置,對鳥巢位置初始化,將目標函數(shù)定義為[F(x)],其中X的取值范圍為[x1]到[xn];二是對各個鳥巢位置目標函數(shù)值進行對比,獲得最佳函數(shù)值;三是依靠萊維飛行對除最佳鳥巢外的剩余鳥巢位置進行優(yōu)化,計算明確的目標函數(shù)值,將其與最佳函數(shù)值對比,如若良好,則記錄最優(yōu)值;四是當位置更新后,將隨機數(shù)與Pa對比,如若[r]值大于Pa,便可隨機更新鳥巢位置,否則巢位置不發(fā)生改變;五是在滿足搜索精度要求情況下,輸出最佳鳥巢位置[2]。
2布谷鳥搜索算法在人體行為識別中的應用
2.1算法原理
在布谷鳥繁殖行為的啟發(fā)下,布谷鳥搜索算法誕生,該算法具有較強的智能性,先定義3種假設,一是每只布谷鳥只產(chǎn)下一顆蛋,并隨機分布到鳥巢中;二是一些優(yōu)質鳥巢會被保留給后代,質量較差的鳥巢會被更新;三是宿主識別鳥蛋的概念為[Pa∈[0,1]]。鳥巢尋找路徑與位置變換操作公式如下:
[Xik+1=Xik+a⊕levy(λ)]
式中,[Xik]代表的是第[k]代鳥巢位置向量;[Xik+1]代表的是第[k+1]代鳥巢位置向量;[⊕]代表的是點與點間的運算;[Levy(λ)]代表的是鳥飛行路徑;[a]代表的是調節(jié)因子。
在CS算法運行中,許多鳥巢利用隨機更新形式,使鳥巢周圍區(qū)域的關鍵信息得到充分利用,并采取選擇性淘汰策略。在CS算法基礎上,全局搜索能力增強,但局部搜索能力較弱,可利用淘汰策略進行計算,如下:
[Xki,newnest=Xki,pnest+c×(Xki,pnest-Xki)]
式中,[Xki,newnest]、[Xki,pnest]與[Xki,pnest]均為不同時段鳥巢位置。
2.2識別平臺搭建
為探究CS-RVM行為識別模型的可行性,利用Win 8電腦、Matlab軟件開展識別實驗,隨機選擇10個人,要求他們演示各種行為,獲得300個樣本訓練集與200個測試樣集,每人做6種不同行為。在實驗條件不變情況下,采用不同模型進行對照實驗。一是利用布谷鳥算法對向量機核特征進行優(yōu)化,參數(shù)設定為1.75,模型編號為1號;二是特征參數(shù)為64個,用布谷鳥算法進行向量機核參數(shù)優(yōu)化,模型編號為2號;三是布谷鳥算法分別對特征與參數(shù)進行優(yōu)化,且忽視二者間的聯(lián)系,模型編號為3號[3]。
2.3人體行為識別
通過離散傅里葉變換特點,對人體行為特征進行提取,對其歸一化處理后,再對相關向量函數(shù)參數(shù)[σ]的取值范圍;起初鳥巢位置向量由人體行為與[σ]表示;采用以下公式對鳥巢位置的適應度進行計算,公式為:
[f=ω×precison+(1-ω)(i=1Nfi)-1]
式中,[fi]代表的是特征狀態(tài);[ω]代表的是權值。針對一些質量較低的鳥巢向量優(yōu)化處理,由此形成新的鳥巢位置。在滿足算法結束條件后,由最佳鳥巢向量可獲得人體行為集合,在此基礎上創(chuàng)建人體行為識別模型。在布谷鳥算法應用下,創(chuàng)建行為識別模型的運行流程如下:先是離散傅里葉變換,對行為特征進行提取后歸一化處理,訓練樣本集合,將訓練集簡化后估計適應度,判斷是否滿足算法結束要求,若滿足則創(chuàng)建行為識別模型;若未滿足,則對個別質量較差的鳥巢位置更新處理,將鳥巢位置分為向量機核參數(shù)與特征子集,對前者估計適應度值,對后者簡化訓練集,然后判斷是否滿足算法結束要求,若滿足,則創(chuàng)建行為識別模型,若不滿足則重復上述操作,直至與算法結束條件相符。
2.4識別結果
針對上述三個模型分別開展10次方針實驗,對平均值進行統(tǒng)計,獲得以下識別結果。
1)與1號和2號相比,3號行為識別準確率更高,可有效降低行為識別錯誤率,意味著1號與2號單純對行為識別影響因素進行分析,在識別準確性方面難以滿足相關要求[4];
2)與3號相比,CS-RVM能夠取得理想的行為識別結果,但二者間互為獨立,沒有深入分析與參數(shù)間的關系,無法確保二者均達到最佳狀態(tài),CS-RVM模型能夠對二者間的關系充分考慮,使行為識別準確率得到極大提升。在應用期間,一些行為實時性要求較高,如智能監(jiān)控等,要對人體各種行為模型的識別用時均值進行分析,以“走”“跑”“蹲”“坐”和“彎腰”為例,對四種模型的識別時間進行對比。1號模型中“走”識別用時為0.461s,“跑”識別時間0.410s,“蹲”識別用時0.425s,“坐”用時0.405s,“彎腰”用時0.421s;2號模型中“走”識別用時為0.421s,“跑”識別時間0.406s,“蹲”識別用時0.415s,“坐”用時0.403s,“彎腰”用時0.414s;3號模型中“走”識別用時為0.495s,“跑”識別時間0.484s,“蹲”識別用時0.436s,“坐”用時0.403s,“彎腰”用時0.425s;CS-RVM模型中“走”識別用時為0.359s,“跑”識別時間0.396s,“蹲”識別用時0.374s,“坐”用時0.375s,“彎腰”用時0.385s。
3卷積神經(jīng)網(wǎng)絡的人體行為識別實驗分析
3.1數(shù)據(jù)采集
本文選擇25人在4個場景中完成24類動作,共采集2395個樣品,且尺度、衣著與光照存在不同變化,但背景相對靜止,使用同一臺相機拍攝,識別較為簡單。食品已經(jīng)按照行為發(fā)生時間剪切完畢,并對空間場景進行標注。在數(shù)據(jù)及中包括兩項目標,一個是行為識別,另一個是時序檢測。在時序檢測中共有20類動作沒有剪切視頻,采用片段形式標注,此類樣本可用于創(chuàng)建測試時序行為的檢驗模型。在本文研究中,時序檢測中的驗證集當作訓練數(shù)據(jù),對未剪切的場視頻進行性能測試。
3.2網(wǎng)絡訓練
為將本文構建的模型與其他模型對比,利用數(shù)據(jù)集的時序行為對子集進行實驗檢驗,對該子集中的時序行為片段標注出來,帶有200個驗證視頻與230個測試視頻。根據(jù)相關規(guī)定,利用驗證集進行數(shù)據(jù)訓練,再利用5個交叉驗證法對超參數(shù)進行優(yōu)化。在Sports M數(shù)據(jù)集基礎上預訓練,對網(wǎng)絡convl初始化操作后,對網(wǎng)絡后續(xù)層展開訓練,學習率設定為0.001。為提高網(wǎng)絡訓練效果,還要利用循環(huán)記憶模塊對語義進行約束,使其嚴格遵循設計要求完成任務,對候選視頻進行分離。在損失函數(shù)設計期間,可對不同模塊的損失函數(shù)進行單獨設計,并通過多模塊間的加權系數(shù)獲得損失函數(shù),為網(wǎng)絡端與端之間的訓練提供科學方式。網(wǎng)絡總體是對個人行為的檢測,但損失函數(shù)中帶有循環(huán)記憶P與C兩個模塊,依靠控制訓練,可在不同階段對損失函數(shù)比重進行明確,從而完成全部任務訓練,由此達到語義約束目標。具體措施為:針對模塊P,每實施5次批量梯度下降時,約束權值便可降低50%;對于模塊C來說,每實施8.5K次批量下降,約束權值便降低50%。在性能評價方面,在人體行為檢測方面,可采用mAP指標,利用計算幀與視頻等級對時空性能進行檢測。在應用中先對各個類別的平均準確率進行計算,再獲得多個類別的平均數(shù)。AP是準確率、召回率曲線下的面積。P-R曲線可對準確率、召回率間的函數(shù)關系進行介紹,其中前者是指真正為正例的數(shù)據(jù)比例,后者為預測為正例的數(shù)據(jù)比例,P-R曲線關鍵是對P-R進行計算[5]。
3.4實驗結果
網(wǎng)絡通過訓練在驗證集中檢驗模型性能,針對沒有剪切的視頻,通過可視化檢驗結果可更加直觀地理解模型性能。隨機選出一段驗證視頻,根據(jù)檢測結果可知,針對未剪切的長視頻,其實際行為只有視頻中的一小部分,且一段視頻可能包含多種行為,但網(wǎng)絡均可將其檢測出來。根據(jù)可視化模型可知,通過卷積神經(jīng)網(wǎng)絡可使人體行為檢驗準確率顯著提升,主要因網(wǎng)絡結構設計準確,且接受過合理的訓練與約束。同時,網(wǎng)絡還輸出諸多類型的準確率,根據(jù)本文算法可知“投籃”識別時長為0.195s,“跳遠”識別時長為0.725s,“打臺球”識別時長為0.047s,“跳水”識別時長為0.278s,“打高爾夫球”識別時長為0.185s。通過對不同類型準確率分析可知,人體行為檢測的類型差別較為相似,個別行為的識別準確率良好,如跳遠等,但個別行為識別有些困難,如打臺球等。通過對視頻數(shù)據(jù)的深入分析,很容易辨別算法的類型,類間差異相對較大,類內差異相對較小,但一些識別難度較大的類別則相反,這主要受行為的自身特點決定,應區(qū)別看待。
4 結論
綜上所述,在網(wǎng)絡飛速發(fā)展下,每日產(chǎn)生的視頻量爆炸式增長,在視頻審核與檢驗中,可采用卷積神經(jīng)網(wǎng)絡、布谷鳥搜索算法等方式進行人體行為識別,從而快速審核視頻信息。將其應用到未剪輯長視頻中,與以往技術相比,能夠更加快速準確地識別行為,使動作識別更具實用性。同時,個別行為因訓練樣本較少,對識別精準度產(chǎn)生不良影響,主要因模型訓練不充分所致,可通過增加訓練樣本等方式,使檢測精度進一步提升。
參考文獻:
[1] 劉波,易輝,薄翠梅,等.MCKD與改進的LSSVM在滾動軸承故障診斷中的應用[J].電子技術應用,2018,44(7):81-85.
[2] 賀海龍.基于卷積神經(jīng)網(wǎng)絡的人體行為識別研究[D].秦皇島:燕山大學,2019.
[3] 薛路強.基于雙流融合卷積神經(jīng)網(wǎng)絡的人體行為識別研究[D].合肥:安徽大學,2018.
[4] 于清,姜佩京,王耀國,等.基于卷積神經(jīng)網(wǎng)絡人體行為識別的院前急救措施研究[J].中華危重病急救醫(yī)學,2020,32(11):1385-1387.
[5] 諶頏,孫道宗.基于CS優(yōu)化深度學習卷積神經(jīng)網(wǎng)絡的目標檢測算法[J].機床與液壓,2020,48(6):187-192.
【通聯(lián)編輯:唐一東】
收稿日期:2021-10-15
基金項目:寧夏大學新華學院科學研究基金項目(19XHKY04)
作者簡介:馬偉(1982—),男(回族),寧夏固原人,副教授,碩士,主要研究方向為計算機應用技術,計算機系統(tǒng)結構,人工智能。
3260500338278