金海峰,吳楠,張悠然
(長春大學網絡安全學院,吉林長春 130022)
動作識別技術在安全監(jiān)控、智能視頻分析、群體行為識別等領域都有重要應用,例如船舶航行異常行為檢測、地鐵站運乘環(huán)境中危險人群識別等。近年來,動作識別技術逐漸應用于智能家居,其中日常行為檢測、跌倒檢測、危險行為識別等得到越來越多研究人員的關注。
在我國智慧城市建設進程中,數字家庭的發(fā)展方向呈現新的趨勢,智慧家庭在這一變化中扮演重要角色。家庭是社會的基本單位,是人們獲得精神滿足的重要場所(包括個人成長、歸屬感獲取等),智慧家庭基于這一單位,以家庭成員為對象,將新一代信息技術用于優(yōu)化家庭生活,形成和諧智能的生活方式。隨著人們物質生活逐漸富足,精神層面的需求日益增加,在智慧家庭中,人體動作識別可以在不侵犯個人隱私的前提下,通過自動獲取家庭成員的動作行為信息,為相關文化內容的智能推送提供分類依據,形成智慧、安全、健康及極具文化特征的生活方式。本文介紹了動作識別技術的概念和主流算法,主要對智慧家庭中可采用的動作識別方法的研究現狀進行綜述,論述動作識別技術如何應用于智慧家庭構建,并提出該應用領域的研究方向。
動作識別技術是指從一段視頻或圖像序列中識別其中的動作,對已知的序列判斷所屬動作的類型,根據目標視頻提取可以表示重要信息的特征,最后在空間和時間序列進行動作識別,如圖1所示。智慧家庭環(huán)境下的動作識別環(huán)境有其特殊性,由于家庭環(huán)境具有封閉性和保密性特點,家庭環(huán)境下的動作通常是一些居家日常行為,例如吃飯、讀書、刷牙、會客等,其類型可概括為單人簡單動作、復雜連貫性動作和多人交互動作,根據不同動作類型的特征表征不同,其提取方式和特征聚合亦不同。從簡單動作到多人交互動作,特征提取的復雜度不斷提升,模型識別能力也需不斷優(yōu)化,因此深度學習方法代替?zhèn)鹘y(tǒng)方法成為動作識別方法中的主流,其中深度自注意力變換網絡(Deep Self-attention Transformer Network,下 文簡稱Transformer)是深度學習方法中的重要一支。
Fig.1 Action recognition process圖1 動作識別流程
1973年,有學者認為,特定場景下序列化的行為動作可以通過關節(jié)點運動圖像進行描述,并通過實驗驗證了這一想法,同時發(fā)現通過10~12個關節(jié)點的組合便可以描述諸多行為動作。后續(xù)不斷有學者根據深度圖像,基于對人體關鍵節(jié)點的描述估計出人體骨架?;趥鹘y(tǒng)方法的動作識別過程如圖2所示。
Fig.2 Traditional action recognition process圖2 傳統(tǒng)動作識別流程
在傳統(tǒng)方法中,改進的密集軌跡法(Improved Dense Trajectories,簡稱iDT)是應用最廣泛的方法,其步驟包括:①在多個空間尺度上密集采樣特征點;②使用光流場提取序列數據的軌跡,進而優(yōu)化光流圖像;③根據軌跡獲取的軌跡形狀特征和方向梯度直方圖(HOF)、光流直方圖(HOG)、光流梯度直方圖(MBH)、軌跡特征(trajectory)特征;④基于FV(Fisher Vector)算法對獲取的特征進行編碼;⑤依據編碼結果訓練動作識別分類器。iDT算法的優(yōu)勢是穩(wěn)定可靠,但其識別速度較慢,后續(xù)出現的根據深度學習方法進行動作識別的模型性能已超過傳統(tǒng)方法。
深度學習技術的不斷發(fā)展為智慧家庭環(huán)境下的動作識別引入了新的研究方向?;谏疃葘W習的動作識別方法從一系列數據中主動學習運動特征,并根據訓練好的特征提取模型并進行分類。
1.2.1 主要網絡結構
當前,基于深度學習用于家庭場景下動作識別的大多數網絡結構是3D卷積網絡(3D Convolutional Network)、雙流結構(Two-Stream Network)和長短期記憶神經網絡(Long Short-Term Memory,簡稱LSTM),通過深度學習進行動作識別流程如圖3所示。
Fig.3 Action recognition processbased on deep learning圖3 基于深度學習的動作識別流程
通過視頻進行動作識別較圖像增加了一個維度,3D卷積網絡可較好地利用視頻數據的時序信息,3D卷積結構包括7個網絡層,視頻中的每一個原始幀都使用固定的硬線內核進行數據處理,每一個圖像幀提取灰度、X、Y方向的梯度、X、Y方向的光流等信息,每個通道分別進行卷積,將多個通道產生的信息組合進行特征描述。
雙流網絡中的雙流通常指時間流網絡和空間流網絡兩個部分,其中空間流網絡輸入的圖像為單張RGB圖像,時間流網絡輸入圖像為多個圖像的光流(Optical Flow)特征,其中每個流都有一個CNN網絡,該網絡經過多個卷積層,使用Softmax函數輸出概率值進行融合。
長短期記憶神經網絡(LSTM)本質上是RNN網絡,但是RNN網絡有著長期性的依賴問題,故引入LSTM網絡解決梯度消失和爆炸等問題。LSTM網絡通過遺忘門(forget gate)判斷是否保存上一個memory cell的信息,通過輸入門(input gate)決定哪些信息需要被更新,輸出門(output gate)決定哪些值應該被輸出。
1.2.2 Transformer概述
2017年,Transformer網絡結構橫空問世,模型拋棄了傳統(tǒng)LSTM這一特征提取器,僅使用注意力機制以實現端到端的模型構建,其出色的表現,使學者逐步將Transformer引入到機器視覺任務中,包括圖像識別、目標檢測和動作識別等,其在與傳統(tǒng)的CNNs和RNNs等網絡類型對比中,展現出了更好的性能。Transformer主要是通過自注意力機制提取目標數據的內在特征,其背后的基本概念主要包括自注意力機制、大規(guī)模預訓練和雙向特征編碼。此外,Transformer還包括編解碼器和前饋神經網絡,可以捕捉視頻中的長距離特征,具有優(yōu)良的全局信息提取能力,與LSTM相比,Transformer的顯著優(yōu)點是可以對輸入序列元素之間的長期依賴性進行建模,并支持序列的并行處理。常見的基于Transformer進行動作識別的架構有Actor-Transformer、Temporal transformer和Time-Sformer等。
智慧家庭中的動作識別主要監(jiān)測和分析家庭中的日常行為,對視頻數據進行人體動作識別是主要研究方向,有代表性的視頻數據集尤為重要。與圖像識別領域成熟且常用的數據集如MNIST和ImageNet不同,家庭環(huán)境下動作識別和一般動作識別領域的數據集相對有限,現概括6種常用于動作識別研究的數據集,如表1所示。
Table1 Summary of data set表1 數據集
當前,國內外學者提出了諸多關于智慧家庭中的日常人體動作識別算法和模型,現列舉適合智慧家庭中單人簡單動作、連貫性動作和復雜交互動作的人體動作識別算法。研究將從基于傳統(tǒng)方法、基于深度學習和基于Transformer的動作識別方法展開論述。在評價每類算法時,使用準確率(Accuracy,以下簡稱Acc)和平均精度(mean Average Precision,以下簡稱mAP)兩種評價指標對其模型識別能力進行評價。ACC是所有預測中預測正確的比例,計算公式如式(1)所示。
TruePositive
+TrueNegative
表示預測正確的樣本數,Allsamples
表示所有樣本數。mAP是類別維度平均精度(Average Precision,簡稱AP),AP計算公式如式(2)所示。P
代表PR曲線上的P
值,∑r
=1,mAP公式如式(3)所示,其中num_classes
代表類別數量。面對智慧家庭中簡單的人體動作可采用基于傳統(tǒng)的動作識別方法,例如行走、睡覺、學習姿勢等。傳統(tǒng)的動作特征描述方法是通過提取重要關鍵點,其中智慧環(huán)境中可采用的典型特征提取方法是時空關鍵點和密集軌跡法。
Laptev等提出通過提取時空關鍵點提取特征,該文將變化數據即2D Harris角點的檢測方法拓展到了3D進行提?。℉arris角點檢測算法是一種基于灰度圖像的角點檢測算法);Scovanner等將經典的2D描述子SIFT(特征點檢測和特征點描述)拓展到了3D空間,使用K-means算法對特征信息進行聚類;袁贊杰檢測時空興趣點是通過Harris3D角點,特征描述時使用HOF描述子和HOG描述子,提出基于哈希和基于稀疏表示的字典學習方法以建立家庭動作詞袋模型;鞏莉從智慧家庭中幫助獨居老人的角度對異常動作識別展開研究,利用傳感器收集的信息矩陣進行特征提取,運用特征合并方法,提出基于MCRF的行為預測模型;Li等提出新的人類動作識別框架,該框架結合了Fast HOG3D和SOM,從環(huán)境中提取多尺度的基于局部特征的時空興趣點,使用簡化時空網格以提高檢測效率;Alexander等在訓練模型時引入HOG3D描述符,開發(fā)了一種基于完整視頻的內存有效算法,可以在多尺度下對時間和空間數據進行密集采樣;Willem等在計算Haar小波均勻采樣時采用了加權和,并將圖像SURF描述子引入家庭中的視頻數據;童世華等從智慧環(huán)境中控制電器角度為用戶提供智能化服務,提出基于C4.5決策樹算法理解人體行為的智慧系統(tǒng);Wang等介紹一種基于密集軌跡和運動邊界描述周圍環(huán)境的方法,利用iDT算法獲取視頻的局部動作特征,密集能夠保證前景運動和周圍環(huán)境的良好覆蓋,然而該方法的性能目前受到現有光流質量的限制;Oussalah等針對智慧家庭的動作數據集不平衡性質,將少數過采樣技術與改進的支持向量機(CSSVM)自適應結合;Tapia等提出用于識別人體行為活動和心臟強度的DT實時算法,為處理嘈雜數據,使用平均濾波器;César等利用iDT算法提取固定場景的局部時空特征,通過Fisher編碼將多個軌跡描述符組合到單個視頻級中進行無監(jiān)督的表示學習,該方法可傳輸小尺寸的模型,性能優(yōu)于基于端到端訓練的復雜深度體系結構;姚小慧針對智慧環(huán)境下的老人日常行為識別,利用傳統(tǒng)機器學習方法提出通過滑動窗口處理提取日常動作特征,利用無監(jiān)督方法的自編碼器處理特征數據訓練行為識別模型。智慧家庭中基于傳統(tǒng)方法的動作識別正確率(Acc)和平均精度(mAP)比較(單位:%),如表2所示。
隨著科技的發(fā)展,越來越多的深度學習擴展模型被運用于智慧家庭中的人體動作識別領域,深度學習模型通常被應用于智慧家庭環(huán)境下的復雜或連貫性動作識別。針對智慧家庭環(huán)境中復雜且多變的人體行為動作,其特征提取面臨很大困難,因此需要選擇更為高效的動作識別方法。本文將深度學習方法的概述分為基于網絡結構(Structure)、基于輸入數據類型(Inputs)和基于Transformer的動作識別。
Table2 Comparison of accuracy and mean average precision表2 正確率與平均精度比較
3.2.1 基于網絡結構的動作識別算法
目前,智慧家庭環(huán)境下的動作識別所使用的網絡結構大多基于雙流網絡結構和C3D。Wang等基于雙流網絡結構提出時間分段網絡(TSN),通過獲取不同時間序列的Short-term信息并疊加多個雙流網絡解決動作識別中Long-term的問題;Lan等在Wang的基礎上改進了TSN,提出運用深度網絡學習將不同的序列賦予不同的權重值,最后由分類器或感知器識別動作類型;李冬月面向智慧家庭中老人監(jiān)控系統(tǒng)的視覺信息問題,提出將融合動態(tài)圖像的時序信息作為TSN的輸入,提升了行為識別精準率;Zhou等提出在TSN基礎上搭建TRN網絡結構,在輸入的特征圖上通過時序推理進行分類;Tong等針對智慧家庭老人護理角度,提出隱狀態(tài)條件隨機場(HCRF)方法和基于HCRF模型的AAR算法,并將其用于監(jiān)測和評估老人的異?;顒?;佟夢竹運用RNN算法對家庭環(huán)境下的日常居家行為進行識別,并直接利用隱藏層的輸出作為特征信息,提高了當前序列的動作識別準確率。在時空信息融合網絡結構的基礎上,Souza等提出基于inception-V1模型融合module的差異,將具有很深圖像分類的過濾器和ConvNets延伸至三維;Diba等在Souza的基礎上,提出將視頻卷積網絡命名為“時間3D ConvNet”(T3D),并將其新的時間層命名為“時間過渡層”(TTL),改進了ResNet的卷積形式。由于當前方法受部分觀察訓練影響而引起不精準的問題,Zhu等提出帶有時間金字塔池(DTPP)的深度網絡,在所有視頻數據中稀疏地采樣RGB圖像,最后訓練后的模型具有緊湊的視頻級別表示;Sasaki等從預測日常居家行為動作發(fā)生的角度,提出基于LSTM的日常生活預測模型,但其預測準確率較低;Zhao等在ResNet網絡結構的基礎上研究雙流網絡的連接手段,創(chuàng)新之處在于模塊化地構建塊,即合并運行塊,使訓練路徑更短,且增加了通道數。CNN網絡是采用空間和時間網絡相結合的方法,但通常僅限于處理較短的序列,Diba等據此提出一個新的視頻表示,稱為時域線性編碼(TLE),并嵌入CNN作為一個新的層,捕捉整個視頻的外觀和運動,通過端到端的學習,最終的特征信息表示具有魯棒性。
3.2.2 基于輸入數據的動作識別算法
基于輸入數據類型(Inputs)的動作識別算法指智慧家庭環(huán)境下輸入動作數據的類型和格式。池志攀利用傳感器輸入數據,采用基于情景的序列自動劃分算法,使用支持向量分類器學習模型,用于識別智慧家庭環(huán)境下的用戶日常行為;張偉在智能空間下,提出運用非視覺傳感器數據改進BP神經網絡的人體行為識別模型,運用隱馬爾科夫模型在線識別智慧空間中的陌生行為。當前家庭場景下諸多動作分類僅依靠時間網絡的單幀圖像完成,因此空間網絡通道的特征輸入會出現冗余,基于此問題,Zhu等提出一種通過關鍵幀挖掘深層框架以提升日常動作分類水平,將圖像分類算法(RCNN)輸入整個視頻,按照圖像候選框依次提取出關鍵幀數據。由于劃分時需輸入整個視頻數據,會存在大量冗余幀,Kar等提出一種能預測每個視頻幀區(qū)別的重要性算法,直接在卷積/池化操作時重點關注關鍵幀,然后將它們合并到深度學習框架中實現,該方法的優(yōu)點是模型簡單,但是提取的圖像關鍵幀的性能不如Key Volume Mining。Korpela就智慧環(huán)境下的牙齒保健問題,提出利用智能手機的音頻數據進行活動識別,通過刷牙的位置及類型評估刷牙性能;Sevilla等研究光流與動作識別的結合,認為光流特征包含的未必是最優(yōu)的運動特征但是光流質量的提高對家庭場景下的動作分類有關鍵作用,特別是針對邊緣微小運動光流的提升;鑒于此Zhu等提出一種新穎的CNN體系結構可自學特定場景下基于光流的運動特征,提升了光流特征的性能;孟樂樂和胡正平等針對家庭場景訓練模型時引入時間分組算法和注意力機制,前者在特征提取和信息輸入時均使用注意力機制為特征賦予不同的關注度,但其算法不適合數據集量大、計算量較大的模型,后者在動作識別時引入了基于通道的注意力機制以提高網絡表達能力,但由于識別模型對特征表示的能力不夠,因而使用的數據都已經過集中處理?;谝话闵疃葘W習方法的文獻中動作識別正確率(Acc)和平均精度(mAP)比較(單位:%)如表3所示。
Table3 Comparison of accuracy and mean average precision表3 正確率和平均精度比較
3.2.3 基于Transformer的動作識別算法
近年來基于Transformer結構的人體動作識別得到了研究人員的青睞,在智慧家庭中,相較于簡單的人體動作,復雜動作和多人交互動作更難識別,Transformer結構則可有效解決這一問題。Transformer結構即數個注意力機制的堆疊,會出現數據過飽和,Longformer由此被提出,有學者提出的VTN就是基于CNN網絡獲取特征信息,運用Longformer對連續(xù)動作進行識別。此外,上下文(例如其他人和對象)信息在識別家庭中的日常動作特征中具有關鍵作用。Gavrilyuk等為識別其中的個體行為和群體活動,提出使用2D姿態(tài)網絡和3DCNN輸出的靜態(tài)和動態(tài)信息作為聯(lián)合特征表示的actor-Transformer模型,該模型可學習并有選擇地提取家庭環(huán)境中多人交互動作中的相關特征。Girdhar等提出一種稱為Action Transformer的可聚合視頻中與特定人物相關的上下文線索模型,該模型印證了上下文信息對于動作分類的必要性,使用RCNN處理輸入數據,并采用了區(qū)域建議網絡(RPN)提供的采樣機制。該方法可以利用智慧家庭中特定成員的相關上下文信息,為特定場景下的動作識別提供有效的特征。Lohit等為縮小同一類別動作中的方差,增大不同類間的方差提出時間Transformer網絡(TTN),該網絡是利用模型和數據驅動的混合方法學習變形函數的一個可區(qū)分模塊,因此可增大家庭不同場景下相似動作之間的特征向量距離,提升網絡識別能力。此外,Fayyaz等為區(qū)分動作發(fā)生的時間、頻率和順序,使用一種端到端培訓方法,研究了一種用于弱監(jiān)督設置下用于人體動作識別的時間Transformer;Carreira等根據Kinetics數據集評估最先進的架構,提出一種基于二維卷積神經網絡的新型雙流三維卷積神經網絡(I3D)以識別人體動作,該架構可以將極深的圖像分類卷積神經網絡的過濾器和池化內核延伸至3D,這有利于從視頻數據中直接自主學習時空特征提取器;Plizzari等基于時空圖卷積網絡(ST-GCN)等提出一種能有效解決三維骨骼編碼問題的模型,稱為時空Transformer網絡(ST-TR);Bertasius等提出TimeSformer模型,一種完全基于空間和時間上的自注意無卷積動作分類方法,該方法適用于視頻數據,可以直接從幀級補丁序列數據中學習特征??臻g和時間特征在家庭場景動作識別中扮演著重要角色,例如空間特征的有效提取可以確定嬰兒與危險邊界的相對位置并應用于嬰兒看護。基于Transformer的文獻中動作識別正確率比較(Acc表示識別正確率Accuracy,單位:%)如表4所示。
Table 4 Accuracy comparison表4 正確率比較
如上文所述,智慧家庭中人體動作識別方法可分為基于傳統(tǒng)方法和基于深度學習(含Transformer)的動作識別。如表5所示,運用傳統(tǒng)方法對智慧環(huán)境下動作識別的優(yōu)勢在于時間成本低,相較于其他方法簡便易行。它的局限性在于其獲取的圖像特征是由人工預設,不能充分利用圖像信息,并致使該算法受到圖像遮擋和模糊等問題的限制。此外,由于采集圖像需要專業(yè)采集設備,成本較高,無法適用于所有應用場景,因此傳統(tǒng)方法主要應用在單人的簡單動作場景中。常見深度學習方法的優(yōu)勢在于可以通過神經網絡提取比人工特征更加準確且魯棒的特征,同時可以處理家庭場景中的序列問題,分析圖像連續(xù)多幀的變化規(guī)律。其局限性是由于數據量大而導致計算量大,容易造成過擬合。深度學習方法主要應用于家庭中的復雜動作識別。深度學習中Transformer方法的優(yōu)勢在于針對大數據集的動作識別準確率較高,擅長處理家庭中連貫性動作產生的長序列視頻或人物交互場景,其局限性在于該方法的識別性能會隨著場景中人數的增多而下降,無法實現時間扭曲。Transformer方法主要應用于家庭中存在的群體活動和復雜場景下。
Table5 Comparison of human action recognition methods表5 人體動作識別方法比較
隨著科技的發(fā)展,諸多智能化產品涌入到生活中,智慧家庭可理解為以家庭智能化為導向的智慧系統(tǒng)。智慧家庭的核心在于智能化,是利用當今的技術工具為使用者提供準確、個性化和智能化的主動式服務。當前,智慧家庭系統(tǒng)研究的主要內容均應用于安全防范、電器智能控制、燈光管理和健康服務等領域,在精神生活的服務上略有欠缺。因此,本文提出將人體動作識別技術應用于智慧家庭系統(tǒng)的思想智慧層面,通過識別人體動作類別,觸發(fā)一系列推薦內容如國學詩詞、禮樂等,達到智慧理念的主動式服務,實現個性化、智能化的教育方式。
本文對智慧家庭中3個特定場景中的動作、特征及智能推送內容進行描述,如表6所示,并以學習狀態(tài)監(jiān)測場景為例展開介紹。由于當前學生在家庭環(huán)境中大部分時間用來學習,實時監(jiān)測學生學習過程中的學習狀態(tài)至關重要,通過識別學習過程中的異常動作(如坐立不安、左顧右盼等,學習過程中出現身體晃動、起坐頻繁時將被判定為坐立不安)判斷其當前學習狀態(tài)是否正常。
學習狀態(tài)監(jiān)測場景根據需求分析,分為三大模塊,分別是數據處理模塊、人體動作識別模塊和智能推送模塊,如圖4所示。
Table 6 Description of specific scenarios in the smart home表6 智慧家庭中特定場景描述
Fig.4 Application flow of action recognition technology in the smart home圖4 動作識別技術在智慧家庭中的應用流程
首先,利用MU視覺攝傳感器獲取人體動作數據進行數據預處理,使用Python爬蟲技術爬取推送數據進行分類和存儲;其次,將傳感器獲取的人體動作數據輸入到使用深度學習技術重復訓練的動作識別模型中進行智能化識別,若識別出學習姿勢出現異常狀態(tài)(如坐立不安),智能推送模塊則根據動作類別,依據基于規(guī)則的專家系統(tǒng)原理進行智能化推薦(如孟子在《弈秋》中寫道“今夫弈之為數,小數也;不專心致志,則不得也”,譯為“下棋作為一種技藝,只是一種小技藝,但如果不專心致志地來學的話,也是學不好的”);最后,利用具體國學案例進行語音規(guī)勸,以“詩言志,樂和情”的教育理念實現智慧家庭中文化層面的智能化。
隨著科技的進步,當前家庭信息化、智能化逐漸普及,精神文化富足將逐步成為智慧家庭領域的主流發(fā)展趨勢,如何利用人工智能技術充盈人類的文化層面,在智慧城市建設中有著廣闊的前景,并蘊含著巨大的市場潛力。將人體動作識別技術應用于智慧家庭領域的意義在于利用互聯(lián)網技術手段和新型傳播方式智能化地豐富人類的精神、思想層面建設、調節(jié)家庭個性化生活方式和改善家庭生活質量。在社會層面,則有利于豐富網絡文化內容建設,將中國歷史上的核心價值觀轉化為民眾共享的文化力量。
近年來,人體動作識別技術成為國內外學者研究的熱點,目前在諸多行業(yè)中也展現了重要的應用價值。本文在已有研究基礎上,研究人體動作識別研究方法和相關實驗數據集,對人體動作識別發(fā)展歷程進行綜述,回顧了基于傳統(tǒng)方法和深度學習方法(包含Transformer)的動作識別算法,提出將人體動作識別技術應用于智慧家庭領域,以期實現個性化、智能化的教育方式。然而,針對家庭的復雜動作場景,現有的動作識別算法無法實現預期效果,仍需要進一步探索新的動作識別模型和方法。此外,當前家庭信息化、智能化逐漸普及,隨著科技的進步,精神文化富足將逐步成為智慧家庭領域的主流發(fā)展趨勢,如何利用人工智能技術充盈人的精神文化層面,是未來重點研究方向。