周嘯輝,余 磊,何 茜,陳 涵,聶 宏,歐巧鳳,熊邦書
(1.南昌航空大學(xué) 圖像處理與模式識別江西省重點實驗室,江西 南昌 330063;2.北愛荷華大學(xué)技術(shù)系,美國 愛荷華州 50614-0178)
人體行為識別是計算機視覺和模式識別領(lǐng)域的核心課題之一,目標在于識別圖像或視頻中人的行為[1]。對人體行為進行有效且精準地識別是許多智能服務(wù)的基礎(chǔ),在智能監(jiān)控、智能家居、虛擬現(xiàn)實等諸多領(lǐng)域中具有重要的研究意義和廣泛的應(yīng)用價值,備受國內(nèi)外學(xué)者的關(guān)注[2]。
近年來,紅外成像系統(tǒng)以其受光照影響小、保護隱私的獨特優(yōu)勢受到越來越廣泛的關(guān)注,眾多優(yōu)秀學(xué)者對紅外行為識別領(lǐng)域展開深入研究。Zhu等人[3]提出了一種隨機采樣結(jié)構(gòu),并建立統(tǒng)計特征空間;Hilsenbeck等人[4]利用霍夫森林提取時空域的整體通道特征;Tan等人[5]提出一種基于運動偏差圖象的相位特征描述符,在受試者個體差異較大的情況下仍具有較高的識別精度;Liang等人[6]提出一種分段架構(gòu),利用子動作間關(guān)系,并結(jié)合異構(gòu)信息融合和類隱私保護協(xié)同表示,在多個數(shù)據(jù)集上取得了不錯的表現(xiàn)。上述方法主要通過手動提取特征,并制定相應(yīng)的判決標準進行人體行為識別。然而,這些方法提取的特征往往不能準確表征人體實際行為,從而導(dǎo)致識別準確率較低。深度學(xué)習(xí)方法能自動提取有效特征,成為解決該問題的一種有效途徑。
深度學(xué)習(xí)[7]是機器學(xué)習(xí)的一個分支,在視覺識別和自然語言處理等領(lǐng)域取得了突破性進展,也給紅外行為識別帶來了前所未有的發(fā)展。目前,紅外行為識別領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:基于視頻或基于圖像。
基于紅外視頻,Gao等人[8]構(gòu)建了一個紅外行為識別數(shù)據(jù)集InfAR,并提出一種雙流卷積神經(jīng)網(wǎng)絡(luò),平均識別率為76.66 %;Liu等人[9]提出基于全局時間表示的三流卷積神經(jīng)網(wǎng)絡(luò),整合局部、全局時間信息和時空信息,在數(shù)據(jù)集InfAR和NTU RGB+D上取得79.25 %和66.29 %的平均識別率;Yang等人提出3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)合SVM分類器的方法,識別精度達到96.5 %。
基于紅外視頻的方法雖然取得了較高的識別精度,但它們的模型復(fù)雜,處理時間長,效率較低。相較而言,基于紅外圖像的人體行為識別方法模型簡單,處理速度較快,逐漸受到研究者關(guān)注。Akula等人[10]提出將2D CNN網(wǎng)絡(luò)用于識別行走、站立、靜坐、在桌子前靜坐、跌倒和倒在桌子上6種行為,其對跌倒的識別精度較低;Gochoo等人[11]利用三個傳感器,從x、y和z軸捕獲人體瑜伽姿態(tài),其總體識別率較高。然而,基于紅外圖像的方法僅對靜止行為有較好的識別效果;對于跌倒等包含一系列連續(xù)動作的行為,由于難以依據(jù)單幀圖像進行識別,這些方法往往不能達到令人滿意的效果。
針對上述問題,本文提出紅外圖像拼接方法:通過將連續(xù)多幀圖像拼為一張大圖,實現(xiàn)從三維視頻到二維圖像的轉(zhuǎn)變。這樣既保留了數(shù)據(jù)的時空聯(lián)系,有利于后續(xù)識別工作;又可簡化識別模型,減少處理時間。殘差網(wǎng)絡(luò)[12]便于訓(xùn)練,易于收斂,泛化能力強,性能優(yōu)異,在圖像識別方面得到了廣泛應(yīng)用。ResNet-18作為一種典型代表,識別精確率較高且模型參數(shù)較少;其在可見光圖像識別上一直表現(xiàn)良好,但在紅外圖像識別中效果欠佳。本文在ResNet-18網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)紅外圖像的特性對其進行改進:首先,構(gòu)建多分支同構(gòu)結(jié)構(gòu),替換7×7卷積;然后,結(jié)合最大池化和平均池化對池化層進行優(yōu)化;最后,引入非對稱卷積塊構(gòu)成多重殘差結(jié)構(gòu),并將改進ECA模塊與CBAM的空間注意力模塊結(jié)合,加入殘差塊中。此外,考慮到跌倒常對人,尤其對老年人造成較為嚴重的傷害[13],因此本文選擇跌倒和易與跌倒相混淆的站到坐、坐到躺等行為,以及站立、靜坐、平躺、行走等常見行為作為研究對象,構(gòu)建紅外人體行為識別系統(tǒng),并對這7種行為進行識別,取得了良好的效果。
本文所設(shè)計的人體行為識別系統(tǒng)如圖1所示。首先,選擇德國海曼器件公司制造的HTPA80x64dR1L5.0/1.0熱成像陣列傳感器采集紅外信息,其分辨率為80×64像素。其次,為了盡可能減少視場盲區(qū),將傳感器安裝于距離地面1.8 m的墻角處,與水平方向的夾角為88°,與垂直方向的夾角為70°。從圖1可以看出,在1.8 m以下的區(qū)域中,除了陰影部分外,其余均在視場范圍內(nèi)。再次,將傳感器采集的溫度分布信息,通過I2C接口發(fā)送至樹莓派,并進一步通過內(nèi)置通信模塊將其發(fā)送至PC端,從而獲取紅外圖像。最后,對紅外圖像進行拼接,再經(jīng)過改進ResNet-18卷積神經(jīng)網(wǎng)絡(luò)算法進行分類,完成人體行為識別。
圖1 系統(tǒng)結(jié)構(gòu)示意圖Fig.1 System structure diagram
對于采集到的紅外圖像,考慮到幀與幀之間的關(guān)聯(lián)性,基于視頻流的深度學(xué)習(xí)方法是一個很好的選擇。然而,傳統(tǒng)基于視頻的深度學(xué)習(xí)方法存在模型復(fù)雜,處理時間長等缺陷?;趫D像的深度學(xué)習(xí)方法雖然具有模型相對簡潔,運算處理快等優(yōu)勢;但人體行為往往包括一系列連續(xù)動作,難以僅依據(jù)單幀圖像進行識別。為了充分利用數(shù)據(jù)的時空聯(lián)系,方便后續(xù)識別,同時簡化識別模型,提高處理效率,本文提出紅外圖像拼接方法:將連續(xù)多幀圖像組合為一張大圖,實現(xiàn)從三維視頻到二維圖像的轉(zhuǎn)變。
由于跌倒,從站到坐,從坐到躺等人體姿態(tài)變化過程的持續(xù)時間不超過4秒,且HTPA80x64dR1L5.0/1.0熱成像陣列傳感器幀率約為5 f/s,因此為了在一張大圖中包含完整的行為過程,本文選取25幀連續(xù)圖像進行拼接,圖2為拼接后的跌倒?fàn)顟B(tài)示意圖。
圖2 拼接圖像示意圖Fig.2 Schematic diagram of mosaic image
近年來,由于在圖像和語音識別方面的良好表現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)逐漸成為研究熱點。殘差網(wǎng)絡(luò)是一種表現(xiàn)優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò),在圖像識別方面有著廣泛的應(yīng)用。ResNet-18網(wǎng)絡(luò)作為一種典型代表,其性能優(yōu)異且模型參數(shù)較少,在保持較高準確率的同時僅占用較少的內(nèi)存空間[14]。
ResNet-18網(wǎng)絡(luò)在可見光圖像識別上一直表現(xiàn)良好,但在紅外圖像識別中表現(xiàn)欠佳。本文在ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,針對人體行為識別任務(wù),并根據(jù)紅外圖像自身的特性,提出一種改進ResNet-18網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)如圖3所示。首先,構(gòu)建多分支同構(gòu)結(jié)構(gòu)Conv_x,替換7×7卷積;然后,結(jié)合最大池化和平均池化,對池化層pool1、pool2進行改進;最后,引入非對稱卷積塊構(gòu)成多重殘差結(jié)構(gòu),并將改進ECA模塊與CBAM的空間注意力模塊結(jié)合,加入殘差塊Conv1_x、Conv2_x、Conv3_x和Conv4_x中。
對于Conv_x中的每個卷積層,圖3中依次給出了輸入通道數(shù)、卷積核大小及輸出通道數(shù)。網(wǎng)絡(luò)的輸出將會給出圖像的類別,即圖像是跌倒,站立,靜坐,平躺,行走,站到坐以及坐到躺中的哪一類。表1給出了該網(wǎng)絡(luò)的相關(guān)參數(shù),包括各層的名稱,結(jié)構(gòu)參數(shù)和輸出大小,及相應(yīng)卷積層的核大小、輸出通道數(shù),池化層的核大小、步長。
圖3 改進ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Improve ResNet-18 network structure
表1 改進ResNet-18網(wǎng)絡(luò)相關(guān)參數(shù)Tab.1 Improve ResNet-18 network related parameters
傳統(tǒng)殘差網(wǎng)絡(luò)中第一層卷積為7×7的大卷積,目的是在不增加通道數(shù)的情況下,盡量保留原始圖像的信息。然而紅外圖像對比度低、圖像模糊[15],單一7×7卷積非線性表達能力不強,特征提取效果不佳,為了增強網(wǎng)絡(luò)的表達能力,提升網(wǎng)絡(luò)模型對紅外圖像的分類性能,本文設(shè)計了如圖3所示的多分支同構(gòu)結(jié)構(gòu)。該結(jié)構(gòu)由16組卷積構(gòu)成,即16條獨立路徑的同構(gòu)結(jié)構(gòu)。每組第一層卷積的步長為2,填充為1,其余層卷積步長為1,無填充。
最大池化能夠提取圖像的主要特征,平均池化則能很好地保留圖像的背景信息。傳統(tǒng)殘差網(wǎng)絡(luò)使用單一的最大池化或平均池化,這樣不可避免地丟失了部分有用信息。為了盡量避免有用信息的丟失,本文設(shè)計了如圖3中pool1和pool2所示的池化結(jié)構(gòu),將最大池化和平均池化提取的特征進行融合,這樣得到的特征將更豐富多元,其表達能力也更強。
4.3.1 多重殘差結(jié)構(gòu)
傳統(tǒng)殘差塊由2個堆疊的3×3卷積及恒等映射連接構(gòu)成,卷積結(jié)構(gòu)單一,提取特征方式固定。為增加網(wǎng)絡(luò)的多樣性,使網(wǎng)絡(luò)能夠提取不同尺度的圖像特征,本文設(shè)計了多重殘差結(jié)構(gòu)。如圖4所示。
圖4 改進殘差塊示意圖Fig.4 Improved residual block diagram
多重殘差結(jié)構(gòu),在原結(jié)構(gòu)基礎(chǔ)上增加兩條并行的特征提取通路:一條通路由3×3卷積構(gòu)成,另一條通路由3×3卷積和1×3卷積、3×1卷積構(gòu)成的非對稱卷積塊堆疊而成。這種非對稱卷積塊抑制了模型的過擬合,增強了模型的非線性擴展性,不但能夠提取更多空間特征,而且使提取的特征更加穩(wěn)定與多元。
4.3.2 改進CBAM
在數(shù)據(jù)采集的過程中,不可避免會受到噪聲的干擾,而且不同情況下,人體在紅外圖像中所處位置以及呈現(xiàn)的形態(tài)是不一樣的。這就要求識別方法能夠更多地關(guān)注人體形態(tài)特征信息,而忽略其他無價值的信息;注意力機制很好地解決了這個問題。
Wang等人[16]提出ECA模塊,給定通過全局平均池化(GAP)獲得的聚合特征,經(jīng)過大小為k的快速1D卷積實現(xiàn)跨通道信息交互,接著使用Sigmoid函數(shù)生成通道注意力權(quán)重,再將該權(quán)重與輸入特征相乘得到通道注意力特征。但是該模塊忽略了目標特征的另一種重要表征形式——經(jīng)過全局最大池化(GMP)獲得的聚合特征。因此,本文同時使用GAP和GMP提取的特征對ECA模塊進行改進,使網(wǎng)絡(luò)能夠更有效地增強有意義的特征通道。改進ECA模塊如圖5所示,其中1D卷積核大小k=3,σ表示Sigmoid函數(shù)。
圖5 改進ECA模塊示意圖Fig.5 Improved ECA module diagram
ECA模塊使網(wǎng)絡(luò)能更有效地選擇有意義的特征通道,CBAM[17]中的空間注意力模塊則使網(wǎng)絡(luò)能更多的關(guān)注有價值的區(qū)域信息。將改進ECA模塊與空間注意力模塊結(jié)合,形成改進CBAM模塊,該模塊如圖6所示,并將其加入多重殘差結(jié)構(gòu)中,對殘差塊完成進一步的改進,示意圖如圖4所示。
圖6 改進CBAM模塊Fig.6 Improve CBAM module
實驗環(huán)境為室內(nèi)普通辦公房間,實驗數(shù)據(jù)來自三位不同身高、體態(tài)的實驗人員(兩男一女);考慮季節(jié)對實驗結(jié)果的影響,我們選擇最具代表性的夏季與冬季進行數(shù)據(jù)采集;跌倒、站立、靜坐、平躺、行走、站到坐以及坐到躺等7種行為的示意圖如圖7所示。
圖7 各種人體行為示意圖Fig.7 Diagrams of various human behaviors
本文將拼接后得到的6930張紅外圖像按2:1的比例分成訓(xùn)練集與測試集,得到包含4620張圖像的訓(xùn)練集和包含2310張圖像的測試集。為了增加訓(xùn)練集的數(shù)量,減少模型的過擬合,采用水平翻轉(zhuǎn)的方法將訓(xùn)練集擴充一倍,最終得到包含9240張圖像的訓(xùn)練集和包含2310張圖像的測試集。各個行為的實驗次數(shù)、拼接后圖像數(shù)、水平翻轉(zhuǎn)前和水平翻轉(zhuǎn)后訓(xùn)練集圖像數(shù)、測試集圖像數(shù)如表2所示。
表2 各行為相關(guān)圖像數(shù)
實驗運行環(huán)境:Debian操作系統(tǒng),Intel Xeon E5-2640 v4處理器,16G內(nèi)存,NVIDIA GTX1080Ti GPU。使用Pytorch深度學(xué)習(xí)框架搭建網(wǎng)絡(luò),網(wǎng)絡(luò)的損失代價函數(shù)選擇交叉熵損失函數(shù);采用Adam優(yōu)化方法,學(xué)習(xí)率設(shè)置為0.001。
為了使實驗結(jié)果更加可靠,將改進ResNet-18網(wǎng)絡(luò)訓(xùn)練三次,每次訓(xùn)練300輪,取最優(yōu)參數(shù)進行測試,結(jié)果如表3所示。
表3 混淆矩陣Tab.3 Confusion matrix
從表3可以看出,在2310個行為中,正確識別2309次,錯誤識別1次,準確率高達99.96 %,且異常行為——跌倒——均能準確識別,表明本文所提改進ResNet-18網(wǎng)絡(luò)的識別效果良好。此外,誤判的圖像如圖8所示。
圖8 誤判圖像Fig.8 Image of misjudgment
從圖8可以看出,人體特征不明顯,使得行走圖像易與站立圖像相混淆。當(dāng)人體距離傳感器較遠,且環(huán)境溫度較高時,可能出現(xiàn)圖像中噪聲過大導(dǎo)致網(wǎng)絡(luò)未能準確提取人體特征的情況。然而,行走與站立均為正常行為,誤判不會造成嚴重后果。
在基于紅外圖像的人體行為識別領(lǐng)域,文獻[10]識別的人體行為與本文相近,且其構(gòu)建的CNN網(wǎng)絡(luò)取得了比傳統(tǒng)LBP-KNN、HOG-KNN、LBP-SVM等方法更優(yōu)的識別精度;文獻[11]構(gòu)建的CNN網(wǎng)絡(luò)是目前人體行為識別效果最好的深度學(xué)習(xí)方法之一。為了進一步驗證本文所提改進ResNet-18網(wǎng)絡(luò)的性能,在本文構(gòu)建的數(shù)據(jù)集下,與文獻[10]、文獻[11]構(gòu)建的CNN網(wǎng)絡(luò)以及ResNet-18網(wǎng)絡(luò)進行對比,結(jié)果如表4所示。
表4 各網(wǎng)絡(luò)實驗結(jié)果對比Tab.4 Comparison of network experiment results
從表4可以看出,與原始ResNet-18網(wǎng)絡(luò)相比,改進ResNet-18網(wǎng)絡(luò)的識別率有所提升,這證明了本文所提方法的有效性;此外,改進ResNet-18網(wǎng)絡(luò)的識別率明顯優(yōu)于文獻[10]和[11]中構(gòu)建的CNN網(wǎng)絡(luò),這證明了本文所提方法具有明顯的優(yōu)勢。
本文提出了一種基于改進ResNet-18網(wǎng)絡(luò)的紅外圖像人體行為識別方法。首先,通過熱成像陣列傳感器采集跌倒、站立、靜坐、平躺、行走、站到坐及坐到躺7種行為的紅外圖像,并對圖像進行拼接處理。接著,通過對ResNet-18網(wǎng)絡(luò)進行相應(yīng)改進,增強了網(wǎng)絡(luò)的表達能力,降低了有用信息的丟失率,增加了網(wǎng)絡(luò)的多樣性,提升了網(wǎng)路的特征提取能力。經(jīng)實驗表明,改進ResNet-18網(wǎng)絡(luò)識別率達到99.96 %,不但高于傳統(tǒng)的ResNet-18網(wǎng)絡(luò),而且明顯優(yōu)于基于紅外圖像的其他網(wǎng)絡(luò),取得了理想的識別效果。