張 陶,鄔春學(xué)
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)
第七次全國人口普查顯示,我國60 歲及以上人口為26 402 萬人,占總?cè)丝诘?8.70%(其中,65 歲及以上人口為19 064 萬人,占13.50%)??梢娢覈丝诶淆g化進(jìn)一步加深,如何妥善地照顧老年人已成為社會各界關(guān)注的焦點(diǎn)問題。據(jù)調(diào)查,每年大約有30 多萬人死于意外跌倒,其中60歲以上的老年人占一半以上,可見意外跌倒已成為老年人意外死亡的頭號殺手,同時一半以上的老年人跌倒是發(fā)生在家里,而且大部分較為嚴(yán)重的后果并不是在跌倒的第一時間造成,而是由于跌倒后沒有得到及時幫助和救護(hù)。通常,子女和其他看護(hù)人員無法對老年人進(jìn)行全天候照看,因此開發(fā)一套高效實(shí)用的老年人跌倒檢測系統(tǒng)尤為重要。系統(tǒng)能夠準(zhǔn)確地檢測到老年人的跌倒行為,并發(fā)送報警信息以及時呼叫救援,從而避免情況進(jìn)一步惡化。
目前,針對跌倒檢測的研究主要有3 個方向,分別是基于可穿戴設(shè)備的檢測方法、基于分布式環(huán)境參數(shù)采集的檢測方法以及基于機(jī)器視覺的跌倒檢測方法。
基于可穿戴設(shè)備的跌倒檢測[1-3]主要是人體佩戴集成了各類傳感器設(shè)備,通過集成的傳感器檢測人體運(yùn)動數(shù)據(jù)變化,如加速度、方位角等信息,以進(jìn)行跌倒檢測。Nho等[4]使用心率傳感器和0 加速度計融合的基于聚類分析的用戶自適應(yīng)跌倒檢測方法,通過特征選擇提出最好的13維特征子集進(jìn)行跌倒檢測。但是可穿戴設(shè)備要求使用者實(shí)時佩戴設(shè)備,一定程度上會影響日常生活,并且設(shè)備還會受限于電量等因素干擾,有時老人也容易忘記佩戴,因而實(shí)際用戶體驗(yàn)不佳。
基于分布式環(huán)境參數(shù)采集的跌倒檢測技術(shù)[5-7]是通過在家居環(huán)境中安裝傳感器,主要采集地面振動[7]或壓力數(shù)據(jù)、環(huán)境聲音[8]以及雷達(dá)信號等之類的信息,分析人體在采集區(qū)域內(nèi)的環(huán)境信息進(jìn)行跌倒檢測。該類方法對用戶影響較小,無需實(shí)時佩戴設(shè)備,但是檢測區(qū)域大小受限,若所有場景全覆蓋則會造成成本增加,并且往往無法有效地區(qū)分振動源,容易受到環(huán)境干擾,從而導(dǎo)致誤報,降低系統(tǒng)檢測準(zhǔn)確率。
基于機(jī)器視覺的跌倒檢測技術(shù)[9-15]主要通過攝像頭采集人體日常生活的影像,并對視頻序列進(jìn)行相應(yīng)分析,提取出人體的一些特征信息,進(jìn)而判斷人體跌倒行為和非跌倒行為。Ge 等[9]以YOLOv3-tiny 目標(biāo)檢測算法為基礎(chǔ)融合通道注意力機(jī)制和空間注意力機(jī)制,增加了檢測準(zhǔn)確性。Chhetri 等[14]使用增強(qiáng)型動態(tài)光流技術(shù)對光流視頻的時間數(shù)據(jù)進(jìn)行等級池化編碼,從而提高跌倒檢測處理時間并提高動態(tài)光照條件下的分類精度?;跈C(jī)器視覺的跌倒檢測是非侵入式的,不需要用戶實(shí)時佩戴設(shè)備,因而不會影響老人的日常生活,其成本相對較小,并且檢測范圍廣,因而獲得廣泛關(guān)注。
傳統(tǒng)跌倒檢測算法一般通過人工設(shè)計相關(guān)特征參數(shù)以表征運(yùn)動目標(biāo),例如寬高比、質(zhì)心高度等,再通過閾值分析法完成判斷,但是人工選取的特征參數(shù)往往無法全面地表征目標(biāo)。近年來,隨著智能家居的不斷發(fā)展,家居環(huán)境中視頻監(jiān)控的逐漸普及為家居場景中老年人的跌倒行為檢測提供了新的解決方案。并且,隨著機(jī)器視覺的發(fā)展,已經(jīng)可以從監(jiān)控視頻中提取到人體輪廓和運(yùn)動特征,再經(jīng)卷積神經(jīng)網(wǎng)絡(luò)自動地通過卷積核提取目標(biāo)特征[16],這樣做既可避免佩戴相關(guān)設(shè)備,還克服了人工設(shè)計特征的片面性,進(jìn)而達(dá)到對目標(biāo)的智能化檢測、監(jiān)控和管理。
鑒于此,本文基于機(jī)器視覺的跌倒檢測方法提出一種添加了融合流的多流卷積神經(jīng)網(wǎng)絡(luò)模型,以視頻序列中提取出的人體輪廓圖為空間流卷積神經(jīng)網(wǎng)絡(luò)輸入,以運(yùn)動歷史圖作為時間流神經(jīng)網(wǎng)絡(luò)輸入,并新增融合流用于融合時間流和空間流特征提取網(wǎng)絡(luò)中的時空信息,更全面地利用時空特征對跌倒行為進(jìn)行檢測。實(shí)驗(yàn)證明,該模型對跌倒行為檢測具有良好的實(shí)時性和可靠性。
雙流卷積神經(jīng)網(wǎng)絡(luò)的融合階段是在單流網(wǎng)絡(luò)的全連接層和分類函數(shù)之后的一種晚融合,這種融合方式在一定程度上忽略了時空信息之間的交互,無法充分利用網(wǎng)絡(luò)中的所有有效信息[17]。鑒于此,本文在雙流卷積網(wǎng)絡(luò)模型的基礎(chǔ)上,加入一個融合流網(wǎng)絡(luò),與時間流和空間流一起組成一個三支流的多流卷積神經(jīng)網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。融合流單獨(dú)于時間流和空間流作為一個全新的融合流網(wǎng)絡(luò),分別對時間流和空間流的最后兩層卷積層進(jìn)行時空特征融合,并將得到的兩個時空融合特征進(jìn)行融合得到多級時空融合特征,最后將這3 支流的輸出進(jìn)行晚融合從而得到最終跌倒檢測結(jié)果。
從圖1 可以看出,相較于傳統(tǒng)的雙流卷積模型,本文提出的多流卷積神經(jīng)網(wǎng)絡(luò)模型在特征提取階段就進(jìn)行了對應(yīng)層級的特征融合。傳統(tǒng)雙分支結(jié)構(gòu)的晚融合對特征提取網(wǎng)絡(luò)中的時間信息和空間信息間利用不充分,致使丟失了網(wǎng)絡(luò)淺層中的局部信息和網(wǎng)絡(luò)深層中的全局信息。本文提出的方法對特征提取階段對應(yīng)層進(jìn)行了一定程度上的早融合,即使用了全局信息,同時也保留了一部分局部信息,極大程度上結(jié)合了特征提取網(wǎng)絡(luò)中的時間信息和空間信息間,彌補(bǔ)了傳統(tǒng)雙分支結(jié)構(gòu)全連接層和分類函數(shù)之后晚融合特征的缺點(diǎn)。
Fig.1 Architecture of fall detection network based on multi-stream convolutional neural network圖1 基于多流卷積神經(jīng)網(wǎng)絡(luò)的跌倒檢測網(wǎng)絡(luò)架構(gòu)
空間流的主要目的是從圖片中提取出有效的空間信息,其輸入的是從視頻序列中提取的人體輪廓單幀,大小為224×224,經(jīng)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練后提取出圖像序列中人體在空間上的表征。空間流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(見圖2)主要由5 個卷積層、3 個池化層、2 個全連接層以及2 次歸一化處理組成,采用自適應(yīng)矩估計優(yōu)化算法對網(wǎng)絡(luò)參數(shù)作優(yōu)化處理,并利用交叉熵?fù)p失函數(shù)計算損失值。網(wǎng)絡(luò)中第一個卷積層使用7 × 7 的卷積核,第二個卷積層使用5 × 5 的卷積核,其余卷積層均使用3 × 3 的卷積核,通過多個卷積核對上一層的輸出進(jìn)行卷積運(yùn)算,并通過Zero Padding 控制輸出維度的一致性。激活層選用ReLU 函數(shù)進(jìn)行稀疏化處理,以提高訓(xùn)練速度。池化層窗口均為2 × 2,并且都采取最大池化法。全連接層整合卷積層和池化層中的信息,解決了非線性問題,并添加了失活層用來防止過擬合,最后通過Softmax 輸出空間流網(wǎng)絡(luò)訓(xùn)練結(jié)果。
Fig.2 Spatial flow convolutional neural network structure圖2 空間流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)識別圖像的理論依據(jù)是卷積可以識別邊緣、紋理,然后通過不斷的卷積提取抽象的特征,最終實(shí)現(xiàn)圖像識別。但是圖像中的陰影背景之類,由于其邊緣模糊,沒有明顯輪廓,一定程度上會影響檢測結(jié)果。因此,本文以背景差分法為基礎(chǔ),提出基于高斯混合模型的人體輪廓檢測方法,具體流程如圖3 所示。先對圖像進(jìn)行處理,輸出人物輪廓圖,并將其作為空間流的輸入,可在一定程度上消除背景對檢測的干擾[18],提高最終檢測結(jié)果的準(zhǔn)確性。高斯混合模型建模的主要步驟分為模型建立、參數(shù)更新、前景提取這3個步驟。
2.1.1 模型建立
Fig.3 Overall block diagram of the human body contour extraction algorithm圖3 人體輪廓提取算法總體框圖
背景差分法主要將圖像序列中的視頻幀和背景模型進(jìn)行差分處理,進(jìn)而檢測出前景圖像。在整個運(yùn)動目標(biāo)檢測中最重要的一步是背景圖像建模,背景建模的精準(zhǔn)度直接決定了檢測準(zhǔn)確度。同時,考慮到現(xiàn)實(shí)生活中背景圖像是動態(tài)變化的,因此要對已經(jīng)建成的背景模型進(jìn)行適當(dāng)?shù)谋尘案隆?/p>
本文選用高斯混合模型(Gaussian Mixture Model,GMM)進(jìn)行背景建模,高斯混合模型是用高斯分布精確地量化事物,將一個事物分解成若干個基于高斯分布形成的模型[19],在該模型中假設(shè)像素點(diǎn)之間相互獨(dú)立,將視頻序列中的每個像素點(diǎn)按多個高斯分布的疊加進(jìn)行建模,每種高斯分布可以表示一種場景,多個高斯模型混合就可以模擬出多模態(tài)情形。因此,對每個像素點(diǎn)建立K 個高斯模型,概率密度函數(shù)可由K 個高斯模型的概率密度函數(shù)的加權(quán)和決定,具體如式(1)所示。
其中,Xj,t表示t時刻像素j的取值;K 表示高斯分布個數(shù),一般設(shè)置為3~5;ωi,t表示t時刻第i個高斯分布的權(quán)重;μi,t為第i個高斯分布的均值;為協(xié)方差矩陣;η代表高斯分布概率密度函數(shù)。
2.1.2 參數(shù)更新
為了適應(yīng)背景動態(tài)變化,更好地描述圖像的像素分布,模型匹配之后需進(jìn)行參數(shù)更新,以保證算法準(zhǔn)確性。首先將當(dāng)前圖像序列中每個視頻幀的像素值和所建立的K個高斯模型進(jìn)行比較,如果視頻序列中某幀的K個高斯模型滿足式(2),則稱像素Xj,t和第i個高斯模型匹配。
若不匹配,則新增一個高斯分布,并用其將權(quán)值系數(shù)最小的分布替代,其余分布的均值和方差保持不變,并按式(3)進(jìn)行參數(shù)更新。
其中,α為學(xué)習(xí)速率,代表背景更新速度;ρ為參數(shù)學(xué)習(xí)速率;M為狀態(tài)值,取決于匹配狀態(tài),匹配成功與失敗分別對應(yīng)1和0。
2.1.3 前景提取
訓(xùn)練完成后進(jìn)行前景圖像提取,針對圖像序列中的每個視頻幀,將其對應(yīng)的K個高斯模型按照ω/σ的大小進(jìn)行排序,并選中其中前B個模型對背景模型進(jìn)行重構(gòu)。
其中,T 為閾值,通常為0.5~1,本文設(shè)置為0.75,即判斷前B個模型的權(quán)值之和是否大于閾值。
若這前B個高斯分布可以匹配上當(dāng)前視頻幀的任意高斯分布,則為背景,否則該幀為前景。圖4 為不同場景下的人體輪廓檢測圖及其對應(yīng)的前景圖,可見能夠?qū)崿F(xiàn)對人體目標(biāo)的準(zhǔn)確檢測。
Fig.4 Human contour detection map and foreground image圖4 人體輪廓檢測圖及前景圖像
時間流和空間流類似,采用不同尺寸的卷積核對輸入進(jìn)行卷積操作,并經(jīng)過池化、激活等操作處理,最后通過Softmax 函數(shù)得到時間流的訓(xùn)練結(jié)果。相比于空間流輸入RGB 圖片,時間流輸入運(yùn)動歷史圖(Motion History Image,MHI)以提取時間特征。MHI 是一種基于視覺的模板方法,通過計算時間段內(nèi)同一位置像素值的變化,進(jìn)而以圖像亮度的形式表示時間段內(nèi)目標(biāo)的運(yùn)動情況。與RGB 圖片能夠直接從視頻中逐幀分隔得到不同,MHI 是從連續(xù)的RGB 圖片或者視頻中估算得到。圖像中每個像素點(diǎn)的灰度值代表了在一組視頻序列中該像素點(diǎn)的最近運(yùn)動狀況,運(yùn)動發(fā)生的時間越近,則該點(diǎn)的灰度值越高。因此,MHI可以用來表征在一段時間內(nèi)人體的運(yùn)動情況,這使得其非常適合作為時間流網(wǎng)絡(luò)的輸入。
設(shè)H 為MHI每個像素的灰度值,則有:
其中,(x,y)表示像素點(diǎn)的位置,t表示時間,τ為持續(xù)時間,即運(yùn)動時間的范圍。δ是衰退參數(shù),Ψ(x,y,t)為更新參數(shù),由背景差分法定義:
其中,I(x,y,t)為視頻序列第t幀中坐標(biāo)(x,y)的像素點(diǎn)的強(qiáng)度值,Δ 為幀間距離,ξ為差異閾值,一般通過實(shí)驗(yàn)獲取,不同的視頻場景對應(yīng)不同的閾值。
時間流的輸入是連續(xù)3 幀的運(yùn)動歷史圖,大小為224×224×3。本文將持續(xù)時間τ設(shè)為15,差異閾值ξ設(shè)為32。具體運(yùn)動歷史圖的實(shí)現(xiàn)效果如圖5所示。
Fig.5 Motion history image extraction effect圖5 運(yùn)動歷史圖提取效果
融合流網(wǎng)絡(luò)主要對時間流和空間流的最后兩層卷積層進(jìn)行特征融合,選取最后兩層是為了彌補(bǔ)單層融合造成的信息缺失。由于卷積神經(jīng)網(wǎng)絡(luò)對卷積層疊加的特性,網(wǎng)絡(luò)淺層中富含局部信息但缺少全局信息,而網(wǎng)絡(luò)深層中富含全局信息,缺少局部信息,因而單層融合無法充分利用特征信息,而層數(shù)過多又會導(dǎo)致過多的無用信息,增加計算量。因此,綜合考慮后選取最后兩層進(jìn)行融合,既可使用全局信息又保留了局部信息,同時平衡了計算量和網(wǎng)絡(luò)精度。
2.3.1 多模態(tài)融合算法
傳統(tǒng)的特征融合一般使用特征拼接、按位乘、按位加等,其操作復(fù)雜度雖然弱于外積,但不足以建立模態(tài)間的復(fù)雜關(guān)系,然而外積的復(fù)雜度又過高,運(yùn)用在跌倒檢測中計算量過于龐大。鑒于此,本文采用多模態(tài)融合算法(Multimodal Compact Bilinear pooling,MCBP),該算法將外積的結(jié)果映射到低維空間中,并且不需要顯式地計算外積。
雙線性池化是對雙線性融合后的特征進(jìn)行池化處理,雙線性的實(shí)現(xiàn)就是向量的外積計算。由于雙線性的特征維度特別高,因而壓縮雙線性池化(Compact Bilinear Pooling,CBP)這一概念被提出,CBP 是對雙線性池化的一種降維近似。而MCBP 又是對CBP 的改進(jìn),可以用來融合多模態(tài)的特征值,拓寬了CBP 輸入的特征維度。該算法包括數(shù)據(jù)降維和融合兩部分。
首先是數(shù)據(jù)降維,使用Count Sketch 映射函數(shù)對兩個模態(tài)的特征向量進(jìn)行降維處理,得到特征的Count Sketch。記輸入的特征向量v∈Rm,初始化一個零向量y,同時從{1,...,n}中隨機(jī)選取樣本參數(shù)向量h,從{-1,1}中隨機(jī)選取樣本參數(shù)向量s。經(jīng)由投影函數(shù)式(8)開始降維處理。
數(shù)據(jù)降維完成后,在融合階段經(jīng)由快速傅里葉變換(FFT)和快速傅里葉逆變換(IFFT)處理得到融合的特征。記k個輸入特征為vj∈,降維處理后∈Rn。則可通過式(9)計算得到數(shù)據(jù)結(jié)果。
其中,F(xiàn)FT代表快速傅里葉變換,F(xiàn)FT-1代表快速傅里葉逆變換,⊙表示對應(yīng)元素乘法。
MCBP 算法整體流程如算法1所示。
算法1:多模態(tài)融合算法
2.3.2 多模態(tài)融合模塊
融合流網(wǎng)絡(luò)主要對時間流和空間流的最后兩層卷積層進(jìn)行特征融合。本文基于MCBP 算法設(shè)計了多模態(tài)特征融合模塊(Multimodal Feature Fusion Module,MFFM),用來對特征值進(jìn)行融合調(diào)整。首先,要將對應(yīng)層級的時空特征使用MFFM 進(jìn)行融合得到對應(yīng)的融合時空特征,待最后兩層卷積層都融合完成后,將得到的兩個融合時空特征再次經(jīng)由MFFM 模塊進(jìn)行融合得到最后的多級融合時空特征。MFFM 模塊具體結(jié)構(gòu)如圖6所示。
Fig.6 Multi-modal feature fusion module圖6 多模態(tài)特征融合模塊
MFFM 包括特征融合和特征調(diào)整兩個階段。特征融合階段主要使用MCBP 算法對輸入的多個特征進(jìn)行降維融合。特征調(diào)整階段主要通過特征調(diào)整網(wǎng)絡(luò)對融合得到的時空特征進(jìn)行噪聲問題和感受野調(diào)整,特征調(diào)整網(wǎng)絡(luò)經(jīng)由2 個卷積層、2 個激活層和2 次數(shù)據(jù)歸一化處理。通過特征調(diào)整可對融合特征作進(jìn)一步優(yōu)化,以降低數(shù)據(jù)維度并抑制噪聲,提高預(yù)測精準(zhǔn)度。
多流卷積神經(jīng)網(wǎng)絡(luò)一共有3 個分支,通過相應(yīng)處理分別提取空間特征、時間特征以及多級融合時空特征,最后將3 個分支的輸出進(jìn)行融合得到最終檢測結(jié)果。設(shè)f是神經(jīng)網(wǎng)絡(luò)提取的特征向量,其中θ為Softmax 分類器參數(shù),則將f分類為類別j的概率p(j|f)為:
記Ps為空間流神經(jīng)網(wǎng)絡(luò)檢測的分?jǐn)?shù)結(jié)果,Pt為時間流神經(jīng)網(wǎng)絡(luò)檢測的分?jǐn)?shù)結(jié)果,Pf為融合流神經(jīng)網(wǎng)絡(luò)檢測的分?jǐn)?shù)結(jié)果。最后,整個多流網(wǎng)絡(luò)檢測為類別j的概率scorej為:
其中,α、β、χ分別是空間流、時間流和融合流對應(yīng)的權(quán)重,本文設(shè)置α=1,β=2,χ=1。
實(shí)驗(yàn)中使用Pytorch[20]深度學(xué)習(xí)環(huán)境,損失函數(shù)使用交叉熵?fù)p失函數(shù),動量參數(shù)設(shè)置為0.9,初始學(xué)習(xí)率設(shè)置為0.001,批數(shù)據(jù)大小設(shè)置為48,訓(xùn)練輪數(shù)epoch 設(shè)置為100。
為驗(yàn)證實(shí)驗(yàn)檢測準(zhǔn)確性,實(shí)驗(yàn)在Le2i 和蒙特利爾兩個公開的跌倒數(shù)據(jù)集進(jìn)行檢驗(yàn),Le2i 跌倒檢測數(shù)據(jù)集包含家庭、辦公室、教室及咖啡廳4 種場景,且存在假摔視頻及無人視頻。數(shù)據(jù)集使用單攝像頭拍攝,刷新率為25Hz,分辨率為320×240。蒙特利爾數(shù)據(jù)集是由蒙特利爾大學(xué)公開的摔倒數(shù)據(jù)集,該數(shù)據(jù)集包含24 個場景,利用8 個IP 視頻攝像機(jī)拍攝,視頻刷新率為120Hz,分辨率為720×480。
實(shí)驗(yàn)首先對視頻數(shù)據(jù)進(jìn)行預(yù)處理,使用OpenCV 庫將數(shù)據(jù)集的視頻數(shù)據(jù)按照幀數(shù)截取成相應(yīng)的RGB 圖片,然后采用COLOR_BGR2GRAY 對圖像作灰度化處理,并將圖像尺寸轉(zhuǎn)換為224×224 后輸出得到實(shí)驗(yàn)所需的圖像序列,再對圖像序列進(jìn)行相應(yīng)處理,提取出的人物框架和運(yùn)動歷史圖將分別作為空間流和時間流的輸入,并利用融合流對特征提取網(wǎng)絡(luò)中的時空特征融合,最終融合得到輸出結(jié)果,按照相應(yīng)的實(shí)驗(yàn)指標(biāo)驗(yàn)證實(shí)驗(yàn)的有效性。
為了客觀評價本文模型在人體跌倒檢測中的檢測效果,規(guī)定TP 表示真陽性,即跌倒行為成功檢測為跌倒事件;FP 表示偽陽性,即非跌倒行為檢測為跌倒;FN 為偽陰性,即跌倒行為檢測為非跌倒。采用在ICDAR 大賽中規(guī)定的準(zhǔn)確率P、召回率R 及綜合F 值3 個指標(biāo)對模型性能進(jìn)行評估。
準(zhǔn)確率P 表示在所有檢測樣本中成功檢測為跌倒事件所占的檢測為跌倒事件的比例,可表示為:
召回率R 表示所有跌倒樣本中檢測為跌倒的部分在所有跌倒樣本中所占比例,即模型對跌倒行為的檢測能力,可表示為:
F 是準(zhǔn)確率和召回率的調(diào)和平均數(shù),用來綜合評價模型檢測能力,可表示為:
為了驗(yàn)證本文新增的融合流網(wǎng)絡(luò)輸入層數(shù)對跌倒檢測精確度的影響,在實(shí)驗(yàn)數(shù)據(jù)集上設(shè)置了4 組對照實(shí)驗(yàn),分別是使用傳統(tǒng)雙流卷積網(wǎng)絡(luò)和三組分別添加了從對雙流網(wǎng)絡(luò)最后一層到最后三層的卷積層融合的多流卷積網(wǎng)絡(luò)的精確度比較,結(jié)果如表1所示。
Table 1 Comparison of accuracy of multi-level spatiotemporal feature detection表1 多級時空特征檢測精確度比較
由表1 可知,當(dāng)增加對雙流網(wǎng)絡(luò)最后一個卷積層的融合流后,整體網(wǎng)絡(luò)檢測精確度為93.2%,較傳統(tǒng)卷積網(wǎng)絡(luò)上漲1.4%,驗(yàn)證了時空融合特征的有效性。而融合最后兩層卷積層時,整體精確度又上漲0.3%,但當(dāng)選用最后三層卷積層時整體精確度卻只增加了0.1%。由此可見,隨著融合層度的增加,多流網(wǎng)絡(luò)的檢測精確度確實(shí)有所增加,但同時不斷增加的融合層一定程度上增加了計算量,并且隨著層數(shù)的不斷增加,檢測精確度的漲幅越來越小。因此,為了平衡計算量和檢測精度,本文選取對時間流和空間流的最后兩層進(jìn)行時空特征融合處理。
此外,還在兩個數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn)與比較,為了驗(yàn)證本文多流卷積網(wǎng)絡(luò)檢測跌倒事件的有效性,將其與其他跌倒檢測方法在檢測效果上進(jìn)行比較。為了確保驗(yàn)證的有效性,訓(xùn)練和測試的所有條件保持一致,輸入尺寸均為224×224,具體性能指標(biāo)比較如表2、表3所示。
Table 2 Comparison of the detection effectiveness of each model on the Le2i dataset表2 Le2i數(shù)據(jù)集上各模型檢測準(zhǔn)確性比較
由表2 各模型的檢測結(jié)果比較可知,在Le2i 數(shù)據(jù)集上本文提出的基于多流卷積神經(jīng)網(wǎng)絡(luò)的檢測模型與現(xiàn)有網(wǎng)絡(luò)模型相比,準(zhǔn)確率方面有較大提升,為所有測試模型中精確度最高,并且其在各種指標(biāo)上的性能均優(yōu)于其他算法,可見添加融合流之后檢測依據(jù)的特征信息更充分,模型性能有所提高,進(jìn)一步說明本文結(jié)合了融合流的多流神經(jīng)網(wǎng)絡(luò)的有效性。
由表3 可知,在蒙特利爾數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與在Le2i 數(shù)據(jù)集上的結(jié)果相同,本文提出的多流卷積的跌倒檢測算法依舊擁有著最高的準(zhǔn)確率,相比雙流網(wǎng)絡(luò)精確度增加1.8%,較VGG16、GBDT 和SVM 增加3.9%、3.6%和5.8%。并且,本文方法在兩個數(shù)據(jù)集上的檢測精確度差距不大,由此也證明了本文多流卷積神經(jīng)網(wǎng)絡(luò)在跌倒檢測方面的普適性。
Table 3 Comparison of the detection accuracy of each model on the Montreal dataset表3 蒙特利爾數(shù)據(jù)集上各模型檢測準(zhǔn)確性比較
同時,由于跌倒檢測在時效性上有著較高要求,因此本文比較不同模型處理單個視頻幀圖片所耗時間,如圖7所示。其中,橫坐標(biāo)表示不同的比較算法,縱坐標(biāo)表示處理時間,單位為ms。由圖7 可知,本文多流卷積神經(jīng)算法雖然處理時間比SVM 和GBDT 算法長,但是考慮到精確度提升,本文提出的基于多流卷積神經(jīng)網(wǎng)絡(luò)的檢測算法可以滿足跌倒檢測要求。
Fig.7 Comparison of the detection speed of each model圖7 各模型檢測速度比較
最后,針對數(shù)據(jù)集中的假摔及無人場景進(jìn)行針對性實(shí)驗(yàn)。針對無人場景,由于畫面中并無人物出現(xiàn),因而會導(dǎo)致人物輪廓圖及運(yùn)動歷史圖均為純黑色圖片,對其進(jìn)行單獨(dú)測試后發(fā)現(xiàn),針對無人場景,并不會出現(xiàn)誤判情況。對于假摔場景,本文從兩個數(shù)據(jù)集中選取共計50 組包含假摔的場景進(jìn)行針對性實(shí)驗(yàn),最終在50 次實(shí)驗(yàn)中,有2 次發(fā)生誤判,也證明了本文算法檢測的有效性。
傳統(tǒng)的雙流卷積神經(jīng)網(wǎng)絡(luò)雖然結(jié)合了時空特征信息、多特征提取以及融合判斷,但是其融合發(fā)生在全連接層和分類函數(shù)之后,忽略了時間信息和空間信息間的交互。為了解決傳統(tǒng)雙流卷積網(wǎng)絡(luò)時空特征交互信息交互不足的問題,提高人體跌倒行為檢測準(zhǔn)確率,提出一種添加了融合流的多流卷積神經(jīng)網(wǎng)絡(luò)模型。多流網(wǎng)絡(luò)利用空間流網(wǎng)絡(luò)提取幀內(nèi)外觀信息,利用時間流網(wǎng)絡(luò)捕捉幀間運(yùn)動信息,并利用新增的融合流模塊加強(qiáng)網(wǎng)絡(luò)對細(xì)節(jié)信息的捕捉,很好地結(jié)合時空信息,更充分地利用特征提取網(wǎng)絡(luò)中的全局信息和局部信息。最終實(shí)驗(yàn)表明,相較于傳統(tǒng)檢測方法,本文提出的多流卷積神經(jīng)網(wǎng)絡(luò)在處理跌倒檢測問題時較傳統(tǒng)方法提取特征能力更強(qiáng),檢測更全面、更精確,證實(shí)了模型的有效性。同時,該方法也有待改進(jìn)之處,后續(xù)研究中可通過增加注意力機(jī)制等方法進(jìn)一步提升網(wǎng)絡(luò)精確度。