張 璐,方春,祝銘
(山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東淄博 255049)
跌倒是指突然、無(wú)意發(fā)生的體位改變,普遍發(fā)生于老年群體,其后果可能嚴(yán)重影響老年人的身體和心理健康[1]。據(jù)統(tǒng)計(jì),我國(guó)每年至少有2 000 萬(wàn)老年人發(fā)生2 500 萬(wàn)次跌倒,因受傷耗費(fèi)的醫(yī)療費(fèi)用達(dá)50 億元人民幣以上[2]。為了給獨(dú)居老人提供合格的醫(yī)療健康服務(wù),減輕跌倒帶來(lái)的負(fù)面影響,開(kāi)發(fā)有效的跌倒檢測(cè)系統(tǒng)必不可少。
近年來(lái),關(guān)于跌倒檢測(cè)算法的研究工作主要分為3 種:基于可穿戴設(shè)備的方法[3]、基于場(chǎng)景傳感器的方法[4]和基于計(jì)算機(jī)視覺(jué)的方法[5]。相較于前兩種方法,基于視覺(jué)處理的方法有其獨(dú)特的優(yōu)勢(shì),它們是非侵入式的(老年人無(wú)需佩戴特殊設(shè)備),用戶體驗(yàn)更好,并且監(jiān)控設(shè)備的成本也較低,通過(guò)監(jiān)控捕捉的視頻語(yǔ)義更豐富,方便后期的審查。
基于計(jì)算機(jī)視覺(jué)的方法旨在從圖像和視頻中提取信息來(lái)檢測(cè)跌倒。隨著圖像處理技術(shù)的提高和機(jī)器學(xué)習(xí)算法的廣泛應(yīng)用,國(guó)內(nèi)外學(xué)者開(kāi)展了諸多相關(guān)的跌倒檢測(cè)算法研究,其重點(diǎn)主要集中在如何精確提取到視頻中的前景運(yùn)動(dòng)目標(biāo),如何提取人體行為的有效特征和如何設(shè)計(jì)區(qū)分跌倒與非跌倒的分類算法。在提取視頻中人體目標(biāo)方面,主要包含背景減除算法,如高斯混合模型(Gaussian Mixed Model,GMM)[6]、Codebook[7]和ViBe[8]等。跌倒相關(guān)特征主要包括幾何特征和運(yùn)動(dòng)特征,Min 等[9]提出一種基于人體運(yùn)動(dòng)軌跡和形狀縱橫比的方法,以實(shí)時(shí)檢測(cè)人體跌倒。Vaidehi 等[10]提取人體長(zhǎng)寬比和傾斜角度等靜態(tài)特征來(lái)檢測(cè)跌倒。Lin 等[11]結(jié)合運(yùn)動(dòng)歷史圖(Motion History Image,MHI)分析跌倒行為,并提出了加速度和角加速度兩個(gè)額外特征,以多種特征綜合判斷跌倒事件。常用的分類器模型包括支持向量機(jī)(Support Vector Machine,SVM)、隱馬爾可夫模型(Hidden Markov Model,HMM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。Mirmahboub 等[12]通過(guò)從連續(xù)高斯平均背景差中提取的多個(gè)連續(xù)幀中獲取的輪廓區(qū)域作為特征,將其輸入到多類SVM 中,以對(duì)不同類型的正?;顒?dòng)進(jìn)行分類。Tra 等[13]采用橢圓模型擬合人體姿勢(shì)并從中提取出5 個(gè)特征,輸?shù)絻蓚€(gè)HMM 中,以對(duì)跌倒事件和正常事件進(jìn)行分類。Yu 等[14]對(duì)圖像序列預(yù)處理后,并結(jié)合CNN 模型判斷人體姿勢(shì),以躺在地面區(qū)域視為跌倒。目前該領(lǐng)域的研究工作取得了一定成果,但仍需進(jìn)一步改進(jìn),主要有以下方面:
1)目前視頻中前景目標(biāo)的提取主要依靠傳統(tǒng)的背景減除算法,而背景減除算法在復(fù)雜的背景設(shè)置下魯棒性較差,適用范圍有限,難以應(yīng)用在實(shí)際家庭環(huán)境下。如何在復(fù)雜環(huán)境下精準(zhǔn)且快速地提取視頻中的前景目標(biāo)仍值得研究。
2)目前人體行為識(shí)別領(lǐng)域可識(shí)別諸多行為[15],但對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜,導(dǎo)致實(shí)時(shí)性差,而對(duì)于家庭行為來(lái)說(shuō),人體活動(dòng)較為單一,如何設(shè)計(jì)出輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于家庭活動(dòng)分類也值得探討。
3)為準(zhǔn)確區(qū)分與跌倒行為相似的活動(dòng)類型,如何提取有關(guān)跌倒的有效特征,提高檢測(cè)準(zhǔn)確率、降低誤判率也是重要研究?jī)?nèi)容。
本文針對(duì)上述情況,提出了一種基于Res2Net-YOLACT和融合特征的室內(nèi)跌倒檢測(cè)算法,主要內(nèi)容包括:1)將Res2Net 模塊融入傳統(tǒng)YOLACT 的骨干網(wǎng)絡(luò),增強(qiáng)骨干網(wǎng)絡(luò)各層的感受域,從而更精準(zhǔn)地完成人體實(shí)例的分割任務(wù);2)將CNN 深度特征和手工提取的跌倒特征進(jìn)行融合,增強(qiáng)了關(guān)于跌倒行為的特征表達(dá)力;3)先以豎直運(yùn)動(dòng)速度閾值預(yù)判異常,再通過(guò)二次分類的方法區(qū)分跌倒與非跌倒行為,減少僅依靠網(wǎng)絡(luò)模型帶來(lái)的高運(yùn)算量。
YOLACT 網(wǎng)絡(luò)是由Bolya 等[16]基于一級(jí)(one-stage)目標(biāo)檢測(cè)器開(kāi)發(fā)的一級(jí)實(shí)例分割模型。本文在YOLACT 網(wǎng)絡(luò)基礎(chǔ)上對(duì)骨干網(wǎng)絡(luò)部分進(jìn)行改進(jìn),提出一種用于人體分割的Res2Net-YOLACT 網(wǎng)絡(luò)結(jié)構(gòu),其結(jié)構(gòu)如圖1 所示。
圖1 Res2Net-YOLACT的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of Res2Net-YOLACT
實(shí)例分割大致步驟為:首先使用特征提取網(wǎng)絡(luò)提取多尺度特征圖(圖1 所示的C3~C5),原始的YOLACT 模型默認(rèn)骨干網(wǎng)絡(luò)為ResNet101,網(wǎng)絡(luò)層數(shù)深,內(nèi)部主要由Bottleneck 結(jié)構(gòu)塊[17]構(gòu)成。為提高網(wǎng)絡(luò)對(duì)多尺度特征的提取能力,實(shí)現(xiàn)快速且準(zhǔn)確的人體實(shí)例分割,本文將原骨干網(wǎng)絡(luò)ResNet 的Bottleneck 模塊都替換為Res2Net 模塊[18](圖1 左側(cè)),Res2Net結(jié)構(gòu)塊在保持原結(jié)構(gòu)中的卷積核大小和總數(shù)不變的情況下,對(duì)所有卷積核進(jìn)行分組,形成多個(gè)包含較少卷積核的分支,并以一種分層的類殘差的方式將不同的卷積核分支連接。這種方式增大了各層的感受域,并且不會(huì)增加網(wǎng)絡(luò)的參數(shù)。考慮到本文檢測(cè)的類別單一,最終本文采用尺度為4 的Res2Net-50 作為特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)的骨干網(wǎng)絡(luò),在確保提取語(yǔ)義特征充足的同時(shí)降低網(wǎng)絡(luò)深度,提高人體分割的速度。改進(jìn)后的Res2Net-50 骨干網(wǎng)絡(luò)如表1 所示。
表1 用于特征提取的Res2Net-50骨干網(wǎng)絡(luò)Tab.1 Res2Net-50 backbone network for feature extraction
接著,基于FPN 生成P3、P4、P5,通過(guò)P5 生成P6 和P7。然后,將實(shí)例分割的復(fù)雜任務(wù)分解為兩個(gè)更簡(jiǎn)單的并行任務(wù),這些任務(wù)可以組合以形成最終的掩模:第一個(gè)分支通過(guò)Protonet 結(jié)構(gòu)進(jìn)行不同位置和前景背景分割的預(yù)測(cè),生成多個(gè)“原型掩?!保╬rototype masks);第二個(gè)向目標(biāo)檢測(cè)分支添加額外的head,以預(yù)測(cè)每個(gè)用于原型掩??臻g中實(shí)例表示的anchor 的“掩模系數(shù)”(mask coefficient)向量。兩分支任務(wù)可以獨(dú)立地計(jì)算。最后將經(jīng)過(guò)非極大值抑制(Non-Maximum Suppression,NMS)得到每個(gè)實(shí)例,以線性組合的方式生成每一個(gè)anchor 對(duì)應(yīng)的Mask 分割結(jié)果,詳細(xì)原理內(nèi)容可見(jiàn)文獻(xiàn)[16]。利用這種方式,既在特征空間上保持了空間一致性,也達(dá)到了一階段快速分割的目的。
最后,YOLACT 的訓(xùn)練涉及到分類損失、邊界框損失和Mask 損失三部分,其中分類損失和邊界框損失同SSD(Single Shot MultiBox Detector)[19],Mask 損失為預(yù)測(cè)Mask 和真實(shí)Mask 的逐像素二進(jìn)制交叉熵。給定人體姿態(tài)的圖像和相關(guān)注釋(包含人體類別標(biāo)注和人體輪廓標(biāo)注)的訓(xùn)練數(shù)據(jù)集,則可以通過(guò)最小化損失函數(shù)來(lái)訓(xùn)練得到網(wǎng)絡(luò)的權(quán)重文件。經(jīng)過(guò)訓(xùn)練好的Res2Net-YOLACT 網(wǎng)絡(luò),可以完成視頻幀中人體輪廓的提取。
本文選取精確率(Precision,P)、召回率(Recall,R)和F1三種評(píng)價(jià)指標(biāo)。精確率表示正確檢測(cè)到的前景像素?cái)?shù)量與所有檢測(cè)為前景像素的數(shù)量之比,反映了丟失人體目標(biāo)內(nèi)部信息的相關(guān)性;召回率為正確檢測(cè)到的前景像素?cái)?shù)量與總的前景像素的數(shù)量之比,反映丟失運(yùn)人體目標(biāo)以外信息的相關(guān)性;F1 兼顧了精確率和召回率,綜合衡量提取結(jié)果的好壞。
其中:tp(true positive pixels)表示正確檢測(cè)出的前景像素?cái)?shù);fn(false negative pixels)表示誤檢為背景的像素?cái)?shù);fp(false positive pixels)誤檢為前景的像素?cái)?shù)。
本文提出的跌倒檢測(cè)算法總體流程結(jié)構(gòu)如圖2 所示。
圖2 跌倒檢測(cè)總體流程Fig.2 Overall flowchart of fall detection
2.1.1 人體輪廓的橢圓擬合
橢圓擬合[20]對(duì)較差的分割結(jié)果具有一定魯棒性,相較于外接矩形擬合,更能有效描述人的姿勢(shì),因?yàn)槭直鄣纳煺箷?huì)導(dǎo)致矩形擬合發(fā)生較大的變化。人體擬合結(jié)果及參數(shù)如圖3 所示,可見(jiàn)橢圓擬合更加緊湊。
圖3 跌倒人體的橢圓擬合及關(guān)鍵參數(shù)Fig.3 Ellipse fitting and key parameters of falling human body
橢圓參數(shù)的計(jì)算過(guò)程如下:
對(duì)于一張圖像f(x,y),矩特征為:
根據(jù)中心矩,可通過(guò)式(6)計(jì)算出橢圓的方向角為:
橢圓的長(zhǎng)半軸a和短半軸b可以計(jì)算為:
其中:Imax和Imin分別為式(9)特征矩陣J的最大和最小特征值。
參數(shù)計(jì)算完后,可以將橢圓擬合到前景輪廓上。
2.1.2 運(yùn)動(dòng)特征提取
當(dāng)人體在走路、躺臥和慢坐等日?;顒?dòng)時(shí),其垂直速度將不發(fā)生大幅度變化;而發(fā)生跌倒行為時(shí),人體的豎直速度會(huì)突變。因此,本文采用橢圓輪廓來(lái)計(jì)算人體豎直方向的速度,并作為跌倒行為的第一次預(yù)判。具體來(lái)說(shuō),通過(guò)相鄰幀質(zhì)心位置的距離差值計(jì)算速度,當(dāng)多幀之間速度差超過(guò)閾值T,預(yù)判為跌倒。算法流程如下:
算法1 基于人體質(zhì)心垂直速度預(yù)判跌倒。
輸入 提取的人體輪廓圖像序列,初始值c=0。
輸出 垂直速度超過(guò)閾值時(shí)的前一幀圖像,并進(jìn)入二次分類流程。
經(jīng)過(guò)一次分類,如快速坐、快速下蹲等與跌倒近似的行為也可能會(huì)初步斷定為異常,接下來(lái)通過(guò)人體姿勢(shì)分類作出二次判斷,確認(rèn)是否發(fā)生跌倒。
本文利用融合雙路特征的模型算法對(duì)人體姿勢(shì)進(jìn)行分類。第一路利用CNN 提取圖像靜態(tài)特征,第二路先通過(guò)橢圓擬合人體;然后手動(dòng)提取有關(guān)跌倒的幾何運(yùn)動(dòng)特征并組合成特征向量;接著利用全連接層完成特征向量拼接;最后利用Softmax 函數(shù)進(jìn)行特征分類。雙路特征模型結(jié)構(gòu)如圖4 所示,圖中虛線框表示手工特征的提取。
圖4 姿勢(shì)分類的模型結(jié)構(gòu)Fig.4 Model structure of behavior classification
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征
在計(jì)算機(jī)視覺(jué)研究領(lǐng)域,CNN 能夠直接從大量的標(biāo)注數(shù)據(jù)中逐層提取圖像的信息并對(duì)圖像進(jìn)行檢測(cè)與分類[21]。本文中人體目標(biāo)輪廓只占據(jù)原始圖像的小部分,而背景對(duì)于人體活動(dòng)的識(shí)別不起作用,為了消除圖像冗余,減少計(jì)算量,本文對(duì)輸入圖片進(jìn)行預(yù)處理。首先提取每個(gè)輪廓的最小外接矩形,然后保持輪廓的長(zhǎng)寬比并縮放到30×30 像素大小的圖像模板,最后對(duì)每個(gè)像素點(diǎn)作歸一化處理。本次所設(shè)計(jì)的CNN 結(jié)構(gòu)參數(shù)如表2 所示,共包含3 個(gè)卷積層(Conv)、3 個(gè)池化層(Pooling)和兩個(gè)全連接層(FC)。卷積池化之間利用ReLU(Rectified Linear Unit)激活函數(shù)來(lái)獲取固定神經(jīng)元輸出,輸出層之前利用Softmax 激活函數(shù)輸出人體行為類別的概率。為了訓(xùn)練網(wǎng)絡(luò),利用多類交叉熵?fù)p失函數(shù)(categorical_crossentropy),并采用能夠自動(dòng)調(diào)節(jié)學(xué)習(xí)率的RMSProp 作為優(yōu)化函數(shù)來(lái)估計(jì)CNN 的權(quán)重參數(shù),批次大小設(shè)置為32。
表2 卷積神經(jīng)網(wǎng)絡(luò)參數(shù)Tab.2 Convolutional neural network parameters
2.2.2 手工提取的幾何運(yùn)動(dòng)特征
橢圓的參數(shù)(質(zhì)心坐標(biāo)(xˉ,yˉ)、方向角θ以及長(zhǎng)半軸a、短半軸b)可以生成對(duì)定位區(qū)域內(nèi)目標(biāo)姿態(tài)粗略描述的指標(biāo)。人體在不同的運(yùn)動(dòng)狀態(tài)下會(huì)有不同的幾何特性,為了能夠?qū)⒌剐袨榕c其他日常行為進(jìn)行區(qū)別,本文提取視頻幀中人體目標(biāo)的以下特征:
1)質(zhì)心高度Hc。當(dāng)人體發(fā)生跌倒行為時(shí),質(zhì)心Z在垂直方向上會(huì)發(fā)生位移變化,Hc的數(shù)值會(huì)下降。如圖3所示,質(zhì)心Z到直線L的距離Hc為質(zhì)心高度。
2)縱橫比ρ。如果人體發(fā)生縱向跌倒時(shí),縱橫比ρ會(huì)發(fā)生突變;而發(fā)生橫向跌倒時(shí),基本不變。
3)離心率e。離心率同樣包含了能夠描述跌倒行為的信息,其變化規(guī)律與縱橫比相同。
4)跌倒傾斜角θ。人體逐漸跌倒的過(guò)程中,跌倒傾斜角θ會(huì)不斷變小,但縱向跌倒時(shí),跌倒傾斜角θ的變化不太明顯,其大小為橢圓方向角。
因此,一旦發(fā)生跌倒,以上特征可以表征人體姿態(tài)的變化。將這些特征表示為一個(gè)4 維特征向量F=[Hc,ρ,θ,e],來(lái)作為區(qū)分跌倒行為與其他日常行為的依據(jù)。為了獲得更好的融合效果,本文將提取的特征向量重復(fù)4 次變?yōu)?6 維特征,同時(shí)利用Sigmoid 激活函數(shù)對(duì)特征向量歸一化處理,使數(shù)值處于0~1,最終特征向量F′=σ([Hc,ρ,θ,e,…,,Hc,ρ,θ,e]),其中σ為Sigmoid 激活函數(shù)。
3.1.1 Res2Net-YOLACT的人體目標(biāo)提取
本節(jié)實(shí)驗(yàn)中的數(shù)據(jù)集由人工采集,包含2 400 幅包含站、坐、彎身和跌倒姿勢(shì)的圖像。實(shí)驗(yàn)利用labelme 工具手動(dòng)標(biāo)注人體輪廓和person 類別,借助遷移學(xué)習(xí)[22]來(lái)微調(diào)訓(xùn)練新的人體分割模型。通過(guò)選取不同場(chǎng)景、不同姿勢(shì)的圖片來(lái)測(cè)試Res2Net-YOLACT 的提取效果,部分測(cè)試結(jié)果如圖5 所示。實(shí)驗(yàn)表明,訓(xùn)練的網(wǎng)絡(luò)模型可在不同場(chǎng)景下較好地提取各種人體姿勢(shì)的輪廓。
圖5 不同人體姿勢(shì)的提取結(jié)果Fig.5 Extraction results of different human poses
3.1.2 與其他人體目標(biāo)提取方法的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證Res2Net-YOLACT 網(wǎng)絡(luò)在人體目標(biāo)提取方面的優(yōu)勢(shì),本文選取Le2i 公開(kāi)跌倒數(shù)據(jù)集[23]的6 個(gè)片段,視頻片段的相關(guān)信息如表3 所示。
表3 視頻信息的介紹Tab.3 Introduction of video information
通過(guò)視覺(jué)提取效果對(duì)比(圖6 所示)和量化分析(表4 所示)兩種方式比較了幾種算法在不同環(huán)境下的人體提取效果。
表4 不同人體輪廓提取算法的量化比較結(jié)果Tab.4 Quantitative comparison results of different human contour extraction algorithms
圖6 不同人體輪廓提取算法的對(duì)比結(jié)果Fig.6 Comparison results of different human contour extraction algorithms
從圖6 可以發(fā)現(xiàn),傳統(tǒng)的GMM 算法和Codebook 算法在不同環(huán)境下表現(xiàn)得不穩(wěn)定,可視化結(jié)果容易受燈光變化影響,且在有背景移動(dòng)的情況下會(huì)產(chǎn)生噪聲;三種深度學(xué)習(xí)網(wǎng)絡(luò)模型可視化結(jié)果均較優(yōu)質(zhì),對(duì)光線變化不敏感。
從表4中可以發(fā)現(xiàn),Codebook 和GMM算法Recall值 較高,最高達(dá)91.67%,但是Precision值低,F(xiàn)1值均值在50%左右,說(shuō)明傳統(tǒng)背景減除算法對(duì)噪聲較為敏感,導(dǎo)致人體提取的穩(wěn)定性不高。而深度學(xué)習(xí)模型都獲得了很高的Recall、Precision 和F1值,說(shuō)明深度學(xué)習(xí)算法對(duì)于人體提取的效果更好,且穩(wěn)定性較高。在速度方面,Mask RCNN 速度較慢、實(shí)時(shí)性差;而原始YOLACT 網(wǎng)絡(luò),Res2Net-YOLACT 的主干網(wǎng)絡(luò)的深度較淺,總體結(jié)構(gòu)更加輕量,其分割速度約28 fps(RTX2080Ti),在原有模型基礎(chǔ)上提升約4 fps,基本可滿足實(shí)時(shí)需求。
本節(jié)實(shí)驗(yàn)使用的圖像數(shù)據(jù)是通過(guò)跌倒公開(kāi)數(shù)據(jù)集以及自行采集的方式獲得的,共提取4 200 幅包含不同室內(nèi)場(chǎng)景下人體站立(1 050 幅)、坐立(1 050 幅)、彎身(1 050 幅)和跌倒(1 050 幅)姿勢(shì)的圖像。根據(jù)訓(xùn)練集∶測(cè)試集=7∶3 的比例方式劃分?jǐn)?shù)據(jù)集。為了驗(yàn)證融合深度特征和手工特征對(duì)人體姿勢(shì)分類的有效性,本文在構(gòu)建的數(shù)據(jù)集上將傳統(tǒng)的SVM算法和KNN 算法進(jìn)行對(duì)比。為了公平比較,所有分類算法分別在訓(xùn)練集上通過(guò)5 折交叉驗(yàn)證進(jìn)行參數(shù)選擇。具體地,借助sklearn 庫(kù)中的GridSearchCV 類,即網(wǎng)格搜索方法選取最優(yōu)參數(shù),使得驗(yàn)證數(shù)據(jù)集的準(zhǔn)確率最高。最后均在相同的測(cè)試集上比較各算法的準(zhǔn)確率,對(duì)比結(jié)果如圖7 所示。
圖7 測(cè)試數(shù)據(jù)上準(zhǔn)確率的對(duì)比結(jié)果Fig.7 Accuracy comparison of three algorithms on test data
由圖7 可以看出,與傳統(tǒng)的KNN 和SVM 分類算法相比,本文算法分類結(jié)果更優(yōu),其準(zhǔn)確率更高。相較于單一的手工特征和CNN 特征,以雙路融合特征作為輸入進(jìn)行分類,其結(jié)果均獲得了一定提升。在本文算法下,與單一的CNN 特征相比,在融入手工提取特征后,人體活動(dòng)分類準(zhǔn)確率提升了1.03 個(gè)百分點(diǎn)??傮w表明,手工提取的跌倒特征有助于姿勢(shì)的識(shí)別。
為了綜合驗(yàn)證本文算法的準(zhǔn)確性,采用分辨率1 920×1 080 的固定攝像頭拍攝10 段模擬人體跌倒的視頻,每段視頻包含150 左右?guī)瑘D像,白天正常光錄制5 段和晚上燈光照明(干擾光)錄制5 段。每段視頻均包含模擬者正常站立、坐、彎身和跌倒的行為。
3.3.1 不同跌倒檢測(cè)方案測(cè)試
實(shí)驗(yàn)結(jié)果如表5 所示,實(shí)驗(yàn)數(shù)據(jù)可觀察到:Codebook 和GMM 方法跌倒檢測(cè)幀數(shù)較低,原因是當(dāng)人體跌倒不動(dòng)時(shí)背景減除算法容易造成目標(biāo)的丟失;閾值法指設(shè)置檢測(cè)閾值,當(dāng)其中一個(gè)指標(biāo)超過(guò)閾值時(shí)即判定為跌倒,此方法簡(jiǎn)單但存在較高的誤判率。CNN 分類可以提取到圖像的深度特征信息,檢測(cè)效果優(yōu)于閾值法,但是缺少人體姿勢(shì)變化的相關(guān)特征,跌倒特征不夠充分。Mask RCNN、YOLACT和Res2Net-YOLACT這些深度學(xué)習(xí)算法的跌倒檢測(cè)準(zhǔn)確率高、誤判率低,優(yōu)于傳統(tǒng)的背景減除算法。經(jīng)3.1.2 節(jié)驗(yàn)證,Res2Net-YOLACT 網(wǎng)絡(luò)在速度上存在優(yōu)勢(shì)??傮w分析可得,基于Res2Net-YOLACT和融合特征CNN 方法的檢測(cè)準(zhǔn)確率可達(dá)97.14%,誤判率為1.43%,并且檢測(cè)速度快,可滿足實(shí)時(shí)性的要求。
表5 不同跌倒檢測(cè)算法對(duì)比實(shí)驗(yàn)Tab.5 Comparison experiment of different fall detection algorithms
3.3.2 不同光照干擾下對(duì)比實(shí)驗(yàn)
上述實(shí)驗(yàn)表明了基于Res2Net-YOLACT 和雙路融合特征的在跌倒檢測(cè)應(yīng)用的優(yōu)勢(shì),考慮到現(xiàn)實(shí)場(chǎng)景會(huì)受光線亮度的干擾,因此本文設(shè)置不同光照環(huán)境下的對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證光照對(duì)本文算法跌倒檢測(cè)的影響。錄制環(huán)境分為白天正常光照和晚上燈光照明(干擾光),相應(yīng)實(shí)驗(yàn)結(jié)果如表6 所示。從實(shí)驗(yàn)結(jié)果可知,在不同光照下,跌倒檢測(cè)的準(zhǔn)確率、誤判率并沒(méi)有發(fā)生很大的變化,表明本文提出的跌倒檢測(cè)算法對(duì)光照的干擾不敏感,魯棒性較高。
表6 光照干擾對(duì)比實(shí)驗(yàn)結(jié)果Tab.6 Comparison result with light interference
3.3.3 跌倒檢測(cè)算法的測(cè)試
為了評(píng)估本文跌倒檢測(cè)算法在視頻片段上的檢測(cè)性能,邀請(qǐng)10 名志愿者分別模擬行走、坐起、下彎、躺和跌倒活動(dòng),總共記錄了500 個(gè)視頻片段。跌倒活動(dòng)和非跌倒活動(dòng)的檢測(cè)結(jié)果如表7 所示。
表7 提出的跌倒檢測(cè)算法的檢測(cè)結(jié)果Tab.7 Detection results of the proposed fall detection algorithm
從表7 中可以觀察到,在400 個(gè)非跌倒視頻中有8 段被誤檢為跌倒,而在100 個(gè)跌倒視頻片段中有3 段未被檢測(cè)到,總體上準(zhǔn)確率高且誤檢率低。分析結(jié)果:攝像機(jī)視角可能使質(zhì)心垂直速度的計(jì)算受到影響,造成漏檢;在姿勢(shì)分類階段可能出現(xiàn)單幀圖像的錯(cuò)誤分類,最后造成個(gè)別視頻片段的誤檢。為解決該問(wèn)題,可以采用多個(gè)攝像視角捕獲不同的姿勢(shì)來(lái)進(jìn)行改善最終結(jié)果。
本文提出了一種新的基于計(jì)算機(jī)視覺(jué)的跌倒檢測(cè)算法。該算法主首先利用Res2Net-YOLACT 網(wǎng)絡(luò)提取人體區(qū)域,魯棒性比傳統(tǒng)背景減除算法更高,檢測(cè)速度比原始YOLACT 模型結(jié)構(gòu)更快;然后,通過(guò)兩級(jí)判斷流程來(lái)區(qū)分跌倒與正常行為,這樣可減少僅依靠網(wǎng)絡(luò)模型帶來(lái)的高運(yùn)算量,并且與單一的CNN 網(wǎng)絡(luò)相比,雙路融合特征的模型算法準(zhǔn)確率更高。綜合實(shí)驗(yàn)表明,本文提出的算法對(duì)單幀圖像的檢測(cè)率較高,誤報(bào)率較低,并且對(duì)光照的干擾具有魯棒性。今后的工作將充分考慮實(shí)際應(yīng)用中軟硬件、存儲(chǔ)及實(shí)現(xiàn)平臺(tái)的要求,在最少的資源消耗下高效地完成跌倒檢測(cè)。