柯泓明 王夢鴿 昝超 彭冰
摘要:文章針對高質(zhì)量公開跌倒數(shù)據(jù)集較少,導(dǎo)致模型泛化能力較弱、檢測準(zhǔn)確率低、現(xiàn)有網(wǎng)絡(luò)全連接層參數(shù)量過大收斂速度慢的問題,設(shè)計了適用于跌倒檢測的遷移學(xué)習(xí)方法,使用GAP(Global Average-Pooling,GAP)層替換全連接層方法,并在隱藏層加入BN(Batch Normalization,BN)操作,優(yōu)化網(wǎng)絡(luò)參數(shù),設(shè)置了多組對比實驗發(fā)現(xiàn)改進(jìn)的網(wǎng)絡(luò)模型在不同的數(shù)據(jù)集上訓(xùn)練時間相比于之前有所提升,均取得了不錯的效果,使得神經(jīng)網(wǎng)絡(luò)既能夠在大規(guī)模圖像數(shù)據(jù)集上學(xué)習(xí)通用的特征又能夠在公開跌倒數(shù)據(jù)集上學(xué)習(xí)跌倒特征,增強(qiáng)了網(wǎng)絡(luò)的泛化能力。
關(guān)鍵詞:圖像處理;計算機(jī)視覺;跌倒檢測算法;神經(jīng)網(wǎng)絡(luò)
doi:10.3969/J.ISSN.1672-7274.2024.04.027
中圖分類號:TP 394.1? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? ?文章編碼:1672-7274(2024)04-00-03
A Fall Detection Algorithm Based on Improved Convolutional Neural Network
KE Hongming, WANG Mengge, ZAN Chao, PENG Bing
(Hanjiang Normal University, Shiyan 442000, China)
Abstract: This article addresses the problems of weak model generalization ability, low detection accuracy, and slow convergence speed due to the limited number of high-quality public fall datasets. A transfer learning method suitable for fall detection is designed, which replaces the fully connected layer method with a Global Average Pooling (GAP) layer and adds a Batch Normalization (BN) operation in the hidden layer to optimize network parameters, Multiple comparative experiments were conducted, and it was found that the improved network model had improved training time on different datasets compared to before, achieving good results. This enabled the neural network to learn both universal features on large-scale image datasets and fall features on publicly available drop datasets, enhancing the network's generalization ability.
Keywords: image processing; computer vision; fall detection algorithm; neural network
當(dāng)今世界,人口老齡化愈演愈烈,獨居老人易跌倒造成極高的致殘率和死亡率。因此,對跌倒檢測的研究受到全世界范圍內(nèi)的重視,相關(guān)學(xué)者先后研發(fā)并提出一些性價比高的算法和可行的解決方案,主要分為基于傳感器和基于視覺影響的方法,但設(shè)備易受光線、復(fù)雜場景干擾等問題導(dǎo)致檢測誤報率高、準(zhǔn)確性不足、體驗性缺乏人性化。
為提高跌倒檢測能力并解決上述問題,本文提出了基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)跌倒檢測算法。針對公共跌倒數(shù)據(jù)集較少,導(dǎo)致模型泛化能力較弱、準(zhǔn)確率低問題,使用基于模型的遷移學(xué)習(xí)方法,先在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)通用的特征,然后在公開的跌倒數(shù)據(jù)集上學(xué)習(xí)跌倒特征,從而增強(qiáng)網(wǎng)絡(luò)的泛化能力,提高準(zhǔn)確率,針對網(wǎng)絡(luò)全連接層參數(shù)量過大,收斂速度慢的問題,設(shè)計了使用GAP層替換全連接層方法,并在隱藏層加入BN操作,優(yōu)化網(wǎng)絡(luò)參數(shù),從而提高識別效果。
1? ?基于遷移學(xué)習(xí)改進(jìn)的VGG-16跌倒識別
本文主要針對VGG-16網(wǎng)絡(luò)中存在的問題進(jìn)行改進(jìn)實驗,在改進(jìn)的CNN上進(jìn)行遷移學(xué)習(xí)的實驗,本文將VGG-16網(wǎng)絡(luò)模型在ImageNet等大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,將訓(xùn)練好后的參數(shù)加載到網(wǎng)絡(luò)中使其具有一定基礎(chǔ)識別能力,再次在UCF101數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練并進(jìn)行微調(diào)網(wǎng)絡(luò)。使得網(wǎng)絡(luò)具有能夠識別表征人體運動的特征。
1.1 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)
Simonyan和Zisserman[1]兩人在2014年第一次創(chuàng)造性提出VGG模型,它是當(dāng)前使用最廣、應(yīng)用最多、最成熟的網(wǎng)絡(luò)模型之一。圖1是VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)圖,它由13個卷積層、3個全連接層以及5個池化層相互堆疊而成,卷積層采用的是3×3大小的卷積核提取特征,最后面接入全連接層作為分類,relu函數(shù)作為卷積層的激活函數(shù),在全連接層后加入drupout可以防止過擬合。選擇很多個比較小的卷積核可以使得網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)變得更少,進(jìn)而提升網(wǎng)絡(luò)的性能,強(qiáng)化提取復(fù)雜圖像特征的功能。
1.2 改進(jìn)的VGG-16網(wǎng)絡(luò)
1.2.1 全局池化層替換全連接層
原始的VGG-16網(wǎng)絡(luò)的全連接層參數(shù)量過大,占到整個網(wǎng)絡(luò)的80%以上,導(dǎo)致訓(xùn)練時間長,網(wǎng)絡(luò)收斂慢,需要算力強(qiáng)的硬件環(huán)境,部署到移動視頻設(shè)備存在一定限制。本文使用GAP[2]替換VGG-16網(wǎng)絡(luò)中的全連接層,得到特征圖的平均值,在經(jīng)過全連接層后,將結(jié)果輸送到softmax分類器中進(jìn)行分類。圖2表示了GAP代替全連接層對特征圖進(jìn)行降維的過程,原始圖經(jīng)過CNN卷積層后,其特征圖矩陣向下采樣到全局平均池化層中,GAP對特征矩陣求平均值,從而實現(xiàn)對特征圖進(jìn)行降維。
1.3 VGG-16模型遷移框架設(shè)計
1.3.1 遷移模型
該網(wǎng)絡(luò)模型遷移框架設(shè)計圖如圖3所示,具體步驟是:在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練模型,使得模型具有可以區(qū)分角落、紋理、基本幾何元素等特征,該數(shù)據(jù)集擁有1 400多萬個圖像和1 000個類。然后基于在ImageNet上訓(xùn)練的CNN,我們修改輸入層使其可以接收光流圖像,即224×224×20,在UCF101數(shù)據(jù)集上繼續(xù)訓(xùn)練網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以識別人體動作的特征,UCF101數(shù)據(jù)集是一個人體動作視頻庫,包含各種人體動作,這些特征可以用于后面識別跌倒。然后固定前面隱藏層的參數(shù)和權(quán)重,將預(yù)訓(xùn)練好的模型和權(quán)重參數(shù)遷移到跌倒的公開數(shù)據(jù)集中,在網(wǎng)絡(luò)結(jié)構(gòu)中加入BN操作并且使用GAP代替全連接層,在優(yōu)化后的VGG-16網(wǎng)絡(luò)在新的數(shù)據(jù)集上微調(diào)訓(xùn)練模型,最后選擇softmax邏輯回歸函數(shù)作為輸出層。
1.3.2 實驗參數(shù)設(shè)置
本文討論的是二分類問題,因此可使用二元交叉熵函數(shù)作為模型的損失函數(shù),公式如下:
因為要表達(dá)某個類的重要性,所以在其中添加類的權(quán)重。式中,表示沒有跌倒的權(quán)重;表示跌倒的權(quán)重。
為了更好地評估模型對于跌倒的識別性能,我們采用五折交叉驗證的方法,從數(shù)據(jù)集中隨機(jī)選擇4份作為訓(xùn)練集,1份作為測試集,取測試173.30116結(jié)果的平均值,從而避免訓(xùn)練過程中偶然性因素對評價指標(biāo)的影響,得到更加客觀的結(jié)果。圖4圖5分別表示網(wǎng)絡(luò)在兩個跌倒公開數(shù)據(jù)集上訓(xùn)練的準(zhǔn)確率和損失函數(shù)曲線。我們根據(jù)不同的訓(xùn)練樣本數(shù)量發(fā)現(xiàn)一些超參數(shù)的設(shè)置在不同數(shù)據(jù)集中有很好的表現(xiàn),分別設(shè)置三個數(shù)據(jù)集的學(xué)習(xí)率為0.001、0.001、0.01和batch size為64、1 024、1 024以及跌倒權(quán)重為1、1、2。在分別經(jīng)過3 000、3 000、6 000次迭代后網(wǎng)絡(luò)在訓(xùn)練集上準(zhǔn)確率和模型的損失函數(shù)均逐漸得到很好的收斂。
2? ?數(shù)據(jù)和實驗結(jié)果分析
2.1 實驗測試環(huán)境與數(shù)據(jù)集
實驗所使用的硬件平臺:CPU為Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz、GPU為NVIDIA GeForce RTX 2080 Ti、內(nèi)存為16 GB、操作系統(tǒng)使用Linux。本文使用URFD、UCF101兩個公開數(shù)據(jù)集以及一個測試數(shù)據(jù)集,分別包含72個短視頻、8個不同的IP相機(jī)、24個場景,由視頻和圖片數(shù)據(jù)組成,涵蓋大部分場景。
2.2 評價指標(biāo)
跌倒檢測作為一個二分類問題,在該問題上模型具有識別特定序列的視頻幀是否表示跌倒的功能,而評估此類模型的性能最常見的指標(biāo)就是靈敏度(sensitivity),或者稱為召回率(recall),又或者稱為真陽性率;另外一個評價指標(biāo)是特異性(specificity)或者稱為真陰性率。以上指標(biāo)不會受到不平衡類別分布的影響,所以它們很適合評價跌倒檢測數(shù)據(jù)集。
2.3 實驗結(jié)果與分析
為了證明修改后的網(wǎng)絡(luò)相較于之前網(wǎng)絡(luò)在訓(xùn)練時間上有所提升,我們分別在每個數(shù)據(jù)集上進(jìn)行5次訓(xùn)練,最后取它們的均值,根據(jù)圖6可以發(fā)現(xiàn)修改后的模型相較于修改前模型在訓(xùn)練時間上有明顯提升。
在兩個公開數(shù)據(jù)集上分別就召回率、特異性以及精準(zhǔn)度完成了對比實驗,結(jié)果顯示在表1和表2中。實驗結(jié)果顯示在兩個數(shù)據(jù)集上召回率和特異性均有較好的表現(xiàn),這表明該模型具有很好泛化能力,即模型對于老人跌倒與否具有很好的判斷性能。
3? ?結(jié)束語
本文主要介紹了VGG-16網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合遷移學(xué)習(xí)對VGG-16網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),在實驗中進(jìn)行了參數(shù)的設(shè)置,并對實驗硬件設(shè)備環(huán)境、數(shù)據(jù)集、評判指標(biāo)分別進(jìn)行了介紹,比較了改進(jìn)前后的網(wǎng)絡(luò)在數(shù)據(jù)集上訓(xùn)練時間的減少程度、三個數(shù)據(jù)集上的召回率、特異性以及準(zhǔn)確率,最后跟其他文獻(xiàn)中的方法在相同數(shù)據(jù)集上進(jìn)行了對照實驗。實驗結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)在訓(xùn)練的時間上有了顯著提升,而且在不同數(shù)據(jù)集上的表現(xiàn)證明此模型的泛化能力較好?!?/p>
參考文獻(xiàn)
[1] Kattenborn T, Leitloff J, Schiefer F, et al. Review on Convolutional Neural Networks (CNN) in vegetation remote sensing[J]. ISPRS journal of photogrammetry and remote sensing, 2021, (173): 24-49.
[2] Kusuma G P, Jonathan J, Lim A P. Emotion recognition on fer-2013 face images using fine-tuned vgg-16[J]. Advances in Science, Technology and Engineering Systems Journal, 2020, 5(6): 315-322.