亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進殘差網(wǎng)絡的兒童動作分類

2023-03-11 08:21:58陳慶澎管雪梅徐崗翔讓博慧周一鳴

科學技術創(chuàng)新 2023年4期

關鍵詞：殘差注意力準確率

陳慶澎，管雪梅*，徐崗翔，讓博慧，周一鳴

（1.東北林業(yè)大學信息與計算機工程學院，黑龍江哈爾濱；2.東北林業(yè)大學機電工程學院，黑龍江哈爾濱）

引言

處于學前階段的兒童，活動能力尚弱，活動范圍小，根據(jù)《中國兒童傷害報告》的報告表明，3～6 歲的兒童每天在室內(nèi)的時間占比高[1-2]，而此階段的兒童對于危險的感知較弱，無法及時辨認環(huán)境危險。

針對室內(nèi)情況下的兒童動作識別可以對即將到來的危險進行預警，從而避免悲劇的發(fā)生。

當前，姿態(tài)評估的數(shù)據(jù)集常見數(shù)據(jù)集有KTH 數(shù)據(jù)集[3]，HMDB 數(shù)據(jù)集[4]。KTH 數(shù)據(jù)集人物背景單一，不適合室內(nèi)的復雜情況，HMDB 數(shù)據(jù)集中人物背景復雜，但兒童部分數(shù)據(jù)過少。本文使用室內(nèi)場景較多且包含兒童的A2D 數(shù)據(jù)集。

本文采用2D 卷積網(wǎng)絡[5]，以殘差網(wǎng)絡Resnet(Residential network)[6]作為分類網(wǎng)絡，對圖像中的人物動作進行分類。由于室內(nèi)環(huán)境復雜，物品多，因此，人物背景信息的冗余信息多。為解決傳統(tǒng)殘差網(wǎng)絡在訓練的過程中無法很好地學習標簽特征，其對測試集的準確率低，泛化性能差，過擬合現(xiàn)象嚴重的問題，本文引入CABM (Convolutional Block Attention Module)注意力模塊[7-9]，通過注意力機制向不同的樣本，將注意力圖與輸入特征圖相差以進行自適應特征優(yōu)化，從而緩解過擬合現(xiàn)象。

1 網(wǎng)絡架構

1.1 殘差網(wǎng)絡

殘差網(wǎng)絡Resne 是何凱明等人在2015 年提出的模型，作者通過加入殘差結構解決退化問題。Resnet在處理深層網(wǎng)絡表現(xiàn)出較好的效果，見圖1。

圖1 殘差結構

1.2 CBAM卷積注意力模塊

Mnih 等最初在圖像處理方面引入了注意力機制概念，通過計算輸入數(shù)據(jù)的權重，突出某個關鍵輸入對輸出的影響。

注意力機制是將模型注意力集中在局部關鍵信息的機制，分成兩步：首先，全局掃描發(fā)現(xiàn)局部有用信息；其次，對有用信息增強同時抑制冗余信息。

CBAM 是一種注意力機制模塊，結合了空間（spatial）和通道（channel）的注意力機制模塊。相比于Senet 只關注通道（channel）的注意力機制可以取得更好的效果。

根據(jù)圖2 可以看到，從卷積層輸出的結果，先通過一個通道注意力模塊，進行加權之后，再通過一個空間注意力模塊，加權得到最終結果。

圖2 CBAM 模塊

2 數(shù)據(jù)集

2.1 數(shù)據(jù)集介紹

本實驗采用A2D 公開數(shù)據(jù)集。相對于KTH，HMDB 公開數(shù)據(jù)集，A2D 數(shù)據(jù)集中來自日常生活數(shù)據(jù)，人物背景更加復雜，更貼近真實情況。

A2D 數(shù)據(jù)集中的兒童部分包含三類動作共計343個視頻，并且視頻同時標有像素級actor 和采樣幀的action。本文采用等間隔截取視頻幀，將視頻數(shù)據(jù)集圖片集。轉化為其中，前80 段為訓練集，后20 段為測試集。其中訓練集，訓練測試集，訓練結束測試集按照4：1 的比例劃分，見表1。

表1 兒童數(shù)據(jù)集介紹

2.2 數(shù)據(jù)增強

數(shù)據(jù)增強技術很大程度上減小了網(wǎng)絡過擬合問題，提高了模型的泛化性[10]。

此外，與數(shù)據(jù)增強后的實驗結果相比，數(shù)據(jù)增強處理前的訓練集與測試集準確率的差值更大，數(shù)據(jù)增強使得模型泛化能力得到提升，同時改善模型的過擬合，見表2。

表2 數(shù)據(jù)增強

3 實驗以及結果分析

3.1 實驗環(huán)境

見表3。

表3 實驗環(huán)境

3.2 訓練結果

本文通過將Resnet 網(wǎng)絡模型和添加CBAM 的Resnet 識別效果進行對比，對模型的精準度進行測試。二者在訓練過程中的準確率見圖3，損失值見圖4。

圖3 訓練過程中的準確率

圖4 訓練過程中的損失值

可以看出，添加CBAM后的Resnet 訓練過程中的準確率與損失沒有明顯變化。

二者在測試集的數(shù)據(jù)見圖5，可以看到，Resnet 在測試集的準確率在到達60%開始波動，但訓練集的準確率依舊上升，表明模型陷入過擬合，在添加CBAM后Resnet 的準確率開始上升，最高可達到79.6%。實驗表明，添加CBAM后的Resnet 很好地緩解了過擬合現(xiàn)象。

圖5 測試集的正確率

4 結論

兒童動作的識別可以很好地為兒童無人監(jiān)管情況下的安全問題引入一個新的思路。由于數(shù)據(jù)集數(shù)據(jù)量小，模型無法避免過擬合現(xiàn)象，但通過引入CBAM結構，可以很好地緩解模型過擬合問題。通過改進殘差網(wǎng)絡，對兒童動作進行識別，其正確率滿足實際要求。