陳慶澎,管雪梅*,徐崗翔,讓博慧,周一鳴
(1.東北林業(yè)大學 信息與計算機工程學院,黑龍江 哈爾濱;2.東北林業(yè)大學 機電工程學院,黑龍江 哈爾濱)
處于學前階段的兒童,活動能力尚弱,活動范圍小,根據(jù)《中國兒童傷害報告》的報告表明,3~6 歲的兒童每天在室內(nèi)的時間占比高[1-2],而此階段的兒童對于危險的感知較弱,無法及時辨認環(huán)境危險。
針對室內(nèi)情況下的兒童動作識別可以對即將到來的危險進行預警,從而避免悲劇的發(fā)生。
當前,姿態(tài)評估的數(shù)據(jù)集常見數(shù)據(jù)集有KTH 數(shù)據(jù)集[3],HMDB 數(shù)據(jù)集[4]。KTH 數(shù)據(jù)集人物背景單一,不適合室內(nèi)的復雜情況,HMDB 數(shù)據(jù)集中人物背景復雜,但兒童部分數(shù)據(jù)過少。本文使用室內(nèi)場景較多且包含兒童的A2D 數(shù)據(jù)集。
本文采用2D 卷積網(wǎng)絡[5],以殘差網(wǎng)絡Resnet(Residential network)[6]作為分類網(wǎng)絡,對圖像中的人物動作進行分類。由于室內(nèi)環(huán)境復雜,物品多,因此,人物背景信息的冗余信息多。為解決傳統(tǒng)殘差網(wǎng)絡在訓練的過程中無法很好地學習標簽特征,其對測試集的準確率低,泛化性能差,過擬合現(xiàn)象嚴重的問題,本文引入CABM (Convolutional Block Attention Module)注意力模塊[7-9],通過注意力機制向不同的樣本,將注意力圖與輸入特征圖相差以進行自適應特征優(yōu)化,從而緩解過擬合現(xiàn)象。
殘差網(wǎng)絡Resne 是何凱明等人在2015 年提出的模型,作者通過加入殘差結構解決退化問題。Resnet在處理深層網(wǎng)絡表現(xiàn)出較好的效果,見圖1。
圖1 殘差結構
Mnih 等最初在圖像處理方面引入了注意力機制概念,通過計算輸入數(shù)據(jù)的權重,突出某個關鍵輸入對輸出的影響。
注意力機制是將模型注意力集中在局部關鍵信息的機制,分成兩步:首先,全局掃描發(fā)現(xiàn)局部有用信息;其次,對有用信息增強同時抑制冗余信息。
CBAM 是一種注意力機制模塊,結合了空間(spatial)和通道(channel)的注意力機制模塊。相比于Senet 只關注通道(channel)的注意力機制可以取得更好的效果。
根據(jù)圖2 可以看到,從卷積層輸出的結果,先通過一個通道注意力模塊,進行加權之后,再通過一個空間注意力模塊,加權得到最終結果。
圖2 CBAM 模塊
本實驗采用A2D 公開數(shù)據(jù)集。相對于KTH,HMDB 公開數(shù)據(jù)集,A2D 數(shù)據(jù)集中來自日常生活數(shù)據(jù),人物背景更加復雜,更貼近真實情況。
A2D 數(shù)據(jù)集中的兒童部分包含三類動作共計343個視頻,并且視頻同時標有像素級actor 和采樣幀的action。本文采用等間隔截取視頻幀,將視頻數(shù)據(jù)集圖片集。轉化為其中,前80 段為訓練集,后20 段為測試集。其中訓練集,訓練測試集,訓練結束測試集按照4:1 的比例劃分,見表1。
表1 兒童數(shù)據(jù)集介紹
數(shù)據(jù)增強技術很大程度上減小了網(wǎng)絡過擬合問題,提高了模型的泛化性[10]。
此外,與數(shù)據(jù)增強后的實驗結果相比,數(shù)據(jù)增強處理前的訓練集與測試集準確率的差值更大,數(shù)據(jù)增強使得模型泛化能力得到提升,同時改善模型的過擬合,見表2。
表2 數(shù)據(jù)增強
見表3。
表3 實驗環(huán)境
本文通過將Resnet 網(wǎng)絡模型和添加CBAM 的Resnet 識別效果進行對比,對模型的精準度進行測試。二者在訓練過程中的準確率見圖3,損失值見圖4。
圖3 訓練過程中的準確率
圖4 訓練過程中的損失值
可以看出,添加CBAM后的Resnet 訓練過程中的準確率與損失沒有明顯變化。
二者在測試集的數(shù)據(jù)見圖5,可以看到,Resnet 在測試集的準確率在到達60%開始波動,但訓練集的準確率依舊上升,表明模型陷入過擬合,在添加CBAM后Resnet 的準確率開始上升,最高可達到79.6%。實驗表明,添加CBAM后的Resnet 很好地緩解了過擬合現(xiàn)象。
圖5 測試集的正確率
兒童動作的識別可以很好地為兒童無人監(jiān)管情況下的安全問題引入一個新的思路。由于數(shù)據(jù)集數(shù)據(jù)量小,模型無法避免過擬合現(xiàn)象,但通過引入CBAM結構,可以很好地緩解模型過擬合問題。通過改進殘差網(wǎng)絡,對兒童動作進行識別,其正確率滿足實際要求。