亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)YOLOV5算法的學(xué)生課堂行為識(shí)別研究

2022-02-15 02:48:18楊明遠(yuǎn)

信息記錄材料 2022年12期

楊明遠(yuǎn)，左棟

（華北水利水電大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院河南鄭州 450046）

0 引言

在智慧教育相關(guān)的課題研究中，學(xué)生課堂行為識(shí)別問(wèn)題一直是研究的重點(diǎn)內(nèi)容。隨著計(jì)算機(jī)存儲(chǔ)和計(jì)算技術(shù)的發(fā)展，人工智能融入教育領(lǐng)域，為學(xué)生課堂行為量化分析提供了可能。疫情以來(lái)，線上課堂已成為教學(xué)中不可或缺的一部分，如何在線上課堂掌握學(xué)生的學(xué)習(xí)狀況，為教師提供客觀的課堂情況是亟待解決的問(wèn)題。因此，將深度學(xué)習(xí)引入教學(xué)活動(dòng)，了解學(xué)生的上課狀態(tài)，對(duì)教學(xué)改革具有積極意義[1-2]。在針對(duì)學(xué)生行為識(shí)別的研究中，對(duì)于學(xué)生相似動(dòng)作難以區(qū)分識(shí)別的情況，張?chǎng)窝|[3]基于人體2D骨架提出多維融合的LSTM網(wǎng)絡(luò)，在克服梯度彌散的條件下，提高了對(duì)相似動(dòng)作的識(shí)別率；周葉[4]在經(jīng)典的實(shí)例分割算法Faster R-CNN的基礎(chǔ)上，利用特征金字塔解決不同尺度學(xué)生課堂行為檢測(cè)的同時(shí)，將視頻中上一幀的檢測(cè)結(jié)果作為當(dāng)前幀的目標(biāo)候選框，實(shí)現(xiàn)了比較準(zhǔn)確的學(xué)生身份關(guān)聯(lián)；柯斌等[5]用Inception V3網(wǎng)絡(luò)對(duì)學(xué)生行為進(jìn)行識(shí)別，但模型忽視了手機(jī)，筆和課本等重要信息的特征，使得看書(shū)，低頭玩手機(jī)行為容易混淆；Abdallah等[6]對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)，通過(guò)深度遷移學(xué)習(xí)的方法，在學(xué)生課堂表情識(shí)別中取得79.4%的準(zhǔn)確率；Lin等[7]使用OpenPose框架收集骨骼數(shù)據(jù),提出一種基于姿態(tài)估計(jì)和人物檢測(cè)技術(shù)的誤差校正方案，以減少骨架數(shù)據(jù)中的錯(cuò)誤連接，構(gòu)建表示人體姿勢(shì)的特征向量。采用關(guān)節(jié)位置、關(guān)節(jié)距離和骨角度等特征對(duì)學(xué)生行為分類(lèi)。上述方法雖然對(duì)學(xué)生行為進(jìn)行識(shí)別，但模型識(shí)別準(zhǔn)確率不高、魯棒性較差、有效特征的提取不足。本文在YOLOV5模型的基礎(chǔ)上改進(jìn)，加入CA注意力模塊從空間和通道兩個(gè)維度提升網(wǎng)絡(luò)的特征提取能力，提高特征提取的有效性，增加模型的魯棒性，在保證模型實(shí)時(shí)檢測(cè)的情況下，實(shí)現(xiàn)了對(duì)學(xué)生課堂抬頭聽(tīng)課、玩手機(jī)、睡覺(jué)等七種行為識(shí)別率的提高。

1 目標(biāo)檢測(cè)算法

1.1 YOLOV5目標(biāo)檢測(cè)模型

YOLOV5是Ultralytics公司2020年5月發(fā)布的目標(biāo)檢測(cè)網(wǎng)絡(luò)模型。YOLOV5輸入端有自適應(yīng)縮放，Mosaic數(shù)據(jù)增強(qiáng)，目的是為了增加數(shù)據(jù)的多樣性，使模型的泛化性能更好。Backbone有Focus、CSP、SPP等網(wǎng)絡(luò)模塊，主要目的是提取特征圖。Neck部分是特征融合階段，采用FPN+PAN（特征金字塔和路徑聚合網(wǎng)絡(luò)）網(wǎng)絡(luò)。Prediction部分使用三個(gè)大小不同的候選框分別預(yù)測(cè)小、中、大物體。其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

圖1 YOLOV5網(wǎng)絡(luò)結(jié)構(gòu)圖

1.2 注意力機(jī)制

注意力機(jī)制最早是自然語(yǔ)言處理中為了使模型更注重語(yǔ)言中的關(guān)鍵詞提出的，后來(lái)被應(yīng)用在計(jì)算機(jī)視覺(jué)中，簡(jiǎn)單來(lái)說(shuō)，注意力機(jī)制就是模仿人類(lèi)在觀察這個(gè)世界，接受視覺(jué)信息時(shí)的處理方式。當(dāng)閱讀一篇論文時(shí)，一般會(huì)把注意力放在眼睛看到的這句話上，而周?chē)钠渌畔?huì)被過(guò)濾掉，注意力機(jī)制就是源于這種思想。在特征提時(shí)，給有用的信息更高的權(quán)重，無(wú)用的信息對(duì)應(yīng)更小的權(quán)重。

1.3 坐標(biāo)注意力機(jī)制（coordinate attention，CA）

CA使用信息嵌入和注意力生成的方式[8]，不僅提取到不同特征圖的重要性，還獲取到特征圖上的位置信息。CA注意力模塊如圖所示：

信息嵌入階段：

為了使注意力模塊能夠獲得具有精確的位置信息和通道信息，CA對(duì)全局池化進(jìn)行分解，轉(zhuǎn)化為兩個(gè)一維特征編碼操作：給定輸入X，先使用大小為（h,1）和（1,w）的池化單元沿水平方向和垂直方向?qū)γ總€(gè)通道進(jìn)行編碼。高度為h的第c通道的輸出可以表示為：

同樣，沿垂直方向?qū)挾葹閣的第c通道的輸出可以表示為：

編碼后得到沿兩個(gè)方向聚合特征的一對(duì)方向感知的特征圖，這種特征編碼可以獲得沿著一個(gè)空間方向的通道信息，并保存沿著另一個(gè)空間方向的位置信息，這有助于網(wǎng)絡(luò)更準(zhǔn)確地獲取感興趣的目標(biāo)。

注意力生成階段：

注意力生成主要利用捕獲到的位置信息和通道信息，使感興趣的區(qū)域被準(zhǔn)確地捕獲。根據(jù)圖2所示，信息嵌入后的特征圖先進(jìn)行concatenate操作，然后進(jìn)入卷積變換得：

圖2 CA注意力機(jī)制模塊

然后沿著空間維數(shù)將x分解為兩個(gè)單獨(dú)的張量xh和xw，再利用兩個(gè)卷積變換將他們變?yōu)榫哂邢嗤ǖ罃?shù)的張量得：

最后，CA注意力機(jī)制模塊的輸出為：

2 基于注意力機(jī)制的課堂姿態(tài)識(shí)別

2.1 網(wǎng)絡(luò)結(jié)構(gòu)選擇

YOLOV5有四種網(wǎng)絡(luò)結(jié)構(gòu)，結(jié)構(gòu)的框架是一樣的，網(wǎng)絡(luò)寬度和深度越來(lái)越大，模型的檢測(cè)準(zhǔn)確率不斷增加，但檢測(cè)速度在不斷下降。本文研究的主要目的是在保證模型檢測(cè)速度的情況下，提高模型的魯棒性，因此選擇了YOLOV5s，在此基礎(chǔ)上加入注意力機(jī)制模塊。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示：

圖3 YOLOV5s+CA網(wǎng)絡(luò)結(jié)構(gòu)

2.2 數(shù)據(jù)集獲取及標(biāo)注

本文的數(shù)據(jù)來(lái)源于真實(shí)的課堂場(chǎng)景，在課堂上拍攝真實(shí)的學(xué)生課堂視頻數(shù)據(jù)，將數(shù)據(jù)轉(zhuǎn)換為圖片格式后，把學(xué)生行為動(dòng)態(tài)分為抬頭聽(tīng)課，低頭，玩手機(jī)，記筆記，舉手，睡覺(jué)，交頭接耳等七類(lèi)，然后對(duì)圖片進(jìn)行標(biāo)注，標(biāo)注后的數(shù)據(jù)輸出為YOLO格式。把數(shù)據(jù)按4：1的比例劃分為訓(xùn)練集和測(cè)試集。

2.3 模型參數(shù)

2.3.1 學(xué)習(xí)率調(diào)整相關(guān)參數(shù)

表1 學(xué)習(xí)率調(diào)整相關(guān)參數(shù)

模型采用不同的策略來(lái)學(xué)習(xí)不同的權(quán)重，對(duì)網(wǎng)絡(luò)的權(quán)重參數(shù)使用權(quán)重衰減來(lái)優(yōu)化，偏置和BN層的權(quán)重用基于梯度的移動(dòng)加權(quán)平均（SGD + Momentum）優(yōu)化，這種方法可以解決SGD優(yōu)化算法更新擺動(dòng)幅度大的問(wèn)題，同時(shí)可以使網(wǎng)絡(luò)的收斂速度加快。學(xué)習(xí)率的更新使用預(yù)熱和余弦退火算法，當(dāng)損失函數(shù)值較大時(shí)，以較大的學(xué)習(xí)率來(lái)訓(xùn)練模型；損失函數(shù)值接近全局最優(yōu)損失值時(shí)，余弦退火算法會(huì)給一個(gè)較小的學(xué)習(xí)率來(lái)接近全局最優(yōu)。

2.3.2 損失函數(shù)相關(guān)參數(shù)

如表2所示，設(shè)置預(yù)測(cè)框損失、分類(lèi)和回歸損失的比例，分類(lèi)和回歸的正樣本權(quán)重都設(shè)置為1，同時(shí)聚焦損失函數(shù)，增加對(duì)難負(fù)樣本的訓(xùn)練。

表2 損失函數(shù)相關(guān)參數(shù)

2.3.3 算法訓(xùn)練

在RTX3060的顯卡下，配置完成YOLOV5s模型的環(huán)境，在模型的backbone中加入CA注意力機(jī)制，根據(jù)硬件配置及數(shù)據(jù)集特點(diǎn)，設(shè)置訓(xùn)練參數(shù)：迭代次數(shù)300次，輸入圖片大小為640×640，batch-size為8，聚焦損失函數(shù)，標(biāo)簽平滑正則化設(shè)置為0.1。

從表3看出，加入CA注意力機(jī)制后的模型識(shí)別效果最好，與YOLOV5s相比提升了2%的mAP。這是源于CA不僅關(guān)注淺層和深層的特征圖之間信息重要性的不同，還關(guān)注了同一特征圖上不同位置的信息重要性的不同。這種方式會(huì)使模型訓(xùn)練時(shí)更加注重特征信息的不同。加入CA注意力模塊后模型訓(xùn)練結(jié)果如下：

表3 改進(jìn)后模型與YOLOV5s對(duì)比

從圖4可以看出，隨著訓(xùn)練次數(shù)的增多，模型很快收斂，訓(xùn)練集和測(cè)試集上的損失函數(shù)基本減小到10-2以下，準(zhǔn)確率達(dá)到了90%以上，mAP0.5最高達(dá)到0.91，與YOLOV5s相比，加入CA注意力機(jī)制后的模型mAP0.5提升了2%左右。

圖4 YOLOV5+CA注意力機(jī)制模型的訓(xùn)練結(jié)果

3 結(jié)論

本文的模型在YOLOV5s的基礎(chǔ)上加入CA注意力模塊，通過(guò)實(shí)驗(yàn)對(duì)比CA注意力機(jī)制對(duì)本文的學(xué)生課堂行為識(shí)別的效果最好，與原模型相比提升了2%左右的mAP。CA注意力機(jī)制效果最好的主要原因是因?yàn)?，CA不僅考慮通道的信息同時(shí)也考慮空間的信息，并認(rèn)為兩者是同樣重要的。模型在滿足識(shí)別準(zhǔn)確率的前提下，同時(shí)滿足對(duì)學(xué)生課堂行為識(shí)別實(shí)時(shí)性的要求，該算法的識(shí)別速度達(dá)到142/s，這完全滿足實(shí)時(shí)性的要求，可在學(xué)生課堂行為識(shí)別系統(tǒng)中應(yīng)用，實(shí)現(xiàn)對(duì)學(xué)生課堂聽(tīng)課水平，專(zhuān)注度的智能化處理，對(duì)獲取疫情下線上課堂學(xué)生學(xué)習(xí)狀態(tài)，為老師提供客觀的課堂數(shù)據(jù)提供有力支持。對(duì)大力發(fā)展人工智能尤其是深度學(xué)習(xí)與教育評(píng)價(jià)領(lǐng)域的融合發(fā)展具有重要意義。