譚斌,楊書焓
(西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,成都 610039)
目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域的核心問題之一,而關(guān)于學(xué)生課堂行為檢測在教學(xué)評(píng)估中有著重要的意義。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的推出,越來越多的科研工作者將CNN用于各種目標(biāo)任務(wù)檢測,例如,王軍等[1]提出基于深度學(xué)習(xí)特征的異常行為檢測算法。本文的學(xué)生課堂行為檢測算法則是使用Ross B.Girshick[2]提出的Faster R-CNN算法?;贔aster R-CNN的學(xué)生課堂行為檢測算法將學(xué)生課堂行為分為三類即學(xué)習(xí)、睡覺、玩(玩手機(jī)、聊天等其他)。本文的圖像數(shù)據(jù)集是從真實(shí)的學(xué)生課堂監(jiān)控視頻中獲取而制作成的實(shí)驗(yàn)數(shù)據(jù)集。
Faster R-CNN大致分為兩個(gè)部分,一個(gè)定位目標(biāo),另一個(gè)則是對目標(biāo)進(jìn)行分類。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。利用網(wǎng)絡(luò)的特征提取功能對輸入的數(shù)據(jù)集經(jīng)過卷積和池化等操作得到圖像的特征圖(Feature Map);RPN(Region Proposal Network)網(wǎng)絡(luò)則在特征圖上定位候選目標(biāo),使用Softmax分類器來判別候選目標(biāo)屬于前景還是背景,同時(shí)利用范圍框回歸器修正候選目標(biāo)的位置,最終生成候選目標(biāo)區(qū)域。分類網(wǎng)絡(luò)利用特征圖和RPN網(wǎng)絡(luò)生成的候選區(qū)域?qū)崿F(xiàn)目標(biāo)類別的檢測,在本文中即實(shí)現(xiàn)學(xué)生課堂行為的的檢測,判別候選區(qū)域?qū)儆趯W(xué)生行為的哪一類。
圖1 Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)
學(xué)生課堂行為檢測與一般的行為檢測的區(qū)別在于,教室的學(xué)生課堂監(jiān)控視頻圖像區(qū)別于一般的視頻圖像,其不能獲取目標(biāo)的正面信息,存在一定角度差,同時(shí)由于實(shí)驗(yàn)室數(shù)據(jù)集的限制,增加了課堂監(jiān)控視頻中行為檢測的難度,所以采用深度學(xué)習(xí)的方法對目標(biāo)行為檢測以求達(dá)到理想的檢測識(shí)率。
本文所采用實(shí)驗(yàn)數(shù)據(jù)集真實(shí)的學(xué)生課堂監(jiān)控視頻,由于監(jiān)控設(shè)備性能的限制,視頻分辨率為1280(水平)×720(垂直)。監(jiān)控設(shè)備安裝在教室黑板左右兩端,采集到數(shù)據(jù)集均有一定傾斜角度,其中每個(gè)視頻中學(xué)生的數(shù)目為20到50個(gè)不等,考慮到學(xué)生在課堂行為變化有限,從視頻中以間隔2s取一幀圖像,經(jīng)過隨機(jī)抽取得到各個(gè)角度、不同教室的圖像集共計(jì)1000張,組成訓(xùn)練集[3]。
本文所有實(shí)驗(yàn)均在Caffe平臺(tái)上進(jìn)行,選取從視頻中經(jīng)過抽取的圖片作為訓(xùn)練樣本集,通過隨機(jī)分配原則將訓(xùn)練集送入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在訓(xùn)練好模型后,將測試集送入Faster R-CNN進(jìn)行測試,得到測試結(jié)果并加以分析。Faster R-CNN訓(xùn)練模型一般分為四步:第一步,用預(yù)訓(xùn)練模型model初始化RPN網(wǎng)絡(luò),緊接著訓(xùn)練RPN,訓(xùn)練完成后,會(huì)更新model和RPN的權(quán)值。第二步,在model初始化Fast R-CNN后,使用第一步的RPN來計(jì)算而得到proposal訓(xùn)練Fast R-CNN,訓(xùn)練完成后,會(huì)更新model和Fast R-CNN的權(quán)值。第三步,用第二步的model初始化RPN并訓(xùn)練RPN,訓(xùn)練過程固定model的參數(shù),會(huì)更新RPN的權(quán)值。第四步,仍然固定第三步的model,再次對Fast R-CNN訓(xùn)練,即微調(diào)參數(shù),訓(xùn)練完畢得到Faster R-CNN。本次實(shí)驗(yàn)每步的迭代次數(shù)如表1所示[4]。
表1 Faster R-CNN訓(xùn)練過程的迭代次數(shù)
本算法訓(xùn)練后網(wǎng)絡(luò)模型參數(shù)如圖2所示,圖中顯示了三種學(xué)生課堂監(jiān)控視頻中的學(xué)生不同行為的MAP值,反映了模型的訓(xùn)練的效果;由于數(shù)據(jù)量的限制,其MAP值不是很高。本算法Faster R-CNN算法訓(xùn)練的模型為端到端訓(xùn)練,各個(gè)網(wǎng)絡(luò)的階段的迭代次數(shù)根據(jù)訓(xùn)練集的大小加以修改,同時(shí),本算法訓(xùn)練的是ZFNet模型,該網(wǎng)絡(luò)所需顯存比VGG小,同時(shí)準(zhǔn)確率相差不大,但訓(xùn)練速度更快。
針對真實(shí)的學(xué)生課堂監(jiān)控視頻,我們從開始的數(shù)據(jù)準(zhǔn)備,到數(shù)據(jù)處理,以及后面修改訓(xùn)練參數(shù),訓(xùn)練網(wǎng)絡(luò)模型,設(shè)計(jì)訓(xùn)練集和驗(yàn)證集的比例。
圖2 訓(xùn)練結(jié)果
圖3 學(xué)生課堂“玩”的行為
圖4 學(xué)生課堂“學(xué)習(xí)”的行為
圖5 學(xué)生課堂“睡覺”的行為
由實(shí)驗(yàn)結(jié)果可看出網(wǎng)絡(luò)對學(xué)生睡覺行為的識(shí)別率較低,對其他2種類型的行為都有較好的檢測率。造成睡覺行為的檢測率較低的原因可能是在原始的圖像訓(xùn)練集中,學(xué)生有睡覺行為的人數(shù)較少,同時(shí)所采集的圖像序列中有睡覺行為的學(xué)生的圖片相應(yīng)減少,導(dǎo)致模型訓(xùn)練時(shí),不能從訓(xùn)練集提取到足夠的睡覺行為的特征。
在學(xué)生課堂行為檢測中,原始圖像被用作整個(gè)網(wǎng)絡(luò)輸入。在傳統(tǒng)的行為檢測算法中,避免了特征提取的過程。這些特征是由網(wǎng)絡(luò)自動(dòng)從訓(xùn)練數(shù)據(jù)集中提取出來的。區(qū)域建議網(wǎng)絡(luò)(RPN)被用來產(chǎn)生一個(gè)高效和準(zhǔn)確的建議提案。在每個(gè)圖像中,所提出的方法定位行為檢測區(qū)域并直接識(shí)別該行為方式。由于實(shí)驗(yàn)室數(shù)據(jù)集數(shù)量的限制、前期行為標(biāo)記的準(zhǔn)確度以及數(shù)據(jù)對象角度變化,都給實(shí)驗(yàn)的檢測率造成了影響,實(shí)驗(yàn)結(jié)果表明,F(xiàn)aster R-CNN能夠有效檢測到學(xué)生課堂監(jiān)控視頻中學(xué)生行為,得了良好的檢測識(shí)別效果。