倪照風(fēng) 馬原東 崔瀟 酈烜杰 楊秀璋 羅子江
摘 ?要: 該文首次將ResNet網(wǎng)絡(luò)的思想對復(fù)雜教室環(huán)境下的人物進(jìn)行多類別分類設(shè)計,改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu),有效解決了傳統(tǒng)基于像素特征的方法分類效果不理想的問題。實驗中通過卷積提取特征、不同感受野、保留像素間聯(lián)系、多層卷積級聯(lián)提取深層次特征等方法,在網(wǎng)絡(luò)訓(xùn)練過程中進(jìn)行參數(shù)調(diào)整,優(yōu)化算法和網(wǎng)絡(luò)參數(shù)來解決困難樣本的識別,將多類別的分類準(zhǔn)確率從83.5%提升到99.2%,并實現(xiàn)了多目標(biāo)檢測的11類樣本的判定。最終選取ResNet18_16來進(jìn)行高速有效的多類別識別。
關(guān)鍵詞: 姿態(tài)分類; ResNet網(wǎng)絡(luò); 卷積網(wǎng)絡(luò); 分類訓(xùn)練; 參數(shù)調(diào)整; 多類別識別
中圖分類號: TN926?34 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)12?0042?05
Abstract: The multiclass classification for the students in the complex classroom environment is designed with the idea of ResNet network, which improves the network structure, and effectively solves the problem that the classification effect is not ideal in the traditional method based on pixel feature. In the experiments, the convolution is used for the feature extraction, which adopts the different receptive fields, preserves the connections between pixels, uses the multilayer convolution cascade to extract the deep?seated features and other methods. The parameter adjustment is conducted in the network training process, and the algorithm and network parameters are optimized to identify the difficult samples, which increase the accuracy of multiclass classification from 83.5% to 99.2%, and realize the determination of 11 kinds of samples of multi?target detection. In this paper, Resnet18_16 is finally selected for the high?speed and effective multiclass recognition.
Keywords: gesture classification; ResNet network; convolution network; classification training; parameter adjustment; multiclass identification
0 ?引 ?言
面對復(fù)雜的教室環(huán)境、多類別的人物姿態(tài),神經(jīng)網(wǎng)絡(luò)[1]發(fā)展迅速,已出現(xiàn)在圖像分類方法中,卷積網(wǎng)絡(luò)表現(xiàn)出強大的特征提取能力。卷積采用局部感受野、權(quán)值共享,既能提取更深層次特征、保留像素之間聯(lián)系,也能減少參數(shù),提高訓(xùn)練速度。尼加提·卡斯木等人對沙漠腹地綠洲植物群落分布進(jìn)行分類,并與傳統(tǒng)方法進(jìn)行比較,發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)效果最優(yōu)[2]。閆河等人通過改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)來對網(wǎng)絡(luò)圖片進(jìn)行分類,證實卷積網(wǎng)絡(luò)結(jié)構(gòu)的有效性[3]。在網(wǎng)絡(luò)教學(xué)中,孫重亮采用了支持向量機和普通卷積網(wǎng)絡(luò)的辦法來對人體面部表情進(jìn)行識別[4],缺點是只能識別出單一目標(biāo)人物的學(xué)習(xí)狀態(tài),無法應(yīng)用在教室等多人復(fù)雜環(huán)境中,并且對學(xué)生的學(xué)習(xí)狀態(tài)分類較為單一,在6種類別判定下的實驗結(jié)果準(zhǔn)確率達(dá)到81.5%。陸嘉慧對表情專門研究,并指出表情識別存在的局限性[5]。
針對教室復(fù)雜環(huán)境下人物多類別分類的問題,本文基于ResNet網(wǎng)絡(luò)結(jié)構(gòu)的思想,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)來更加細(xì)化特征類別,保留像素之間的關(guān)聯(lián)性,提取深層次動作特征,并對復(fù)雜樣本做了詳盡標(biāo)注和分類,加入擴充了大量hard樣本,在11種類別判定下的分類準(zhǔn)確率達(dá)到99.2%。
1 ?ResNet網(wǎng)絡(luò)結(jié)構(gòu)
ResNet[6]網(wǎng)絡(luò)最開始是何凱明為解決訓(xùn)練中準(zhǔn)確率先飽和后降低的問題而提出,將residual learning的思想引入深度學(xué)習(xí)領(lǐng)域,這一網(wǎng)絡(luò)結(jié)構(gòu)解決了網(wǎng)絡(luò)退化的問題,避免了網(wǎng)絡(luò)結(jié)構(gòu)在很深時出現(xiàn)準(zhǔn)確率降低、性能下降等問題。本文基于圖1所示的網(wǎng)絡(luò)結(jié)構(gòu)重新設(shè)計了適用于復(fù)雜教室環(huán)境下的多目標(biāo)多類別識別場景,ResNet網(wǎng)絡(luò)采用卷積提取特征,實現(xiàn)了卷積核權(quán)值共享,計算量大大減少。ResNet在送入Block之前使用3×3替代原先的7×7卷積核,網(wǎng)絡(luò)參數(shù)減少為原先的[15];隨后pool層減小特征圖,使后續(xù)計算量大大減少。卷積之后的特征圖接入BN[7],歸一化特征數(shù)據(jù),接入激勵,增加非線性,激勵后的特征圖送入下一卷積,并在softmax[8]層輸出屬于每一類別的概率。
表1給出了改進(jìn)后的ResNet在復(fù)雜檢測場景下的檢測性能,與支持向量機[4]相比,具有多人物、多姿態(tài)、高準(zhǔn)確率等特點。
2 ?分類訓(xùn)練
2.1 ?制定復(fù)雜樣本的標(biāo)注標(biāo)準(zhǔn)
本文研究的數(shù)據(jù)集為上課教學(xué)視頻,為了檢測更加復(fù)雜情況下的人物姿態(tài),本文選取了多種類別的樣本及大量hard樣本。
1) 不同幀率下的視頻流樣本,包含不同人次的課堂(10人以內(nèi)教室,30人左右教室)。下載視頻,分析視頻信息,截取視頻(每秒約30幀)部分幀數(shù)據(jù),為防止每個人動作變化不明顯,采用每30 s截取一幀視頻。
2) 制定了11類樣本類別標(biāo)準(zhǔn),如表2所示。
3) 充分考慮不同類別樣本在周圍像素特征的影響,在標(biāo)注過程中會由于攝像機角度、光線、遮擋、時間等因素的影響,需要在制作樣本時充分考慮訓(xùn)練集的特征提取,對每種狀態(tài)都有其標(biāo)注準(zhǔn)則,并在制作數(shù)據(jù)集時考慮人物與人物之間的聯(lián)系。
4) 復(fù)雜hard樣本的擴充如圖2所示,其類別特征不明顯。圖2a)包含看書特征,但姿態(tài)特殊;圖2b)包含筆信息、臉部視線信息。對此類樣本進(jìn)行樣本擴充,如顏色增強、模糊、鏡像、仿射變換等。
根據(jù)嚴(yán)格標(biāo)準(zhǔn)對數(shù)據(jù)圖片進(jìn)行標(biāo)注,標(biāo)注效果如圖3所示。數(shù)據(jù)處理結(jié)果如圖4所示。
1) 訓(xùn)練集制作。本文數(shù)據(jù)采集于教學(xué)視頻,共289 053張照片,切圖過程中,圖片有一定的像素偏移,擴充至多張圖片。如圖4可知,book,writing數(shù)據(jù)最多,flat_A0,flat_A45,flat_A?45,nofocus_F次之,nofocus_B,sleepy,flat_90,flat_A?90最少,后期工作中根據(jù)訓(xùn)練結(jié)果考慮樣本均衡、數(shù)據(jù)擴充。訓(xùn)練結(jié)果中,較少樣本特征較為明顯,Writing,Book兩類特征差異較小,數(shù)據(jù)最多。
2) 測試集。保證圖像特征完整,切出xml坐標(biāo)圖片,共32 016張圖片。標(biāo)準(zhǔn)姿態(tài)如圖5所示。
圖5中,從左往右,從上到下分別是每種姿態(tài)對應(yīng)的標(biāo)準(zhǔn)圖片:Person,Writing,Book,Sleepy,Nofocus_F,Nofocus_B,F(xiàn)lat_A0,F(xiàn)lat_A45,F(xiàn)lat_?45,F(xiàn)lat_A90,F(xiàn)lat_A?90,Part。
3) 數(shù)據(jù)預(yù)處理。首先使用ffmpeg將視頻幀轉(zhuǎn)換為圖像數(shù)據(jù);然后使用軟件對圖片進(jìn)行標(biāo)注,標(biāo)注會給出每個框圖的坐標(biāo),根據(jù)xml標(biāo)注信息得到訓(xùn)練樣本;再依據(jù)圖像數(shù)據(jù)縮放金字塔[9];最后,經(jīng)數(shù)據(jù)擴充后處理成同一大小。
處理后的圖片如圖6所示。
標(biāo)注時需要兼顧書本和人物信息,由于坐姿不同,寬高比列不同,標(biāo)注框不是標(biāo)準(zhǔn)矩形框。為方便訓(xùn)練,處理成同一尺寸:
1) 以長邊為準(zhǔn),切圖,會出現(xiàn)一張圖片出現(xiàn)多人情況;
2) 短邊截取,出現(xiàn)額頭、手肘等部位信息丟失;
3) 雙線性內(nèi)插值縮放[10],圖像變形,但對特征提取影響較小。訓(xùn)練過程中選擇第3種切圖方式。
圖7a)為長邊截取,圖像內(nèi)出現(xiàn)多人,動作特征干擾;圖7b)為短邊截取,部分動作特征丟失。當(dāng)出現(xiàn)Person,Sleepy等寬高比較大姿態(tài),該情況更嚴(yán)重。特征缺失或者特征干擾均對訓(xùn)練進(jìn)行干擾,需盡可能避免該情況。
2.2 ?訓(xùn)練流程
參數(shù)設(shè)置:每次訓(xùn)練之前需要對訓(xùn)練過程中選擇初始學(xué)習(xí)率、學(xué)習(xí)率下降方式、下降步長等參數(shù),具體Solver文件配置參數(shù)如表3所示。
根據(jù)圖8的訓(xùn)練流程,遍歷圖片,送入模型測試,判斷Top1(最大概率屬于標(biāo)簽類別)是否準(zhǔn)確。
1) 檢查標(biāo)簽、GT位置,如果標(biāo)簽錯誤,人工修改,再訓(xùn)練;
2) 標(biāo)簽無錯,類別特征相近,對此類數(shù)據(jù)進(jìn)行模糊、顏色、像素偏移擴充,并設(shè)計更深卷積級聯(lián),提取深層次特征。
2.3 ?訓(xùn) ?練
本研究是在WIN7系統(tǒng),i7處理器,顯卡GTX970上進(jìn)行訓(xùn)練,批次256。通過設(shè)置輸入尺寸和特征通道,減小模型尺寸,降低對顯存需求,提高訓(xùn)練速度。
1) 數(shù)據(jù)輸入。數(shù)據(jù)輸入之前縮放處理成64×64。照片尺寸過大,增加計算量,照片太小無法充分提取所需特征。經(jīng)試驗,64×64可觀察出人物基本動作特征,符合訓(xùn)練特征需求。
2) ResNet訓(xùn)練。數(shù)據(jù)經(jīng)過第一層卷積和池化到達(dá)stage1,尺寸縮小為16×16,尺寸縮小[12],輸出的特征通道數(shù)增大1倍,這樣可以使特征圖在尺寸減小的前提下不會一次性丟失太多信息。池化層放在第一層卷積之后,去除最后全局池化,防止信息損失過多導(dǎo)致特征提取不充分。經(jīng)過殘差網(wǎng)絡(luò)的4個Stage,輸出特征圖為1×1×128。網(wǎng)絡(luò)越深,提取的特征越復(fù)雜。最后一層接全連接,全連接輸出送入Softmax計算得出概率,分析所屬類別。
2.4 ?訓(xùn)練結(jié)果分析
對分類結(jié)果采用準(zhǔn)確率(Accuracy)來表示:
式中:T為測試集分類準(zhǔn)確的數(shù)量;P為測試集總量。
在整個測試集中,統(tǒng)計識別出正確類別數(shù)量,與總數(shù)進(jìn)行計算,得出訓(xùn)練的準(zhǔn)確率,可分析出網(wǎng)絡(luò)模型性能。
圖9中顯示,當(dāng)初始學(xué)習(xí)率(Ir)=0.05,準(zhǔn)確率由0開始不斷上升,前期為保證跳出局部最優(yōu),選擇較大學(xué)習(xí)率,收斂速度較快,準(zhǔn)確率上升斜率較大。迭代一定次數(shù)后在0.89附近振蕩,隨后根據(jù)經(jīng)驗選擇合適下降學(xué)習(xí)率的迭代次數(shù),本文選擇40 000。當(dāng)Ir=0.005,迭代40 000次后下降一次數(shù)量級,網(wǎng)絡(luò)繼續(xù)收斂,準(zhǔn)確率提高,前期訓(xùn)練的學(xué)習(xí)率較大,下降數(shù)量級后有著較為明顯的提升,約10%。當(dāng)Ir>0.005,使用較小學(xué)習(xí)率進(jìn)行微調(diào),逐步提高準(zhǔn)確率。下降兩次數(shù)量級后,ResNet18_16網(wǎng)絡(luò)達(dá)到99.2%。
2.5 ?改進(jìn)ResNet性能比較
在相同數(shù)據(jù)訓(xùn)練集和測試集上,本文調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)的各項參數(shù)進(jìn)行實驗,具體如表4所示,表5、圖10給出不同網(wǎng)絡(luò)性能比較及準(zhǔn)確率比較結(jié)果。
1) 準(zhǔn)確率。隨著網(wǎng)絡(luò)層數(shù)加深、特征通道的增大,特征提取更充分,細(xì)節(jié)特征被提取,準(zhǔn)確率有著較為明顯的差距。通道一定的條件下,網(wǎng)絡(luò)越深,準(zhǔn)確率越高;網(wǎng)絡(luò)深度一定的條件下,特征通道越多,準(zhǔn)確率越高。圖10a)準(zhǔn)確率比較中,準(zhǔn)確率從83.5%提高到99.2%。
2) 速度。深度、特征通道的增大,帶來計算量的增加,訓(xùn)練檢測時間變長。實際應(yīng)用場景下造成數(shù)據(jù)流幀率的下降。
3) 模型尺寸。模型尺寸指訓(xùn)練結(jié)果中所有網(wǎng)絡(luò)參數(shù)組成的文件大小。訓(xùn)練過程中通過迭代,不斷學(xué)習(xí)參數(shù),卷積級聯(lián)越深、特征通道越多,需要學(xué)習(xí)的參數(shù)越多,導(dǎo)致模型尺寸增大。圖10b)中模型尺寸從最小的184.9 Kb增大到10 975 Kb,訓(xùn)練耗時,導(dǎo)致實際檢測幀率從30下降到10。
4) 模型參數(shù)計算。輸入通道×卷積核_W×卷積核_H* 輸出通道×字節(jié)。
實際投入使用時需要綜合考慮每一個網(wǎng)絡(luò)的各方面性能,ResNet18_16與ResNet18_32相比,時間減少約62%,幀率提高80%,模型尺寸減少[34],準(zhǔn)確率從99.3%降低為99.2%,雖降低約0.1%,但仍保持極高的準(zhǔn)確率。在后期的工程化設(shè)計中,會綜合考慮每個學(xué)生的整體上課情況,0.1%準(zhǔn)確率影響很小。因此,在綜合考慮速度、準(zhǔn)確率和模型尺寸的基礎(chǔ)上,實際投入使用時選用ResNet18_16。
3 ?結(jié) ?論
本文從人物特征的技術(shù)發(fā)展研究現(xiàn)狀出發(fā),提出基于卷積神經(jīng)網(wǎng)絡(luò)的新型ResNet網(wǎng)絡(luò)結(jié)構(gòu),首次將ResNet網(wǎng)絡(luò)用于教室人物姿態(tài)的多類別的分類。本文制定了11種分類標(biāo)準(zhǔn)來衡量不同人物姿態(tài)類別之間的特征差異。通過在數(shù)據(jù)訓(xùn)練中對網(wǎng)絡(luò)參數(shù)的不斷調(diào)整,最終采用ResNet18_16的網(wǎng)絡(luò)結(jié)構(gòu),使其在速度上滿足軟件使用要求,準(zhǔn)確率達(dá)到99.2%。優(yōu)化后的模型尺寸縮小很多,非常適用于實際系統(tǒng)。系統(tǒng)可實時監(jiān)控每位學(xué)生狀態(tài),并對此進(jìn)行分析、判斷、統(tǒng)計,進(jìn)而了解學(xué)生的上課狀態(tài),反映教學(xué)質(zhì)量,對此進(jìn)行評估,改進(jìn)教學(xué)方式,對提高教學(xué)質(zhì)量提供技術(shù)支持。
注:本文通訊作者為羅子江。
參考文獻(xiàn)
[1] 修麗娜,劉湘南.人工神經(jīng)網(wǎng)絡(luò)遙感分類方法研究現(xiàn)狀及發(fā)展趨勢探析[J].遙感技術(shù)與應(yīng)用,2003(5):339?345.
[2] 尼加提·卡斯木,師慶東,劉素紅,等.基于卷積網(wǎng)絡(luò)的沙漠腹地綠洲植物群落自動分類方法[J].農(nóng)業(yè)機械學(xué)報,2019,50(1):224?232.
[3] 閆河,王鵬,董鶯艷,等.改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)圖片分類識別方法[J].計算機應(yīng)用與軟件,2018(12):193?198.
[4] 孫重亮.網(wǎng)絡(luò)教學(xué)中的學(xué)習(xí)狀態(tài)與學(xué)習(xí)情緒識別方法研究[D].長春:吉林大學(xué),2018.
[5] 陸嘉慧,張樹美,趙俊莉.基于深度學(xué)習(xí)的面部表情識別研究[J].計算機應(yīng)用研究,2019(4):1?8.
[6] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision & Pattern Recognition Workshop. Honolulu: IEEE, 2016: 47?53.
[7] 楊真真,匡楠,范露,等.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法綜述[J].信號處理,2018(12):1474?1489.
[8] 陳鶴森.基于深度學(xué)習(xí)的細(xì)粒度圖像識別研究[D].北京:北京郵電大學(xué),2018.
[9] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [J]. Computer science, 2015(12): 21?24.
[10] 鄭偉民,葉承晉,張曼穎,等.基于Softmax概率分類器的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測[J].電力系統(tǒng)自動化,2019,43(9):150?160.
[11] HE K M, ZHANG X Y, REN S Q, et al. Identity mappings in deep residual networks [C]// 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 640?643.
[12] 馮陳定,李少波,姚勇,等.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)與動態(tài)衰減學(xué)習(xí)率的環(huán)境聲音識別算法[J].科學(xué)技術(shù)與工程,2019(1):177?182.
[13] 葛程,孫國強.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究[J].軟件導(dǎo)刊,2018(10):27?31.
[14] 毛麗,姬淵,董峽.HIS域中基于金字塔變換的影像縮放算法及實現(xiàn)[J].化工礦產(chǎn)地質(zhì),2005(2):109?113.
[15] 王平,全吉成,趙柏宇.基于雙線性插值的圖像縮放在GPU上的實現(xiàn)[J].微電子學(xué)與計算機,2016(11):129?132.