李森林 彭小寧
(懷化學(xué)院計算機科學(xué)與工程學(xué)院,湖南 懷化 418000)
基于深度神經(jīng)網(wǎng)絡(luò)CNN的學(xué)生聽課狀態(tài)應(yīng)用研究
李森林 彭小寧
(懷化學(xué)院計算機科學(xué)與工程學(xué)院,湖南 懷化 418000)
目前,大學(xué)生上課玩手機不再是個別現(xiàn)象,而授課老師在專注授課時又難以及時察覺和制止。對此,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的學(xué)生聽課狀態(tài)應(yīng)用。對拍攝獲取的學(xué)生頭像狀態(tài)由網(wǎng)絡(luò)模型自動識別并分析學(xué)生聽課情況,低頭族為疑似看手機對象或不在聽課狀態(tài)。課后,經(jīng)由班主任進行針對性談話了解情況并給予指導(dǎo),以提高教學(xué)效果。
聽課狀態(tài);深度學(xué)習(xí);卷積網(wǎng)絡(luò)
隨著智能手機的出現(xiàn),大學(xué)生對手機產(chǎn)生了一種迷戀狀態(tài),無論課內(nèi)課外,重點大學(xué)還是高職院校,人手一機,機不離手成為了大學(xué)生的常態(tài)。尤其課堂上部分學(xué)生不自覺或自制力差,出現(xiàn)玩手游或聊天等行為,并且這種現(xiàn)象呈蔓延的趨勢,而授課老師在專注教學(xué)的情況下,又難以及時察覺和制止,嚴重影響了課堂教學(xué)效果,不利于大學(xué)生的身心和智力發(fā)展。這種情況與用智能手機實現(xiàn)碎片化學(xué)習(xí)目標背道而馳。為此,大學(xué)有責(zé)任和義務(wù)進行解決,深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一種深度學(xué)習(xí)模型,在圖像識別領(lǐng)域取得了顯著成果[1],這方面的研究已非常成熟。論文從CNN架構(gòu)研究入手,全面分析研究了卷積神經(jīng)網(wǎng)絡(luò)的原理、實現(xiàn)與學(xué)生聽課狀態(tài)的應(yīng)用。
早期的神經(jīng)網(wǎng)絡(luò)發(fā)源于感知器,對于單個神經(jīng)元的感知器輸入數(shù)據(jù)為x1,x2...xn,那么感知器的輸出為output=f(x1*w1+x2*w2...xn*wn)-b,其中wi為連接權(quán)值,b為偏置,f(x)為激活函數(shù),一般為signoid。由神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò)BP一般為三層結(jié)構(gòu):輸入層、隱含層和輸出層。訓(xùn)練方式為前向計算和反向計算兩個過程。前向計算是對輸入數(shù)據(jù)進行逐層處理,對網(wǎng)絡(luò)輸出值與標簽數(shù)據(jù)進行比較,根據(jù)差值再進行反向逐層調(diào)節(jié)權(quán)值w和偏置b,這種調(diào)節(jié)方法為隨機梯度下降方法[2],反復(fù)迭代直至符合設(shè)置的條件為止。CNN是基于神經(jīng)網(wǎng)絡(luò)和反向傳播理論創(chuàng)建的一種重點應(yīng)用于圖像處理的深度學(xué)習(xí)架構(gòu)之一。20世紀90年代,LeCun et al.等人[3]確立了CNN的現(xiàn)代結(jié)構(gòu),他們設(shè)計了基于mnist的分類模型LeNet-5。2006年,Krizhevsky et al[4]提出了一個更加經(jīng)典的AlexNet CNN架構(gòu),致使圖像識別率效果極為顯著,甚至超過了人類的圖像識別能力。
CNN含有三種類型的神經(jīng)網(wǎng)絡(luò)層:
(1)卷積層:學(xué)會識別輸入數(shù)據(jù)的特性表征;(2)池化層:簡化數(shù)據(jù)的特性表征;(3)全連接層:將卷積層和池化層堆疊形成一層或多層全連接層,實現(xiàn)分類。如圖1所示,c為卷積層,s為采樣層,flat為平鋪向量化,h為隱層。
圖1 卷積神經(jīng)網(wǎng)絡(luò)示意圖
CNN網(wǎng)絡(luò)的卷積層是提取數(shù)據(jù)特性表征的關(guān)鍵層,在輸入圖像后,通過一系列的過濾器(也稱卷積核)對圖像數(shù)據(jù)進行局部感知過濾獲取關(guān)鍵特征。這種局部感知能力是卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵技術(shù)之一,由于CNN中每一層神經(jīng)元只是和上層的局部區(qū)域相連,有效地解決了高維數(shù)據(jù)連接參數(shù)較多、難以訓(xùn)練的缺點。在這種局部感知區(qū)域間特征過濾時,需要考慮深度、步長和填充值[5],這些參數(shù)決定了輸出的特征維度。CNN另一個關(guān)鍵技術(shù)是參數(shù)共享,這將大大降低網(wǎng)絡(luò)訓(xùn)練的計算復(fù)雜度和參數(shù)個數(shù)。
對于每一個卷積層的特征通過卷積核進行卷積激活后,就可以得到該層的輸出特征。計算公式為:,其中f(x)為激活函數(shù)。采樣層的目的是減少映射特征維度,操作函數(shù)為,對于采用數(shù)據(jù)都進行了加權(quán)系數(shù)和偏置。最后進行特征平鋪構(gòu)成線性數(shù)據(jù)輸入到softmax的多線性分類模型。CNN模型采用的梯度計算方法與反向傳播網(wǎng)絡(luò)類似,對于卷積層梯度計算,每層神經(jīng)元的權(quán)值更新需要對應(yīng)的靈敏度δ,其計算公式為,up操作為Kronecher乘積所得。
CNN在卷積層和子采樣層的訓(xùn)練,主要包括:(1)前向傳播過程:下采樣每個卷積層的maps;(2)反向傳播過程:上采樣高層子采樣層的靈敏度map,以匹配底層的卷積層輸出maps的大??;(3)sigmoid的運用和求導(dǎo)。
具體步驟如下:
(1)網(wǎng)絡(luò)初始化
CNN的初始化主要是初始化卷積層和輸出層的卷積核(權(quán)重)和偏置,系統(tǒng)里對卷積核和權(quán)重進行隨機初始化,對偏置進行全0初始化。
(2)前向傳輸計算
a.輸入層:輸入層沒有輸入值,輸出向量的大小就是圖片的大小。
b.卷積層:卷積層的輸入來源于輸入層或者采樣層。其中每一個map都有一個大小相同的卷積核。
c.采樣層:采樣層是對上一層map的相鄰小區(qū)域進行聚合統(tǒng)計。
(3)反向傳輸調(diào)整權(quán)重
反向傳輸過程從宏觀上來看基本思想跟BP一樣,是通過最小化殘差來調(diào)整權(quán)重和偏置,文獻[1]進行了詳細講述。
(4)輸出層的殘差
輸出層的殘差是輸出值與類標值的誤差值,而中間各層的殘差來源于下一層的殘差的加權(quán)和。
(5)下一層為采樣層的卷積層的殘差
當一個卷積層L的下一層(L+1)為采樣層,根據(jù)采樣層的殘差,計算該卷積層的殘差。但是采樣層(L+1)的map大小是卷積層L的1/(scale*scale),兩層的map個數(shù)是一樣的,可以對采樣層的殘差與一個scale*scale的全1矩陣進行克羅內(nèi)克積擴充,達到維度一致。
實驗環(huán)境為安裝了Anaconda2(64)計算機系統(tǒng)的Spyder集成平臺,用Python語言開發(fā),對CNN模型進行編程實現(xiàn),建立了基于CNN的圖像識別模型,獲取的特征結(jié)果如圖2所示,分別為截取了3個人的頭像行為特征,樣例預(yù)測錯誤率如表1所示,可以看出正例和負例錯誤率都在百分之十以上,實驗中的樣本為正例和負例,即看手機狀態(tài)和聽課狀態(tài),對看手機狀態(tài)學(xué)生預(yù)測為聽課狀態(tài)的比率為18.23%,反之,把聽課狀態(tài)的學(xué)生預(yù)測為看手機狀態(tài)的比率為19.57%,說明自己建立的模型還有待完善和修正,這是下一步需要深度研究的內(nèi)容。
表1 預(yù)測誤差率
圖2 圖像特征提取
圖像識別是計算機人工智能的視覺識別的重要領(lǐng)域之一,通過研究人員的努力取得了豐碩的成果。論文總結(jié)和研究了CNN模型的實現(xiàn),把該模型應(yīng)用于學(xué)生課堂狀態(tài)自動檢測領(lǐng)域,根據(jù)學(xué)生聽課圖像由模型自動識別檢測出學(xué)生玩手機行為,進而反饋給上課老師,以便對這些學(xué)生進行交流溝通,進一步提高教學(xué)效果。該方法是解決當前大學(xué)生課堂上看手機行為的解決辦法之一。
[1]Lawrence S,Giles C L,Tsoi A C,et al.Face recognition:A convolutional neural-network approach[J].IEEE transactions on neural networks,1997,8(1):98-113.
[2]趙志宏,楊紹普,馬增強.基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識別研究[J].系統(tǒng)仿真學(xué)報,2010(3):638-641.
[3]Krizhevsky A,Sutskever I,Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[4]Ji S,Xu W,Yang M,et al.3D convolutional neural networks for human action recognition[J].IEEE transactions on pattern analysis and machine intelligence,2013,35(1):221-231.
[5]Vedaldi A,Lenc K.Matconvnet:Convolutional neural networks for matlab[C]//Proceedings of the 23rd ACM international conference on Multimedia.ACM,2015:689-692.
Application of Deep CNN in the Class Status of Students
Li Senlin Peng Xiaoning
(School of Computer Science and Engineering,Huaihua University,Huaihua 418000,Hunan)
At present,playing with mobile phones in the class is no longer an individual phenomenon for college students,and most teachers cannot be aware and stop it in time due to the focus on teaching.This paper proposes the application of convolution neural network model in class status for students.The state of students obtained by shooting is automatically recognized by network model and the listening status is identified.After class,teachers can give some guidance to the students purposely,to improve the teaching effects.
class status;deep learning;convolutional neural networks
TP183
A
1008-6609(2017)10-0035-03
李森林(1973-),男,河北邯鄲人,碩士,講師,研究方向為機器學(xué)習(xí)、操作系統(tǒng)。
懷化學(xué)院科研資助項目,項目編號:hhuy2016-3。