孫帥成 徐春融 劉瑞明
摘? 要:近年來(lái),對(duì)于專(zhuān)注度的判斷重視程度越來(lái)越高,針對(duì)人工觀察、問(wèn)卷調(diào)查等方法效率低下、實(shí)時(shí)性差等問(wèn)題,該文結(jié)合機(jī)器視覺(jué)技術(shù)設(shè)計(jì)了一種專(zhuān)注度識(shí)別方法,在VGG-16的基礎(chǔ)上進(jìn)行改進(jìn)并結(jié)合抬頭平視率,同時(shí)在GT數(shù)據(jù)庫(kù)的基礎(chǔ)上進(jìn)行專(zhuān)注判別分類(lèi),構(gòu)建了用于專(zhuān)注度識(shí)別的數(shù)據(jù)庫(kù),提高了專(zhuān)注度識(shí)別的準(zhǔn)確性和實(shí)時(shí)性,育有廣闊的應(yīng)用前景和市場(chǎng)需求。
關(guān)鍵詞:專(zhuān)注度? 機(jī)器視覺(jué)? VGG? 抬頭率
中圖分類(lèi)號(hào):TP391? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3791(2021)05(b)-0030-03
Abstract: In recent years, more and more attention has been paid to the judgment of concentration. Aiming at the problems of low efficiency and poor real-time performance of manual observation and questionnaire surveys, this paper combines machine vision technology to design a concentration recognition method. Improved on the basis and combined with the head-up head-up rate, and at the same time, the focus discrimination classification is performed on the basis of the GT database, and a database for concentration recognition is constructed, which improves the accuracy and real-time performance of concentration recognition, and has broad application prospects and market demand.
Key Words: Attentiveness; Machine vision; VGG; Head-up rate
1? 專(zhuān)注度
專(zhuān)注度指的是被測(cè)人員在完成目標(biāo)任務(wù)時(shí)的注意力集中程度[1],高專(zhuān)注度一般有4個(gè)特點(diǎn):第一個(gè)是具有指向性,高專(zhuān)注狀態(tài)時(shí)被測(cè)人員對(duì)于目標(biāo)事物的注意力大大增加,從而主動(dòng)忽略其他事件的干擾;第二個(gè)是具有集中性,人的精力和體力隨著高專(zhuān)注狀態(tài)的時(shí)間增加而減少,集中注意力更有利于專(zhuān)注度的提高;第三個(gè)是具有持續(xù)性,當(dāng)被測(cè)人員處于高專(zhuān)注度狀態(tài)時(shí),不容易被外在事物所干擾,具有一定的持續(xù)性;第四個(gè)是具有交替性,當(dāng)長(zhǎng)時(shí)間處于高專(zhuān)注度狀態(tài)時(shí),人的體能和狀態(tài)會(huì)下降,在高專(zhuān)注度中間穿插一定的放松時(shí)間,有助于延長(zhǎng)整體的高專(zhuān)注時(shí)間[2]。
對(duì)于專(zhuān)注度狀態(tài)的檢測(cè),主要體現(xiàn)在人臉上,主要特征如下:第一,當(dāng)人處于高專(zhuān)注度狀態(tài)時(shí),面部表情變化減少,集中性增強(qiáng);第二,人臉面對(duì)目標(biāo)事物,肢體動(dòng)作減少,眼神跟隨目標(biāo)事物移動(dòng)。
2? 專(zhuān)注度檢測(cè)
該研究的專(zhuān)注度檢測(cè)包含兩個(gè)部分:第一部分為抬頭平視率的檢測(cè),以大部分人的行為作為高專(zhuān)注度意向,當(dāng)抬頭屬于高專(zhuān)注度意向時(shí),判定低頭為低專(zhuān)注度狀態(tài);第二部分為基于改進(jìn)VGG的專(zhuān)注度檢測(cè),對(duì)第一部分中抬頭為高專(zhuān)注度狀態(tài)時(shí)的抬頭人員進(jìn)行進(jìn)一步的專(zhuān)注度狀態(tài)檢測(cè)。具體流程圖如圖1所示。
2.1 抬頭平視率
在同一環(huán)境中,某一時(shí)刻抬頭平視前方的比例超過(guò)50%則認(rèn)為抬頭狀態(tài)為高專(zhuān)注度狀態(tài)[3]。對(duì)輸入的圖像進(jìn)行人臉五官矩形定位,以矩形中心點(diǎn)作為基準(zhǔn)點(diǎn),建立眼-鼻三角模型,如圖2所示。
由坐標(biāo)可得角C的余弦值,當(dāng)被測(cè)人員低頭時(shí),角C角度減小,cosC增大,進(jìn)過(guò)實(shí)驗(yàn)分析,當(dāng)角C處于60°~66°時(shí),處于抬頭平視的狀態(tài),選取cosC=0.4和cosC=0.5作為閾值,進(jìn)行抬頭平視率的計(jì)算。
2.2 基于VGG網(wǎng)絡(luò)模型的改進(jìn)
VGG網(wǎng)絡(luò)最早由Oxford Visual Geometry Group于2014年提出[4],增加了網(wǎng)絡(luò)模型的深度,它的特征提取器由卷積層和池化層反復(fù)疊加組成,利用現(xiàn)代計(jì)算機(jī)的高算力實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)性能的提升,但是極大地增加了計(jì)算機(jī)的計(jì)算量,僅全連接層權(quán)重?cái)?shù)量就超過(guò)了1.3億個(gè)[5]。
該文在VGG-16的基礎(chǔ)上,結(jié)合實(shí)際采集的圖像的大小,在保證準(zhǔn)確率的情況下,特征提取網(wǎng)絡(luò)進(jìn)行了改進(jìn),減少了卷積層的層數(shù),并使用全局平均池化層代替了原有的全連接層,減少了參數(shù)的數(shù)量,降低了計(jì)算量,具體情況見(jiàn)圖3。
該文中使用的圖片為預(yù)處理后尺寸歸一為512×512×3的圖片,改進(jìn)后的特征提取網(wǎng)絡(luò)由10個(gè)卷積層和4個(gè)池化層組成,分為4層:前兩層為都為兩個(gè)卷積核的卷積層和一個(gè)最大池化層疊加而成,第一層的卷積層卷積核數(shù)量為64個(gè),第二層為128個(gè);后二層為3個(gè)3×3卷積核的卷積層接一個(gè)最大池化層組合而成,卷積核數(shù)量分別為256個(gè)和512個(gè);該方法中使用了全局平均池化層代替全鏈接層,全局平均池化層就是將上層輸入的每個(gè)像素值都進(jìn)行累加求平均的計(jì)算,以最終的計(jì)算值作為輸出,大大減少了神經(jīng)網(wǎng)絡(luò)的參數(shù)權(quán)重,降低了計(jì)算量的同時(shí)也解決了過(guò)擬合情況,提高了訓(xùn)練效率。
3? 訓(xùn)練
目前國(guó)內(nèi)外還沒(méi)有專(zhuān)門(mén)對(duì)于人臉專(zhuān)注度檢測(cè)的數(shù)據(jù)庫(kù),該文在原有的GT數(shù)據(jù)庫(kù)[6]的基礎(chǔ)上,對(duì)圖像進(jìn)行了數(shù)據(jù)歸一化處理,并選取了10名志愿者(包括教師和學(xué)生)對(duì)每張圖片的專(zhuān)注度進(jìn)行0~10分的打分,高于5分則認(rèn)為該圖片為高專(zhuān)注度狀態(tài),最后對(duì)總體的評(píng)分進(jìn)行計(jì)算,取大多數(shù)人的專(zhuān)注度意見(jiàn)為該圖片的最終專(zhuān)注度評(píng)分,建立了專(zhuān)注度標(biāo)簽,構(gòu)建了人臉專(zhuān)注度圖像數(shù)據(jù)庫(kù),用于專(zhuān)注度檢測(cè)。數(shù)據(jù)庫(kù)由50名志愿者每人15張共750張圖片,包含了雜亂背景下每名志愿者低頭、抬頭、閉眼、哈欠等不同狀態(tài),其中高專(zhuān)注度人臉圖片570張,低專(zhuān)注度人臉圖片180張。將兩類(lèi)圖片分別輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測(cè)試,測(cè)試結(jié)果準(zhǔn)確率為91%,驗(yàn)證了該方法的可行性。
4? 結(jié)語(yǔ)
隨著時(shí)代的發(fā)展,對(duì)于專(zhuān)注度的研究會(huì)越來(lái)越深入,在計(jì)算機(jī)計(jì)算能力的飛速提升之下,對(duì)于專(zhuān)注度狀態(tài)的自動(dòng)判別的準(zhǔn)確度也會(huì)越來(lái)越高,未來(lái)對(duì)于專(zhuān)注度的應(yīng)用也會(huì)越來(lái)越廣。該方法還有許多值得改進(jìn)的地方:第一,對(duì)于人臉專(zhuān)注度檢測(cè)圖像的數(shù)據(jù)庫(kù)的圖片數(shù)量和種類(lèi)的擴(kuò)大,該方法使用的為國(guó)外人臉,可以添加亞洲人臉增加識(shí)別范圍,提高識(shí)別準(zhǔn)確率;第二,增加語(yǔ)音識(shí)別技術(shù),在課堂討論等學(xué)生非直面攝像頭時(shí),人臉識(shí)別檢測(cè)專(zhuān)注度效果下降,增加語(yǔ)音識(shí)別技術(shù)能更好地反映學(xué)生專(zhuān)注度狀態(tài)。
參考文獻(xiàn)
[1] 吳任.專(zhuān)注力管理:論專(zhuān)注力的培養(yǎng)和提升[J].科學(xué)咨詢(科技·管理),2020(10):40-41.
[2] 魯月園,張軍,白鈺,等.大學(xué)生專(zhuān)注力與時(shí)間管理傾向的關(guān)系研究[J].承德醫(yī)學(xué)院學(xué)報(bào),2021,38(1):88-90.
[3] 段巨力.基于機(jī)器視覺(jué)的學(xué)生上課專(zhuān)注度的分析評(píng)測(cè)系統(tǒng)[D].浙江工商大學(xué),2018.
[4] 陳津徽,張?jiān)?,尹澤?基于改進(jìn)的VGG19網(wǎng)絡(luò)的面部表情識(shí)別[J].電腦知識(shí)與技術(shù),2020,16(29):187-188.
[5] 張睆.基于模型視覺(jué)假體中圖像識(shí)別算法的硬件實(shí)現(xiàn)[D].西安理工大學(xué),2020.
[6] FENG Q,YUAN C,PAN J S,et al.Superimposed Sparse Parameter Classifiers for Face Recognition[J].IEEE transactions on cybernetics,2016,47(2):378-390.