梁海軍, 劉長(zhǎng)炎, 陳寬明, 孔建國(guó)
(中國(guó)民用航空飛行學(xué)院空中交通管理學(xué)院, 廣漢 618300)
隨著民航業(yè)的迅猛發(fā)展,航線數(shù)量和飛機(jī)架次增多,扇區(qū)復(fù)雜度增大,空中交通管制員(簡(jiǎn)稱(chēng)管制員)的工作負(fù)荷越來(lái)越大,在崗疲勞也越來(lái)越成為影響民航安全的重大問(wèn)題。2014年,東航MU2528航班在武漢進(jìn)近階段聯(lián)系塔臺(tái)時(shí)因管制員睡崗,被迫復(fù)飛。2016年,上海虹橋機(jī)場(chǎng)塔臺(tái)管制員由于疲勞導(dǎo)致前后管制指令沖突,致使起飛和穿越跑道的飛機(jī)同時(shí)使用跑道,造成A類(lèi)跑道侵入事件。2019年,靳慧斌等[1]提出應(yīng)用支持向量機(jī)模型融合多生理參數(shù)和眼動(dòng)指標(biāo)構(gòu)建疲勞檢測(cè)模型,識(shí)別正常組與剝奪睡眠組的準(zhǔn)確率為94.2%。Zhao等[2]提出了一種卷積神經(jīng)網(wǎng)絡(luò)EM-CNN(eyes and mouth-convolution neural network),從ROI(region of interest)圖像中檢測(cè)眼睛和嘴部狀態(tài),算法性能優(yōu)于基于VGG16、InceptionV3、AlexNet等算法,準(zhǔn)確率和靈敏率分別為93.623%和93.643%。馮文文等[3]提出將中心損失函數(shù)加入到softmax損失中,優(yōu)化了其在深度卷積網(wǎng)絡(luò)中類(lèi)內(nèi)間距大的問(wèn)題,提高了臉部疲勞狀態(tài)識(shí)別準(zhǔn)確率。鄭文倩[4]提出將MTCNN(multi-task cascaded convolutional networks)算法與改進(jìn)的基于判別式尺度空間跟蹤算法相結(jié)合的方法進(jìn)行面部檢測(cè)和關(guān)鍵點(diǎn)定位,采用基于MobileNet V2算法判定眼睛和嘴部狀態(tài),通過(guò)PERCLOS(percentage of eyelid closure over the pupil over time)值、眨眼頻率、閉眼時(shí)間和哈欠頻率等疲勞指標(biāo)綜合判斷駕駛員是否疲勞。徐蓮等[5]針對(duì)光照和頭部姿態(tài)影響檢測(cè)精度問(wèn)題,提出將Gabor特征和LBP(local binary pattern)特征遷移到卷積神經(jīng)網(wǎng)絡(luò)中,并在實(shí)時(shí)檢測(cè)中加入眼睛篩選機(jī)制,提高了檢測(cè)準(zhǔn)確率和速率。Xiao等[6]提出了一種利用駕駛員眼睛的時(shí)空特征來(lái)檢測(cè)駕駛員疲勞狀態(tài)的方法,首先通過(guò)深度卷積層學(xué)習(xí)空間特征,然后通過(guò)長(zhǎng)短期記憶單元分析相鄰幀之間的關(guān)系,最后,用搭建的模型對(duì)駕駛狀態(tài)進(jìn)行檢測(cè),達(dá)到了96.12%的準(zhǔn)確率。胡習(xí)之等[7]通過(guò)優(yōu)化SSD(single shot multi box detector)人臉區(qū)域定位方法,提高了對(duì)光線變化,背景相似干擾的魯棒性。而隨著深度學(xué)習(xí)的快速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)被廣泛用于機(jī)器視覺(jué)領(lǐng)域,但目前針對(duì)管制員特定管制情景下的疲勞檢測(cè)還較少,而且檢測(cè)準(zhǔn)確率和模型大小矛盾仍然存在,檢測(cè)準(zhǔn)確率仍提高,為解決以上兩個(gè)問(wèn)題,達(dá)到準(zhǔn)確及時(shí)的檢測(cè)管制員疲勞狀態(tài)的目的,在遷移學(xué)習(xí)的基礎(chǔ)上搭建了基于DCNN(deep convolutional neural network)的管制員疲勞檢測(cè)模型,更精確及時(shí)的提取眼睛小像素圖片特征,判定管制員疲勞狀態(tài)。
針對(duì)管制員在崗疲勞問(wèn)題,目前研究大多選用在ImageNet的比賽上分類(lèi)任務(wù)中表現(xiàn)出色的VGG16模型、Inception V3模型和ResNet50模型對(duì)眼部圖像進(jìn)行特征提取并分類(lèi),根據(jù)眼部狀態(tài)將圖像標(biāo)記為0(閉眼)和1(睜眼)兩類(lèi)。王軍等[8]利用遷移學(xué)習(xí)的VGG16模型和ResNet50模型提取面部圖像中表情特征,最后對(duì)VGG16和ResNet50的輸出進(jìn)行加權(quán)融合進(jìn)行表情識(shí)別,與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型相比,有效提高了面部遮擋情況下的表情識(shí)別精度。Cheng等[9]以VGG19模型為基礎(chǔ)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行了優(yōu)化,采用遷移學(xué)習(xí)技術(shù)克服了圖像訓(xùn)練樣本不足,該網(wǎng)絡(luò)模型對(duì)人臉表情識(shí)別的準(zhǔn)確率達(dá)96%。本文中搭建DCNN模型用于眼部狀態(tài)的檢測(cè)。疲勞檢測(cè)流程如圖1所示。首先將視頻圖像通過(guò)MTCNN檢測(cè)出管制員的人臉,同時(shí)獲得左右眼睛的坐標(biāo),然后獲取待檢測(cè)的左右眼圖像,使用訓(xùn)練好的DCNN眼部狀態(tài)分類(lèi)模型判斷眼部的睜閉合狀態(tài),最后通過(guò)PERCLOS標(biāo)準(zhǔn)判斷管制員是否疲勞。
圖1 疲勞檢測(cè)流程圖Fig.1 Flow chart of fatigue detection
人臉檢測(cè)和特征點(diǎn)定位是疲勞狀態(tài)識(shí)別的關(guān)鍵部分,在實(shí)際復(fù)雜的管制環(huán)境內(nèi),由于進(jìn)近和區(qū)域管制員需要實(shí)時(shí)關(guān)注雷達(dá)屏幕上的飛機(jī)動(dòng)態(tài),而且管制室內(nèi)為保證管制員能看清雷達(dá)屏幕,故燈光較暗,目前傳統(tǒng)的基于統(tǒng)計(jì)學(xué)習(xí)分類(lèi)器的人臉檢測(cè)方法和單一的CNN已經(jīng)不能很好地滿(mǎn)足人臉檢測(cè)和人臉關(guān)鍵點(diǎn)定位的要求。MTCNN能夠同時(shí)將人臉檢測(cè)和人臉關(guān)鍵點(diǎn)定位結(jié)合起來(lái),而定位的人臉關(guān)鍵點(diǎn)又可以用來(lái)實(shí)現(xiàn)人臉校正[10]。
MTCNN算法由3個(gè)階段組成,如圖2所示。
圖2 MTCNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 MTCNN network structure chart
第一階段為P-Net卷積神經(jīng)網(wǎng)絡(luò),獲得候選窗體和邊界回歸向量。根據(jù)邊界框?qū)蜻x窗體進(jìn)行校準(zhǔn),利用非極大值抑制算法去除重疊窗口。
第二階段為R-Net卷積神經(jīng)網(wǎng)絡(luò),將經(jīng)過(guò)P-Net確定的包含候選窗體的圖片在R-Net網(wǎng)絡(luò)中訓(xùn)練,并使用全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)。利用邊界框向量微調(diào)候選窗體和非極大值抑制算法去除重疊窗體。
第三階段為O-Net卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)功能與R-Net類(lèi)似,在去除重疊候選窗口的同時(shí)標(biāo)定5個(gè)人臉關(guān)鍵點(diǎn)的位置。
人臉檢測(cè)和關(guān)鍵點(diǎn)定位可表示為
(face,L-eye,R-eye)=MTCNN(image)
(1)
式(1)中:face為檢測(cè)的人臉邊界框坐標(biāo);L-eye、R-eye分別表示左眼和右眼的點(diǎn)坐標(biāo);image為待檢測(cè)的視頻圖像。
1.2.1 遷移學(xué)習(xí)
針對(duì)目前管制員面部數(shù)據(jù)較少,難以收集足夠的訓(xùn)練數(shù)據(jù)來(lái)重新建立模型的問(wèn)題,遷移學(xué)習(xí)的目的是將知識(shí)從一個(gè)稱(chēng)為源域的大數(shù)據(jù)集轉(zhuǎn)移到一個(gè)較小的目標(biāo)域的數(shù)據(jù)集,多用于源域和目標(biāo)域數(shù)據(jù)之間特征空間不同或者源任務(wù)和目標(biāo)任務(wù)關(guān)注的領(lǐng)域不同等情況來(lái)提高目標(biāo)任務(wù)的性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)可以被大量、廣泛地應(yīng)用在不同的領(lǐng)域,謝小紅等[11]利用ImageNet上訓(xùn)練完成的網(wǎng)絡(luò)模型微調(diào)后在DeepFashion數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),有效提高了模型的分類(lèi)精讀和時(shí)效性。在數(shù)據(jù)匱乏的醫(yī)學(xué)圖像領(lǐng)域,遷移學(xué)習(xí)是一種有效的方法,Atabansi等[12]利用大數(shù)據(jù)集的高分辨率圖像特征訓(xùn)練相對(duì)小的數(shù)據(jù)集模型,增強(qiáng)模型的泛化能力,驗(yàn)證了采用遷移學(xué)習(xí)策略訓(xùn)練的VGG-16模型,得到了較高的準(zhǔn)確率。Khan等[13]利用公開(kāi)的PCG數(shù)據(jù)集預(yù)訓(xùn)練簡(jiǎn)而輕的CNN模型用于心血管疾病的檢測(cè),獲得了較高的檢測(cè)準(zhǔn)確率。
用于遷移的數(shù)據(jù)可以分為與目標(biāo)域數(shù)據(jù)相關(guān)的數(shù)據(jù)和不相關(guān)的數(shù)據(jù)。本文中,首先收集大量的與目標(biāo)域數(shù)據(jù)相關(guān)和像素相近的人臉圖像作為訓(xùn)練數(shù)據(jù),其次采用遷移學(xué)習(xí)的方法對(duì)DCNN模型進(jìn)行預(yù)訓(xùn)練,最后,利用眼睛圖像對(duì)預(yù)訓(xùn)練的DCNN模型進(jìn)行微調(diào)得到眼睛狀態(tài)分類(lèi)模型。
1.2.2 DCNN眼部狀態(tài)分類(lèi)模型
深度卷積神經(jīng)網(wǎng)絡(luò)是由若干層“神經(jīng)元”組成的網(wǎng)絡(luò)模型,當(dāng)前層的每一個(gè)神經(jīng)元對(duì)前一層神經(jīng)元的輸出應(yīng)用線性濾波器,并在濾波器輸出中疊加一個(gè)偏置量,對(duì)其結(jié)果應(yīng)用非線性激活函數(shù)得到特征圖。
(1)卷積層是整個(gè)神經(jīng)網(wǎng)絡(luò)的核心,采用“局部感知”和“權(quán)值共享”兩種方式,進(jìn)行降維處理和提取特征。相對(duì)于所有神經(jīng)元應(yīng)用不同濾波器的神經(jīng)網(wǎng)絡(luò),卷積共享濾波器結(jié)構(gòu)的參數(shù)數(shù)量急劇減少,降低了其過(guò)度擬合的能力。公式為
Zl+1(i,j)=[Zl?wl+1](i,j)+b,
(i,j)∈{0,1,…,Ll+1}
(2)
(3)
式中:Zl和Zl+1分別是第l+1層的輸入和輸出;Zl+1(i,j)是l+1層特征圖的像素;w為卷積核;b為偏置量;s0、p和f分別是卷積步幅、填充層數(shù)以及卷積核大??;L是網(wǎng)絡(luò)層數(shù),其中卷積步幅是指卷積核每次移動(dòng)的步幅。
(2)池化層又稱(chēng)下采樣層,對(duì)特征圖進(jìn)行特征選擇和過(guò)濾。池化層采用最大池化,大小為2×2。
(3)全連接層對(duì)經(jīng)卷積層和池化層提取的特征進(jìn)行非線性組合,實(shí)現(xiàn)分類(lèi),可表示為
Al=f(WTAl-1+b)
(4)
式(4)中:Al-1和Al分別是第l層的輸入與輸出;f為激活函數(shù);W和b分別表示權(quán)重和偏置。
眼部狀態(tài)分類(lèi)模型由6個(gè)卷積層、3個(gè)池化層和2個(gè)全連接層組成,如圖3所示。第一個(gè)卷積層的卷積核大小是32×3×3,第二個(gè)和第三個(gè)卷積層的卷積核大小是64×3×3,最后3個(gè)卷積層的卷積核大小是128×3×3。在所有卷積層中,卷積運(yùn)算的邊界模式相同,即卷積運(yùn)算中輸入和輸出特征映射的維數(shù)一致。池化層采用最大池化策略對(duì)特征映射進(jìn)行降維,所有池化層的降維比例均為2×2。全連接層中的單元數(shù)為512。最后,在頂層加入softmax分類(lèi)器作為模型的輸出,在該模型中所有層的激活函數(shù)均為ReLU函數(shù)。
圖3 眼部狀態(tài)分類(lèi)模型Fig.3 Eye state classification model
1.2.3 Dropout
Dropout是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的算法[14]。神經(jīng)網(wǎng)絡(luò)前向傳播過(guò)程中,在Dropout所在位置,特征檢測(cè)器將會(huì)以p=0.5的概率刪除,剩余權(quán)重將會(huì)通過(guò)反向傳播進(jìn)行訓(xùn)練。該算法通過(guò)迫使神經(jīng)元依賴(lài)群體行為,而不是依賴(lài)于其他特定單元的活動(dòng),以防止特征檢測(cè)器的過(guò)度擬合,使模型的泛化性更強(qiáng)。本文中DCNN模型在全連接層后面加上Dropout正則化,參數(shù)設(shè)置為0.5,Dropout正則化示意圖如圖4所示,圖4(a)為標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)示意圖,圖4(b)為采用Dropout正則化策略后的神經(jīng)網(wǎng)絡(luò)示意圖,隱藏層神經(jīng)元以50%的概率隨機(jī)失活,以此來(lái)增強(qiáng)模型的泛化能力,防止模型過(guò)擬合。
圖4 Dropout正則化示意圖Fig.4 Schematic diagram of dropout regularization
考慮到管制員工作的現(xiàn)實(shí)場(chǎng)景中可能會(huì)受到個(gè)體差異和各種環(huán)境變化(包括光照、遮擋和模糊)引起的具有挑戰(zhàn)性的變化,收集ZJU、CEW、空中交通管制員眼部(air traffic controller eyes, ATCE)數(shù)據(jù)集,分別選取70%作為訓(xùn)練集,30%作為測(cè)試集,用于研究DCNN模型在上述條件下的性能、準(zhǔn)確率和損失率。
(1)ZJU數(shù)據(jù)集[15]是浙江大學(xué)公布的開(kāi)源數(shù)據(jù)集,在20個(gè)人閃爍的視頻數(shù)據(jù)庫(kù)中,總共有80個(gè)視頻片段,每個(gè)人有4個(gè)片段:沒(méi)有戴眼鏡的正面觀看片段、戴薄邊眼鏡觀看片段、戴黑框眼鏡正面觀看片段、沒(méi)有戴眼鏡向上觀看的片段。在每個(gè)閃爍過(guò)程中手動(dòng)選擇左右眼圖像,部分圖像模糊、分辨率較低或被眼鏡遮擋。該數(shù)據(jù)集的部分樣本如圖5所示,前面兩行為閉眼圖像,后面兩行為睜眼圖像。
圖5 ZJU數(shù)據(jù)集Fig.5 ZJU dataset
(2)CEW數(shù)據(jù)集[16]由南京航空航天大學(xué)發(fā)布,包括2 423張圖像,其中1 192張閉眼圖像為從互聯(lián)網(wǎng)上收集,1 231張睜眼圖像來(lái)自LFW(labeled faces in the wild)數(shù)據(jù)庫(kù),部分眼睛圖像如圖6所示。
圖6 CEW數(shù)據(jù)集Fig.6 CEW dataset
(3)ATCE數(shù)據(jù)集,通過(guò)采集中國(guó)民航飛行學(xué)院管制員進(jìn)行雷達(dá)模擬機(jī)管制任務(wù)時(shí)的實(shí)時(shí)面部圖像,將采集到的面部圖像經(jīng)MTCNN模型進(jìn)行眼部的識(shí)別和提取,得到ATCE數(shù)據(jù)集。該數(shù)據(jù)集共4 326張,其中睜眼圖像為2 516張,閉眼圖像為1 810張。ATCE數(shù)據(jù)集包括管制員戴眼鏡分別從8個(gè)方向(上、下、左、右、左上、左下、右上、右下)注視雷達(dá)屏幕的眼部圖像,以及管制員不戴眼鏡分別從8個(gè)方向注視雷達(dá)屏幕的眼部圖像,部分圖像如圖7所示。
圖7 ATCE數(shù)據(jù)集Fig.7 ATCE dataset
驗(yàn)證實(shí)驗(yàn)在Windows操作系統(tǒng)上進(jìn)行,搭載Intel Xeon Silver 4110 CPU和兩張NVIDIA GTX1080Ti 11 G獨(dú)立圖形顯示卡,存儲(chǔ)硬件為128 GB 2 666 MHz ECC內(nèi)存,480 G SSB和4 TB SATA硬盤(pán),采用Keras構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。
3.2.1 ZJU數(shù)據(jù)集上的測(cè)試結(jié)果
將目前在ImageNet的比賽上分類(lèi)任務(wù)中表現(xiàn)出色的VGG16模型、Inception V3模型、ResNet50模型與本文中提出的DCNN模型在ZJU數(shù)據(jù)集上進(jìn)行對(duì)比分析,其比較結(jié)果如表1和圖8所示。由圖8可以看出,DCNN模型在訓(xùn)練集和測(cè)試集上,30代的準(zhǔn)確率穩(wěn)定在97%左右,并且在20代開(kāi)始收斂,損失率趨近于7%。
表1 VGG16、ResNet50、InceptionV3、DCNN在ZIU數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果
圖8(a)中,DCNN模型訓(xùn)練集和測(cè)試集的準(zhǔn)確率最高,ResNet50模型的訓(xùn)練集準(zhǔn)確率約89%,測(cè)試集的準(zhǔn)確率在84%左右。VGG16模型的訓(xùn)練集和測(cè)試集準(zhǔn)確率約90%。InceptionV3模型的訓(xùn)練集準(zhǔn)確率約92%,測(cè)試集準(zhǔn)確率在90%左右。DCNN模型的識(shí)別精度較VGG16模型有約7%的提升,較InceptionV3模型有約5%的提升,較ResNet50模型有較7%的提升。圖8(b)中,ResNet50模型的效果最差,訓(xùn)練集損失率在35%左右,測(cè)試集的損失率在26%左右,VGG16模型的訓(xùn)練集和測(cè)試集損失率在22%附近,InceptionV3模型的訓(xùn)練集損失率約18%,測(cè)試集損失率在22%左右,DCNN模型的損失率較VGG16模型降低了19%,較InceptionV3降低了15%,較ResNet50降低了15%。
圖8 DCNN與其他3種模型在ZJU數(shù)據(jù)集上的損失率比較結(jié)果Fig.8 Comparison results of DCNN and other three models on ZJU dataset
F1分?jǐn)?shù)是召回率(recall)和精確率(precision)的調(diào)和平均數(shù)。由表1可知,DCNN模型F1分?jǐn)?shù)為97.63%,而其他3種模型F1分?jǐn)?shù)大致在90%左右,DCNN較其他3種模型有7%的提升。
3.2.2 CEW數(shù)據(jù)集上的測(cè)試結(jié)果
DCNN與其他3種模型在CEW數(shù)據(jù)集上對(duì)眼部圖像訓(xùn)練和測(cè)試的準(zhǔn)確率和損失率曲線圖對(duì)比分別如圖9所示,可以看出,DCNN模型在15代便開(kāi)始收斂,模型訓(xùn)練集和測(cè)試集的準(zhǔn)確率趨近于97%,而模型訓(xùn)練和測(cè)試的損失率在7%附近。VGG16模型和InceptionV3模型較DCNN模型更早收斂,但是,DCNN模型的識(shí)別準(zhǔn)確率較VGG16模型有3%左右的提高。ResNet50模型在收斂速度、模型準(zhǔn)確率以及損失率等方面落后于DCNN。
圖9 DCNN與其他3種模型在CEW數(shù)據(jù)集上的損失率比較結(jié)果Fig.9 Loss comparison results of DCNN and other three models on CEW dataset
VGG16、ResNet50、InceptionV3、DCNN在CEW數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果如表2所示,DCNN模型的F1分?jǐn)?shù)為97.03%,VGG16模型和InceptionV3模型的F1分?jǐn)?shù)在94%左右,ResNet50模型的F1分?jǐn)?shù)為89.60%,4種模型中,DCNN的F1分?jǐn)?shù)較其他3種提高3%~7%。
表2 VGG16、ResNet50、InceptionV3、DCNN在CEW數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果
3.2.3 ATCE數(shù)據(jù)集上的測(cè)試結(jié)果
DCNN與其他3種模型在ATCE數(shù)據(jù)集上對(duì)眼部圖像訓(xùn)練和測(cè)試的準(zhǔn)確率和損失率曲線圖對(duì)比分別如圖10所示。由圖10可以看出,DCNN模型在區(qū)分眼睛狀態(tài)任務(wù)中,迭代次數(shù)到15次開(kāi)始收斂,訓(xùn)練和測(cè)試的準(zhǔn)確率達(dá)到98.35%,損失率為5.23%。圖10(a)中,VGG16模型的訓(xùn)練集和測(cè)試集準(zhǔn)確率約為97%,InceptionV3模型的訓(xùn)練集和測(cè)試集準(zhǔn)確率約為96%,ResNet50模型的訓(xùn)練集準(zhǔn)確率約86%,測(cè)試集的準(zhǔn)確率在88%左右。DCNN模型準(zhǔn)確率較ResNet50模型提高了10%左右。圖10(b)中,ResNet50模型的效果最差,訓(xùn)練集損失率在27%左右,測(cè)試集的損失率在24%左右,VGG16模型的訓(xùn)練集和測(cè)試集損失率在9%附近,InceptionV3模型的訓(xùn)練集和測(cè)試集損失率約8%,DCNN模型的損失率較VGG16模型降低了4%,較InceptionV3降低了3%,較ResNet50降低了18%。
圖10 DCNN與其他3種模型在ATCE數(shù)據(jù)集上的損失率比較結(jié)果Fig.10 Loss comparison results of DCNN and other three models on ATCE dataset
VGG16、ResNet50、InceptionV3、DCNN在ATCE數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果如表3所示,DCNN模型的F1分?jǐn)?shù)為98.06%,VGG16模型的F1分?jǐn)?shù)為97.33%,ResNet50模型的F1分?jǐn)?shù)為90.53%,InceptionV3模型的F1分?jǐn)?shù)為96.31%,DCNN模型的F1分?jǐn)?shù)較VGG16模型有0.73%的提高,較ResNet50模型提高了7.53%,較InceptionV3模型提高了1.75%。
表3 VGG16、ResNet50、InceptionV3、DCNN在ATCE數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果Table 3 Comparison results of VGG16, ResNet50, InceptionV3 and DCNN on ATCE dataset
根據(jù)DCNN模型和其他3種模型的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,DCNN模型識(shí)別精度優(yōu)于其他3種大型網(wǎng)絡(luò)模型,由于DCNN網(wǎng)絡(luò)模型的輸入為64×64,卷積層的數(shù)量以及模型參數(shù)較其他3種網(wǎng)絡(luò)少,在訓(xùn)練性能方面,DCNN模型更適合管制員眼部圖像這種像素較小,特征較少的樣本的分類(lèi)任務(wù);通過(guò)縱向?qū)Ρ菵CNN模型在3種數(shù)據(jù)集上的識(shí)別精度、召回率和F1分?jǐn)?shù)等指標(biāo),DCNN模型在ATCE數(shù)據(jù)集上具有更高的準(zhǔn)確率,能夠更準(zhǔn)確快速的檢測(cè)管制員疲勞狀態(tài)。
眼部狀態(tài)檢測(cè)是對(duì)管制員疲勞檢測(cè)的一類(lèi)主要技術(shù),為提高疲勞狀態(tài)檢測(cè)的準(zhǔn)確率和檢測(cè)速率,提出了一種基于眼部小像素圖像分類(lèi)任務(wù)的DCNN模型來(lái)實(shí)現(xiàn)管制員疲勞檢測(cè)的方法,得出以下結(jié)論。
(1)為提高疲勞檢測(cè)模型的魯棒性,采用MTCNN檢測(cè)算法,可以對(duì)一些非正面人臉圖像做到實(shí)時(shí)檢測(cè)。
(2)為提高檢測(cè)效率和準(zhǔn)確性,利用遷移學(xué)習(xí)預(yù)訓(xùn)練了自建的DCNN模型,該模型簡(jiǎn)而輕,能更精確地提取眼部小尺寸圖像疲勞特征,DCNN模型在ZJU數(shù)據(jù)集上的準(zhǔn)確率提高了7%,在CEW數(shù)據(jù)集上提高了3%~7%。
(3)在ATCE數(shù)據(jù)集上,DCNN模型的測(cè)試準(zhǔn)確率較ZJU數(shù)據(jù)集和CEW數(shù)據(jù)集提升了2%,更適合判定管制員眼部疲勞狀態(tài)。
本模型對(duì)極端頭部姿態(tài)識(shí)別時(shí),可能發(fā)生誤檢的情況,在未來(lái)工作中,將豐富極端頭部姿態(tài)下的眼部數(shù)據(jù)集,優(yōu)化面部檢測(cè)方法,提高檢測(cè)的多樣性,使其更符合實(shí)際管制情境。