亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于并行短時(shí)面部特征的駕駛?cè)似跈z測(cè)方法研究

2024-06-03 14:46:04劉強(qiáng)謝謙方璽李波蔣瓊解孝民

汽車技術(shù) 2024年5期

劉強(qiáng) 謝謙方璽李波蔣瓊解孝民

【摘要】為實(shí)現(xiàn)更快速、準(zhǔn)確的疲勞預(yù)警，提出了一種基于并行短時(shí)面部特征的駕駛?cè)似跈z測(cè)方法?；诩尤肓?? MicroNet模塊、CA注意力機(jī)制、Wise-IoU損失函數(shù)的YOLOv7-MCW目標(biāo)檢測(cè)網(wǎng)絡(luò)提取駕駛?cè)嗣娌康亩虝r(shí)面部特征，再使用并行Informer時(shí)序預(yù)測(cè)網(wǎng)絡(luò)整合YOLOv7-MCW目標(biāo)檢測(cè)網(wǎng)絡(luò)得到的面部時(shí)空信息，對(duì)駕駛?cè)似跔顟B(tài)進(jìn)行檢測(cè)與預(yù)警。結(jié)果表明：在領(lǐng)域內(nèi)公開(kāi)數(shù)據(jù)集UTA-RLDD和NTHU-DDD上，YOLOv7-MCW-Informer模型的準(zhǔn)確率分別為97.50%和94.48%，單幀檢測(cè)時(shí)間降低至28 ms，證明該模型具有良好的實(shí)時(shí)疲勞檢測(cè)性能。

主題詞：智能交通疲勞檢測(cè) 目標(biāo)檢測(cè) 注意力機(jī)制時(shí)序預(yù)測(cè)

中圖分類號(hào)：U492.8+4 ? 文獻(xiàn)標(biāo)志碼：A ? DOI： 10.19620/j.cnki.1000-3703.20230617

Research on Driver Fatigue Detection Method Based on Parallel Short-Term Facial Features

Liu Qiang1， Xie Qian1， Fang Xi2， Li Bo3， Xie Xiaomin4

（1. School of Intelligent Systems Engineering， Sun Yat-sen University， Shenzhen 518107; 2. Development & Research Center of State Post Bureau， Beijing 100868; 3. Automobile Engineering Research Institute of Guangzhou Automobile Group Co.， Ltd.， Guangzhou 511434; 4. Guangdong Marshell Electric Technology Co.， Ltd.， Zhaoqing 523268）

【Abstract】A driver fatigue detection method based on parallel short-term facial features is proposed to achieve faster and more accurate fatigue warning. The method utilizes the YOLOv7-MCW object detection network， which incorporates the MicroNet module， CA attention mechanism， and Wise-IoU loss function， to extract short-term facial features of the drivers face. The parallel Informer temporal prediction network is then used to integrate the spatiotemporal information obtained from the YOLOv7-MCW object detection network， enabling the detection and warning of driver fatigue. The results demonstrate that the YOLOv7-MCW-Informer model achieves accuracy rates of 97.50% and 94.48% on the publicly available datasets UTA-RLDD and NTHU-DDD， respectively， with a single-frame detection time reduced to 28 ms， proving the excellent real-time fatigue detection performance of the model.

Key words： Intelligent transportation， Fatigue detection， Object detection， Attention mechanism， Time series prediction

【引用格式】劉強(qiáng)，謝謙，方璽，等. 基于并行短時(shí)面部特征的駕駛?cè)似跈z測(cè)方法研究[J]. 汽車技術(shù)， 2024（5）： 15-21.

LIU Q， XIE Q， FANG X， et al. Research on Driver Fatigue Detection Method Based on Parallel Short-Term Facial Features[J]. Automobile Technology， 2024（5）： 15-21.

1 前言

基于駕駛?cè)嗣娌刻卣鞯钠跈z測(cè)方法因具有快速、準(zhǔn)確的優(yōu)點(diǎn)被廣泛用于交通安全研究。駕駛?cè)说拿娌刻卣髦饕▎挝粫r(shí)間內(nèi)閉眼百分比（Percentage of Eyelid Closure Over Time，PERCLOS）[1]、眨眼頻率、視線方向、單位時(shí)間內(nèi)張口百分比（Percentage of Mouth Open Over the Pupil over Time，POM）[2]、哈欠頻率、點(diǎn)頭次數(shù)和頭部偏轉(zhuǎn)角等。在較短的單位時(shí)間（一般為1 min）內(nèi)具有較為明顯的變化規(guī)律的面部特征，本文稱為短時(shí)面部特征，如PERCLOS、POM等。

國(guó)內(nèi)外圍繞基于短時(shí)面部特征的駕駛?cè)似跈z測(cè)展開(kāi)了相關(guān)研究。Bai等[3]提出使用雙流時(shí)空?qǐng)D卷積網(wǎng)絡(luò)檢測(cè)駕駛?cè)似?，采用面部?biāo)志檢測(cè)法從實(shí)時(shí)視頻中提取駕駛?cè)嗣娌繕?biāo)志，然后通過(guò)雙流時(shí)空?qǐng)D卷積網(wǎng)絡(luò)得到駕駛?cè)似跈z測(cè)結(jié)果，試驗(yàn)表明，該方法顯著提高了疲勞檢測(cè)性能，準(zhǔn)確率高達(dá)92.70%，但該模型結(jié)構(gòu)較為復(fù)雜，檢測(cè)時(shí)間較長(zhǎng)，實(shí)時(shí)性不足。婁平等[4]通過(guò)改進(jìn)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型定位人臉區(qū)域并截取眼部、嘴部圖像，再通過(guò)AlexNet圖像分類網(wǎng)絡(luò)對(duì)眼、嘴狀態(tài)進(jìn)行分類，并基于PERCLOS和POM判定疲勞狀態(tài)。該模型的準(zhǔn)確率達(dá)93.50%，但該方法僅捕獲駕駛員面部空間特征，在處理駕駛員在不同駕駛階段、駕駛環(huán)境下的短時(shí)面部特征規(guī)律差異上存在不足。Tamanani等[5]使用基于Haar特征的Cascade分類器，從輸入的視頻流中截取人臉并捕獲眼睛、嘴等面部特征，并使用LeNet-5模型進(jìn)行二分類來(lái)確定駕駛?cè)说钠跔顟B(tài)，該模型的準(zhǔn)確率達(dá)91.80%，但該模型較少考慮并行檢測(cè)中眼部特征與嘴部特征存在的規(guī)律差異且檢測(cè)速度較慢，模型的魯棒性與實(shí)時(shí)性存在提升空間。

綜上所述，當(dāng)前基于短時(shí)面部特征的駕駛?cè)似隈{駛檢測(cè)方法的模型實(shí)時(shí)性能有待改進(jìn)，融合時(shí)空特征的疲勞檢測(cè)研究較少，關(guān)于面部多特征的并行檢測(cè)有待深入研究。因此，本文將基于YOLO（You Only Look Once）v7-MCW（Micro-Net Coordinate Attention Wise-IoU）- ?Informer模型，深入探究基于并行短時(shí)面部特征的駕駛?cè)似跈z測(cè)問(wèn)題。

2 短時(shí)面部特征提取

2.1 YOLOv7模型

YOLOv7[6]在速度和準(zhǔn)確性方面具有極佳表現(xiàn)，并提供了對(duì)邊緣計(jì)算設(shè)備的良好支持。YOLOv7網(wǎng)絡(luò)主要包含主干網(wǎng)絡(luò)（Backbone）、頸部（Neck）、頭部（Head）3個(gè)部分。

2.2 改進(jìn)后的YOLOv7檢測(cè)器

本文針對(duì)YOLOv7進(jìn)行適應(yīng)性改進(jìn)以在保證良好準(zhǔn)確性的基礎(chǔ)上提升單幀檢測(cè)速度。主要改進(jìn)內(nèi)容包括輕量級(jí)主干網(wǎng)絡(luò)、注意力機(jī)制以及損失函數(shù)。

2.2.1 輕量級(jí)主干網(wǎng)絡(luò)

為實(shí)現(xiàn)面部特征快速捕獲，需使用輕量化網(wǎng)絡(luò)結(jié)構(gòu)重構(gòu)Backbone部分。在處理極低計(jì)算成本問(wèn)題時(shí)，主流輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu)MobileNet和ShuffleNet等存在較為嚴(yán)重的性能下降，因此引入微網(wǎng)絡(luò)（MicroNet）[7]提升極低計(jì)算成本下的網(wǎng)絡(luò)性能。MicroNet建立在微分解卷積（Micro-Factorized Convolution，MFC）模塊和動(dòng)態(tài)最大化（Dynamic Shift-Max，DSM）激活函數(shù)的基礎(chǔ)上。MFC模塊通過(guò)在點(diǎn)卷積和深度可分離卷積上的低秩近似值來(lái)實(shí)現(xiàn)通道數(shù)和輸入輸出連接之間的平衡，DSM激活函數(shù)則動(dòng)態(tài)地融合了連續(xù)的通道組，增強(qiáng)了節(jié)點(diǎn)的連接性和非線性，以彌補(bǔ)主干網(wǎng)絡(luò)深度的減少。

2.2.2 注意力機(jī)制

目前，輕量級(jí)網(wǎng)絡(luò)的注意力機(jī)制大多采用通道注意力，僅考慮了通道間的信息，忽略了位置信息。盡管后來(lái)的瓶頸注意模塊和卷積塊注意模塊嘗試在降低通道數(shù)后通過(guò)卷積提取位置注意力信息，但卷積只能提取局部關(guān)系，缺乏長(zhǎng)距離關(guān)系提取的能力。因此，引入高效坐標(biāo)注意力機(jī)制（Coordinate Attention，CA）[8]模塊，其結(jié)構(gòu)如圖1所示，其中C、W和H分別為通道的數(shù)量、寬度和高度。

2.2.3 損失函數(shù)

邊界框回歸（Bounding Boxes Regression，BBR）損失函數(shù)對(duì)于目標(biāo)檢測(cè)至關(guān)重要。

引入明智交并比（Wise Intersection over Union，Wise-IoU）v3損失函數(shù)[9]，該BBR損失函數(shù)具有動(dòng)態(tài)非單調(diào)靜態(tài)聚焦機(jī)制（Focusing Mechanism，F(xiàn)M）：

[LWv3 =rRWIoU LIoU ，r=βδαβ-δ] ? ? ? ? ? ? ? ? （1）

[RIoU=expx-xgt2+y-ygt2W2g+H2g*] ? ? ? ? ? ? ? ?（2）

式中：[LWv3]為Wise-IoU v3損失函數(shù)，[LIoU]為交并比損失函數(shù)，[RWIoU]為正則懲罰項(xiàng)，[β]為錨框的離群度，[r]為梯度增益，[α]、[δ]為超參數(shù)，[RIoU]為交并比正則懲罰項(xiàng)，x、y為邊界框的坐標(biāo)值，xgt、ygt為目標(biāo)框的坐標(biāo)，Wg、Hg為最封閉幾何框的寬高。

當(dāng)[β]=[δ]時(shí)，[δ]使[r]=1。當(dāng)[β]=C（C為常數(shù)）時(shí)，錨框?qū)@得最高的梯度增益。

2.2.4 整體結(jié)構(gòu)

圖像經(jīng)過(guò)數(shù)據(jù)增強(qiáng)等預(yù)處理后，進(jìn)入基于MicroNet（包含MicroBlock-A與MicroBlock-B）、擴(kuò)展高效層聚合網(wǎng)絡(luò)（Extended Efficient Layer Aggregation Networks，E-ELAN）模塊以及空間金字塔池化和全連接空間金字塔卷積（Spatial Pyramid Pooling and Fully Connected Spatial Pyramid Convolution，SPPCSPC）模塊組合而成的主干網(wǎng)絡(luò)。E-ELAN模塊基于原始ELAN結(jié)構(gòu)，改變?cè)加?jì)算模塊的同時(shí)保持過(guò)渡層結(jié)構(gòu)，并利用擴(kuò)張、混洗、合并基數(shù)的思想來(lái)增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)的能力，而不破壞原有的梯度路徑。SPPCSPC模塊在一串卷積中加入并行的多次最大池化操作，可避免由于圖像處理操作所造成的圖像失真等問(wèn)題，同時(shí)也解決了卷積神經(jīng)網(wǎng)絡(luò)提取到重復(fù)特征的難題；主干提取到的特征經(jīng)過(guò)CA模塊再次提取，再經(jīng)過(guò)Neck模塊特征融合處理得到大、中、小3種尺寸的特征；最終，融合后的特征被送入頭部網(wǎng)絡(luò)，經(jīng)過(guò)檢測(cè)之后輸出結(jié)果。YOLOv7-MCW模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

2.3 特征選取

模擬駕駛系統(tǒng)被認(rèn)為是研究駕駛行為的重要工具[10]。本文通過(guò)模擬駕駛試驗(yàn)得到了具有明顯規(guī)律的駕駛員短時(shí)面部特征。為更好地模擬真實(shí)駕駛工況，本試驗(yàn)搭建了具備環(huán)繞屏幕、轉(zhuǎn)向盤(pán)、油門(mén)踏板、制動(dòng)踏板、離合器踏板、換擋操縱桿、可調(diào)節(jié)座椅、透明封閉艙、采集攝像頭的模擬駕駛室，并按照真實(shí)車型設(shè)定了模擬駕駛系統(tǒng)的加速度、可視范圍、反饋力度等相關(guān)參數(shù)，以保證接近真實(shí)的駕駛體驗(yàn)。試驗(yàn)招募的被試人員均為駕齡超過(guò)3年、具備豐富駕駛經(jīng)驗(yàn)的人員，并有過(guò)疲勞駕駛的經(jīng)歷。另外，試驗(yàn)選用了更易產(chǎn)生疲勞的平直高速公路，駕駛員在身體健康、睡眠充足、精神狀態(tài)良好的情況下開(kāi)始駕駛，中途開(kāi)始產(chǎn)生駕駛疲勞，直至主觀感到過(guò)于疲勞不能駕駛時(shí)試驗(yàn)停止。如圖3所示，試驗(yàn)共20組，20位駕駛員的年齡構(gòu)成包括：8位20～30歲的學(xué)生和12位30～50歲的公司職員、社會(huì)人士；性別構(gòu)成包括10位男性和10位女性。試驗(yàn)選用簡(jiǎn)單場(chǎng)景，駕駛環(huán)境參考了北京某試驗(yàn)場(chǎng)的環(huán)形道路，其中直道長(zhǎng)度為100 km，模擬駕駛車速限制為最高100 km/h，樣本可以保持長(zhǎng)達(dá)1 h的直線行駛。所選短時(shí)面部特征為閉眼百分比、張口百分比、最長(zhǎng)單次閉眼時(shí)長(zhǎng)、打哈欠頻率，在試驗(yàn)過(guò)程中部分樣本的參數(shù)記錄如表1所示。

2.4 眼部判斷

卡內(nèi)基-梅隆研究中心Wierwille提出了“閉眼百分比”（PERCLOS）的概念，用于衡量人類疲勞狀態(tài)（嗜睡），被定義為單位時(shí)間內(nèi)眼睛閉上的時(shí)間。美國(guó)聯(lián)邦公路管理局和國(guó)家公路交通安全管理局在實(shí)驗(yàn)室中開(kāi)展模擬駕駛，驗(yàn)證了PERCLOS在描述駕駛?cè)似诜矫娴挠行?，PERCLOS是基于面部特征的檢測(cè)方法中最準(zhǔn)確的指標(biāo)之一[11]，共有P70、P80、EM3種測(cè)量標(biāo)準(zhǔn)。本文采用P80標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)是指在一定時(shí)間內(nèi)，當(dāng)80%以上的瞳孔被眼瞼覆蓋時(shí)，眼睛閉合的時(shí)間比例，時(shí)間尺度為分鐘級(jí)。PERCLOS計(jì)算公式為：

[PPER =iNfiN×100%] ? ? ? ? ? ? ? ? ? ? （3）

式中：i為視頻幀順序，fi為第i幀眼睛閉合的幀數(shù)，[iNfi]為單位時(shí)間內(nèi)眼睛閉合的總幀數(shù)，N為單位時(shí)間內(nèi)視頻總幀數(shù)。

最長(zhǎng)單次閉眼時(shí)長(zhǎng)EM也是衡量眼部狀態(tài)的重要參數(shù)，時(shí)間尺度為秒級(jí)。通過(guò)對(duì)眼睛連續(xù)閉合的視頻幀數(shù)進(jìn)行計(jì)數(shù)，根據(jù)視頻幀率，可以得到最長(zhǎng)單次閉眼時(shí)長(zhǎng)：

[EM=gi×Fv] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （4）

式中：gi為眼睛閉合的幀數(shù)，F(xiàn)v為視頻幀率。

2.5 嘴部判斷

單位時(shí)間內(nèi)張口百分比（Percentage of Mouth Open Over the Pupil over Time，POM）計(jì)算公式為：

[PPOM=iNhiN×100%] ? ? ? ? ? ? ? ? ? ? ? （5）

式中：hi為第i幀嘴張開(kāi)的幀數(shù)，[iNhi]為單位時(shí)間內(nèi)張口的總幀數(shù)。

打哈欠頻率NY是衡量嘴部狀態(tài)的重要參數(shù)。POM統(tǒng)計(jì)一定時(shí)間內(nèi)，駕駛員張口時(shí)間所占比例，但除打哈欠外，駕駛員還可能存在說(shuō)話等其他張口行為；NY統(tǒng)計(jì)一定時(shí)間內(nèi)，駕駛員打哈欠的次數(shù)，強(qiáng)調(diào)打哈欠這一具體行為。區(qū)分這兩個(gè)指標(biāo)，有助于細(xì)化嘴部行為，提升準(zhǔn)確性。通過(guò)對(duì)嘴巴連續(xù)張開(kāi)的視頻幀數(shù)進(jìn)行計(jì)數(shù)，可以得到打哈欠的頻率：

[NY=FYT] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （6）

式中：FY為單位時(shí)間內(nèi)打哈欠的總次數(shù)，T為單位時(shí)間。

2.6 模型訓(xùn)練

為增加數(shù)據(jù)準(zhǔn)確性，進(jìn)行了15組單次時(shí)長(zhǎng)為1～2 h的駕駛模擬試驗(yàn)，并通過(guò)攝像頭采集駕駛?cè)嗣娌繄D像。從這些圖像中，截取了15 340個(gè)不同狀態(tài)，并進(jìn)行標(biāo)注，制作為短時(shí)疲勞檢測(cè)面部圖片數(shù)據(jù)集（Short-time Fatigue Driving Detection Image Dataset，SFDDID），用來(lái)訓(xùn)練YOLOv7-MCW模型，如圖4所示。

2.7 初始化

本文通過(guò)駕駛模擬試驗(yàn)來(lái)檢驗(yàn)?zāi)Ｐ蜋z測(cè)效果并得到相應(yīng)參數(shù)的初始范圍，為模型提供較好先驗(yàn)。結(jié)果顯示，駕駛員在疲勞時(shí)，閉眼百分比、張口百分比、最長(zhǎng)閉眼時(shí)間和打哈欠頻率存在明顯變化，驗(yàn)證了本文選取規(guī)律的科學(xué)性，并作為模型訓(xùn)練初始值，如表2所示。

3 疲勞檢測(cè)

本文疲勞檢測(cè)主要基于Informer[12]框架實(shí)現(xiàn)，通過(guò)對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)得到的面部數(shù)據(jù)進(jìn)行分析，對(duì)駕駛員的疲勞狀態(tài)進(jìn)行判別。時(shí)序預(yù)測(cè)算法運(yùn)用到疲勞駕駛檢測(cè)上，可使分類預(yù)測(cè)結(jié)果結(jié)合時(shí)間特性，更符合疲勞發(fā)生的過(guò)程[13]。

Informer模型整體上由編碼器（Encoder）和解碼器（Decoder）兩個(gè)部分組成，如圖5所示。其中，編碼器用于捕獲長(zhǎng)序列輸入的內(nèi)部依賴關(guān)系，解碼器進(jìn)一步實(shí)現(xiàn)序列檢測(cè)。本文先利用檢測(cè)器檢測(cè)到駕駛?cè)说拿娌靠臻g信息，再輸送進(jìn)Informer中分析時(shí)序數(shù)據(jù)，模型學(xué)習(xí)到面部時(shí)空特征之間的依賴關(guān)系，并基于這些關(guān)系來(lái)檢測(cè)駕駛?cè)耸欠裉幱谄跔顟B(tài)。

眼部特征與嘴部特征的時(shí)空變化存在差異，使用兩組Informer模型進(jìn)行組合，分別為Informer-A和Infomer-B，二者具有不同的權(quán)重，分別處理眼部特征與嘴部特征，形成并行結(jié)構(gòu)。

將眼部特征指標(biāo)、嘴部特征指標(biāo)分別輸入，并行計(jì)算。PPER、EM、PPOM以及NY 4個(gè)指標(biāo)分別作為并行Informer網(wǎng)絡(luò)的4個(gè)時(shí)間序列輸入，每個(gè)時(shí)間序列輸入包括多個(gè)時(shí)間步的指標(biāo)值。將Informer組合網(wǎng)絡(luò)的輸出作為疲勞狀態(tài)的預(yù)測(cè)概率值。

3.1 數(shù)據(jù)標(biāo)準(zhǔn)化

通過(guò)目標(biāo)檢測(cè)網(wǎng)絡(luò)定位駕駛員的面部特征后，計(jì)算PPER、EM、PPOM以及NY并對(duì)這4個(gè)參數(shù)進(jìn)行歸一化，本文采用最大最小歸一化：

[s'=si-sminsmax-smin] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （7）

式中：[s']為指標(biāo)的最終得分，[si]為實(shí)時(shí)檢測(cè)到的指標(biāo)的得分，[smin、smax]分別為檢測(cè)過(guò)程中疲勞指標(biāo)的最小值和最大值。

3.2 分類器

在原有編碼器至解碼器的線路外增加去時(shí)序空間特征輔助分類器，由1個(gè)輸入層、40個(gè)殘差卷積層、1個(gè)平滑層、2個(gè)全連接層構(gòu)成，用于跳過(guò)時(shí)序輔助進(jìn)行空間狀態(tài)分類，以增加準(zhǔn)確性，其結(jié)構(gòu)如圖6所示。

輔助分類器中每個(gè)隱含層的激活函數(shù)都使用線性修正單元（Rectified Linear Unit，ReLU），輸出層的激活函數(shù)使用Sigmoid函數(shù)，將輸出值映射到0～1的范圍內(nèi)。使用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）優(yōu)化器，迭代50次，批尺寸設(shè)置為32，初始學(xué)習(xí)率設(shè)置為0.001。模型整體檢測(cè)流程如圖7所示。

4 試驗(yàn)驗(yàn)證

4.1 數(shù)據(jù)集

本文選用2個(gè)公開(kāi)數(shù)據(jù)集，德州大學(xué)阿靈頓分校真實(shí)生活瞌睡數(shù)據(jù)集（University of Texas at Arlington Real-Life Drowsiness Dataset，UTA-RLDD）[14]和臺(tái)灣清華大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室的駕駛員疲勞檢測(cè)數(shù)據(jù)集（National Tsing Hua University Drowsy Driver Dataset， NTHU-DDD）[15]。

為了測(cè)試模型性能，進(jìn)行了30組單次時(shí)長(zhǎng)為1～2 h的模擬駕駛試驗(yàn)，并通過(guò)攝像頭采集駕駛?cè)嗣娌繄D像，制作為短時(shí)疲勞檢測(cè)面部視頻數(shù)據(jù)集（Short-time Fatigue Driving Detection Video Dataset，SFDDVD），采集了30位年齡在20～30歲之間，駕齡在1年以上的受試者在高速道路上持續(xù)駕駛的正面面部視頻。通過(guò)人工切分與標(biāo)定，得到了600個(gè)時(shí)長(zhǎng)為1 min的標(biāo)簽為“清醒”狀態(tài)與“疲勞”狀態(tài)的視頻片段。

4.2 試驗(yàn)平臺(tái)

本試驗(yàn)的平臺(tái)為一臺(tái)配備Intel? CoreTM i7-10700K CPU 3.80 GHz處理器，內(nèi)存為32G，配置NVIDIA GeForce RTX3060 12 GB顯卡，Ubuntu 22.04.1操作系統(tǒng)的計(jì)算機(jī)。

4.3 在UTA-RLDD數(shù)據(jù)集上的表現(xiàn)

本文將UTA-RLDD進(jìn)行了重新劃分，將數(shù)據(jù)標(biāo)注為“清醒”和“疲勞”2類，分別獲得了60個(gè)“疲勞”類視頻片段和60個(gè)“清醒”類視頻片段。準(zhǔn)確率[PAcc]、精確率[PPre]和召回率[PRec]分別為：

[PAcc =TP+TNTP+FN+FP+TN] ? ? ? ? ? ? ? ? ? ? ? ?（8）

[PPre =TPTP+FP] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（9）

[PRec =TPTP+FN] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（10）

式中：[TP]為被正確分類為“疲勞”的樣本，[FP]為被錯(cuò)誤分類為“疲勞”的樣本[，TN]代表被正確分類為“清醒”的樣本，[FN]為被錯(cuò)誤分類為“清醒”的樣本。

準(zhǔn)確率、精確率和召回率計(jì)算結(jié)果如表3所示。

4.4 在NTHU-DDD數(shù)據(jù)集上的表現(xiàn)

對(duì)于NTHU-DDD數(shù)據(jù)集，根據(jù)給定的每一幀標(biāo)簽，從中裁剪出多個(gè)標(biāo)記為“清醒”或“疲勞”的視頻片段，如表4所示，試驗(yàn)結(jié)果如表5所示。

4.5 消融試驗(yàn)

YOLOv7-MCW-Informer模型對(duì)主干網(wǎng)絡(luò)、注意力機(jī)制、損失函數(shù)進(jìn)行了改進(jìn)。為評(píng)估不同結(jié)構(gòu)改進(jìn)與組合對(duì)算法性能的提升，設(shè)計(jì)了消融試驗(yàn)，共計(jì)8組。所有模型均在相同數(shù)據(jù)集上進(jìn)行訓(xùn)練，得到最佳權(quán)重后在同一數(shù)據(jù)集SFDDVD上進(jìn)行測(cè)試。結(jié)果如表6所示，M0～M7分別代表YOLOv7-Informer、YOLOv7-M-Informer、YOLOv7-C-Informer、YOLOv7-W-Informer、YOLOv7-MC-Informer、YOLOv7-MW-Informer、 ? ? ? ?YOLOv7-CW-Informer、YOLOv7-MCW-Informer8種模型?？梢钥闯?，本文提出的3個(gè)改進(jìn)方法相比于原始的YOLOv7算法，性能方面均具有小幅提升。相比于最終算法YOLOv7-MCW-Informer（M7）算法，去除任何一個(gè)改進(jìn)方法都會(huì)使得模型性能下降。消融試驗(yàn)結(jié)果證明了本文所提出的改進(jìn)方法的有效性。

4.6 與現(xiàn)有模型的對(duì)比

表7給出了本文提出的模型與其他算法模型在性能上的比較。在UTA-RLDD上準(zhǔn)確率可達(dá)97.50%，單幀檢測(cè)時(shí)間為33 ms；在NTHU-DDD上準(zhǔn)確率可達(dá)94.48%，單幀檢測(cè)時(shí)間為28 ms。相較于文獻(xiàn)[3]、文獻(xiàn)[5]、文獻(xiàn)[16]、文獻(xiàn)[17]中給出的方法，本文方法在檢測(cè)準(zhǔn)確率上有一定提升；與文獻(xiàn)[18]、文獻(xiàn)[19]對(duì)比，在同一數(shù)據(jù)集上，單幀檢測(cè)速度接近的前提下，本文提出的模型具有較高的準(zhǔn)確率，分別高出21.88%和7.74%；本模型在保持檢測(cè)準(zhǔn)確性有所提升的前提下，大幅縮減了檢測(cè)時(shí)間；與文獻(xiàn)[5]對(duì)比，在同一數(shù)據(jù)集上，準(zhǔn)確率提升的前提下，單幀檢測(cè)時(shí)間大幅下降，本文提出的模型檢測(cè)速度接近其4倍。由此可以看出，YOLOv7-MCW-Informer模型通過(guò)并行網(wǎng)絡(luò)分析短時(shí)面部特征，融合多維面部信息，提升了檢測(cè)準(zhǔn)確性與實(shí)時(shí)性。

5 結(jié)束語(yǔ)

本文提出了一種基于并行短時(shí)面部特征的駕駛?cè)似隈{駛檢測(cè)方法。YOLOv7-MCW-Informer模型相較于現(xiàn)有方法能夠提升疲勞檢測(cè)的準(zhǔn)確性，YOLOv7-MCW-Informer模型在領(lǐng)域內(nèi)公開(kāi)數(shù)據(jù)集UTA-RLDD、NTHU-DDD上分別達(dá)到97.50%和94.48%的準(zhǔn)確率；相較于現(xiàn)有工作，保持準(zhǔn)確性的基礎(chǔ)上具備更好的實(shí)時(shí)性，單幀檢測(cè)時(shí)間最低達(dá)到28 ms，時(shí)序預(yù)測(cè)模型能夠更好地提取駕駛?cè)似跔顟B(tài)的變化趨勢(shì)，有利于及早預(yù)警和干預(yù)。

參考文獻(xiàn)

[1] DU G， ZHANG L， SU K， et al. A Multimodal Fusion Fatigue Driving Detection Method Based on Heart Rate and ? ? ? ?PERCLOS[J]. IEEE Transactions on Intelligent ? ? ? ? ? ? ? Transportation Systems， 2022， 23（11）： 21810-21820.

[2] YE M， ZHANG W， CAO P， et al. Driver Fatigue Detection Based on Residual Channel Attention Network and Head Pose Estimation[J]. Applied Sciences， 2021， 11（19）.

[3] BAI J， YU W， XIAO Z， et al. Two-Stream Spatial-Temporal Graph Convolutional Networks for Driver Drowsiness ? ? ? ?Detection[J]. IEEE Transactions on Cybernetics， 2021， 52（12）： 13821-13833.

[4] 婁平，楊欣，胡輯偉，等. 基于邊緣計(jì)算的疲勞駕駛檢測(cè)方法[J]. 計(jì)算機(jī)工程， 2021， 47（7）： 13-20+29.

LOU P， YANG X， HU J W， et al. Fatigue Driving Detection Method Based on Edge Computing[J]. Computer ? ? ? ? ? ? ? ?Engineering， 2021， 47（7）： 13-20+29.

[5] TAMANANI R， MURESAN R， AL-DWEIK A. Estimation of Driver Vigilance Status Using Real-Time Facial Expression and Deep Learning[J]. IEEE Sensors Letters， 2021， 5（5）： 1-4.

[6] WANG C Y， BOCHKOVSKIY A， LIAO H Y M. YOLOv7： Trainable Bag-of-Freebies Sets New State-of-the-Art for ? ?Real-Time Object Detectors[C]// Oxford： Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern ? Recognition. 2023： 7464-7475.

[7] LI Y， CHEN Y， DAI X， et al. Micronet： Improving Image ? ?Recognition with Extremely Low Flops[C]// Proceedings of the IEEE/CVF International Conference on Computer ? ? ? ?Vision. Montreal： IEEE， 2021： 468-477.

[8] HOU Q， ZHOU D， FENG J. Coordinate Attention for Efficient Mobile Network Design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern ? ? ? ? ? ?Recognition. Nashville： IEEE， 2021： 13713-13722.

[9] WANG W， LIU W. Small Object Detection with YOLOv8 ? Algorithm Enhanced by MobileViTv3 and Wise-IoU[C]// Proceedings of the 2023 12th International Conference on Computing and Pattern Recognition. Qingdao： ACM， 2023： 174-180.

[10] SOARES S， FERREIRA S， COUTO A. Driving Simulator Experiments to Study Drowsiness： A Systematic Review[J]. Traffic Injury Prevention， 2020， 21（1）： 29-37.

[11] KHUNPISUTH O， CHOTCHINASRI T， KOSCHAKOSAI V， et al. Driver Drowsiness Detection Using Eye-Closeness Detection[C]// 2016 12th International Conference on Signal-Image Technology & Internet-Based Systems （SITIS）. Naples： IEEE， 2016： 661-668.

[12] ZHOU H， ZHANG S， PENG J， et al. Informer： Beyond ? ? ?Efficient Transformer for Long Sequence Time-Series ?Forecasting[C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver： AAAI 2021， 35（12）： 11106-11115.

[13] 廖冬杰. 基于Dlib和變種Transformer的哈欠檢測(cè)方法[J]. 汽車技術(shù)， 2023（3）： 42-48.

LIAO D J. Yawn Detection Method Based on Dlib and ? Variant Transformer[J]. Automobile Technology， 2023（3）： 42-48.

[14] GHODDOOSIAN R， GALIB M， ATHITSOS V. A Realistic Dataset and Baseline Temporal Model for Early Drowsiness Detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach： IEEE， 2019.

[15] WENG C H， LAI Y H， LAI S H. Driver Drowsiness ? ? ? ? ? Detection via A Hierarchical Temporal Deep Belief ? ? ? ? Network[C]// ACCV Workshops. Taipei， China： Springer ? International Publishing， 2017.

[16] 任俊，魏霞，黃德啟，等. 基于眼睛狀態(tài)多特征融合的疲勞駕駛檢測(cè)[J]. 計(jì)算機(jī)工程與設(shè)計(jì)， 2022， 43（11）： 3187-3194.

REN J， WEI X， HUANG D Q， et al. Fatigue Driving ? ? ? ? ? Detection Based on Multi-Feature Fusion of Eye Status[J]. Computer Engineering and Design， 2022， 43（11）： 3187-3194.

[17] 王鵬，神和龍，尹勇，等. 基于深度學(xué)習(xí)的船舶駕駛員疲勞檢測(cè)算法[J]. 交通信息與安全， 2022， 40（1）： 63-71.

WANG P， SHEN H L， YIN Y， et al. Ship Driver Fatigue ? ?Detection Algorithm Based on Deep Learning[J]. Traffic ? ? ?Information and Safety， 2022， 40（1）： 63-71.

[18] YU J， PARK S， LEE S， et al. Representation Learning， Scene Understanding， and Feature Fusion for Drowsiness Detection[C]// ACCV 2016 Workshops. Taipei， China： Springer International Publishing， 2017.

[19] BEKHOUCHE S E， RUICHEK Y， DORNAIKA F. Driver Drowsiness Detection in Video Sequences Using Hybrid ? Selection of Deep Features[J]. Knowledge-Based Systems， 2022， 252.

（責(zé)任編輯王一）

修改稿收到日期為2023年8月7日。