摘要:文章設(shè)計了一種基于深度學(xué)習(xí)的視覺-生理多模態(tài)疲勞駕駛檢測系統(tǒng)。該系統(tǒng)通過改進的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和注意力機制,提取駕駛員面部特征;結(jié)合心電圖(ECG)、腦電圖(EEG)和肌電圖(EMG)數(shù)據(jù),捕捉生理信號特征;使用多模態(tài)融合策略,綜合分析視覺和生理特征,實現(xiàn)高效、準確的疲勞狀態(tài)識別。實驗結(jié)果表明,該系統(tǒng)在不同駕駛場景下表現(xiàn)優(yōu)異,為提高道路交通安全提供了技術(shù)支持。
關(guān)鍵詞:疲勞駕駛檢測;深度學(xué)習(xí);多模態(tài)融合
中圖分類號:TP391.41 "文獻標志碼:A
0 引言
隨著汽車保有量的迅速增長和道路交通的日益繁忙,疲勞駕駛已成為威脅交通安全的主要因素之一。據(jù)統(tǒng)計,疲勞駕駛導(dǎo)致的交通事故占事故總數(shù)的20%~30%,造成了巨大的人員傷亡和財產(chǎn)損失。因此,開發(fā)一種高效、準確的疲勞駕駛檢測系統(tǒng)具有重要的現(xiàn)實意義和社會價值。近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于多模態(tài)數(shù)據(jù)融合的疲勞駕駛檢測方法展現(xiàn)出巨大潛力。本研究旨在設(shè)計一種基于深度學(xué)習(xí)的視覺-生理多模態(tài)疲勞駕駛檢測系統(tǒng),通過融合視覺特征和生理信號,實現(xiàn)更加準確、穩(wěn)定的疲勞狀態(tài)識別,為提高道路交通安全作出貢獻。
1 國內(nèi)外研究現(xiàn)狀
近年來,疲勞駕駛檢測作為交通安全領(lǐng)域的關(guān)鍵研究方向,在國內(nèi)外都受到了廣泛關(guān)注。隨著人工智能技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的多模態(tài)疲勞駕駛檢測方法逐漸成為研究熱點。
在國外研究中,Ngxande等[1]提出了一種基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,同時進行眼睛狀態(tài)識別和頭部姿態(tài)估計,在NTHU-DDD數(shù)據(jù)集上取得了96.2%的準確率。
國內(nèi)研究也取得了顯著進展。仲鵬宇[2]提出了以深度學(xué)習(xí)目標檢測模型固態(tài)硬盤(Solid State Disk,SSD)為基礎(chǔ),開展了基于多模態(tài)和輕量化的疲勞駕駛檢測算法研究,能有效地提升模型在不同光照環(huán)境下的檢測精度和魯棒性。朱浩[3]基于分心駕駛行為識別和疲勞駕駛行為,提出了多視圖分心駕駛行為識別模型MMob Net。韓一民等[4-7]根據(jù)面部特征以及面部多特征融合提出疲勞駕駛檢測系統(tǒng)。王秀等[8]利用Dlib庫提取駕駛員面部68個特征點及坐標,定位駕駛員人臉位置,通過HPE算法計算駕駛員頭部姿態(tài)的歐拉角,以統(tǒng)計駕駛員的點頭次數(shù),系統(tǒng)可分析駕駛員是否疲勞駕駛并做出安全提示。
盡管現(xiàn)有研究取得了顯著成果,但仍存在一些挑戰(zhàn):(1)實際駕駛環(huán)境復(fù)雜多變,系統(tǒng)在不同條件下的穩(wěn)定性有待提高;(2)多模態(tài)數(shù)據(jù)的實時融合和處理效率須要進一步優(yōu)化;(3)個體差異對疲勞表現(xiàn)的影響尚未得到充分考慮;(4)長時間連續(xù)工作場景下的疲勞演變規(guī)律研究不足。
基于以上分析,本研究旨在通過創(chuàng)新的深度學(xué)習(xí)架構(gòu)和多模態(tài)融合策略,設(shè)計并實現(xiàn)一個高效、魯棒的疲勞駕駛檢測系統(tǒng),以應(yīng)對實際應(yīng)用中的挑戰(zhàn)。
2 相關(guān)技術(shù)理論基礎(chǔ)
2.1 生理信號處理技術(shù)
生理信號如心電圖(Electrocardiogram, ECG)、EEG等能夠反映駕駛員的內(nèi)部生理狀態(tài)。ECG信號處理通常涉及QRS波群檢測、心率變異性(Heart Rate Variability,HRV)分析等。常用的QRS檢測算法包括Pan-Tompkins算法。EEG信號處理包括時頻分析、功率譜密度(Power Spectral Density,PSD)估計等。小波變換和經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)是常用的時頻分析方法。
2.2 深度學(xué)習(xí)理論
深度學(xué)習(xí)是實現(xiàn)高效特征提取和分類的核心技術(shù)。在視覺任務(wù)中,CNN如ResNet和DenseNet表現(xiàn)出色。對于時序數(shù)據(jù),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)特別是長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)能有效捕捉長期依賴關(guān)系。注意力機制的引入進一步提高了模型對關(guān)鍵信息的感知能力。
2.3 多模態(tài)融合方法
多模態(tài)融合旨在綜合利用不同來源的信息。常見的融合策略包括特征級融合和決策級融合。特征級融合通常通過concat或加權(quán)求和實現(xiàn),而決策級融合則綜合考慮各模態(tài)的獨立決策結(jié)果。近年來,基于注意力機制的動態(tài)融合方法顯示出優(yōu)異的性能,能夠自適應(yīng)地調(diào)整不同模態(tài)的重要性。
3 多模態(tài)疲勞駕駛檢測系統(tǒng)總體設(shè)計
本章詳細介紹基于深度學(xué)習(xí)的視覺-生理多模態(tài)疲勞駕駛檢測系統(tǒng)的總體設(shè)計方案。系統(tǒng)旨在通過融合視覺和生理信息,實現(xiàn)高效、準確的疲勞狀態(tài)識別。系統(tǒng)采用模塊化設(shè)計,主要包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、特征提取模塊、多模態(tài)融合模塊、疲勞狀態(tài)判斷模塊和預(yù)警模塊。系統(tǒng)整體架構(gòu)如圖1所示。
在數(shù)據(jù)采集方面,系統(tǒng)采用高幀率、低延遲的紅外攝像頭采集視覺數(shù)據(jù),安裝在駕駛艙內(nèi)儀表盤上方,確保能夠清晰地捕捉駕駛員面部特征。生理信號主要采集ECG和EEG數(shù)據(jù)。ECG采集使用無線胸帶式傳感器,采樣頻率為250 Hz;EEG采集使用便攜式頭戴設(shè)備,包含8個電極,采樣頻率為512 Hz。所有數(shù)據(jù)通過藍牙實時傳輸至中央處理單元。
數(shù)據(jù)預(yù)處理模塊對原始數(shù)據(jù)進行初步處理。視覺數(shù)據(jù)預(yù)處理包括圖像去噪、光照補償和尺寸標準化,采用自適應(yīng)中值濾波進行去噪,CLAHE算法進行光照補償,最后將圖像調(diào)整為224×224大小。生理信號預(yù)處理包括帶通濾波去除基線漂移和高頻噪聲以及R波檢測(針對ECG)和小波變換去除眼電和肌電偽跡(針對EEG)。
特征提取模塊是系統(tǒng)的核心部分。視覺特征提取采用改進的ResNet50網(wǎng)絡(luò),通過遷移學(xué)習(xí)和微調(diào)適應(yīng)疲勞檢測任務(wù),輸出包括眼睛狀態(tài)、頭部姿態(tài)和面部表情等高級特征。生理特征提取主要關(guān)注HRV指標和EEG的PSD特征,采用改進的LSTM網(wǎng)絡(luò)捕捉這些特征的時序變化。
多模態(tài)融合模塊采用基于注意力機制的動態(tài)加權(quán)策略。本文設(shè)計了一個多頭自注意力模塊,分別對視覺和生理特征進行加權(quán),然后通過門控機制動態(tài)調(diào)整2種模態(tài)的融合權(quán)重,這種方法能夠自適應(yīng)地關(guān)注不同駕駛場景下最有信息量的特征。
疲勞狀態(tài)判斷模塊采用集成學(xué)習(xí)方法,綜合考慮多個子模型的輸出。子模型包括基于融合特征的全連接神經(jīng)網(wǎng)絡(luò)、基于原始視覺數(shù)據(jù)的3D CNN和基于生理時序數(shù)據(jù)的雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)模型。本文通過加權(quán)投票機制得出最終的疲勞狀態(tài)判斷結(jié)果,將疲勞程度劃分為正常、輕度疲勞、中度疲勞和重度疲勞4個等級。
預(yù)警模塊根據(jù)疲勞狀態(tài)判斷結(jié)果,采取分級預(yù)警策略。當駕駛員輕度疲勞時通過車載顯示屏顯示視覺警告;當駕駛員中度疲勞時,添加聲音提醒;當駕駛員重度疲勞時,觸發(fā)強烈的聲光警報并可選擇與車輛控制系統(tǒng)聯(lián)動。為減少誤報,系統(tǒng)采用時間窗口機制,只有在連續(xù)多個時間窗口內(nèi)部檢測到疲勞狀態(tài),才能觸發(fā)相應(yīng)級別的警報。此外,系統(tǒng)提供人機交互界面,允許駕駛員根據(jù)個人情況調(diào)整警報靈敏度。
4 關(guān)鍵技術(shù)實現(xiàn)
4.1 基于深度學(xué)習(xí)的視覺特征提取
本文采用深度學(xué)習(xí)方法從駕駛員面部圖像中提取視覺特征。本文使用了改進的CNN模型,該模型由多個卷積層、池化層和全連接層組成。首先,本文通過車載攝像頭實時捕獲駕駛員面部圖像,經(jīng)過預(yù)處理后輸入CNN模型。卷積層負責提取局部特征,如眼睛閉合程度、嘴部張合狀態(tài)等;池化層通過降采樣減少計算量并提高模型魯棒性;全連接層進一步整合這些特征,最終輸出高維特征向量。為了提高模型性能,本文采用遷移學(xué)習(xí)策略,使用在大規(guī)模人臉數(shù)據(jù)集上預(yù)訓(xùn)練的模型作為初始化并在自建的疲勞駕駛數(shù)據(jù)集上進行微調(diào)。此外,本文還引入了注意力機制,使模型能夠自動關(guān)注人臉中最具判別性的區(qū)域,如眼睛和嘴巴周圍。通過這些優(yōu)化,本系統(tǒng)能夠有效提取駕駛員面部的細微變化,為后續(xù)疲勞狀態(tài)識別提供可靠的視覺特征。
4.2 生理信號特征提取與分析
在生理信號特征提取方面,本文主要采集和分析駕駛員的ECG、EEG和肌電圖(Electromyogram, EMG)數(shù)據(jù)。對于ECG信號,本文首先進行去噪和基線漂移校正,然后使用Pan-Tompkins算法準確定位R波峰,計算HRV指標,如SDNN、RMSSD等。對于EEG信號處理,本文采用小波變換對原始信號進行時頻分析,提取δ、θ、α、β這4個頻段的能量特征。對于EMG信號,本文計算RMS值、平均功率頻率等指標來表征肌肉疲勞程度。為了捕捉生理信號的動態(tài)變化,本文設(shè)計了滑動窗口機制,以固定時間間隔提取特征。通過這些方法,本文能夠全面、準確地刻畫駕駛員的生理狀態(tài)變化,為多模態(tài)融合奠定基礎(chǔ)。
4.3 多模態(tài)數(shù)據(jù)融合與疲勞狀態(tài)識別
本文采用多模態(tài)數(shù)據(jù)融合策略,綜合利用視覺特征和生理特征進行疲勞狀態(tài)識別。本文設(shè)計了一種基于注意力機制的多模態(tài)融合網(wǎng)絡(luò),能夠自適應(yīng)地調(diào)整不同模態(tài)特征的權(quán)重。
首先,視覺特征和生理特征經(jīng)過各自的特征提取網(wǎng)絡(luò),輸入多頭自注意力模塊。然后,該模塊通過學(xué)習(xí)特征間的相關(guān)性,生成融合后的上下文感知特征。本文使用門控循環(huán)單元(Gated Recurrent Unit,GRU)網(wǎng)絡(luò)捕捉時序依賴關(guān)系,對疲勞狀態(tài)的動態(tài)變化過程進行建模。最后,本文通過全連接層和Softmax函數(shù)輸出疲勞程度的概率分布。在訓(xùn)練過程中,本文采用多任務(wù)學(xué)習(xí)框架,同時優(yōu)化疲勞分類損失和特征重構(gòu)損失,以增強模型的泛化能力。通過多模態(tài)融合,該系統(tǒng)能夠充分利用不同來源的信息,實現(xiàn)更加準確和魯棒的疲勞駕駛檢測。
5 系統(tǒng)實現(xiàn)與評估
5.1 系統(tǒng)實現(xiàn)
本文基于Python語言開發(fā)了一套完整的疲勞駕駛檢測系統(tǒng)。系統(tǒng)架構(gòu)采用模塊化設(shè)計,主要包括數(shù)據(jù)采集、特征提取、多模態(tài)融合和疲勞狀態(tài)識別4個模塊。數(shù)據(jù)采集模塊使用OpenCV庫實時處理攝像頭輸入的視頻流,同時,通過串口通信接收生理信號采集設(shè)備傳輸?shù)臄?shù)據(jù)。特征提取模塊基于PyTorch深度學(xué)習(xí)框架實現(xiàn),包括用于視覺特征提取的CNN模型和用于生理信號處理的信號處理算法庫。多模態(tài)融合和疲勞狀態(tài)識別模塊同樣基于PyTorch實現(xiàn),整合了注意力機制和GRU網(wǎng)絡(luò)。
為確保系統(tǒng)的實時性能,本文采用多線程并行處理策略,將數(shù)據(jù)采集、特征提取和狀態(tài)識別等任務(wù)分配到不同的線程中執(zhí)行。此外,本文還利用NVIDIA CUDA技術(shù)進行GPU加速,顯著提升了深度學(xué)習(xí)模型的推理速度。系統(tǒng)的用戶界面基于PyQt5框架開發(fā),提供了直觀的駕駛員狀態(tài)監(jiān)控和警報功能。
5.2 實驗設(shè)置與評估方法
為評估系統(tǒng)性能,本文招募了50名志愿者(25名男性,25名女性,年齡范圍在22~55歲)進行實車駕駛實驗。實驗在封閉測試場進行,模擬了不同時間段(早晨、午后、深夜)和路況(城市、高速)的駕駛情景。每位志愿者參與3次實驗,每次持續(xù)2 h。在實驗過程中,本文同時記錄了系統(tǒng)的檢測結(jié)果和專業(yè)觀察員的主觀評分作為地面真值。評估指標包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分數(shù)。此外,本文還計算了系統(tǒng)的平均響應(yīng)時間和誤報率,以評估實用性。
5.3 結(jié)果分析與討論
實驗結(jié)果表明,本系統(tǒng)在疲勞駕駛檢測任務(wù)上取得了優(yōu)異的性能。在50名志愿者的測試數(shù)據(jù)上,系統(tǒng)的平均準確率達到92.3%,精確率為90.2%,召回率為91.1%,F(xiàn)1分數(shù)為90.9%。與基線方法相比,本系統(tǒng)的準確率提高了約3個百分點,表明多模態(tài)融合策略的有效性。
在不同駕駛場景下,系統(tǒng)表現(xiàn)出良好的魯棒性。特別是在夜間高速駕駛等高風(fēng)險場景中,系統(tǒng)的檢測準確率保持在90%以上。平均響應(yīng)時間為0.9 s,滿足實時預(yù)警的需求。誤報率控制在5%以內(nèi),有效降低了對駕駛員的干擾。通過分析不同特征的貢獻度,本文發(fā)現(xiàn)眨眼頻率、EEG的波段能量和HRV是最具判別力的指標。
6 結(jié)語
本文設(shè)計并實現(xiàn)了一種基于深度學(xué)習(xí)的視覺-生理多模態(tài)疲勞駕駛檢測系統(tǒng)。通過綜合利用駕駛員的面部圖像和生理信號,本文成功構(gòu)建了一個高效、準確的疲勞狀態(tài)識別模型。本研究的主要貢獻和結(jié)論如下:本文提出了一種改進的CNN模型用于視覺特征提取,結(jié)合遷移學(xué)習(xí)和注意力機制,有效捕捉了駕駛員面部的細微變化;設(shè)計了一套全面的生理信號處理方法,包括ECG、EEG和EMG的特征提取算法,為疲勞狀態(tài)識別提供了多維度的生理學(xué)依據(jù);開發(fā)了基于注意力機制的多模態(tài)融合網(wǎng)絡(luò),實現(xiàn)了視覺和生理特征的有效整合,顯著提高了疲勞檢測的準確性和魯棒性;通過大規(guī)模實車實驗驗證了系統(tǒng)的性能,所提方法在不同駕駛場景下均取得了優(yōu)異的檢測結(jié)果,為實際應(yīng)用奠定了基礎(chǔ)。
盡管本研究取得了顯著成果,但仍存在一些局限性和未來可改進的方向。首先,現(xiàn)有數(shù)據(jù)集的規(guī)模和多樣性仍有待提高,特別是須要包含更多極端天氣和復(fù)雜路況下的樣本。其次,系統(tǒng)的計算復(fù)雜度仍有優(yōu)化空間,以適應(yīng)更多低成本硬件平臺。最后,如何將本系統(tǒng)與車輛控制系統(tǒng)深度集成,實現(xiàn)主動安全干預(yù),也是值得進一步探索的方向。
參考文獻
[1]NGXANDE M, TAPAMO J R, BURKE M. Bias remediation in driver drowsiness detection systems using generative adversarial networks[J]. IEEE Access,2020,8: 55592-55601.
[2]仲鵬宇.基于SSD的輕量化與多模態(tài)疲勞駕駛檢測算法研究[D].南京:南京郵電大學(xué),2022.
[3]朱浩.基于深度學(xué)習(xí)與計算機視覺的駕駛行為檢測系統(tǒng)設(shè)計[D].南京:南京郵電大學(xué),2023.
[4]韓一民.基于面部多特征融合的疲勞駕駛檢測系統(tǒng)設(shè)計與實現(xiàn)[D].武漢:華中師范大學(xué),2023.
[5]王小榮,張益通,彭炫.基于人臉關(guān)鍵點檢測的車載疲勞駕駛系統(tǒng)研究[J].無線互聯(lián)科技,2022(17):82-84.
[6]陳志琳.基于面部特征的疲勞駕駛檢測系統(tǒng)設(shè)計與實現(xiàn)[D].西安:西安工業(yè)大學(xué),2022.
[7]黃志超,趙紅梅,陳奕迅,等.基于面部識別的駕駛員疲勞危險駕駛檢測系統(tǒng)[J].機電工程技術(shù),2021(12):143-146.
[8]王秀,周楓曉,劉保羅,等.基于Dlib庫的駕駛員疲勞駕駛檢測系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2021(12):26-29.
(編輯 王雪芬編輯)
Design of deep learning-based visual-physiological multi-modal fatigue
driving detection system
CHEN" Xiaoqiang, ZHANG" Hui, HUANG" Zhipeng
(School of Mechanical and Electronic Engineering, Ji’an College, Ji’an 343065, China)
Abstract: This paper designs a deep learning-based visual-physiological multi-modal fatigue driving detection system. By employing an improved convolutional neural network(CNN) and attention mechanism, the system extracts facial features of the drivers. It also integrates electrocardiogram(ECG), electroencephalogram(EEG), and electromyogram(EMG) data to capture physiological signal characteristics. Utilizing a multi-modal fusion strategy, the system comprehensively analyzes both visual and physiological features to achieve efficient and accurate fatigue state recognition. Experimental results demonstrate that the system performs excellently in various driving scenarios, providing technical support for enhancing road traffic safety.
Key words: fatigue driving detection; deep learning; multi-modal fusion