王富強(qiáng),龍 濤
(西安明德理工學(xué)院信息工程學(xué)院,西安 710100)
隨著我國經(jīng)濟(jì)的快速增長,我國機(jī)動車擁有量已達(dá)到歷史新高。據(jù)公安部統(tǒng)計(jì),截至2023年1月11日,我國機(jī)動車保有量已達(dá)4.17億輛,每年仍以10%左右的速度在快速增長[1]。由此引發(fā)越來越多的交通事故,有90%以上事故是由于駕駛員操作不當(dāng)引起的,其中最突出的就是疲勞駕駛和分心駕駛引起的操作不當(dāng)。駕駛員疲勞駕駛和分心駕駛導(dǎo)致的交通事故已占交通事故的30%~40%,尤其在高速上,高達(dá)40%以上,所以近幾年來疲勞駕駛和分心駕駛已經(jīng)成為軌道交通安全領(lǐng)域的研究熱點(diǎn)[2]。
當(dāng)前駕駛員在駕駛習(xí)慣中存在著玩手機(jī)、打電話、東張西望、喝水、吸煙、疲勞駕駛、和后排乘客聊天等不良駕駛習(xí)慣,這些行為都會給安全駕駛構(gòu)成一定的威脅。在駕駛期間當(dāng)駕駛員出現(xiàn)上述行為時如果能夠提醒駕駛員以減少駕駛員分心,會減少交通事故發(fā)生,保護(hù)人民生命財(cái)產(chǎn)。
異常駕駛是一種注意力不集中的行為表現(xiàn),美國汽車協(xié)會交通安全基金會(AAAFTS)將異常駕駛定義為駕駛員由于車內(nèi)或車外發(fā)生的事件,導(dǎo)致駕駛員注意力從駕駛?cè)蝿?wù)轉(zhuǎn)移,對安全完成駕駛?cè)蝿?wù)所需的信息識別較慢的反應(yīng)。異常駕駛可以分為四種主要類型[3]:視覺干擾、聽覺干擾、認(rèn)知干擾和生物力學(xué)干擾。視覺干擾是指駕駛員在車內(nèi)或車外觀察其他事件、物體或人時視線的轉(zhuǎn)移;認(rèn)知干擾被定義為由于思考其他事情而從駕駛中轉(zhuǎn)移注意力;聽覺干擾的定義是由于使用手機(jī)、與其他乘客交流或使用其他音頻設(shè)備而從駕駛中分心。
為了減少交通事故和提高道路安全,人們提出了各種基于計(jì)算機(jī)視覺的方法。Kaggle 發(fā)起了一項(xiàng)名為State farm distracted driver detection的競賽,旨在通過一個儀表盤攝像頭拍攝的圖像,將注意力分散的駕駛行為與安全駕駛區(qū)分開來。在本文中主要利用圖像識別技術(shù)檢測駕駛員在駕車行駛過程中的不規(guī)范行為,以及時提醒駕駛員,減少交通事故的發(fā)生。
駕駛員異常檢測基于傳統(tǒng)的檢測方法主要分為基于生理信號的檢測、基于車輛行駛狀態(tài)的檢測和基于視覺的檢測三類?;谀X電信號的異常駕駛檢測主要是通過傳感器采集駕駛員生理信號來分析判斷駕駛員是否處于異常駕駛狀態(tài)。Li等[4]提出了通過小波變換分析心率變異性來檢測駕駛員是否處于異常駕駛狀態(tài),此方法達(dá)到了95%的準(zhǔn)確率,但其是一種侵入性檢測方式,對正常駕駛有一定干擾,目前只應(yīng)用于理論研究?;谲囕v行駛狀態(tài)的檢測是通過判斷車輛有無偏離車道線、方向盤偏轉(zhuǎn)角度、車速等來判斷駕駛員是否處于異常駕駛狀態(tài);屈肖蕾等[5]提出通過提取車輛轉(zhuǎn)向操作特性和車輛狀態(tài)特征,運(yùn)用SVM 算法判斷駕駛員是否處于異常駕駛狀態(tài);Hu 等[6]通過獲取車輛實(shí)時速度運(yùn)用局部設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)來判斷駕駛員是否處于異常駕駛狀態(tài),其缺點(diǎn)是該方法受道路環(huán)境、駕駛員駕駛經(jīng)驗(yàn)等因素影響?;谝曈X的檢測是通過攝像頭實(shí)時采集駕駛員頭部姿態(tài),從采集的實(shí)時視頻中提取幀圖像來檢測駕駛員是否存在喝水、東張西望、抽煙和玩手機(jī)等特征來判斷駕駛員是否存在異常駕駛;Yan 等[7]通過對駕駛員手部位置進(jìn)行監(jiān)測,來判斷駕駛員是否處于異常駕駛;Ragab 等[8]通過對6 名受試者眼睛狀態(tài)、手臂位置、面部表情和面部方向采用AdaBoost、隱馬爾可夫模型、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)進(jìn)行異常檢測;Eraqi 等[9]提出了遺傳加權(quán)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行異常駕駛檢測,達(dá)到了90%準(zhǔn)確率;Hu 等[3]提出基于信息融合的多列卷積神經(jīng)網(wǎng)絡(luò)異常駕駛檢測,但該方法存在網(wǎng)絡(luò)中參數(shù)多、時間開銷大且易過擬合等不足。
深度學(xué)習(xí)概念是由Hinton 等[10]于2006 年提出的,是機(jī)器學(xué)習(xí)中一種基于大量數(shù)據(jù)學(xué)習(xí)特征的學(xué)習(xí)方法,是機(jī)器學(xué)習(xí)的一個新的研究領(lǐng)域。受Hubel和Wiesel對貓視覺皮層電生理研究啟發(fā),提出卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。
本文主要通過對深度學(xué)習(xí)中經(jīng)典的模型-卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),來檢測駕駛員在駕駛過程中出現(xiàn)的異常駕駛行為,從而達(dá)到發(fā)出精準(zhǔn)警告信息的目的,進(jìn)而有效地降低交通事故的發(fā)生。因此駕駛員違規(guī)行為識別研究就變得十分重要且有意義,本文正是基于此做的相關(guān)研究。
考慮到普通卷積神經(jīng)網(wǎng)絡(luò)識別率低、魯棒性差,本文提出一種基于信息融合的多列卷積神經(jīng)網(wǎng)絡(luò)模型,如圖1 所示,本模型由三列卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,每列卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同,只是卷積核大小不一樣,卷積核大小分別為3×3、5×5、7×7,每列卷積神經(jīng)網(wǎng)絡(luò)由VGG16結(jié)構(gòu)改進(jìn)而成,結(jié)構(gòu)如圖2所示。
圖1 信息融合多列卷積神經(jīng)網(wǎng)絡(luò)模型
圖2 單列卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
每列卷積神經(jīng)網(wǎng)絡(luò)包含10 個層、8 個卷積層、一個全局平均池化層和一個全連接層,它以640×480的RGB 圖像作為輸入,8個卷積層可以分為五個階段來實(shí)現(xiàn),全局平均池化層(global average pooling,GAP)將卷積后的每個卷積特征圖均值,所有的卷積特征圖經(jīng)過全局平均池化層后輸入全連接層(fully connected,F(xiàn)C),最后通過Softmax 分類器輸出不同駕駛行為的概率。每列卷積神經(jīng)網(wǎng)絡(luò)激活函數(shù)采用ReLU,步長設(shè)置為2,最大池化(MaxPool)尺寸選為2×2。
實(shí)驗(yàn)數(shù)據(jù)集采用Kaggle 競賽官方提供的State farm distracted driver detection 駕駛員行為標(biāo)準(zhǔn)數(shù)據(jù)集(https://www.kaggle.com/),該數(shù)據(jù)集由102150 張640×480 的RGB 彩色圖片構(gòu)成,包含有十種駕駛狀態(tài),其中,訓(xùn)練集提供了22424張圖片,測試集提供了79726張圖片,每種駕駛狀態(tài)提供的數(shù)據(jù)樣本數(shù)見表1,每種駕駛狀態(tài)如圖3所示。
表1 數(shù)據(jù)集詳情
圖3 State farm distracted driver detection 數(shù)據(jù)集十種駕駛狀態(tài)
在State farm distracted driver detection 標(biāo)準(zhǔn)數(shù)據(jù)集上,將本文提出的多列卷積神經(jīng)網(wǎng)絡(luò)與其他算法進(jìn)行了比較。在該數(shù)據(jù)集上將圖片大小修改為224×224×3,學(xué)習(xí)率設(shè)置為0.0001。
大量研究者在State farm distracted driver detection 數(shù)據(jù)集上做了相關(guān)研究,都取得了不錯的研究成果,本文主要針對Alexnet、ResNet34和本文提出的融合算法進(jìn)行了對比實(shí)驗(yàn),主要從算法的識別準(zhǔn)確率和精確率方面進(jìn)行了對比分析,具體對比結(jié)果見表2和表3。
表2 不同算法在State farm distracted driver detection 數(shù)據(jù)集上的準(zhǔn)確率/%
表3 不同算法在State farm distracted driver detection 數(shù)據(jù)集上的精確率/%
本文提出了一種基于信息融合的多列卷積神經(jīng)網(wǎng)絡(luò)的異常駕駛行為識別方法。該方法首先利用卷積核大小不一樣的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行卷積,將每列卷積神經(jīng)網(wǎng)絡(luò)得到的卷積特征進(jìn)行融合,然后通過全局平均池化層進(jìn)行特征均值,全連接層將特征均值進(jìn)行降維,最后利用多分類函數(shù)Softmax 輸出不同駕駛行為的概率。相對傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),本文方法有效減少了參數(shù)運(yùn)算量,避免了全連接層帶來的過擬合問題,提高了分類正確率。