亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

司機分心駕駛檢測研究進展

2021-09-09 08:09:06秦斌斌彭良康盧向明錢江波

計算機應用 2021年8期

秦斌斌，彭良康，盧向明，錢江波

（寧波大學信息科學與工程學院，浙江寧波 315211）

0 引言

美國國家公路交通安全管理局（National Highway Traffic Safety Administration，NHTSA）公布數(shù)據(jù)約65%的臨界碰撞和80%的車輛碰撞事故是司機分心駕駛導致的（https：//www.nhtsa.gov/risky-driving/distracted-driving/）。美國汽車聯(lián)合會交通安全基金會定義駕駛分心狀態(tài)為由于車內(nèi)或車外的一些物體、人、動作的影響而導致司機注意力沒有集中在駕駛任務中，導致司機的對外界的反應力下降，使得司機應對危險情況無法采取有效的行為［1］。Lee等［2］定義司機分心駕駛為：司機注意力轉(zhuǎn)向與駕駛任務無關的活動，造成司機視覺、意識、決策以及操作能力下降的一種危險行為，兩種司機分心駕駛定義的關注點都是司機的注意力分散，而司機注意力分散主要集中在操作電子產(chǎn)品上。如Redelmeier等［3］通過對699個曾經(jīng)歷過交通事故的駕駛人調(diào)查得知，在交通事故前10 min使用手機的司機發(fā)生交通事故的概率是正常駕駛司機的4.3倍。

為了避免司機分心駕駛導致的交通事故，國內(nèi)外汽車行業(yè)開始研究智能輔助駕駛系統(tǒng)、安全駕駛檢測。Rigas等［4］提出了一種用于檢測司機的壓力和疲勞的方法，從生理信號、視頻數(shù)據(jù)和駕駛環(huán)境參數(shù)表明分類的準確性很高。胡云峰等［5］介紹了智能汽車人機協(xié)同控制中駕駛員建模及人機駕駛權動態(tài)優(yōu)化控制的國內(nèi)外智能化駕駛研究現(xiàn)狀，如一些自動數(shù)據(jù)采集系統(tǒng)（Automatic Data Acquisition System，ADAS）等輔助駕駛運用在汽車上，對司機起到一定保護作用，但僅僅依賴智能駕駛不能從根本上解決問題。2020年7月15日，據(jù)外國媒體報道，一名司機開啟了Autopilot自動輔助駕駛系統(tǒng)，因注意力不集中最終撞上了一輛停在路邊的警車，導致被指控過失駕駛。這說明即使具備高級駕駛輔助系統(tǒng)，駕駛員仍需要注意開車環(huán)境，隨時做好控制方向盤的準備?！叭恕币琅f是主體駕駛的決定因素。基于生理信號的傳統(tǒng)算法的司機分心駕駛檢測［6-8］，數(shù)據(jù)的獲取需要測量司機生理信號信息等，司機需要佩戴相關的設備、儀器，會對司機的駕駛產(chǎn)生不適，雖然這種方法能取得不錯的結果，而且生理信號受外界因素影響較小，但需要佩戴設備，可擴展性差?；陬^部、眼睛的司機分心駕駛檢測容易被司機駕駛過程中是否佩戴眼鏡、不同時段光線強弱的變化導致眼睛特征信息所影響［9-11］。除此之外，司機的身高、坐姿等習慣對于頭部姿勢的準確獲取同樣需要考慮，這種方式的準確度一般。

隨著深度學習的興起和發(fā)展，基于圖像分類和檢測技術越來越成熟。由此，研究人員利用攝像頭對司機的駕駛過程進行拍攝，對拍攝的圖像輸入到訓練好的分心檢測模型檢測識別，可以避免司機穿戴采集生理信號設備的繁瑣，固定好攝像頭的拍攝駕駛座位區(qū)域，這樣就不會因為司機的駕駛坐姿和身高等因素影響檢測結果，基于深度學習的司機分心檢測已經(jīng)越來越受到學者的關注，本文將主要介紹傳統(tǒng)計算機視覺（Computer Vision，CV）算法和深度學習算法在司機分心駕駛檢測的研究現(xiàn)狀。

1 基于傳統(tǒng)算法的司機駕駛分心檢測

在深度學習快速發(fā)展之前，圖像的分類、檢測等任務都會使用到特征提取，有很多計算機視覺（CV）算法可用于圖像特征提取，如方向梯度直方圖（Histogram of Oriented Gradient，HOG）、尺度不變特征轉(zhuǎn)換（Scale-Invariant Feature Transform，SIFT）等，之后利用CV算法提取到的特征向量建立支持向量機（Support Vector Machine，SVM）分類模型進行分類識別。

HOG算法是在2005年的CVPR（Conference on Computer Vision and Pattern Recognition）大會上首次被提出來的，目前被廣泛使用在行人檢測中。在早期的圖像研究中，基于HOG和SVM的圖像識別方法被廣泛使用。林錦彬等［12］首先對輸入圖像采用歸一化等方法進行預處理，去除干擾噪聲，接著利用HOG特征算子提取輸入圖像的特征，最后利用提取的圖像特征建立SVM分類器模型。隨著研究人員的不斷探索，HOG和SVM的圖像識別被使用的場景越來越廣泛。徐淵等［13］設計了一個內(nèi)嵌SVM分類器的HOG特征提取歸一化模塊，他采用16×16像素塊對圖像進行掃描，生成HOG特征數(shù)據(jù)，然后將15路并行SVM內(nèi)嵌到HOG歸一化模塊中，通過提前啟動SVM降低15路SVM乘累加器的位寬.在硬件層面消除了檢測重復性算法，進一步提高了行人檢測的準確性。處理利用HOG提取特征外，SIFT等也常被用于圖像特征提取。劉濤［14］提出了一種基于SIFT和SVM的醫(yī)學圖像識別系統(tǒng)，利用K-mean聚類的方法對圖像的SIFT特征算子進行分類，之后，借助圖像特征袋的思想，將醫(yī)學圖像用自身SIFT算子類別的統(tǒng)計數(shù)據(jù)表示，一幅醫(yī)學圖像就可以用一個k維的向量表示，最后將該向量送入SVM分類器進行識別。

由于HOG被廣泛使用在行人檢測的場景中，而司機駕駛本身也屬于對人的檢測，所以針對司機分心駕駛檢測的HOG和SVM方法也被提出，卜慶志等［15］首先獲取輸入圖像中的感興趣區(qū)域，對圖像進行灰度化、濾波，從而削弱光線的影響，然后計算圖像某塊區(qū)域的梯度，將圖像的每一塊疊加起來，從而可以得到輸入圖像的梯度直方圖，最終獲得HOG特征，HOG提取流程如圖1，使用交叉驗證法尋找最優(yōu)的SVM分類器參數(shù)。最后，使用SVM模型為駕駛員的不同行為進行分類識別，最終系統(tǒng)框架如圖2。

圖1 HOG提取特征的過程Fig.1 HOG featureextraction process

圖2 基于HOG與SVM的駕駛員行為識別系統(tǒng)框架Fig.2 Framework of driver behavior recognition system based on HOG and SVM

但是，這類方法在行人檢測方面存在運算量大、實時性差的問題?；趥鹘y(tǒng)的CV算法必須從每張圖像中選擇特征，然而，隨著圖像種類和數(shù)量的劇增，特征提取將會變得越來越繁瑣。要確定哪些特征最能描述不同的目標類別，取決于研究人員的判斷和試錯，而且傳統(tǒng)CV算法具有對環(huán)境要求高、運用范圍較窄、參數(shù)多、計算量大的缺點。除此之外，每個特征定義還需要處理大量參數(shù)，所有參數(shù)必須由研究人員進行調(diào)整，而深度學習則采用的是端到端學習的解決方案，即輸入的數(shù)據(jù)標簽已經(jīng)標注好。利用這些標注的數(shù)據(jù)訓練神經(jīng)網(wǎng)絡模型，自動獲取和調(diào)整對目標類別最具表現(xiàn)力的特征，基于此，深度學習普遍開始在學術界應用起來。

2 基于深度學習的司機駕駛分心檢測

卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network，CNN）被證明是實現(xiàn)高精度的最有效的技術［16］。隨著深度學習的興起與快速發(fā)展，CNN已經(jīng)應用于許多計算機視覺問題，如圖像識別和目標檢測等，在計算機視覺領域取得了很好的效果，基于深度學習的研究方法受到越來越多研究人員的關注，利用車內(nèi)儀表盤攝像頭對司機駕駛過程拍攝，使用預先訓練好的神經(jīng)網(wǎng)絡模型對拍攝的圖像檢測識別，深度學習算法能獲得很高的識別率。

基于深度學習的司機分心駕駛研究主要分為三種類型：傳統(tǒng)算法結合CNN、改進的2DCNN結構和基于3DCNN的檢測方法。

2.1 傳統(tǒng)算法結合CNN

CNN大量的可學習參數(shù)給實時系統(tǒng)帶來了很大的難題。為了解決這一問題，Arefin等［17］提出的方法由改進的AlexNet結構和HOG特征的聚合組成，如圖3。

圖3 改進的AlexNet結構和HOG特征聚合組成的網(wǎng)絡結構Fig.3 Network structure integrated by improved AlexNet structureand HOG features

修改后的網(wǎng)絡可以顯著地減少網(wǎng)絡參數(shù)，而融合HOG特征則豐富了CNN的輸出，具體修改如下：在AlexNet的卷積層之后，特征映射變?yōu)?×6×256，然后連接到大小為4 096的全連接層，AlexNet結構中全連接層參數(shù)量占的比重最多，為了減少這些參數(shù)，Arefin等［17］將全連接層修改為輸出特征映射為3×3×512，然后進行2×2最大池化層，這樣可以有效減少全連接層帶來的大量網(wǎng)絡參數(shù)。網(wǎng)絡的另一條分支使用大小為16×16的cell對輸入圖像提取了1 568的HOG特征，并將其與1 024大小的全連接層相連。最后，將改進的AlexNet網(wǎng)絡輸出特征與1 024大小的HOG特征融合得到最終的分類結果。Arefin等［17］主要目標是準確地檢測駕駛員在實時環(huán)境中的行為，將HOG特征與修改后的AlexNet的輸出融合起來，這樣豐富了網(wǎng)絡用于判斷司機駕駛行為的信息。實驗結果表明，與原始AlexNet網(wǎng)絡結構相比，模型中的參數(shù)從62.3×106減少到9.7×106，識別準確度只比原來降低了0.46%。

Majdi等［18］提出了一種Drive-Net的自動監(jiān)督學習方法，用于司機分心駕駛檢測。Drive-Net是一個級聯(lián)分類器，由兩個階段組成：CNN作為第一階段，用于特征提取，采用U-Net體系結構［19］作為第一階段的基礎結構提取特征。U-Net是一種計算機分割網(wǎng)絡，能夠更好地捕獲上下文信息，所以選擇U-Net提取第一階段的特征。第二階段使用隨機森林分類，隨機森林分類器通過組合一組決策樹分類器來預測結果，其中每棵樹都以某種隨機的方式生長。隨機森林分類器中每棵樹的預測節(jié)點通過圖像類［20］上的后驗分布進行標記。Majdi等［18］采用第一階段的輸出作為隨機決策林的輸入來預測最終的結果。網(wǎng)絡結構如圖4。

圖4 Drive-Net的網(wǎng)絡結構Fig.4 Network structure of Drive-Net

2.2 改進的2DCNN結構

由于最初提出的VGG（Visual Geometry Group）結構存在參數(shù)量大和泛化能力有限的問題，研究人員提出了很多算法改進CNN的特征提取方式。Baheti等［21］使用原始VGG-16網(wǎng)絡進行分心駕駛檢測實驗得知，原始VGG-16模型對訓練數(shù)據(jù)的擬合度過高，在訓練集上表現(xiàn)良好，準確率接近100%，但并沒有在測試數(shù)據(jù)表現(xiàn)出很好的泛化能力。結合其他研究人員提出的網(wǎng)絡改進方法，如正則化技術來提高原始VGG-16網(wǎng)絡的泛化能力，以下是對原VGG-16網(wǎng)絡的主要修改：

1）由于ReLU函數(shù)將所有小于零的輸入的輸出值設置為零，某些神經(jīng)元的權重可能永遠不會更新，可能會導致神經(jīng)元死亡。LeakyReLU通過在負坐標區(qū)域引入一個小斜率來解決這個問題，以保持更新權重的能力。

2）網(wǎng)絡中添加Dropout層，有助于減少神經(jīng)元之間相互依賴的學習。在卷積層和全連通層中增加線性增長的Dropout層。

3）添加L2 Weight Regularization，具有較小權重的模型在某種程度上比具有大權值的網(wǎng)絡簡單［22］。它是通過懲罰直接在成本函數(shù)中的所有參數(shù)的平方大小來實現(xiàn)的。

4）Batch Regularization有助于提高神經(jīng)網(wǎng)絡的性能和穩(wěn)定性，使網(wǎng)絡層的輸出遵循單位高斯分布，它減少了對權重初始化的強烈依賴，改善了網(wǎng)絡中的梯度流，并允許更高的學習率。

除上述修改外，Baheti等［21］考慮到原始VGG-16的全連接層的參數(shù)過于龐大，用兩層卷積層代替全連接層能大幅減少網(wǎng)絡參數(shù)量［23］。因此，Baheti等［21］用1×1卷積層代替全連接層，建立了一個完全卷積的神經(jīng)網(wǎng)絡結構。參數(shù)量僅為原始VGG-16參數(shù)的11%，最終改進的網(wǎng)絡結構如圖5。

圖5 基于改進VGG-16的網(wǎng)絡結構Fig.5 Network structurebased on improved VGG-16

Eraqi等［24］設計了American University in Cairo Distracted Driver（AUCD2）數(shù)據(jù)集，由7個不同國家的44名參與者：埃及（37名）、德國（2名）、美國（1名）、加拿大（1名）、烏干達（1名）、巴勒斯坦（1名）和摩洛哥（1名）參與拍攝數(shù)據(jù)集。數(shù)據(jù)集是在5種不同的轎車中拍攝，提取了17 308幀圖像，分為如下類別：安全駕駛、右手打電話、左手打電話、右手發(fā)短信、左手發(fā)短信、調(diào)整收音機、喝飲料、整理頭發(fā)或化妝、轉(zhuǎn)向后座、與乘客交談。

Eraqi等［24］提出的解決方案包括一個遺傳加權集合的卷積神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡對原始圖像、皮膚分割圖像、人臉圖像、手圖像和“臉手”圖像進行訓練。在這五個圖像源上，預先用ImageNet數(shù)據(jù)集分別在AlexNet網(wǎng)絡［25］、InceptionV3網(wǎng)絡［26］、ResNet50網(wǎng)絡［27］和VGG-16網(wǎng)絡［28］預訓練，然后對訓練好的模型進行微調(diào)，利用遺傳算法求出所有網(wǎng)絡輸出的加權和，最終取得了95.98%的測試準確度。如圖6所示。

圖6 集成卷積神經(jīng)網(wǎng)絡結構Fig.6 Integrated convolutional neural network structure

由于Eraqi等［24］提出網(wǎng)絡參數(shù)量過大，無法滿足實時檢測的要求，Baheti等［29］提出了一種基于深度可分離卷積的MobileVGG的網(wǎng)絡結構，深度卷積將卷積應用于單個輸入信道，如圖7（a）所示。它將獨立地捕獲每個通道內(nèi)的關系，然后疊加結果，它的濾波器數(shù)目等于輸入通道的數(shù)目，每個濾波器的深度為1；點卷積深度卷積只過濾輸入通道，而不結合它們來創(chuàng)建新的特征。點卷積基本上執(zhí)行深度層輸出的線性組合，如圖7（b）所示。

圖7 深度可分離卷積Fig.7 Depthwise separable convolution

這兩種卷積的組合形成深度可分卷積。Baheti等［29］這個想法看起來很簡單，但可以極大地減少模型訓練計算量。如果濾波器大小為3，深度可分離卷積計算量比標準卷積計算量減少了80%～90%，而且沒有太大的精度損失。MobileVGG網(wǎng)絡除了使用深度可分離卷積外，Baheti等［29］將1×1大小的卷積操作代替全連接層，網(wǎng)絡輸出大小減小為512個神經(jīng)元。這樣可以節(jié)省大量參數(shù)，最終的網(wǎng)絡模型如圖8。

圖8 MobileVGG網(wǎng)絡結構Fig.8 MobileVGG network structure

Koesdwiady等［30］自己制作了數(shù)據(jù)集用于實驗模型訓練和測試，提出了一種用于司機分心識別的端到端深學習解決方案。在該框架中，利用預先訓練的卷積神經(jīng)網(wǎng)絡VGG-19提取的特征，添加兩層全連接層對VGG-19的結果微調(diào)，最后采用Softmax分類得到預測結果類別。Koesdwiady等［30］創(chuàng)建的數(shù)據(jù)集中考慮了不同光照條件、相機位置、司機種族的因素。結果表明，與最先進的XGBoost的比較表明，Koesdwiady等［30］所提出的方法在精度上優(yōu)于XGBoost，如圖9。相比于原始網(wǎng)絡結構，改進的CNN結構具有準確率更高、泛化能力更強、參數(shù)量更少的特點，通過結合新的技術到CNN中，改進后的CNN在司機分心駕駛檢測方面取得了更好的效果。

圖9 端到端深度學習解決方案Fig.9 End-to-end deep learning solution

da Silva Oliveira等［31］介紹了三種轉(zhuǎn)移學習方法的比較研究結果，如圖10～12。該方法對司機的駕駛狀態(tài)進行檢測。對深度卷積神經(jīng)網(wǎng)絡的四種結構進行了評價：VGG-19、InceptionV3、ResNet152和DenseNet161。結果表明，對于所研究的數(shù)據(jù)庫，端到端遷移學習僅優(yōu)于完全連接層的微調(diào)，也優(yōu)于由相同的深卷積網(wǎng)絡提取的特征訓練的淺層分類別。Varaich等［32］使用InceptionV3和Xception來識別State Farm Distracted Driver Detection（SFD3）數(shù)據(jù)集中司機分心駕駛動作。他們詳細討論了這兩種體系結構在兩種不同的權重初始化方案下的性能（損失、精度），即使用隨機初始化和遷移學習權重，他們指出通過用這些預先訓練的權重初始化網(wǎng)絡，確保了常見的原始特征（如邊緣和基本形狀等）已經(jīng)被網(wǎng)絡學習了，所以它不必從頭開始學習。實驗結果表明使用ImageNet初始化權重的遷移學習來訓練Xception體系結構對隨機分割訓練數(shù)據(jù)進行實驗，測試精度進一步提高到99.3%。

圖10 端對端微調(diào)方法的遷移學習Fig.10 Transfer learningof end-to-end fine-tuning method

圖11 遷移學習的完全連接層微調(diào)Fig.11 Fully connected layer fine-tuningof transfer learning

圖12 特征提取方法的遷移學習Fig.12 Transfer learningof featureextraction method

2.3 基于3DCNN的檢測方法

Moslemi等［33］提出利用三維卷積神經(jīng)網(wǎng)絡和光流法來改善駕駛員的分心檢測任務，從時間信息中獲取有用信息?？紤]到訓練數(shù)據(jù)集相對較小，為了解決過度擬合問題，采用遷移學習的方法初始化卷積層的權重，然后對模型進行微調(diào)，加快相關任務的訓練過程。Moslemi等［33］使用了預先訓練過的模型作為起點，將從一般的動作識別任務中學到的知識轉(zhuǎn)移到分心的駕駛員分類中。三維網(wǎng)絡的第一層卷積核可以從輸入數(shù)據(jù)的一小部分空間中觀察到一個短的時間序列，這個序列可能對應于一個微妙的手指運動或眨眼睛。為了研究司機分心駕駛數(shù)據(jù)集的時間信息，Moslemi等［33］使用AUCD2和SFD3數(shù)據(jù)集創(chuàng)建了視頻幀數(shù)據(jù)，而不是使用單幀圖片。首先，將每個數(shù)據(jù)集排列成不同的類別-時間排序的動作段，制作了一系列10幀視頻，每個視頻使用一個滑動窗口獲取，其步長為一步，從而完成了視頻幀數(shù)據(jù)的創(chuàng)建。Moslemi等［33］使用的模型稱為“Two-Stream Inflated 3DConvNet”（I3D），它基于2維卷積體系結構設計，但它們的卷積核和最大池化核被擴展為3維，從而產(chǎn)生了自然的時空分類器。一個I3D網(wǎng)絡在RGB輸入上訓練，另一個在光流輸入上訓練。兩個網(wǎng)絡分別訓練，最后將訓練結果融合得出司機分心駕駛的類別，如圖13所示。

圖13 Two-Stream 3DCNNFig.13 Two-Stream 3DCNN

隨著城市軌道交通的快速發(fā)展，交通安全已成為人們關注的焦點，Carreira等［34］將標準的交通運營行為與司機疲勞分心行相結合，構建了適合城市軌道交通行業(yè)的疲勞分心檢測系統(tǒng)，如圖14。該系統(tǒng)包括軌道交通司機大規(guī)模運營動態(tài)跟蹤模型和基于三元的雙輸入動作判別模型，將滑動幀和連續(xù)幀作為模型的輸入，并從兩個輸入中提取五個通道的信息。雙輸入多通道信息使模型不僅能夠了解整個動作的時空信息，而且能夠了解動作的細微變化。Carreira等［34］使用公開的KTH數(shù)據(jù)集對此雙輸入模型進行了訓練和驗證，然后，利用遷移學習方法將KTH數(shù)據(jù)集訓練的模型遷移到他們采集的列車司機駕駛數(shù)據(jù)集中，節(jié)省了訓練時間。

圖14 城市軌道交通司機疲勞分心檢測框架Fig.14 Fatigueand distraction detection framework of urban rail transit drivers

3DCNN的應用使得司機分心檢測不再局限于單幀圖像，很大程度上避免了由于單幀圖像無法獲取時間序列信息而導致的誤判，然而3D CNN的網(wǎng)絡參數(shù)量比較大，這是接下來3DCNN模型發(fā)展需要解決的問題。

3 方法對比

目前研究人員主要采用兩個公開的數(shù)據(jù)集SFD3和AUCD2進行實驗，本章將列舉部分研究人員在兩個公開數(shù)據(jù)集上取得的準確度，本章將列舉部分研究人員在兩個公開數(shù)據(jù)集上取得的準確度。

3.1 數(shù)據(jù)集介紹

用于司機分心駕駛檢測的公開數(shù)據(jù)集有兩個，SFD3數(shù)據(jù)集是由Kaggle競賽平臺的SFD3競賽提供，SFD3中圖片大小為640×480，包含22 424張帶標簽的訓練集圖片和79 727張沒有標簽的測試集圖片，由于無法獲取測試圖片的標簽，研究人員只在訓練集圖片上進行實驗。這些圖片中顯示了司機安全駕駛和9種分心駕駛行為如圖15，展示了數(shù)據(jù)集的一些樣本圖像。

圖15 SFD3數(shù)據(jù)集的10類駕駛行為樣本圖像Fig.15 Sample images of 10 types of driving behavior from SFD3 dataset

第二個數(shù)據(jù)集是由Eraqi等［24］創(chuàng)建的AUCD2數(shù)據(jù)集，該數(shù)據(jù)集和SFD3一樣，具有9個司機分心駕駛類別，與SFD3不同的是，AUCD2考慮了光照等因素。如圖16展示了部分數(shù)據(jù)集。該數(shù)據(jù)集共由17 308張圖片組成，訓練集和測試集由Eraqi等［24］劃分為12 977張訓練圖片和4 331張測試圖片。

圖16 AUCD2數(shù)據(jù)集的10類駕駛行為樣本圖像Fig.16 Sample images of 10 types of drivingbehavior from AUCD2 dataset

3.2 SFD3實驗結果與分析

對SFD3數(shù)據(jù)集的22 424張圖片，研究人員采用了三種數(shù)據(jù)劃分方式，分別從SFD3隨機抽取數(shù)據(jù)按照訓練集：測試集9∶1、8∶2、7.5∶2.5劃分，取得的實驗結果如表1～3。TripletLoss通常是在個體級別的細粒度識別上應用，是深度學習中的一種損失函數(shù)，用于訓練差異性較小的樣本。Okon等［35］考慮到核心問題是識別司機的手、臉等細微動作，從而判斷司機是否分心駕駛，所以采用Softmax和TripletLoss分別做實驗對比，由于只是對損失函數(shù)的修改，所以模型的參數(shù)并沒有改變，實驗結果如表1，表明了TripletLoss比Softmax更適合于分心檢測任務。

Majdi等［18］結合傳統(tǒng)算法與深度學習算法，首先，由于CNN提取圖像特征的能力強于傳統(tǒng)算法，所以Majdi等［18］利用CNN提取圖像特征，然后使用隨機森林算法對司機分心駕駛動作進行預測，由于對具體的模型結構并沒有作出詳細的描述，Majdi等［18］也沒有提供模型的參數(shù)大小，本文無法列出其相關參數(shù)信息。由表2可知，取得95%的準確度，Majdi等［18］同時在多層感知器（Multi-Layer Perceptron，MLP）和循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）進行了實驗，分別取得了82.00%和91.70%的準確度。這表明深度學習算法能夠獲得更加豐富的特征信息，相比于傳統(tǒng)學習算法提取的特征更有效?；谏疃葘W習的算法獲得的準確度遠高于傳統(tǒng)算法。由于重新訓練神經(jīng)網(wǎng)絡需要花費很長的時間，而且當訓練數(shù)據(jù)較少時，訓練的網(wǎng)絡提取特征能力一般，而采用ImageNet等大型數(shù)據(jù)集上預訓練網(wǎng)絡提取特征可以挖掘到比較深層次的特征，表3表明深度學習優(yōu)于傳統(tǒng)學習的又一大優(yōu)勢是可以利用遷移學習減少網(wǎng)絡訓練時間和網(wǎng)絡需要訓練的參數(shù)。通過使用其他人預訓練的權重，即使只有一個小的數(shù)據(jù)集，也能得到很好的性能，遷移ImageNet數(shù)據(jù)集上訓練好的部分網(wǎng)絡模型參數(shù)提取圖像特征，然后微調(diào)模型，不僅可以極大地降低模型的過擬合程度，而且可以獲取很高的準確度。從表1～2中可看出利用深度學習算法或者結合傳統(tǒng)算法進一步改進深度學習可以取得更好的結果。

表1 SFD3數(shù)據(jù)集按照9∶1隨機劃分的實驗結果Tab.1 Experimental resultsof SFD3 dataset random ly divided into9∶1

表2 SFD3數(shù)據(jù)集按照8∶2隨機劃分的實驗結果Tab.2 Experimental resultsof SFD3 dataset random ly divided into 8∶2

表3 SFD3數(shù)據(jù)集按照7.5∶2.5隨機劃分的實驗結果Tab.3 Experimental results of SFD3 random ly divided into7.5∶2.5

3.3 AUCD2實驗結果與分析

研究人員在AUCD2上的實驗結果如表4。由于AUCD2數(shù)據(jù)集比SFD3考慮得更多，如光線的變化等，所以AUCD2數(shù)據(jù)集的識別難度更大。

Zhang［36］在VGG和將VGG全連接層改為全局均值池化層（Golbal Average Pooling，GPA）進行了實驗，分別取得了90.20%和91.30%的準確度，如表2。Arefin等［17］采用預訓練的AlexNet卷積層輸出和HOG特征進行融合，使得網(wǎng)絡參數(shù)大大減少，但準確度幾乎沒有變化。Arefin等［17］將AlexNet的全連接層改為卷積層，這樣可以使輸入更靈活，可以接受任意分辨率的圖像，而且減少計算量、網(wǎng)絡參數(shù)量。實驗結果表明預訓練和與傳統(tǒng)計算機視覺算法相結合的方式是有效的，傳統(tǒng)CV提取的圖像特征與CNN融合，可以豐富網(wǎng)絡獲取的圖片信息而且能減少網(wǎng)絡的參數(shù)量，為實時性檢測提供了有效的研究思路。Baheti等［21］為了利用到VGG提取的圖像特征，為了減少原生VGG的大量參數(shù)，Baheti等［21］也是采用預訓練的去掉全連接的VGG，同時采用正則化、Dropout等降低網(wǎng)絡過擬合，實驗結果如表4。通過Masood等［37］的實驗可以發(fā)現(xiàn)參數(shù)量降低為原來的11%，而識別準確度并沒有降低很多，進一步說明與傳統(tǒng)的方法相比，基于深度學習提取的特征更加有效，從而取得的結果準確度更高。利用遷移學習，不但可以提高網(wǎng)絡訓練速度，而且可以提高實驗準確度，因此很多研究人員采用遷移學習方式優(yōu)化實驗。

表4 AUCD2數(shù)據(jù)集上的實驗結果Tab.4 Experimental resultson AUCD2 dataset

4 未來發(fā)展方向

為了預防駕駛分心引起的交通事故，針對目前研究現(xiàn)狀，未來的研究發(fā)展方向?qū)⑿枰亟鉀Q以下3點問題：

1）基于深度學習的方法只對司機的9個分心駕駛動作檢測，然而實際生活中司機分心駕駛動作是復雜多變的，未來的研究工作需要將圖片動作識別轉(zhuǎn)化為目標檢測研究，因此，關于司機在駕駛過程中分心狀態(tài)以及分心程度劃分規(guī)范還需作進一步研究。

2）司機分心來自多方面因素的影響。在進行相關研究時應綜合考慮人-車-路三者，如果只關注司機眼睛、頭、手或者拍攝司機駕駛動作得到的信息是不全面的，尤其是當處于交通環(huán)境復雜的情形時，只獲取到“人”的信息是不全面的。

3）深度學習的方法雖然可以提取到更深層次的特征，取得的效果也更好，但是神經(jīng)網(wǎng)絡的參數(shù)量往往很龐大，恐難以滿足實時性要求，如何更有效地減少神經(jīng)網(wǎng)絡參數(shù)也是研究人員需要解決的一大難題。

5 結語

本文總結了多種司機分心駕駛檢測算法，分為傳統(tǒng)CV算法和深度學習算法兩類。由于傳統(tǒng)CV算法具有對環(huán)境的要求高、參數(shù)多、計算量大的缺點，而深度學習在提取數(shù)據(jù)特征方面表現(xiàn)出速度快、精度高等優(yōu)異的性能，深度學習的算法可以實現(xiàn)端到端的訓練和檢測，只需在車內(nèi)儀表盤安裝攝像頭對司機拍攝即可，無需佩戴任何檢測設備，檢測準確度很高。但深度學習也有一定的缺陷，網(wǎng)絡參數(shù)量過大容易導致實時檢測出現(xiàn)問題。目前神經(jīng)網(wǎng)絡的過擬合問題也很嚴重，過擬合會導致神經(jīng)網(wǎng)絡的泛化能力大大減弱，識別準確度降低。接下來的研究中，在確保神經(jīng)網(wǎng)絡模型準確度不降低的情況下，如何減少參數(shù)量、降低網(wǎng)絡過擬合、滿足實時檢測要求將是駕駛員分心駕駛檢測研究的熱點。