張 軍 何 杰 吳冠鶴 湯 慧 魏 琳 周博見
(河南交通職業(yè)技術(shù)學(xué)院交通運(yùn)輸發(fā)展戰(zhàn)略研究中心1) 鄭州 450015) (東南大學(xué)交通學(xué)院2) 南京 210018)
交通事故約80%是由駕駛員錯誤駕駛行為所導(dǎo)致,這些錯誤行為中又以疲勞駕駛、超速、錯誤駕駛姿態(tài)居多[1-3].不良的駕駛姿態(tài)會嚴(yán)重影響駕駛員的感知、判斷,以及對突發(fā)狀況的應(yīng)急反應(yīng)能力.
近年來,基于視頻的駕駛?cè)俗藨B(tài)檢測的研究主要集中在駕駛?cè)说难鄄縖4]、凝視方向[5]、面部朝向和頭部姿態(tài)[6],利用頭部信息去判斷駕駛員的狀態(tài),多用來監(jiān)測駕駛員的疲勞或分神狀況[7-9].為了從駕駛員狀態(tài)檢測拓展到駕駛員行為檢測,部分學(xué)者將研究區(qū)域擴(kuò)展到由頭部、雙手臂、身體軀干組成的上半身,通常使用膚色檢測方法提取駕駛員頭部、手部區(qū)域,并以此作為特征圖像識別駕駛員姿態(tài)[10-11].
文中結(jié)合項目組已有成果及具體實(shí)驗(yàn)案例,將駕駛員姿態(tài)識別流程分為數(shù)據(jù)采集、圖像處理、特征提取和姿態(tài)分類四個階段,對每個階段使用的方法進(jìn)行比較研究,具體分析包括圖像數(shù)據(jù)集、視頻數(shù)據(jù)集及兩者的特征,歸一化RGB模型和YCrCb模型二種膚色檢測模型及其優(yōu)劣性,全圖像像素、連通域質(zhì)心距離、雙手(臂)質(zhì)心坐標(biāo)三種應(yīng)用特征提取方法的區(qū)別,KNN、決策樹和神經(jīng)網(wǎng)絡(luò)等姿態(tài)分類方法的適用場景.比較分析的流程和具體內(nèi)容見圖1.
圖1 比較分析的流程和具體內(nèi)容
將駕駛員姿態(tài)識別數(shù)據(jù)集分為圖像數(shù)據(jù)集I與視頻數(shù)據(jù)集V,所拍攝的駕駛員姿態(tài)包括雙手緊握方向盤、操縱檔位和異常駕駛姿態(tài)(包括雙手離開轉(zhuǎn)向盤、單手駕駛、吃東西和打電話).其中,通過直接拍攝獲得圖像數(shù)據(jù)集I共m張圖片;通過采集n段時長t(s),駕駛員駕駛視頻h(幀/s),對n段視頻依次處理,構(gòu)成視頻數(shù)據(jù)集V=(V1,V2,…,Vn),每段視頻每隔h幀截取一張圖像,其中第i段視頻對應(yīng)數(shù)據(jù)集Vi=(Vi1,Vi2,…,Vit),處理后視頻數(shù)據(jù)集V共有n×t張圖片.將數(shù)據(jù)集的80%用于訓(xùn)練,20%用于測試,比較分析駕駛員姿態(tài)識別方法.
圖片數(shù)據(jù)集I由于每次訓(xùn)練只輸入一張圖片,輸入數(shù)據(jù)維度較小,模型訓(xùn)練速度較快,但也存在單張照片可能無法檢測到駕駛員頭部、雙手三個膚色區(qū)域,導(dǎo)致識別精度較低的問題.而視頻數(shù)據(jù)集V每個樣本訓(xùn)練都會輸入t張圖片,均描述一種駕駛姿態(tài),圖片間可產(chǎn)生特征互補(bǔ),當(dāng)有x張圖片不能檢測到三個膚色區(qū)域時,仍然能有t-x張圖片完成訓(xùn)練過程.因此,識別精度較高,但輸入數(shù)據(jù)維度較大,訓(xùn)練時間較長.圖像數(shù)據(jù)集與視頻數(shù)據(jù)集的優(yōu)缺點(diǎn)比較分析見表1.
表1 圖像數(shù)據(jù)集I與視頻數(shù)據(jù)集V比較分析
駕駛員圖像處理主要是為了消除圖片中由于外界環(huán)境變化導(dǎo)致的光照、噪音、振動以及圖像模糊等問題,提高圖像的檢測精度.較有代表性的圖像處理方法有參考白、同態(tài)濾波、均值濾波、中值濾波、數(shù)學(xué)形態(tài)學(xué)方法、直方圖均衡化、圖像平滑和銳化等.論文分別對上述方法進(jìn)行了實(shí)驗(yàn),依據(jù)處理結(jié)果最終選用參考白、拉普拉斯算子圖像銳化、彩色直方圖均衡以及數(shù)學(xué)形態(tài)學(xué)方法作為駕駛員姿態(tài)識別的圖像處理方法.對這四種方法的原理、功能與運(yùn)用場景的比較分析見表2.
表2 圖像處理方法比較分析
結(jié)合模擬駕駛器圖像數(shù)據(jù)集I1和真實(shí)駕駛場景圖像數(shù)據(jù)集I2,得到參考白、拉普拉斯算子、彩色直方圖均衡、數(shù)學(xué)形態(tài)學(xué)4種圖像處理方法效果圖.
由于侵入式檢測方法將對駕駛員產(chǎn)生侵?jǐn)_,而可變形部件模型需要大量圖像數(shù)據(jù)制作標(biāo)簽,故論文運(yùn)用膚色檢測模型提取出駕駛員人體特征.常見的膚色檢測模型有RGB模型、歸一化RGB模型、YCrCb模型、HSV模型.綜合考慮實(shí)驗(yàn)結(jié)果,選取歸一化RGB模型和YCrCb模型作為膚色檢測模型.
歸一化RGB膚色檢測模型是通過計算RGB通道像素關(guān)系范圍而得到,對駕駛?cè)俗藨B(tài)的特征區(qū)域描述效果較好,不會出現(xiàn)較多的干擾點(diǎn),但對細(xì)部描繪效果一般;而YCrCb膚色檢測將色度與光度分離,通過色度檢測膚色,雖然現(xiàn)實(shí)中改變光照,色度也會相應(yīng)地產(chǎn)生改變,但仍在一定程度上可降低光度的影響[12].YCrCb模型方法對駕駛?cè)俗藨B(tài)的細(xì)部描繪較好,能準(zhǔn)確檢測出駕駛?cè)搜劬?、耳朵、手指等微觀區(qū)域,但是對類皮膚區(qū)域的去干擾能力較差,圖像中的干擾成分較多.歸一化RGB膚色檢測和YCrCb膚色檢測模型具體比較分析見表3.
表3 歸一化RGB模型和YCrCb模型比較分析
結(jié)合模擬駕駛器圖像數(shù)據(jù)集I1和真實(shí)駕駛場景圖像數(shù)據(jù)集I2,分別運(yùn)用歸一化RGB模型和YCrCb模型進(jìn)行膚色檢測.
通過膚色檢測模型提取到駕駛員膚色圖像后,對圖像進(jìn)行應(yīng)用特征再提取,再將該應(yīng)用特征輸入至分類器中進(jìn)行訓(xùn)練.應(yīng)用特征提取的方法包括全圖像像素特征、連通域質(zhì)心距離特征和雙手(臂)質(zhì)心坐標(biāo)特征,意義在于簡化駕駛員膚色特征,減少特征數(shù)據(jù)種類,降低特征數(shù)據(jù)維度,從而加快分類器的訓(xùn)練和識別速度.
全圖像像素特征指將整張圖片所有像素值作為輸入特征進(jìn)行訓(xùn)練,為了強(qiáng)化駕駛員姿態(tài)特征一般會進(jìn)行簡單的圖像處理,包括圖像二值化和邊緣檢測.圖像處理的作用是將RGB三通道圖像矩陣轉(zhuǎn)換為單通道稀疏矩陣.
連通域質(zhì)心距離特征指提取駕駛員頭部、雙手連通域質(zhì)心的距離作為輸入特征.該方法使特征數(shù)據(jù)從全圖像像素轉(zhuǎn)變?yōu)槿齻€距離值,極大降低了特征數(shù)據(jù)的維度,加快了訓(xùn)練進(jìn)程.然而,該應(yīng)用特征提取方法分類精度較低,其原因是容易產(chǎn)生駕駛員不同身體部位連通域的重合,該情況下,算法只能提取到一個或二個連通域,無法提取三個質(zhì)心距離特征,這極大影響了圖像數(shù)據(jù)識別的準(zhǔn)確度.應(yīng)用視頻數(shù)據(jù)集則可部分解決該問題.
雙手(臂)質(zhì)心坐標(biāo)特征指僅提取雙手(臂)質(zhì)心坐標(biāo)作為輸入特征.在固定攝像機(jī)位置的情況下,駕駛員頭部位置基本不變,雙手(臂)位置有較大改變.由于相似特征對分類結(jié)果的影響很小,而差異化特征對分類結(jié)果的影響很大,因此利用雙手(臂)的部件連通域質(zhì)心坐標(biāo)即可完成駕駛員姿態(tài)識別.為了解決身體部位連通域重合問題,可考慮駕駛員頭部相對位置及各部位連通域面積,確定頭部與雙手的質(zhì)心坐標(biāo).該方法極大降低了特征數(shù)據(jù)的維度,并能保證駕駛員姿態(tài)識別的精度.三種應(yīng)用特征提取方法的處理步驟和優(yōu)劣勢比較分析見表4.
表4 三種應(yīng)用特征提取方法比較分析
結(jié)合模擬駕駛器圖像數(shù)據(jù)集I1、真實(shí)駕駛場景圖像數(shù)據(jù)集I2以及視頻數(shù)據(jù)集V,分別運(yùn)用全圖像像素、連通域質(zhì)心距離和雙手(臂)質(zhì)心坐標(biāo)三種應(yīng)用特征提取方法.
通過比選SVM、KNN、決策樹、樸素貝葉斯、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)和MLP神經(jīng)網(wǎng)絡(luò)7中不同的分類器,確定適用于不同情況下的分類器,并結(jié)合圖像數(shù)據(jù)集I和視頻數(shù)據(jù)集V,對各種分類方法進(jìn)行比較,見表5.
由表5可知,SVM分類方法在模擬駕駛器I1數(shù)據(jù)集上正確率達(dá)97%,應(yīng)用效果較好.KNN分類器運(yùn)用于真實(shí)駕駛場景I2數(shù)據(jù)集,提取雙手臂坐標(biāo)應(yīng)用特征,準(zhǔn)確率為88.27%,與BP神經(jīng)網(wǎng)絡(luò)相似,而訓(xùn)練耗時僅為1 ms,遠(yuǎn)遠(yuǎn)小于BP神經(jīng)網(wǎng)絡(luò),是一種性能更好的分類器.在視頻數(shù)據(jù)集V中,綜合準(zhǔn)確度和訓(xùn)練耗時情況,決策樹分類器表現(xiàn)效果更優(yōu).
表5 不同分類器分類效果、應(yīng)用及訓(xùn)練耗時比較分析
結(jié)合項目組已有成果及具體實(shí)驗(yàn)案例,將駕駛員姿態(tài)識別流程分為數(shù)據(jù)采集、圖像處理、特征提取和姿態(tài)分類四個階段,對每個階段使用的方法進(jìn)行了比較研究.基于分析可知,目前的駕駛員姿態(tài)識別仍處于理論研究階段,距離形成成熟的產(chǎn)品還有一定的距離.主要問題是在于膚色模型還不能很好的適應(yīng)各種真實(shí)駕駛場景下外界干擾帶來的光線變化,識別精度不高以及系統(tǒng)識別駕駛員姿態(tài)的實(shí)時性還未達(dá)到實(shí)際應(yīng)用的要求.未來,駕駛員姿態(tài)識別會著重向精度化、實(shí)時化、智能化方向展開研究.