周理想,曾 娟
(武漢理工大學(xué)汽車工程學(xué)院,湖北 武漢 430070)
在汽車行駛過程中,危險物通常以外顯刺激的方式呈現(xiàn)。比較典型的場景有前方車輛突然剎車、臨近車道上車輛突然變道、行人橫穿馬路等。而駕駛過程中80%的有用信息依靠眼睛獲取,其余感官獲取信息比例只占20%[1],因此,駕駛員視覺搜索模式的研究對于揭示交通事故的機理、主動安全技術(shù)開發(fā)具有非常重要的意義。
對于出現(xiàn)在中央視野和外周視野的刺激,駕駛員認(rèn)知加工過程是不同的。神經(jīng)生理學(xué)研究表明[2]:中心視野的信息由視覺皮層來處理,而外周視野的信息由大腦皮層下通道處理。由于光流效應(yīng),駕駛員在識別外周視野刺激物時,會對自己的車速產(chǎn)生錯覺,眼睛產(chǎn)生感知的深度線索,紋理梯度與距離成反比[3]。而外周視野空間的部分信息發(fā)生改變,駕駛員會產(chǎn)生視覺的選擇性注意[4],即視覺對信號產(chǎn)生有選擇的處理和加工。方向、運動、空間頻率和最小可感知的差異都對外源性眼睛跳躍有顯著貢獻(xiàn),在中央視野,刺激物直接落在視網(wǎng)膜中央凹視覺區(qū)內(nèi),優(yōu)先獲得注意力;在外周視野,刺激物會引起眼球自動朝向反應(yīng)[5],但目前的研究還無法確定眼動和注意機制發(fā)生的先后順序[6]。
KRENDEL等[7]根據(jù)搜索時間t以及累積搜索概率F(t),提出了單目標(biāo)隨機搜索模型。NEISSER[8]提出單目標(biāo)系統(tǒng)搜索策略,特征為掃視點嚴(yán)格不重復(fù),即第i個掃視點只能隨機分布在前i-1個掃視點沒有覆蓋的區(qū)域,并提出累積概率與搜索時間之間直線關(guān)系函數(shù)。ENGEL[9]給出了視覺搜索作業(yè)中發(fā)現(xiàn)一個目標(biāo)所需的平均時間。隨后,MORAWSKI等[10]進一步發(fā)展了單目標(biāo)隨機視覺搜索模型,得到了比較完整的發(fā)現(xiàn)目標(biāo)累積概率與搜索時間的指數(shù)關(guān)系函數(shù)。ARANI等[11]提出了可變記憶效果模型,該模型非常復(fù)雜,包含了第i次掃視時回憶第i-1個掃視點的概率。CORBETTA等[12]研究了眼動與注意轉(zhuǎn)移機制的關(guān)系。視覺搜索是通過一系列眼跳(saccades)和注視(fixation)獲取外界刺激信息,二者在選擇視覺信息、找到注視目標(biāo)以及忽略無關(guān)信息的過程中都發(fā)揮作用,但二者相互獨立,同時也相互影響。眼跳是對目標(biāo)的外顯朝向,而注意是對選擇物體過程的內(nèi)隱朝向。
近60年來,學(xué)術(shù)界基本都通過視覺搜索時間分布曲線來判斷視覺搜索策略。采用擬合分布曲線最大的缺陷在于樣本數(shù)量具有局限性。當(dāng)訓(xùn)練樣本無限多時,訓(xùn)練誤差才收斂于實際風(fēng)險,然而在實際中,樣本數(shù)量通常都是有限的[13]。采用傳統(tǒng)數(shù)值擬合的方式判斷視覺搜索模式存在著規(guī)則制定困難、推廣實用性差的局限性。另外在駕駛行為中,一個典型的場景是駕駛主任務(wù)和外周視野刺激物雙重任務(wù)。隨著搜索目標(biāo)個數(shù)的增加及其相互間的交互,擬合視覺搜索績效模型的有效性及可操作性都受影響[14]。因此,對多目標(biāo)視覺搜索模式的影響因子交互關(guān)系及獨立性問題的研究,更有效、可行的算法設(shè)計是該領(lǐng)域研究的難點所在。
21世紀(jì)以來,隨著信息跟蹤技術(shù)和通信技術(shù)的迅猛發(fā)展,人因工程領(lǐng)域內(nèi)大量的視覺信息以計算機可讀的形式存在,精準(zhǔn)的眼動數(shù)據(jù)實時采集和存儲為機器學(xué)習(xí)的數(shù)據(jù)處理方法提供了充分的資源。在這種情況下,以機器學(xué)習(xí)技術(shù)為主的視覺搜索分類技術(shù)逐步取代基于擬合曲線的統(tǒng)計方法,成為機器視覺領(lǐng)域里的重點研究方向。
在機器視覺領(lǐng)域的分類算法主要包括三類:①基于概率論和信息理論的分類算法,如樸素貝葉斯算法(Na?ve Bayes,簡稱“NB”)[15]、最大熵算法[16];②基于TFIDF權(quán)值計算方法的算法,包括Rocchio算法、TFIDF算法、K近鄰算法(簡稱“KN”)[17];③基于知識學(xué)習(xí)的分類算法,如決策樹、人工神經(jīng)網(wǎng)絡(luò)(簡稱“ANN”)、支持向量機(簡稱“SVM”)[18]。
同決策樹、人工神經(jīng)網(wǎng)絡(luò)算法相比,支持向量機基于結(jié)構(gòu)風(fēng)險最小化原理,而不是基于經(jīng)驗風(fēng)險最小化原理,因此不存在局部極小點問題,避免了模型選擇、過學(xué)習(xí)的問題,具有很強的泛化能力。SVM分類算法的最大優(yōu)勢是針對樣本不足的問題,在選取合適的和函數(shù)、懲罰函數(shù)的基礎(chǔ)上,仍然可以獲得較高的分類正確率[19]。
針對駕駛過程中外周視野目標(biāo)搜索問題,本研究將探討視覺搜索模式中影響因子的交互關(guān)系,在此基礎(chǔ)上,采用SVM分類方法構(gòu)建視覺搜索績效的判斷模型。
本實驗采用實車場地測試的方式。駕駛員頭戴眼動儀,駕駛汽車通過道路寬10 m的雙向道路。道路全長1 000 m。實驗按速度分為3個水平:v=20 km/h、v=25 km/h、v=30 km/h。受試者按照性別、年齡平均分成3組,每組10人。實驗場景包括2個干擾場景和1個實驗場景:①干擾場景1,對向車道上有轎車變道;②干擾場景2,前方車輛減速;③實驗場景,當(dāng)車輛距離設(shè)定位置10 m時,行人從固定位置橫穿馬路,行人速度為10 km/h。行人起始點位于駕駛員外周視野內(nèi)。觀察駕駛員是否有反應(yīng),對應(yīng)指標(biāo)為駕駛員眼動指標(biāo)、轉(zhuǎn)向指標(biāo)和踩剎車指標(biāo)。
受試者為30名有經(jīng)驗的駕駛員(駕齡大于3年)。男性駕駛員25名,女性駕駛員5名,年齡分布20~60歲。受試者此前均未接受過類似實驗。
本實驗選用Tobii Pro Glasses 2眼鏡式眼動儀,如圖1所示。采用的實驗車是廣州本田思鉑睿。
圖1 Tobii Pro Glasses 2眼鏡式眼動儀
實驗流程如下:①駕駛員戴好眼動儀,按照指定路線行駛400 m路程,副駕駛的工作人員講解實驗注意事項。②由場邊工作人員指引到實驗車道,加速到指定車速。依次經(jīng)過上述三個場景。每位受試者僅參與一次實驗。眼動儀場景攝像頭記錄整個實驗過程,并將視頻數(shù)據(jù)儲存在SD儲存卡中。③實驗結(jié)束后,由工作人員將車開回指定的起點,重復(fù)上述過程,直到所有實驗組結(jié)束。
實驗樣本共30個,其中有效實驗樣本24個,無效實驗樣本6個。在有效實驗樣本中,踩下制動踏板的樣本共20個,未踩下制動踏板的樣本4個。
踩下制動踏板和未踩下制動踏板受試者累計注視時間對比如圖2所示。A組為踩下制動踏板的樣本組,B組為未踩下制動踏板的樣本組。
圖2 累計注視時間對比
由圖2可看出,A組樣本的累計注視時間最低值為922 ms,B組最低值則為743 ms,最高值為1 444 ms,A組75%的樣本累計注視時間在1 420~1 560 ms之間,A組在1 444 ms以上是高于B組樣本的,但是,A組累計注視時間中在922~1 444 ms這一值域之間的樣本和B組樣本是重合的。這說明,累計注視時間不能單獨用來衡量注意的加工行為是否發(fā)生(即是否踩下自動踏板)。
進一步分析眼跳頻率,踩下制動踏板和未踩下制動踏板受試者眼跳頻率分布如圖3所示。A組為踩下制動踏板的樣本組,B組為未踩下制動踏板的樣本組。
圖3 受試者眼跳頻率分布圖
圖3 中A組為踩下制動踏板的樣本組,認(rèn)定為注意到了外周視野的危險;B組為未踩下制動踏板的樣本組,實驗結(jié)束后訪談,4人均表示沒有注意到外周視野的危險。A組受試者有2種視覺搜索模式,有12位受試者采用系統(tǒng)搜索模式,即僅眼跳1次便進行信息加工,有8位受試者采用隨機搜索模式[14],多次眼跳,掃視點有重復(fù),有信息加工。而B組受試者多次眼跳過程中信息加工并未發(fā)生。兩者綜合說明,在隨機搜索的過程中,信息的加工可能發(fā)生,也可能不發(fā)生。所以,眼跳頻率不能單獨用來衡量注意的加工行為是否發(fā)生。
踩下制動踏板的受試者發(fā)生單次眼跳、兩次眼跳和三次眼跳時注視時間最大值分布如圖4所示。
圖4 踩下制動踏板受試者單次注視時間最大值分布圖
從圖4看出,踩下制動踏板的樣本中,在單次眼跳的樣本中75%的受試者單次注視時間最大值在1 469~2 560 ms之間,二次眼跳的樣本中單次注視時間最大值在732~1410ms之間,三次眼跳的樣本中單次注視時間最大值在849~1 134 ms之間,即單次眼跳要明顯高于發(fā)生二次和三次眼跳的樣本。無論是單次眼跳還是多次眼跳,踩下制動踏板受試者單次注視時間的最大值的取值不低于732 ms;而對于未踩下制動踏板的樣本,其單次注視時間的最大值均低于500 ms,即踩下制動踏板的樣本的值域明顯高于未踩下制動踏板樣本的值域。因此,單次注視時間可以作為信息加工是否發(fā)生的判斷因子。
對數(shù)據(jù)進行SVM建模,首先需要提取特征變量。由于單次注視時間可以用來判斷信息的加工是否發(fā)生,因此,解釋變量選取為駕駛?cè)藛未巫⒁晻r間。
當(dāng)各個解釋變量之間的相關(guān)系數(shù)過高時,可能會存在多重共線性問題。通過相關(guān)系數(shù)矩陣觀察各個解釋變量之間的相關(guān)性,發(fā)現(xiàn)各個解釋變量之間的相關(guān)系數(shù)均低于0.4,基本上認(rèn)為在本研究中不存在多重共線性問題。因此,適合建模需要。
SVM模型是一種基于統(tǒng)計學(xué)習(xí)理論用來解決分類問題的非參數(shù)方法,該模型最初被應(yīng)用于二分類問題且已經(jīng)被很多研究中所使用[20]。
根據(jù)模式識別理論,低維空間線性不可分的模式通過非線性映射到高維特征空間則可能實現(xiàn)線性可分,但是如果直接采用這種技術(shù)在高維空間進行分類或回歸,則存在確定非線性映射函數(shù)的形式和參數(shù)、特征空間維數(shù)等問題,而最大的障礙則是在高維特征空間運算時存在的“維數(shù)災(zāi)難”。采用核函數(shù)技術(shù)可以有效地解決這樣的問題。
將被解釋變量設(shè)為駕駛?cè)耸欠癫认伦詣犹ぐ澹葱畔⒌募庸な欠癜l(fā)生,將踩下制動踏板歸為正類,未踩下制動踏板歸為負(fù)類。將樣本分為訓(xùn)練集和測試集,其中各占50%。建立SVM模型,由于各個特征之間的相關(guān)系數(shù)較低,選擇多項式核函數(shù),擬合模型,預(yù)測并計算準(zhǔn)確率。
ROC曲線是根據(jù)二分類方式(分界值或決定閾),以真陽率為縱坐標(biāo),誤檢率為橫坐標(biāo)繪制的曲線。在計算出準(zhǔn)確率的基礎(chǔ)上,定義函數(shù)畫ROC圖,如圖5所示。
圖5 AUC-ROC曲線
從AUC-ROC曲線可以看出,SVM模型的真陽率(TPR)為86.67%(圖中A點),這說明,實際是正類(踩下制動踏板)中,有86.67%的正類被SVM模型發(fā)現(xiàn)。SVM模型的誤檢率(FPR)為50%,這說明,SVM模型誤認(rèn)為正類的負(fù)實例(未踩下制動踏板)占所有負(fù)實例的比例為50%。
AUC(Area Under Curve)被定義為ROC曲線下與坐標(biāo)軸圍成的面積,圖中AUC=0.711 54,表明SVM模型的預(yù)測能力較好但不夠完美,其中主要原因是未剎車的樣本量占比僅有14.81%且樣本量較少,使得模型對負(fù)類實例的錯分類就十分敏感,模型預(yù)測的FPR大大提高。要解決這一問題,可以使正負(fù)樣本的比例比較均勻或者提高樣本量。
因為在累計注視時間922~1 444 ms這一值域內(nèi)注意的加工行為有可能發(fā)生,有可能未發(fā)生。因此,累計注視時間不能單獨用來衡量注意的信息加工行為是否發(fā)生。在隨機搜索的過程中,信息的加工可能發(fā)生,也可能不發(fā)生。因此,眼跳頻率不能用來衡量信息的加工是否發(fā)生。
踩下制動踏板的樣本單次注視時間最大值的值域明顯大于未踩下制動踏板樣本單次注視時間最大值的值域。因此,單次注視時間可以作為信息的加工是否發(fā)生的判斷因子。
對駕駛?cè)颂卣飨蛄窟M行SVM的建模分析,得到SVM模型的真陽率為86.67%。畫出的ROC圖中,AUC=0.711 54,表明SVM模型的預(yù)測能力較好但不夠完美,主要原因是未踩下制動踏板的樣本量占比低且樣本量較少,使得模型對負(fù)類實例的錯分類十分敏感,模型預(yù)測的誤檢率大大提高??梢允拐?fù)樣本的比例更加均勻或者提高樣本量來解決這一問題。