曹立波 龔溢鵬 楊名海 戴麗華 朱李平 陶強(qiáng)
(1.湖南大學(xué),汽車車身先進(jìn)設(shè)計(jì)制造國家重點(diǎn)實(shí)驗(yàn)室,長沙 410082;2.長沙立中汽車設(shè)計(jì)開發(fā)股份有限公司,長沙 410205)
數(shù)據(jù)顯示,駕駛員注意力分散造成的交通事故占比極大,且逐年增加[1]。同時(shí),兒童因被遺忘在車內(nèi)造成中暑死亡的事件時(shí)有發(fā)生[2]。2017年9月,歐洲新車安全評鑒協(xié)會(Euro-New Car Assessment Program,E-NCAP)發(fā)布了2025 路線圖(Road Map 2025)[3],將駕駛員監(jiān)測(Driver Monitoring)和兒童存在檢測(Child Presence Detection)分別列為初級安全系統(tǒng)和第三級安全系統(tǒng)。E-NCAP 鼓勵(lì)車輛提供駕駛員監(jiān)控功能和車內(nèi)乘員遺留檢測功能,并且將對配有這些功能的車輛予以獎(jiǎng)勵(lì)。
研究人員在分心駕駛方面開展了大量研究,其中針對駕駛員駕駛動作的研究較多,建立了很多分心駕駛動作識別數(shù)據(jù)集,如東南大學(xué)駕駛動作數(shù)據(jù)集(Southeast University Driving Posture Database)[4]、保險(xiǎn)公司分心駕駛監(jiān)測(State Farm Distracted Driver Detection)數(shù)據(jù)集[5]、開羅美國大學(xué)分心駕駛數(shù)據(jù)集(American University in Cairo Distracted Driver’s Dataset)[6]、Drive&Act 數(shù)據(jù)集[7]及多視角、多模式和多光譜駕駛員動作數(shù)據(jù)集(Multiview, Multimodal and Multispectral Driver Action Dataset,3MDAD)[8]等,極大促進(jìn)了分心駕駛研究的發(fā)展。但是,目前公開的且能夠在真實(shí)應(yīng)用場景中使用的數(shù)據(jù)集較少。
近年來,針對車內(nèi)乘員遺留檢測的研究較少,特別是對于車內(nèi)遺留兒童檢測的研究。Khamil 等[9]使用負(fù)載傳感器檢測兒童座椅內(nèi)是否存在遺留的兒童。Norhuzaini 等[10]在后排座椅上方安裝檢測范圍為37 cm 的熱傳感器進(jìn)行車內(nèi)兒童的檢測?,F(xiàn)有研究大多使用射頻(Radio Frequency,RF)信號檢測兒童的生命體征,采用視覺方式進(jìn)行車內(nèi)乘員遺留檢測的研究相對較少。
本文采集全天候的分心駕駛數(shù)據(jù)并進(jìn)行相應(yīng)處理,利用該數(shù)據(jù)集對分心駕駛動作進(jìn)行分析,并使用卷積神經(jīng)網(wǎng)絡(luò)開展測試,同時(shí),針對采集的車內(nèi)遺留數(shù)據(jù),提出一種用于視覺檢測車內(nèi)成人、兒童及寵物等生命體遺留的檢測方案。針對分心駕駛識別和車內(nèi)乘員遺留檢測任務(wù),分別對比選擇最佳解決方案在實(shí)車上進(jìn)行測試,并開發(fā)用于系統(tǒng)測試的用戶界面。
針對國內(nèi)現(xiàn)有的用于分心駕駛和車內(nèi)遺留檢測的數(shù)據(jù)集較少的情況,本文分別采集了用于分心駕駛和車內(nèi)遺留檢測的數(shù)據(jù)形成數(shù)據(jù)集。數(shù)據(jù)采集在實(shí)車內(nèi)進(jìn)行,將試驗(yàn)車輛布置在不同光照條件下,在駕駛員側(cè)車窗范圍內(nèi)放置綠色幕布,以便后期替換車窗外背景,增強(qiáng)數(shù)據(jù)的多樣性。使用Stellar 200 3D 相機(jī)采集數(shù)據(jù),該相機(jī)具有RGB 和飛行時(shí)間(Time of Flight,ToF)攝像頭模塊,能夠同時(shí)采集RGB、紅外(Infrared Radiation,IR)和深度(Depth)數(shù)據(jù),并且能夠同時(shí)輸出3 種圖像。該相機(jī)檢測精度高、體積小、便于安裝、價(jià)格低,且能夠?qū)崟r(shí)輸出檢測數(shù)據(jù)。為了能夠較好地覆蓋整車范圍,本文同時(shí)使用2 臺Stellar 200 3D 相機(jī),分別布置在副駕駛員座椅一側(cè)A 柱上部和前排座椅上方車頂中心,不影響駕駛與乘坐,如圖1所示。
圖1 攝像頭安裝位置示意
為了更好地模擬車輛駕駛工況,本文分別采集了白天和夜晚的車內(nèi)人員數(shù)據(jù),數(shù)據(jù)采集頻率為15 Hz,每個(gè)相機(jī)輸出RGB 圖像(分辨率為640×480)、深度圖像(分辨率為240×180)和紅外圖像(分辨率為240×180),RGB 圖像和深度圖像以8 bit 數(shù)據(jù)的形式保存,紅外圖像以16 bit 數(shù)據(jù)的形式保存,從而更好地保存原始的數(shù)據(jù)特征。8 bit圖像采用視頻錄制的方式,同時(shí)保存對應(yīng)幀的16 bit 圖像數(shù)據(jù),使其能夠與8 bit 圖像匹配。2 臺相機(jī)并非同步采集數(shù)據(jù),本文對所有視頻進(jìn)行了時(shí)間戳上的對齊。
參與數(shù)據(jù)采集的志愿者包括37 名成人和10 名兒童,其中成人志愿者包括34 名男性和3 名女性。采集的數(shù)據(jù)包括37名駕駛員的分心駕駛數(shù)據(jù)、37名成人和10 名兒童的車內(nèi)乘員數(shù)據(jù)。為了保證試驗(yàn)數(shù)據(jù)的可處理性且便于在更多任務(wù)上使用,本文在數(shù)據(jù)采集前采取在墻上張貼標(biāo)尺并拍照測量保存的方式對每個(gè)志愿者的體型進(jìn)行測量。
為了保證駕駛動作的多樣性,試驗(yàn)要求駕駛員按照指定要求分別做出本文所規(guī)定的10 種駕駛動作,10 種動作的選擇參照美國汽車協(xié)會交通安全基金會提供的分散駕駛員注意力的潛在活動,且被美國交通部的致命事故報(bào)告系統(tǒng)數(shù)據(jù)庫研究所證明。由于駕駛員的駕駛習(xí)慣不同,沒有對駕駛員的動作標(biāo)準(zhǔn)進(jìn)行規(guī)定,完全模擬真實(shí)的駕駛場景,后排乘員的數(shù)據(jù)采集同時(shí)進(jìn)行,本文沒有要求乘員做出指定的動作,乘員可以根據(jù)各自的乘車習(xí)慣進(jìn)行試驗(yàn)。
為了更貼近真實(shí)駕乘狀況,本文限制了后排乘員的人數(shù)。同成人一樣,在車輛后排隨機(jī)安排多名兒童,做出任意動作,為保證兒童安全,每次兒童數(shù)據(jù)采集都安排家長進(jìn)行監(jiān)護(hù)。
2.3.1 分心駕駛數(shù)據(jù)
本文對采集到的數(shù)據(jù)進(jìn)行逐幀標(biāo)注,針對每一個(gè)類別按照指定的幀數(shù)間隔提取圖片,并且將規(guī)定之外的動作額外劃分為一個(gè)類別。獲得的各類別圖片數(shù)量如表1所示。
表1 分心駕駛數(shù)據(jù)集圖片數(shù)量張
本文按照9∶1 的比例劃分訓(xùn)練集和驗(yàn)證集,以便后續(xù)開展分心駕駛識別試驗(yàn),數(shù)據(jù)集圖片示例如圖2所示。
圖2 分心駕駛數(shù)集圖片示例
2.3.2 車內(nèi)乘員數(shù)據(jù)
車內(nèi)乘員數(shù)據(jù)包括成人和兒童的二維和三維數(shù)據(jù)。數(shù)據(jù)采集的攝像頭位置固定,因此圖像的背景不會發(fā)生變化。車內(nèi)乘員數(shù)據(jù)集的可變量主要為乘員的數(shù)量和體型,當(dāng)前先進(jìn)的人員識別網(wǎng)絡(luò)能夠很好地處理這一變化,同時(shí)可以結(jié)合深度數(shù)據(jù)對是否存在乘員進(jìn)行判斷,從而進(jìn)行占據(jù)物體檢測。此外,采集的車內(nèi)乘員數(shù)據(jù)能夠很好地記錄車內(nèi)乘員的特征,可用于乘員的人臉檢測和人體姿態(tài)檢測等。
RGB 圖像的采集時(shí)間和場景有限,不能很好地反映真實(shí)環(huán)境下車輛的工作狀態(tài),因此本文采用背景去除的方法手動實(shí)現(xiàn)駕駛場景的多樣化。攝像頭固定后,車輛行駛時(shí),拍攝背景中只有車窗外的環(huán)境是變化的,故以車窗外的圖像作為變量,利用背景疊加法,通過變換車窗外的環(huán)境來增加數(shù)據(jù)樣本的多樣性。車窗部分背景通過綠幕去除獲得,利用白色部分生成掩碼(Mask),如圖3a 所示;在原始圖像上疊加背景圖像以模擬車輛在不同場景中的數(shù)據(jù)采集狀態(tài),如圖3b所示。
圖3 背景替換前、后效果
本文所采集的深度數(shù)據(jù)能夠反映攝像頭與物體的實(shí)際距離,利用攝像頭的內(nèi)部參數(shù)可以計(jì)算出物體的三維空間坐標(biāo),進(jìn)而生成采集圖像對應(yīng)的RGBD 圖像數(shù)據(jù)和點(diǎn)云數(shù)據(jù)。RGB 圖像和深度圖像的分辨率不同,故本文首先將RGB 圖像和深度圖像進(jìn)行對齊,并調(diào)整RGB圖像的分辨率為240×180,最終得到RGBD圖像和點(diǎn)云圖。
相機(jī)坐標(biāo)系到像素坐標(biāo)系的轉(zhuǎn)換關(guān)系為:
利用式(1)和攝像頭模組的內(nèi)部參數(shù),使用RGB圖像和深度圖像可以生成如圖4所示的點(diǎn)云信息。
針對分心駕駛和車內(nèi)遺留檢測,本文建立了一個(gè)全天候、多工況的車內(nèi)人員數(shù)據(jù)集,包含駕駛員和后排乘員等數(shù)據(jù),可供人體姿態(tài)估計(jì)、分心駕駛和車內(nèi)人員檢測等多個(gè)任務(wù)使用,如圖5所示。
圖5 車內(nèi)人員安全監(jiān)測系統(tǒng)
卷積神經(jīng)網(wǎng)絡(luò)能夠提取圖像的深層特征并得到特征的線性組合,實(shí)現(xiàn)對整幅圖像的理解。對采集的數(shù)據(jù)集進(jìn)行分析發(fā)現(xiàn),駕駛員的特定分心駕駛動作存在一定規(guī)律,且分心動作出現(xiàn)的頻率相對固定。為了驗(yàn)證數(shù)據(jù)集的有效性,本文利用經(jīng)典的深度學(xué)習(xí)模型進(jìn)行測試。為滿足不同工況的應(yīng)用需求,對數(shù)據(jù)進(jìn)行多種方式的組合,利用不同模型進(jìn)行交叉驗(yàn)證和測試。
3.1.1 試驗(yàn)設(shè)置
本文選用經(jīng)典的深度學(xué)習(xí)模型(AlexNet[11]、VGG[12]、ResNet[13]、MobileNet V2[14])進(jìn)行測試,選用不同的數(shù)據(jù)圖像輸入以適應(yīng)不同場景的光照條件變化。試驗(yàn)使用處理后的數(shù)據(jù)集,且為滿足不同工況,將不同的圖像源進(jìn)行分組,作為神經(jīng)網(wǎng)絡(luò)的輸入。
3.1.2 訓(xùn)練設(shè)置
訓(xùn)練利用Pytorch 深度學(xué)習(xí)框架在2 塊RTX Titan X 顯卡上進(jìn)行,訓(xùn)練基本參數(shù)設(shè)置為:輸入圖片分辨率為224×224,訓(xùn)練周期為200個(gè)周期(Epoch),批次大?。˙atch_Size)為32 張,初始學(xué)習(xí)率lr=0.01,選用Adam 作為優(yōu)化器,選用交叉熵作為損失函數(shù)。不同模式下模型在測試集上的分類準(zhǔn)確率如表2所示。
表2 測試集分類準(zhǔn)確率%
3.1.3 結(jié)果分析
數(shù)據(jù)集包含白天和夜晚的分心駕駛數(shù)據(jù),能夠滿足不同光照條件下的實(shí)際應(yīng)用。針對不同光照條件,選取不同的圖像作為輸入檢驗(yàn)駕駛員分心檢測的效果。由表2可知,ResNet34的準(zhǔn)確率最高,但模型的參數(shù)量和計(jì)算量較大。由于最終要在邊緣計(jì)算設(shè)備上運(yùn)行,因此選用參數(shù)量和計(jì)算量較少的MobileNet V2 作為算法骨干網(wǎng)絡(luò),融合深度圖像和紅外圖像信息作為輸入圖像源。
3.1.4 檢測結(jié)果
本文對MobileNet V2作為算法骨干網(wǎng)絡(luò)的RGB圖像檢測結(jié)果進(jìn)行了可視化,其結(jié)果如圖6所示。
圖6 分心駕駛檢測結(jié)果
為了驗(yàn)證車內(nèi)乘員數(shù)據(jù)的實(shí)用性,本文利用人體檢測、人臉檢測、人體姿態(tài)檢測方法對數(shù)據(jù)集進(jìn)行測試,并對多種車內(nèi)乘員遺留檢測方案進(jìn)行試驗(yàn)。
3.2.1 點(diǎn)云占據(jù)物體檢測
目前,對于車內(nèi)乘員遺留的研究多基于非視覺傳感器,本文通過視覺傳感器采集的車內(nèi)乘員數(shù)據(jù)可以不同的角度和方案實(shí)現(xiàn)車內(nèi)乘員檢測。停車后車內(nèi)通常沒有乘員,因此可以利用點(diǎn)云或深度圖提取車輛的座椅背景,在車內(nèi)有乘員的情況下,也可以通過點(diǎn)云或深度圖像的差異得到車內(nèi)遺留信息,如圖7所示。利用點(diǎn)云進(jìn)行聚類,區(qū)分不同個(gè)體并將不同個(gè)體的點(diǎn)云數(shù)據(jù)投影到二維圖像上,得到對應(yīng)的掩碼,利用掩碼裁剪出個(gè)體的圖像范圍,再針對不同的個(gè)體串聯(lián)分類網(wǎng)絡(luò)即可實(shí)現(xiàn)對成人、兒童及寵物的檢測。
圖7 去除座椅等背景前、后點(diǎn)云數(shù)據(jù)
3.2.2 視覺檢測方案
考慮到運(yùn)用點(diǎn)云數(shù)據(jù)進(jìn)行特征提取的復(fù)雜性,本文提出利用視覺方式檢測成人、兒童以及寵物遺留的方案。攝像頭模組獲取圖像后輸入目標(biāo)檢測器,首先對視野范圍內(nèi)進(jìn)行檢測,如果檢測到乘員,再利用串聯(lián)的人臉檢測器檢測人臉圖像,進(jìn)而采用年齡分類算法進(jìn)行分類,區(qū)分成人和兒童,檢測方案流程如圖8所示。
圖8 檢測方案流程
3.2.3 視覺檢測方案試驗(yàn)結(jié)果
本文采用檢測成功率對車內(nèi)遺留檢測任務(wù)進(jìn)行評價(jià):
式中,P為檢測成功率;R為檢測成功次數(shù),本文將檢測對象的位置和類別均正確視為檢測成功;A為總檢測次數(shù)。
本文進(jìn)行了多次測試,測試在視頻流上進(jìn)行,試驗(yàn)的平均結(jié)果如表3所示。
表3 車內(nèi)遺留檢測結(jié)果
本文在實(shí)車場景下進(jìn)行了多次試驗(yàn),試驗(yàn)中攝像頭布置在前排座椅上方車頂中心位置,試驗(yàn)結(jié)果與表3的結(jié)果相近,略有波動。
3.2.4 視覺檢測方案檢測結(jié)果
由于第2種視覺方式檢測方案的實(shí)現(xiàn)過程較為簡單,最終選作車內(nèi)乘員遺留的檢測方案,目標(biāo)檢測器選用YOLO[15]系列中的YOLO V5,人臉檢測算法選用DBFace 模型,年齡分類網(wǎng)絡(luò)選用MobileNet V2網(wǎng)絡(luò),最終的檢測結(jié)果如圖9所示。
圖9 車內(nèi)遺留檢測結(jié)果
針對車內(nèi)人員安全的分心駕駛和車內(nèi)遺留檢測功能開發(fā)了測試界面,如圖10和圖11所示。
圖10 分心駕駛測試界面
圖11 車內(nèi)遺留測試界面
本文建立了多模式、多工況的分心駕駛數(shù)據(jù)集和車內(nèi)遺留人員數(shù)據(jù)集,選取MobileNet V2 作為分心駕駛檢測算法,在滿足實(shí)時(shí)性的條件下達(dá)到了95.7%的檢測準(zhǔn)確率,實(shí)現(xiàn)了真實(shí)場景下的分心駕駛識別,同時(shí),設(shè)計(jì)了一種基于視覺的車內(nèi)遺留檢測方案,實(shí)現(xiàn)對車內(nèi)成人、兒童及寵物的識別,檢測成功率高達(dá)90%。結(jié)合本文所開發(fā)的測試軟件,對車內(nèi)人員安全監(jiān)測2個(gè)任務(wù)進(jìn)行了測試,結(jié)果表明,本文所提出的方案能夠滿足實(shí)際使用需求。