楊 彪,范福成,楊吉成,蔡英鳳,王 海
(1.常州大學(xué)微電子與控制工程學(xué)院,常州 213016;2.常州大學(xué)計(jì)算機(jī)與人工智能學(xué)院,常州 213016;3.江蘇大學(xué)汽車工程研究院,鎮(zhèn)江 212013;4.江蘇大學(xué)汽車與交通工程學(xué)院,鎮(zhèn)江 212013)
伴隨社會(huì)的發(fā)展,汽車保有量不斷增加,給人們的生活與出行帶來(lái)了極大的便利。其中,無(wú)人駕駛因其穩(wěn)定、高效、可連續(xù)工作的優(yōu)點(diǎn),在軍事作戰(zhàn)、城市反恐、應(yīng)急救援、無(wú)人清掃、智慧物流等方面呈現(xiàn)出廣闊的應(yīng)用前景。以本次爆發(fā)的新冠疫情為例,利用無(wú)人駕駛車輛運(yùn)輸抗疫物資,可以有效減少人員接觸,降低疫情傳播風(fēng)險(xiǎn)。但是,城市交通環(huán)境的復(fù)雜性給無(wú)人車的可靠運(yùn)行帶來(lái)了挑戰(zhàn)。在有人駕駛情況下,2018年全球有135萬(wàn)人死于道路交通事故,其中行人與非機(jī)動(dòng)車駕乘者占26%[1];美國(guó)高速公路安全管理局發(fā)布的統(tǒng)計(jì)數(shù)據(jù)顯示2018年美國(guó)的行人死亡數(shù)目為6 283人[2];我國(guó)2017年道路交通運(yùn)輸安全發(fā)展報(bào)告顯示,2016年我國(guó)有超過(guò)6萬(wàn)人死于機(jī)動(dòng)車交通事故,其中行人約占2成[3]??梢灶A(yù)見(jiàn),未來(lái)大量運(yùn)行于城市道路環(huán)境的無(wú)人車也將面臨如何避免人車沖突這一智能交通領(lǐng)域(ITS)的重要問(wèn)題。
為了避免人車沖突,研究者提出了基于物理的運(yùn)動(dòng)模型[4]、基于機(jī)動(dòng)的運(yùn)動(dòng)模型[5]和基于交互感知的運(yùn)動(dòng)模型[6]來(lái)預(yù)測(cè)人車沖突風(fēng)險(xiǎn)。其中,準(zhǔn)確感知無(wú)人車周圍的交通環(huán)境[7]是實(shí)現(xiàn)準(zhǔn)確的人車沖突預(yù)測(cè)的關(guān)鍵?;诖四康?,研究者在無(wú)人車上加裝了超聲波雷達(dá)、激光雷達(dá)、攝像頭等傳感器,用于感知車輛周圍環(huán)境,尤其是檢測(cè)或跟蹤車輛前方的行人。Song等[8]提出一種基于注意力機(jī)制的尺度自適應(yīng)柱網(wǎng)絡(luò),用于從三維點(diǎn)云數(shù)據(jù)中準(zhǔn)確定位無(wú)人車前方的行人目標(biāo);種衍文等[9]引入四方向特征結(jié)合級(jí)聯(lián)分類器進(jìn)行粗檢測(cè),然后使用熵梯度直方圖特征結(jié)合支持向量機(jī)進(jìn)行細(xì)檢測(cè);Tian等[10]使用深度卷積網(wǎng)絡(luò)分別檢測(cè)行人的不同部分并進(jìn)行綜合;Mao等[11]將時(shí)變通道、深度通道等特征送入Faster?RCNN框架,增強(qiáng)了待檢測(cè)行人的區(qū)分度;劉國(guó)輝等[12]結(jié)合VGG模型與在線觀測(cè)技術(shù),實(shí)現(xiàn)了對(duì)車輛前方目標(biāo)的準(zhǔn)確跟蹤。上述方法可以有效防止人車沖突,但是,僅僅以低層面的路側(cè)行人檢測(cè)或跟蹤結(jié)果作為預(yù)測(cè)人車沖突的基礎(chǔ),會(huì)導(dǎo)致無(wú)人車的頻繁制動(dòng)、降速、甚至停車,影響乘客的駕乘體驗(yàn)。
近年來(lái),隨著智能網(wǎng)聯(lián)汽車的興起,汽車在搭載先進(jìn)傳感器、控制器、執(zhí)行器的基礎(chǔ)上,融合現(xiàn)代通信和網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)人、車、路、后臺(tái)等智能信息的交換共享,有助于實(shí)現(xiàn)安全、舒適、節(jié)能、高效行駛。對(duì)于智能網(wǎng)聯(lián)汽車而言,如何利用智能化的感知技術(shù),避免人車沖突是實(shí)現(xiàn)其它功能的前提。人車沖突集中發(fā)生于車輛與過(guò)街行人之間,因此高層面的行人過(guò)街意圖引起了研究者的廣泛關(guān)注:如果能夠準(zhǔn)確識(shí)別車輛前方行人有過(guò)街意圖,則應(yīng)該控制車輛減速而防止碰撞事件發(fā)生;如果判斷行人無(wú)過(guò)街意圖,車輛可按照原速通過(guò),既提升了無(wú)人車的駕乘體驗(yàn),也提高了行車效率。
行人的過(guò)街意圖受到多種因素的影響[13],包括交通場(chǎng)景、交通流量、天氣等外部因素,以及行人的性別、年齡、等待時(shí)間等內(nèi)部因素。受益于計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,研究者通過(guò)分析路側(cè)行人的行為來(lái)預(yù)測(cè)其是否有過(guò)街意圖。針對(duì)運(yùn)動(dòng)的行人,Christoph等[14]結(jié)合動(dòng)態(tài)高斯系統(tǒng)與多模態(tài)交互卡爾曼濾波實(shí)現(xiàn)行人軌跡預(yù)測(cè);Gu等[15]引入動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)行人軌跡預(yù)測(cè);Lee等[16]提出一種基于深度統(tǒng)計(jì)逆最優(yōu)控制的遞歸神經(jīng)網(wǎng)絡(luò)自編碼結(jié)構(gòu)學(xué)習(xí)車輛前方行人和其他車輛的軌跡信息;Shen等[17]提出了一種基于逆強(qiáng)化學(xué)習(xí)的可遷移行人軌跡預(yù)測(cè)策略。在準(zhǔn)確預(yù)測(cè)行人軌跡的基礎(chǔ)上,可以有效估計(jì)碰撞時(shí)間,從而指導(dǎo)無(wú)人車做出規(guī)避動(dòng)作。針對(duì)非運(yùn)動(dòng)的行人,研究者通過(guò)識(shí)別行人的特定動(dòng)作,如揮手、邁腿、凝視等,預(yù)測(cè)行人的過(guò)街意圖。為了識(shí)別特定動(dòng)作,研究者往往需要事先檢測(cè)人體的骨骼點(diǎn)[18]。譬如,F(xiàn)ang等[19]利用檢測(cè)出的骨骼點(diǎn)之間的距離和角度判斷行人是否有過(guò)街意圖,Quintero等[20]在三維空間檢測(cè)人體骨骼點(diǎn),并基于骨骼點(diǎn)信息識(shí)別行人的靜止站立、起動(dòng)、行走和停止動(dòng)作。
相比于運(yùn)動(dòng)行人的過(guò)街意圖識(shí)別,非運(yùn)動(dòng)行人由于不存在顯著的運(yùn)動(dòng)性,其過(guò)街意圖識(shí)別較為困難。盡管通過(guò)人體骨骼點(diǎn)檢測(cè)可以判斷行人過(guò)街前的動(dòng)作,進(jìn)而預(yù)測(cè)其過(guò)街意圖。但是,受限于復(fù)雜環(huán)境、人車距離、局部遮擋等因素,較難準(zhǔn)確檢測(cè)人體骨骼點(diǎn),進(jìn)而降低了動(dòng)作識(shí)別的精度。同時(shí),行人過(guò)街意圖與其所處交通環(huán)境密切相關(guān),僅僅進(jìn)行行人檢測(cè)、跟蹤、軌跡預(yù)測(cè)與動(dòng)作識(shí)別,缺乏對(duì)上下文語(yǔ)義信息的考慮,較難準(zhǔn)確識(shí)別行人意圖。
針對(duì)上述問(wèn)題,本文中提出了一種融合場(chǎng)景條件因素的端到端深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了行人意圖的準(zhǔn)確識(shí)別。針對(duì)復(fù)雜情況下難以準(zhǔn)確檢測(cè)行人骨骼點(diǎn)的問(wèn)題,設(shè)計(jì)了一種改進(jìn)的卷積自編碼網(wǎng)絡(luò),以生成式策略預(yù)測(cè)視頻中的行人行為,同時(shí)利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力學(xué)習(xí)行人未來(lái)動(dòng)作編碼。同時(shí),針對(duì)影響行人過(guò)街意圖的外部因素,如行人周圍的局部交通場(chǎng)景、人車距離和車速等,本文中引入了E?NET網(wǎng)絡(luò)進(jìn)行局部場(chǎng)景理解,引入注意力機(jī)制改進(jìn)的GRU(門限遞歸單元)編碼車速和人車距離信息,并將得到的信息與動(dòng)作信息進(jìn)行融合,從而準(zhǔn)確預(yù)測(cè)行人過(guò)街意圖。
綜上,本文的主要貢獻(xiàn)可歸納為:(1)針對(duì)行人過(guò)街意圖受到主客觀因素影響的特點(diǎn),提出了一種融合場(chǎng)景因素的端到端深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)行人意圖的準(zhǔn)確識(shí)別;(2)針對(duì)復(fù)雜環(huán)境下較難準(zhǔn)確提取行人骨骼點(diǎn)、導(dǎo)致難以識(shí)別其動(dòng)作的問(wèn)題,提出了一種基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò),在預(yù)測(cè)行人未來(lái)動(dòng)作的同時(shí)實(shí)現(xiàn)未來(lái)動(dòng)作編碼;(3)針對(duì)交通場(chǎng)景對(duì)行人過(guò)街意圖的影響,引入輕量級(jí)E?NET網(wǎng)絡(luò)實(shí)現(xiàn)行人周圍局部交通場(chǎng)景的實(shí)時(shí)語(yǔ)義理解;(4)針對(duì)車速、人車距離對(duì)行人過(guò)街意圖的影響,使用GRU進(jìn)行信息編碼,并引入注意力機(jī)制使GRU更加關(guān)注車速的突然改變。最后,在JAAD與PIE兩個(gè)公共數(shù)據(jù)集上進(jìn)行算法評(píng)價(jià),結(jié)果表明本文算法具有較高的準(zhǔn)確性,同時(shí),實(shí)車測(cè)試也展示了算法在變化光照條件下的魯棒性。
Kingma等提出的變分自編碼器(variational auto?encoder,VAE)[21]是一種無(wú)監(jiān)督學(xué)習(xí)模型。VAE結(jié)構(gòu)框圖如圖1所示,VAE由編碼器和解碼器組成,其基本思想是:假設(shè)輸入數(shù)據(jù)集X中的樣本相互獨(dú)立,通過(guò)編碼器生成服從正態(tài)分布的隱變量Z,然后通過(guò)解碼器重構(gòu)生成數(shù)據(jù)集X,并使X盡量接近X。編碼器和解碼器由神經(jīng)網(wǎng)絡(luò)組成,同時(shí),引入兩個(gè)神經(jīng)網(wǎng)絡(luò)生成隱變量Z的均值μ=f1(x)和對(duì)數(shù)方差logσ2=f2(x),由于方差是非負(fù)的,而使用對(duì)數(shù)方差后可正可負(fù),運(yùn)算更加方便。編碼器得到的后驗(yàn)分布函數(shù)為qΨ(z|x);解碼器得到的真實(shí)后驗(yàn)分布函數(shù)為Pθ(z|x),并使用KL散度度量?jī)烧咧g的距離,通過(guò)損失函數(shù)來(lái)優(yōu)化VAE模型參數(shù),損失函數(shù)如下:
圖1 VAE結(jié)構(gòu)框圖
語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的關(guān)鍵問(wèn)題之一。對(duì)于運(yùn)行中的無(wú)人車,語(yǔ)義分割可以幫助其理解復(fù)雜的交通場(chǎng)景,并從場(chǎng)景中推測(cè)出軌跡規(guī)劃、避障等任務(wù)所需的知識(shí)。隨著深度學(xué)習(xí)的發(fā)展,研究者提出了諸如FCN[22]、UNET[23]和SegNet[24]等模型,取得了遠(yuǎn)超傳統(tǒng)分割算法的優(yōu)異表現(xiàn)。但是,上述模型的計(jì)算量較大,較難實(shí)時(shí)運(yùn)行。本文中引入一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)E?Net[25],對(duì)行人周圍的局部場(chǎng)景進(jìn)行語(yǔ)義分割,從而編碼局部交通場(chǎng)景信息,如圖2所示。
如圖2(a)所示,E?Net網(wǎng)絡(luò)包括6種模塊,分別是初始化模塊和5種瓶頸模塊。初始化模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2(b)所示,圖2(c)所示為常規(guī)、下采樣、上采樣、膨脹、非對(duì)稱5種瓶頸模塊的網(wǎng)絡(luò)結(jié)構(gòu)。通過(guò)不同種類瓶頸模塊的配合,實(shí)現(xiàn)了對(duì)圖像全局信息的編解碼,進(jìn)而實(shí)現(xiàn)對(duì)交通場(chǎng)景的語(yǔ)義理解。
圖2 E?Net結(jié)構(gòu)框圖
門限循環(huán)單元(gated recurrent unit,GRU)[26](見(jiàn)圖3)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[27]的一種變體,相比于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long?short term memory,LSTM)[28],GRU可以在更少計(jì)算量的前提下獲得更好的表現(xiàn)。
圖3 GRU單元結(jié)構(gòu)
如圖3所示,每個(gè)GRU由控制信息傳輸?shù)母麻T和重置門組成。其中,t為時(shí)間步長(zhǎng),t時(shí)刻下更新門接收當(dāng)前輸入向量和前一時(shí)間步的單元狀態(tài),通過(guò)激活函數(shù)處理,幫助GRU控制當(dāng)前狀態(tài)需要從前一時(shí)間步狀態(tài)中保留的信息量以及從候選狀態(tài)中接受的信息量。重置門和更新門的處理類似,用于控制候選狀態(tài)對(duì)前一時(shí)間步狀態(tài)的依賴,使GRU能夠自適應(yīng)地忘記或重置當(dāng)前的信息。因此,GRU能夠有效地捕捉輸入序列的長(zhǎng)期和短期的依賴關(guān)系,更適用于解決動(dòng)態(tài)識(shí)別任務(wù)。假設(shè)GRU網(wǎng)絡(luò)的輸入量為X=(x1,x2,...,xn),其中各變量的關(guān)系如下:
式中:x t表示當(dāng)前時(shí)刻的輸入;W rx、W zx、W hx、W rh、W zh和W hh為可學(xué)習(xí)權(quán)重矩陣;r t和z t分別表示重置門和更新門權(quán)重;h t-1和h t分別表示前一時(shí)刻和當(dāng)前時(shí)刻的隱藏層狀態(tài);ht表示當(dāng)前時(shí)刻新的記憶;σ為sigmoid(·)函數(shù),tanh(·)為雙曲正切激活函數(shù);b r、b z和b h分別表示重置門、更新門和新記憶中的偏差項(xiàng)。
注意力機(jī)制(attention mechanism)借鑒了人類視覺(jué)方面的選擇性注意特點(diǎn),即人類快速地掃描全局圖像,可以獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,進(jìn)而從該區(qū)域獲得目標(biāo)細(xì)節(jié)信息,抑制無(wú)用信息。針對(duì)序列數(shù)據(jù),注意力機(jī)制可以為序列特征分配不同的權(quán)重,并通過(guò)概率分配的方式自動(dòng)提高模型對(duì)重要特征的關(guān)注程度,從而在不增加計(jì)算與儲(chǔ)存成本的前提下,增加對(duì)序列數(shù)據(jù)處理的準(zhǔn)確性。
本文中需要處理車輛速度與人車距離,將注意力機(jī)制引入GRU模塊構(gòu)成AGRU(attention?GRU),可以突出車輛加減速以及人車距離突然變短等關(guān)鍵信息,改善行人過(guò)街意圖識(shí)別結(jié)果。圖4為AGRU的結(jié)構(gòu),其中,t表示從1到n的時(shí)刻信息,x t表示GRU模塊的輸入,h t對(duì)應(yīng)t時(shí)刻AGRU模塊的隱藏層輸出,αt表示通過(guò)注意力機(jī)制計(jì)算得到的關(guān)于時(shí)序特征的注意力概率分布,y表示AGRU的輸出,由各時(shí)刻特征加權(quán)得到。
圖4 AGRU結(jié)構(gòu)圖
αt與y的計(jì)算公式如下:
式中:W w和b w為tanh(·)的可學(xué)習(xí)參數(shù)與偏置;W A為AGRU的可學(xué)習(xí)參數(shù)。
本文中致力于識(shí)別行人過(guò)街意圖,即判斷在路側(cè)等待的行人是否有穿越馬路的意圖,進(jìn)而幫助車輛更好地理解交通場(chǎng)景。圖5為本文中提出的多源信息融合識(shí)別網(wǎng)絡(luò)(multi?source information fu?sion based recognition network,MIFRN)。MIFRN通過(guò)綜合考慮行人動(dòng)作、周圍局部交通場(chǎng)景、車輛速度和人車距離,來(lái)解決行人穿越/不穿越這個(gè)分類問(wèn)題。首先,引入YOLOv4[29]進(jìn)行行人檢測(cè),并通過(guò)Yamaguchi[30]等提出的單目相機(jī)自運(yùn)動(dòng)估計(jì)算法進(jìn)行自運(yùn)動(dòng)補(bǔ)償,并將20幀內(nèi)沒(méi)有發(fā)生明顯位移的行人目標(biāo)作為感興趣目標(biāo),即路側(cè)等待的行人。然后,將感興趣目標(biāo)送入MIFRN,并擴(kuò)展其最小外接矩形(如圖5紅色矩形框所示),得到周圍局部交通場(chǎng)景(如圖5黃色矩形框所示),同時(shí)將車速和人車距離(車輛近似位于圖像底部中點(diǎn))送入MIFRN。具體擴(kuò)展方法是保證紅、黃矩形框中心對(duì)齊的前提下,將紅色矩形框的寬度和高度分別按照經(jīng)驗(yàn)值擴(kuò)大5倍和2倍。MIFRN包含3個(gè)主要模塊:①基于E?NET的輕量級(jí)場(chǎng)景語(yǔ)義理解網(wǎng)絡(luò),用于編碼局部交通場(chǎng)景;②基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò),用于編碼行人未來(lái)動(dòng)作信息;③基于注意力機(jī)制加權(quán)的GRU時(shí)序數(shù)據(jù)處理網(wǎng)絡(luò),用于編碼車輛速度和人車距離。最后,引入雙向GRU進(jìn)行信息的深度融合,并將融合結(jié)果送入多層感知機(jī)以獲取行人穿越/非穿越概率。下面將分別介紹MIFRN的主要模塊。
圖5 多源信息融合識(shí)別網(wǎng)絡(luò)MIFRN整體框圖
行人穿越馬路前,往往伴隨邁步、揮手、注視來(lái)車等動(dòng)作。當(dāng)車輛駕駛員捕捉到這些行為,就可以提前減速讓行,避免人車碰撞。因此,準(zhǔn)確理解路側(cè)行人的動(dòng)作,對(duì)于識(shí)別其過(guò)街意圖至關(guān)重要。前期研究集中于檢測(cè)行人的骨骼點(diǎn),進(jìn)而設(shè)計(jì)不同的動(dòng)作模式。但是,拍攝距離、角度與光照、環(huán)境等因素可能導(dǎo)致無(wú)法準(zhǔn)確檢測(cè)行人骨骼點(diǎn),進(jìn)而較難準(zhǔn)確理解其行為。
本文中引入深度神經(jīng)網(wǎng)絡(luò)編碼行人動(dòng)作信息,基于多任務(wù)學(xué)習(xí)范式,提出了一種基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò),即通過(guò)訓(xùn)練生成式模型預(yù)測(cè)行人未來(lái)動(dòng)作,并從中編碼未來(lái)動(dòng)作信息。為了更好地生成行人未來(lái)動(dòng)作,會(huì)迫使網(wǎng)絡(luò)更加關(guān)注行人動(dòng)作線索,從而提高了未來(lái)動(dòng)作編碼的準(zhǔn)確性。
圖6所示為動(dòng)作信息編碼網(wǎng)絡(luò)結(jié)構(gòu)。在獲得視頻當(dāng)前幀Xt的前提下,網(wǎng)絡(luò)可預(yù)測(cè)視頻下一幀Xt+1。本文中采用3個(gè)相互獨(dú)立的VGG16網(wǎng)絡(luò)作為編碼器,為了加速收斂,利用ImageNet對(duì)網(wǎng)絡(luò)進(jìn)行了預(yù)訓(xùn)練??紤]到動(dòng)作的時(shí)序性,引入GRU模塊挖掘動(dòng)作編碼的時(shí)域關(guān)聯(lián)。在訓(xùn)練階段,引入視頻下一幀的真實(shí)值Xt+1作為監(jiān)督信息。圖中,GRU2從Xt中預(yù)測(cè)隱變量Z,GRU1從Xt+1中預(yù)測(cè)隱變量中包含真實(shí)值Xt+1的信息。通過(guò)最小化Z和之間的KL損失,可以迫使GRU2學(xué)習(xí)如何從Xt中預(yù)測(cè)包含真實(shí)值Xt+1信息的隱變量Z。在解碼階段,將Z與編碼器3的輸出拼接后,送入GRU3進(jìn)行時(shí)序處理,并將處理后的結(jié)果送入解碼器,解碼器輸出t時(shí)刻的預(yù)測(cè)值,Xt+1與之間的重構(gòu)誤差可用于評(píng)價(jià)網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性。解碼器由編碼器中VGG16網(wǎng)絡(luò)的鏡像翻轉(zhuǎn)構(gòu)成,并將下采樣池化模塊替換為上采樣膨脹卷積模塊。所有的GRU采用單層結(jié)構(gòu),隱含層神經(jīng)元個(gè)數(shù)為64。本文將GRU3的輸出結(jié)果作為t時(shí)刻的行人未來(lái)動(dòng)作編碼Ψt,相比于對(duì)當(dāng)前動(dòng)作編碼,對(duì)未來(lái)動(dòng)作的編碼能夠更好地反映行人意圖。
圖6 基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò)結(jié)構(gòu)
行人穿越行為通常發(fā)生在有交通信號(hào)燈、斑馬線和行人指示標(biāo)志的路口,準(zhǔn)確理解行人周圍的局部交通場(chǎng)景,對(duì)于判斷其是否會(huì)穿越有較大幫助?;谏疃葘W(xué)習(xí)在語(yǔ)義分割領(lǐng)域的成功,本文中引入輕量級(jí)的E?NET網(wǎng)絡(luò)實(shí)現(xiàn)場(chǎng)景理解。為了加速擬合,在KITTI語(yǔ)義分割數(shù)據(jù)集上對(duì)E?NET網(wǎng)絡(luò)進(jìn)行了預(yù)訓(xùn)練。訓(xùn)練后的E?NET網(wǎng)絡(luò)在下采樣過(guò)程中可以獲取局部交通場(chǎng)景的深度編碼,這種編碼盡管丟失了部分場(chǎng)景細(xì)節(jié)信息,但是能夠保留局部交通場(chǎng)景的道路、建筑物、樹(shù)木等主要語(yǔ)義信息,從而保證MIFRN能夠更好地理解行人所處的局部交通環(huán)境。E?NET網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由于本文中只需要編碼局部交通場(chǎng)景,因此僅保留E?NET網(wǎng)絡(luò)的前4個(gè)模塊,刪除了上采樣模塊。假設(shè)t時(shí)刻輸入的局部交通場(chǎng)景為St,則對(duì)St的編碼如下:
式中:f(·)表示預(yù)訓(xùn)練后的部分E?NET網(wǎng)絡(luò);Ws表示網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù)。
當(dāng)來(lái)車速度過(guò)高、或者人車距離過(guò)近時(shí),行人往往會(huì)放棄穿越,轉(zhuǎn)而等待車輛通過(guò)。因此,準(zhǔn)確編碼車速和人車距離可以提高行人過(guò)街意圖識(shí)別的準(zhǔn)確性。本文中引入GRU模塊高效地編碼車速與人車距離。同時(shí),考慮到極端情況(如車輛突然加速、人車距離突然縮短等)對(duì)行人過(guò)街意圖的影響較大,本文中引入注意力機(jī)制,設(shè)計(jì)了基于注意力機(jī)制加權(quán)的AGRU,分別對(duì)車速和人車距離進(jìn)行編碼。假設(shè)車 速 和 人 車 距 離 序 列 分 別 是V t={v1,v2,...,vt}和D t={d1,d2,...,d t},則車速和人車距離在t時(shí)刻的編碼結(jié)果分別為
式中:AGRUV(·)和AGRUD(·)表示兩個(gè)獨(dú)立的GRU時(shí)序數(shù)據(jù)處理網(wǎng)絡(luò);W V和W D分別是AGRUV(·)和AGRUD(·)的可學(xué)習(xí)參數(shù)。
對(duì)于t時(shí)刻行人運(yùn)動(dòng)信息編碼Ψt、場(chǎng)景語(yǔ)義編碼φt、車速與人車距離編碼ΦVt與ΦDt,常用融合方法是直接拼接。但是,直接拼接較難獲取不同編碼信息之間的深層關(guān)聯(lián)。本文中引入基于雙向GRU的信息融合模塊,將4種編碼組合成序列I t=[Ψt,φt,ΦVt,ΦDt],并將I t送入雙向GRU,雙向GRU的輸出作為融合結(jié)果:
式中:BiGRU(·)表示雙向GRU網(wǎng)絡(luò);W Bi表示網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù);O t表示t時(shí)刻的融合編碼向量,維度為64。這種融合方式有利于挖掘不同編碼信息的深度關(guān)聯(lián),從而提高行人意圖識(shí)別的準(zhǔn)確性。
為了從O t中推測(cè)行人過(guò)街意圖,本文中引入了多層感知機(jī),感知機(jī)中每層的神經(jīng)元個(gè)數(shù)分別為64、32、16和2。最后,將輸出通過(guò)Softmax函數(shù)歸一化,得到行人穿越/非穿越的概率。
本文中采用多任務(wù)學(xué)習(xí)范式,網(wǎng)絡(luò)在識(shí)別行人意圖同時(shí),可以預(yù)測(cè)行人的未來(lái)動(dòng)作??偟膿p失函數(shù)包括:(1)分類損失Lc;(2)重構(gòu)損失LG;(3)KL損失LKL。
(1)分類損失Lc:本文中將行人過(guò)街意圖識(shí)別當(dāng)做分類問(wèn)題處理,考慮到行人個(gè)體的差異,識(shí)別有難有易。因此,引入了焦點(diǎn)損失函數(shù)(focal loss)代替二值交叉熵?fù)p失函數(shù),Lc定義如下:
式中:Yi表示樣本i的真實(shí)標(biāo)簽,0表示負(fù)樣本,1表示正樣本;Pi表示網(wǎng)絡(luò)輸出的行人過(guò)街意圖的預(yù)測(cè)概率。超參數(shù)α用于控制正負(fù)樣本的比例,按經(jīng)驗(yàn)值設(shè)為0.5;超參數(shù)γ用于緩解難易樣本問(wèn)題,按文獻(xiàn)[21]設(shè)為2。
(2)重構(gòu)損失LG:該損失用于衡量動(dòng)作預(yù)測(cè)與真實(shí)結(jié)果的差異,本文中采用L2損失作為重構(gòu)損失LG,定義如下:
式中:Xt為t時(shí)刻的真實(shí)值為t時(shí)刻網(wǎng)絡(luò)的輸出值。
(3)KL損失LKL:該損失用于衡量動(dòng)作信息編碼網(wǎng)絡(luò)訓(xùn)練階段中潛變量Z與Z之間的分布差異,通過(guò)降低該損失,可以使分布Z與Z接近。本文中引入KL散度來(lái)計(jì)算LKL,定義如下:
在得到上述3個(gè)損失函數(shù)的前提下,總的損失函數(shù)如下:
式中權(quán)衡參數(shù)κ與β通過(guò)交叉驗(yàn)證分別設(shè)置為0.1與0.5。
(1)JAAD[31]。JAAD數(shù)據(jù)集常用于研究交通參與者的行為。該數(shù)據(jù)集包括346段5-15 s的高分辨率視頻片段,每個(gè)片段中都包含城市環(huán)境下的不同駕駛場(chǎng)景。數(shù)據(jù)集中提供了行人的標(biāo)注信息,標(biāo)注的行人類型包括:沿路側(cè)行走的行人、路側(cè)等待的行人、正在穿越馬路的行人等??紤]到識(shí)別行人過(guò)街意圖的目的,從JAAD數(shù)據(jù)集中選取了158個(gè)穿越行人樣本和79個(gè)非穿越行人樣本。
(2)PIE[32]。PIE數(shù)據(jù)集常用于研究行人意圖,其規(guī)模大于JAAD數(shù)據(jù)集。PIE使用車輛在不同街道結(jié)構(gòu)、不同群體密度地區(qū)采集了1 842段位于路側(cè)的行人數(shù)據(jù)。所有數(shù)據(jù)都采于白天、能見(jiàn)度高的場(chǎng)合,因此可以較好地分析行人行為??紤]到識(shí)別行人過(guò)街意圖的目的,從PIE數(shù)據(jù)集中選取了516個(gè)穿越行人樣本和852個(gè)非穿越行人樣本。
JAAD和PIE數(shù)據(jù)集提供了分析行人過(guò)街意圖的樣本,但是,仍然存在兩個(gè)問(wèn)題:(1)樣本量偏少,盡管PIE數(shù)據(jù)集的1 368個(gè)樣本遠(yuǎn)大于JAAD數(shù)據(jù)集的237個(gè)樣本,但仍然無(wú)法滿足深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的需要;(2)正負(fù)樣本不均衡,JAAD數(shù)據(jù)集中穿越行人與非穿越行人樣本的比例約為2∶1,PIE數(shù)據(jù)集中這個(gè)比例約為1∶1.6。
為了緩減這兩個(gè)問(wèn)題,本文中引入了時(shí)域數(shù)據(jù)增益,步驟如下。
(1)對(duì)于穿越行人樣本,以其開(kāi)始穿越時(shí)刻(開(kāi)始邁腿或擺手的瞬間)為界,向前、后各取12、11幀,總計(jì)獲得24幀數(shù)據(jù)。
(2)對(duì)任意24幀數(shù)據(jù)進(jìn)行時(shí)域增益,即以2幀為間隔在時(shí)域上連續(xù)采樣長(zhǎng)度為16幀的序列,最后可獲得1-16、3-18、5-20、7-22、9-24共5個(gè)序列,且每個(gè)序列中都包含開(kāi)始穿越時(shí)刻(即第13幀)。數(shù)據(jù)增益后,可分別從JAAD和PIE數(shù)據(jù)集中提取出790和2 580個(gè)穿越行人樣本。
(3)對(duì)于非穿越行人樣本,考慮正負(fù)樣本間的均衡,以行人可以清晰觀測(cè)為準(zhǔn),從JAAD數(shù)據(jù)集中的每個(gè)非穿越行人序列中連續(xù)采集34幀數(shù)據(jù),從PIE數(shù)據(jù)集中連續(xù)采集20幀數(shù)據(jù),并分別以2幀為間隔在時(shí)域上進(jìn)行增益。最后,可分別從JAAD和PIE數(shù)據(jù)集中提取出790和2 556個(gè)非穿越行人樣本。
(4)對(duì)于增益后的JAAD與PIE數(shù)據(jù)集中的穿越/非穿越行人樣本,以5-折交叉驗(yàn)證的方式確定訓(xùn)練集與測(cè)試集,并采用正確率Acc(Accuracy)指標(biāo)進(jìn)行評(píng)價(jià),Acc計(jì)算公式如下:
式中:P和N分別表示總的穿越樣本與非穿越樣本數(shù)目;TP和TN分別表示正確識(shí)別的穿越樣本與非穿越樣本數(shù)目。
本文中所采用的實(shí)驗(yàn)平臺(tái)搭載了兩塊英偉達(dá)1080ti顯卡和一塊英特爾I9 CPU,實(shí)驗(yàn)環(huán)境為Ubuntu系統(tǒng)、Pytorch框架。行人動(dòng)作序列的尺寸為128×128像素,局部交通場(chǎng)景的尺寸為320×320像素。本文中使用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò),總的訓(xùn)練批次數(shù)目為300,初始學(xué)習(xí)率設(shè)置為0.01,并每隔100批次將學(xué)習(xí)率除以10。
本文工作的貢獻(xiàn)之一是提出一種多源信息融合識(shí)別網(wǎng)絡(luò)MIFRN識(shí)別行人過(guò)街意圖,除了從行人動(dòng)作中識(shí)別其穿越意圖,MIFRN還能夠融合行人周圍的局部交通場(chǎng)景、車速、人車距離等線索,做出綜合決策。為了評(píng)價(jià)網(wǎng)絡(luò)中不同信息的作用,本文中分別在JAAD與PIE數(shù)據(jù)集上進(jìn)行了銷蝕實(shí)驗(yàn),結(jié)果如表1所示。從表中不難看出,行人動(dòng)作中包含其是否準(zhǔn)備穿越的主要信息,局部交通場(chǎng)景信息可以作為行人動(dòng)作的重要補(bǔ)充,車速、人車距離也能夠在一定程度上提高行人過(guò)街意圖識(shí)別的準(zhǔn)確性。
表1 MIFRN網(wǎng)絡(luò)銷蝕實(shí)驗(yàn)
行人過(guò)街意圖識(shí)別是智能交通系統(tǒng)與無(wú)人駕駛領(lǐng)域的熱點(diǎn)話題之一。但是,大量研究通過(guò)分析行人的歷史軌跡判斷其是否有過(guò)街意圖,忽略了行人的外表與動(dòng)作。本文中著眼于識(shí)別行人開(kāi)始穿越的動(dòng)作,結(jié)合交通場(chǎng)景、車速、人車距離,準(zhǔn)確識(shí)別行人過(guò)街意圖。為了展示本文方法的有效性,選取了如下方法進(jìn)行對(duì)比:
(1)文獻(xiàn)[33]中提出的一種基于AlexNet網(wǎng)絡(luò)的行人過(guò)街意圖識(shí)別方法;
(2)文獻(xiàn)[34]中提出的一種雙通道卷積神經(jīng)網(wǎng)絡(luò)識(shí)別行人過(guò)街意圖的方法;
(3)文獻(xiàn)[19]中基于人體骨骼點(diǎn)檢測(cè)結(jié)果識(shí)別行人動(dòng)作,進(jìn)而判斷其過(guò)街意圖的方法;
(4)文獻(xiàn)[35]中引入圖卷積神經(jīng)網(wǎng)絡(luò)處理人體骨骼點(diǎn)之間的關(guān)聯(lián),提高了行人動(dòng)作識(shí)別的準(zhǔn)確性,進(jìn)而能夠更好地識(shí)別行人過(guò)街意圖的方法;
(5)文獻(xiàn)[36]中提出的一種基于時(shí)空關(guān)聯(lián)推理的方法,通過(guò)圖模型建模行人與車輛的關(guān)系,從而識(shí)別行人過(guò)街意圖。
本文中在JAAD和PIE數(shù)據(jù)集上以相同設(shè)置對(duì)比了算法性能,用于比較的算法采用了相應(yīng)工作中的默認(rèn)設(shè)置。表2和表3分別給出了本文算法與主流算法在JAAD和PIE數(shù)據(jù)集上的比較結(jié)果。從表中不難看出,基于骨骼點(diǎn)的行人意圖識(shí)別算法性能優(yōu)于早期的AlexNet網(wǎng)絡(luò)和雙通道卷積神經(jīng)網(wǎng)絡(luò),弱于近期提出的基于時(shí)空性關(guān)聯(lián)推理的方法[36]。本文算法由于引入了行人未來(lái)動(dòng)作信息編碼,同時(shí)綜合考慮了局部交通場(chǎng)景、車速和人車距離,在兩個(gè)數(shù)據(jù)集上都取得了最優(yōu)的效果。
表2 與主流算法在JAAD數(shù)據(jù)集上算法性能比較
表3 與主流算法在PIE數(shù)據(jù)集上算法性能比較
本文中提出了一種基于視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò),在預(yù)測(cè)行人未來(lái)動(dòng)作的同時(shí),生成其未來(lái)動(dòng)作編碼,該編碼中包含了行人的過(guò)街意圖。因此,行人未來(lái)動(dòng)作生成的優(yōu)劣決定了編碼是否準(zhǔn)確,進(jìn)而關(guān)系到能否準(zhǔn)確識(shí)別其過(guò)街意圖。圖7和圖8展示了JAAD和PIE數(shù)據(jù)集中一些行人樣本的未來(lái)動(dòng)作生成示例。圖中藍(lán)色方框表示觀測(cè)的10幀動(dòng)作序列,紅色方框表示生成的10幀未來(lái)動(dòng)作。由于行人未來(lái)動(dòng)作的不確定性隨著觀測(cè)時(shí)間的推移而增加,因此紅框中后端圖像的生成質(zhì)量劣于前端圖像。對(duì)于圖7和圖8中,(a)、(b)為未穿越行人樣本,(c)、(d)為穿越行人樣本。不難看出,本文算法能夠描述行人的未來(lái)動(dòng)作,如果行人沒(méi)有穿越馬路,則生成數(shù)據(jù)中不包含明顯的抬腿、揮手等動(dòng)作;反之,生成數(shù)據(jù)中通常包含腿部動(dòng)作,揭示了行人即將穿越。
圖7 JAAD數(shù)據(jù)集行人未來(lái)動(dòng)作生成示例
圖8 PIE數(shù)據(jù)集行人未來(lái)動(dòng)作生成示例
利用圖像信息識(shí)別行人過(guò)街意圖的主流方法是檢測(cè)行人骨骼點(diǎn),在此基礎(chǔ)上識(shí)別行人動(dòng)作,進(jìn)而判斷其是否準(zhǔn)備過(guò)街[19]。但是,骨骼點(diǎn)檢測(cè)對(duì)行人圖像的清晰度有一定要求。在實(shí)際交通場(chǎng)景下,人車距離、遮擋、光線、行人穿著等因素都會(huì)對(duì)骨骼點(diǎn)檢測(cè)產(chǎn)生影響,導(dǎo)致誤檢或漏檢。圖9和圖10分別給出了JAAD和PIE數(shù)據(jù)集中骨骼點(diǎn)檢測(cè)失敗的例子。對(duì)于任意子圖,上一行表示行人觀測(cè)序列,下一行表示骨骼點(diǎn)檢測(cè)結(jié)果。圖9(a)和圖9(b)中由于行人的姿態(tài)、穿著等因素,無(wú)法準(zhǔn)確檢測(cè)其骨骼點(diǎn),進(jìn)而無(wú)法利用骨骼點(diǎn)信息判斷行人是否準(zhǔn)備過(guò)街。使用本文方法,在僅使用行人未來(lái)動(dòng)作編碼的前提下,得到圖9(a)和圖9(b)中行人不穿越、穿越的概率分別為0.788和0.836。圖10(a)和圖10(b)中部分幀可以檢測(cè)到完整的行人骨骼點(diǎn),但是其它幀存在誤檢、漏檢,導(dǎo)致較難識(shí)別行人過(guò)街意圖。僅使用本文中提出的未來(lái)動(dòng)作編碼,得到圖10(a)和圖10(b)中行人不穿越、穿越的概率分別為0.822和0.858。由此可見(jiàn),本文方法能夠在復(fù)雜交通場(chǎng)景下魯棒地識(shí)別行人動(dòng)作信息,進(jìn)而結(jié)合場(chǎng)景條件,更好地識(shí)別行人是否具有過(guò)街意圖。
圖9 JAAD數(shù)據(jù)集行人骨骼點(diǎn)檢測(cè)失敗案例
圖10 PIE數(shù)據(jù)集行人骨骼點(diǎn)檢測(cè)失敗案例
為了驗(yàn)證所提算法的有效性,本文中將JAAD與PIE數(shù)據(jù)集進(jìn)行了整合,在整合后的數(shù)據(jù)集上訓(xùn)練模型,并進(jìn)行了實(shí)車實(shí)驗(yàn)。圖11為實(shí)車實(shí)驗(yàn)平臺(tái)“江大智能行”號(hào)無(wú)人駕駛汽車,該平臺(tái)集成了智能車感知、地圖、規(guī)劃決策、控制等無(wú)人駕駛的基本功能,使用了基于CORS差分技術(shù)的GPS與IMU結(jié)合的定位系統(tǒng),并具有由一臺(tái)velodyne 64線激光雷達(dá)、兩臺(tái)ibeo4線激光雷達(dá)、一臺(tái)Delphi毫米波雷達(dá)、一臺(tái)SICK單線激光雷達(dá)和兩臺(tái)Gige融合工業(yè)相機(jī)構(gòu)成的智能感知系統(tǒng),其數(shù)據(jù)處理功能由研華ARK-3 500工控機(jī)完成。本次實(shí)車實(shí)驗(yàn)主要利用了“江大智能行”號(hào)的圖像采集能力與數(shù)據(jù)計(jì)算能力,實(shí)驗(yàn)全程由駕駛員進(jìn)行操作。圖12為兩臺(tái)Gige融合工業(yè)相機(jī)安裝效果圖。
圖11 “江大智能行”號(hào)無(wú)人駕駛汽車
圖12 車載工業(yè)相機(jī)安裝效果圖
圖13為本文算法的實(shí)車測(cè)試結(jié)果,其中,上、下圖分別展示了3個(gè)穿越、非穿越行人樣本。MIFRN在輸出行人穿越、非穿越概率前使用了Softmax激活層進(jìn)行標(biāo)準(zhǔn)化處理,因此對(duì)于每個(gè)樣本,其穿越概率與不穿越概率之和為1。為了更清晰地展示行人是否穿越,圖13以紅色矩形框標(biāo)記穿越行人,以綠色矩形框標(biāo)記非穿越行人,并在矩形框頂端附注可能性較大的行為對(duì)應(yīng)的概率值(與矩形框同色)。
圖13 實(shí)車測(cè)試結(jié)果
從圖中可見(jiàn),當(dāng)檢測(cè)到行人周圍有紅綠燈、斑馬線等交通標(biāo)識(shí),且行人未來(lái)動(dòng)作中存在抬腿、揮手等可能時(shí),行人有較大的概率穿越;當(dāng)行人沒(méi)有任何穿越動(dòng)作的前兆,且場(chǎng)景中無(wú)任何交通標(biāo)識(shí)的情況下,行人有較大概率等待車輛通過(guò)。從結(jié)果中不難看出,本文算法可以在較大范圍光照變化下比較準(zhǔn)確地檢測(cè)行人是否有穿越意圖,且對(duì)行人的模糊外表有一定魯棒性,克服了基于骨骼點(diǎn)的行人穿越意圖判別中較難準(zhǔn)確提出骨骼點(diǎn)信息的不足。
本文提出了一種多源信息融合識(shí)別網(wǎng)絡(luò)MIFRN用于識(shí)別行人過(guò)街意圖。MIFRN包含一種基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò),可以在預(yù)測(cè)行人未來(lái)動(dòng)作的同時(shí),生成其未來(lái)動(dòng)作信息的編碼,克服了惡劣環(huán)境下無(wú)法準(zhǔn)確檢測(cè)行人骨骼點(diǎn)的弊端,更加魯棒地理解行人行為。為了進(jìn)一步提高行人過(guò)街意圖的識(shí)別準(zhǔn)確率,MIFRN引入輕量級(jí)的E?NET網(wǎng)絡(luò)編碼行人周圍的局部交通場(chǎng)景,引入注意力加權(quán)的GRU模塊編碼車速和人車距離,并引入雙向GRU多源信息的深度融合。相比于其它主流算法,MIFRN在JAAD和PIE數(shù)據(jù)集上都取得了最佳性能,在實(shí)車實(shí)驗(yàn)中也表現(xiàn)出不俗性能。
本文中提出的MIFRN可用于無(wú)人駕駛領(lǐng)域的復(fù)雜場(chǎng)景感知,通過(guò)感知路側(cè)行人的過(guò)街意圖,可以更好地規(guī)劃無(wú)人車的未來(lái)運(yùn)行軌跡。同時(shí),MIFRN也可用于有人駕駛車輛的ADAS系統(tǒng),從而為行人防碰撞提供更好的決策依據(jù)。盡管MIFRN在公共數(shù)據(jù)集上取得了較好表現(xiàn),但仍存在以下問(wèn)題:(1)計(jì)算開(kāi)銷大,MIFRN需要利用YoloV4進(jìn)行目標(biāo)檢測(cè),然后同時(shí)編碼行人未來(lái)動(dòng)作、局部交通場(chǎng)景、車速和人車距離,所需要的計(jì)算資源較大,較難應(yīng)用于智能邊緣設(shè)備;(2)MIFRN主要依賴路側(cè)行人的動(dòng)作信息識(shí)別其過(guò)街意圖,對(duì)于無(wú)征兆的行人突然穿越,識(shí)別表現(xiàn)較差。因此,后續(xù)工作將主要集中在:(1)通過(guò)壓縮、精簡(jiǎn)模型,改善算法的實(shí)時(shí)性能,從而滿足智能邊緣設(shè)備的算力需求;(2)深入研究行人過(guò)街意圖和人車沖突決策的內(nèi)在機(jī)理,從而在機(jī)理上更好地避免人車沖突。