陳 龍,楊 晨,蔡英鳳,王 海,李祎承
(1.江蘇大學(xué)汽車(chē)工程研究院,鎮(zhèn)江 212013;2.江蘇大學(xué)汽車(chē)與交通工程學(xué)院,鎮(zhèn)江 212013)
城市交通環(huán)境紛繁復(fù)雜,行人是道路交通參與者中最易暴露和最脆弱的道路使用者之一,根據(jù)世界衛(wèi)生組織報(bào)告統(tǒng)計(jì)結(jié)果,在全球每年死于交通事故的135 萬(wàn)人中,超過(guò)一半的交通事故死亡者為弱勢(shì)道路使用者,保護(hù)行人等弱勢(shì)道路使用者的安全刻不容緩[1]。保護(hù)行人安全的關(guān)鍵在于避免人車(chē)沖突,如今隨著先進(jìn)駕駛輔助技術(shù)和自動(dòng)駕駛技術(shù)的迅速發(fā)展,自動(dòng)駕駛汽車(chē)可以借助視覺(jué)、激光雷達(dá)和毫米波雷達(dá)等車(chē)載傳感器感知周?chē)牡缆翻h(huán)境、車(chē)輛和行人等目標(biāo),進(jìn)而預(yù)測(cè)行人行為,讓自動(dòng)駕駛汽車(chē)可以提前進(jìn)行規(guī)劃和決策,從而避免發(fā)生人車(chē)沖突。在交通管理的背景下,人車(chē)沖突多發(fā)于人行橫道,能夠準(zhǔn)確預(yù)測(cè)行人是否從車(chē)輛前方穿越,可以減少行人延誤和交通擁堵,提高道路行車(chē)效率,從而幫助自動(dòng)駕駛汽車(chē)找到安全和效率之間的平衡[2]。
目前解決行人穿越意圖預(yù)測(cè)問(wèn)題的主流方法主要有兩種,一是基于行人未來(lái)軌跡預(yù)測(cè)的方法,二是基于人體姿態(tài)估計(jì)的方法。其中基于軌跡預(yù)測(cè)的方法相對(duì)更加普遍,行人軌跡預(yù)測(cè)領(lǐng)域的研究也已經(jīng)相對(duì)成熟,許多基于人機(jī)交互模型預(yù)測(cè)行人軌跡的模型已經(jīng)被提出。例如Alahi 等[3]提出了Social-LSTM,其將最大池化應(yīng)用于鄰近交通參與者,建模交通場(chǎng)景中的人人交互。Gupta 等[4]提出了Social-GAN,其將Social-LSTM 擴(kuò)展為基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的生成模型,將最大池化應(yīng)用于所有交通參與者。Kosaraju 等[5]提出了Social-BiGAT,其也是一種基于GAN 的方法,它引入圖注意力網(wǎng)絡(luò)(GAT)建模場(chǎng)景中的人人交互,解除先前模型中的RNN 依賴(lài)。Mohamed 等[6]提出了Social-STGCNN,其使用圖卷積網(wǎng)絡(luò)代替先前模型的交互機(jī)制,使用TCN 代替先前模型的循環(huán)遞歸架構(gòu),用時(shí)空?qǐng)D捕捉隨時(shí)間變化的動(dòng)態(tài)交互作用??紤]到視角和自身運(yùn)動(dòng),Yagi等[7]針對(duì)第一人稱(chēng)視頻中的行人軌跡預(yù)測(cè)問(wèn)題提出了一種新型行人軌跡預(yù)測(cè)模型,其采用一種多流卷積-反卷積架構(gòu)的預(yù)測(cè)框架聚合相機(jī)自我運(yùn)動(dòng)、行人尺度和人體姿態(tài)信息預(yù)測(cè)行人的未來(lái)軌跡,該模型克服了相機(jī)視角的問(wèn)題,但模型結(jié)構(gòu)和性能還有較大的優(yōu)化空間。近期的研究表明,行人穿越前的早期動(dòng)作(如走動(dòng)、揮手、注視等)與行人的穿越意圖有關(guān)[8]。基于人體姿態(tài)特征進(jìn)行行人穿越意圖預(yù)測(cè)開(kāi)始受到研究者們的廣泛關(guān)注。早期的方法多基于CNN[9]和LSTM[10]處理人體骨架特征進(jìn)行動(dòng)作識(shí)別和軌跡預(yù)測(cè),例如Fang 等[11]提出基于單目視覺(jué)的人體姿態(tài)估計(jì)方法來(lái)預(yù)測(cè)行人和騎自行車(chē)人的意圖。Zhang 等[12]提出使用多層 LSTM 網(wǎng)絡(luò)進(jìn)行基于骨架的動(dòng)作識(shí)別的幾何特征,提供了一種與 RNN 模型增強(qiáng)垂直的簡(jiǎn)單通用空間建模方法,進(jìn)一步提高了模型性能。最近的研究開(kāi)始在人體姿態(tài)估計(jì)任務(wù)中引入圖結(jié)構(gòu),例如Cadena 等[13]開(kāi)發(fā)了二維行人圖結(jié)構(gòu)和行人圖網(wǎng)絡(luò),以預(yù)測(cè)行人是否要過(guò)馬路。Huynh等[14]提出了GPRAR 模型,該模型基于圖卷積網(wǎng)絡(luò)進(jìn)行人體姿勢(shì)重建和動(dòng)作識(shí)別,模型包括一個(gè)特征聚合器(FA),F(xiàn)A以通道方式聚合學(xué)習(xí)到的特征:人體姿勢(shì)、動(dòng)作、位置和相機(jī)運(yùn)動(dòng),使用基于編碼器-解碼器的時(shí)間卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)未來(lái)位置。
綜上所述,現(xiàn)有的運(yùn)動(dòng)軌跡預(yù)測(cè)方法,常常是借助先驗(yàn)的歷史軌跡信息在未來(lái)的某個(gè)時(shí)刻對(duì)其進(jìn)行軌跡預(yù)測(cè),且沒(méi)有充分考慮到自然駕駛環(huán)境下外界條件的不確定性干擾。此外,這些方法大多需要在俯視視角下的位置信息,這受限于要借助移動(dòng)攝像機(jī)來(lái)獲得場(chǎng)景的俯視圖,且目前也缺乏俯視視角下帶有行人位置信息和穿越意圖標(biāo)簽的數(shù)據(jù)集?;谌梭w姿態(tài)估計(jì)的行人意圖預(yù)測(cè)方法在特定的環(huán)境下表現(xiàn)出不錯(cuò)的性能,但在復(fù)雜的城市交通環(huán)境中,人體姿態(tài)關(guān)鍵點(diǎn)的檢測(cè)精度會(huì)受到變化的相機(jī)視角、人車(chē)距離、遮擋等因素的較大影響,且行人通常表現(xiàn)出受到各種背景元素影響的復(fù)雜行為,具有高度的可變性,僅通過(guò)行人的歷史軌跡進(jìn)行推斷或是只通過(guò)人體姿態(tài)估計(jì)不足以在復(fù)雜的城市交通背景下實(shí)現(xiàn)行人穿越意圖的準(zhǔn)確預(yù)測(cè)。
為繼承上述方法的優(yōu)點(diǎn),同時(shí)避開(kāi)其缺陷,近期的研究已經(jīng)開(kāi)始轉(zhuǎn)向關(guān)注基于多流循環(huán)網(wǎng)絡(luò)和多輸入特征的行人意圖預(yù)測(cè)方法,例如Aliakbarian 等[15]使用多流LSTM 對(duì)視覺(jué)特征、光流圖像和車(chē)輛動(dòng)力學(xué)進(jìn)行編碼,其輸出被連接后生成用于意圖預(yù)測(cè)的共享表示。自 JAAD[16]和PIE[17]數(shù)據(jù)集被提出后,F(xiàn)ussi-Net[18]、SF-GRU[19]、PCPA[20]等依賴(lài)多種輸入特征的行人穿越意圖預(yù)測(cè)模型逐漸被提出,并在公開(kāi)數(shù)據(jù)集上表現(xiàn)出不錯(cuò)的性能,這些模型的輸入特征一般是檢測(cè)到的行人邊界框、姿勢(shì)、外觀,甚至是自我車(chē)輛信息??偟膩?lái)說(shuō),盡管該領(lǐng)域在近幾年的研究中取得了顯著進(jìn)展,但仍普遍存在諸如行人穿越意圖預(yù)測(cè)精度不高、模型輸入考慮不全面以及模型泛化性能不強(qiáng)等問(wèn)題。究其原因,主要是現(xiàn)有方法在充分利用交通場(chǎng)景中的環(huán)境上下文信息以及各個(gè)交通對(duì)象之間的交互信息方面存在不足。此外,現(xiàn)有意圖預(yù)測(cè)模型在探究多模態(tài)特征融合策略和模型優(yōu)化方向的方法系統(tǒng)性存在局限。
針對(duì)上述問(wèn)題,本文中提出一種基于多模態(tài)特征融合的行人穿越意圖預(yù)測(cè)方法,實(shí)現(xiàn)了在復(fù)雜交通場(chǎng)景下對(duì)行人意圖的準(zhǔn)確預(yù)測(cè)。首先,針對(duì)全局場(chǎng)景上下文信息、局部場(chǎng)景上下文信息、自車(chē)車(chē)速等輸入信息,該方法以輸入目標(biāo)行人的邊界框信息為基準(zhǔn)設(shè)計(jì)了正交試驗(yàn),并通過(guò)試驗(yàn)分析篩選獲得性能最佳的模型架構(gòu);其次,建立了一種新型全局場(chǎng)景上下文交互信息提取模塊,該模塊包含膨脹卷積、SE 模塊和交互注意力機(jī)制,依賴(lài)場(chǎng)景語(yǔ)義掩碼對(duì)行人與交通元素間的交互關(guān)系進(jìn)行建模;同時(shí),構(gòu)建了局部場(chǎng)景時(shí)空特征提取模塊,該模塊結(jié)合通道注意力、空間注意力和AUGRU,基于多重注意力機(jī)制提升了模型捕獲復(fù)雜交通場(chǎng)景下局部交通場(chǎng)景的時(shí)空信息的能力;最后,設(shè)計(jì)了一種基于混合融合策略的多模態(tài)特征融合模塊,根據(jù)不同信息源的復(fù)雜程度實(shí)現(xiàn)了對(duì)視覺(jué)特征和運(yùn)動(dòng)特征的聯(lián)合推理,為行人穿越意圖預(yù)測(cè)模塊提供可靠信息。在公開(kāi)數(shù)據(jù)集JAAD上的驗(yàn)證結(jié)果顯示,相比于現(xiàn)有的同類(lèi)型模型,文中所提出的方法在行人穿越意圖預(yù)測(cè)方面優(yōu)于最先進(jìn)的模型。綜上所述,本文的主要貢獻(xiàn)可以歸納為:
(1)提出了一種基于多模態(tài)特征融合框架的行人穿越意圖預(yù)測(cè)方法,設(shè)計(jì)正交試驗(yàn)法篩選獲得最佳輸入條件,通過(guò)混合融合方式對(duì)視覺(jué)特征和運(yùn)動(dòng)特征進(jìn)行聯(lián)合推理,進(jìn)而實(shí)現(xiàn)對(duì)行人意圖的準(zhǔn)確預(yù)測(cè)。
(2)建立了一種新型全局場(chǎng)景上下文交互信息模塊,該模塊基于多種注意力機(jī)制構(gòu)建交互建模注意力關(guān)系網(wǎng)絡(luò)處理全局場(chǎng)景的語(yǔ)義掩碼,從而捕獲行人與其周?chē)h(huán)境之間的交互關(guān)系。
本文將人行橫道上的行人穿越意圖預(yù)測(cè)定義為一個(gè)與多個(gè)模態(tài)信息輸入源相關(guān)的優(yōu)化問(wèn)題,即它通過(guò)聚合的受試者的反應(yīng)來(lái)測(cè)量并被重新調(diào)整到 [0,1]的范圍內(nèi),因此對(duì)于每個(gè)目標(biāo)行人i,給定從車(chē)輛前視圖觀察到的m個(gè)時(shí)步的視頻幀序列和自車(chē)運(yùn)動(dòng)的相關(guān)信息,根據(jù)所設(shè)計(jì)的模型可以估計(jì)出目標(biāo)行人t+n時(shí)刻在車(chē)輛前方穿越的概率。
所提出的意圖預(yù)測(cè)模型的整體架構(gòu)圖如圖1 所示。該模型架構(gòu)主要由RNN 模塊、全局場(chǎng)景上下文交互信息提取模塊、局部場(chǎng)景的時(shí)空特征提取模塊、多模態(tài)特征融合模塊以及行人穿越意圖預(yù)測(cè)模塊5個(gè)部分組成,下面對(duì)該模型中各輸入特征的獲取以及模型中的各個(gè)模塊進(jìn)行詳細(xì)介紹。
圖1 本文所提算法的整體架構(gòu)圖
1.3.1 自車(chē)車(chē)速信息及行人邊界框信息獲取
本文提出的模型主要在JAAD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。行人的邊界框位置坐標(biāo)和自車(chē)車(chē)速是JAAD數(shù)據(jù)集中注釋的顯式特征,因此自車(chē)車(chē)速和行人的二維邊界框位置軌跡信息可以直接從數(shù)據(jù)集的標(biāo)簽信息中獲取。自車(chē)車(chē)速可以從自車(chē)的車(chē)速傳感器中直接獲取,這里直接采用數(shù)據(jù)集中自車(chē)速度的地面實(shí)況標(biāo)簽,也即S={st-m,st-m+1,...,st}。目標(biāo)行人i的二維邊界框位置軌跡信息表示為Bi=其中bi由邊界框的左上角和右下角的位置坐標(biāo)表示,也即
1.3.2 行人周邊局部場(chǎng)景圖像信息獲取
本文所指的局部環(huán)境上下文信息包括目標(biāo)行人及其周?chē)植凯h(huán)境的外觀變化,由目標(biāo)行人周?chē)木植繄?chǎng)景圖像序列表示,具體表示為Cli=在給定的時(shí)間步長(zhǎng),通過(guò)裁剪放大的二維邊界框來(lái)提取每個(gè)行人的局部環(huán)境圖像序列,然后調(diào)整縮放框的尺寸,使其高度與寬度相匹配。
1.3.3 行人姿態(tài)關(guān)鍵點(diǎn)信息獲取
行人的姿態(tài)關(guān)鍵點(diǎn)信息可以表示目標(biāo)行人每一幀的姿態(tài),姿態(tài)可以反映目標(biāo)行人詳細(xì)的運(yùn)動(dòng)狀態(tài)(如行走、站立、蹲下以及行人的凝視方向等),表示為由于JAAD 數(shù)據(jù)集自帶的數(shù)據(jù)標(biāo)簽中不包含行人的姿態(tài)關(guān)鍵點(diǎn),在正交試驗(yàn)中采用在COCO 數(shù)據(jù)集[21]上預(yù)訓(xùn)練的HRNet[22]提取JAAD數(shù)據(jù)集中的行人姿態(tài)信息(即由18個(gè)人體關(guān)鍵點(diǎn)坐標(biāo)連接而成的36維特征向量pi),具體可以表示為
1.3.4 全局場(chǎng)景上下文信息獲取
全局場(chǎng)景上下文提供了解釋目標(biāo)行人與其他交通參與者以及道路環(huán)境之間或其他交通參與者之間的多重交互的視覺(jué)特征,文中將其表示為Cg={ct-m,ct-m+1,...,ct},對(duì)于輸入的交通場(chǎng)景圖像序列,本文采用在Cityscapes[23]上預(yù)訓(xùn)練的deeplabV3[24]來(lái)提取輸入場(chǎng)景圖像中各交通參與者與靜態(tài)交通環(huán)境的語(yǔ)義地圖。
所提出的模型涉及到的輸入信息均為序列特征,結(jié)合注意力機(jī)制的RNN 模塊可以自動(dòng)為序列特征分配權(quán)重,使更重要的特征分配到更大的權(quán)重,從而突出特征變化,提高模型處理序列特征的準(zhǔn)確性。本文在GRU 模塊中引入注意力機(jī)制構(gòu)成了AUGRU模塊[25],其在對(duì)目標(biāo)行人的邊界框位置序列提取特征時(shí),可以通過(guò)概率分配的方式自動(dòng)提高模型對(duì)重要的行人邊界框位置坐標(biāo)的關(guān)注程度,突出行人橫向位移以及人車(chē)距離變化等關(guān)鍵信息,在不額外增加計(jì)算和儲(chǔ)存成本的前提下改善行人過(guò)街意圖預(yù)測(cè)的準(zhǔn)確度。
和LSTM 網(wǎng)絡(luò)[10]一樣,GRU[26]也是RNN 的一種變體,兩者都是為解決簡(jiǎn)單RNN 所面臨的長(zhǎng)期依賴(lài)問(wèn)題而被提出來(lái)的,但GRU 相比于LSTM 網(wǎng)絡(luò)參數(shù)量更少,可以更快地在更少計(jì)算量的前提下獲得更好的表現(xiàn)。圖2 所示為GRU 的結(jié)構(gòu)圖,它有兩個(gè)門(mén)神經(jīng)元,分別為更新門(mén)和重置門(mén),其均采用Sigmoid作為激活函數(shù)。更新門(mén)控制前一時(shí)步的狀態(tài)信息被代入到當(dāng)前狀態(tài)中的程度,重置門(mén)則控制忽略前一時(shí)步的狀態(tài)信息的程度。假設(shè)t時(shí)刻GRU 網(wǎng)絡(luò)的輸入為X=(x1,x2,...,xn),則GRU 中各變量的關(guān)系表達(dá)式如下。
圖2 GRU結(jié)構(gòu)簡(jiǎn)圖
更新門(mén):
重置門(mén):
t時(shí)刻的新記憶:
t時(shí)刻隱藏層的狀態(tài)量:
式中:xt表示當(dāng)前時(shí)刻的輸入;r(t)和u(t)分別表示重置門(mén)和更新門(mén)的權(quán)重;表示當(dāng)前時(shí)刻隱藏層新的記憶狀態(tài);h(t)和h(t-1)分別表示當(dāng)前時(shí)刻和前一時(shí)刻的隱藏層狀態(tài);σ為Sigmoid(·)函數(shù);tanh(·)為雙曲正切激活函數(shù);b(r)、b(u)和分別表示重置門(mén)、更新門(mén)和新記憶中的偏差項(xiàng),其余參數(shù)均可在訓(xùn)練過(guò)程中獲得。
AUGRU 的模型結(jié)構(gòu)如圖3所示,其在GRU 的基礎(chǔ)上引入了注意力機(jī)制,將GRU 的update gage 替換為attention-score*update-gate,即將注意力權(quán)重α(t)乘到更新門(mén)u(t)上,然后用更新門(mén)控制當(dāng)前信息與歷史信息保留的比例。注意力分?jǐn)?shù)(attention score)可以反映隱向量ea與輸入h(t)的關(guān)系,且它們之間的相關(guān)性強(qiáng)度會(huì)影響attention score。
注意力分?jǐn)?shù)的計(jì)算公式為
則AUGRU中更新門(mén)的輸出為
AUGRU中隱藏層的狀態(tài)量為
式中:ea為GRU 編碼器輸出的隱狀態(tài)連接得的隱向量;W為可通過(guò)學(xué)習(xí)獲得的記憶矩陣。
提出一種新型的全局場(chǎng)景上下文交互信息提取模塊,其結(jié)構(gòu)如圖4 所示。這是一種結(jié)合SE 通道注意力機(jī)制[27]和交互注意力機(jī)制的新型交互建模注意力關(guān)系網(wǎng)絡(luò),它依賴(lài)場(chǎng)景的語(yǔ)義解析隱式的建模目標(biāo)行人與不同交通元素之間的交互關(guān)系。對(duì)于輸入的交通場(chǎng)景圖像序列,首先采用在Cityscapes數(shù)據(jù)集上預(yù)訓(xùn)練的deeplabV3 來(lái)提取輸入場(chǎng)景圖像中各交通參與者與靜態(tài)交通環(huán)境的語(yǔ)義地圖,這里參考交通場(chǎng)景中最常見(jiàn)的幾種交通對(duì)象,根據(jù)所提取的語(yǔ)義掩碼將語(yǔ)義地圖分為目標(biāo)行人 (p)、目標(biāo)行人附近的行人 (pl)、騎行者 (b)、周邊車(chē)輛 (v) 以及其他靜態(tài)交通場(chǎng)景 (st) 5個(gè)類(lèi)別作為全局語(yǔ)境。
圖4 全局場(chǎng)景上下文交互信息提取模塊
考慮到僅使用多層卷積對(duì)語(yǔ)義地圖進(jìn)行連續(xù)的下采樣處理會(huì)丟失較多的細(xì)節(jié)特征,從而無(wú)法在更高的分辨率下表達(dá)更廣泛的上下文信息。為克服這個(gè)缺點(diǎn),盡可能多地捕捉目標(biāo)行人與其周邊交通參與者之間的交互特征,提出采用膨脹卷積[28]策略來(lái)處理語(yǔ)義地圖。相比之下,膨脹卷積可以在保持參數(shù)量不變的情況下增大卷積核的感受野,讓每個(gè)卷積輸出都包含較大范圍的信息,同時(shí)它可以保證輸出的特征映射的大小不變,這允許模型在不需要下采樣的情況下捕獲更加廣泛的空間上下文特征。
膨脹卷積處理后的語(yǔ)義類(lèi)別特征經(jīng)過(guò)SE 注意力模塊后進(jìn)入GRU 編碼生成各語(yǔ)義圖的時(shí)空表示。在SE注意力模塊中,F(xiàn)sq(·)表示Squeeze操作,將尺寸為H×W×C的特征圖壓縮為1×1 ×C,該操作通過(guò)全局平均池化來(lái)實(shí)現(xiàn)。Fex(·,W)表示Excitation 操作,這里通過(guò)使用兩個(gè)FC全連接層對(duì)每個(gè)通道的重要性進(jìn)行預(yù)測(cè),一個(gè)FC 層降低維度,一個(gè)FC 層恢復(fù)維度,從而可以在特征維度不變的情況下得到不同通道的重要性大小。Fscale(·,·)表示Scale 操作,這里指對(duì)每個(gè)通道的特征進(jìn)行加權(quán)操作。
連接AUGRU 的隱藏狀態(tài)可以得到如下的時(shí)空分類(lèi)表示:
時(shí)空表示被連接并輸入全局交互注意模塊[29]生成統(tǒng)一的加權(quán)表示,各語(yǔ)義圖的加權(quán)輸出經(jīng)連接后即得到大小為[1,256]的全局場(chǎng)景上下文的關(guān)系特征Ca。
在全局交互注意模塊中,輸入為連接的各個(gè)AUGRU 在[t-m+1,t]時(shí)步的隱藏狀態(tài),該模塊通過(guò)測(cè)量最后一個(gè)時(shí)步與其他的每個(gè)時(shí)步之間的相似性來(lái)生成注意力分?jǐn)?shù):
式中:上角標(biāo)“′”表示轉(zhuǎn)置操作;Wa為可訓(xùn)練權(quán)重。由注意力分?jǐn)?shù)可計(jì)算得每個(gè)時(shí)步的注意力權(quán)重為
計(jì)算得上下文向量為
全局環(huán)境交互上下文最終表示為
式中:⊕為連接操作;Wc為可訓(xùn)練權(quán)重。
針對(duì)局部場(chǎng)景圖像,本文聯(lián)合多層卷積和AUGRU 對(duì)其進(jìn)行結(jié)合時(shí)空注意力機(jī)制的時(shí)空特征提取。首先統(tǒng)一局部場(chǎng)景圖像的尺寸為[512,512],則輸入大小為[16,512,512,3](N、H、W、C),結(jié)合VGG16 網(wǎng)絡(luò)[30]、通道注意力、空間注意力和AUGRU設(shè)計(jì)了一個(gè)基于時(shí)空注意力機(jī)制的局部場(chǎng)景時(shí)空特征提取模塊,最終得到大小為N×1×1×256 的局部場(chǎng)景時(shí)空特征Cb。該模塊的具體構(gòu)造如圖5 所示,其在連續(xù)的兩個(gè)VGG Block 間插入了一個(gè)CBAM 模塊[31],該模塊結(jié)合了通道注意力機(jī)制和空間注意力機(jī)制,可以在不改變特征圖尺寸的情況下增強(qiáng)有用的特征表達(dá)。
圖5 局部場(chǎng)景時(shí)空特征提取模塊
如何合理地利用和融合不同模態(tài)的特征是提高行人意圖預(yù)測(cè)性能的一個(gè)重要研究方向,現(xiàn)有的多模態(tài)特征融合方法總體上可以分為像素級(jí)融合、特征級(jí)融合以及決策級(jí)融合,且根據(jù)以往的試驗(yàn)表明,特征級(jí)別的融合相比之下具有更好的性能。如前文所述,所提出的過(guò)街意圖預(yù)測(cè)模型的輸入包括行人邊界框位置軌跡、車(chē)速、行人姿態(tài)關(guān)鍵點(diǎn)以及圖像視覺(jué)特征等多種異構(gòu)信息,在此基礎(chǔ)上本文根據(jù)不同信息源的復(fù)雜程度提出了4 種不同的融合策略,具體結(jié)構(gòu)如圖6 所示。圖6 中(1)為early-fusion,其先融合多層特征,然后采用融合后的特征訓(xùn)練分類(lèi)器,常用有concat 和add 兩種操作,本文中采用了add;(2)為late-fusion,其與early-fusion 相對(duì)應(yīng),采用類(lèi)似特征金字塔的方法,對(duì)特征融合后進(jìn)行預(yù)測(cè);(3)為hierarchical-fusion,其為一種分層融合架構(gòu),這里將輸入的非圖像特征按其復(fù)雜程度進(jìn)行先后融合,每一次融合都采用與(1)中相同的early-fusion。(4)為hiybrid-fusion,在該框架中對(duì)視覺(jué)類(lèi)特征和非視覺(jué)特征分別根據(jù)其特征復(fù)雜程度進(jìn)行先后融合,特征融合同樣采用了add 操作,是一種混合融合方式。
圖6 4種融合策略對(duì)應(yīng)示意圖
如圖6 所示,模型預(yù)測(cè)模塊由一個(gè)注意力模塊和一個(gè)全連接層組成,處理后的各輸入特征經(jīng)融合模塊和注意力模塊后生成用于最終預(yù)測(cè)的特征表示V,可表示為
則最終的預(yù)測(cè)結(jié)果可表示為
本文在自動(dòng)駕駛聯(lián)合注意數(shù)據(jù)集(JAAD)上對(duì)所提出的意圖預(yù)測(cè)模型的性能進(jìn)行評(píng)估,JAAD數(shù)據(jù)集是由約克大學(xué)的研究者提出的用于研究交通參與者行為的大型自然公開(kāi)數(shù)據(jù)集,其包含有346 段由車(chē)載相機(jī)拍攝的高分辨率交通場(chǎng)景視頻剪輯。JAAD 數(shù)據(jù)集提供兩個(gè)子集,其中行人行為數(shù)據(jù)集(JAADbeh)包含了涵蓋各種場(chǎng)景下具有穿越意圖的686個(gè)行人(正在穿越495人/即將穿越191人),而完整的JAAD 數(shù)據(jù)集(JAADall)則包含所有的可見(jiàn)行人,相比JAADbeh 增加了2 100 個(gè)遠(yuǎn)離道路且沒(méi)有穿越行為的人。本文對(duì)數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集的分割處理保持與文獻(xiàn)[32]中相同的設(shè)定,使用數(shù)值為0.8 的采樣重疊率,所有模型的觀測(cè)長(zhǎng)度固定為16 幀。此外,本文遵循與PCPA 模型中相同的數(shù)據(jù)采樣程序,使用與PCPA 模型架構(gòu)中相同的評(píng)估指標(biāo)(準(zhǔn)確性、AUC 曲線、F1 評(píng)分、精密度和召回率)報(bào)告所有的試驗(yàn)結(jié)果。
所采用的試驗(yàn)平臺(tái)搭載了一塊RTX 2080Ti GPU 和一塊Intel I9 CPU,試驗(yàn)環(huán)境為Ubuntu18.04、Pytorch 框架。分別在JAADbeh 和JAADall 上訓(xùn)練所有的模型45 個(gè)epoch,訓(xùn)練采用的優(yōu)化器為Adam,設(shè)置最大學(xué)習(xí)率為5e-6,L2 正則化項(xiàng)為0.000 2,訓(xùn)練采用二元交叉熵?fù)p失函數(shù),受計(jì)算平臺(tái)的限制,本文將batch size設(shè)為2。
多模態(tài)學(xué)習(xí)可以聚合多源數(shù)據(jù)的信息,使模型學(xué)習(xí)到的表示更加完備。行人意圖預(yù)測(cè)模型的性能受多種因素的影響,理論上模型輸入的特征量越多,模型的性能會(huì)越好,但特征量增多的同時(shí)也會(huì)帶來(lái)計(jì)算量的大幅增加,且一些因素之間可能存在交互作用。正交試驗(yàn)法是多因素分析的有效手段,有助于在考慮到交互作用的情況下評(píng)估相關(guān)因素對(duì)試驗(yàn)指標(biāo)的影響,并根據(jù)其效果對(duì)它們進(jìn)行排序,從而便于優(yōu)化模型。為系統(tǒng)地探究各個(gè)輸入信息源對(duì)意圖預(yù)測(cè)模塊性能影響的顯著性,從而優(yōu)化模型設(shè)計(jì)出行人意圖預(yù)測(cè)的最佳模型架構(gòu),本文首先引入了正交試驗(yàn)法對(duì)多模態(tài)輸入的意圖預(yù)測(cè)模型進(jìn)行充分試驗(yàn)。
為最終能夠得到最佳的模型,首先在默認(rèn)所有影響因子均輸入的情況下分別在JAADall 和JAADbeh 上針對(duì)3 種不同的融合方式進(jìn)行了對(duì)比試驗(yàn)。試驗(yàn)結(jié)果如表1 和表2 所示。試驗(yàn)的評(píng)估指標(biāo)包括準(zhǔn)確性(Accuracy)、AUC 曲線(AUC)、F1 評(píng)分(F1 Score)、精密度(Precision)和召回率(Recall)。表中字體加黑數(shù)據(jù)為最佳數(shù)據(jù),斜體數(shù)據(jù)次之。
表1 JAADall上采用不同融合策略的模型對(duì)比試驗(yàn)
表2 JAADbeh上采用不同融合策略的模型對(duì)比試驗(yàn)
如表1 所示,對(duì)比4 種不同融合策略模型在JAADall上的試驗(yàn)結(jié)果,基于hiybrid-fusion融合框架的模型在Acc、AUC 和F1 精度上均得到最優(yōu)且遠(yuǎn)超其它模型的結(jié)果,在未達(dá)到最優(yōu)性能Pre和Recall也僅僅是稍微有些遜色;表2 所示的在JAADbeh 上的結(jié)果也類(lèi)似。綜上根據(jù)表1和表2的試驗(yàn)結(jié)果,基于多模態(tài)輸入混合融合的模型架構(gòu)綜合性能最佳,因此本文基于混合融合的模型架構(gòu)設(shè)計(jì)了正交試驗(yàn),試驗(yàn)因素水平表如表3 所示。正交表的表示方法為L(zhǎng)n(tm),其中L為正交表代號(hào),n代表正交表的行數(shù)也即試驗(yàn)次數(shù),t代表因子水平數(shù),m代表正交表列數(shù)也即最多可安排的因子個(gè)數(shù)。本試驗(yàn)以?xún)H輸入行人邊界框位置軌跡為基準(zhǔn),設(shè)計(jì)7 因素2 水平正交試驗(yàn),因此選取L8(27)標(biāo)準(zhǔn)正交表,具體的試驗(yàn)結(jié)果如表4所示,這里以精度作為模型的主要評(píng)估指標(biāo)。
表3 多模態(tài)輸入行人意圖預(yù)測(cè)模型正交試驗(yàn)因素水平表
表4 基于正交試驗(yàn)的行人意圖預(yù)測(cè)試驗(yàn)數(shù)據(jù)分析計(jì)算表
如表4 所示,對(duì)正交試驗(yàn)的結(jié)果進(jìn)行極差分析,本試驗(yàn)采用7 因素2 水平正交表,其余3 個(gè)空列的極差大小反映試驗(yàn)誤差的大小,本試驗(yàn)中3 個(gè)空列的極差遠(yuǎn)遠(yuǎn)小于試驗(yàn)因子的極差,可忽略不計(jì)。由結(jié)果可知,在JAADall 上,4 個(gè)因子對(duì)行人意圖預(yù)測(cè)性能的影響程度順序?yàn)椋壕植繄?chǎng)景上下文>全局場(chǎng)景上下文>人體姿態(tài)關(guān)鍵點(diǎn)>自車(chē)車(chē)速,且在4 個(gè)因子均輸入的情況下模型的性能最佳。在JAADbeh 上,4 個(gè)因子對(duì)行人意圖預(yù)測(cè)性能的影響程度順序?yàn)椋喝謭?chǎng)景上下文>局部場(chǎng)景上下文>自車(chē)車(chē)速>人體姿態(tài)關(guān)鍵點(diǎn),且在試驗(yàn)2(不輸入人體姿態(tài)關(guān)鍵點(diǎn)信息)的情況下模型性能最佳。表中:Ⅰ1=JAADall 上因素水平為1 時(shí)所對(duì)應(yīng)的評(píng)估指標(biāo)值的平均值;
Ⅱ1=JAADall 上因素水平為2 時(shí)所對(duì)應(yīng)的評(píng)估指標(biāo)值的平均值;
Ⅰ2=JAADbeh 上因素水平為1 時(shí)所對(duì)應(yīng)的評(píng)估指標(biāo)值的平均值;
Ⅱ2=JAADbeh 上因素水平為2 時(shí)所對(duì)應(yīng)的評(píng)估指標(biāo)值的平均值;
T1=JAADall上所有評(píng)估指標(biāo)值的平均值;
T2=JAADbeh上所有評(píng)估指標(biāo)值的平均值。
分析試驗(yàn)結(jié)果可知:(1)視覺(jué)特征對(duì)行人意圖的預(yù)測(cè)性能影響程度較大,而全局環(huán)境上下文信息作為重要的視覺(jué)特征在以往的方法中并未被充分地考慮進(jìn)去,而本文所提出的新全局上下文特征提取模塊的有效性也得到了驗(yàn)證。(2)非視覺(jué)特征對(duì)模型性能的影響程度較小。但之前的工作中有研究者僅根據(jù)人體姿態(tài)估計(jì)進(jìn)行行人意圖預(yù)測(cè),并取得了不錯(cuò)的結(jié)果,因此這兩個(gè)因子的信息可能是沒(méi)有被充分地提取或沒(méi)有得到有效利用,在后續(xù)研究中,也會(huì)把對(duì)這兩個(gè)因子信息的提取和應(yīng)用作為該模型優(yōu)化的重點(diǎn)方向。
本文遵循相同的數(shù)據(jù)采樣設(shè)置,報(bào)告了模型優(yōu)化前后的試驗(yàn)結(jié)果,并報(bào)告了該模型與其他主流方法的對(duì)比結(jié)果。定量結(jié)果如表5 和表6 所示,圖7 和圖8 分別為在JAADall 和JAADbeh 數(shù)據(jù)集上定量試驗(yàn)的ROC 曲線,試驗(yàn)的定性分析如圖9 所示。圖中ROC 曲線的橫縱坐標(biāo)分別為FPR和TPR,F(xiàn)PR=FP/(TN+FP),TPR=TP/(TP+FN),其中TP、FN、FP和TN分別為分類(lèi)結(jié)果混淆矩陣中的真正例、真反例、假正例和假反例。
表5 JAADall數(shù)據(jù)集上的定量結(jié)果
表6 JAADbeh數(shù)據(jù)集上的定量結(jié)果
圖7 JAADall數(shù)據(jù)集上定量試驗(yàn)的ROC曲線
圖8 JAADbeh數(shù)據(jù)集上定量試驗(yàn)的ROC曲線
圖9 該模型在JAAD數(shù)據(jù)集上的定性結(jié)果
2.4.1 定量試驗(yàn)
為更好地與其他方法進(jìn)行對(duì)比,分別在JAADall和JAADbeh 數(shù)據(jù)集上選取了3 種模型,前兩種模型是在保證與其他方法同輸入下的分層融合模型,區(qū)別在于第1 種模型中的RNN 采用普通GRU,第2 種模型中的RNN 采用引入注意力機(jī)制的AUGRU,第3種則是在正交試驗(yàn)中得到的兩個(gè)數(shù)據(jù)集上綜合多模態(tài)輸入條件的最優(yōu)模型。分析表5和表6可知,除在召回率上略遜于PCPA 模型,本文方法在其它性能指標(biāo)上的表現(xiàn)均優(yōu)于現(xiàn)有方法,其綜合性能達(dá)到了最優(yōu)水平。分別在兩個(gè)數(shù)據(jù)集上對(duì)本文提出的模型進(jìn)行縱向?qū)Ρ龋梢园l(fā)現(xiàn)模型在引入AUGRU 后,除在召回率上略有下降外,其它性能均有較大幅度的提升,且在正交試驗(yàn)中取得的最優(yōu)模型在兩個(gè)數(shù)據(jù)集上的定量對(duì)比試驗(yàn)中均取得了最佳的綜合性能。
2.4.2 定性試驗(yàn)
圖9 所示為本文所提出的模型在JAAD 數(shù)據(jù)集上的定性結(jié)果。觀察目標(biāo)行人前1 s 內(nèi)的歷史信息并預(yù)測(cè)其在未來(lái)1 s的穿越意圖,目標(biāo)行人在圖像中被邊界框包圍。本文主要將所提出的模型與SFGRU 和PCPA 模型進(jìn)行比較,報(bào)告所提出的模型、SF-GRU 模型和PCPA 模型所預(yù)測(cè)出的行人穿越意圖結(jié)果,以及數(shù)據(jù)集中的真實(shí)標(biāo)注(ground truth),意圖預(yù)測(cè)的結(jié)果以及實(shí)況標(biāo)簽表示為目標(biāo)行人在車(chē)輛前方穿越(crossing)和不穿越(not crossing)。圖9 報(bào)告了3 個(gè)模型在4 個(gè)不同場(chǎng)景下的預(yù)測(cè)結(jié)果,圖中GT 表 示ground truth,C 表 示crossing,NC 表 示not crossing,圖中彩色標(biāo)簽顯示為真實(shí)標(biāo)注值和對(duì)應(yīng)的模型預(yù)測(cè)結(jié)果,預(yù)測(cè)正確時(shí),標(biāo)簽字體顯示為綠色,預(yù)測(cè)錯(cuò)誤時(shí),標(biāo)簽字體顯示為紅色。
仔細(xì)分析4個(gè)案例可以發(fā)現(xiàn),有以下3種情況較難實(shí)現(xiàn)行人意圖的準(zhǔn)確預(yù)測(cè):(1)站在路邊或人行道旁但沒(méi)有穿越意圖的人,如Case2 所示。(2)行人的運(yùn)動(dòng)方向發(fā)生變化,如Case3 所示。(3)車(chē)輛運(yùn)動(dòng)方向發(fā)生變化,導(dǎo)致視角發(fā)生變化,如Case4 所示。這些情況下需要結(jié)合更多的全局環(huán)境上下文信息來(lái)預(yù)測(cè)行人的穿越意圖。
根據(jù)圖9 可知,本文所提出的方法在復(fù)雜道路環(huán)境下表現(xiàn)略?xún)?yōu)于SF-GRU 模型和PCPA 模型,尤其是在Case3 中行人運(yùn)動(dòng)方向變化的情況下,只有本文方法實(shí)現(xiàn)了行人穿越意圖正確預(yù)測(cè),但在Case4這個(gè)具有挑戰(zhàn)性的案例中,所有的模型均預(yù)測(cè)失敗,主要原因是這些模型都沒(méi)有考慮到自車(chē)行駛方向這個(gè)影響因素。在不知道車(chē)輛轉(zhuǎn)彎導(dǎo)致相機(jī)視角發(fā)生變化的情況下,Case4中的目標(biāo)行人被誤判為在車(chē)輛前方朝反方向運(yùn)動(dòng),而實(shí)際上該行人只是沿街行走。針對(duì)這種情況,未來(lái)的工作可以考慮在模型中加入車(chē)輛的橫向運(yùn)動(dòng)信息。
本文提出采用正交試驗(yàn)法研究不同模態(tài)輸入特征對(duì)該模型性能的影響顯著性,為模型優(yōu)化方向提供了有力的理論支撐,并通過(guò)系統(tǒng)詳盡的試驗(yàn)分析獲得JAADall 和JAADbeh 數(shù)據(jù)集上性能最佳的模型架構(gòu)。通過(guò)試驗(yàn)證明了本文所提出的方法有效提高了預(yù)測(cè)精度,可以起到在智能駕駛領(lǐng)域?yàn)闆Q策規(guī)劃提供可靠依據(jù)的作用。此外,該模型不僅適用于城市道路場(chǎng)景,也可用于停車(chē)場(chǎng)及其他復(fù)雜路況。
根據(jù)正交試驗(yàn)的結(jié)果,道路交通場(chǎng)景上下文信息對(duì)模型性能的影響最為顯著,這也驗(yàn)證了本文所提出的新型全局上下文特征提取模塊的有效性。試驗(yàn)的自車(chē)車(chē)速和人體姿態(tài)對(duì)模型性能的影響較小,未來(lái)的研究應(yīng)把針對(duì)這兩個(gè)特征的提取和應(yīng)用作為該模型優(yōu)化的重點(diǎn)考慮方向。此外,JAAD數(shù)據(jù)集中的數(shù)據(jù)量有限,在未來(lái)的工作中,將在更多的數(shù)據(jù)集上評(píng)估本文所提出的模型,驗(yàn)證其在現(xiàn)實(shí)世界中部署的潛力。