基于多模態(tài)特征融合的行人穿越意圖預測方法*

2023-11-09 03:56:02蔡英鳳李祎承

汽車工程 2023年10期

陳龍，楊晨，蔡英鳳，王海，李祎承

（1.江蘇大學汽車工程研究院，鎮(zhèn)江 212013；2.江蘇大學汽車與交通工程學院，鎮(zhèn)江 212013）

前言

城市交通環(huán)境紛繁復雜，行人是道路交通參與者中最易暴露和最脆弱的道路使用者之一，根據(jù)世界衛(wèi)生組織報告統(tǒng)計結(jié)果，在全球每年死于交通事故的135 萬人中，超過一半的交通事故死亡者為弱勢道路使用者，保護行人等弱勢道路使用者的安全刻不容緩［1］。保護行人安全的關鍵在于避免人車沖突，如今隨著先進駕駛輔助技術(shù)和自動駕駛技術(shù)的迅速發(fā)展，自動駕駛汽車可以借助視覺、激光雷達和毫米波雷達等車載傳感器感知周圍的道路環(huán)境、車輛和行人等目標，進而預測行人行為，讓自動駕駛汽車可以提前進行規(guī)劃和決策，從而避免發(fā)生人車沖突。在交通管理的背景下，人車沖突多發(fā)于人行橫道，能夠準確預測行人是否從車輛前方穿越，可以減少行人延誤和交通擁堵，提高道路行車效率，從而幫助自動駕駛汽車找到安全和效率之間的平衡［2］。

目前解決行人穿越意圖預測問題的主流方法主要有兩種，一是基于行人未來軌跡預測的方法，二是基于人體姿態(tài)估計的方法。其中基于軌跡預測的方法相對更加普遍，行人軌跡預測領域的研究也已經(jīng)相對成熟，許多基于人機交互模型預測行人軌跡的模型已經(jīng)被提出。例如Alahi 等［3］提出了Social-LSTM，其將最大池化應用于鄰近交通參與者，建模交通場景中的人人交互。Gupta 等［4］提出了Social-GAN，其將Social-LSTM 擴展為基于遞歸神經(jīng)網(wǎng)絡（RNN）的生成模型，將最大池化應用于所有交通參與者。Kosaraju 等［5］提出了Social-BiGAT，其也是一種基于GAN 的方法，它引入圖注意力網(wǎng)絡（GAT）建模場景中的人人交互，解除先前模型中的RNN 依賴。Mohamed 等［6］提出了Social-STGCNN，其使用圖卷積網(wǎng)絡代替先前模型的交互機制，使用TCN 代替先前模型的循環(huán)遞歸架構(gòu)，用時空圖捕捉隨時間變化的動態(tài)交互作用?？紤]到視角和自身運動，Yagi等［7］針對第一人稱視頻中的行人軌跡預測問題提出了一種新型行人軌跡預測模型，其采用一種多流卷積-反卷積架構(gòu)的預測框架聚合相機自我運動、行人尺度和人體姿態(tài)信息預測行人的未來軌跡，該模型克服了相機視角的問題，但模型結(jié)構(gòu)和性能還有較大的優(yōu)化空間。近期的研究表明，行人穿越前的早期動作（如走動、揮手、注視等）與行人的穿越意圖有關［8］?；谌梭w姿態(tài)特征進行行人穿越意圖預測開始受到研究者們的廣泛關注。早期的方法多基于CNN［9］和LSTM［10］處理人體骨架特征進行動作識別和軌跡預測，例如Fang 等［11］提出基于單目視覺的人體姿態(tài)估計方法來預測行人和騎自行車人的意圖。Zhang 等［12］提出使用多層 LSTM 網(wǎng)絡進行基于骨架的動作識別的幾何特征，提供了一種與 RNN 模型增強垂直的簡單通用空間建模方法，進一步提高了模型性能。最近的研究開始在人體姿態(tài)估計任務中引入圖結(jié)構(gòu)，例如Cadena 等［13］開發(fā)了二維行人圖結(jié)構(gòu)和行人圖網(wǎng)絡，以預測行人是否要過馬路。Huynh等［14］提出了GPRAR 模型，該模型基于圖卷積網(wǎng)絡進行人體姿勢重建和動作識別，模型包括一個特征聚合器（FA），F(xiàn)A以通道方式聚合學習到的特征：人體姿勢、動作、位置和相機運動，使用基于編碼器-解碼器的時間卷積神經(jīng)網(wǎng)絡來預測未來位置。

綜上所述，現(xiàn)有的運動軌跡預測方法，常常是借助先驗的歷史軌跡信息在未來的某個時刻對其進行軌跡預測，且沒有充分考慮到自然駕駛環(huán)境下外界條件的不確定性干擾。此外，這些方法大多需要在俯視視角下的位置信息，這受限于要借助移動攝像機來獲得場景的俯視圖，且目前也缺乏俯視視角下帶有行人位置信息和穿越意圖標簽的數(shù)據(jù)集?；谌梭w姿態(tài)估計的行人意圖預測方法在特定的環(huán)境下表現(xiàn)出不錯的性能，但在復雜的城市交通環(huán)境中，人體姿態(tài)關鍵點的檢測精度會受到變化的相機視角、人車距離、遮擋等因素的較大影響，且行人通常表現(xiàn)出受到各種背景元素影響的復雜行為，具有高度的可變性，僅通過行人的歷史軌跡進行推斷或是只通過人體姿態(tài)估計不足以在復雜的城市交通背景下實現(xiàn)行人穿越意圖的準確預測。

為繼承上述方法的優(yōu)點，同時避開其缺陷，近期的研究已經(jīng)開始轉(zhuǎn)向關注基于多流循環(huán)網(wǎng)絡和多輸入特征的行人意圖預測方法，例如Aliakbarian 等［15］使用多流LSTM 對視覺特征、光流圖像和車輛動力學進行編碼，其輸出被連接后生成用于意圖預測的共享表示。自 JAAD［16］和PIE［17］數(shù)據(jù)集被提出后，F(xiàn)ussi-Net［18］、SF-GRU［19］、PCPA［20］等依賴多種輸入特征的行人穿越意圖預測模型逐漸被提出，并在公開數(shù)據(jù)集上表現(xiàn)出不錯的性能，這些模型的輸入特征一般是檢測到的行人邊界框、姿勢、外觀，甚至是自我車輛信息?？偟膩碚f，盡管該領域在近幾年的研究中取得了顯著進展，但仍普遍存在諸如行人穿越意圖預測精度不高、模型輸入考慮不全面以及模型泛化性能不強等問題。究其原因，主要是現(xiàn)有方法在充分利用交通場景中的環(huán)境上下文信息以及各個交通對象之間的交互信息方面存在不足。此外，現(xiàn)有意圖預測模型在探究多模態(tài)特征融合策略和模型優(yōu)化方向的方法系統(tǒng)性存在局限。

針對上述問題，本文中提出一種基于多模態(tài)特征融合的行人穿越意圖預測方法，實現(xiàn)了在復雜交通場景下對行人意圖的準確預測。首先，針對全局場景上下文信息、局部場景上下文信息、自車車速等輸入信息，該方法以輸入目標行人的邊界框信息為基準設計了正交試驗，并通過試驗分析篩選獲得性能最佳的模型架構(gòu)；其次，建立了一種新型全局場景上下文交互信息提取模塊，該模塊包含膨脹卷積、SE 模塊和交互注意力機制，依賴場景語義掩碼對行人與交通元素間的交互關系進行建模；同時，構(gòu)建了局部場景時空特征提取模塊，該模塊結(jié)合通道注意力、空間注意力和AUGRU，基于多重注意力機制提升了模型捕獲復雜交通場景下局部交通場景的時空信息的能力；最后，設計了一種基于混合融合策略的多模態(tài)特征融合模塊，根據(jù)不同信息源的復雜程度實現(xiàn)了對視覺特征和運動特征的聯(lián)合推理，為行人穿越意圖預測模塊提供可靠信息。在公開數(shù)據(jù)集JAAD上的驗證結(jié)果顯示，相比于現(xiàn)有的同類型模型，文中所提出的方法在行人穿越意圖預測方面優(yōu)于最先進的模型。綜上所述，本文的主要貢獻可以歸納為：

（1）提出了一種基于多模態(tài)特征融合框架的行人穿越意圖預測方法，設計正交試驗法篩選獲得最佳輸入條件，通過混合融合方式對視覺特征和運動特征進行聯(lián)合推理，進而實現(xiàn)對行人意圖的準確預測。

（2）建立了一種新型全局場景上下文交互信息模塊，該模塊基于多種注意力機制構(gòu)建交互建模注意力關系網(wǎng)絡處理全局場景的語義掩碼，從而捕獲行人與其周圍環(huán)境之間的交互關系。

1 行人穿越意圖預測模型構(gòu)建

1.1 問題描述

本文將人行橫道上的行人穿越意圖預測定義為一個與多個模態(tài)信息輸入源相關的優(yōu)化問題，即它通過聚合的受試者的反應來測量并被重新調(diào)整到［0，1］的范圍內(nèi)，因此對于每個目標行人i，給定從車輛前視圖觀察到的m個時步的視頻幀序列和自車運動的相關信息，根據(jù)所設計的模型可以估計出目標行人t+n時刻在車輛前方穿越的概率。

1.2 框架概覽

所提出的意圖預測模型的整體架構(gòu)圖如圖1 所示。該模型架構(gòu)主要由RNN 模塊、全局場景上下文交互信息提取模塊、局部場景的時空特征提取模塊、多模態(tài)特征融合模塊以及行人穿越意圖預測模塊5個部分組成，下面對該模型中各輸入特征的獲取以及模型中的各個模塊進行詳細介紹。

圖1 本文所提算法的整體架構(gòu)圖

1.3 輸入信息獲取

1.3.1 自車車速信息及行人邊界框信息獲取

本文提出的模型主要在JAAD 數(shù)據(jù)集上進行實驗驗證。行人的邊界框位置坐標和自車車速是JAAD數(shù)據(jù)集中注釋的顯式特征，因此自車車速和行人的二維邊界框位置軌跡信息可以直接從數(shù)據(jù)集的標簽信息中獲取。自車車速可以從自車的車速傳感器中直接獲取，這里直接采用數(shù)據(jù)集中自車速度的地面實況標簽，也即S={st-m，st-m+1，...，st}。目標行人i的二維邊界框位置軌跡信息表示為Bi=其中bi由邊界框的左上角和右下角的位置坐標表示，也即

1.3.2 行人周邊局部場景圖像信息獲取

本文所指的局部環(huán)境上下文信息包括目標行人及其周圍局部環(huán)境的外觀變化，由目標行人周圍的局部場景圖像序列表示，具體表示為Cli=在給定的時間步長，通過裁剪放大的二維邊界框來提取每個行人的局部環(huán)境圖像序列，然后調(diào)整縮放框的尺寸，使其高度與寬度相匹配。

1.3.3 行人姿態(tài)關鍵點信息獲取

行人的姿態(tài)關鍵點信息可以表示目標行人每一幀的姿態(tài)，姿態(tài)可以反映目標行人詳細的運動狀態(tài)（如行走、站立、蹲下以及行人的凝視方向等），表示為由于JAAD 數(shù)據(jù)集自帶的數(shù)據(jù)標簽中不包含行人的姿態(tài)關鍵點，在正交試驗中采用在COCO 數(shù)據(jù)集［21］上預訓練的HRNet［22］提取JAAD數(shù)據(jù)集中的行人姿態(tài)信息（即由18個人體關鍵點坐標連接而成的36維特征向量pi），具體可以表示為

1.3.4 全局場景上下文信息獲取

全局場景上下文提供了解釋目標行人與其他交通參與者以及道路環(huán)境之間或其他交通參與者之間的多重交互的視覺特征，文中將其表示為Cg={ct-m，ct-m+1，...，ct}，對于輸入的交通場景圖像序列，本文采用在Cityscapes［23］上預訓練的deeplabV3［24］來提取輸入場景圖像中各交通參與者與靜態(tài)交通環(huán)境的語義地圖。

1.4 RNN模塊

所提出的模型涉及到的輸入信息均為序列特征，結(jié)合注意力機制的RNN 模塊可以自動為序列特征分配權(quán)重，使更重要的特征分配到更大的權(quán)重，從而突出特征變化，提高模型處理序列特征的準確性。本文在GRU 模塊中引入注意力機制構(gòu)成了AUGRU模塊［25］，其在對目標行人的邊界框位置序列提取特征時，可以通過概率分配的方式自動提高模型對重要的行人邊界框位置坐標的關注程度，突出行人橫向位移以及人車距離變化等關鍵信息，在不額外增加計算和儲存成本的前提下改善行人過街意圖預測的準確度。

和LSTM 網(wǎng)絡［10］一樣，GRU［26］也是RNN 的一種變體，兩者都是為解決簡單RNN 所面臨的長期依賴問題而被提出來的，但GRU 相比于LSTM 網(wǎng)絡參數(shù)量更少，可以更快地在更少計算量的前提下獲得更好的表現(xiàn)。圖2 所示為GRU 的結(jié)構(gòu)圖，它有兩個門神經(jīng)元，分別為更新門和重置門，其均采用Sigmoid作為激活函數(shù)。更新門控制前一時步的狀態(tài)信息被代入到當前狀態(tài)中的程度，重置門則控制忽略前一時步的狀態(tài)信息的程度。假設t時刻GRU 網(wǎng)絡的輸入為X=(x1，x2，...，xn)，則GRU 中各變量的關系表達式如下。

圖2 GRU結(jié)構(gòu)簡圖

更新門：

重置門：

t時刻的新記憶：

t時刻隱藏層的狀態(tài)量：

式中：xt表示當前時刻的輸入；r(t)和u(t)分別表示重置門和更新門的權(quán)重；表示當前時刻隱藏層新的記憶狀態(tài)；h(t)和h(t-1)分別表示當前時刻和前一時刻的隱藏層狀態(tài)；σ為Sigmoid(·)函數(shù)；tanh(·)為雙曲正切激活函數(shù)；b(r)、b(u)和分別表示重置門、更新門和新記憶中的偏差項，其余參數(shù)均可在訓練過程中獲得。

AUGRU 的模型結(jié)構(gòu)如圖3所示，其在GRU 的基礎上引入了注意力機制，將GRU 的update gage 替換為attention-score*update-gate，即將注意力權(quán)重α(t)乘到更新門u(t)上，然后用更新門控制當前信息與歷史信息保留的比例。注意力分數(shù)（attention score）可以反映隱向量ea與輸入h(t)的關系，且它們之間的相關性強度會影響attention score。

注意力分數(shù)的計算公式為

則AUGRU中更新門的輸出為

AUGRU中隱藏層的狀態(tài)量為

式中：ea為GRU 編碼器輸出的隱狀態(tài)連接得的隱向量；W為可通過學習獲得的記憶矩陣。

1.5 全局場景上下文交互信息提取模塊

提出一種新型的全局場景上下文交互信息提取模塊，其結(jié)構(gòu)如圖4 所示。這是一種結(jié)合SE 通道注意力機制［27］和交互注意力機制的新型交互建模注意力關系網(wǎng)絡，它依賴場景的語義解析隱式的建模目標行人與不同交通元素之間的交互關系。對于輸入的交通場景圖像序列，首先采用在Cityscapes數(shù)據(jù)集上預訓練的deeplabV3 來提取輸入場景圖像中各交通參與者與靜態(tài)交通環(huán)境的語義地圖，這里參考交通場景中最常見的幾種交通對象，根據(jù)所提取的語義掩碼將語義地圖分為目標行人 (p)、目標行人附近的行人 (pl)、騎行者 (b)、周邊車輛 (v) 以及其他靜態(tài)交通場景 (st) 5個類別作為全局語境。

圖4 全局場景上下文交互信息提取模塊

考慮到僅使用多層卷積對語義地圖進行連續(xù)的下采樣處理會丟失較多的細節(jié)特征，從而無法在更高的分辨率下表達更廣泛的上下文信息。為克服這個缺點，盡可能多地捕捉目標行人與其周邊交通參與者之間的交互特征，提出采用膨脹卷積［28］策略來處理語義地圖。相比之下，膨脹卷積可以在保持參數(shù)量不變的情況下增大卷積核的感受野，讓每個卷積輸出都包含較大范圍的信息，同時它可以保證輸出的特征映射的大小不變，這允許模型在不需要下采樣的情況下捕獲更加廣泛的空間上下文特征。

膨脹卷積處理后的語義類別特征經(jīng)過SE 注意力模塊后進入GRU 編碼生成各語義圖的時空表示。在SE注意力模塊中，F(xiàn)sq(·)表示Squeeze操作，將尺寸為H×W×C的特征圖壓縮為1×1 ×C，該操作通過全局平均池化來實現(xiàn)。Fex(·，W)表示Excitation 操作，這里通過使用兩個FC全連接層對每個通道的重要性進行預測，一個FC 層降低維度，一個FC 層恢復維度，從而可以在特征維度不變的情況下得到不同通道的重要性大小。Fscale(·，·)表示Scale 操作，這里指對每個通道的特征進行加權(quán)操作。

連接AUGRU 的隱藏狀態(tài)可以得到如下的時空分類表示：

時空表示被連接并輸入全局交互注意模塊［29］生成統(tǒng)一的加權(quán)表示，各語義圖的加權(quán)輸出經(jīng)連接后即得到大小為［1，256］的全局場景上下文的關系特征Ca。

在全局交互注意模塊中，輸入為連接的各個AUGRU 在[t-m+1，t]時步的隱藏狀態(tài)，該模塊通過測量最后一個時步與其他的每個時步之間的相似性來生成注意力分數(shù)：

式中：上角標“′”表示轉(zhuǎn)置操作；Wa為可訓練權(quán)重。由注意力分數(shù)可計算得每個時步的注意力權(quán)重為

計算得上下文向量為

全局環(huán)境交互上下文最終表示為

式中：⊕為連接操作；Wc為可訓練權(quán)重。

1.6 局部場景時空特征提取模塊

針對局部場景圖像，本文聯(lián)合多層卷積和AUGRU 對其進行結(jié)合時空注意力機制的時空特征提取。首先統(tǒng)一局部場景圖像的尺寸為［512，512］，則輸入大小為［16，512，512，3］（N、H、W、C），結(jié)合VGG16 網(wǎng)絡［30］、通道注意力、空間注意力和AUGRU設計了一個基于時空注意力機制的局部場景時空特征提取模塊，最終得到大小為N×1×1×256 的局部場景時空特征Cb。該模塊的具體構(gòu)造如圖5 所示，其在連續(xù)的兩個VGG Block 間插入了一個CBAM 模塊［31］，該模塊結(jié)合了通道注意力機制和空間注意力機制，可以在不改變特征圖尺寸的情況下增強有用的特征表達。

圖5 局部場景時空特征提取模塊

1.7 多模態(tài)特征融合模塊

如何合理地利用和融合不同模態(tài)的特征是提高行人意圖預測性能的一個重要研究方向，現(xiàn)有的多模態(tài)特征融合方法總體上可以分為像素級融合、特征級融合以及決策級融合，且根據(jù)以往的試驗表明，特征級別的融合相比之下具有更好的性能。如前文所述，所提出的過街意圖預測模型的輸入包括行人邊界框位置軌跡、車速、行人姿態(tài)關鍵點以及圖像視覺特征等多種異構(gòu)信息，在此基礎上本文根據(jù)不同信息源的復雜程度提出了4 種不同的融合策略，具體結(jié)構(gòu)如圖6 所示。圖6 中（1）為early-fusion，其先融合多層特征，然后采用融合后的特征訓練分類器，常用有concat 和add 兩種操作，本文中采用了add；（2）為late-fusion，其與early-fusion 相對應，采用類似特征金字塔的方法，對特征融合后進行預測；（3）為hierarchical-fusion，其為一種分層融合架構(gòu)，這里將輸入的非圖像特征按其復雜程度進行先后融合，每一次融合都采用與（1）中相同的early-fusion。（4）為hiybrid-fusion，在該框架中對視覺類特征和非視覺特征分別根據(jù)其特征復雜程度進行先后融合，特征融合同樣采用了add 操作，是一種混合融合方式。

圖6 4種融合策略對應示意圖

1.8 意圖預測模塊

如圖6 所示，模型預測模塊由一個注意力模塊和一個全連接層組成，處理后的各輸入特征經(jīng)融合模塊和注意力模塊后生成用于最終預測的特征表示V，可表示為

則最終的預測結(jié)果可表示為

2 試驗設計

2.1 公開數(shù)據(jù)集介紹

本文在自動駕駛聯(lián)合注意數(shù)據(jù)集（JAAD）上對所提出的意圖預測模型的性能進行評估，JAAD數(shù)據(jù)集是由約克大學的研究者提出的用于研究交通參與者行為的大型自然公開數(shù)據(jù)集，其包含有346 段由車載相機拍攝的高分辨率交通場景視頻剪輯。JAAD 數(shù)據(jù)集提供兩個子集，其中行人行為數(shù)據(jù)集（JAADbeh）包含了涵蓋各種場景下具有穿越意圖的686個行人（正在穿越495人/即將穿越191人），而完整的JAAD 數(shù)據(jù)集（JAADall）則包含所有的可見行人，相比JAADbeh 增加了2 100 個遠離道路且沒有穿越行為的人。本文對數(shù)據(jù)集的訓練集、驗證集和測試集的分割處理保持與文獻［32］中相同的設定，使用數(shù)值為0.8 的采樣重疊率，所有模型的觀測長度固定為16 幀。此外，本文遵循與PCPA 模型中相同的數(shù)據(jù)采樣程序，使用與PCPA 模型架構(gòu)中相同的評估指標（準確性、AUC 曲線、F1 評分、精密度和召回率）報告所有的試驗結(jié)果。

2.2 實施細節(jié)

所采用的試驗平臺搭載了一塊RTX 2080Ti GPU 和一塊Intel I9 CPU，試驗環(huán)境為Ubuntu18.04、Pytorch 框架。分別在JAADbeh 和JAADall 上訓練所有的模型45 個epoch，訓練采用的優(yōu)化器為Adam，設置最大學習率為5e-6，L2 正則化項為0.000 2，訓練采用二元交叉熵損失函數(shù)，受計算平臺的限制，本文將batch size設為2。

2.3 正交試驗

多模態(tài)學習可以聚合多源數(shù)據(jù)的信息，使模型學習到的表示更加完備。行人意圖預測模型的性能受多種因素的影響，理論上模型輸入的特征量越多，模型的性能會越好，但特征量增多的同時也會帶來計算量的大幅增加，且一些因素之間可能存在交互作用。正交試驗法是多因素分析的有效手段，有助于在考慮到交互作用的情況下評估相關因素對試驗指標的影響，并根據(jù)其效果對它們進行排序，從而便于優(yōu)化模型。為系統(tǒng)地探究各個輸入信息源對意圖預測模塊性能影響的顯著性，從而優(yōu)化模型設計出行人意圖預測的最佳模型架構(gòu)，本文首先引入了正交試驗法對多模態(tài)輸入的意圖預測模型進行充分試驗。

為最終能夠得到最佳的模型，首先在默認所有影響因子均輸入的情況下分別在JAADall 和JAADbeh 上針對3 種不同的融合方式進行了對比試驗。試驗結(jié)果如表1 和表2 所示。試驗的評估指標包括準確性（Accuracy）、AUC 曲線（AUC）、F1 評分（F1 Score）、精密度（Precision）和召回率（Recall）。表中字體加黑數(shù)據(jù)為最佳數(shù)據(jù)，斜體數(shù)據(jù)次之。

表1 JAADall上采用不同融合策略的模型對比試驗

表2 JAADbeh上采用不同融合策略的模型對比試驗

如表1 所示，對比4 種不同融合策略模型在JAADall上的試驗結(jié)果，基于hiybrid-fusion融合框架的模型在Acc、AUC 和F1 精度上均得到最優(yōu)且遠超其它模型的結(jié)果，在未達到最優(yōu)性能Pre和Recall也僅僅是稍微有些遜色；表2 所示的在JAADbeh 上的結(jié)果也類似。綜上根據(jù)表1和表2的試驗結(jié)果，基于多模態(tài)輸入混合融合的模型架構(gòu)綜合性能最佳，因此本文基于混合融合的模型架構(gòu)設計了正交試驗，試驗因素水平表如表3 所示。正交表的表示方法為Ln（tm），其中L為正交表代號，n代表正交表的行數(shù)也即試驗次數(shù)，t代表因子水平數(shù)，m代表正交表列數(shù)也即最多可安排的因子個數(shù)。本試驗以僅輸入行人邊界框位置軌跡為基準，設計7 因素2 水平正交試驗，因此選取L8（27）標準正交表，具體的試驗結(jié)果如表4所示，這里以精度作為模型的主要評估指標。

表3 多模態(tài)輸入行人意圖預測模型正交試驗因素水平表

表4 基于正交試驗的行人意圖預測試驗數(shù)據(jù)分析計算表

如表4 所示，對正交試驗的結(jié)果進行極差分析，本試驗采用7 因素2 水平正交表，其余3 個空列的極差大小反映試驗誤差的大小，本試驗中3 個空列的極差遠遠小于試驗因子的極差，可忽略不計。由結(jié)果可知，在JAADall 上，4 個因子對行人意圖預測性能的影響程度順序為：局部場景上下文＞全局場景上下文＞人體姿態(tài)關鍵點＞自車車速，且在4 個因子均輸入的情況下模型的性能最佳。在JAADbeh 上，4 個因子對行人意圖預測性能的影響程度順序為：全局場景上下文＞局部場景上下文＞自車車速＞人體姿態(tài)關鍵點，且在試驗2（不輸入人體姿態(tài)關鍵點信息）的情況下模型性能最佳。表中：Ⅰ1=JAADall 上因素水平為1 時所對應的評估指標值的平均值；

Ⅱ1=JAADall 上因素水平為2 時所對應的評估指標值的平均值；

Ⅰ2=JAADbeh 上因素水平為1 時所對應的評估指標值的平均值；

Ⅱ2=JAADbeh 上因素水平為2 時所對應的評估指標值的平均值；

T1=JAADall上所有評估指標值的平均值；

T2=JAADbeh上所有評估指標值的平均值。

分析試驗結(jié)果可知：（1）視覺特征對行人意圖的預測性能影響程度較大，而全局環(huán)境上下文信息作為重要的視覺特征在以往的方法中并未被充分地考慮進去，而本文所提出的新全局上下文特征提取模塊的有效性也得到了驗證。（2）非視覺特征對模型性能的影響程度較小。但之前的工作中有研究者僅根據(jù)人體姿態(tài)估計進行行人意圖預測，并取得了不錯的結(jié)果，因此這兩個因子的信息可能是沒有被充分地提取或沒有得到有效利用，在后續(xù)研究中，也會把對這兩個因子信息的提取和應用作為該模型優(yōu)化的重點方向。

2.4 試驗結(jié)果分析

本文遵循相同的數(shù)據(jù)采樣設置，報告了模型優(yōu)化前后的試驗結(jié)果，并報告了該模型與其他主流方法的對比結(jié)果。定量結(jié)果如表5 和表6 所示，圖7 和圖8 分別為在JAADall 和JAADbeh 數(shù)據(jù)集上定量試驗的ROC 曲線，試驗的定性分析如圖9 所示。圖中ROC 曲線的橫縱坐標分別為FPR和TPR，F(xiàn)PR=FP/（TN+FP），TPR=TP/（TP+FN），其中TP、FN、FP和TN分別為分類結(jié)果混淆矩陣中的真正例、真反例、假正例和假反例。

表5 JAADall數(shù)據(jù)集上的定量結(jié)果

表6 JAADbeh數(shù)據(jù)集上的定量結(jié)果

圖7 JAADall數(shù)據(jù)集上定量試驗的ROC曲線

圖8 JAADbeh數(shù)據(jù)集上定量試驗的ROC曲線

圖9 該模型在JAAD數(shù)據(jù)集上的定性結(jié)果

2.4.1 定量試驗

為更好地與其他方法進行對比，分別在JAADall和JAADbeh 數(shù)據(jù)集上選取了3 種模型，前兩種模型是在保證與其他方法同輸入下的分層融合模型，區(qū)別在于第1 種模型中的RNN 采用普通GRU，第2 種模型中的RNN 采用引入注意力機制的AUGRU，第3種則是在正交試驗中得到的兩個數(shù)據(jù)集上綜合多模態(tài)輸入條件的最優(yōu)模型。分析表5和表6可知，除在召回率上略遜于PCPA 模型，本文方法在其它性能指標上的表現(xiàn)均優(yōu)于現(xiàn)有方法，其綜合性能達到了最優(yōu)水平。分別在兩個數(shù)據(jù)集上對本文提出的模型進行縱向?qū)Ρ?，可以發(fā)現(xiàn)模型在引入AUGRU 后，除在召回率上略有下降外，其它性能均有較大幅度的提升，且在正交試驗中取得的最優(yōu)模型在兩個數(shù)據(jù)集上的定量對比試驗中均取得了最佳的綜合性能。

2.4.2 定性試驗

圖9 所示為本文所提出的模型在JAAD 數(shù)據(jù)集上的定性結(jié)果。觀察目標行人前1 s 內(nèi)的歷史信息并預測其在未來1 s的穿越意圖，目標行人在圖像中被邊界框包圍。本文主要將所提出的模型與SFGRU 和PCPA 模型進行比較，報告所提出的模型、SF-GRU 模型和PCPA 模型所預測出的行人穿越意圖結(jié)果，以及數(shù)據(jù)集中的真實標注（ground truth），意圖預測的結(jié)果以及實況標簽表示為目標行人在車輛前方穿越（crossing）和不穿越（not crossing）。圖9 報告了3 個模型在4 個不同場景下的預測結(jié)果，圖中GT 表示ground truth，C 表示crossing，NC 表示not crossing，圖中彩色標簽顯示為真實標注值和對應的模型預測結(jié)果，預測正確時，標簽字體顯示為綠色，預測錯誤時，標簽字體顯示為紅色。

仔細分析4個案例可以發(fā)現(xiàn)，有以下3種情況較難實現(xiàn)行人意圖的準確預測：（1）站在路邊或人行道旁但沒有穿越意圖的人，如Case2 所示。（2）行人的運動方向發(fā)生變化，如Case3 所示。（3）車輛運動方向發(fā)生變化，導致視角發(fā)生變化，如Case4 所示。這些情況下需要結(jié)合更多的全局環(huán)境上下文信息來預測行人的穿越意圖。

根據(jù)圖9 可知，本文所提出的方法在復雜道路環(huán)境下表現(xiàn)略優(yōu)于SF-GRU 模型和PCPA 模型，尤其是在Case3 中行人運動方向變化的情況下，只有本文方法實現(xiàn)了行人穿越意圖正確預測，但在Case4這個具有挑戰(zhàn)性的案例中，所有的模型均預測失敗，主要原因是這些模型都沒有考慮到自車行駛方向這個影響因素。在不知道車輛轉(zhuǎn)彎導致相機視角發(fā)生變化的情況下，Case4中的目標行人被誤判為在車輛前方朝反方向運動，而實際上該行人只是沿街行走。針對這種情況，未來的工作可以考慮在模型中加入車輛的橫向運動信息。

3 結(jié)論

本文提出采用正交試驗法研究不同模態(tài)輸入特征對該模型性能的影響顯著性，為模型優(yōu)化方向提供了有力的理論支撐，并通過系統(tǒng)詳盡的試驗分析獲得JAADall 和JAADbeh 數(shù)據(jù)集上性能最佳的模型架構(gòu)。通過試驗證明了本文所提出的方法有效提高了預測精度，可以起到在智能駕駛領域為決策規(guī)劃提供可靠依據(jù)的作用。此外，該模型不僅適用于城市道路場景，也可用于停車場及其他復雜路況。

根據(jù)正交試驗的結(jié)果，道路交通場景上下文信息對模型性能的影響最為顯著，這也驗證了本文所提出的新型全局上下文特征提取模塊的有效性。試驗的自車車速和人體姿態(tài)對模型性能的影響較小，未來的研究應把針對這兩個特征的提取和應用作為該模型優(yōu)化的重點考慮方向。此外，JAAD數(shù)據(jù)集中的數(shù)據(jù)量有限，在未來的工作中，將在更多的數(shù)據(jù)集上評估本文所提出的模型，驗證其在現(xiàn)實世界中部署的潛力。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放