基于動(dòng)作預(yù)測(cè)與環(huán)境條件的行人過(guò)街意圖識(shí)別*

2021-08-12 08:14:00范福成楊吉成蔡英鳳

汽車工程 2021年7期

楊彪，范福成，楊吉成，蔡英鳳，王海

（1.常州大學(xué)微電子與控制工程學(xué)院，常州 213016；2.常州大學(xué)計(jì)算機(jī)與人工智能學(xué)院，常州 213016；3.江蘇大學(xué)汽車工程研究院，鎮(zhèn)江 212013；4.江蘇大學(xué)汽車與交通工程學(xué)院，鎮(zhèn)江 212013）

前言

伴隨社會(huì)的發(fā)展，汽車保有量不斷增加，給人們的生活與出行帶來(lái)了極大的便利。其中，無(wú)人駕駛因其穩(wěn)定、高效、可連續(xù)工作的優(yōu)點(diǎn)，在軍事作戰(zhàn)、城市反恐、應(yīng)急救援、無(wú)人清掃、智慧物流等方面呈現(xiàn)出廣闊的應(yīng)用前景。以本次爆發(fā)的新冠疫情為例，利用無(wú)人駕駛車輛運(yùn)輸抗疫物資，可以有效減少人員接觸，降低疫情傳播風(fēng)險(xiǎn)。但是，城市交通環(huán)境的復(fù)雜性給無(wú)人車的可靠運(yùn)行帶來(lái)了挑戰(zhàn)。在有人駕駛情況下，2018年全球有135萬(wàn)人死于道路交通事故，其中行人與非機(jī)動(dòng)車駕乘者占26%［1］；美國(guó)高速公路安全管理局發(fā)布的統(tǒng)計(jì)數(shù)據(jù)顯示2018年美國(guó)的行人死亡數(shù)目為6 283人［2］；我國(guó)2017年道路交通運(yùn)輸安全發(fā)展報(bào)告顯示，2016年我國(guó)有超過(guò)6萬(wàn)人死于機(jī)動(dòng)車交通事故，其中行人約占2成［3］?？梢灶A(yù)見(jiàn)，未來(lái)大量運(yùn)行于城市道路環(huán)境的無(wú)人車也將面臨如何避免人車沖突這一智能交通領(lǐng)域（ITS）的重要問(wèn)題。

為了避免人車沖突，研究者提出了基于物理的運(yùn)動(dòng)模型［4］、基于機(jī)動(dòng)的運(yùn)動(dòng)模型［5］和基于交互感知的運(yùn)動(dòng)模型［6］來(lái)預(yù)測(cè)人車沖突風(fēng)險(xiǎn)。其中，準(zhǔn)確感知無(wú)人車周圍的交通環(huán)境［7］是實(shí)現(xiàn)準(zhǔn)確的人車沖突預(yù)測(cè)的關(guān)鍵?；诖四康?，研究者在無(wú)人車上加裝了超聲波雷達(dá)、激光雷達(dá)、攝像頭等傳感器，用于感知車輛周圍環(huán)境，尤其是檢測(cè)或跟蹤車輛前方的行人。Song等［8］提出一種基于注意力機(jī)制的尺度自適應(yīng)柱網(wǎng)絡(luò)，用于從三維點(diǎn)云數(shù)據(jù)中準(zhǔn)確定位無(wú)人車前方的行人目標(biāo)；種衍文等［9］引入四方向特征結(jié)合級(jí)聯(lián)分類器進(jìn)行粗檢測(cè)，然后使用熵梯度直方圖特征結(jié)合支持向量機(jī)進(jìn)行細(xì)檢測(cè)；Tian等［10］使用深度卷積網(wǎng)絡(luò)分別檢測(cè)行人的不同部分并進(jìn)行綜合；Mao等［11］將時(shí)變通道、深度通道等特征送入Faster?RCNN框架，增強(qiáng)了待檢測(cè)行人的區(qū)分度；劉國(guó)輝等［12］結(jié)合VGG模型與在線觀測(cè)技術(shù)，實(shí)現(xiàn)了對(duì)車輛前方目標(biāo)的準(zhǔn)確跟蹤。上述方法可以有效防止人車沖突，但是，僅僅以低層面的路側(cè)行人檢測(cè)或跟蹤結(jié)果作為預(yù)測(cè)人車沖突的基礎(chǔ)，會(huì)導(dǎo)致無(wú)人車的頻繁制動(dòng)、降速、甚至停車，影響乘客的駕乘體驗(yàn)。

近年來(lái)，隨著智能網(wǎng)聯(lián)汽車的興起，汽車在搭載先進(jìn)傳感器、控制器、執(zhí)行器的基礎(chǔ)上，融合現(xiàn)代通信和網(wǎng)絡(luò)技術(shù)，實(shí)現(xiàn)人、車、路、后臺(tái)等智能信息的交換共享，有助于實(shí)現(xiàn)安全、舒適、節(jié)能、高效行駛。對(duì)于智能網(wǎng)聯(lián)汽車而言，如何利用智能化的感知技術(shù)，避免人車沖突是實(shí)現(xiàn)其它功能的前提。人車沖突集中發(fā)生于車輛與過(guò)街行人之間，因此高層面的行人過(guò)街意圖引起了研究者的廣泛關(guān)注：如果能夠準(zhǔn)確識(shí)別車輛前方行人有過(guò)街意圖，則應(yīng)該控制車輛減速而防止碰撞事件發(fā)生；如果判斷行人無(wú)過(guò)街意圖，車輛可按照原速通過(guò)，既提升了無(wú)人車的駕乘體驗(yàn)，也提高了行車效率。

行人的過(guò)街意圖受到多種因素的影響［13］，包括交通場(chǎng)景、交通流量、天氣等外部因素，以及行人的性別、年齡、等待時(shí)間等內(nèi)部因素。受益于計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展，研究者通過(guò)分析路側(cè)行人的行為來(lái)預(yù)測(cè)其是否有過(guò)街意圖。針對(duì)運(yùn)動(dòng)的行人，Christoph等［14］結(jié)合動(dòng)態(tài)高斯系統(tǒng)與多模態(tài)交互卡爾曼濾波實(shí)現(xiàn)行人軌跡預(yù)測(cè)；Gu等［15］引入動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)行人軌跡預(yù)測(cè)；Lee等［16］提出一種基于深度統(tǒng)計(jì)逆最優(yōu)控制的遞歸神經(jīng)網(wǎng)絡(luò)自編碼結(jié)構(gòu)學(xué)習(xí)車輛前方行人和其他車輛的軌跡信息；Shen等［17］提出了一種基于逆強(qiáng)化學(xué)習(xí)的可遷移行人軌跡預(yù)測(cè)策略。在準(zhǔn)確預(yù)測(cè)行人軌跡的基礎(chǔ)上，可以有效估計(jì)碰撞時(shí)間，從而指導(dǎo)無(wú)人車做出規(guī)避動(dòng)作。針對(duì)非運(yùn)動(dòng)的行人，研究者通過(guò)識(shí)別行人的特定動(dòng)作，如揮手、邁腿、凝視等，預(yù)測(cè)行人的過(guò)街意圖。為了識(shí)別特定動(dòng)作，研究者往往需要事先檢測(cè)人體的骨骼點(diǎn)［18］。譬如，F(xiàn)ang等［19］利用檢測(cè)出的骨骼點(diǎn)之間的距離和角度判斷行人是否有過(guò)街意圖，Quintero等［20］在三維空間檢測(cè)人體骨骼點(diǎn)，并基于骨骼點(diǎn)信息識(shí)別行人的靜止站立、起動(dòng)、行走和停止動(dòng)作。

相比于運(yùn)動(dòng)行人的過(guò)街意圖識(shí)別，非運(yùn)動(dòng)行人由于不存在顯著的運(yùn)動(dòng)性，其過(guò)街意圖識(shí)別較為困難。盡管通過(guò)人體骨骼點(diǎn)檢測(cè)可以判斷行人過(guò)街前的動(dòng)作，進(jìn)而預(yù)測(cè)其過(guò)街意圖。但是，受限于復(fù)雜環(huán)境、人車距離、局部遮擋等因素，較難準(zhǔn)確檢測(cè)人體骨骼點(diǎn)，進(jìn)而降低了動(dòng)作識(shí)別的精度。同時(shí)，行人過(guò)街意圖與其所處交通環(huán)境密切相關(guān)，僅僅進(jìn)行行人檢測(cè)、跟蹤、軌跡預(yù)測(cè)與動(dòng)作識(shí)別，缺乏對(duì)上下文語(yǔ)義信息的考慮，較難準(zhǔn)確識(shí)別行人意圖。

針對(duì)上述問(wèn)題，本文中提出了一種融合場(chǎng)景條件因素的端到端深度神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)了行人意圖的準(zhǔn)確識(shí)別。針對(duì)復(fù)雜情況下難以準(zhǔn)確檢測(cè)行人骨骼點(diǎn)的問(wèn)題，設(shè)計(jì)了一種改進(jìn)的卷積自編碼網(wǎng)絡(luò)，以生成式策略預(yù)測(cè)視頻中的行人行為，同時(shí)利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力學(xué)習(xí)行人未來(lái)動(dòng)作編碼。同時(shí)，針對(duì)影響行人過(guò)街意圖的外部因素，如行人周圍的局部交通場(chǎng)景、人車距離和車速等，本文中引入了E?NET網(wǎng)絡(luò)進(jìn)行局部場(chǎng)景理解，引入注意力機(jī)制改進(jìn)的GRU（門限遞歸單元）編碼車速和人車距離信息，并將得到的信息與動(dòng)作信息進(jìn)行融合，從而準(zhǔn)確預(yù)測(cè)行人過(guò)街意圖。

綜上，本文的主要貢獻(xiàn)可歸納為：（1）針對(duì)行人過(guò)街意圖受到主客觀因素影響的特點(diǎn)，提出了一種融合場(chǎng)景因素的端到端深度神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)行人意圖的準(zhǔn)確識(shí)別；（2）針對(duì)復(fù)雜環(huán)境下較難準(zhǔn)確提取行人骨骼點(diǎn)、導(dǎo)致難以識(shí)別其動(dòng)作的問(wèn)題，提出了一種基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò)，在預(yù)測(cè)行人未來(lái)動(dòng)作的同時(shí)實(shí)現(xiàn)未來(lái)動(dòng)作編碼；（3）針對(duì)交通場(chǎng)景對(duì)行人過(guò)街意圖的影響，引入輕量級(jí)E?NET網(wǎng)絡(luò)實(shí)現(xiàn)行人周圍局部交通場(chǎng)景的實(shí)時(shí)語(yǔ)義理解；（4）針對(duì)車速、人車距離對(duì)行人過(guò)街意圖的影響，使用GRU進(jìn)行信息編碼，并引入注意力機(jī)制使GRU更加關(guān)注車速的突然改變。最后，在JAAD與PIE兩個(gè)公共數(shù)據(jù)集上進(jìn)行算法評(píng)價(jià)，結(jié)果表明本文算法具有較高的準(zhǔn)確性，同時(shí)，實(shí)車測(cè)試也展示了算法在變化光照條件下的魯棒性。

1 算法理論基礎(chǔ)

1.1 變分自編碼器

Kingma等提出的變分自編碼器（variational auto?encoder，VAE）［21］是一種無(wú)監(jiān)督學(xué)習(xí)模型。VAE結(jié)構(gòu)框圖如圖1所示，VAE由編碼器和解碼器組成，其基本思想是：假設(shè)輸入數(shù)據(jù)集X中的樣本相互獨(dú)立，通過(guò)編碼器生成服從正態(tài)分布的隱變量Z，然后通過(guò)解碼器重構(gòu)生成數(shù)據(jù)集X，并使X盡量接近X。編碼器和解碼器由神經(jīng)網(wǎng)絡(luò)組成，同時(shí)，引入兩個(gè)神經(jīng)網(wǎng)絡(luò)生成隱變量Z的均值μ=f1(x)和對(duì)數(shù)方差logσ2=f2(x)，由于方差是非負(fù)的，而使用對(duì)數(shù)方差后可正可負(fù)，運(yùn)算更加方便。編碼器得到的后驗(yàn)分布函數(shù)為qΨ(z|x)；解碼器得到的真實(shí)后驗(yàn)分布函數(shù)為Pθ(z|x)，并使用KL散度度量?jī)烧咧g的距離，通過(guò)損失函數(shù)來(lái)優(yōu)化VAE模型參數(shù)，損失函數(shù)如下：

圖1 VAE結(jié)構(gòu)框圖

1.2 E?NET網(wǎng)絡(luò)

語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的關(guān)鍵問(wèn)題之一。對(duì)于運(yùn)行中的無(wú)人車，語(yǔ)義分割可以幫助其理解復(fù)雜的交通場(chǎng)景，并從場(chǎng)景中推測(cè)出軌跡規(guī)劃、避障等任務(wù)所需的知識(shí)。隨著深度學(xué)習(xí)的發(fā)展，研究者提出了諸如FCN［22］、UNET［23］和SegNet［24］等模型，取得了遠(yuǎn)超傳統(tǒng)分割算法的優(yōu)異表現(xiàn)。但是，上述模型的計(jì)算量較大，較難實(shí)時(shí)運(yùn)行。本文中引入一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)E?Net［25］，對(duì)行人周圍的局部場(chǎng)景進(jìn)行語(yǔ)義分割，從而編碼局部交通場(chǎng)景信息，如圖2所示。

如圖2（a）所示，E?Net網(wǎng)絡(luò)包括6種模塊，分別是初始化模塊和5種瓶頸模塊。初始化模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2（b）所示，圖2（c）所示為常規(guī)、下采樣、上采樣、膨脹、非對(duì)稱5種瓶頸模塊的網(wǎng)絡(luò)結(jié)構(gòu)。通過(guò)不同種類瓶頸模塊的配合，實(shí)現(xiàn)了對(duì)圖像全局信息的編解碼，進(jìn)而實(shí)現(xiàn)對(duì)交通場(chǎng)景的語(yǔ)義理解。

圖2 E?Net結(jié)構(gòu)框圖

1.3 門限循環(huán)單元

門限循環(huán)單元（gated recurrent unit，GRU）［26］（見(jiàn)圖3）是循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）［27］的一種變體，相比于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（long?short term memory，LSTM）［28］，GRU可以在更少計(jì)算量的前提下獲得更好的表現(xiàn)。

圖3 GRU單元結(jié)構(gòu)

如圖3所示，每個(gè)GRU由控制信息傳輸?shù)母麻T和重置門組成。其中，t為時(shí)間步長(zhǎng)，t時(shí)刻下更新門接收當(dāng)前輸入向量和前一時(shí)間步的單元狀態(tài)，通過(guò)激活函數(shù)處理，幫助GRU控制當(dāng)前狀態(tài)需要從前一時(shí)間步狀態(tài)中保留的信息量以及從候選狀態(tài)中接受的信息量。重置門和更新門的處理類似，用于控制候選狀態(tài)對(duì)前一時(shí)間步狀態(tài)的依賴，使GRU能夠自適應(yīng)地忘記或重置當(dāng)前的信息。因此，GRU能夠有效地捕捉輸入序列的長(zhǎng)期和短期的依賴關(guān)系，更適用于解決動(dòng)態(tài)識(shí)別任務(wù)。假設(shè)GRU網(wǎng)絡(luò)的輸入量為X=(x1，x2，...，xn)，其中各變量的關(guān)系如下：

式中：x t表示當(dāng)前時(shí)刻的輸入；W rx、W zx、W hx、W rh、W zh和W hh為可學(xué)習(xí)權(quán)重矩陣；r t和z t分別表示重置門和更新門權(quán)重；h t-1和h t分別表示前一時(shí)刻和當(dāng)前時(shí)刻的隱藏層狀態(tài)；ht表示當(dāng)前時(shí)刻新的記憶；σ為sigmoid（·）函數(shù)，tanh（·）為雙曲正切激活函數(shù)；b r、b z和b h分別表示重置門、更新門和新記憶中的偏差項(xiàng)。

1.4 注意力機(jī)制

注意力機(jī)制（attention mechanism）借鑒了人類視覺(jué)方面的選擇性注意特點(diǎn)，即人類快速地掃描全局圖像，可以獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域，進(jìn)而從該區(qū)域獲得目標(biāo)細(xì)節(jié)信息，抑制無(wú)用信息。針對(duì)序列數(shù)據(jù)，注意力機(jī)制可以為序列特征分配不同的權(quán)重，并通過(guò)概率分配的方式自動(dòng)提高模型對(duì)重要特征的關(guān)注程度，從而在不增加計(jì)算與儲(chǔ)存成本的前提下，增加對(duì)序列數(shù)據(jù)處理的準(zhǔn)確性。

本文中需要處理車輛速度與人車距離，將注意力機(jī)制引入GRU模塊構(gòu)成AGRU（attention?GRU），可以突出車輛加減速以及人車距離突然變短等關(guān)鍵信息，改善行人過(guò)街意圖識(shí)別結(jié)果。圖4為AGRU的結(jié)構(gòu)，其中，t表示從1到n的時(shí)刻信息，x t表示GRU模塊的輸入，h t對(duì)應(yīng)t時(shí)刻AGRU模塊的隱藏層輸出，αt表示通過(guò)注意力機(jī)制計(jì)算得到的關(guān)于時(shí)序特征的注意力概率分布，y表示AGRU的輸出，由各時(shí)刻特征加權(quán)得到。

圖4 AGRU結(jié)構(gòu)圖

αt與y的計(jì)算公式如下：

式中：W w和b w為tanh（·）的可學(xué)習(xí)參數(shù)與偏置；W A為AGRU的可學(xué)習(xí)參數(shù)。

2 行人過(guò)街意圖識(shí)別算法

2.1 算法概述

本文中致力于識(shí)別行人過(guò)街意圖，即判斷在路側(cè)等待的行人是否有穿越馬路的意圖，進(jìn)而幫助車輛更好地理解交通場(chǎng)景。圖5為本文中提出的多源信息融合識(shí)別網(wǎng)絡(luò)（multi?source information fu?sion based recognition network，MIFRN）。MIFRN通過(guò)綜合考慮行人動(dòng)作、周圍局部交通場(chǎng)景、車輛速度和人車距離，來(lái)解決行人穿越/不穿越這個(gè)分類問(wèn)題。首先，引入YOLOv4［29］進(jìn)行行人檢測(cè)，并通過(guò)Yamaguchi［30］等提出的單目相機(jī)自運(yùn)動(dòng)估計(jì)算法進(jìn)行自運(yùn)動(dòng)補(bǔ)償，并將20幀內(nèi)沒(méi)有發(fā)生明顯位移的行人目標(biāo)作為感興趣目標(biāo)，即路側(cè)等待的行人。然后，將感興趣目標(biāo)送入MIFRN，并擴(kuò)展其最小外接矩形（如圖5紅色矩形框所示），得到周圍局部交通場(chǎng)景（如圖5黃色矩形框所示），同時(shí)將車速和人車距離（車輛近似位于圖像底部中點(diǎn)）送入MIFRN。具體擴(kuò)展方法是保證紅、黃矩形框中心對(duì)齊的前提下，將紅色矩形框的寬度和高度分別按照經(jīng)驗(yàn)值擴(kuò)大5倍和2倍。MIFRN包含3個(gè)主要模塊：①基于E?NET的輕量級(jí)場(chǎng)景語(yǔ)義理解網(wǎng)絡(luò)，用于編碼局部交通場(chǎng)景；②基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò)，用于編碼行人未來(lái)動(dòng)作信息；③基于注意力機(jī)制加權(quán)的GRU時(shí)序數(shù)據(jù)處理網(wǎng)絡(luò)，用于編碼車輛速度和人車距離。最后，引入雙向GRU進(jìn)行信息的深度融合，并將融合結(jié)果送入多層感知機(jī)以獲取行人穿越/非穿越概率。下面將分別介紹MIFRN的主要模塊。

圖5 多源信息融合識(shí)別網(wǎng)絡(luò)MIFRN整體框圖

2.2 行人未來(lái)動(dòng)作信息編碼

行人穿越馬路前，往往伴隨邁步、揮手、注視來(lái)車等動(dòng)作。當(dāng)車輛駕駛員捕捉到這些行為，就可以提前減速讓行，避免人車碰撞。因此，準(zhǔn)確理解路側(cè)行人的動(dòng)作，對(duì)于識(shí)別其過(guò)街意圖至關(guān)重要。前期研究集中于檢測(cè)行人的骨骼點(diǎn)，進(jìn)而設(shè)計(jì)不同的動(dòng)作模式。但是，拍攝距離、角度與光照、環(huán)境等因素可能導(dǎo)致無(wú)法準(zhǔn)確檢測(cè)行人骨骼點(diǎn)，進(jìn)而較難準(zhǔn)確理解其行為。

本文中引入深度神經(jīng)網(wǎng)絡(luò)編碼行人動(dòng)作信息，基于多任務(wù)學(xué)習(xí)范式，提出了一種基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò)，即通過(guò)訓(xùn)練生成式模型預(yù)測(cè)行人未來(lái)動(dòng)作，并從中編碼未來(lái)動(dòng)作信息。為了更好地生成行人未來(lái)動(dòng)作，會(huì)迫使網(wǎng)絡(luò)更加關(guān)注行人動(dòng)作線索，從而提高了未來(lái)動(dòng)作編碼的準(zhǔn)確性。

圖6所示為動(dòng)作信息編碼網(wǎng)絡(luò)結(jié)構(gòu)。在獲得視頻當(dāng)前幀Xt的前提下，網(wǎng)絡(luò)可預(yù)測(cè)視頻下一幀Xt+1。本文中采用3個(gè)相互獨(dú)立的VGG16網(wǎng)絡(luò)作為編碼器，為了加速收斂，利用ImageNet對(duì)網(wǎng)絡(luò)進(jìn)行了預(yù)訓(xùn)練?？紤]到動(dòng)作的時(shí)序性，引入GRU模塊挖掘動(dòng)作編碼的時(shí)域關(guān)聯(lián)。在訓(xùn)練階段，引入視頻下一幀的真實(shí)值Xt+1作為監(jiān)督信息。圖中，GRU2從Xt中預(yù)測(cè)隱變量Z，GRU1從Xt+1中預(yù)測(cè)隱變量中包含真實(shí)值Xt+1的信息。通過(guò)最小化Z和之間的KL損失，可以迫使GRU2學(xué)習(xí)如何從Xt中預(yù)測(cè)包含真實(shí)值Xt+1信息的隱變量Z。在解碼階段，將Z與編碼器3的輸出拼接后，送入GRU3進(jìn)行時(shí)序處理，并將處理后的結(jié)果送入解碼器，解碼器輸出t時(shí)刻的預(yù)測(cè)值，Xt+1與之間的重構(gòu)誤差可用于評(píng)價(jià)網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性。解碼器由編碼器中VGG16網(wǎng)絡(luò)的鏡像翻轉(zhuǎn)構(gòu)成，并將下采樣池化模塊替換為上采樣膨脹卷積模塊。所有的GRU采用單層結(jié)構(gòu)，隱含層神經(jīng)元個(gè)數(shù)為64。本文將GRU3的輸出結(jié)果作為t時(shí)刻的行人未來(lái)動(dòng)作編碼Ψt，相比于對(duì)當(dāng)前動(dòng)作編碼，對(duì)未來(lái)動(dòng)作的編碼能夠更好地反映行人意圖。

圖6 基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò)結(jié)構(gòu)

2.3 局部交通場(chǎng)景理解編碼

行人穿越行為通常發(fā)生在有交通信號(hào)燈、斑馬線和行人指示標(biāo)志的路口，準(zhǔn)確理解行人周圍的局部交通場(chǎng)景，對(duì)于判斷其是否會(huì)穿越有較大幫助?；谏疃葘W(xué)習(xí)在語(yǔ)義分割領(lǐng)域的成功，本文中引入輕量級(jí)的E?NET網(wǎng)絡(luò)實(shí)現(xiàn)場(chǎng)景理解。為了加速擬合，在KITTI語(yǔ)義分割數(shù)據(jù)集上對(duì)E?NET網(wǎng)絡(luò)進(jìn)行了預(yù)訓(xùn)練。訓(xùn)練后的E?NET網(wǎng)絡(luò)在下采樣過(guò)程中可以獲取局部交通場(chǎng)景的深度編碼，這種編碼盡管丟失了部分場(chǎng)景細(xì)節(jié)信息，但是能夠保留局部交通場(chǎng)景的道路、建筑物、樹(shù)木等主要語(yǔ)義信息，從而保證MIFRN能夠更好地理解行人所處的局部交通環(huán)境。E?NET網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，由于本文中只需要編碼局部交通場(chǎng)景，因此僅保留E?NET網(wǎng)絡(luò)的前4個(gè)模塊，刪除了上采樣模塊。假設(shè)t時(shí)刻輸入的局部交通場(chǎng)景為St，則對(duì)St的編碼如下：

式中：f(·)表示預(yù)訓(xùn)練后的部分E?NET網(wǎng)絡(luò)；Ws表示網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù)。

2.4 車速、人車距離編碼

當(dāng)來(lái)車速度過(guò)高、或者人車距離過(guò)近時(shí)，行人往往會(huì)放棄穿越，轉(zhuǎn)而等待車輛通過(guò)。因此，準(zhǔn)確編碼車速和人車距離可以提高行人過(guò)街意圖識(shí)別的準(zhǔn)確性。本文中引入GRU模塊高效地編碼車速與人車距離。同時(shí)，考慮到極端情況（如車輛突然加速、人車距離突然縮短等）對(duì)行人過(guò)街意圖的影響較大，本文中引入注意力機(jī)制，設(shè)計(jì)了基于注意力機(jī)制加權(quán)的AGRU，分別對(duì)車速和人車距離進(jìn)行編碼。假設(shè)車速和人車距離序列分別是V t={v1，v2，...，vt}和D t={d1，d2，...，d t}，則車速和人車距離在t時(shí)刻的編碼結(jié)果分別為

式中：AGRUV(·)和AGRUD(·)表示兩個(gè)獨(dú)立的GRU時(shí)序數(shù)據(jù)處理網(wǎng)絡(luò)；W V和W D分別是AGRUV(·)和AGRUD(·)的可學(xué)習(xí)參數(shù)。

2.5 多源信息融合和行人過(guò)街意圖識(shí)別

對(duì)于t時(shí)刻行人運(yùn)動(dòng)信息編碼Ψt、場(chǎng)景語(yǔ)義編碼φt、車速與人車距離編碼ΦVt與ΦDt，常用融合方法是直接拼接。但是，直接拼接較難獲取不同編碼信息之間的深層關(guān)聯(lián)。本文中引入基于雙向GRU的信息融合模塊，將4種編碼組合成序列I t=[Ψt，φt，ΦVt，ΦDt]，并將I t送入雙向GRU，雙向GRU的輸出作為融合結(jié)果：

式中：BiGRU(·)表示雙向GRU網(wǎng)絡(luò)；W Bi表示網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù)；O t表示t時(shí)刻的融合編碼向量，維度為64。這種融合方式有利于挖掘不同編碼信息的深度關(guān)聯(lián)，從而提高行人意圖識(shí)別的準(zhǔn)確性。

為了從O t中推測(cè)行人過(guò)街意圖，本文中引入了多層感知機(jī)，感知機(jī)中每層的神經(jīng)元個(gè)數(shù)分別為64、32、16和2。最后，將輸出通過(guò)Softmax函數(shù)歸一化，得到行人穿越/非穿越的概率。

2.6 損失函數(shù)設(shè)計(jì)

本文中采用多任務(wù)學(xué)習(xí)范式，網(wǎng)絡(luò)在識(shí)別行人意圖同時(shí)，可以預(yù)測(cè)行人的未來(lái)動(dòng)作?？偟膿p失函數(shù)包括：（1）分類損失Lc；（2）重構(gòu)損失LG；（3）KL損失LKL。

（1）分類損失Lc：本文中將行人過(guò)街意圖識(shí)別當(dāng)做分類問(wèn)題處理，考慮到行人個(gè)體的差異，識(shí)別有難有易。因此，引入了焦點(diǎn)損失函數(shù)（focal loss）代替二值交叉熵?fù)p失函數(shù)，Lc定義如下：

式中：Yi表示樣本i的真實(shí)標(biāo)簽，0表示負(fù)樣本，1表示正樣本；Pi表示網(wǎng)絡(luò)輸出的行人過(guò)街意圖的預(yù)測(cè)概率。超參數(shù)α用于控制正負(fù)樣本的比例，按經(jīng)驗(yàn)值設(shè)為0.5；超參數(shù)γ用于緩解難易樣本問(wèn)題，按文獻(xiàn)［21］設(shè)為2。

（2）重構(gòu)損失LG：該損失用于衡量動(dòng)作預(yù)測(cè)與真實(shí)結(jié)果的差異，本文中采用L2損失作為重構(gòu)損失LG，定義如下：

式中：Xt為t時(shí)刻的真實(shí)值為t時(shí)刻網(wǎng)絡(luò)的輸出值。

（3）KL損失LKL：該損失用于衡量動(dòng)作信息編碼網(wǎng)絡(luò)訓(xùn)練階段中潛變量Z與Z之間的分布差異，通過(guò)降低該損失，可以使分布Z與Z接近。本文中引入KL散度來(lái)計(jì)算LKL，定義如下：

在得到上述3個(gè)損失函數(shù)的前提下，總的損失函數(shù)如下：

式中權(quán)衡參數(shù)κ與β通過(guò)交叉驗(yàn)證分別設(shè)置為0.1與0.5。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與衡量指標(biāo)

（1）JAAD［31］。JAAD數(shù)據(jù)集常用于研究交通參與者的行為。該數(shù)據(jù)集包括346段5-15 s的高分辨率視頻片段，每個(gè)片段中都包含城市環(huán)境下的不同駕駛場(chǎng)景。數(shù)據(jù)集中提供了行人的標(biāo)注信息，標(biāo)注的行人類型包括：沿路側(cè)行走的行人、路側(cè)等待的行人、正在穿越馬路的行人等?？紤]到識(shí)別行人過(guò)街意圖的目的，從JAAD數(shù)據(jù)集中選取了158個(gè)穿越行人樣本和79個(gè)非穿越行人樣本。

（2）PIE［32］。PIE數(shù)據(jù)集常用于研究行人意圖，其規(guī)模大于JAAD數(shù)據(jù)集。PIE使用車輛在不同街道結(jié)構(gòu)、不同群體密度地區(qū)采集了1 842段位于路側(cè)的行人數(shù)據(jù)。所有數(shù)據(jù)都采于白天、能見(jiàn)度高的場(chǎng)合，因此可以較好地分析行人行為?？紤]到識(shí)別行人過(guò)街意圖的目的，從PIE數(shù)據(jù)集中選取了516個(gè)穿越行人樣本和852個(gè)非穿越行人樣本。

3.2 時(shí)域數(shù)據(jù)增益

JAAD和PIE數(shù)據(jù)集提供了分析行人過(guò)街意圖的樣本，但是，仍然存在兩個(gè)問(wèn)題：（1）樣本量偏少，盡管PIE數(shù)據(jù)集的1 368個(gè)樣本遠(yuǎn)大于JAAD數(shù)據(jù)集的237個(gè)樣本，但仍然無(wú)法滿足深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的需要；（2）正負(fù)樣本不均衡，JAAD數(shù)據(jù)集中穿越行人與非穿越行人樣本的比例約為2∶1，PIE數(shù)據(jù)集中這個(gè)比例約為1∶1.6。

為了緩減這兩個(gè)問(wèn)題，本文中引入了時(shí)域數(shù)據(jù)增益，步驟如下。

（1）對(duì)于穿越行人樣本，以其開(kāi)始穿越時(shí)刻（開(kāi)始邁腿或擺手的瞬間）為界，向前、后各取12、11幀，總計(jì)獲得24幀數(shù)據(jù)。

（2）對(duì)任意24幀數(shù)據(jù)進(jìn)行時(shí)域增益，即以2幀為間隔在時(shí)域上連續(xù)采樣長(zhǎng)度為16幀的序列，最后可獲得1-16、3-18、5-20、7-22、9-24共5個(gè)序列，且每個(gè)序列中都包含開(kāi)始穿越時(shí)刻（即第13幀）。數(shù)據(jù)增益后，可分別從JAAD和PIE數(shù)據(jù)集中提取出790和2 580個(gè)穿越行人樣本。

（3）對(duì)于非穿越行人樣本，考慮正負(fù)樣本間的均衡，以行人可以清晰觀測(cè)為準(zhǔn)，從JAAD數(shù)據(jù)集中的每個(gè)非穿越行人序列中連續(xù)采集34幀數(shù)據(jù)，從PIE數(shù)據(jù)集中連續(xù)采集20幀數(shù)據(jù)，并分別以2幀為間隔在時(shí)域上進(jìn)行增益。最后，可分別從JAAD和PIE數(shù)據(jù)集中提取出790和2 556個(gè)非穿越行人樣本。

（4）對(duì)于增益后的JAAD與PIE數(shù)據(jù)集中的穿越/非穿越行人樣本，以5-折交叉驗(yàn)證的方式確定訓(xùn)練集與測(cè)試集，并采用正確率Acc（Accuracy）指標(biāo)進(jìn)行評(píng)價(jià)，Acc計(jì)算公式如下：

式中：P和N分別表示總的穿越樣本與非穿越樣本數(shù)目；TP和TN分別表示正確識(shí)別的穿越樣本與非穿越樣本數(shù)目。

3.3 實(shí)驗(yàn)細(xì)節(jié)設(shè)置

本文中所采用的實(shí)驗(yàn)平臺(tái)搭載了兩塊英偉達(dá)1080ti顯卡和一塊英特爾I9 CPU，實(shí)驗(yàn)環(huán)境為Ubuntu系統(tǒng)、Pytorch框架。行人動(dòng)作序列的尺寸為128×128像素，局部交通場(chǎng)景的尺寸為320×320像素。本文中使用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò)，總的訓(xùn)練批次數(shù)目為300，初始學(xué)習(xí)率設(shè)置為0.01，并每隔100批次將學(xué)習(xí)率除以10。

3.4 銷蝕實(shí)驗(yàn)

本文工作的貢獻(xiàn)之一是提出一種多源信息融合識(shí)別網(wǎng)絡(luò)MIFRN識(shí)別行人過(guò)街意圖，除了從行人動(dòng)作中識(shí)別其穿越意圖，MIFRN還能夠融合行人周圍的局部交通場(chǎng)景、車速、人車距離等線索，做出綜合決策。為了評(píng)價(jià)網(wǎng)絡(luò)中不同信息的作用，本文中分別在JAAD與PIE數(shù)據(jù)集上進(jìn)行了銷蝕實(shí)驗(yàn)，結(jié)果如表1所示。從表中不難看出，行人動(dòng)作中包含其是否準(zhǔn)備穿越的主要信息，局部交通場(chǎng)景信息可以作為行人動(dòng)作的重要補(bǔ)充，車速、人車距離也能夠在一定程度上提高行人過(guò)街意圖識(shí)別的準(zhǔn)確性。

表1 MIFRN網(wǎng)絡(luò)銷蝕實(shí)驗(yàn)

3.5 行人過(guò)街意圖定量分析

行人過(guò)街意圖識(shí)別是智能交通系統(tǒng)與無(wú)人駕駛領(lǐng)域的熱點(diǎn)話題之一。但是，大量研究通過(guò)分析行人的歷史軌跡判斷其是否有過(guò)街意圖，忽略了行人的外表與動(dòng)作。本文中著眼于識(shí)別行人開(kāi)始穿越的動(dòng)作，結(jié)合交通場(chǎng)景、車速、人車距離，準(zhǔn)確識(shí)別行人過(guò)街意圖。為了展示本文方法的有效性，選取了如下方法進(jìn)行對(duì)比：

（1）文獻(xiàn)［33］中提出的一種基于AlexNet網(wǎng)絡(luò)的行人過(guò)街意圖識(shí)別方法；

（2）文獻(xiàn)［34］中提出的一種雙通道卷積神經(jīng)網(wǎng)絡(luò)識(shí)別行人過(guò)街意圖的方法；

（3）文獻(xiàn)［19］中基于人體骨骼點(diǎn)檢測(cè)結(jié)果識(shí)別行人動(dòng)作，進(jìn)而判斷其過(guò)街意圖的方法；

（4）文獻(xiàn)［35］中引入圖卷積神經(jīng)網(wǎng)絡(luò)處理人體骨骼點(diǎn)之間的關(guān)聯(lián)，提高了行人動(dòng)作識(shí)別的準(zhǔn)確性，進(jìn)而能夠更好地識(shí)別行人過(guò)街意圖的方法；

（5）文獻(xiàn)［36］中提出的一種基于時(shí)空關(guān)聯(lián)推理的方法，通過(guò)圖模型建模行人與車輛的關(guān)系，從而識(shí)別行人過(guò)街意圖。

本文中在JAAD和PIE數(shù)據(jù)集上以相同設(shè)置對(duì)比了算法性能，用于比較的算法采用了相應(yīng)工作中的默認(rèn)設(shè)置。表2和表3分別給出了本文算法與主流算法在JAAD和PIE數(shù)據(jù)集上的比較結(jié)果。從表中不難看出，基于骨骼點(diǎn)的行人意圖識(shí)別算法性能優(yōu)于早期的AlexNet網(wǎng)絡(luò)和雙通道卷積神經(jīng)網(wǎng)絡(luò)，弱于近期提出的基于時(shí)空性關(guān)聯(lián)推理的方法［36］。本文算法由于引入了行人未來(lái)動(dòng)作信息編碼，同時(shí)綜合考慮了局部交通場(chǎng)景、車速和人車距離，在兩個(gè)數(shù)據(jù)集上都取得了最優(yōu)的效果。

表2 與主流算法在JAAD數(shù)據(jù)集上算法性能比較

表3 與主流算法在PIE數(shù)據(jù)集上算法性能比較

3.6 行人過(guò)街意圖定性分析

本文中提出了一種基于視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò)，在預(yù)測(cè)行人未來(lái)動(dòng)作的同時(shí)，生成其未來(lái)動(dòng)作編碼，該編碼中包含了行人的過(guò)街意圖。因此，行人未來(lái)動(dòng)作生成的優(yōu)劣決定了編碼是否準(zhǔn)確，進(jìn)而關(guān)系到能否準(zhǔn)確識(shí)別其過(guò)街意圖。圖7和圖8展示了JAAD和PIE數(shù)據(jù)集中一些行人樣本的未來(lái)動(dòng)作生成示例。圖中藍(lán)色方框表示觀測(cè)的10幀動(dòng)作序列，紅色方框表示生成的10幀未來(lái)動(dòng)作。由于行人未來(lái)動(dòng)作的不確定性隨著觀測(cè)時(shí)間的推移而增加，因此紅框中后端圖像的生成質(zhì)量劣于前端圖像。對(duì)于圖7和圖8中，（a）、（b）為未穿越行人樣本，（c）、（d）為穿越行人樣本。不難看出，本文算法能夠描述行人的未來(lái)動(dòng)作，如果行人沒(méi)有穿越馬路，則生成數(shù)據(jù)中不包含明顯的抬腿、揮手等動(dòng)作；反之，生成數(shù)據(jù)中通常包含腿部動(dòng)作，揭示了行人即將穿越。

圖7 JAAD數(shù)據(jù)集行人未來(lái)動(dòng)作生成示例

圖8 PIE數(shù)據(jù)集行人未來(lái)動(dòng)作生成示例

利用圖像信息識(shí)別行人過(guò)街意圖的主流方法是檢測(cè)行人骨骼點(diǎn)，在此基礎(chǔ)上識(shí)別行人動(dòng)作，進(jìn)而判斷其是否準(zhǔn)備過(guò)街［19］。但是，骨骼點(diǎn)檢測(cè)對(duì)行人圖像的清晰度有一定要求。在實(shí)際交通場(chǎng)景下，人車距離、遮擋、光線、行人穿著等因素都會(huì)對(duì)骨骼點(diǎn)檢測(cè)產(chǎn)生影響，導(dǎo)致誤檢或漏檢。圖9和圖10分別給出了JAAD和PIE數(shù)據(jù)集中骨骼點(diǎn)檢測(cè)失敗的例子。對(duì)于任意子圖，上一行表示行人觀測(cè)序列，下一行表示骨骼點(diǎn)檢測(cè)結(jié)果。圖9（a）和圖9（b）中由于行人的姿態(tài)、穿著等因素，無(wú)法準(zhǔn)確檢測(cè)其骨骼點(diǎn)，進(jìn)而無(wú)法利用骨骼點(diǎn)信息判斷行人是否準(zhǔn)備過(guò)街。使用本文方法，在僅使用行人未來(lái)動(dòng)作編碼的前提下，得到圖9（a）和圖9（b）中行人不穿越、穿越的概率分別為0.788和0.836。圖10（a）和圖10（b）中部分幀可以檢測(cè)到完整的行人骨骼點(diǎn)，但是其它幀存在誤檢、漏檢，導(dǎo)致較難識(shí)別行人過(guò)街意圖。僅使用本文中提出的未來(lái)動(dòng)作編碼，得到圖10（a）和圖10（b）中行人不穿越、穿越的概率分別為0.822和0.858。由此可見(jiàn)，本文方法能夠在復(fù)雜交通場(chǎng)景下魯棒地識(shí)別行人動(dòng)作信息，進(jìn)而結(jié)合場(chǎng)景條件，更好地識(shí)別行人是否具有過(guò)街意圖。

圖9 JAAD數(shù)據(jù)集行人骨骼點(diǎn)檢測(cè)失敗案例

圖10 PIE數(shù)據(jù)集行人骨骼點(diǎn)檢測(cè)失敗案例

3.7 實(shí)車實(shí)驗(yàn)效果

為了驗(yàn)證所提算法的有效性，本文中將JAAD與PIE數(shù)據(jù)集進(jìn)行了整合，在整合后的數(shù)據(jù)集上訓(xùn)練模型，并進(jìn)行了實(shí)車實(shí)驗(yàn)。圖11為實(shí)車實(shí)驗(yàn)平臺(tái)“江大智能行”號(hào)無(wú)人駕駛汽車，該平臺(tái)集成了智能車感知、地圖、規(guī)劃決策、控制等無(wú)人駕駛的基本功能，使用了基于CORS差分技術(shù)的GPS與IMU結(jié)合的定位系統(tǒng)，并具有由一臺(tái)velodyne 64線激光雷達(dá)、兩臺(tái)ibeo4線激光雷達(dá)、一臺(tái)Delphi毫米波雷達(dá)、一臺(tái)SICK單線激光雷達(dá)和兩臺(tái)Gige融合工業(yè)相機(jī)構(gòu)成的智能感知系統(tǒng)，其數(shù)據(jù)處理功能由研華ARK-3 500工控機(jī)完成。本次實(shí)車實(shí)驗(yàn)主要利用了“江大智能行”號(hào)的圖像采集能力與數(shù)據(jù)計(jì)算能力，實(shí)驗(yàn)全程由駕駛員進(jìn)行操作。圖12為兩臺(tái)Gige融合工業(yè)相機(jī)安裝效果圖。

圖11 “江大智能行”號(hào)無(wú)人駕駛汽車

圖12 車載工業(yè)相機(jī)安裝效果圖

圖13為本文算法的實(shí)車測(cè)試結(jié)果，其中，上、下圖分別展示了3個(gè)穿越、非穿越行人樣本。MIFRN在輸出行人穿越、非穿越概率前使用了Softmax激活層進(jìn)行標(biāo)準(zhǔn)化處理，因此對(duì)于每個(gè)樣本，其穿越概率與不穿越概率之和為1。為了更清晰地展示行人是否穿越，圖13以紅色矩形框標(biāo)記穿越行人，以綠色矩形框標(biāo)記非穿越行人，并在矩形框頂端附注可能性較大的行為對(duì)應(yīng)的概率值（與矩形框同色）。

圖13 實(shí)車測(cè)試結(jié)果

從圖中可見(jiàn)，當(dāng)檢測(cè)到行人周圍有紅綠燈、斑馬線等交通標(biāo)識(shí)，且行人未來(lái)動(dòng)作中存在抬腿、揮手等可能時(shí)，行人有較大的概率穿越；當(dāng)行人沒(méi)有任何穿越動(dòng)作的前兆，且場(chǎng)景中無(wú)任何交通標(biāo)識(shí)的情況下，行人有較大概率等待車輛通過(guò)。從結(jié)果中不難看出，本文算法可以在較大范圍光照變化下比較準(zhǔn)確地檢測(cè)行人是否有穿越意圖，且對(duì)行人的模糊外表有一定魯棒性，克服了基于骨骼點(diǎn)的行人穿越意圖判別中較難準(zhǔn)確提出骨骼點(diǎn)信息的不足。

4 結(jié)論

本文提出了一種多源信息融合識(shí)別網(wǎng)絡(luò)MIFRN用于識(shí)別行人過(guò)街意圖。MIFRN包含一種基于先驗(yàn)可學(xué)習(xí)視頻預(yù)測(cè)的動(dòng)作信息編碼網(wǎng)絡(luò)，可以在預(yù)測(cè)行人未來(lái)動(dòng)作的同時(shí)，生成其未來(lái)動(dòng)作信息的編碼，克服了惡劣環(huán)境下無(wú)法準(zhǔn)確檢測(cè)行人骨骼點(diǎn)的弊端，更加魯棒地理解行人行為。為了進(jìn)一步提高行人過(guò)街意圖的識(shí)別準(zhǔn)確率，MIFRN引入輕量級(jí)的E?NET網(wǎng)絡(luò)編碼行人周圍的局部交通場(chǎng)景，引入注意力加權(quán)的GRU模塊編碼車速和人車距離，并引入雙向GRU多源信息的深度融合。相比于其它主流算法，MIFRN在JAAD和PIE數(shù)據(jù)集上都取得了最佳性能，在實(shí)車實(shí)驗(yàn)中也表現(xiàn)出不俗性能。

本文中提出的MIFRN可用于無(wú)人駕駛領(lǐng)域的復(fù)雜場(chǎng)景感知，通過(guò)感知路側(cè)行人的過(guò)街意圖，可以更好地規(guī)劃無(wú)人車的未來(lái)運(yùn)行軌跡。同時(shí)，MIFRN也可用于有人駕駛車輛的ADAS系統(tǒng)，從而為行人防碰撞提供更好的決策依據(jù)。盡管MIFRN在公共數(shù)據(jù)集上取得了較好表現(xiàn)，但仍存在以下問(wèn)題：（1）計(jì)算開(kāi)銷大，MIFRN需要利用YoloV4進(jìn)行目標(biāo)檢測(cè)，然后同時(shí)編碼行人未來(lái)動(dòng)作、局部交通場(chǎng)景、車速和人車距離，所需要的計(jì)算資源較大，較難應(yīng)用于智能邊緣設(shè)備；（2）MIFRN主要依賴路側(cè)行人的動(dòng)作信息識(shí)別其過(guò)街意圖，對(duì)于無(wú)征兆的行人突然穿越，識(shí)別表現(xiàn)較差。因此，后續(xù)工作將主要集中在：（1）通過(guò)壓縮、精簡(jiǎn)模型，改善算法的實(shí)時(shí)性能，從而滿足智能邊緣設(shè)備的算力需求；（2）深入研究行人過(guò)街意圖和人車沖突決策的內(nèi)在機(jī)理，從而在機(jī)理上更好地避免人車沖突。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放