亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度視覺注意神經(jīng)網(wǎng)絡(luò)的端到端自動駕駛模型

        2020-08-06 08:28:20胡學(xué)敏童秀遲張若晗
        計算機(jī)應(yīng)用 2020年7期
        關(guān)鍵詞:注意力神經(jīng)網(wǎng)絡(luò)自動

        胡學(xué)敏,童秀遲,郭 琳,張若晗,孔 力

        (湖北大學(xué)計算機(jī)與信息工程學(xué)院,武漢 430062)

        (*通信作者電子郵箱10837330@qq.com)

        0 引言

        作為人工智能的主要研究領(lǐng)域之一,自動駕駛技術(shù)能夠有效地減少交通事故的發(fā)生,合理利用交通資源,緩解交通壓力。傳統(tǒng)的基于規(guī)則式的自動駕駛方法一般分為感知系統(tǒng)、決策系統(tǒng)和控制系統(tǒng)三大模塊[1],其優(yōu)點(diǎn)在于各個模塊分工明確,可解釋性強(qiáng),系統(tǒng)穩(wěn)定性高。但是由于這類方法在做決策時強(qiáng)烈依賴于設(shè)定的規(guī)則,因此不具備自主學(xué)習(xí)的能力。此外,基于規(guī)則式的方法中預(yù)處理的過程較多,做出決策和控制需要處理的任務(wù)也較為繁瑣,并且需要諸多昂貴的傳感器,其硬件成本較高。而基于深度學(xué)習(xí)的端到端自動駕駛,將決策過程視為一個黑箱,利用神經(jīng)網(wǎng)絡(luò)建立輸入到輸出的映射。通過模仿人類駕駛行為,輸入圖像信息,輸出汽車轉(zhuǎn)向角等控制信號。相比傳統(tǒng)的基于規(guī)則式的方法,端到端的方法具備強(qiáng)大的學(xué)習(xí)能力,能夠更有效降低硬件設(shè)備成本和減少預(yù)處理步驟,因此研究端到端的自動駕駛模型具有重要的學(xué)術(shù)意義和商業(yè)價值。

        近年來,研究人員在端到端的自動駕駛方面做了大量的工作。Chen等[2]使用AlexNet網(wǎng)絡(luò),利用12 h的模擬駕駛數(shù)據(jù)訓(xùn)練,實(shí)現(xiàn)多車道高速公路的自動駕駛,該方法在高速公路數(shù)據(jù)集上表現(xiàn)良好,但是沒有考慮輸入圖像前后幀之間的時間特征,在復(fù)雜路況數(shù)據(jù)集上測試結(jié)果不穩(wěn)定。NVIDIA 公司提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]的端到端自動轉(zhuǎn)向模型,實(shí)現(xiàn)了真實(shí)道路的自動駕駛路測[4],在多種道路上取得了相對滿意的結(jié)果,但同樣沒有利用連續(xù)幀的信息,駕駛指令預(yù)測準(zhǔn)確性有限。文獻(xiàn)[5]提出利用CNN 和長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[6]構(gòu)成的深度級聯(lián)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)從圖像到方向盤轉(zhuǎn)角的端到端的自動駕駛,該方法利用了車輛行駛過程中的時間信息,性能有所改進(jìn),但是網(wǎng)絡(luò)體量大,模型訓(xùn)練需要的迭代次數(shù)多。加州大學(xué)伯克利分校構(gòu)建了一種FCN-LSTM(Fully Convolutional Network-Long Short-Term Memory)分支網(wǎng)絡(luò)結(jié)構(gòu)[7],并引入語義分割方法增強(qiáng)對駕駛場景的理解能力,預(yù)測離散或連續(xù)的駕駛行為。北京大學(xué)提出的ST-Conv+ConvLSTM+LSTM 網(wǎng)絡(luò)[8],利用時空卷積、多尺度殘差聚合、卷積長短記憶網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)等搭建技巧或模塊,預(yù)測無人車的橫向和縱向控制。另一方面,由于深度強(qiáng)化學(xué)習(xí)在許多傳統(tǒng)游戲中取得了超越人類的成績,其在自動駕駛方面的應(yīng)用開始受到越來越多的關(guān)注。Mobileye 將在指定環(huán)境中進(jìn)行安全的多智能體規(guī)劃決策應(yīng)用于自動駕駛,使用策略梯度迭代的方法求解最優(yōu)策略,將學(xué)習(xí)目標(biāo)劃分為可學(xué)習(xí)和不可學(xué)習(xí)部分保障系統(tǒng)安全,并引入有向無環(huán)圖降低了模型的復(fù)雜度[9]。El Sallab 等[10]采用深度確定性策略梯度算法在開源賽車模擬器TORCS(The Open Racing Car Simulator)中訓(xùn)練智能體。深度強(qiáng)化學(xué)習(xí)方法在模擬環(huán)境下取得不錯效果,是具有潛力的自動駕駛研究方法之一。

        現(xiàn)有基于深度神經(jīng)網(wǎng)絡(luò)的端到端自動駕駛方法往往利用CNN 提取視覺圖像中所有像素點(diǎn)的特征,但是沒有考慮圖像中冗余信息,存在設(shè)計的網(wǎng)絡(luò)層數(shù)多、計算量大等問題。反觀人類在駕駛時能夠通過快速掃描前方,獲取需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是注意力焦點(diǎn),而后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,而抑制其他無用信息,這一過程稱為生物視覺注意力機(jī)制[11]。近年來隨著深度學(xué)習(xí)的不斷發(fā)展,視覺注意力機(jī)制的概念被引入這一領(lǐng)域[12-14]。文獻(xiàn)[15]中將視覺注意力機(jī)制分為軟注意力機(jī)制和硬注意力機(jī)制。軟注意力機(jī)制為每一個輸入分配一個注意力權(quán)值,其選擇的信息是所有輸入信息在注意力權(quán)值分布下的期望。軟注意力機(jī)制平滑可微,可以被嵌入模型中直接訓(xùn)練,通過梯度下降法反向傳播至模型其他部分。硬注意力機(jī)制使用最大采樣或隨機(jī)采樣選取信息,只關(guān)注某一輸入向量,其損失函數(shù)與注意力分布之間的函數(shù)關(guān)系不可導(dǎo),因此難以使用反向傳播算法進(jìn)行訓(xùn)練。此外,Google 機(jī)器翻譯團(tuán)隊(duì)提出自注意力模型,一種將單個序列的不同位置聯(lián)系起來搜索序列內(nèi)部的隱藏關(guān)系的注意力機(jī)制,并將其應(yīng)用于學(xué)習(xí)文本表示[16]。由于在駕駛過程中駕駛員會重點(diǎn)關(guān)注車道線和交通燈等信息,而給予天空、路邊的建筑物和植物等背景較少的關(guān)注[17],而CNN 在提取圖像特征時對待每個像素均無差別,存在大量的信息冗余,降低處理效率和準(zhǔn)確性。因此,在端到端自動駕駛模型中加入視覺注意力機(jī)制,能夠選擇性提取重要信息,減少模型層數(shù)和提高駕駛指令預(yù)測的準(zhǔn)確性。

        針對現(xiàn)有端到端自動駕駛方法中存在的駕駛指令預(yù)測準(zhǔn)確性不高、模型結(jié)構(gòu)體量大和信息冗余等問題,本文提出一種基于深度視覺注意神經(jīng)網(wǎng)絡(luò)的端到端自動駕駛方法。首先提出一種深度視覺注意神經(jīng)網(wǎng)絡(luò)(Deep Visual Attention Neural Network,DVANN),該網(wǎng)絡(luò)由CNN 層、視覺注意層和LSTM 層構(gòu)成,分別用于提取單個輸入序列的重要空間特征、關(guān)注有用信息并減少信息冗余和提取連續(xù)序列之間的時間特征。此外,基于DVANN,提出一種端到端的自動駕駛方法,利用前向車載相機(jī)獲取連續(xù)的駕駛序列圖像,預(yù)測車輛的方向盤轉(zhuǎn)角。實(shí)驗(yàn)結(jié)果表明,本文方法不僅提高了端到端自動駕駛中動作指令預(yù)測的準(zhǔn)確度,減少了模型層數(shù),同時也為視覺注意力機(jī)制的應(yīng)用提供了新的思路。

        1 基于深度視覺注意神經(jīng)網(wǎng)絡(luò)的自動駕駛

        本文提出的基于視覺注意機(jī)制的端到端自動駕駛模型如圖1 所示,模型輸入為前向車載相機(jī)的序列圖像,經(jīng)過網(wǎng)絡(luò)后輸出為當(dāng)前預(yù)測的方向盤轉(zhuǎn)角。DVANN 模型由CNN 層、視覺注意層和LSTM 層三部分組成:CNN 層用于對每一幀圖像提取空間特征;視覺注意層的作用旨在判別圖像的注意力權(quán)重,區(qū)分圖像中各個像素點(diǎn)的視覺重要性;LSTM 層用于提取連續(xù)幀圖像的時間特征。最后輸出層為1 個節(jié)點(diǎn),即方向盤轉(zhuǎn)向角的預(yù)測結(jié)果。

        圖1 基于深度視覺注意神經(jīng)網(wǎng)絡(luò)的自動駕駛模型整體結(jié)構(gòu)Fig.1 Overall structure of autonomous driving model based on deep visual attention neural network

        1.1 CNN層結(jié)構(gòu)設(shè)計

        在圖像特征提取過程中,CNN 能夠利用卷積運(yùn)算操作對原始圖像進(jìn)行高低不同層次的特征表達(dá)[18],在諸多領(lǐng)域特別是圖像識別等相關(guān)任務(wù)上表現(xiàn)優(yōu)異,因此本文設(shè)計一個CNN層網(wǎng)絡(luò)來提取駕駛場景的靜態(tài)圖像特征。

        與現(xiàn)有端到端的自動駕駛方法類似,本文采用CNN 提取圖像空間特征,將高維的輸入數(shù)據(jù)編碼成一系列低維的、抽象的特征表達(dá)?,F(xiàn)有方法要實(shí)現(xiàn)準(zhǔn)確的駕駛指令預(yù)測,需要設(shè)計復(fù)雜且深的CNN。本文利用注意力機(jī)制,減少CNN 對網(wǎng)絡(luò)深度的依賴,設(shè)計了一個輕量級的CNN。文獻(xiàn)[19]中提出了一個輕量CNN 來實(shí)現(xiàn)智能體在游戲中與環(huán)境交互,并且取得了較好的成果,因此本文以文獻(xiàn)[19]為基礎(chǔ)來設(shè)計本文的CNN層網(wǎng)絡(luò)結(jié)構(gòu)。如圖2所示,該網(wǎng)絡(luò)由3個卷積層構(gòu)成。

        原始的單幀RGB 圖像首先通過數(shù)據(jù)預(yù)處理轉(zhuǎn)換成灰度圖,并將尺寸縮放為84×84 像素。為快速提取不同尺度的特征,本文采用大卷積核的方式,將三個卷積層的卷積核尺寸分別設(shè)計為8×8、4×4和3×3,步長分別為4、2和1,卷積核個數(shù)分別為32、64 和64,每個卷積層后使用修正線性單元作為激活函數(shù),因此輸出為7×7 像素、64 通道的特征向量,作為當(dāng)前幀駕駛場景的空間圖像特征。最后,為將空間特征輸入視覺注意層和LSTM 層,將特征向量的形狀改變?yōu)?×49×64 的區(qū)域向量。

        圖2 CNN層結(jié)構(gòu)Fig.2 Structure of CNN layer

        1.2 LSTM層網(wǎng)絡(luò)設(shè)計

        本文使用CNN 層結(jié)構(gòu)能夠有效提取輸入圖像的空間特征,然而自動駕駛?cè)蝿?wù)的輸入不是單幀圖像,而是前后關(guān)聯(lián)的圖像序列,因此需要提取圖像前后幀的時間特征。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,可以學(xué)習(xí)長期依賴信息[20],故本文采用LSTM 作為端到端自動駕駛模型的時間特征提取層。圖3中虛線矩形框展示了LSTM 單元內(nèi)部結(jié)構(gòu),其中xt表示t時刻LSTM 單元的輸入;ct表示細(xì)胞狀態(tài),記錄隨時間傳遞的信息;it表示輸入門確定xt輸入多少信息給當(dāng)前細(xì)胞狀態(tài)ct;ft表示遺忘門決定上一時刻細(xì)胞狀態(tài)ct-1保留多少信息給ct;ot表示輸出門控制ct傳遞多少信息給當(dāng)前狀態(tài)的輸出ht;ht-1表示t-1時刻的輸出;mt為狀態(tài)候選值。LSTM通過門控單元控制細(xì)胞狀態(tài)。首先,遺忘門根據(jù)上一時刻輸出ht-1和當(dāng)前輸入xt通過sigmoid 層產(chǎn)生遺忘概率ft,決定從細(xì)胞狀態(tài)中丟棄什么信息。然后分兩步產(chǎn)生更新細(xì)胞狀態(tài)的新信息,第一步輸入門通過sigmoid 層決定需要更新的信息it,第二步用一個tanh 層生成狀態(tài)候選值mt。將上一時刻的細(xì)胞狀態(tài)乘以ft再加上it⊙mt得到新的細(xì)胞狀態(tài)ct。最后決定輸出信息,首先輸出門通過sigmoid 層得到初始輸出ot,然后將新的細(xì)胞狀態(tài)ct通過tanh函數(shù)處理后與ot相乘得到當(dāng)前輸出ht,其工作原理如式(1)~(6)所示:

        其中:W與b分別表示對應(yīng)門控單元的權(quán)重向量與偏移量;σ(·)表示sigmoid 激活函數(shù);tanh(·)表示雙曲正切激活函數(shù);⊙表示點(diǎn)乘。

        本文設(shè)計的LSTM 網(wǎng)絡(luò)層結(jié)構(gòu)如圖3所示。LSTM 單元的輸入xt代表捕捉了特定區(qū)域視覺信息的空間特征矢量,這個量由視覺注意層計算得到,將在1.3節(jié)中詳細(xì)介紹。連續(xù)的T幀圖片經(jīng)過CNN 層和視覺注意層,輸出T個在不同時間關(guān)注在不同圖片區(qū)域的空間特征矢量xt。在時刻t,將空間特征矢量xt,上一個LSTM 單元的輸出ht-1和上一時刻的細(xì)胞狀態(tài)ct-1輸入LSTM 單元,得到當(dāng)前時刻的輸出ht,再通過一個全連接(Fully Connected,F(xiàn)C)層得到當(dāng)前方向盤轉(zhuǎn)向角的預(yù)測值。T為歷史數(shù)據(jù)長度,本文中T=10,為經(jīng)驗(yàn)值。

        1.3 視覺注意層設(shè)計

        在圖像特征提取過程中,由于CNN 提取特征時無差別對待每個像素,沒有考慮視覺冗余情況,造成提取的特征重點(diǎn)模糊,對于復(fù)雜的圖像則需要通過加大網(wǎng)絡(luò)深度來改善網(wǎng)絡(luò)性能[21]。與之相反,人類視覺系統(tǒng)在感知圖像信息時,能快速定位重要的目標(biāo)區(qū)域并進(jìn)行細(xì)致的分析。在駕駛過程中,人類往往更關(guān)注車道線、道路邊緣、前方車輛和行人等障礙物、交通標(biāo)志、信號燈等,而給予天空、路邊建筑物等較少的關(guān)注,甚至是忽略。如果對CNN 提取的駕駛場景圖像特征的不同位置給予不同的權(quán)重,讓網(wǎng)絡(luò)更加關(guān)注車道線、障礙物等高重要度特征的區(qū)域,則可以更有效提取駕駛場景的圖像特征,減少視覺冗余,從而更準(zhǔn)確預(yù)測車輛的動作指令。

        圖3 LSTM層結(jié)構(gòu)Fig.3 Structure of LSTM layer

        在自動駕駛場景中,注意力機(jī)制主要用于判斷圖像不同位置的視覺重要性而不是內(nèi)部的隱藏關(guān)系,駕駛員也不能完全忽略圖像某一部分的信息只關(guān)注重點(diǎn)信息。由于軟注意力機(jī)制平滑可微,可以被嵌入模型中直接訓(xùn)練,通過梯度下降法反向傳播至模型其他部分,因此本文采用軟注意力機(jī)制設(shè)計深度視覺注意神經(jīng)網(wǎng)絡(luò)。本文的視覺注意層結(jié)構(gòu)如圖4 所示。為了能夠更好地描述局部目標(biāo),本文針對第三個卷積層輸出的特征,通過軟注意力機(jī)制實(shí)現(xiàn)LSTM 在預(yù)測轉(zhuǎn)向角的不同時刻關(guān)注不同的圖像區(qū)域,進(jìn)而更準(zhǔn)確地輸出轉(zhuǎn)向角。因此,視覺注意層的設(shè)計有兩個關(guān)鍵的量:一個是上一時刻LSTM 層產(chǎn)生的隱藏狀態(tài)ht-1,與時間相關(guān);另一個是區(qū)域向量,對應(yīng)圖像的一個區(qū)域。假設(shè)CNN 層網(wǎng)絡(luò)輸出區(qū)域向量為vt:

        其中D為第三個卷積層生成的特征矢量的維度,每個向量都對應(yīng)圖像一個區(qū)域,表示該區(qū)域像素點(diǎn)對應(yīng)的D維特征矢量。依據(jù)上文CNN層的介紹,L=49,D=64。

        基于軟注意力機(jī)制的理論,在時刻t,為輸入序列的每個區(qū)域計算出一個權(quán)重,其中第i個區(qū)域的權(quán)重為:

        其中fFC表示一個節(jié)點(diǎn)數(shù)為64 的全連接層函數(shù),Wv和Wh表示視覺注意層網(wǎng)絡(luò)中待優(yōu)化的權(quán)值。采用Softmax 函數(shù)使輸入序列的各個區(qū)域的權(quán)重歸一化,如式(9)所示:

        圖4 視覺注意層結(jié)構(gòu)Fig.4 Structure of visual attention layer

        1.4 目標(biāo)函數(shù)與網(wǎng)絡(luò)的訓(xùn)練

        由于本文的預(yù)測輸出值只有轉(zhuǎn)向角這一個連續(xù)的參數(shù),故模型的輸出節(jié)點(diǎn)數(shù)設(shè)定為1。在訓(xùn)練過程中為了解決梯度消失和梯度爆炸的問題,將方向盤轉(zhuǎn)角值進(jìn)行線性變換到40~60(經(jīng)驗(yàn)值)。50代表直行,60和40分別代表向右和向左打滿方向盤。本文中為了清晰直觀地顯示實(shí)驗(yàn)結(jié)果,對測試結(jié)果進(jìn)行歸一化:0 代表直行,1 和-1 分別代表向右和向左打滿方向盤。為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)擬合連續(xù)值訓(xùn)練樣本,本文采用L2范數(shù)作為損失函數(shù),如式(11)所示:

        其中:pg和p分別表示轉(zhuǎn)向角的真實(shí)值和預(yù)測值;w為網(wǎng)絡(luò)中的參數(shù)集合。為了求解損失函數(shù)的最小值,本文使用Adam優(yōu)化算法[22]。因此,本文設(shè)計的目標(biāo)函數(shù)更新方法如式(12):

        其中:w*為優(yōu)化的目標(biāo)網(wǎng)絡(luò)權(quán)值;n為訓(xùn)練批次大小,本文取值為24。迭代總次數(shù)設(shè)置為5 000,學(xué)習(xí)率為0.000 1。網(wǎng)絡(luò)的訓(xùn)練停止條件為訓(xùn)練的輸出誤差收斂到9.0。

        2 實(shí)驗(yàn)結(jié)果和分析

        本文實(shí)驗(yàn)使用Python 語言編寫程序,深度學(xué)習(xí)框架采用TensorFlow;硬件CPU 為Intel Core i7-7700K(四核4.2 GHz)、GPU為NVIDA GTX 1080Ti、內(nèi)存為32 GB。

        由于自動駕駛訓(xùn)練風(fēng)險高,以及需要在多種道路上測試,考慮到安全性問題,本文使用模擬駕駛場景數(shù)據(jù)集。歐洲卡車模擬器具有逼真的畫面和豐富的駕駛場景,因此本文使用的數(shù)據(jù)集是從該模擬器中采集到的約8 h的駕駛數(shù)據(jù),幀率為30 幀/s,圖像的像素尺寸為1 853×1 012。數(shù)據(jù)集共有約40 萬幅包含多種駕駛場景的圖像,包含了鄉(xiāng)村路、高速路、隧道和山路四種駕駛場景,除了采集前向攝像機(jī)的視頻幀以外,還采集同步的方向盤轉(zhuǎn)向角作為車輛的動作指令。測試時,額外針對每種場景的道路采集一段視頻,且測試場景路段未包含在訓(xùn)練集中,四種路段測試集中包含的幀數(shù)分別為5 697、6 606、4 909和2 439。

        本文旨在構(gòu)建端到端的自動駕駛模型,利用監(jiān)督學(xué)習(xí)的方法讓模型從人類駕駛的數(shù)據(jù)集進(jìn)行學(xué)習(xí)。從圖像中預(yù)測駕駛指令本質(zhì)上是一個回歸問題,因此預(yù)測數(shù)據(jù)跟真實(shí)數(shù)據(jù)的偏差是衡量預(yù)測模型好壞的重要標(biāo)準(zhǔn)。本文參照文獻(xiàn)[4,6-7]等,采用均方根誤差(Root Mean Square Error,RMSE)作為模型準(zhǔn)確性評價指標(biāo),計算方法如式(13)所示:

        其中:RMSE表示均方根誤差,pg(t)和p(t)分別為時刻t方向盤轉(zhuǎn)向角的真實(shí)值和預(yù)測值,N為測試數(shù)據(jù)幀數(shù)。轉(zhuǎn)向角為歸一化后的結(jié)果。此外,本文利用注意力機(jī)制在提高駕駛指令預(yù)測的同時,減小網(wǎng)絡(luò)體量,因此將網(wǎng)絡(luò)的深度和模型收斂所需的訓(xùn)練時間和迭代次數(shù)作為網(wǎng)絡(luò)體量的衡量標(biāo)準(zhǔn)。

        為體現(xiàn)本文方法的有效性,將NVIDIA 公司提出的自動駕駛模型[4],以及文獻(xiàn)[5]中提出的VGG(Visual Geometry Group)和LSTM 構(gòu)成的深度級聯(lián)神經(jīng)網(wǎng)絡(luò)(Deep Cascaded Neutral Network,DCNN)進(jìn)行對比。圖5、表1~3分別為測試實(shí)驗(yàn)結(jié)果圖、均方根誤差對比結(jié)果、網(wǎng)絡(luò)深度對比結(jié)果、訓(xùn)練時間和迭代次數(shù)對比結(jié)果。根據(jù)實(shí)驗(yàn)結(jié)果,可得出如下結(jié)論:

        1)本文提出的基于DVANN 的端到端自動駕駛方法能在不同場景都準(zhǔn)確預(yù)測駕駛的方向盤轉(zhuǎn)向角。本文方法采用CNN 和LSTM 的結(jié)構(gòu)能夠提取不同駕駛場景序列圖像的空間和時間特征,并且視覺注意力機(jī)制能夠針對不同場景自適應(yīng)地提取對駕駛有幫助的特征,故能夠在不同場景對轉(zhuǎn)向角做出準(zhǔn)確預(yù)測。從圖5 可以看出,與其他兩種方法相比,本文的預(yù)測曲線與真實(shí)曲線最為接近。從表1 可知在四個場景中本文方法的均方誤差均低于文獻(xiàn)[4]的NVIDIA 的方法和文獻(xiàn)[5]的DCNN 方法,特別是對于圖像特征最不明顯的隧道場景(如圖5(c)所示),本文方法在準(zhǔn)確性方面與其他兩種方法相比具有明顯的優(yōu)勢。

        表1 均方根誤差對比結(jié)果Tab.1 Comparison results of RMSE

        2)本文方法能夠在提取自動駕駛圖像特征的時候關(guān)注對駕駛更有用的信息。視覺注意力機(jī)制根據(jù)區(qū)域特征和上一時刻LSTM 的隱藏狀態(tài)給各個圖像區(qū)域賦予不同權(quán)重,對需要關(guān)注的部分給予較高的權(quán)重,對不需要關(guān)注的部分給予較低的權(quán)重。從圖5 的視覺注意力分布中可以觀察出,本文方法能夠提取自動駕駛圖像中車道線、車輛、轉(zhuǎn)彎、指示牌等重要信息。比如鄉(xiāng)村路由于車道線是重要關(guān)注點(diǎn),山路需要重點(diǎn)關(guān)注轉(zhuǎn)彎處,如圖5(a)的ta2時刻、圖5(d)的td1時刻視覺注意力分布圖所示,車道線和轉(zhuǎn)彎處被賦予較高權(quán)重。

        3)本文方法能夠有效減少端到端自動駕駛中深度神經(jīng)網(wǎng)絡(luò)的層數(shù),提高模型收斂速度。由于視覺注意力機(jī)制重點(diǎn)關(guān)注特征向量中一個較小的位置區(qū)域,即使較淺層的卷積神經(jīng)網(wǎng)絡(luò)也能夠提取有效的視覺特征,因此在設(shè)計神經(jīng)網(wǎng)絡(luò)時,減少了卷積層的數(shù)量和模型的權(quán)重參數(shù),加快了模型收斂。表2為各模型的網(wǎng)絡(luò)深度,表3為訓(xùn)練時間和迭代次數(shù)。雖然DVANN 增加了視覺注意層,但是本文所采用的模型的網(wǎng)絡(luò)總層數(shù)相較于文獻(xiàn)[4]和文獻(xiàn)[5]明顯減少,模型收斂迭代次數(shù)也大幅度降低,僅為文獻(xiàn)[5]的2.5%。輕量級的模型不僅降低了對硬件條件的要求,而且有效地縮短了訓(xùn)練時間,節(jié)省計算資源和成本。

        表2 網(wǎng)絡(luò)深度對比結(jié)果Tab.2 Comparison results of network depth

        表3 訓(xùn)練時間和迭代次數(shù)對比結(jié)果Tab.3 Comparison results of training time and iteration number

        圖5 測試實(shí)驗(yàn)結(jié)果圖與代表性場景的視覺注意分布圖Fig.5 Testing result diagrams and visual attention distribution maps of representative scenes

        3 結(jié)語

        本文提出了一種深度視覺注意神經(jīng)網(wǎng)絡(luò),并基于該網(wǎng)絡(luò),利用前向車載相機(jī)的序列圖像作為輸入,實(shí)現(xiàn)對自動駕駛車輛方向盤轉(zhuǎn)向角的預(yù)測。在設(shè)計深度視覺注意網(wǎng)絡(luò)時,以軟注意力機(jī)制為原型,將CNN 提取的圖像特征輸入設(shè)計的視覺注意層,提取對自動駕駛重要的特征,并將經(jīng)過視覺注意層加權(quán)后的特征輸入LSTM 提取時間關(guān)聯(lián)性。注意力機(jī)制的引入,不僅能夠讓模型更關(guān)注和駕駛相關(guān)的特征,提高駕駛指令預(yù)測的準(zhǔn)確度,并且能夠有效降低CNN 的層數(shù),減少網(wǎng)絡(luò)的冗余,提高模型訓(xùn)練速度,節(jié)省計算資源。實(shí)驗(yàn)結(jié)果表明,經(jīng)過大量數(shù)據(jù)的訓(xùn)練,該網(wǎng)絡(luò)在對轉(zhuǎn)向角預(yù)測的準(zhǔn)確性、網(wǎng)絡(luò)總層數(shù)、訓(xùn)練時間和收斂迭代次數(shù)方面相比其他模型有明顯的優(yōu)勢。然而,由于本文方法沒有考慮復(fù)雜的交通規(guī)則和全局路徑規(guī)劃,因此無法應(yīng)用于城市道路。而且由于數(shù)據(jù)集中缺乏偶然事件樣本,本文模型對偶然事件的處理能力不強(qiáng)。未來的工作將集中在如何將交通規(guī)則和全局路徑規(guī)劃融入模型,讓模型能夠適用于更復(fù)雜的道路以及如何提高駕駛的安全性。

        猜你喜歡
        注意力神經(jīng)網(wǎng)絡(luò)自動
        讓注意力“飛”回來
        自動捕盜機(jī)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于STM32的自動喂養(yǎng)機(jī)控制系統(tǒng)
        電子測試(2018年10期)2018-06-26 05:53:36
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        關(guān)于自動駕駛
        汽車博覽(2016年9期)2016-10-18 13:05:41
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        Stefan Greiner:我們?yōu)槭裁葱枰詣玉{駛?
        国产suv精品一区二区| 国产成av人在线观看| 国产我不卡在线观看免费| 高清不卡日本v二区在线| 国产一区国产二区亚洲精品| 无码高清视频在线播放十区| 久久成人黄色免费网站| 日本av第一区第二区| 亚洲av高清一区二区在线观看| 中文有码亚洲制服av片| 成人av鲁丝片一区二区免费| 99久久人人爽亚洲精品美女| 国产草草视频| 国产精品18久久久久久首页| 日韩精品高清不卡一区二区三区| av在线不卡免费中文网| 美女国产毛片a区内射| 国产成人精品a视频一区| 日日碰狠狠添天天爽超碰97| 国产又色又爽又刺激视频 | 中文字幕人妻互换av| 人人妻人人澡人人爽人人精品浪潮| 特黄做受又粗又长又大又硬 | 在线视频你懂的国产福利| 日本国产一区二区三区在线观看| 大岛优香中文av在线字幕| 91精品国产91综合久久蜜臀| 国产精品免费无遮挡无码永久视频 | 大红酸枝极品老料颜色| 久久精品国产免费一区二区三区| 欧美肥妇毛多水多bbxx水蜜桃| 国产特级毛片aaaaaa| 国产成人无码aⅴ片在线观看| 亚洲欧美日韩国产综合专区| 国产麻豆一区二区三区在线播放| 开心激情视频亚洲老熟女| 伊人久久大香线蕉av色婷婷色| 精品av天堂毛片久久久| 北条麻妃在线视频观看| 亚洲蜜芽在线精品一区| 国产黄色一区二区三区,|