王月鑫,伍鵬, ,周沛,葉旭,周順平
(1 長(zhǎng)江大學(xué) 電子信息學(xué)院,荊州 434023;2 中國(guó)地質(zhì)大學(xué)(武漢)工程學(xué)院,武漢 430074;3 中國(guó)地質(zhì)大學(xué)(武漢)國(guó)家地理信息系統(tǒng)工程技術(shù)研究中心,武漢 430074)
近年來(lái),隨著計(jì)算機(jī)視覺(jué)和人工智能的快速發(fā)展,傳統(tǒng)的汽車(chē)行業(yè)與這些先進(jìn)的技術(shù)結(jié)合得越來(lái)越緊密,車(chē)道線(xiàn)檢測(cè)技術(shù)廣泛應(yīng)用于車(chē)道偏離預(yù)警[1]、自適應(yīng)巡航控制[2-3]、交通理解[4]等領(lǐng)域中 .此外自動(dòng)駕駛技術(shù)也受到了大量關(guān)注,能否準(zhǔn)確高效地識(shí)別出車(chē)道線(xiàn)是實(shí)現(xiàn)高級(jí)別自動(dòng)駕駛的關(guān)鍵一步.所以高效準(zhǔn)確的車(chē)道線(xiàn)檢測(cè)技術(shù)具有重要的工程應(yīng)用價(jià)值.
生活中常見(jiàn)的車(chē)道線(xiàn)是一種細(xì)長(zhǎng)的管狀結(jié)構(gòu),具有較強(qiáng)的形狀特性[5],傳統(tǒng)的車(chē)道線(xiàn)檢測(cè)方法通常先手工操作提取特征[6-7],再通過(guò) Hough 變換[8-9]、隨機(jī)采樣一致性[10-12]等后處理來(lái)擬合線(xiàn)形車(chē)道,這種檢測(cè)模型魯棒性差,無(wú)法適應(yīng)不同環(huán)境下的車(chē)道線(xiàn)檢測(cè).目前對(duì)于車(chē)道線(xiàn)檢測(cè)的研究主要集中于基于深度學(xué)習(xí)的檢測(cè)算法,有四種主流方案,即圖像分割方案[4,13-15],逐行分類(lèi)方案[16-17],多項(xiàng)式擬合方案[5,18]和基于錨的方案[19-20].
圖像語(yǔ)義分割被廣泛應(yīng)用于街景識(shí)別、目標(biāo)檢測(cè)中[21],將車(chē)道線(xiàn)檢測(cè)看成一個(gè)圖像分割問(wèn)題,如SCNN[4]利用圖像分割模型分割出車(chē)道線(xiàn),使用消息傳遞,以及額外的場(chǎng)景注釋來(lái)捕獲全局上下文信息提高準(zhǔn)確率,具有比傳統(tǒng)圖像處理方法更強(qiáng)的語(yǔ)義表示能力,但密集的像素級(jí)通信,需要大量的計(jì)算資源,導(dǎo)致算法的處理效率低;基于逐行分類(lèi)的方案是將車(chē)道線(xiàn)看成一系列的行錨,如文獻(xiàn)[17]在處理過(guò)程中對(duì)道路圖像每行檢測(cè)出一個(gè)像素屬于車(chē)道線(xiàn),相較于圖像分割算法,減少了計(jì)算量,提高了推理速度,但此方法的泛用性較低,無(wú)法適應(yīng)多環(huán)境下的車(chē)道線(xiàn)檢測(cè);基于多項(xiàng)式擬合的方案,是將車(chē)道線(xiàn)看成曲線(xiàn),直接對(duì)參數(shù)進(jìn)行學(xué)習(xí),每條車(chē)道線(xiàn)輸出一個(gè)多項(xiàng)式,如LSTR[5]將每條車(chē)道線(xiàn)視為一個(gè)三次曲線(xiàn),利用TransFormer[22]強(qiáng)大的編碼和解碼能力,擬合出每條車(chē)道線(xiàn)對(duì)應(yīng)的參數(shù),在推理速度上有所提升,但準(zhǔn)確率并沒(méi)有優(yōu)于其他方法;基于錨的方案,如LaneATT[20]將每條車(chē)道線(xiàn)都表示為一條直線(xiàn)的錨和錨的橫向偏移.與逐行分類(lèi)方案類(lèi)似,這種方法利用了一定的先驗(yàn)知識(shí),即車(chē)道線(xiàn)通常是直的,然而固定錨的形狀導(dǎo)致描述線(xiàn)性形狀的自由度很低,因此對(duì)于彎曲路況的預(yù)測(cè)結(jié)果較差.
此外在光線(xiàn)變化、霧天雨天、車(chē)輛行人遮擋等復(fù)雜環(huán)境下完成車(chē)道線(xiàn)檢測(cè),不僅需要考慮車(chē)道線(xiàn)的局部信息,更需要對(duì)車(chē)道線(xiàn)進(jìn)行更高層次的語(yǔ)義分析,進(jìn)行全局結(jié)構(gòu)信息提取.近期,許多對(duì)多層感知器[23-26](Multi Layer Perceptron,簡(jiǎn)稱(chēng)MLP)的研究表明,MLP 能夠較好的提取圖像的全局語(yǔ)義信息,但在局部語(yǔ)義信息的提取上沒(méi)有達(dá)到好的效果,且文獻(xiàn)CycleMLP[23]在圖像分割等計(jì)算機(jī)視覺(jué)的下游任務(wù)中獲得了很好的效果,而文獻(xiàn)[24,27-28]中通過(guò)結(jié)構(gòu)重參數(shù)化技術(shù)實(shí)現(xiàn)訓(xùn)練與推理的解耦,在不犧牲推理速度的情況下?lián)Q來(lái)了不錯(cuò)的精度提升,如Rep-MLP[24]模型,訓(xùn)練時(shí)在其內(nèi)部構(gòu)建組卷積層獲取局部信息,將重參數(shù)化技術(shù)與MLP 結(jié)合,此方法在模式識(shí)別中獲得了較好的效果.
在借鑒已有的車(chē)道線(xiàn)檢測(cè)方法的基礎(chǔ)上,結(jié)合車(chē)道線(xiàn)的全局結(jié)構(gòu)特征和局部語(yǔ)義信息,提出了一種簡(jiǎn)單高效的基于多層感知器的車(chē)道線(xiàn)檢測(cè)方法,該方法能快速、準(zhǔn)確地檢測(cè)出車(chē)道線(xiàn).本文的創(chuàng)新點(diǎn)在于以下3點(diǎn):
(1)提出了一種新的基于MLP 的車(chē)道線(xiàn)檢測(cè)算法LaneMLP,將MLP 與重參數(shù)化技術(shù)應(yīng)用于車(chē)道線(xiàn)檢測(cè),提高了端到端的車(chē)道線(xiàn)檢測(cè)效率.
(2)提出了一種新的逐行分類(lèi)的長(zhǎng)線(xiàn)型檢測(cè)模型,此模型在在預(yù)處理階段降低了計(jì)算量提高模型的推理速度,為實(shí)際運(yùn)用提供了更高的可行性.
(3)本文模型在檢測(cè)速度和準(zhǔn)確率上都有較大提升,使用本文模型在CULane 數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明:在推理速度超過(guò)每秒350 幀的情況下,檢測(cè)準(zhǔn)確率達(dá)到了76.8%,與目前已提出的方案相比具有很強(qiáng)的競(jìng)爭(zhēng)力.
給定一張待檢測(cè)圖片 I ∈ RC×H×W,其中 C,H,W分別表示圖像的通道數(shù),高度和寬度;目標(biāo)是檢測(cè)出所有構(gòu)成車(chē)道線(xiàn)的點(diǎn)集:
其中:N 表示待檢測(cè)圖片中的車(chē)道線(xiàn)數(shù)目,k 表示圖像中每條車(chē)道線(xiàn)的最大采樣數(shù),將檢測(cè)到的點(diǎn)顯示在圖像上,實(shí)現(xiàn)端到端的車(chē)道線(xiàn)檢測(cè).
LaneMLP 算法模型主要由兩部分組成,分別為全局感知器和局部感知器,如圖1所示.全局感知器(具體介紹見(jiàn)1.2 節(jié))主要由具有殘差連接的MLP 模塊組成,該模塊的輸入為圖像I 經(jīng)過(guò)逐行分類(lèi)模型(具體介紹見(jiàn)1.1 節(jié))預(yù)處理后得到圖像 I′ ∈ RY×X,其中Y,X 分別表示預(yù)處理后圖像高和寬的柵格數(shù)量;局部感知器(具體介紹見(jiàn)1.3)主要由分組卷積模塊gConv 構(gòu)成,該模塊有四個(gè)并行的二維卷積,對(duì)輸入圖像I 進(jìn)行局部信息提取.最后將特征數(shù)據(jù)通過(guò)線(xiàn)性分類(lèi)層實(shí)現(xiàn)柵格的分類(lèi),整個(gè)模型的輸出為構(gòu)成車(chē)道線(xiàn)所有點(diǎn)的集合.需要注意的是在模型訓(xùn)練階段線(xiàn)性分類(lèi)層的輸入為全局感知器和局部感知器的特征張量的疊加,在模型推理階段線(xiàn)性分類(lèi)層的輸入為全局感知器的特征張量.訓(xùn)練過(guò)程的具體計(jì)算如式(2)和式(3):
圖1 LaneMLP結(jié)構(gòu)模型Fig.1 Model of the LaneMLP algorithm
其中MLP 表示對(duì)圖像進(jìn)行多層感知器處理,gConv表示組卷積操作,AvePooling 表示平均池化,⊕表示特征張量的疊加,Linear表示線(xiàn)性層.
推理過(guò)程中無(wú)需組卷積操作,故推理過(guò)程中需將式(2)轉(zhuǎn)換為式(4),最后經(jīng)線(xiàn)性分類(lèi)輸出.
文獻(xiàn)[17]中的逐行分類(lèi)模型UFASTResNet 是以錨點(diǎn)的形式對(duì)每一幀圖像的固定錨點(diǎn)進(jìn)行分類(lèi),判斷是否屬于車(chē)道線(xiàn),同時(shí)在模型的右側(cè)引入了一列背景錨點(diǎn)來(lái)表示這一行是否存在車(chē)道線(xiàn),這種框架式模型對(duì)圖像的結(jié)構(gòu)信息有較好的表達(dá)能力,但忽略了圖像的局部語(yǔ)義信息,使其在復(fù)雜環(huán)境中檢測(cè)效果差.因此提出一種新的逐行分類(lèi)模型,如圖2所示,將輸入圖像分成Y×X個(gè)柵格,Y=H h,X=W w其中h,w 分別表示每個(gè)柵格的高和寬.對(duì)于車(chē)道線(xiàn)在垂直方向上存在的范圍,可以引入?yún)?shù)V來(lái)表示,通過(guò)一個(gè)線(xiàn)性層[29]訓(xùn)練參數(shù).
圖2 逐行分類(lèi)模型Fig.2 Model of the row-wise classification
通過(guò)這種新的逐行分類(lèi)模型,車(chē)道線(xiàn)檢測(cè)任務(wù)可以看成一個(gè)V 行的分類(lèi)任務(wù),每行進(jìn)行X 個(gè)類(lèi)別為N + 1的分類(lèi)操作,判斷V × X 個(gè)柵格是否屬于車(chē)道線(xiàn)以及屬于第幾條車(chē)道線(xiàn),與逐像素的分割模型相比,該模 型 的計(jì)算量由 H × W 降為 V × X,而V ? H,X ? W.以 CULane 數(shù)據(jù)集[4]為例,在數(shù)據(jù)規(guī)模設(shè)置相同的情況下,SCNN 模型的計(jì)算量為2.8 × 106,本文模型的計(jì)算量約為 2.8 × 104,可見(jiàn)在預(yù)處理階段降低了模型的計(jì)算量.
該模型既保留了UFASTResNet 模型提取全局的結(jié)構(gòu)信息的優(yōu)勢(shì),又可以與MLP 模塊和分組卷積模塊結(jié)合,增強(qiáng)模型提取局部語(yǔ)義信息的能力,從而提高復(fù)雜環(huán)境下的車(chē)道線(xiàn)檢測(cè).
全局感知器的算法模型如圖3 所示,該模型首先對(duì)預(yù)處理后的圖像I′進(jìn)行柵格編碼操作,以V × X個(gè)不重疊的柵格作為輸入,其中每個(gè)柵格的大小為h × w,在構(gòu)建模型時(shí)默認(rèn)值設(shè)置為h = w = 10.柵格通過(guò)一次二維卷積操作,二維卷積的輸入維度為Rhw×VX×C輸出維度為 RV×X×l,卷積核大小為 h × w,水平步長(zhǎng)為w,垂直步長(zhǎng)為h,即對(duì)每個(gè)柵格提取一個(gè)長(zhǎng)度為l 的特征編碼(Token),再沿X 方向?qū)⑻卣鲝埩繅浩降玫?M ∈ RVX×l,之后 M 通過(guò) F 個(gè) MLP 模塊,其中MLP 模塊由兩個(gè)連續(xù)子層組成,如圖4所示.
圖3 全局感知器算法模型Fig.3 Model of the global perceptron
圖4 MLP算法流程Fig.4 Flow chart of the MLP block
對(duì)于兩個(gè)子層,分別為在跨柵格操作的線(xiàn)性層(Cross-grid 層)和在跨通道操作的前饋層(Cross-channel 層),圖4 中,每個(gè)子層間都有一個(gè)殘差連接[30],且通常在進(jìn)入每個(gè)子層前都會(huì)先經(jīng)過(guò)標(biāo)準(zhǔn)化處理,如層標(biāo)準(zhǔn)化(Layer Normalization),本文采用仿射變換[26]替換標(biāo)準(zhǔn)化處理,此操作對(duì)每個(gè)子塊的輸入和輸出進(jìn)行縮放和移動(dòng),定義為:Affine(x) =Diag(α)x + β,其中α,β 為可訓(xùn)練的參數(shù),訓(xùn)練中初始化為α = 1,β = 0,在使用仿射操作時(shí),將獨(dú)立的應(yīng)用于輸入數(shù)據(jù)的每一列,與標(biāo)準(zhǔn)化處理不同,該仿射變換不依賴(lài)于任何批處理信息,可以使訓(xùn)練更穩(wěn)定.
激活函數(shù)GeLU[31],在非線(xiàn)性變換中引入隨機(jī)正則化,提高模型的泛化能力,定義如式(5):
其中Φ(x)為正態(tài)分布的概率函數(shù),可以采用正態(tài)分布 N(0,1),也可以采用一般正態(tài)分布 N(μ,σ),將μ,σ 視為可訓(xùn)練參數(shù),當(dāng)輸入為標(biāo)準(zhǔn)正態(tài)分布時(shí)可簡(jiǎn)化為:
總體而言,對(duì)于MLP 模塊中的子層有如下轉(zhuǎn)換關(guān)系:
其中A,B,C 為該子層中的主要可訓(xùn)練權(quán)重,*為矩陣相乘,Affine(·)為仿射變換,(·)T為矩陣轉(zhuǎn)置.
局部感知器模塊如圖5 所示,先由4 個(gè)不同的并行卷積構(gòu)成一個(gè)卷積組[24],再在每個(gè)卷積層處理后連接一個(gè)批標(biāo)準(zhǔn)化[27-28],輸入為原始圖像I,輸出為4 個(gè)特征張量的和.對(duì)于卷積核的大小需要滿(mǎn)足k < min{h,w},取4組卷積核,分別為1 × 1,3 × 3,5 ×5,7 × 7,為保持卷積處理后得到的特征圖具有相同的分辨率,分別設(shè)置4個(gè)填充參數(shù)padding = 0,1,2,3.該模塊通過(guò)不同的感受野提取輸入圖像的局部語(yǔ)義信息,作為訓(xùn)練階段的輔助信息幫助訓(xùn)練,從而獲得更好的參數(shù).
圖5 局部感知器算法模型Fig.5 Model of the local perceptron
需要注意的是,局部感知器僅僅在訓(xùn)練過(guò)程中使用,推理時(shí)只使用全局感知器進(jìn)行預(yù)測(cè),因此加入局部感知器不影響模型的推理速度,這是本文模型推理速度快的一個(gè)重要原因.
對(duì)于車(chē)道線(xiàn)被遮擋部分,很難利用局部的語(yǔ)義信息進(jìn)行車(chē)道線(xiàn)的檢測(cè),考慮車(chē)道是一種細(xì)長(zhǎng)的條形線(xiàn),相鄰的車(chē)道線(xiàn)保持相似的曲率,因此可以利用全局的結(jié)構(gòu)信息來(lái)盡可能的恢復(fù)被遮擋的車(chē)道線(xiàn)[17],通過(guò)結(jié)構(gòu)損失函數(shù)進(jìn)行約束車(chē)道線(xiàn)的全局結(jié)構(gòu)信息,其定義如下:
首先在車(chē)道圖像輸入后需要對(duì)柵格進(jìn)行分類(lèi)操作,分類(lèi)損失函數(shù)定義為式(10):
其中 Ti,j,Pi,j分別表示第 i 條車(chē)道線(xiàn)在第 j 行的獨(dú)熱碼標(biāo)簽和預(yù)測(cè)概率,Pi,j的維度為X.
其次考慮在一條車(chē)道線(xiàn)中構(gòu)成車(chē)道線(xiàn)的點(diǎn)之間是連續(xù)的,計(jì)算所有相鄰預(yù)測(cè)點(diǎn)的L1范數(shù)和,抑制預(yù)測(cè)結(jié)果的分散,使檢測(cè)的車(chē)道線(xiàn)更加平滑,其相似度損失函數(shù)定義為式(11):
根據(jù)實(shí)際的車(chē)道線(xiàn)分析,大多數(shù)車(chē)道線(xiàn)都是直線(xiàn),故使用二階差分方程來(lái)進(jìn)一步約束車(chē)道線(xiàn)的形狀,實(shí)現(xiàn)語(yǔ)義上的車(chē)道線(xiàn)檢測(cè),如被遮擋部分,其形狀損失函數(shù)定義為式(12):
最后垂直車(chē)道線(xiàn)范圍是通過(guò)逐行預(yù)測(cè)車(chē)道線(xiàn)是否通過(guò)當(dāng)前行來(lái)確定的.使用Softmax 損失函數(shù)(Softmax+交叉熵?fù)p失函數(shù)),如式(13):
其中vj表示第j 行存在車(chē)道線(xiàn)的概率,yjgt為第j 行是否存在車(chē)道線(xiàn)的標(biāo)簽.
綜上所述,本文所使用的損失函數(shù)定義為:
其中λ,μ,γ 為損失系數(shù),訓(xùn)練中分別初始化為λ =0.6,μ = 0.2,γ = 0.2.
2.1.1 實(shí)驗(yàn)數(shù)據(jù)集與設(shè)備
為驗(yàn)證本文所提出的方法,分別在TuSimple[32]和CULane 兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證.TuSimple 是一個(gè)廣泛使用的高速公路駕駛場(chǎng)景數(shù)據(jù)集,其場(chǎng)景較為簡(jiǎn)單.CULane 數(shù)據(jù)集環(huán)境較復(fù)雜,有9 個(gè)不同的場(chǎng)景.兩個(gè)數(shù)據(jù)集的詳細(xì)信息如表1所示.實(shí)驗(yàn)中使用Python 3.7 作為開(kāi)發(fā)語(yǔ)言,使用PaddlePaddle 2.1.2 作為深度學(xué)習(xí)框架.硬件配置為:4 核Intel(R)Xeon(R)Gold 6271C CPU @ 2.60GHz、32GB RAM、顯卡Telsa V100×4,顯存32GB.
表1 實(shí)驗(yàn)數(shù)據(jù)集Tab.1 Datasets of experiments
關(guān)于實(shí)驗(yàn)數(shù)據(jù)集的車(chē)道線(xiàn)標(biāo)注如圖6 所示,其中第一行為T(mén)usimple 數(shù)據(jù)集,其余均為CULane 數(shù)據(jù)集.
圖6 數(shù)據(jù)原圖與標(biāo)注Fig.6 Original datasets with annotation
2.1.2 算法評(píng)價(jià)標(biāo)準(zhǔn)
對(duì)于Tusimple數(shù)據(jù)集,使用官方[32]的評(píng)價(jià)指標(biāo),準(zhǔn)確率計(jì)算公式如式(15):
其中,Npred是預(yù)測(cè)車(chē)道點(diǎn)的數(shù)量,Ngt是標(biāo)記車(chē)道點(diǎn)的數(shù)量,如果預(yù)測(cè)的點(diǎn)與標(biāo)簽的距離在20個(gè)像素點(diǎn)以?xún)?nèi)即認(rèn)為預(yù)測(cè)結(jié)果正確.
對(duì)于CULane 數(shù)據(jù)集,采用SCNN 所使用的評(píng)價(jià)指標(biāo),將車(chē)道標(biāo)記視為一條寬度為30 像素的線(xiàn),取預(yù)測(cè)車(chē)道線(xiàn)與標(biāo)簽之間的交并比(IoU),對(duì)于IoU 大于0.5的被認(rèn)為是正確的預(yù)測(cè),其F1-measure計(jì)算如式(16):
示真陽(yáng)性率即被正確預(yù)測(cè)的車(chē)道點(diǎn)的數(shù)量,同理FP表示假陽(yáng)性率,F(xiàn)N表示假陰性率.
2.1.3 實(shí)驗(yàn)的詳細(xì)參數(shù)配置
訓(xùn)練圖像尺寸為560 × 1000,原始數(shù)據(jù)通過(guò)隨機(jī)縮放、旋轉(zhuǎn)、顏色抖動(dòng)和水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng).使用的優(yōu)化器為AdamW,權(quán)重衰減率設(shè)置為0.01,使用余弦衰減學(xué)習(xí)率,在前30 輪中,學(xué)習(xí)率從4 ×10-4增加到4 × 10-3,在剩余的輪次中學(xué)習(xí)率衰減至4 × 10-5,λ,μ,γ 為損失系數(shù)分別設(shè)為 0.6,0.2,0.2,批大小設(shè)置為64,對(duì)于TuSimple數(shù)據(jù)集訓(xùn)練200輪,CULane 數(shù)據(jù)集訓(xùn)練300 輪,除消融實(shí)驗(yàn)外,參數(shù)設(shè)置在所有實(shí)驗(yàn)中都相同.
2.2.1 全局感知器的層數(shù)與柵格編碼長(zhǎng)度
在研究全局感知器對(duì)空間特征的影響過(guò)程中,設(shè)置柵格編碼長(zhǎng)度為28,使用不同數(shù)量的感知機(jī)層比較測(cè)試的準(zhǔn)確率.實(shí)驗(yàn)結(jié)果如圖7所示,從圖中可以看出,當(dāng)MLP模塊的層數(shù)小于16時(shí)測(cè)試的準(zhǔn)確率隨層數(shù)增加而提高,當(dāng)大于16 層時(shí),準(zhǔn)確率因過(guò)擬合而降低.因此本文中的模型將MLP 的層數(shù)設(shè)置為16.
圖7 全局感知器層數(shù)對(duì)準(zhǔn)確率的影響Fig.7 Effects of glocal percetron layers
為了研究柵格編碼長(zhǎng)度對(duì)車(chē)道線(xiàn)結(jié)構(gòu)特征以及模型推理效率的影響,設(shè)置全局感知器層數(shù)為16,對(duì)多個(gè)編碼長(zhǎng)度分別實(shí)驗(yàn),驗(yàn)證其準(zhǔn)確率,其結(jié)果如圖8 所示,從圖中可知柵格編碼長(zhǎng)度小于28時(shí),準(zhǔn)確率隨編碼長(zhǎng)度增加穩(wěn)步提高,編碼長(zhǎng)度為大于28時(shí)準(zhǔn)確率基本保持穩(wěn)定,可見(jiàn)此時(shí)模型表達(dá)力已達(dá)最優(yōu),故柵格編碼長(zhǎng)度為28.
圖8 柵格編碼長(zhǎng)度對(duì)準(zhǔn)確率影響Fig.8 Effects of griding embeding lengths
2.2.2 局部感知器有效性驗(yàn)證
在驗(yàn)證局部感知器的有效性的實(shí)驗(yàn)中,對(duì)訓(xùn)練與推理階段是否使用局部感知器分別設(shè)置三組對(duì)照實(shí)驗(yàn),算法組合與實(shí)驗(yàn)結(jié)果如表2所示,由結(jié)果可知在訓(xùn)練階段加入gConv 模塊,推理結(jié)果的準(zhǔn)確率提高至96.76%,與不加gConv模塊相比,準(zhǔn)確率提高2.38%;而在推理階段加入gConv 模塊推理速度大幅降低,推理準(zhǔn)確率沒(méi)有提升,由此可見(jiàn)對(duì)模型進(jìn)行重參數(shù)化設(shè)計(jì)可以兼顧推理速度和準(zhǔn)準(zhǔn)確率.需要注意的是為了與其他模型比較,推理速度的實(shí)驗(yàn)結(jié)果在GPU為1080Ti的設(shè)備上計(jì)算得到.
表2 局部感知器對(duì)性能的影響Tab.2 Effects of local perceptron
2.2.3 各模型速度與準(zhǔn)確率的對(duì)比
在Tusimple 數(shù)據(jù)集中,選用5 個(gè)模型(Res18-Seg[33],SCNN[4],PloyLaneNet[18],F(xiàn)ASTResNet18[17],LSTR[5])推理速度的統(tǒng)計(jì)量為每秒可處理圖像的幀數(shù)(FPS),根據(jù)文獻(xiàn)[17-18]的相關(guān)說(shuō)明所選用的對(duì)比模型的推理速度均在GPU 為1080Ti 的設(shè)備上處理得到,與本文模型測(cè)試推理速度的設(shè)備規(guī)格相同.實(shí)驗(yàn)結(jié)果如表3 所示,結(jié)果顯示本文模型在準(zhǔn)確率優(yōu)于其他五種模型的同時(shí),推理速度也具有很強(qiáng)的競(jìng)爭(zhēng)力.
表3 各模型的準(zhǔn)確率和推理速度Tab.3 Accuracy and speed of each model
為研究本文模型的泛化能力,在更寬泛的數(shù)據(jù)集CULane 上進(jìn)行訓(xùn)練預(yù)測(cè),分別使用8 個(gè)模型(SCNN[4],ERFNet-E2E[34],F(xiàn)astDraw[16],SAD[35],UFASTResNet34[17],UFASTResNet18[17],ER-FNet-IntRA-KD[36],CurveLanesNAS-S[37])在 CULane 數(shù) 據(jù)集上的實(shí)驗(yàn)結(jié)果與本文模型的實(shí)驗(yàn)結(jié)果對(duì)比,各模型的準(zhǔn)確率和推理速度的實(shí)驗(yàn)結(jié)果如表4 所示,其中(-)表示數(shù)據(jù)不可用,準(zhǔn)確率分為整體(Total)準(zhǔn)確率和其余9 個(gè)不同場(chǎng)景(Normal,Crowded,Dazzle,shadow,No-line,Arrow,Curve,Cross,Night)的子類(lèi)準(zhǔn)確率,場(chǎng)景類(lèi)別為十字路口(即Cross)時(shí)評(píng)測(cè)指標(biāo)為假陽(yáng)性率FN,數(shù)值越小越好,其余類(lèi)的評(píng)測(cè)指標(biāo)為F1-measure,從表中的數(shù)據(jù)可知,本文模型雖然在擁擠、曲線(xiàn)等環(huán)境中的效果較差,但在普通、炫光、陰影、夜間和十字路口等場(chǎng)景中效果更好,整體的檢測(cè)準(zhǔn)確率相較于其他模型達(dá)到了最優(yōu),且獲得了最快的推理速度.
表4 各模型在CULane數(shù)據(jù)集上的準(zhǔn)確率和推理速度Tab.4 Accuracy and speed of each model on CULane
CULane 數(shù)據(jù)集上的車(chē)道線(xiàn)檢測(cè)結(jié)果如圖9 所示,第一列為本文模型的預(yù)測(cè)結(jié)果,第二列為UFASTResNet18 模型的預(yù)測(cè)結(jié)果,從結(jié)果中可以看出:在結(jié)構(gòu)損失函數(shù)的約束下,檢測(cè)的車(chē)道線(xiàn)更加平滑,對(duì)于遮檔部分的語(yǔ)義車(chē)道線(xiàn)也有較好的預(yù)測(cè).
圖9 在CULane數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.9 Experimental result on CULane
本文提出了一種利用MLP 網(wǎng)絡(luò)進(jìn)行車(chē)道線(xiàn)檢測(cè)的新算法.該算法將MLP 網(wǎng)絡(luò)應(yīng)用于長(zhǎng)線(xiàn)型預(yù)測(cè)任務(wù),利用MLP 網(wǎng)絡(luò)提取全局結(jié)構(gòu)信息,提高模型的泛化性,同時(shí)結(jié)合組卷積,使用不同感受野的卷積核提取局部信息,提高了模型的推理準(zhǔn)確率,實(shí)驗(yàn)表明MLP 進(jìn)行長(zhǎng)線(xiàn)型任務(wù)預(yù)測(cè)時(shí)有較好的全局特征提取能力,本文的模型在提高準(zhǔn)確率的同時(shí)保持著較高的推理速度,根據(jù)實(shí)驗(yàn)結(jié)果,模型對(duì)炫光、夜間等環(huán)境的檢測(cè)效果有著較為明顯的提高,為車(chē)道保持輔助系統(tǒng),車(chē)道偏離預(yù)警以及高級(jí)別的智能駕駛輔助系統(tǒng)提供了更多的選擇.為使模型更具實(shí)用性,進(jìn)一步簡(jiǎn)化模型結(jié)構(gòu),提高復(fù)雜環(huán)境的兼容性是下一步工作的重點(diǎn).