陳暄,吳吉義
研究與開發(fā)
基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的車輛特征識別算法研究
陳暄1,吳吉義2,3
(1.浙江工業(yè)職業(yè)技術(shù)學(xué)院,浙江 紹興 312000;2.浙江省人工智能學(xué)會,浙江 杭州 310027;3.浙江大學(xué)智能教育研究中心,浙江 杭州 310027)
針對道路場景圖像中不同距離目標車輛特征存在識別效果弱、精度低的問題,提出一種基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的車輛特征識別算法。首先,采用基于PAN模型的多尺度輸入獲取不同距離的目標車輛特征;其次,在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中加入多池化、BN層和Leaky ReLU激活函數(shù)改進網(wǎng)絡(luò)模型的性能,通過引入混合注意力機制,集中關(guān)注車輛圖像中的重要特征和區(qū)域,從而增強了網(wǎng)絡(luò)模型的泛化能力;最后,通過構(gòu)建多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)完成對車輛的特征效果識別。仿真實驗結(jié)果表明,在單一場景的BIT-Vehicle數(shù)據(jù)庫中,本文算法相比CNN、R-CNN、ABC-CNN、Faster R-CNN、AlexNet、VGG16和YOLOV8在單一目標和多目標識別率方面分別提高了16.75%、10.9%、4%、3.7%、2.46%、1.3%、1%和17.8%、10.5%、2.5%、3.8%、2.7%、1.1%、1.3%,在復(fù)雜場景的UA-DETRAC數(shù)據(jù)庫中,本文算法相比其他算法在不同距離目標車輛識別中獲得了更加精確的效果。
車輛識別;卷積神經(jīng)網(wǎng)絡(luò);多尺度輸入
隨著信息技術(shù)和車聯(lián)網(wǎng)技術(shù)的快速發(fā)展,車輛自動駕駛系統(tǒng)和交通管理系統(tǒng)都需要高效準確全天候的車輛識別系統(tǒng)進行輔助和管理。而卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)憑借出色的性能在車輛特征圖像識別領(lǐng)域獲得巨大的成功[1-2]。學(xué)者以CNN為主要技術(shù)手段在車輛識別方面展開深入的研究。有的學(xué)者關(guān)注CNN應(yīng)用結(jié)果方面的研究,如文獻[3]提出基于背景分割法卷積神經(jīng)網(wǎng)絡(luò)的車輛識別方法,它將輸入視頻分割成與前景或背景相對應(yīng)的區(qū)域降低CNN的計算量并提高識別精度;文獻[4]提出基于CNN的車牌識別系統(tǒng),該系統(tǒng)在多行、傾斜和多字體車牌方面識別率達到了98.13%;文獻[5]提出基于CNN 的自動駕駛車輛的多模態(tài)融合識別系統(tǒng),在高精度和適應(yīng)性方面具有不錯的效果;文獻[6]提出無須標注車輛樣本的CNN車輛檢測和分類方法,該類方法的檢測準確率約為98.5%。以上方法獲得了較好的識別率,但是如何降低識別模型的復(fù)雜度,優(yōu)化識別時間依然是當(dāng)前應(yīng)用領(lǐng)域的主要問題。有的學(xué)者針對CNN自身性能提升開展研究,如采用粒子群算法[7-8]、人工蜂群算法[9]、鯨魚優(yōu)化算法[10]等對CNN的參數(shù)進行優(yōu)化,雖然能夠提高網(wǎng)絡(luò)性能,但這些元啟發(fā)式算法自身性能有限,增加了模型計算量。還有的學(xué)者針對快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)開展研究,如文獻[11]對Faster R-CNN模型在車輛特征識別方面的應(yīng)用進行了綜述,肯定了該模型的識別效果;文獻[12]提出在不同的天氣環(huán)境中使用該模型進行車輛目標識別檢測,實驗結(jié)果表明該算法在真實環(huán)境中也具有較為不錯的效果;文獻[13]采用該模型進行車輛特征識別,通過VTTI數(shù)據(jù)庫展示較好的識別效果,但消耗了大量的計算時間;文獻[14]采用Faster R-CNN模型解決部分外形相似的車輛之間的誤檢問題,該算法具有較高的精確度、較小的誤檢率和更好的魯棒性;文獻[15]使用Faster R-CNN模型對車輛目標圖像進行多尺度的特征提取,實驗結(jié)果表明能夠獲得較為精確的識別效果但需要較多的時間。以上方法的識別率均獲得提升,但依然存在訓(xùn)練復(fù)雜、無法適應(yīng)不同尺寸目標的問題。
基于此,提出一種基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的車輛特征識別算法,它使用多尺度圖像處理技術(shù)獲取不同尺度的車輛圖像特征,利用多池化(multi-pool)、批歸一化(batch normalization,BN)層和Leaky ReLU激活函數(shù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),引入混合注意力機制提高模型的泛化效果,通過仿真實驗驗證不同場景的車輛特征識別性能。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在圖像處理過程中數(shù)據(jù)量較大,圖像數(shù)字化處理無法保留原來的圖像特征,使得圖像識別率降低。CNN憑借特有的權(quán)重共享、權(quán)重數(shù)量較少等特點能夠有效地提升圖像處理的識別率而受到廣泛應(yīng)用。它主要包括輸入層、卷積層、池化層、全連接層和輸出層。本文僅對中間3層進行簡單介紹。
(1)卷積層
卷積層的作用將原始圖像輸入CNN中進行圖像特征提取。在卷積層中設(shè)置多種卷積核,按照設(shè)定的卷積核大小對原始圖像進行窗口滑動提取圖像特征,再利用激活函數(shù)對輸出結(jié)果進行非線性變化,從而獲得非線性特征圖。
(2)池化層
池化層的作用是對卷積層輸出的特征圖像進行降維,減小特征圖的空間尺寸,降低信息的數(shù)據(jù)維度,從而減少計算量。
(3)全連接層
全連接層的作用是將一個特征空間線性變換到另一個特征空間中。它將經(jīng)過卷積層、池化層處理獲得的特征整合在一起,然后根據(jù)非線性激活函數(shù)自由調(diào)節(jié)學(xué)習(xí)過程,從而完成對目標的識別分類。
針對現(xiàn)有CNN在車輛特征識別中存在不同距離目標車輛識別精度低、圖像魯棒性弱的問題,從4個方面進行優(yōu)化,首先通過多尺度圖像處理獲得精確的車輛圖像特征,其次利用改進的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提升模型識別能力,接著引入混合注意力機制加強模型泛化能力,最后構(gòu)建多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于車輛特征識別。
傳統(tǒng)的CNN主要通過逐層抽象方式提取目標特征,其中感受視野范圍是獲取目標特征的關(guān)鍵。但是在復(fù)雜道路場景下的車輛識別中,如果視野太小,則只能觀察到局部特征,存在丟失車輛關(guān)鍵信息的可能;反之,可能會觀察到周圍場景很多無效的信息,增大圖像特征提取的難度。采用多尺度圖像處理能夠使得網(wǎng)絡(luò)對不同尺度的物體的體積、紋理、結(jié)構(gòu)等進行感知,極端天氣、街道建筑物、光線等復(fù)雜場景會增大車輛圖像提取難度。采用多尺度圖像處理能夠?qū)Σ煌嚯x的車輛目標實現(xiàn)較好的識別效果。本文使用路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)模型[16]獲取車輛圖像特征信息,利用該模型自下而上的路徑技術(shù)增加整個特征層次結(jié)構(gòu),從而獲得不同尺度的圖像大小特征,提高模型的魯棒性。PAN模型如圖1所示。
圖1 PAN模型
圖2 改進的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
為了能夠更好地發(fā)揮CNN在車輛識別中的效果。本文在卷積層依次加入多池化、BN層和Leaky ReLU激活函數(shù),通過這些措施提升CNN的性能和識別準確率。改進的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
(1)采用多池化結(jié)構(gòu)
在車輛特征識別中,為了更好地獲得目標特征及感知能力,本文借助了YOLOV3中空間金字塔池化(spatial pyramid pooling,SPP)架構(gòu)的設(shè)計思想。在SPP架構(gòu)的4個分支結(jié)構(gòu)中,第一個分支保留原始輸入的信息,即不進行池化或降采樣,第二、第三、第四分支池化核分別設(shè)定為5×5、9×9及13×13的最大池化,經(jīng)過池化處理后的特征圖像尺寸和深度保持不變。通過池化層的設(shè)置方式能夠避免CNN中需要固定尺寸的濾波器,對不同任意尺度的特征進行采樣和池化以獲得不同尺度目標的信息。結(jié)合復(fù)雜場景中的車輛特征信息,本文利用SPP架構(gòu)對多尺度的輸入圖像進行處理,為當(dāng)前的網(wǎng)絡(luò)模型提供更高的靈活性和魯棒性。
(2)引入Leaky ReLU激活函數(shù)
傳統(tǒng)CNN一般使用Sigmoid 或者ReLU激活函數(shù),但是這些函數(shù)在訓(xùn)練過程中容易出現(xiàn)神經(jīng)元“死亡現(xiàn)象”,導(dǎo)致在反向傳播中出現(xiàn)梯度消失的情況。因此使用Leaky ReLU激活函數(shù)(),它是一種修正線性單元激活函數(shù)的變體,它解決了傳統(tǒng)激活函數(shù)的零梯度問題。
(3)加入BN層
為了能夠更好地在模型后期獲得分類結(jié)果,在CNN中加入BN層用來處理訓(xùn)練過程中特征數(shù)據(jù)分布發(fā)生改變的問題。它通過對卷積層的輸入進行歸一化,使輸入數(shù)據(jù)的均值接近0、標準差接近1,從而減少內(nèi)部協(xié)變量偏移的影響,使得網(wǎng)絡(luò)更容易訓(xùn)練,有助于梯度的傳播和提高反向傳播過程中的數(shù)值穩(wěn)定性,從而加快了模型的收斂速度。
傳統(tǒng)的CNN主要以大量的訓(xùn)練樣本為基礎(chǔ),但訓(xùn)練數(shù)據(jù)較少導(dǎo)致無法有效地提取樣本特征,造成網(wǎng)絡(luò)性能下降。為了提高輸入特征數(shù)據(jù)的感知和理解能力,增強網(wǎng)絡(luò)對重要特征和區(qū)域的關(guān)注,將通道注意力機制和空間注意力機制組成混合注意力機制引入車輛識別中。
(1)通道注意力機制
通道注意力機制主要利用特征通道間的關(guān)系生成通道注意圖,并為顯著目標分配更大的權(quán)重,從而提高模型的性能。其過程是對輸入圖像特征進行最大池化和平均池化操作,并通過聚合獲得特征映射的空間信息。
(2)空間注意力機制
空間注意力機制是一種用于圖像或特征圖處理的注意力機制,它的主要目標是加權(quán)關(guān)注圖像或特征圖中的重要區(qū)域,以便更有效地處理視覺信息,它通過計算每一個空間位置的注意力權(quán)重,使得網(wǎng)絡(luò)聚焦在圖像特定區(qū)域重要部分。
結(jié)合以上對卷積神經(jīng)網(wǎng)絡(luò)的改進措施,本文提出一種多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。
圖3 多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖3所示的多層次卷積神經(jīng)網(wǎng)絡(luò)由3個相對獨立的改進卷積神經(jīng)網(wǎng)絡(luò)、1個混合注意力機制、1個全連接層和1個分類層組成。第一個改進卷積神經(jīng)網(wǎng)絡(luò)感受野的大小為67 pixel×67 pixel,采用3×3、5×5、7×7的池化核;第二個改進卷積神經(jīng)網(wǎng)絡(luò)感受野的大小為131 pixel×131 pixel,采用5×5、7×7、9×9池化核;第三個改進卷積神經(jīng)網(wǎng)絡(luò)感受野的大小為195 pixel×195 pixel,采用7×7、9×9、11×11池化核。3個改進卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與混合注意力機制的融合關(guān)系采用文獻[17]的設(shè)計思想進行構(gòu)建,表達式如下:
為了更好地驗證本文算法的識別效果,搭建了基于TensorFlow深度學(xué)習(xí)框架,實驗硬件方面采用酷睿I5的CPU,內(nèi)存為16 GB DDR,硬盤為1 TB,軟件環(huán)境為Windows10操作系統(tǒng),利用Spyder編譯工具進行Python編程。對比算法為CNN、區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region- CNN,R-CNN)、人工蜂群優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(artificial bee colony-CNN,ABC-CNN)[18]、Faster R-CNN[19]、AlexNet、VGG16和YOLOV8。在單一和復(fù)雜兩個場景下驗證本文算法的性能。
為了驗證本文算法的性能,將8種算法的精度進行了對比,8種算法的訓(xùn)練精度對比如圖4所示。圖4顯示隨著訓(xùn)練次數(shù)逐漸增加,8種算法的訓(xùn)練精度都呈現(xiàn)不同程度的上升趨勢。當(dāng)訓(xùn)練次數(shù)達到400時,本文算法率先趨近穩(wěn)定并始終保持平緩狀態(tài)。而CNN的訓(xùn)練精度在整個訓(xùn)練過程中一直處于上升趨勢且具有較為明顯的震蕩;R-CNN和ABC-CNN的精度上升趨勢較為平緩,且出現(xiàn)了微弱的震蕩;Faster R-CNN的精度在訓(xùn)練次數(shù)達到500后才出現(xiàn)較為平緩的現(xiàn)象;AlexNet和VGG16的精度在訓(xùn)練次數(shù)達到450后出現(xiàn)了較為平緩的現(xiàn)象;YOLOV8大致與本文算法的精度結(jié)果相當(dāng),但稍微低于本文算法。因此,縱觀整個訓(xùn)練過程,本文算法的精度優(yōu)于其他7種算法,證明了本文算法具有較為明顯的識別效果。
圖4 8種算法的訓(xùn)練精度對比
為了說明本文算法在單一車輛場景中的識別效果,使用文獻[20]提供的BIT-Vehicle數(shù)據(jù)集中的車輛圖片作為驗證本文算法的圖片庫,該數(shù)據(jù)庫一共包含轎車(sedan)、運動型多功能汽車(SUV)、卡車(truck)、公交車(bus)、小型公交車(microbus)和小型貨車(minivan)6種不同類型的車輛。將該數(shù)據(jù)庫中的9 850張圖片分為兩個部分,按照6:4分為訓(xùn)練數(shù)據(jù)集(5 910 張車輛樣本圖片)和測試數(shù)據(jù)集(3 490 張車輛圖片)。部分BIT-Vehicle數(shù)據(jù)集樣本如圖5所示。
圖5 部分BIT-Vehicle數(shù)據(jù)集樣本
8種算法的單一車輛識別率對比見表1。從表1發(fā)現(xiàn)這些算法對6種類型車輛的識別率都不相同,但是本文算法的優(yōu)勢較為明顯。從這6種類型的車輛圖片來看,周圍場景的顏色對車輛具有一定的影響,而本文算法的多尺度圖像處理降低了這些無效元素的影響,從而使得車輛的特征提取更加準確,它相比CNN、R-CNN、ABC-RNN、Faster R-CNN、AlexNet、VGG16和YOLOV8識別率分別提升了16.75%、10.9%、4%、3.7%、2.46%、1.3%和1%。8種算法的多目標車輛識別率對比見表2,本文算法相比單一車輛的識別率有所降低,主要是由于不同車輛處于同一個場景中使得特征提取過程受到了影響,同時外界光線、攝像角度、多目標車輛的重疊降低了識別率,但本文算法保持一定的優(yōu)勢,它相比CNN、R-CNN、ABC-RNN、Faster R-CNN、AlexNet、VGG16和YOLOV8識別率提升了17.8%、10.5%、2.5%、3.8%、2.7%、1.5%和1.1%。8種算法對隨機的1 000張數(shù)據(jù)庫圖片的識別時間對比見表3。從表3可以發(fā)現(xiàn),本文算法相比CNN、R-CNN具有明顯優(yōu)勢,相比ABC-CNN、Faster R-CNN、AlexNet和VGG16算法優(yōu)勢較為一般,而和YOLOV8算法時間幾乎相當(dāng),這說明了優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)由于結(jié)構(gòu)優(yōu)化導(dǎo)致識別時間有所增加,但總體效果影響不大。
表1 8種算法的單一車輛識別率對比
表2 8種算法的多目標車輛識別率對比
表3 8種算法對隨機的1 000張數(shù)據(jù)庫圖片的識別時間對比(單位:s)
召回率和準確率是衡量模型識別的重要方法,本文使用4種條件下的本文算法計算BIT-Vehicle數(shù)據(jù)集中6類不同車輛的準確?召回率PR進行對比。其中召回率和準確率的計算式如下:
圖6 不同條件下本文算法的6種車型PR
圖7 8種算法的6種車型PR
為了驗證復(fù)雜場景下的識別效果,選取交通數(shù)據(jù)集UA-DETRAC[21]作為本文模型的訓(xùn)練測試樣本,該數(shù)據(jù)集中包含了基于不同路側(cè)視角、不同時段和不同車輛擁堵度的車輛圖像。它滿足了場景復(fù)雜、數(shù)據(jù)規(guī)模大的要求。本文選取白天正面和夜晚側(cè)面作為識別場景進行研究。8種算法的白天和夜晚識別效果分別如圖8、圖9所示。
圖8和圖9分別展示了白天和晚間場景下的8種算法對車輛目標的識別效果,方框代表不同算法的識別效果。在白天道路正面圖像中,所有算法基本上都能夠檢測出車輛特征,但是本文算法相比其他算法能夠明顯獲取不同位置的車輛特征,降低了漏檢率和誤檢率,特別是道路圖像中的密集車輛,本文算法的識別優(yōu)勢比較明顯,如圖8(h)中遠處的目標依然能夠被識別,驗證了本文模型性能的優(yōu)越性。在晚間道路側(cè)向圖像中,8種算法的識別效果都呈現(xiàn)了不同程度的下降。從總體上看,本文算法在識別方面具有明顯的優(yōu)勢,當(dāng)目標與周圍的場景存在較小的差異,如圖9(h)中公共汽車左上角出現(xiàn)的5輛小轎車時,采用本文算法依然能夠獲得較好的識別結(jié)果。
圖8 8種算法的白天識別效果
綜上所述,通過理論闡述和仿真實驗說明了本文算法能有效提升車輛特征識別的效果。該模型能夠捕獲圖像中不同距離目標車輛的特征,降低交通場景對圖像特征的干擾,同時實現(xiàn)了對不同尺度的圖像特征進行采樣和池化,有效避免了神經(jīng)元的消失和梯度為0的缺點,提高了模型泛化能力,該網(wǎng)絡(luò)相比普通的卷積神經(jīng)網(wǎng)絡(luò),無論在應(yīng)用范圍還是自身性能結(jié)構(gòu)上都具有較好的優(yōu)勢。
圖9 8種算法的夜晚識別效果
本文提出了一種優(yōu)化的的卷積神經(jīng)網(wǎng)絡(luò)算法。該算法結(jié)合多尺度圖像處理、多池化結(jié)構(gòu)、BN層、Leaky ReLU激活函數(shù)、混合注意力機制等多種方法提高道路場景圖像中不同距離目標車輛特征的識別精度。目前,有關(guān)CNN在下一步研究主要體現(xiàn)在:模型結(jié)構(gòu)設(shè)計、跨域和跨模態(tài)應(yīng)用、弱監(jiān)督和無監(jiān)督學(xué)習(xí)、可解釋性和魯棒性、輕量級和移動端應(yīng)用、聯(lián)合學(xué)習(xí)和多任務(wù)學(xué)習(xí)等方面。筆者將在模型結(jié)構(gòu)設(shè)計和多任務(wù)學(xué)習(xí)方面繼續(xù)開展研究。
[1] ZHANG J P, WANG F Y, WANG K F, et al. Data-driven intelligent transportation systems: a survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2011, 12(4): 1624-1639.
[2] COLLINS R T, LIPTON A J, KANADE T. Introduction to the special section on video surveillance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 745-746.
[3] CHAROUH Z, EZZOUHRI A, GHOGHO M, et al. A resource-efficient CNN-based method for moving vehicle detection[J]. Sensors, 2022, 22(3): 1193.
[4] RANJITHKUMAR S, CHENTHUR PANDIAN S. Automatic license plate recognition system for vehicles using a CNN[J]. Computers, Materials & Continua, 2022, 71(1): 35-50.
[5] SHI R W, YANG S C, CHEN Y Y, et al. CNN-Transformer for visual-tactile fusion applied in road recognition of autonomous vehicles[J]. Pattern Recognition Letters, 2023, 166: 200-208.
[6] SATYANARAYANA G S R, DESHMUKH P, DAS S K. Vehicle detection and classification with spatio-temporal information obtained from CNN[J]. Displays, 2022, 75: 102294.
[7] SOON F C, KHAW H Y, CHUAH J H, et al. Hyper-parameters optimisation of deep CNN architecture for vehicle logo recognition[J]. IET Intelligent Transport Systems, 2018, 12(8): 939-946.
[8] 王上, 唐歡容. 一種基于混合粒子群優(yōu)化算法的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法[J]. 計算機應(yīng)用研究, 2023, 40(7): 2019-2024.
WANG S, TANG H R. Deep convolutional neural architecture search method based on hybrid particle swarm optimization algorithm[J]. Application Research of Computers, 2023, 40(7): 2019-2024.
[9] KIYMA? E, KAYA Y. A novel automated CNN arrhythmia classifier with memory-enhanced artificial hummingbird algorithm[J]. Expert Systems With Applications, 2023(213): 119162.
[10] GHASEMI DAREHNAEI Z, SHOKOUHIFAR M, YAZDANJOUEI H, et al. SI-EDTL: swarm intelligence ensemble deep transfer learning for multiple vehicle detection in UAV images[J]. Concurrency and Computation: Practice and Experience, 2022, 34(5): e6726.
[11] MAITY M, BANERJEE S, SINHA CHAUDHURI S. Faster R-CNN and YOLO based vehicle detection: a survey[C]//Proceedings of 2021 5th International Conference on Computing Methodologies and Communication (ICCMC). Piscataway: IEEE Press, 2021: 1442-1447.
[12] GHOSH R. On-road vehicle detection in varying weather conditions using Faster R-CNN with several region proposal networks[J]. Multimedia Tools and Applications, 2021, 80(17): 25985-25999.
[13] HSU S C, HUANG C L, CHUANG C H. Vehicle detection using simplified Fast R-CNN[C]//Proceedings of 2018 International Workshop on Advanced Image Technology (IWAIT). Piscataway: IEEE Press, 2018: 1-3.
[14] 寧俊, 王年, 朱明. 基于改進Faster R-CNN的車輛類型識別算法[J]. 安徽大學(xué)學(xué)報(自然科學(xué)版), 2021, 45(3): 26-33.
NING J, WANG N, ZHU M. Vehicle type recognition algorithm based on the improved Faster R-CNN[J]. Journal of Anhui University (Natural Sciences), 2021, 45(3): 26-33.
[15] LUO J Q, FANG H S, SHAO F M, et al. Multi-scale traffic vehicle detection based on Faster R-CNN with NAS optimization and feature enrichment[J]. Defence Technology, 2021, 17(4): 1542-1554.
[16] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.
[17] GAO X, WANG J F, ZHOU M Z. The research of resource allocation method based on GCN-LSTM in 5G network[J]. IEEE Communications Letters, 2023, 27(3): 926-930.
[18] ERKAN U, TOKTAS A, USTUN D. Hyperparameter optimization of deep CNN classifier for plant species identification using artificial bee colony algorithm[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(7): 8827-8838.
[19] ZHANG X L, CUI J, LIU H J, et al. Weed identification in soybean seedling stage based on optimized Faster R-CNN algorithm[J]. Agriculture, 2023, 13(1): 175.
[20] DONG Z, WU Y W, PEI M T, et al. Vehicle type classification using a semisupervised convolutional neural network[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 2247-2256.
[21] WEN L Y, DU D W, CAI Z W, et al. UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking[J]. Computer Vision and Image Understanding, 2020(193): 102907.
Research on vehicle feature recognition algorithm based on optimized convolutional neural network
CHEN Xuan1, WU Jiyi2,3
1.Zhejiang Industry Polytechnic College, Shaoxing312000,China 2.Zhejiang Federation of Artificial Intelligence, Hangzhou 310027, China 3.Intelligent Education Research Center,Zhejiang University, Hangzhou 310027, China
To address the issue of weak identification and low accuracy in recognizing features of target vehicles at different distances in road scene images, a vehicle feature recognition algorithm based on optimized convolutional neural network (CNN) was proposed. Firstly, a multi-scale input based on the PAN model was employed to capture target vehicle features at varying distances. Subsequently, improvements were made to the network model by incorporating multi-pool, batch normalization (BN) layers, and Leaky ReLU activation functions within the CNN architecture. Furthermore, the generalization ability of the network model was enhanced by introducing a hybrid attention mechanism that focuses on important features and regions in the vehicle image. Lastly, a multi-level CNN structure was constructed to achieve feature recognition for vehicles. Simulation experiment results conducted on the BIT-Vehicle database within a single scene show the proposed algorithm’s significant enhancements in single-object and multi-object recognition rates compared to CNN, R-CNN, ABC-CNN, Faster R-CNN, AlexNet, VGG16, and YOLOV8. Specifically, improvements of 16.75%, 10.9%, 4%, 3.7%, 2.46%, 1.3%, and 1% in single-object recognition, as well as 17.8%, 10.5%, 2.5%, 3.8%, 2.7%, 1.1%, and 1.3% in multi-object recognition, have been demonstrated by the proposed algorithm, respectively. Over the more complex UA-DETRAC datasets, more precise results have been also achieved by the proposed algorithm in recognizing target vehicles at various distances compared to other algorithms.
vehicle recognition, convolutional neural network, multi-scale input
The National Natural Science Foundation of China (No.61702151, No.61702320, No.61772334), The National Key Research and Development Program of China (No.2018YFB1003800), Zhejiang Provincial Philosophy and Social Sciences Planning Project (No.23NDJC369YB)
TP391.14
A
10.11959/j.issn.1000?0801.2023188
2023?06?25;
2023?10?10
吳吉義,cloudLab@139.com
國家自然科學(xué)基金資助項目(No.61702151,No.61702320,No.61772334);國家重點研發(fā)計劃項目(No.2018YFB100 3800);浙江省哲學(xué)社會科學(xué)規(guī)劃課題(No.23NDJC369YB)
陳暄(1979? ),男,浙江工業(yè)職業(yè)技術(shù)學(xué)院副教授,主要研究方向為云計算、人工智能。
吳吉義(1980? ),男,博士,浙江大學(xué)高級工程師,主要研究方向為服務(wù)計算、人工智能。