楊浩杰,王璐,楊省偉
(1. 鐵道警察學(xué)院網(wǎng)絡(luò)信息中心,河南 鄭州 450053;2. 鐵道警察學(xué)院圖像與網(wǎng)絡(luò)偵查系,河南 鄭州 450053;3. 河南質(zhì)量工程職業(yè)學(xué)院計算機技術(shù)學(xué)院,河南 平頂山 467000)
隨著我國經(jīng)濟和社會的發(fā)展,汽車作為主要的交通工具步入了千家萬戶,城市交通擁堵等問題愈發(fā)嚴重。雖然我國已經(jīng)采取機動車限行、提高停車費、車牌搖號等措施限制城市的汽車總量,但卻難以從根本上解決城市交通擁堵的問題[1]。在汽車總量大、交通事故頻發(fā)的背景下,如何通過相關(guān)的技術(shù)手段在一定程度上緩解道路交通壓力成了學(xué)者們重要的研究方向。道路目標檢測是保障道路交通安全的關(guān)鍵技術(shù),在當前智慧交通的應(yīng)用大背景下,道路交通場景的繁雜性以及道路目標的多樣化,給道路目標的檢測帶來了困難。在復(fù)雜場景下,密集物體相互遮擋以及小目標的檢測是影響檢測精度的關(guān)鍵因素。解決目標檢測過程對中小目標及遮擋目標的誤檢和漏檢問題,是當前目標檢測的研究熱點[2]。
傳統(tǒng)的目標檢測方法在圖像檢測方面彰顯了獨特的優(yōu)勢,能夠在一定程度上實現(xiàn)對道路交通目標的有效檢測。但由于道路交通場景中目標尺度分布的特殊性和復(fù)雜多變性,傳統(tǒng)的基于手工特征的目標檢測方法和經(jīng)典的深度學(xué)習(xí)目標檢測方法在實際道路交通場景中的目標檢測應(yīng)用上還存在著一定的困難,主要表現(xiàn)為無法提取到能夠適用于道路多目標檢測的有效特征,從而影響目標檢測的準確性。目前,針對智慧公安及智慧交通領(lǐng)域中道路目標檢測實際應(yīng)用需求,如何使用更具適用性的目標檢測方法從復(fù)雜的道路交通場景中提取出更有效的特征并更精準地檢測出道路目標,成了道路多目標檢測中一個亟待解決的問題。
文章針對道路目標精準檢測中的技術(shù)難點,以當前先進的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)為基礎(chǔ),研究并提出了一種基于特征融合的特征學(xué)習(xí)和目標檢測方法,為當前復(fù)雜交通環(huán)境下的道路目標檢測問題提供一些技術(shù)參考。
在當前的視覺圖像處理領(lǐng)域,尤其是道路交通場景圖像中,很多使用深度神經(jīng)網(wǎng)絡(luò)方法的場景都是在同一尺寸感受野的單一尺度上進行特征的提取和學(xué)習(xí)的。這種方法具有一定的可取之處,但在道路交通場景繁雜以及圖像上下文結(jié)構(gòu)信息復(fù)雜的視頻圖像場景中,單一尺度的特征學(xué)習(xí)方法表現(xiàn)出了一定的局限性[3]。因此,為了更進一步地提高對道路交通場景各類復(fù)雜多目標特征提取的性能,文章提出了一種基于多尺度特征融合的道路目標特征學(xué)習(xí)方法。該方法通過多尺度方式的特征表達,可以提升道路目標特征的學(xué)習(xí)和表達能力,進而也能夠提高網(wǎng)絡(luò)模型對圖像上下文結(jié)構(gòu)信息的捕獲能力。
基于多尺度特征融合的道路目標特征學(xué)習(xí)模型如圖1 所示。
圖1 基于多尺度特征融合的目標特征學(xué)習(xí)模型
從圖中可以看出,該目標特征學(xué)習(xí)模型主要分為三個部分,即多尺度特征提取模塊、多尺度特征融合模塊和多尺度特征優(yōu)化模塊。
此模塊是為了解決單一尺度提取輸入數(shù)據(jù)特征時所表現(xiàn)出的提取特征表達能力不足的問題而設(shè)計的。在這種多尺度卷積核并聯(lián)結(jié)構(gòu)中,每一個卷積核具有一個與其他卷積核不同的尺寸,可以用來對輸入圖像數(shù)據(jù)在該尺度卷積核上進行一次特征的提取,而不同尺寸的卷積核則可以同時對輸入圖像數(shù)據(jù)進行并行式的特征提取,從而獲取到輸入圖像數(shù)據(jù)的不同尺度的特征。在多尺度特征提取的設(shè)計上,可以采用1×1 卷積核、3×3 卷積核、5×5卷積核、7×7 卷積核以及9×9 卷積核的不同卷積核尺寸。同時使用五個不同尺度的卷積核,將會提取到五個不同尺度的圖像特征。
根據(jù)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計思想,需要使用非線性激活函數(shù)對網(wǎng)絡(luò)模型進行非線性激活,從而使其具有良好的非線性性能。設(shè)整個網(wǎng)絡(luò)的輸入圖像數(shù)據(jù)為X,并且該網(wǎng)絡(luò)模型包含多個卷積層,每個卷積層操作過程中的多尺度卷積核也都不相同,那么,各卷積層的帶有非線性激活函數(shù)的卷積操作表達式可以表示為:
在式(1)中,i代表某一卷積層的所有多尺度卷積核中的第i個卷積核,Wi表示第i個卷積核的權(quán)值參數(shù),Bi表示第i個卷積核的偏置參數(shù),σi表示第i個卷積核在卷積操作之后的非線性激活函數(shù)。而在卷積神經(jīng)網(wǎng)絡(luò)中,常使用的非線性激活函數(shù)是線性整流函數(shù)ReLU,因而,此處σi的表達式為:
上述式子中,x代表輸入到非線性激活函數(shù)中的卷積值。
在對輸入圖像數(shù)據(jù)進行多尺度特征提取之后,每個卷積層得到了n個卷積特征圖(n亦為該卷積層中不同的卷積核的數(shù)目)。然后文章對這n個卷積特征圖進行特征的融合操作和處理,即多尺度特征融合。在對這n個多尺度卷積特征圖進行融合的時候,將特征融合方法設(shè)計為:對各個不同尺度卷積核得到的不同特征圖進行疊加。疊加后的特征圖通道數(shù)等于多尺度特征提取過程中各個不同卷積核的總通道數(shù)。多尺度特征融合的原理如圖2所示。
圖2 基于多尺度的目標特征融合原理
對這n個由不同尺度卷積核所得到的卷積特征圖使用上述基于多尺度的特征融合方法,則有:
在式(4)中,i代表某一卷積層的所有多尺度卷積核中的第i個卷積核,X表示輸入數(shù)據(jù)。
在對輸入圖像數(shù)據(jù)進行多尺度特征提取的過程中,所使用的不同尺度的卷積核都有一定數(shù)量的通道數(shù),因此能從輸入圖像數(shù)據(jù)中提取到豐富的特征。然而,當各個不同尺度的卷積核都具有較多的通道數(shù)并且對這些卷積核并聯(lián)式地進行操作時,多尺度特征的進一步融合將會使融合后的通道數(shù)相當多。因此,文章使用1×1 的卷積核對其進行優(yōu)化處理。在具體的實現(xiàn)上,將1×1 的卷積核設(shè)計為少于特征融合后的特征通道數(shù),即可保證卷積操作之后的特征圖的通道數(shù)也相應(yīng)減少,而使用1×1 的卷積核又可以確保融合后的特征圖中所有的特征信息不會丟失。對多尺度特征融合后的特征圖進行優(yōu)化的表達式如下:
該式中的X表示輸入的圖像數(shù)據(jù),f(X)表示進行了多尺度特征融合后的輸出特征圖,W代表進行優(yōu)化的權(quán)值參數(shù),B代表進行優(yōu)化的偏置參數(shù),而σ則表示該卷積操作之后所使用的ReLU 非線性激活函數(shù)。
同時,針對上述基于多尺度的目標特征學(xué)習(xí)和提取方法,還可以進行級聯(lián)式的設(shè)計和使用。其表達式為:
式(6)所表示的級聯(lián)式的目標特征學(xué)習(xí)方法能夠更好地提取到原始圖像數(shù)據(jù)的特征,因此具備更好的表達性能。但在具體使用時,還需考慮卷積計算時的時間性能,尋求最為適中的設(shè)計模型和相關(guān)網(wǎng)絡(luò)參數(shù)。
文章基于當前經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)Faster-RCNN 模型,將所提出的基于多尺度的道路目標特征學(xué)習(xí)方法提取出的道路目標特征應(yīng)用到該模型中,充分利用基于多尺度方法所提取出的目標特征進而獲得更高效的表達,構(gòu)建更加高效的目標檢測方法和模型,更有效地實現(xiàn)對道路目標的檢測。
文章所使用的Faster-RCNN 目標檢測模型,是在原有Fast-RCNN 目標檢測模型的基礎(chǔ)上,使用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)代替Fast-RCNN 模型中的Selective Search(選擇性搜索)方法[4-5],即使用RPN 首先對圖像中的每個像素點生成錨框而形成的模型。當總共有n個錨框大小以及m個錨框縮放比例時,將會生成n×m個錨框。在卷積神經(jīng)網(wǎng)絡(luò)模型框架中對每個錨框進行判斷,過濾掉那些屬于背景的錨框,而對那些屬于目標的錨框進行進一步ROI(感興趣區(qū)域)池化以及邊框回歸處理等操作。圖3 為Faster-RCNN 目標檢測模型中的錨框選取。
圖3 Faster-RCNN 目標檢測模型中的錨框選取
實驗基于以上Faster-RCNN 目標檢測模型,在設(shè)計上將基于多尺度的目標特征學(xué)習(xí)方法所獲取到的目標特征輸出結(jié)果應(yīng)用到Faster-RCNN目標檢測模型的RPN 中,使用表達性能更強的多尺度特征融合后的目標特征進行下一步的目標檢測,進而從整體上達到更精準的目標檢測性能。
文章在Faster-RCNN 目標檢測模型的基礎(chǔ)上,提出的基于特征融合的目標檢測模型如圖4 所示。
圖4 基于特征融合的目標檢測模型
實驗使用KITTI 數(shù)據(jù)集所提供的數(shù)據(jù)圖像對文章所提出的方法進行驗證。KITTI 數(shù)據(jù)集是國際上當前使用最為頻繁,并且具有較完備道路交通場景的計算機視覺相關(guān)算法評估的道路交通數(shù)據(jù)集。該數(shù)據(jù)集包含城市市區(qū)、公路、村莊等實景采集圖像,每張圖像中都包含不同類別的車輛和形態(tài)各異的行人等諸多復(fù)雜道路目標。在實驗的具體設(shè)計上,選取KITTI 數(shù)據(jù)集中具有代表性的圖像組成訓(xùn)練集和測試集。其中,組成訓(xùn)練集的圖片共有7 481 張,組成測試集的圖片共有3 600 張。使用文章所提出的方法,將基于多尺度的目標特征融合方法提取出的特征輸入到Faster-RCNN網(wǎng)絡(luò)中,分析驗證該方法用于Faster-RCNN 網(wǎng)絡(luò)后的目標檢測性能。并在此基礎(chǔ)上,分別采用Faster-RCNN網(wǎng)絡(luò)和基于多尺度特征融合的Faster-RCNN 網(wǎng)絡(luò)對其進行評測。實驗平臺電腦配置為Windows7 64位,CPU i7 6700K,內(nèi)存16G,顯卡GTX1080(8G顯存)。
表1 為兩種方法下對平均精度均值mAP 這一目標檢測性能指標的對比統(tǒng)計分析。
表1 兩種方法下的道路目標檢測性能統(tǒng)計
從表1 中可以看出,使用Faster-RCNN 網(wǎng)絡(luò)模型,對道路交通圖像中的各類目標車輛的檢測準確率為65.56%,對目標行人的檢測準確率為63.12%。而使用文章所提出的方法,對各類目標車輛以及目標行人的檢測準確率均稍有提升。這說明文章所提出的方法通過使用不同尺度的卷積核對原始目標圖像進行特征的提取,并對各種不同尺度下所提取的特征進行融合和優(yōu)化,能夠更有效地得到道路交通目標的表達特征,通過所獲得的更具豐富表達能力的目標特征,能達到相對更高的目標檢測精度。
為進一步驗證所提出方法的有效性,分別開展3 次對比實驗,對mAP 性能指標進行對比統(tǒng)計分析,如表2 所示。
表2 兩種方法下的3 次對比實驗性能統(tǒng)計
從表2 中可以看出,在3 次獨立的對比實驗中,文章所提出的方法在各類目標車輛以及目標行人的檢測準確率上相對原始的Faster-RCNN 網(wǎng)絡(luò)模型均有一定的提升,說明該方法在道路交通目標檢測方面具有一定的適用性和可行性。
同時,為了驗證多尺度特征對道路交通目標特征學(xué)習(xí)和檢測的性能影響,文章選取了不同的卷積核尺寸組合作為多尺度特征融合進行對比實驗,所獲得的mAP 性能指標結(jié)果如表3 所示。
表3 多尺度特征對道路交通目標檢測的性能影響
從表3 中可以看出,不同卷積核尺寸的特征融合對道路交通目標特征學(xué)習(xí)和檢測也有不同的性能影響。在實驗的設(shè)計范圍內(nèi),所融合的不同尺寸的卷積核越多,網(wǎng)絡(luò)的性能就越好,所檢測的道路交通目標的效果也就越好。這表明不同尺寸的卷積核能夠更好地提取到局部或全局等不同結(jié)構(gòu)空間的特征,這為之后的目標檢測提供了更高效的特征表達,也充分證明了文章所提出的方法的有效性。
然而,從表2 中還可以看出,在對目標圖像進行特征提取和檢測的過程中,文章所提出的方法的平均檢測時間比Faster-RCNN 方法的更長,反映出文章所提出的基于特征融合的目標檢測方法在具體的實現(xiàn)過程中耗費了一定的時間,而這增加了網(wǎng)絡(luò)模型的計算成本。這種時間上的消耗是文章所提出的方法有待優(yōu)化和改進的地方。
道路交通場景中目標尺度分布的特殊性和復(fù)雜多變性,使傳統(tǒng)的基于手工特征的目標檢測方法和經(jīng)典的深度學(xué)習(xí)目標檢測方法在實際道路交通場景中的目標檢測應(yīng)用上存在一定的困難。文章針對這一問題,以當前先進的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)為背景,以特征融合為主要研究對象,在分析探討了基于特征融合的特征學(xué)習(xí)方法的基礎(chǔ)上,進一步提出了基于特征融合的道路目標檢測方法,并通過模型框架的構(gòu)建,對道路目標檢測技術(shù)進行了深入研究,為道路目標檢測領(lǐng)域相關(guān)理論的進一步研究提供了思路,也為構(gòu)建安全的道路交通出行環(huán)境提供了技術(shù)支持。