崔 瑞,賈子彥
(江蘇理工學(xué)院,江蘇 常州 213000)
隨著城市現(xiàn)代化、智慧化進(jìn)程不斷加快,城市車輛的使用也越來越普遍,監(jiān)控攝像隨處可見。與此同時,車輛的系統(tǒng)管理正在向智能化過渡。多攝像頭環(huán)境下的目標(biāo)車輛的檢測和跟蹤已經(jīng)日益引起高度重視,成為當(dāng)下的研究熱點。目前,智能視頻監(jiān)控主要有兩大關(guān)鍵技術(shù):一是對運動目標(biāo)的識別跟蹤;二是對目標(biāo)行為的定義[1-2]。
多攝像頭車輛識別與跟蹤是現(xiàn)代智能交通系統(tǒng)中研究的重點內(nèi)容。在多攝像頭的切換過程中,可能出現(xiàn)因目標(biāo)車輛的外形檢測發(fā)生變化導(dǎo)致錯檢、漏檢的情況。尤其是在十字路口等事故高發(fā)地點,監(jiān)控視頻背景復(fù)雜、目標(biāo)車輛遮擋等問題也對識別跟蹤的準(zhǔn)確度及誤檢率提出了巨大的挑戰(zhàn)[3-4]。
對于同一車輛在多攝像頭重疊監(jiān)控區(qū)域下的定位,不僅是區(qū)別于單一攝像頭車輛的識別與定位,而且也是多個攝像頭車輛的識別與定位的難點所在。對于同一車輛的識別既包括對同一車輛在不同攝像頭監(jiān)控區(qū)域下的匹配確定[5],同時也包括對車輛出現(xiàn)被遮擋狀態(tài)時的判斷,通過對車輛的行駛狀態(tài)和被遮擋情況的分析判斷,完成同一車輛在不同監(jiān)控區(qū)域下的連續(xù)識別與跟蹤。
針對上述問題,本文提出一種多攝像頭車輛實時跟蹤系統(tǒng)。該方法首先采用車輛檢測算法進(jìn)行車輛的識別,同時結(jié)合多個攝像頭之間的單應(yīng)性矩陣來確定多個攝像頭重疊區(qū)域下同一車輛的位置,然后結(jié)合HSV顏色空間和車輛特征來進(jìn)行車輛的匹配,提高車輛的識別匹配精度,最后將特征識別和全卷積網(wǎng)絡(luò)的跟蹤算法結(jié)合起來,實現(xiàn)多角度對車輛的實時跟蹤。本文的應(yīng)用場景以十字路口為主。本文提出的車輛跟蹤流程如圖1所示。
圖1 車輛跟蹤流程
YOLO算法系列在車輛檢測方面有著非常顯著的識別能力。近些年來,隨著科技的發(fā)展和變遷,YOLO算法系列不斷地更新?lián)Q代,而YOLO系列近幾年最新推出的YOLOv5模型則是更加適合當(dāng)代工程和實際應(yīng)用的需求。
目前,YOLOv5算法有4個不同的版本,每個版本之間的網(wǎng)絡(luò)結(jié)構(gòu)有些許的差別[6]。本文采用的YOLOv5s算法是4個版本中網(wǎng)絡(luò)最小的版本,主要以檢測像車輛等之類的大目標(biāo)為主。相對于其他的版本,YOLOv5s的檢測速度快,識別準(zhǔn)確度比其他算法高,非常適合在嵌入式設(shè)備中應(yīng)用。本文對出現(xiàn)在交通視頻中的各種交通車輛進(jìn)行檢測,選擇YOLOv5s結(jié)構(gòu)進(jìn)行研究。
YOLOv5s網(wǎng)絡(luò)主要有3個組成部分。
(1)Backbone:提取特征的主干網(wǎng)絡(luò),主要用來提取圖片中的信息以供后面的網(wǎng)絡(luò)使用。常用的Backbone有resnet系列(resnet的各種變體)、NAS網(wǎng)絡(luò)系列(RegNet)、Mobilenet系列、Darknet系列、HRNet系列、Transformer系列和ConvNeXt。主要結(jié)構(gòu)包括focus、conv、bottle-neckcsp和空間金字塔層。
(2)Neck(空間金字塔池化):它是通過將圖像特征進(jìn)行糅合并重新組合成一個新的網(wǎng)絡(luò)結(jié)構(gòu),將提取到的圖像特征傳遞到預(yù)測層。
(3)Head:主要是針對圖像的特征進(jìn)行預(yù)測,然后生成檢測框并且預(yù)測其類別。
本文的車輛檢測方案使用改進(jìn)后的YOLOv5s檢測算法對車輛數(shù)據(jù)集進(jìn)行訓(xùn)練,并引入CA注意力機(jī)制,用改進(jìn)后的檢測模型對相關(guān)的車輛數(shù)據(jù)集進(jìn)行測試,經(jīng)過實驗驗證提高了檢測精度,更好地完成車輛檢測目標(biāo)。
單應(yīng)性矩陣能夠?qū)⑹致房?個攝像頭之間的相互關(guān)系形象生動地表達(dá)出來,通過將拍攝到的同一車輛不同角度的圖片進(jìn)行像素坐標(biāo)之間的變換,能夠?qū)崿F(xiàn)車輛在不同監(jiān)控角度下的像素位置的轉(zhuǎn)換,從而實現(xiàn)同一車輛在不同監(jiān)控視角下的車輛位置的定位。在通常情況下,單應(yīng)性矩陣一般采用人工標(biāo)定的方法來進(jìn)行特征點之間的匹配,但是由于人工標(biāo)定會產(chǎn)生一定的誤差,導(dǎo)致得出的單應(yīng)性矩陣也存在一定的誤差。因此,鑒于這一問題,本文采用精確的棋盤格來求取匹配點,結(jié)合張正友棋盤標(biāo)定的方法,求取相對準(zhǔn)確的單應(yīng)性矩陣。首先,打印一張8×8的黑白相間的棋盤方格;其次,將打印好的棋盤格放置在十字路口的中間,用4個方向的攝像頭對其進(jìn)行拍攝;然后,對4個視角下的棋盤格圖片進(jìn)行特征點的檢測;最后,根據(jù)棋盤格中獲取的匹配點求取4個攝像頭之間的單應(yīng)性矩陣。
通過模擬十字路口4個攝像頭同時對視野區(qū)域內(nèi)的棋盤格上特征點求取單應(yīng)性矩陣,對同一標(biāo)定點在4個攝像頭之間的空間位置進(jìn)行定位。本文根據(jù)實際十字路口的環(huán)境,按照一定的比例搭建了十字路口的實際模型進(jìn)行研究。本文采用UA-detrac車輛檢測數(shù)據(jù)集與自建數(shù)據(jù)集進(jìn)行三維空間模型構(gòu)建,求取單應(yīng)性矩陣。在自建數(shù)據(jù)庫中,在模型上放置標(biāo)記物進(jìn)行標(biāo)記,按照東西南北4個方向分別標(biāo)定為1、2、3、4號攝像頭,同時以第3攝像頭為基準(zhǔn),分別求取1、2、4號攝像頭與該攝像頭的轉(zhuǎn)換矩陣H13、H23、H43。自建數(shù)據(jù)庫的標(biāo)定如圖2所示,紅圈表示選取的特征匹配點。
圖2 人工標(biāo)定圖
其他視角到該視角的轉(zhuǎn)換矩陣為:
經(jīng)過本文實驗證明,與人為標(biāo)定特征點求取單應(yīng)性矩陣的方法相比,用棋盤標(biāo)定通過特征點之間的匹配進(jìn)行單應(yīng)性矩陣的求取精度會更高,這是由于相對于人工標(biāo)定,采用棋盤標(biāo)定的方法,匹配點的數(shù)量更多,相互之間匹配點的位置關(guān)系會更加準(zhǔn)確,減少了人為標(biāo)定方法產(chǎn)生的誤差,同時還提高了求取單應(yīng)性矩陣的準(zhǔn)確性。
車輛的顏色特征能夠更加直觀地反映車輛的外部整體信息,通常采用RGB顏色空間與HSV顏色空間來提取車輛的顏色特征。RGB顏色空間和HSV兩個顏色空間雖然都是用來表示圖像的顏色特性。相比而言,RGB顏色空間獲取車輛的顏色特征更加準(zhǔn)確。HSV顏色空間更容易被人眼所接受,從而更方便人們觀察。因此,本文首先通過RGB顏色空間獲取車輛的全局外觀顏色特征,之后再轉(zhuǎn)換到HSV顏色空間進(jìn)行顏色特征的量化,車輛的顏色特征可以直觀地反映車輛的全區(qū)信息,由于HSV顏色空間可以對顏色空間進(jìn)行量化,降低顏色空間的特征維數(shù),從而減少提取匹配的計算量,提高算法的運算效率。HSV顏色空間具有自然性,與人類的視覺神經(jīng)感知接近,反映了人類對于色彩的觀察,同時有助于查找圖像。
由此分析,本文采用了基于HSV顏色空間模型對車輛的全局外觀進(jìn)行顏色提取。通常來說,拍攝到的車輛圖像基本都是以RGB的方式保存。圖像從RGB顏色空間轉(zhuǎn)換到HSV空間。RGB顏色空間將圖片進(jìn)行R、G、B的3種通道的劃分,設(shè)(r,g,b)分別是一個顏色的紅、綠和藍(lán)顏色的坐標(biāo),他們的值是0~1的實數(shù),令max等于r、g、b3個分量中的最大值,min等于r、g、b3個分量中的最小值,則從RGB顏色空間到HSV顏色空間的變換過程可用如下公式來表示:
ν=max
輸入的車輛圖片的顏色特征通常用顏色直方圖來表示,它的算法簡單,速度較快。它具有尺度平、平移和旋轉(zhuǎn)不變形的特征,在特征提取、圖像分類方面有著非常好的應(yīng)用。
本文通過HSV顏色空間對多組相同車型不同顏色和相同顏色不同車型的車輛分組圖片進(jìn)行顏色特征的提取和匹配。本研究對UA-detrac車輛檢測數(shù)據(jù)集和自建模型拍攝的多角度下不同顏色的車輛進(jìn)行顏色特征提取,并計算其顏色相似度。對比結(jié)果如表1所示。
表1 顏色特征相似程度對比結(jié)果
通過表1的顏色特征相似度的結(jié)果可以看出,顏色特征相似度越大,表示兩輛車之間的相似程度越高。相同的一輛車在4個方向下的相似度的范圍均在0.8以上,顏色相似的兩輛車之間的相似度均在0.8以下。顏色不同但是車型相同的兩輛車之間的相似度均在0.6以下。由此可知,顏色特征可以用來區(qū)分車型相同或相似但顏色差別大的車輛。同一輛車在不同攝像頭的監(jiān)控視野內(nèi)由于拍攝角度的問題會出現(xiàn)導(dǎo)致同一輛車的顏色特征存在一定的差異的情況發(fā)生。若是直接將相似度設(shè)置為0.8可能會存在在不同的監(jiān)控角度下,同一車輛被漏檢的情況。若閾值設(shè)置得過低又可能誤檢一些顏色相近的車輛。只是顏色特征識別并不能滿足不同角度下車輛的匹配,存在一定的缺陷,因此還需要通過局部特征的匹配來提高匹配的精度。
鑒于顏色特征能針對局部特征對于顏色信息不區(qū)分這一缺點進(jìn)行補(bǔ)充,而SURF的特點是具備光線照射、角度的調(diào)整以及尺寸不變性,速度比較快而且相對比較穩(wěn)定。由于僅是局部特征或者僅是全局特征很容易發(fā)生在多攝像頭切換角度時出現(xiàn)跟蹤錯誤的信息,從而導(dǎo)致跟蹤失敗。因此,本文將全局特征和局部特征結(jié)合起來,從而提高匹配的準(zhǔn)確性。
相對而言,SURF特征提取的數(shù)量雖然比SIFT特征提取少很多,但還是存在錯誤匹配的情況。因此,本文根據(jù)SURF的算法特性,特征匹配點之間的歐式距離越近,相似度越高,匹配得越準(zhǔn)確。對匹配點之間的歐氏距離進(jìn)行篩選,選擇合適的閾值,對歐式距離進(jìn)行排序,從而選出最優(yōu)的SURF特征匹配點,減少匹配的誤差,降低錯誤匹配的概率。
因為在多攝像頭切換角度時對同類型的車輛誤檢、漏檢的情況時有發(fā)生,所以本文對全卷積孿生網(wǎng)絡(luò)跟蹤算法中的圖像特征向量相似度與多特征融合進(jìn)行改進(jìn),并引入注意力通道機(jī)制網(wǎng)絡(luò)結(jié)構(gòu),針對錯檢、漏檢的情況進(jìn)行改進(jìn),提升準(zhǔn)確度。
使用上述提到的HSV顏色特征提取和SURF特征作為匹配的特征,與全卷積孿生網(wǎng)絡(luò)跟蹤模型計算的相似度進(jìn)行結(jié)合,即使在發(fā)生目標(biāo)車輛部分遮擋的情況下,在切換到另一角度的攝像頭時仍然能對同一車輛繼續(xù)進(jìn)行定位跟蹤。在出現(xiàn)完全遮擋的情況或者在多攝像頭角度切換后,目標(biāo)車輛短時間內(nèi)未再次出現(xiàn)的情況下仍然繼續(xù)工作,在等待目標(biāo)車輛再次出現(xiàn)時,繼續(xù)對目標(biāo)車輛進(jìn)行定位檢測與跟蹤,以保證目標(biāo)車輛的持續(xù)跟蹤。
跟蹤模塊首先利用全卷積網(wǎng)絡(luò)訓(xùn)練的跟蹤模型提取目標(biāo)車輛圖片,通過提取檢測車輛圖像的特征向量,計算目標(biāo)車輛與待檢測車輛之間的相似度,然后通過HSV顏色空間得出車輛的全局特征的相似度,最后對SURF特征進(jìn)行車輛的局部特征匹配,過濾掉錯誤的匹配點,提高準(zhǔn)確度,因為SURF特征點之間的距離長短表示特征點之間匹配值的高低,所以在所有檢測到的車輛中選擇特征點之間距離最短的也就是匹配值最小的目標(biāo)車輛,對目標(biāo)車輛進(jìn)行定位,并利用上述計算的3種目標(biāo)車輛判斷的值對初定位的目標(biāo)車輛進(jìn)行閾值比較處理,從而最終定位目標(biāo)車輛。目標(biāo)車輛實驗結(jié)果如表2所示。
表2 在自建數(shù)據(jù)庫上的實驗結(jié)果 (單位:%)
本文提出的多攝像頭車輛實時跟蹤系統(tǒng),通過多個攝像頭之間的單應(yīng)性矩陣對十字交通路口的車輛進(jìn)行定位,并結(jié)合顏色特征和SURF特征進(jìn)行匹配,利用多特征和全卷積孿生網(wǎng)絡(luò)相結(jié)合的跟蹤模型,得到最終的檢測結(jié)果,在車輛的檢測和跟蹤程度上有一定的提高。該系統(tǒng)在一定程度上解決了因遮擋問題造成的誤檢、漏檢的問題,提高了檢測精度和跟蹤的準(zhǔn)確性。根據(jù)實踐表明,本文提出的方法效果比單一攝像頭的檢測方法更加可靠。