王朝輝 王潤(rùn)哲 郭震冬 黃 亮
(江蘇省測(cè)繪工程院, 江蘇 南京 210013)
移動(dòng)測(cè)量車[1]以車輛為搭載平臺(tái),集成全球?qū)Ш叫l(wèi)星系統(tǒng)(Global Navigation Satellite System,GNSS)接收機(jī)、慣性測(cè)量單元(Inertial Measurement Unit,IMU)、里程計(jì)、全景相機(jī)、三維激光掃描儀等傳感器,可以獲取城市道路環(huán)境的360°街景影像[2-3]和三維激光點(diǎn)云。街景影像廣泛應(yīng)用于交通信息采集[4-5]、城市部件調(diào)查[6]、城市興趣點(diǎn)測(cè)量[7]、導(dǎo)航數(shù)據(jù)采集[8]、街景地圖等領(lǐng)域中。街景影像中包含大量的行人車輛信息,不做脫密處理直接發(fā)布會(huì)侵犯他人隱私[9],同時(shí)行人車輛信息也是提升城市治理能力的重要數(shù)據(jù)內(nèi)容。
街景影像和一般近景影像具有較大區(qū)別:首先是表達(dá)的環(huán)境復(fù)雜,街景影像里可能有建筑、車輛、行人、植被、道路、交通標(biāo)示、城市部件等各種各樣的地物;其次是數(shù)據(jù)量龐大,單張街景影像的經(jīng)緯映射圖可達(dá)到數(shù)千萬(wàn)甚至上億的像素;最后是目標(biāo)距離變化大,導(dǎo)致同樣的目標(biāo)在影像中尺寸和清晰度差異很大。這就導(dǎo)致現(xiàn)有的行人、車輛檢測(cè)方法在應(yīng)用到街景影像中時(shí)均存在一定的局限性。為此,本文提出一種兼顧效率和精度的街景影像中行人車輛檢測(cè)方法,在檢測(cè)前,利用球形投影原理和先驗(yàn)知識(shí)從街景的經(jīng)緯映射圖中劃分出目標(biāo)區(qū)域[10],減少算法的搜索數(shù)據(jù)量和范圍,提高后續(xù)檢測(cè)的速度并降低誤檢率;檢測(cè)時(shí),針對(duì)街景的海量數(shù)據(jù)和復(fù)雜背景,選用你只觀察一次(You Only Look Once,YOLO) v4模型從目標(biāo)區(qū)域快速尋找行人和車輛[11]。實(shí)驗(yàn)證明,本文方法具有檢測(cè)速度快、準(zhǔn)確率高等優(yōu)勢(shì),可以應(yīng)用到實(shí)際項(xiàng)目的數(shù)據(jù)生產(chǎn)中。
街景影像通常采用的是三維球形投影,但在計(jì)算機(jī)中為了便于存儲(chǔ)、傳輸,采用了經(jīng)緯映射圖的格式。經(jīng)緯映射圖的圖像坐標(biāo)(x,y)與球面經(jīng)緯度(θ,φ)的轉(zhuǎn)換關(guān)系如圖1所示[10]。其中P為實(shí)際地物點(diǎn)坐標(biāo),P′為地物點(diǎn)在全景球面上的坐標(biāo),p′為地物點(diǎn)在經(jīng)緯映射圖中的坐標(biāo),r為全景球的半徑。
圖1 經(jīng)緯映射圖
根據(jù)經(jīng)緯映射圖的原理,其y坐標(biāo)與影像高度的比值φ,即攝影中心到地物連線與天頂?shù)膴A角。其x坐標(biāo)與影像寬度的比值θ,即攝影中心到地物連線的方位角。在圖2所示的經(jīng)緯映射圖中,w和h分別表示經(jīng)緯映射圖的寬度和高度,A區(qū)域代表的是全景相機(jī)所在水平面以上的場(chǎng)景,由于全景相機(jī)安置在汽車頂部,且自身有一定高度,因此,該區(qū)域影像內(nèi)出現(xiàn)行人、車輛的概率很小。B區(qū)域代表的是以全景相機(jī)為頂點(diǎn),過(guò)全景相機(jī)的垂線為軸線,半徑和高度均等于全景相機(jī)到地面距離的圓錐內(nèi)的場(chǎng)景,該區(qū)域內(nèi)主要是移動(dòng)測(cè)量車本身,基本不會(huì)出現(xiàn)其他行人、車輛。A、B區(qū)域占街景影像數(shù)據(jù)量的3/4,如果檢測(cè)時(shí)跳過(guò)這些無(wú)效區(qū)域,不僅可以有效提高檢測(cè)速度,而且大大降低了誤檢率。
圖2 有效區(qū)域分割
剩下的區(qū)域是需要重點(diǎn)檢測(cè)的部分,按照深度學(xué)習(xí)處理圖像的特點(diǎn),繼續(xù)將其劃分為8塊邊長(zhǎng)為h/4的正方形圖像塊。
目標(biāo)檢測(cè)包含物體識(shí)別和物體定位兩個(gè)任務(wù),其深度學(xué)習(xí)模型可以分為兩類:第一類是Two-Stage(兩步)形式,將物體識(shí)別和物體定位分為兩個(gè)步驟,以結(jié)合區(qū)域候選的卷積神經(jīng)網(wǎng)絡(luò)(Region Convolutional Neural Networks,R-CNN)、快速R-CNN(fast R-CNN)、 更快R-CNN (faster R-CNN)為典型代表,優(yōu)點(diǎn)是誤檢率低、漏檢率低,缺點(diǎn)是運(yùn)算速度慢,不適用于街景的大數(shù)據(jù)量。另一類是One-Stage(一步)形式,以YOLO系列、單向多框探測(cè)器(Single Shot MultiBox Detector,SSD)等為典型代表,將物體分類和物體定位在一個(gè)步驟中完成,識(shí)別速度非???準(zhǔn)確率也能接近faster R-CNN的水平。通過(guò)對(duì)已有研究成果的分析總結(jié),YOLO v4是一種適用于街景影像中行人車輛檢測(cè)的模型[12]。
主要步驟如下:(1)加載網(wǎng)絡(luò),導(dǎo)入標(biāo)準(zhǔn)的配置文件YOLO v4.cfg和權(quán)重文件YOLO v4.weights;(2)將街景影像的有效檢測(cè)區(qū)域分割為8個(gè)正方形圖像塊,并進(jìn)行空間尺寸、圖像深度、光照處理等預(yù)處理;(3)將輸入的圖像塊分別構(gòu)造二進(jìn)制大型對(duì)象(Binary Large Object,BLOB),然后執(zhí)行檢測(cè)器的前向傳遞,得到檢測(cè)對(duì)象的邊界框、檢測(cè)對(duì)象的置信度、檢測(cè)類標(biāo)簽;(4)YOLO會(huì)對(duì)每個(gè)檢測(cè)對(duì)象框給出約3個(gè)候選框,利用非最大值抑制,將置信度最大的框保存;(5)標(biāo)記顯示:將邊界框、置信度、類別等信息繪制到街景影像中。
利用SSW移動(dòng)測(cè)量車(圖3)搭載全景相機(jī)、GNSS接收機(jī)、慣性測(cè)量單元等傳感器,在城區(qū)采集街景影像,取出典型區(qū)域的500張進(jìn)行數(shù)據(jù)測(cè)試。
圖3 移動(dòng)測(cè)量車示意圖
程序開(kāi)發(fā)使用Visual Studio 2017作為開(kāi)發(fā)工具,C++作為編程語(yǔ)言,OpenCV 4.4作為圖像引擎,YOLO v4作為檢測(cè)模型。硬件環(huán)境為ThinkStation P520W圖形工作站,配備了大容量?jī)?nèi)存、固態(tài)硬盤、高性能顯卡、多核中央處理器。
OpenCV讀取街景影像后,將有效區(qū)域的8個(gè)圖像塊摳出,如圖4所示。
圖4 街景影像
利用8核并行處理,進(jìn)一步提高YOLO v4檢測(cè)速度。如圖5所示,從分塊3的檢測(cè)結(jié)果可以看出,三個(gè)行人(男人、女人、小孩)均檢測(cè)出來(lái),三輛車(轎車、SUV、面包車)均檢測(cè)出來(lái),只有一個(gè)人蹲在汽車后面,拍到的部分太少,漏檢了。從分塊6的結(jié)果可以看出,兩個(gè)騎車的行人均檢測(cè)出來(lái),一輛轎車也檢測(cè)出來(lái),位置、數(shù)量、類別完全正確。
圖5 檢測(cè)結(jié)果
經(jīng)過(guò)統(tǒng)計(jì),本文方法的檢測(cè)結(jié)果如表1所示。對(duì)于車輛的檢測(cè),正確檢測(cè)的數(shù)量占樣本總數(shù)的91.3%,遺漏檢測(cè)的數(shù)量占樣本總數(shù)的8.7%,錯(cuò)誤檢測(cè)的數(shù)量占樣本總數(shù)的6.5%。對(duì)于行人的檢測(cè),正確檢測(cè)的數(shù)量占樣本總數(shù)的73.1%,遺漏檢測(cè)的數(shù)量占樣本總數(shù)的26.9%,錯(cuò)誤檢測(cè)的數(shù)量占樣本總數(shù)的6.2%。
表1 檢測(cè)結(jié)果
經(jīng)過(guò)有效區(qū)域分割提取再檢測(cè),本文方法的行人車輛檢測(cè)準(zhǔn)確率和直接使用YOLO檢測(cè)整張影像相當(dāng),但錯(cuò)誤檢測(cè)的比例有效降低。通過(guò)剔除街景影像中四分之三的無(wú)效區(qū)域,并將有效區(qū)域分割為8塊做并行處理,每張街景影像的檢測(cè)時(shí)間縮短到21 ms,優(yōu)于直接處理整張影像的49 ms,速度提升57%。
街景影像具有記錄場(chǎng)景復(fù)雜、單張數(shù)據(jù)量大、目標(biāo)距離變化大的特點(diǎn),導(dǎo)致現(xiàn)有的行人和車輛檢測(cè)算法無(wú)法完全適用。為此,本文根據(jù)街景球面投影的原理分割出候選區(qū)域,減少了四分之三的數(shù)據(jù)量,同時(shí)降低了誤檢率。將候選區(qū)域劃分為8個(gè)正方形圖塊,利用YOLO v4模型并行檢測(cè)行人和車輛,取得了比較理想的檢測(cè)精度和運(yùn)行速度。
車輛和行人檢測(cè)的結(jié)果還無(wú)法直接用于街景影像的脫密處理,進(jìn)一步的研究工作,要在行人和車輛被準(zhǔn)確檢測(cè)的基礎(chǔ)上,繼續(xù)捕捉人臉區(qū)域、車牌區(qū)域,利用模糊算法進(jìn)行脫密處理,實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)發(fā)布預(yù)處理。