張 旭,郝向陽,李建勝,李朋月
1. 航天工程大學,北京 101416; 2. 信息工程大學地理空間信息學院,河南 鄭州 450001
地理信息的表達內(nèi)容涉及地理實體及其空間關系、不確定性、地理動態(tài)及地理本體等方面[1]。地理數(shù)據(jù)包括空間位置、屬性特征及時態(tài)特征3個部分,是對于不同的地理實體、地理要素、地理現(xiàn)象、地理事件、地理過程等的表達[2]。傳統(tǒng)的地理信息表達以二維地圖為主導,展現(xiàn)地理空間的靜態(tài)屬性。為解決地理數(shù)據(jù)的多維表達,使以地理方式看待世界時更加貼近人的視角,同時附加所不具備的地理屬性,將視頻與地理信息融合的地理超媒體的表達方式成為研究的新方向[3-6]。
目前對于監(jiān)控視頻的智能分析,無論是目標檢測[7]還是跟蹤行為理解[8]等計算機視覺任務,僅僅是基于視頻影像本身,其中影像目標的檢測與跟蹤[9]等的精度是研究者們追求的主要目標,所得到的分析結(jié)果也僅僅是影像坐標。以監(jiān)控視頻的目標跟蹤為例,監(jiān)控者們更想得到的是實際地理位置和目標的動態(tài)方位、速度、運動軌跡等信息,而單純的視頻目標跟蹤無法完成該任務,將地理空間信息與視頻融合可有效解決這一問題。文獻[10]描繪出攝像機的位置以及視圖方向?qū)⒁曨l影像置入“附近”視圖,來進行跨攝像機的跟蹤。文獻[11]認為空間視頻具有巨大的潛力,在GIS中使用基本數(shù)據(jù)類型來建??臻g視頻,使用Viewpoint數(shù)據(jù)結(jié)構(gòu)表示視頻幀來進行視頻的地理空間分析。文獻[12]提出了一個系統(tǒng),用于從未標定的視頻中利用地理空間數(shù)據(jù)進行相機姿態(tài)估計,通過GPS數(shù)據(jù)、序列影像和建筑物粗糙模型進行建筑物精細三維建模。文獻[13]提出了基于視頻運動物體和GIS的集成模型,通過空間定位和聚類運動物體的軌跡,構(gòu)建運動物體的虛擬視野和表達模型,在虛擬場景中逐幀重建運動對象的子圖。
傳統(tǒng)的監(jiān)控視頻與地理信息的融合模型分為兩類,即位置映射模型和視頻影像映射模型。前者僅僅將監(jiān)控相機的位置集成在地理信息的框架中,用統(tǒng)一的地理坐標參考系將處于該區(qū)域范圍內(nèi)的監(jiān)控相機建立相關聯(lián)系。監(jiān)控視頻與地理信息的集成僅僅處于松集成階段,起到的作用更多是示意功能[14-15]。后者則是在此基礎上將視頻影像通過相機的內(nèi)外參數(shù)等信息映射至地理空間中,與地理場景疊加進行處理分析[11,16-17]。雖然將更多信息映射至地理空間中,但是由于監(jiān)控視頻存在大量的信息冗余,無法使監(jiān)控人員快速捕獲真正感興趣的目標信息。
監(jiān)控視頻中含有靜態(tài)環(huán)境背景信息和動態(tài)前景目標信息。首先對靜態(tài)背景建模,將背景提取并映射至地理空間,然后建立前景目標和軌跡信息與地理空間的映射關系模型,通過該映射關系模型將其映射至地理空間,從而建立地理信息與前景目標相融合的可視化模型。通過提取監(jiān)控視頻中動態(tài)前景目標信息,既可減少視頻的冗余信息,也可改善可視化效果。設某空間點P的世界坐標為(Xw,Yw,Zw),通過旋轉(zhuǎn)矩陣R和平移向量t可以轉(zhuǎn)換為相機坐標系下的坐標(Xc,Yc,Zc),坐標(Xc,Yc,Zc)與其對應圖像坐標(u,v)存在如式(1)所示透視投影關系
(1)
式中,fx、fy為相機焦距;dx、dy為相機傳感器在水平與垂直方向的像元物理尺寸;u0、v0為圖像像素主點坐標;K是僅與相機內(nèi)部結(jié)構(gòu)相關的參數(shù)所決定的內(nèi)參數(shù)矩陣;[R|t]是由相機相對世界坐標系的旋轉(zhuǎn)矩陣R和平移向量t所決定的外參數(shù)矩陣;P為相機投影矩陣。
不妨假設地面為一平面,將世界坐標系中的點映射至圖像坐標系中,假設圖像中一點m,對應世界坐標點為M,則
m=[xy1]T
(2)
M=[XwYw0 1]T
(3)
m=HM
(4)
即
(5)
式中
(6)
上述所求解的H矩陣是將平面上的物方空間點透視變化至圖像空間中的映射矩陣,為了求解圖像空間點投射至物方空間中,需要對H矩陣求逆,即
(7)
H-1=(K[r1,r2,t])-1
(8)
當假設世界坐標高程為0時,即將其看作平面時,通過計算相機內(nèi)參矩陣K與外參矩陣[r1,r2,t]求解出H矩陣,內(nèi)參矩陣的求解是利用張正友標定法[18]拍攝10~20張標定板圖像進行標定,同時可獲取相機畸變參數(shù);外參矩陣可通過多點透視問題(perspective-n-points,PNP)進行求解,本文采用的是精度較高也較為流行的EPNP+Iteration[19-20]的方法。
在固定場景的監(jiān)控視頻中,背景信息并不引起人們關注,前景運動目標才是關注的重點,也是視頻智能分析的關鍵信息,因此運動目標的提取尤為重要。本文采用MOG2[21]算法進行前景目標的提取,并根據(jù)差分檢測策略篩選出含前景目標的視頻幀,通過跨幀檢測顯著提高了檢測效率,然后將提取出的前景運動目標的輪廓作為地圖符號置入地理空間中進行可視化表達。在多目標跟蹤任務中,則利用基于深度學習的YOLOv3算法進行目標檢測并利用DeepSort[22]算法實現(xiàn)多目標跟蹤。將視頻流輸入差分篩選器剔除無需檢測幀后,置入YOLOv3檢測器中,輸出檢測框、類別與置信度,將該輸出再次置于DeepSort[22]多目標跟蹤器中,通過改進的遞歸卡爾曼濾波[23]預測位置并跟蹤,根據(jù)馬氏距離與深度描述子的余弦距離作為融合后的度量,采用匈牙利算法[24]進行級聯(lián)匹配,輸出動態(tài)跟蹤定位信息。具體流程見圖1。
圖1 實時檢測跟蹤流程Fig.1 Real-time detection and tracking flowchart
視頻所輸出的跟蹤結(jié)果為所跟蹤目標在視頻流圖像中的位置、大小、身份識別信息等組成,由于這種結(jié)果無法被人們很直觀地感受到,因此在進行目標跟蹤時需要同時繪制出目標的運動軌跡。目前通常以目標檢測框的中心為軌跡節(jié)點,雖然這種表達方式能夠顯示目標的運動軌跡,但不能滿足量測定位的精度要求。為此,本文以目標(以人為例)的雙足中心作為軌跡節(jié)點的初值,然后根據(jù)相機相對地平面的位姿與目標在圖像中所占比例大小進行軌跡校正。假設由多目標跟蹤器中獲得的當前幀ti中某一目標Om的檢測框結(jié)果為(u,v,γ,h),分別對應檢測框的左下點的橫縱坐標、寬高比例以及高度,則ti幀中目標Om在圖像中的軌跡節(jié)點Tj(u′,v′)可由式(9)求得
(9)
式中,δ、σ為校正值。由于由此獲得的目標Om的軌跡節(jié)點Tj存在誤差,因此連接軌跡節(jié)點Tj所得到的軌跡Trajn出現(xiàn)抖動現(xiàn)象,需要對所有軌跡節(jié)點進行擬合以取得光滑的跟蹤軌跡。本文采用式(10)所示的3次多項式進行軌跡擬合
y=a0+a1x+…+akxk(k=3)
(10)
各節(jié)點到該曲線的偏差平方和為
(11)
經(jīng)過求偏導化簡后得到式(12)的矩陣表達形式
(12)
即
X×A=Y
(13)
A=(XTX)-1XTY
(14)
結(jié)合前文所計算得到的映射矩陣,當獲得圖像空間中的跟蹤目標Om的軌跡節(jié)點點集
(15)
通過映射矩陣可計算得到物方空間中該目標Om的軌跡節(jié)點的對應點集,經(jīng)過上述3次多項式擬合后得到的地理空間中平滑軌跡節(jié)點集為
(16)
在安防監(jiān)控中,以井字格形式的監(jiān)控視頻最為常見,也廣泛應用于公安系統(tǒng)、校園、小區(qū)等場所,然而這種以原始視頻影像序列作為信息源的方式費時費力且未利用空間相關信息。同時,僅僅將監(jiān)控視頻映射至地理空間的模式也無法克服視頻數(shù)據(jù)的冗余性缺點,難以突出視頻的主要信息。與傳統(tǒng)的監(jiān)控視頻相比,將視頻的動態(tài)前景目標信息或者是管理者們感興趣的信息提取出來,將處理分析后的結(jié)果,本文根據(jù)應用需求的差異性,共提出了4種融合模式,分別為:
融合模式1:軌跡要素層+前景動態(tài)目標圖層+背景層+真實地圖圖層;
融合模式2:軌跡要素層+前景動態(tài)目標圖層+真實地圖圖層;
融合模式3:軌跡要素層+前景動態(tài)目標圖層+背景層+矢量地圖圖層;
融合模式4:軌跡要素層+前景動態(tài)目標圖層+矢量地圖圖層。
圖2是以融合模式1為例的示意圖,將多目標跟蹤的軌跡信息映射至地理空間,利用前景目標提取算法提取目標與軌跡相關聯(lián),以真實的場景作為固定背景信息,實現(xiàn)地理信息與視頻影像動態(tài)前景目標信息的融合。該模式包含要素最全,背景層的融合可利用視頻所提供的背景對真實場景更新,可體現(xiàn)前景動態(tài)目標在真實場景下的定位結(jié)果以及軌跡的位置分布,提供了更多超媒體信息;模式2主要用于以遙感地圖為參考底圖的動態(tài)目標定位跟蹤任務,當背景與真實地圖場景差別較小時適用該模式,使得可視化效果更加真實;模式3與前兩者相比將真實地圖層更換為矢量地圖層,對于相機可視范圍外場景不被關注的情況下較為適用,同時使表達更為簡潔;模式4適用于只關心地理信息表達,忽視場景中超媒體信息的任務,可視化效果也更為直觀,突出前景動態(tài)目標的定位跟蹤結(jié)果。同時模式3與模式4相比于前兩者均更重視動態(tài)前景目標在地理空間中的數(shù)據(jù)分析、可量測、可查詢統(tǒng)計等目的。
圖2 地理信息與視頻動態(tài)前景目標信息的融合模式Fig.2 Fusion mode of geographic information and video dynamic foreground summary information
為驗證所提出的模型及方法的可行性,筆者采集了部分監(jiān)控視頻影像進行試驗,所采集視頻場景為校園某一區(qū)域,所采用真實地圖為無人機在120 m高度拍攝的遙感影像,像素分辨率為0.08 m。硬件環(huán)境Intel XEON CPU E5-1607 3.00 GHz,16 GB內(nèi)存,NVIDIA GTX1060 6 GB顯卡。
試驗數(shù)據(jù)是由USB外置相機采集,像素為640×480,相機內(nèi)參矩陣為
畸變參數(shù)為
由于該相機存在桶形畸變,一定程度上影響了映射結(jié)果,因此對視頻影像首先進行畸變校正,再將畸變校正后的結(jié)果選取對應點進行PNP的計算,獲取相機外參數(shù)矩陣。對應點對如表1所示。
表1 世界坐標與圖像坐標對應點對
標定出的相機在地理空間中的坐標為(460 449.504 6,3 853 990.102,7.625 628 456),相機3個旋轉(zhuǎn)角為[-178.157° 55.467 1° 91.332 6°],外參數(shù)矩陣為
圖3為監(jiān)控視頻背景通過地理映射模型投射前后的對比圖,(a)為視頻圖像空間中的視角,(b)為地理物方空間中的視角,此時視頻的背景已具有地理信息,可實現(xiàn)查詢、量測等功能。
圖3 監(jiān)控視頻地理映射前后對比Fig.3 The comparison chart of surveillance video before and after geographical mapping
圖4是在試驗視頻數(shù)據(jù)中截取的部分幀與所對應的跟蹤結(jié)果,其中白色框是由遞歸卡爾曼濾波所得到的預測框,藍色框是由差分YOLOv3算法所計算得出的檢測框,綠色的ID號為通過匈牙利匹配所確定的跟蹤結(jié)果。
視頻的多目標跟蹤量化評價見表2,分別采用了YOLOv2與YOLOv3兩種檢測器作為多目標跟蹤的目標檢測算法。評估的度量標準為MOT CHALLENGE所提供的方法CLEAR MOT[25],其中MOTA是結(jié)合了丟失目標,虛警率,ID轉(zhuǎn)換誤配數(shù),表示了多目標跟蹤的準確度,而MOTP是所有跟蹤目標的平均邊框重疊率IOU,表示了多目標跟蹤的精確度。由表2可看出,當采用YOLOv2時多目標跟蹤的MOTA與MOTP可達78.4與79.8,采用YOLOv3時有一定增長,分別為87.5與83.6,可以發(fā)現(xiàn)當目標檢測的精度提高時,多目標跟蹤的精度會隨之提高,同時量化指標MOTA 87.5以及MOTP83.5體現(xiàn)了本文算法對于所實驗視頻的適用性。
表2 多目標跟蹤量化評價結(jié)果
試驗中共選取了均勻分布的18個點作為圖像空間與地理空間的對應點,其中表1中的對應點對作為映射模型計算的輸入值,剩下的13個點對作為測試點對進行映射模型的精度評定,測試的對應點對坐標及映射后的坐標見表3,并計算其均方誤差,其中最大誤差為0.117 4 m,最小為0.017 7 m,平均均方差為0.071 3 m。
圖5中(a)、(b)分別對應了多目標跟蹤軌跡在圖像空間中與地理物方空間中的可視化表達;圖5(c)、(d)分別是原始跟蹤軌跡節(jié)點與通過三次多項式擬合后的誤差較小的平滑軌跡。
圖6展示了融合模式中兩種不同的底圖,分別是(a)中的無人機遙感影像圖,該底圖可最大程度反映真實的場景,但由于更新的原因,在特殊情況下可與背景層疊加顯示;(b)為矢量地圖,以其作為底圖層,可突出前景動態(tài)目標信息,使表達更加簡明。紅色框為相機可視域范圍。
圖7中(a)、(d)分別對應融合模式中的①到④,4種融合模式分別適用于不同的任務需求,具有不同的可視化表達效果,在突出重點有差異的情況下,可根據(jù)各模式的特點靈活選擇。
試驗所采集視頻時長22 s,共670幀,為驗證所提方法的實時性,進行了各部分耗時統(tǒng)計,結(jié)果如表4所示,其中目標檢測部分利用監(jiān)控視頻冗余特性,通過差分篩選剔除無須檢測幀提高檢測速度,共耗時16.96 s,跟蹤部分耗時4.27 s,映射總耗時0.13 s,其中檢測每幀平均耗時2.5 ms,跟蹤每幀平均耗時0.6 ms,總速度可達31.36 fps,可知所提出方法在完成任務需求的同時滿足實時性要求,同時當視頻前景變化較小時,可改變篩選閾值,進一步提高檢測速度以提高實時性。
表4 實時性分析結(jié)果
本文在多目標跟蹤的基礎上,提出融合地理信息與動態(tài)前景目標的模型,設計了4種多圖層融合模式將監(jiān)控視頻中動態(tài)前景目標與跟蹤軌跡通過地理映射模型投射至地理空間中,與傳統(tǒng)視頻與地理信息的結(jié)合方式相比,減少了視頻數(shù)據(jù)傳輸中的冗余,極大程度上降低了數(shù)據(jù)的存儲量,智能化提取了視頻動態(tài)前景目標信息,減輕了監(jiān)控人員的工作強度。實現(xiàn)了監(jiān)控視頻動態(tài)前景目標在真實地理空間中的表達,解決了傳統(tǒng)目標跟蹤任務僅僅處于圖像空間中,無法實現(xiàn)真實地理空間中可量測、可定位的問題。從試驗結(jié)果來看,多目標跟蹤的準確度MOTA可達87.5,精確度MOTP可達83.5,圖像空間向地理空間的映射模型精度為0.071 3 m,處理速度為31.36 fps,在精度與實時性上可滿足任務需求,監(jiān)控視頻的動態(tài)前景目標信息融合至地理空間的可視化效果良好,4種融合模式也可為不同的需求提供相應映射方案。
圖5 多目標跟蹤軌跡結(jié)果Fig.5 The results of multi-target tracking trajectory
圖6 試驗區(qū)底圖Fig.6 The base map of experimental area
圖7 4種融合模式對比Fig.7 The comparison chart of four fusion modes
監(jiān)控視頻多用于以平面為主的場景,因此二維映射也可適用于大多情況,但未來的研究還可以從多方面展開,如利用不同平面高程約束實現(xiàn)三維映射;也可通過標注真值的數(shù)據(jù)集,來評估跟蹤及映射的精度,不斷提高跟蹤算法與映射模型的精度;實現(xiàn)多相機的多目標跟蹤在統(tǒng)一的地理參考場景下的融合表達。