游峰,梁健中,曹水金,肖智豪,吳鎮(zhèn)江,王?,|
(1.華南理工大學,土木與交通學院,廣州 510641;2.華南理工大學,亞熱帶建筑科學國家重點實驗室,廣州 510640;3.廣東交通職業(yè)技術學院,運輸與經濟管理學院,廣州 510650)
隨著我國汽車保有量的增長,我國城市道路車流量逐年攀升。同時,慢行交通、TOD 等交通設計理念在城市規(guī)劃中不斷得到認可,城市的步行空間和功能也日益豐富和完善,促進了步行交通的發(fā)展。然而,行人作為交通參與者中的弱勢群體,面臨著嚴峻的安全問題。世界衛(wèi)生組織統(tǒng)計數據顯示,行人占道路交通事故總死亡人數的23%[1],我國每年約有10萬人在車禍中喪生,其中,約25%是行人。研究表明,行人受傷害嚴重程度隨車輛撞擊速度增加而明顯增加[2],若車輛時速在35 km以下,行人的存活機會為90%;時速在65 km 時,存活機會將低于50%。為此,使車輛盡早感知行人存在,并避免或緩解人-車沖突風險傷害,是保護行人的有效措施。行人運動建模和軌跡預測,在其中起到關鍵作用。提取和挖掘視頻監(jiān)控中行人群軌跡數據和特征,是行人行為預測分析的必要工作。
行人目標運動軌跡研究是行人運動建模分析的一種典型形式,多建立于時空維度上。孫亞圣等[3]融合引入注意力機制的LSTM(Long Short Term Memory)和社會對抗網絡(Social Generative Adverserial Network,SGAN),提出適用于密集交互場景下的行人軌跡預測模型。李琳輝等[4]引入一種行人間交互社會關系定義的注意力機制,提高LSTM 在行人軌跡預測中的速度。BHUJEL 等[5]在LSTM 網絡中融合語義分割網絡提供的物理注意力機制,采取Encoder-Decoder的結構,獲得更高的軌跡預測精度。這類軌跡建模研究方法主要是在ETH[6]、UCY[7]等開源數據集上進行軌跡預測建模,對人群密集、交互頻繁的場景下能保持較好的預測精度,重點是在基準數據集上,探索和驗證更優(yōu)的軌跡預測算法模型,未考慮新的軌跡數據來源。另一方面,目標檢測和跟蹤是獲取運動軌跡的必要前序工作。ZHAO 等[8]用Faster-RCNN(Faster Regions with CNN features)的RPN(Region Proposal Network)結構生成不同的行人目標框尺度先驗,使行人檢測推理實時性顯著提高。LI等[9]提出整合GhostNet 和SENet 網絡結構特點的YOLOv5-GS行人檢測、重識別多任務聯(lián)合模型,根據目標的數量自適應調整網絡結構,目標識別率達到93.6%。WOJKE 等[10]將外觀特征和運動信息進行深度關聯(lián),提出了Deepsort 多目標跟蹤算法,使遮擋導致的跟蹤失敗率降低45%?;谏疃葘W習網絡的行人檢測和跟蹤模型表現出良好的性能,但大部分行人檢測跟蹤算法的相關研究,更關注算法結構優(yōu)化,提高行人目標檢測跟蹤精度,而由此得到的多目標跟蹤結果蘊含的特征信息有待進一步挖掘。
綜上所述,一方面,現有的目標檢測跟蹤、軌跡預測建模研究相對獨立,所研究的軌跡在時間、空間范圍內跨度較為有限,城市平面道路交叉口的長時間、高密度行人群過街場景下,其運動特征提取和挖掘等相關應用工作仍待完善,“目標跟蹤-軌跡提取-數據驅動建?!钡榷喹h(huán)節(jié)融合仍是值得探索的問題,海量的道路交叉口交通視頻監(jiān)控數據亟待充分利用。另一方面,密集人群視頻場景中的運動語義等信息的應用仍值得進一步研究和分析。因此,本文的工作是嘗試在上述研究領域間建立聯(lián)系,通過多目標跟蹤算法,獲取視頻監(jiān)控中密集行人群的軌跡簇,解析和挖掘潛在的軌跡源點和消失點等語義信息,為后續(xù)行人群運動行為規(guī)律和軌跡預測建模提供更充足的先驗信息。
本文的研究工作主要包含3個部分:(1)在高密度行人群場景下應用多目標跟蹤算法框架。用密集人群數據集CrowdHuman 對多目標跟蹤FairMOT[11]框架的目標檢測主干分支DLA-34[12]進行二次訓練,提高密集人群場景的行人目標識別和跟蹤性能。(2)基于多目標跟蹤的行人運動軌跡特征提取。用第1部分訓練好的多目標跟蹤算法,捕獲連續(xù)視頻幀中行人的運動特征,構建特征描述子,生成目標運動軌跡;結合軌跡數據的時空分布特點,設計基于協(xié)方差矩陣值的異常軌跡檢測方法,清洗原始運動軌跡簇,提高軌跡特征的魯棒性。(3)基于軌跡簇的運動語義挖掘。利用K-means 聚類方法,對清洗后的軌跡簇進行聚類,以S 系數(Silhouette Coefficient)和DB 指數(Davies Bouldin Index)為評估指標,解析出視頻場景中的軌跡簇源點和消失點等運動語義特征信息。
經過上述各步驟后,將視頻監(jiān)控序列中的行人目標軌跡提取、提純,提取出場景語義信息,創(chuàng)建路側監(jiān)控視角下的密集行人群軌跡庫,為后續(xù)數據驅動的行人行為分析預測建模提供數據支持。本文主要研究內容如圖1所示。
圖1 主要研究內容Fig.1 Research content flow chart
FairMOT 為Zhang 等[11]在2020年9月提出的,是目前行人多目標跟蹤領域性能突出的模型,它整合了目標檢測和行人跟蹤兩大分支,目標檢測分支是采用可變形卷積Deformable Convolution 的CenterNet[13],以中心點熱力圖的形式實現目標定位,簡化了極大值抑制(Non Maximum Suppression,NMS)流程,減少背景的干擾。目標檢測特征提取主干網絡為DLA-34,融合多尺度、多通道、多模組的特征,提高目標檢測定位精度,保障目標跟蹤分支算法的性能。FairMOT 算法的基本流程如圖2所示。
圖2 FairMOT多目標跟蹤框架的兩大分支和邏輯結構Fig.2 Two main streamlines of FairMOT multi-object tracking framework
FairMOT 采用的損失函數值包括4 個部分:hm_loss(Lhm)、wh_loss(Lwh)、offset_loss(Loffset)和id_loss(Lidentity)的加權和??偟膿p失函數Ltotal是目標檢測分支和目標重識別分支兩者損失的加權和,即
式中:w1和w2分別為目標檢測分支損失和目標識別分支損失的權重,兩者均為在模型訓練過程中可動態(tài)變化的參數;λ1、λ2、λ3為常量,反映了目標檢測分支中熱力圖損失hm_loss(Lhm)、目標中心點預測損失offset_loss(Loffset)和目標邊界框回歸寬高比損失wh_loss(Lwh)的加權系數。各個損失值含義如表1所示。
表1 多目標跟蹤網絡損失函數Table 1 Loss functions of multi-object tracking algorithm
利用FairMOT 框架檢測跟蹤視頻中的行人目標,逐幀輸出各目標運動軌跡時序特征描述子,反映視頻序列中各個目標的可觀測物理屬性,是包含了行人目標身份唯一標識,目標的位置,以及目標所存在的幀數等信息的7維特征向量,即
式中各分量意義如表2所示。
表2 行人多目標跟蹤算法的輸出結果Table 2 Results of multi-object pedestrian tracking
對于行人目標,從視頻中出現直至消失時間內的所有特征描述子,構成該目標運動軌跡特征向量。為簡潔地描述目標在不同時刻的位置屬性,將目標邊界框坐標轉化為質心點坐標,即
式中:(xc,yc)為像素坐標系下的目標質心位置。
得到目標質心點位置的表征后,進一步求解目標的運動方向和位移特征描述子,通過逐幀質心差分實現,即
最終,目標運動軌跡時序特征描述子為
整合目標身份標識相同的所有特征描述子,得到描述運動軌跡特征的向量組。每一個向量組在坐標平面內可形成一條軌跡,各目標的軌跡構成一個軌跡簇。
式中:Fi為視頻中第i個目標的所有特征描述子V所組成的運動軌跡特征向量組;FTraj為從視頻序列中提取的軌跡簇,包含N個目標的運動軌跡特征向量組。
提取行人目標運動軌跡,獲取各個目標在時空維度的變化信息,是數據驅動軌跡建模必要的基礎。因而,數據質量是關鍵,有必要識別出軌跡中的噪聲,加以修正或剔除,實現對提取原始軌跡信息的清洗。
通過分析FairMOT 多目標跟蹤算法提取的行人原始軌跡簇,結合行人過街的完整過程,本文定義一種“準靜態(tài)軌跡”,這類軌跡源于目標跟蹤算法對監(jiān)控視野內存在的目標無差別地展開跟蹤,從而捕捉到行人駐足等待紅綠燈或者在路緣帶上逗留等原地駐足或小幅度徘徊行為的軌跡,在圖像中,這類軌跡分布在以某特定點為圓心的小半徑圓域范圍內。相對于行人過街的正常軌跡,準靜態(tài)軌跡無明確方向性,缺乏對行人過街軌跡移動的整體趨勢和OD 等語義信息描述,若不予剔除,將對后續(xù)行人過街行為的空間起點、終點等OD語義特征的提取和分析引入噪聲干擾。
協(xié)方差(covariance)可衡量隨機變量觀測值之間的變化程度,本文將其用以判定一個軌跡樣本是否屬于準靜態(tài)軌跡。對于行人目標j,選取特征描述子xc、yc分量,構成目標j的運動軌跡,每個軌跡點表示為一個坐標對(xt,yt),t=1,2,3,…,n,n是目標j在視頻中出現的總幀數。所有軌跡點的x分量和y分量構成兩個向量X、Y,X=(x1,x2,x3,…,xn)和Y=(y1,y2,y3,…,yn),計算X、Y的協(xié)方差矩陣Σ,即
式中:Varregularized(X)和Varregularized(Y)是為了消除軌跡長度的影響,對X和Y向量的原始方差進行規(guī)范化的結果,即
理論上,若某個軌跡為準靜態(tài)軌跡時,該軌跡X向量的方差Varregularized(X) ,Y向量的方差Varregularized(Y)以及X、Y的協(xié)方差Cov(X,Y)等指標值將明顯小于正常軌跡情況下對應的指標值。
為了從原始軌跡簇中針對性地篩除準靜態(tài)軌跡,根據協(xié)方差矩陣中元素值的分布特點,本文提出一種時空坐標協(xié)方差濾波算法STCCF(Spatial-Time Coordinate Covariance Filtering)。C0、C1分別表示原始軌跡簇、準靜態(tài)軌跡簇所構成的集合,濾波流程如下:
(1)初始化判別閾值Gx,Gy,Gco(協(xié)方差、方差閾值)。
(2)遍歷C0中的各樣本Ti,計算Ti的協(xié)方差矩陣元素值 Varregularized(TiX)、 Varregularized(TiY)、Cov(TiX,TiY);若(Varregularized(TiX)<Gx?Varregularized(TiY)<Gy)?(Cov(TiX,TiY)<Gco),則C0=C0Ti,C1=C1?Ti。
(3)遍歷結束,輸出C0。
其中,對各軌跡樣本分別計算如式(12)所示的協(xié)方差矩陣,繪制協(xié)方差矩陣中Varregularized(X) 、Varregularized(Y)、Cov(X,Y)等參數的散點圖,根據散點圖中的數據分布規(guī)律特征,能將準靜態(tài)和非準靜態(tài)軌跡對應的參數數據點分離的數值即為對應的判別閾值Gx,Gy,Gco。
基于上述分析,計算原始軌跡簇中X和Y坐標的協(xié)方差矩陣。對比計算結果發(fā)現,若軌跡為準靜態(tài)軌跡時,軌跡點高度集中分布,X、Y序列之間的相關性弱,軌跡的X向量方差Varregularized(X),Y向量方差Varregularized(Y) 以及X、Y的協(xié)方差Cov(X,Y)等指標值均顯著低于正常軌跡對應的指標值。由此,通過閾值判斷,剔除準靜態(tài)軌跡,得到清洗后的軌跡簇,用于后續(xù)軌跡數據分析和特征提取工作。兩類軌跡典型形態(tài)如圖3所示。
圖3 準靜態(tài)與非準靜態(tài)軌跡形態(tài)對比Fig.3 Comparison between quasi-stationary and normal trajectory samples
圖3(a)、(b)為視頻中位于人行橫道兩側的準靜態(tài)軌跡樣本,圖3(c)、(d)為正常軌跡樣本,兩類軌跡在空間形態(tài)上有明顯區(qū)別(圖中所有坐標系均為同一個像素坐標系)。值得注意的是,若捕獲的行人軌跡同時包含準靜態(tài)階段和正常過街階段,該軌跡整體的協(xié)方差矩陣參數值亦顯著區(qū)別于單純的準靜態(tài)軌跡,因此,本文STCCF算法將選擇性地濾除單純的準靜態(tài)軌跡。
對于監(jiān)控場景,行人目標軌跡反映其運動的狀態(tài),大量目標個體軌跡構成的軌跡簇,隱含了該場景中目標的“源點”“消失點”等具有統(tǒng)計性描述意義的語義特征信息,對應行人過街行為的空間起點、終點,表征行人群過街行為發(fā)生的源頭和行人過街的去向。本文將行人進入監(jiān)控視野和離開監(jiān)控視野分別定義為事件A和事件B,基于概率統(tǒng)計原理,設事件A、事件B發(fā)生頻率最大的位置為“源點”及“消失點”。在特定場景下,源點和消失點是相對固定的,如圖4(a)所示,在人行橫道上,正常情況下行人產生過街行為的起點、終點位置多分布在人行道的兩端,若某時刻某個行人軌跡的“源點”“消失點”出現較大的變動,如圖4(b)所示,可認為目標存在異常過街行為。本節(jié)采用K-means算法,從大量軌跡簇中解析出“源點”“消失點”等語義信息,后續(xù)可進一步用于數據驅動的行人軌跡建模分析或行人異常軌跡檢測。
圖4 多目標運動語義信息Fig.4 Illustration of multi-object motion semantic information
對于每一個目標i,從前述定義的特征描述子中的Si提取前3 幀和末3 幀的質心坐標xci,yci,i=1,2,3,n,n-1,n-2,取均值作為該目標運動軌跡的源點oi和消失點di。設集合O和D為源點集和軌跡集,分別包含多目標跟蹤算法捕獲的原始軌跡(包括準靜態(tài)軌跡)的所有源點和消失點。
K-means 算法是無監(jiān)督機器學習算法,將一系列數據點劃分為若干類。包含以下步驟:
Step 1 給定一包含了z個樣本的數據向量X(x1,x2,…,xj),xj∈Rn(j=1,2,3,…,z),期望將樣本聚類成K個類。
Step 2 隨機選取K個聚類中心,分別是{μ1,μ2,…,μK} ,μ(j)∈Rn(j=1,2,3,…,K)。
Step 3 針對每個樣本xi,遍歷計算它與第j個聚類中心的距離,j=1,2,3,…,K,與之距離最小的那一類視為該樣本所屬的類 ,
Step 4 遍歷所有樣本,計算它們所屬的類,并通過更新聚類中心為
式中:1{·} 為二值判別式,條件為真時該判別式(19)取值為1;否則,取值為0。
Step 5 重復循環(huán)Step 3 和Step 4,直至式計算的聚類中心收斂,并輸出收斂時的聚類中心。
本文算法提取語義特征的關鍵是確定場景中行人目標源點和消失點的最佳數量和位置,為實現該目的,引入輪廓系數S(Silhouette Coefficient)和DB指數(Davies Bouldin Index)兩種指標。定義聚類后的每一個類ζ(ζ=1,2,3,…,K)的輪廓系數Pζ為
式中:d(i,j)為第i個樣本和第j個樣本的距離;|· |為某個類中的樣本數量;a為遍歷屬于類Cm的任意一個樣本點i,計算它與類內其他所有樣本點距離的均值,a衡量了屬于同一聚類簇內樣本數據的相似度;b為遍歷屬于類Cm的任意一個樣本點i,計算每一個樣本點與距離最近的一個聚類中心Ck所對應的那一類中所有樣本點的距離,并取所有距離的均值,b衡量了屬于不同類樣本數據彼此間的差異度。在b值計算過程中,類與類之間距離的衡量依據是類中心點之間的歐氏距離,即
式中:Ωi、Ωj為類i、類j的中心點;Di,j為類i和類j的歐氏距離。
對全體數據的聚類結果,S 系數(Silhouette Coefficient)定義為
設一個含N個數據點的集合,聚類算法將其劃分為K個類,DB指數定義為
式中:Ωζ為第ζ個類的中心點;為第ζ個類中所有樣本到該類中心的距離的平均值。
為驗證多目標跟蹤FairMOT 框架及K-means聚類行人軌跡提取方法的有效性,本文實驗介紹行人多目標跟蹤和運動軌跡提取的視頻監(jiān)控數據,針對多目標跟蹤FairMOT框架進行二次訓練,提取視頻中的行人運動軌跡;應用本文所述的協(xié)方差濾波算法,剔除準靜態(tài)軌跡,實現數據清洗;依據S指數和DB 指數判定基于K-means 的最佳聚類數量,提取行人運動軌跡簇中的語義特征。
為獲取足量行人目標軌跡樣本,視頻監(jiān)控視角選取市區(qū)中心行人流量較大的平面道路交叉口。實驗中的視頻監(jiān)控序列取自網絡上公開的實時監(jiān)控數據,位于日本東京都新宿區(qū)西新宿1 丁目(139.70°E,35.70°N)的一個高位監(jiān)控視角,全天候捕獲1 個標準4 路交叉口十字路口的實時路況,視頻監(jiān)控設備位于東出口處。該位置的地圖、衛(wèi)星俯視圖和實景監(jiān)控視角如圖5所示。
圖5 實驗中選取的監(jiān)控視角地理位置和實景圖Fig.5 Demonstration of location of road side surveillance scenario
訓練FairMOT目標檢測分支網絡用到的設備:操作系統(tǒng)windows10,CPU 為Intel Core i5 6500,內存為DDR4 16 G,GPU 為Nvidia RTX2060S(8 G),訓練環(huán)境為pytorch1.2.0,torchvision0.4.0。
城市路側監(jiān)控視角下,密集小目標行人群場景較常見,為提高FairMOT對密集行人小目標的檢測和跟蹤能力,使算法提取到更完整、更充足的軌跡數據,本文選取曠視科技的開源數據集CrowdHuman 對目標檢測分支CenterNet 部分的網絡進行訓練。該數據集拍攝的視角包括水平拍攝和高位拍攝,場景涵蓋都市區(qū)步行街、游行、聚會等高密度人群的場景,平均每張圖片包含22.64 個人類個體。CrowdHuman 與目前用于行人檢測的開源數據集相比,在單張圖片包含的人類個體數、人類個體動作姿態(tài)的多樣性等指標上明顯更優(yōu)。
目標檢測分支采用Centernet網絡,其主干網絡選取在COCO數據集上預訓練的DLA-34模型。選取CrowdHuman開源數據集中的15000張圖片作為訓練集,4370 張作為測試集,對DLA-34 網絡結構進行二次訓練,設置訓練輪數為30 輪,batchsize 為2,采用學習率遞減的策略,初始學習率為10-4,每迭代滿20 個epoch 時學習率衰減為原來的10%。優(yōu)化器為Adam,其余的訓練超參數設置參考CenterNet開源模型[13]中的建議值,如表3所示。
表3 多目標跟蹤網絡訓練參數設置Table 3 Hyperparameters for training multi-object tracking network
訓練時的損失函數、目標檢測的平均精度(mAP)和召回率(Recall)隨訓練輪數的變化曲線分別如圖6~圖8所示。從總的訓練損失看,雖然訓練5輪之后網絡總的損失函數已基本收斂,但第20輪時調整模型學習率后,總損失仍有小幅度下降。
圖6 FairMOT目標檢測分支訓練輪數-損失值變化曲線Fig. 6 Curve of loss function value versus training epoch of object detection branch in FairMOT
圖7 FairMOT目標檢測平均精度變化曲線Fig.7 Curve of FairMOT object detection branch mAP versus training epoch
圖8 FairMOT 目標檢測平均召回率變化曲線Fig.8 Curve of FairMOT object detection recall versus training epoch
hm_loss、id_loss、offset_loss 和wh_loss 這4 個損失值隨訓練輪數變化曲線如圖9所示。縱軸為各項損失值,橫軸為訓練輪數。在輪數為20時,模型訓練學習率從10-4調整為10-5,因而,曲線出現不同程度的抖動,隨著訓練的推進,各損失值再次呈現下降趨勢,且在20輪之后的訓練中,各項損失值曲線趨于平緩,可認為模型訓練逐漸逼近收斂態(tài)。
圖9 訓練過程中損失函數各項損失值時變曲線Fig.9 Time-varying curve of each loss function component during training
考慮到從20 輪開始,訓練的各項損失函數值變化逐漸趨緩,為確定最佳的網絡訓練權重,綜合對比分析訓練20 輪之后模型的平均精度和召回率,如圖7和圖8所示,第30輪時平均精度mAP最高,達0.5772,召回率達0.6794,僅次于27 輪的0.6797。因此,選取第30 輪訓練所得的權重載入FairMOT目標檢測分支,二次訓練后的FairMOT將對整個視頻監(jiān)控場景(包括:靠近攝像頭一側的人行道,距離攝像頭較遠的人行道)內的行人個體實施目標跟蹤和軌跡捕獲,輸出目標出現在監(jiān)控視野時段內的運動軌跡時序特征描述子。
實驗中,城市平面交叉口人行道高密度、小目標行人場景下,模型跟蹤性能達7.2 frame·s-1。CrowdHuman數據集二次訓練前、訓練后模型的檢測性能對比如圖10所示。小矩形方框包圍的區(qū)域表示算法檢測和跟蹤的行人目標。
圖10 CrowdHuman數據集訓練前、后模型對高密度、小尺寸行人群目標檢測效果對比Fig.10 Trained and untrained model performance comparison in dense crowd and small pedestrian target scenario
圖10(a)、(c)對比結果顯示,經二次訓練后的模型,在距離攝像頭較遠、目標密度較大、目標尺寸較小的條件下,仍可檢測出視野中的行人目標;圖10(b)、(d)對比表明,本文引入的二次訓練提高了模型在距離攝像頭較近的接近垂直視角下的密集行人群檢測能力,使模型從視頻中提取到的目標軌跡魯棒性更強。
利用FairMOT 算法提取視頻幀中人行道上的行人目標運動軌跡,共提取2689 條行人軌跡。實驗發(fā)現,距離攝像頭較近一側人行橫道上的目標運動特征更加明顯,該區(qū)域軌跡長度比其他方位人行橫道區(qū)域中的目標軌跡更長,包含更豐富的時序運動特征,更利于數據驅動的軌跡建模分析。因此,本文設置了場景中的感興趣區(qū)域AOI(Area of Interests),如圖11所示。
圖11 視頻監(jiān)控場景中AOI以及完整場景下的軌跡跟蹤結果Fig.11 AOI in surveillance scenario and whole trajectory tracking results
圖11(a)中感興趣區(qū)域范圍內的行人目標運動軌跡,作為后續(xù)數據驅動的軌跡預測建模的樣本;提取整個視頻視角內行人軌跡語義特征時,選用整個監(jiān)控視頻區(qū)域內提取到的2689條行人目標運動軌跡。
實驗中使用滑動平均濾波法[14]對軌跡坐標序列進行平滑,消除軌跡的毛刺。對原始FairMOT算法輸出的2689 條軌跡進行協(xié)方差濾波處理,經實驗反復嘗試,最終閾值的設置如表4所示。
表4 軌跡坐標協(xié)方差濾波法參數設置Table 4 Parameters setting in trajectory coordinate covariance filtering algorithm
在上述閾值參數設定下,算法篩選出179條判斷為準靜態(tài)軌跡的樣本,經統(tǒng)計分析,有219 條準靜態(tài)軌跡,算法檢出率為81.73%。造成漏檢的主要原因是:由于閾值設置是綜合考慮了各個軌跡的數據取值范圍等分布規(guī)律后設定的固定閾值,靠近攝像頭區(qū)域的目標成像相對較大,準靜態(tài)軌跡在圖像中占據更大的像素范圍,相應的坐標協(xié)方差參數超過閾值的可能性也相應增加,導致在統(tǒng)一的閾值設定下,算法將部分位于近景處的準靜態(tài)樣本識別為正常軌跡(圖12(a)中的虛線箭頭),距離較遠的則被成功識別(圖12(b)中實線箭頭)。后續(xù)將考慮引入場景語義分割掩膜,精細化地將場景分塊,對處于近景處和遠景處的軌跡采用不同的固定閾值,以進一步提高準靜態(tài)軌跡的檢出率。
圖12 近景處和遠景處準靜態(tài)軌跡示意圖Fig.12 Demonstration of near view quasi-stationary trajectory and far view quasi-stationary trajectory
為驗證本文將協(xié)方差矩陣參數作為準靜態(tài)軌跡判據的可行性,針對成功識別出的準靜態(tài)軌跡和正常軌跡兩類軌跡,分別提取并統(tǒng)計其中若干樣本的坐標協(xié)方差數值分布特征。如圖13所示。兩類軌跡的協(xié)方差矩陣參數具有不同的數值分布特征,證明了本文所提出的協(xié)方差濾波方法的有效性。
圖13 準靜態(tài)軌跡與正常軌跡的坐標協(xié)方差參數值特征對比Fig.13 Comparison of coordinate covariance values between quasi-stationary trajectories and normal trajectories
將提取得到的軌跡簇作為K-means 算法的輸入,待聚類的樣本數據分別是前述的源點集O和消失點集D,實驗中設置不同的聚類數k,k∈[2,15] ,為了簡潔,源點聚類的部分結果如圖14所示,圖中標記位置為算法解析出的聚類中心。
圖14 不同聚類數下的軌跡源點-消失點聚類結果Fig.14 Source-Vnishing point results with different clustering number
k∈[2,15] 對應的S 系數和DB 指數曲線圖如圖15所示。
圖15(a)為源點聚類的S 系數和DB 指數隨聚類數的變化曲線,圖15(b)為消失點聚類結果的S系數和DB指數隨聚類數變化的曲線。輪廓系數S取值范圍為[-1,1],聚類結果中同類別樣本距離越近,不同類別樣本距離越遠,聚類效果越好,S越接近于1;通過計算類中各點與類中心的距離平方和來度量類內的緊密度,通過計算各類中心點與觀測數據中心點距離平方和來度量觀測數據的分離度,DB指數計算不同聚類簇之間的相似度,DB指數越小,類間相似度越小,聚類效果越好。
圖15 不同聚類數對應的S指數和DB指數曲線Fig.15 Coefficient and DB index-cluster numbers curves
對于源點聚類,聚類數k=5 時,S 系數達到峰值0.577,DB 指數達到最小值0.57;對于消失點聚類,聚類數k=6 時,S系數達到峰值0.607,DB指數達到最小值0.522,因此,認為實驗選取的視頻監(jiān)控中行人源點有5 處,消失點有6 處。分別將源點和消失點聚類中心坐標提取出來,繪制在視頻監(jiān)控圖像上,得到對應實景圖中的行人源點和消失點如圖16所示,圖中圓形和三角形標記區(qū)域為K-means算法輸出的聚類中心位置。
圖16 聚類算法輸出視頻監(jiān)控中的行人源點和消失點Fig.16 Source and vanishing points generated by clustering algorithm
該監(jiān)控場景下行人源點和消失點在西北角處有差異,其余5個位點處源點及消失點幾乎成對出現。通過人工觀察分析,產生差異的原因如圖17所示(為簡潔,僅繪制出導致差異的行人流線)。圖17中,虛箭線表示沿該方向過街的人流量少,實箭線意義相反。圖中編號②和③兩股行人流流量懸殊,故A處存在由編號②的行人流構成的消失點,而無相應的源點;而B處既存在由編號①的行人流構成的消失點,也存在由編號②的行人流構成的源點。
圖17 行人流的方向性導致的源點-消失點匹配不平衡現象Fig.17 Illustration of unbalanced source-vanish points caused by directional pedestrian flows
通過基于多目標跟蹤的軌跡數據聚類過程,挖掘大量的軌跡數據點和軌跡數據本身所包含的空間分布規(guī)律,提取出場景中人行道上行人源點和消失點,理解并解析出整個軌跡數據簇所包含的一種內在場景語義信息。本文算法和重點旨在自動地從城市平面交叉口人行道視頻監(jiān)控場景下,提取密集小目標行人群過街行為的軌跡,并感知行人流過街起點和終點,便于后續(xù)重點關注的源點-消失點區(qū)間范圍內的軌跡,排除其余的無關片段,按照軌跡經過不同的源點-消失點進一步劃分不同OD的軌跡集,針對性地分析各子集內的軌跡特性,以及在軌跡預測建模時,引入OD 先驗信息等,提高行人過街行為分析的精度和細粒度。
本文的方法對不同交叉口監(jiān)控視角均具有適用性,主要聚焦于密集小目標場景下的跟蹤、跟蹤結果數據語義特征信息的挖掘,減少人為的軌跡區(qū)域劃定,軌跡起點、終點標定等主觀干擾,所提取的語義信息立足于場景中行人個體的真實行為軌跡數據,在后續(xù)行人過街行為預測建模、異常過街行為檢測等工作中提供先驗判據。
針對現有密集行人群相互遮擋、目標成像小、特征不突出,運動識別和軌跡提取較困難,場景中的運動語義信息分析不足等問題,本文借助密集人群數據集CrowdHuman訓練后的FairMOT框架,從視頻中提取密集行人群運動軌跡簇,提出協(xié)方差濾波算法STCCF 清洗原始軌跡簇,依據S 系數和DB指數確定最佳K-means聚類簇數,實現運動軌跡的語義感知。
實現城市平面4 路交叉監(jiān)控場景下密集過街行人群的識別和跟蹤,算法速度達7.2 frame·s-1,提取出2689 個行人目標的軌跡,存儲為二維空間坐標的形式,算法檢出和篩除179 條準靜態(tài)軌跡,減少了軌跡集的數據噪聲。本文從統(tǒng)計學概率角度,定義運動語義,利用K-means 算法,通過S 系數和DB 指數確定最佳的聚類數,對大量的行人目標軌跡簇的起點和終點進行聚類分析,并解析出該交叉路口場景中的5 處行人源點和6 處行人消失點,與人工判別的結果吻合,在未知視頻場景中目標運動的起點、終點的條件下,自動剖析軌跡數據隱含的特征,合理地估計行人過街聚集和消散的區(qū)域。
本文利用多目標跟蹤算法,從路側交通監(jiān)控視頻中,提取出密集行人群過街的軌跡數據,考慮行人實際過街行為過程的細節(jié),剔除準靜態(tài)軌跡等異常數據,解析場景內行人流源點、消失點等運動語義,從場景中提取可供行人過街行為建模的原始軌跡數據集,驗證了目標跟蹤-軌跡提取-數據驅動建模的技術路線的可行性。