何繼燕,郜魯濤,趙紅波
(云南農業(yè)大學,云南 昆明 650201)
隨著對社會各領域信息獲取需求的日趨強烈,數(shù)字視頻監(jiān)控技術的應用逐漸變廣。在商業(yè)領域、公安治安領域、城市管理領域、智能交通領域,以及其他相關安全防范領域對攝像頭監(jiān)控技術有了更多需求。在傳統(tǒng)監(jiān)控模式中,大多數(shù)采取人工觀看監(jiān)控,存在易漏看,發(fā)現(xiàn)問題不及時等弊端。大量錄制的視頻都從未進行觀看或審查,因此忽略了許多可疑行為,導致很多可以提前預防的事件依然發(fā)生。只能實現(xiàn)事后取證,會使解決事件的最好時機錯失且對造成的損失無法挽回。因此,針對應用視頻智能監(jiān)控技術來實現(xiàn)更高效的自動監(jiān)控并配以報警功能,對視頻序列中的運動目標進行人臉檢測,統(tǒng)計檢測區(qū)域的人數(shù),自動識別異常人員及非法運動目標,使事后取證的被動防守變?yōu)橹鲃臃烙鶊缶膯栴}[1-3],構建了一個人物分割與人群跟蹤相結合的人物計數(shù)系統(tǒng)。
行為采集:在有關金融單位重點部位的出入口(金庫、加鈔間)和自助銀行、加鈔間、ATM機具、數(shù)據(jù)中心機房等位置安裝智能視頻分析設備,設定前端設備分析規(guī)則。
行為分析:啟動行為分析規(guī)則,對金融單位各機構警戒線、警戒區(qū)域進行視頻智能分析。
報警提示:區(qū)分滿足條件的非法活動目標并自動報警。
自助營業(yè)廳出入口加裝一臺智能跟蹤高速球,在ATM自助設備上加裝2個針孔攝像機,一個用于拍攝自助設備前正面的人臉圖像,另一個用于拍攝自助設備客戶操作區(qū)。
視頻人數(shù)統(tǒng)計技術采用智能視頻分析算法,由視頻畫面分析檢測活體(人體頭、肩部)形狀,在設定區(qū)域內分析進出的個體數(shù)量,實現(xiàn)相關人數(shù)數(shù)據(jù)的統(tǒng)計、記錄[4]。整個統(tǒng)計過程如圖1所示。
在營業(yè)廳每個進出口,架設人流量統(tǒng)計攝像機,通過視頻畫面雙向統(tǒng)計單個工作日進出營業(yè)廳的人流;亦可計算出單位時間內的人流數(shù),再由后端處理出報表。還可以進行營業(yè)廳人數(shù)報警閾值的設置,當營業(yè)廳的人數(shù)達到或超過人數(shù)報警閾值時,就向管理平臺發(fā)出預警告警信息。
人流量統(tǒng)計視頻截圖如圖2所示。
圖2 人流量統(tǒng)計視頻截圖
文中搭建的人物計數(shù)系統(tǒng)包括目標檢測、人物分割以及人數(shù)統(tǒng)計三部分算法。其中人物分割用于區(qū)分視頻中出現(xiàn)的是單人還是多人。在算法中考慮以下問題:當視頻出現(xiàn)遮擋時,會有誤差在分割結果中產生。在對多人進行跟蹤步驟中,人群移動軌跡的發(fā)展變化會被記錄,從而補償遮擋所造成的誤差。結合背景差分和幀間差分的方法將背景中的運動目標分割,有效統(tǒng)計人群中的人數(shù)。
對目標進行檢測并粗略分割。檢測提取監(jiān)控區(qū)域運動目標后濾除噪聲,分割并標注背景區(qū)域中被認定為人群的區(qū)域,分別對人群和單人進行計數(shù),由數(shù)據(jù)相加得具體人數(shù)。統(tǒng)計流程如圖3所示。
圖3 人流量統(tǒng)計流程
(1)人群目標提取。
現(xiàn)有關于目標提取方法大都基于三種模式:幀間差分法、背景差分法和光流法。考慮提取效果和實時性的要求,文中結合背景差分算法與幀間差分算法的方式提取目標。其中背景差分算法負責提取前景并識別多人目標,幀間差分算法完成背景更新[5-6]。
背景差分法是利用當前圖像與預存背景圖像做差分后,用閾值檢測運動物體的一種目標識別技術。所謂幀間差分法,是選擇視頻圖像序列中相鄰圖像信息作差分運算從而獲取運動目標,文中算法采用幀間差分不斷改變背景圖像。
建立動態(tài)矩陣Dij(k)并在其中儲存每個像素的運動狀態(tài)。對比相隔一定數(shù)值的兩幀畫面,判定兩幀畫面像素值沒有發(fā)生變化的為背景,將像素更新到背景矩陣中。Dij(k)和幀間差分圖像如下:
(1)
Dij(k)=
(2)
其中,Iij(k)表示k時刻的輸入幀,下標i,j是像素橫縱坐標;γ是兩幀畫面之間像素比較的時間間隔;Tf是判斷像素是否發(fā)生變化的閾值。如果若干像素比較變化小于閾值,則Fij(k)記為0。式2中的λ為像素運動時的時間長度。像素動態(tài)矩陣中Dij(k)為零時,更新當前像素到背景矩陣中,背景矩陣更新規(guī)則用下一組公式表示:
Bij(k)=α*Iij(k)+(1-α)*Bij(k-1)
(3)
其中,Bij(k)表示k時刻放入背景矩陣的內容;α(0<α<1)是加權值。這個內容由k時刻的視頻內容與k時刻前一時刻的背景矩陣內容組合而成。
以上融合方法避免了混合高斯模型下巨大的計算量,使實時性得以確保。同時避免了背景變動下的前景提取不精確及幀間差分法的前景目標不完整的問題。
(2)人物分割。
人物分割將進入監(jiān)控范圍內的目標分成兩部分:單人和多人。如果判斷出為單人進入監(jiān)控,則進行單人建模,并跟蹤其運行軌跡。如果判斷出是群體進入監(jiān)控,將采用基于頭肩的檢測算法,由提取圖像中人體的頭肩部特征進行人員個數(shù)判斷[7]。處理時,采用HOG算法對圖像邊界的方向進行直方圖統(tǒng)計得到特征向量,用支持向量分類后,得到頭肩和非頭肩區(qū)域,獲得多人中的具體人數(shù)。這樣避免了移動人員檢測法中以顏色作為特征識別目標的局限性,同時可識別靜止目標,故精確性更高、魯棒性更強。且該方法受人群疏密度影響小,只要圖像中人員的頭肩部分可觀察,算法即可用[8-9]。
基于頭肩的檢測算法可以細分成5部分:
①梯度的計算。
算法是對目標梯度圖像分布的描述,用以統(tǒng)計邊界信息。先用一維模板[-1,0,1]連同轉置梯度化原圖像得到圖像的邊界信息。
②方向直方圖的構建。
分割出現(xiàn)有梯度圖像中的一個區(qū)域塊為對象,將其劃分為大小不同的三種等級單元格:由區(qū)域塊劃分出2×2的一級矩形小單元格,再從一級小單元格中劃分為2×2的M級矩形小單元格,以此類推,共三個等級。
③歸一化區(qū)域塊。
為提高精確度,將局部直方圖進行對比度歸一化。計算各直方圖在區(qū)域塊中的密度,根據(jù)密度值對區(qū)域塊中的各個方格單元歸一化后,對光照變化和陰影具有更好的穩(wěn)定性。
④特征向量的合成。
選定“區(qū)域塊”作為單元形成特征向量。按次序依次把三個等級的小單元格形成的直方圖排列成特征向量,構成描述子。處理對象互有重合,每一個細胞單元的輸出多次作用于最終的描述子,以不同的值出現(xiàn)在最終的特征向量中。
⑤向量機(SVM)分類器的支持。
將樣本的HOG特征向量輸入到SVM中;對SVM利用正負訓練集實現(xiàn)訓練,尋求一個最優(yōu)超平面為決策函數(shù),進而得到SVM分類器,再利用得到的SVM分類輸出圖像以得到頭肩、非頭肩區(qū)域[10]。
算法流程總結為:首先通過高斯建模得到一個完整的、不包含運動物體的背景,通過背景差分提取運動目標,進行二值化和中值濾波,濾除離散噪聲;其次對人物輪廓用垂直直方圖產生對應曲線;最后利用面積統(tǒng)計法統(tǒng)計人數(shù)。定義單個人物的區(qū)域大小為Np像素??紤]衣物等因素,一般情況下單人的像素閾值是Np的1.4倍。同時,由于交叉、遮擋區(qū)域等因素的存在,圖片中人數(shù)與像素值呈非線性關系,即N個單人圖像面積的總和大于N個人重疊的圖像區(qū)域。由大量實驗結果可得,當Np≤Nmo<1.4Np,判定為單人;若Nmo≥1.4Np,判定為多人。其中Nmo是像素數(shù)量。
(3)人物統(tǒng)計。
視頻中的高點最大值為單人頭部,當曲線中的峰值大于一個閾值時,則可以判定為一個人物頭部[11-12]。閾值與圖像中人物的身高有關,此高度又隨攝像機的距離變化[13]。因此,可記錄人沿直線走向攝像頭過程中的高和大小,再由記錄數(shù)據(jù)估算圖像中的大小與實際大小的關系。采用該方法,可使監(jiān)控區(qū)域中出現(xiàn)的人物設置成相同高度。如圖4所示,I1是點O與A之間的距離,I2是P與B之間的距離,可得:
(4)
圖4 攝像頭校準圖
(5)
其中,Tix(k),Tiy(k),Mjx(k),Mjy(k)分別為Ti,Mj的邊框中心點(i=1,2,…,m,j=1,2,…,n)。
通過前景目標與其位置的距離判斷人群變化。根據(jù)邊框中心點、邊長信息確定面積。設目標跟蹤的返回值為BT,目標在圖像上的真實映射為BM,S表示面積,則兩者的重疊率計算如下:
(6)
圖5 人群變換示意
利用T(k)與M(k)的相關性確定跟蹤過程。定義人群目標前景TQP、單人目標前景TDP,人群前景估計MQP和單人前景估計MDP。兩者的匹配與更新的過程即為跟蹤過程??煞譃橐韵铝N:
(1)TDP與MDP匹配,更新TDP。
(2)MDP與TQP匹配,意味需跟蹤從人群中走出的單人,并更新群數(shù)量。
(3)MQP與TDP匹配,意味人群中走入單人,需將其從計數(shù)中刪除,更新人群。
(4)MQP與TQP匹配,存在三種可能:兩者為同一人群,可刷新人群人數(shù);TQP大于MQP,需更新TQP;TQP小于MQP,刪除TQP。
(5)若TDP、TQP與MQP、MDP不匹配,監(jiān)控范圍中進入新的人物。
(6)若MQP、MDP與TDP、TQP不匹配,監(jiān)控范圍中的人物走出場景。
在復雜多變的環(huán)境下,針對當前視頻監(jiān)控系統(tǒng)不能精確統(tǒng)計特定區(qū)域人數(shù)導致的智能分析有誤的問題,設計了結合背景差分法與幀間差分的監(jiān)控視頻智能分析方法,實現(xiàn)了對視頻圖像的保存、讀取和比較,建立圖像背景,實現(xiàn)了前景單人與群體的提取和分割。
該方法具有較快的處理速度和較好的健壯性,為實現(xiàn)智能監(jiān)控提供了一種可行途徑。