龐爾江
國家知識產(chǎn)權局專利局專利審查協(xié)作天津中心,天津 300304
2008年,IBM在“智慧星球”計劃中首次提到“智慧城市”一詞,并于2010年正式提出“智慧城市”愿景[1-2];2015年,“第十二屆全國人大第三次會議”上,“智慧城市”首次被寫入政府工作報告;2016年11月,國家發(fā)展和改革委員會、中央網(wǎng)絡安全和信息化委員會辦公室、國家標準化管理委員會聯(lián)合發(fā)布《新型智慧城市評價指標(2016年)》,其中一項重要內容就是智慧安防。隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、人工智能、5G等技術的快速發(fā)展,各地建設“智慧城市”的熱情也在不斷高漲[3-4],安防作為“智慧城市”重要的部分,有著巨大的發(fā)展?jié)摿Γ⑶译S著智能化要求的提高,智慧安防已經(jīng)成為行業(yè)大趨勢[5-7]。
智慧安防涉及的專利技術主要包括終端硬件與視頻分析技術。視頻分析技術得益于人工智能技術的發(fā)展,是目前安防行業(yè)研發(fā)的熱點,隨著視頻分析算法的不斷優(yōu)化,智慧安防實現(xiàn)了突破性的發(fā)展,應用領域也越來越廣泛[8]。無論是傳統(tǒng)的安防企業(yè)還是新興的物聯(lián)網(wǎng)企業(yè)都紛紛抓住這一時機,申請了大量的專利,在國家政策的導向和市場需求的刺激下,高校及科研院所對視頻分析算法也投入大量的科研力量進行改進,因此,智慧安防領域視頻分析技術的申請量和申請人數(shù)目呈快速增長態(tài)勢[9-10]。
本文通過對全球專利數(shù)據(jù)樣本進行分析,結合產(chǎn)業(yè)發(fā)展情況和重要申請人的情況,梳理了智慧安防視頻分析技術發(fā)展路線,進而給出專利申請建議。
智慧安防視頻分析技術一般由目標檢測、目標跟蹤、目標分類、行為分析、群體分析組成。
運動目標檢測是對采集到的圖像序列進行背景分割,獲得正確的前景。前景的正確提取對于視頻圖像的后期處理是非常重要的,后期的圖像處理主要考慮分割出的運動目標的像素[11-12]。
目標跟蹤表達為一個測量、狀態(tài)分配和估值問題的組合。目標跟蹤等價于在連續(xù)的視頻圖像之間建立基于位置、速度、形狀、紋理、色彩等有關特征的對應匹配問題[13-15]。
目標分類的目的是識別運動目標所屬的類別。同一區(qū)域可能對應于不同的目標,比較交通道路上監(jiān)控攝像機所捕捉的視頻圖像中可能包含行人、車輛及其他諸如飛鳥、流云、搖動的樹枝等運動物體,為了便于進一步對行人進行跟蹤和行為分析,對目標進行正確分類是完全必要的[16]。
行為分析包括個人行為分析和群體行為分析。在火車站、銀行和公共汽車站等人流量密集的公共場合,常常需要在視頻中識別出行為人的行為,并且需要準確地確定出每個行為人進行各種行為的起始時間和終止時間[17]。
群體行為是一些由多人或多人與物體所組成的團體行為。通過對異常人群事件特點進行分析,總結出通用的代表性的人群異常特征[18]。
智慧安防需要分析大量視頻數(shù)據(jù),得到精確結果,因此,采用何種圖像分析方式,以及對圖像分析方法的改進成為行業(yè)內重點研究內容。本文通過對全球專利數(shù)據(jù)樣本進行梳理,結合產(chǎn)業(yè)發(fā)展情況和重要申請人的情況,梳理了智慧安防視頻分析技術發(fā)展路線,參見表1。
表1 智慧安防視頻分析技術發(fā)展路線
在目標檢測這一技術分支中,剛開始主要采用背景減法和幀間差法進行處理[19-20]。例如,2002年,中國科學院申請的一種利用身材信息輔助人臉信息的身份識別方法,該方法判斷采集到的圖像背景是否強烈變化,并將該強烈變化的部分作為前景,直接從該圖像背景中分割出強變化的區(qū)域,進而從中獲得身材信息[19]。此后,關于目標檢測改進的專利申請量持續(xù)平穩(wěn)增加,此階段支持向量機和學習型算法大量出現(xiàn)。例如,2011年,浙江大學申請的基于主元分析和支持向量機的人臉檢測方法,該方法的主要特點是能夠通過對輸入圖像區(qū)域進行主元分析,同時用支持向量機對分析的中間結果進行分類,從而能夠達到快速高效地進行人臉檢測的目的[21]。2013年,中科院自動化研究所申請的一種基于多任務模型的行人檢測方法,該方法將訓練樣本分為包括不同分辨率行人樣本的訓練樣本集,分別提取不同分辨率的樣本紋理特征;對不同分辨率樣本紋理特征,初始化不同分辨率投影矩陣,并根據(jù)所述不同分辨率投影矩陣,將不同分辨率樣本紋理特征投影到一個公共子空間上,在所述公共子空間上定義一個分類器,以檢測投影后的檢測樣本是否為行人樣本,所述分類器和不同分辨率投影矩陣共同組成不同分辨率下的行人檢測器。在訓練階段,利用訓練樣本迭代地優(yōu)化不同分辨率投影矩陣以及所述分類器;在檢測階段,對于待檢測圖像,根據(jù)其分辨率的不同,使用不同分辨率下的行人檢測器進行檢測,并得到最終的檢測結果[22]。隨著深度學習、大數(shù)據(jù)、云計算等多種技術的廣泛應用,檢測準確度和速度都大幅度提升[23-25]。例如,2015年,海康威視申請的一種基于深度相機的身高測量方法及裝置,該方法通過深度相機獲取場景的深度圖像,根據(jù)預先設置的人體特征參數(shù),在深度圖像中進行識別,確定深度圖像中的人體目標;根據(jù)人體目標在深度圖像中的位置,確定人體目標的上端點在深度圖像中的第一圖像坐標和人體目標的下端點在深度圖像中的第二圖像坐標;根據(jù)第一圖像坐標、第二圖像坐標、景深信息和預先設置的相機標定參數(shù),計算第一圖像坐標對應的第一三維坐標和第二圖像坐標對應的第二三維坐標;根據(jù)第一三維坐標和第二三維坐標確定人體目標的高度[23]。2017年,武漢大學申請的一種基于深度尺度學習的行人重識別方法,通過三個層級結構的框架來描述行人重識別的由粗到精的深度判別學習。第一層次是選取來自兩個不同攝像頭視角的監(jiān)控中的人物圖片,然后隨機地把這兩張圖片拼合在一起,作為第二層的原始輸入;第二層次是通過減去平均值和對每個樣本進行標準化來實現(xiàn)預處理,圖片轉換成灰度圖像,形成棧式自編碼網(wǎng)絡的輸入;第三層次是利用每個棧式自編碼帶有的softmax分類器得到一個分類結果。在本發(fā)明中,采用了三個不同隱藏層結構的棧式自編碼網(wǎng)絡,針對上述第三層中所得到的每一個自編碼網(wǎng)絡和分類器的結果,利用加權分配處理機制綜合其分類結果以得到最終的分類精度,根據(jù)是對同一人的相似程度大于不同人的相似度原理實現(xiàn)最終的行人重識別判別結果[25]。
在目標分類這一分支中,最初主要是特征對比,例如,2005年,由日立歐姆龍公司申請的利用面部圖像檢測ATM的非法使用者的方法,該方法通過照相機獲取交易處理中的使用者的面部圖像,從獲取的圖像中檢測出使用者的面部區(qū)域,根據(jù)檢測出的面部區(qū)域和在該信息處理裝置中包含的或在經(jīng)網(wǎng)絡連接的存儲裝置中預先登錄的面部信息,進行面部識別,根據(jù)面部識別結果判定使用者是否為預先登錄的嫌疑人的處理[26]。隨后,目標分類技術向多個方向發(fā)展[27-28],例如,2011年,??低暽暾埖囊环N基于目標邊緣方向的目標分類方法,該方法根據(jù)當前幀和背景圖像的差獲取當前圖像中的運動目標區(qū)域,對運動目標區(qū)域內的圖像計算邊緣梯度方向,對所述邊緣梯度方向按方向角度進行統(tǒng)計,得到方向直方圖,根據(jù)所述方向直方圖確定運動目標的類型[27]。近幾年,隨著深度學習的廣泛應用,目標分類特別是基于人臉識別的目標分類方向得到了大幅度的發(fā)展[29-30],例如,2018年,由天地偉業(yè)申請的一種基于深度全卷積孿生網(wǎng)絡的實時人臉跟蹤方法,在視頻中給出需要跟蹤的目標人臉,在目標人臉的周圍獲取跟蹤區(qū)域,滑窗使用深度全卷積網(wǎng)絡提取區(qū)域內所有位置的特征,使用孿生網(wǎng)絡架構和匹配算法計算相似度,找出相似度最高的幾個區(qū)域,擬合區(qū)域,精準定位目標人臉[30]。
在目標跟蹤這一技術分支中,最初主要是利用數(shù)字圖像序列進行目標跟蹤,例如,2006年,上海鼎業(yè)電子申請的一種基于立體視頻動態(tài)跟蹤的多攝像機監(jiān)控系統(tǒng),該系統(tǒng)對視頻數(shù)據(jù)信號進行相應處理,形成數(shù)字圖像序列并輸出至圖像處理模塊,圖像處理模塊用于對數(shù)字圖像序列進行包括運動目標檢測與分割算法、目標三維位置信息融合算法的運算處理,生成各目標的包含三維運動與位置信息的下行控制信號,用以控制跟蹤攝像機模塊[31]。隨后,目標跟蹤向多場景發(fā)展[32-33],例如,2012年,海康威視申請的一種智能跟蹤球機的跟蹤方法,該方法確定當前畫面中的最遠距離點和最近距離點,獲得當前畫面的距離范圍,根據(jù)距離范圍計算并在顯示當前畫面的顯示器中畫出等距曲線,在顯示器中計算并畫出跟蹤觸發(fā)的報警線,如果檢測到移動物體,則計算移動物體到指定點的距離;如果周期性計算所得的距離跨度包含預先設定的報警距離,則對移動物體進行跟蹤[33]。近幾年目標跟蹤很重要的發(fā)展方向是大場景環(huán)境下的目標跟蹤[34-36],例如,2016年,??低暽暾埖囊环N目標跟蹤方法,該方法獲取N個子畫面及其對應的全景畫面,在全景畫面中確定目標的第一位置;根據(jù)第一位置,確定目標對應的目標子畫面;根據(jù)每個目標子畫面對應的全景畫面中的第二位置及該第一位置,確定目標在每個目標子畫面中的第三位置;根據(jù)第三位置,在目標子畫面中對所述目標進行跟蹤[35]。
在行為分析這一技術分支中,主要是特征點檢測應用較多[37-40],例如,2012年,浙江大華技術股份有限公司申請的一種劇烈運動目標檢測方法,該方法根據(jù)一幀圖像的前景圖像,對該幀圖像進行特征點檢測,獲得該幀圖像中運動目標的特征點,通過確定該幀圖像以及與該幀圖像相鄰的前一幀圖像中匹配的特征點之間的相對位置關系,確定在該幀圖像中所述運動目標的運動方向和運動幅度,從而可以確定在該幀圖像中,該運動目標是否為劇烈運動目標[39]。
在群體分析這一技術分支中,主要是用于檢測人流密度[41-46],例如,2010年,由海康威視申請的一種可適用多角度應用場景的人流量統(tǒng)計的方法,該方法通過場景標定自動選擇檢測窗口的尺寸,將檢測區(qū)域劃分為若干個子區(qū)域;采用分類器對當前圖像進行人頭檢測,確定當前圖像中的各人頭,對分類器檢測到的人頭進行邊緣特征細篩選處理,對確定出的各人頭進行跟蹤,形成人頭目標運動軌跡,通過對人頭目標軌跡的平滑度分析,去除虛假目標;根據(jù)人頭目標運動軌跡方向進行人流量計數(shù)[42]。
通過分析可知,我國在智慧安防視頻分析這一領域形成了相對成熟的智慧安防研究模式及相關的知識產(chǎn)權。本文通過對技術路線的分析,將各個分支在不同時期的代表技術和專利進行梳理,分析各個分支的發(fā)展脈絡,發(fā)現(xiàn)行為分析和群體分析這兩個技術分支研究方向相對單一,申請人有必要在這兩個分支進行適當?shù)膶@季?。與之相比,目標檢測、目標分類目前研究方向較多,發(fā)展也較為迅速,特別是深度學習算法出現(xiàn)后,無論是準確度還是識別速度都有大幅提高。因此,如何通過優(yōu)化深度學習算法,在少樣本訓練下,得到更為精確的檢測結果是未來申請人應該重點關注的技術,可以成為未來企業(yè)的研發(fā)重點。