何坤鵬+龔捷+何山++褚福銀
摘要:針對目前圖像識別中存在局部識別及特定目標識別的限制和目標視頻片段提取的問題,該文利用局部自適應回歸核函數(LARKs),并結合self-resemblance、PCA、Saliency Map等方法而設計出一種視頻中通用目標識別系統,該系統可以通過輸入圖片從視頻中找到目標并進行跟蹤,針對用戶需求可以從視頻中提取只與目標相關的視頻片段,從而提高用戶獲取有效信息的效率。經過實驗測試,該方法具有較高的準確率,特別是在視頻監(jiān)控領域具有重要的應用價值。
關鍵詞:局部自適應回歸核函數;self-resemblance;通用目標;跟蹤提??;Saliency Map;PCA
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)04-0150-03
Research on General Targets Tracking and Extraction of Video Based on Self-Resemblance
HE Kun-peng, GONG Jie, HE Shan, CHU Fu-yin
(Southwest Petroleum University, Chengdu 610500,China)
Abstract: For there are local recognition and specific target recognition of the limitations and target video clips extracted problems in image recognition, In this paper, we use the locally adaptive regression kernel (LARKs), Combined with self-resemblance, PCA, Saliency Map and other methods, a universal target recognition system in video is designed,, by inputting the target image from the video to find the target and tracking, according to the needs of the user can extract only associated with the target video clips from the video, so as to improve the user access to effective information efficiency. Through the test, the method has higher accuracy, especially in the field of video surveillance has important application value.
Key words: LARKS; self-resemblance; general objective; Tracking and extracting; Saliency Map;PCA
1 概述
圖像識別可以通過用計算機進行數據處理、分析,通過不同算法對特定目標及應用場景進行識別的技術。圖像的識別經歷了文字識別、數字圖像處理與識別、物體識別三個階段。[1]當前針對圖像識別主要是對目標局部、針對特定個體進行識別,如這幾年研究比較多的人臉識別、虹膜識別、車牌識別、人臉識別、手勢識別等等,然而隨著社會經濟的不斷發(fā)展,新媒體的發(fā)展日新月異,但是無論怎么變化,信息的傳播基本是以文字、音頻、視頻為主要表現形式。圖像識別技術在監(jiān)控視頻領域中有著較高的應用需求,主要的需求來源于對大量數據的有效存儲和識別,以及實時監(jiān)控兩個方面。對于前者而言,如何存儲海量數據和挖掘有效信息成為了一種急需解決的問題,對于后者而言如何對大量的實時監(jiān)控視頻進行處理已經成為人們關注的焦點,目前公共場所、道路交通、軍工生產、高校校園都有擁有大量的視頻監(jiān)控設備,但是在發(fā)生突發(fā)事故時,面對海量的監(jiān)控視頻,不僅需要監(jiān)控設備使用方擁有容量比較大的存儲設備來存儲數據,與此同時工作人員需要花費大量時間尋找與突發(fā)事件相關的視頻片段。為了解決這些問題,我們提出了基于Self-Resemblance的視頻通用目標跟蹤與提取解決方案。所謂自相似是在待匹配的圖片中到與自身最相似結果。先我們要獲得原視頻,通過程序處理將視頻轉化為圖片幀的形式并保存,然后根據用戶提供的或者視頻中截取的目標進行匹配,并通過運行系統將檢測結果自動標記出來,最后通過設置圖片幀,將在視頻中連續(xù)檢測到超過一定時間的檢測結果連起來輸出,即可提取出目標視頻片段,系統識別流程圖如圖1所示。本文的不同之處在于可以達到以圖搜索目標的目的,并且可以在監(jiān)控視頻中自動提取與識別目標相關的視頻片段,對輸入的待識別目標樣本沒有特殊要求,從而實現通用目標識別,在一定程度上待匹配目標的與樣本相似程度對識別正確率會有一定影響,這也是目前存在的難點,圖2為系統軟件的界面圖。
2 相關工作
2.1 LARKs特征計算
自動視頻跟蹤是通過圖像處理算法,實時計算出選定的目標(如人、車輛等)在圖像中的精確位置,并控制狀態(tài)轉動,從而保持目標始終處在視頻窗口中的一個指定位置。[2]但是在實際情況中,識別目標比較復雜,不僅僅是依靠人體某些局部部位,因此針對不同的應用場合,從物體局部位向物體的識別能夠很好地解決這一矛盾。通常在視頻監(jiān)控系統中需要對移動目標先檢測后識別,本文主要使用了LARKs(LocallyAdaptive Regression Kernels),即局部自適應回歸核函數,LARKs關鍵思想是在評估梯度的基礎上通過分析像素值的差異來有力的獲取圖像的結構,并且使用獲取的結構信息決定典型核函數的模型及大小,而局部核被模型化為一個徑向對稱函數[3]。
(1)
X=[x1, x2]T 為空間坐標,P2為在當前窗口PxP的像素,因此所謂的方向矩陣定義如下:
(2)
h為全局平滑參數,矩陣是協方差矩陣估計一個在局部分析窗口X位置的空間梯度向量集合。轉向矩矩陣Hl通過修改局部核函數模型及大小的方式大致對體現圖像局部的幾何結構進行編譯[4]。在向量x方向,我們基本上是使用(一個歸一化的版本)k(xl-x;)作為Xl和Hl的函數體現一幅圖像的固有的局部幾何結構。為了更加精確,局部核導向函數Kj(xl-x;Hl)在每一小塊通過指數j的密集計算和規(guī)范定義如下[5]:
(3)
其中n為LARKs查詢圖像集M被計算的塊數。
2.2 PCA主成因分析
PCA(Principal Component Analysis)是我們科研中常用的數據分析方法,PCA是通過尋找方差比較大的維與忽略比較平均的維度,以線性變換的方式將原始數據變換為一組各維度線性無關的表示,經常用來提取數據主要特征分量及高維數據的降維,也可以數據可視化,本文中利用PCA一方面實現特征降維、尺寸縮減,其次是重構LARKs查詢的特征的協方差矩陣,并進行主成分分析。一般情況下,在數據挖掘和機器學習中,數據被表示為向量,PCA算法在本質上把方差最大的方向作為主要特征,并且在各個正交方向上將數據“離相關”,也就是讓它們在不同正交方向上沒有相關性[6]。由于在降維映射過程中的誤差存在,因此在高維特征降維之前,需要做特征歸一化處理。本文中的數據源是用于目標測試的標準視頻庫,經過算法轉化為幀圖片,每副圖像都是N*N大小,將它們作為一個維的向量并排成矩陣找出主元。
2.3 基于self-resemblance的saliency map計算
如果一個目標具有自相似性,表示它和它本身的一部分完全或是幾乎相似。self-resemblance可以通過公式4的模型計算,如果輸入圖為一個灰度圖,在一個局部鄰域內識別特征矩陣Fi、Fj,否則就從不同的三種顏色通道識別各自的特征矩陣,矩陣余弦相似性計算顯著性。Si即為輸出的Saliency Map[7]。
(4)
其中i,j分別對應向量個數,Fi為中心矩陣,Fj為中心+周圍矩陣,σ是權重脫落量控制參數,N為一個中心+周圍區(qū)域的大小[8]。
顯著度的研究是從生物研究發(fā)展而來,早期比較重要的工作是C.Koch與S.Ullman做的,時間可以追溯到1985年[9]。這是一種模擬生物體視覺注意機制的選擇性注意模型,更多的應用與處理自然圖像。本文中的顯著值是通過把像素點在顏色、亮度、方向方面和周圍背景進行對比得出一系列顯著點,所有點的顯著值構成一張顯著圖。[10]
該模型主要是提取色彩、亮度、旋轉一致性三種特征,最終可以得到三種feature map。然后將feature map歸一化進一步綜合,綜合的方法是簡單的相加。從綜合后的saliency map上提取前N個峰值即為尋求的interest points。
在得到saliency map圖后,最后對不同顏色通道輸出識別結果并保存,在視頻的輸出中,我們根據輸出識別結果連續(xù)時間,設置合適的閾值和播放時間,這里用戶可以根據自己的需求自行設置目標區(qū)間,從而得到自己感興趣的部分。
3 總結與展望
通過以上的方法介紹,在本文中我們提出了新的方法,整個系統算法處理流程如圖4所示,我們使用顯著性檢測圖像中目標,首先利用LARKs函數獲取局部結構特征潛在的數據,然后使用非參數核密度評估這些特征,獲得的結果將會在一個含有自相似衡量的顯著圖中[10]。在上述過程中為了減少預測變量的個數,實現特征降維,同時確保獨立性變量,我們采用了PCA主成因分析的方法。
本文通過上述方法,能夠進行海量視頻中選擇性通用目標的識別跟蹤,在識別圖片的基礎上,通過調整設置閾值和播放時間的數值,能夠把識別的結果分別以視頻和圖片形式輸出,能夠幫助工作人員或者客戶迅速找到自己感興趣的目標視頻片段,在不丟失基本信息的基礎上實現了視頻的壓縮,通過通用目標識別的方法,擺脫了傳統方法對輸入目標樣本的特殊要求,通過大量實驗測試,我們能夠以較高的的準確率識別目標,但是目前監(jiān)控視頻數據巨大,在處理上難免會花費更長時間,所以提高運算速度至關重要,一方面需要借助高性能計算平臺來提高運算速度,其次可以人工選取需要處理的視頻時間范圍來節(jié)省時間。目前面臨一個問題,因為這是基于自相似的通用目標識別,如果待識別樣本中出現的樣本與目標樣本過于相似,就有可能出現識別錯誤的現象,這也是影響準確率的關鍵所在,因此如何避免這種錯誤是我們接下來進一步的要做的工作。如果很好解決了這個問題將會使使準確率大幅提高,在現實生活中具有重要的應用價值。
4 實驗結果
本文中我采用一個本地監(jiān)控視頻及Pets2001視頻數據集和i-LIDS library進行試驗測試,為了證明方法的可靠性,我還用了監(jiān)控視頻、新聞視頻等視頻資源進行測試,實驗結果中針對不同類別樣本中,能夠準確的識別出結果,圖5中紅色框內圈出的即為系統自動識別的結果,若多個框的顏色深度不一,顏色較深的為實際目標,較淺的為可疑目標,通過統計識別結果,我們得出了在不同樣本數、不同類別樣本中,該方法具有較高的準確率,因此該方法在現實生活中具有一定的實用價值。
參考文獻:
[1] 侯勝彬.基于Open CV 的運動目標檢測跟蹤的研究[D].電子科技大學, 2014.
[2] 譚琪璘.運動目標信息感知技術在智能監(jiān)管系統中的應用[D].西安電子科技大學, 2013.
[3] H. J. Seo and P. Milanfar. Training-free,g-eneric object detectionusing locally adaptive regression kernels[J].IEEE Transactions onPattern Analysis & Machine Intelligence.2010,32(9):1688-1704.
[4] Zhihui Zheng,Liping Xiao,Bin Zhou.Generi-c Object Detection in Maritime Environment Using Self-Resemblance[C].IEEE,2015.
[5] H. Takeda, S. Farslu, and P. Milanfar. Kernel regression for image processing and reconstruction[J]. IEEE Transactions on Image Processing,2007,16(2):349-366
[6] 焦斌亮.基于PCA算法的人臉識別[J].計算機工程與應用.2011,47(18):201-203.
[7] Hae JongSeo.Peyman Milanfar.Nonparaetric Bottom-Up Saliency Detection by Self-Resemblance[C].IEEE,2009:45-52.
[8] E. Shechtman and M. Irani. Matching local self-similarities across images and videos[C].Minneapolis:IEEE,2007.5:1-8
[9] S.Goferman,L. Zelnik-Manor, and A. Tal.Context-aware saliency detection[C].IEEE,2012,34(10):1915-1926.
[10] L Itti,C Koch,E Niebur.A Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis &Machine Intelligence.1998,20(11):1254-1259.