謝 琳, 張 磊, 李 健
1(中國科學(xué)院大學(xué),北京 100049)
2(中國科學(xué)院 計算機網(wǎng)絡(luò)信息中心,北京 100190)
近幾年來,隨著多媒體技術(shù)的蓬勃發(fā)展,攝像設(shè)備的日益普及,視頻監(jiān)控系統(tǒng)廣泛應(yīng)用在安防、城市交通、物業(yè)管理等多個領(lǐng)域,視頻監(jiān)控數(shù)據(jù)呈現(xiàn)爆炸式的增長,現(xiàn)已成為大數(shù)據(jù)時代的主要研究對象之一. 為了更好地實現(xiàn)對自然保護區(qū)的監(jiān)控以及對野生動物的追蹤與觀察,大部分自然保護區(qū)也安置了視頻監(jiān)控設(shè)備,對自然保護區(qū)進(jìn)行24小時不間斷的、全方位的、多角度的視頻監(jiān)控,視頻數(shù)量非常大. 例如,自2005年以來,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心與青海湖保護區(qū)管理局合作,共同建設(shè)了青海湖野外網(wǎng)絡(luò)視頻監(jiān)控系統(tǒng),每年青海湖核心區(qū)的視頻數(shù)據(jù)高達(dá)幾十TB[1]. 因此如何自動快速地分析和處理自然保護區(qū)海量視頻數(shù)據(jù),實現(xiàn)對有效視頻數(shù)據(jù)的充分利用,成為一個亟待解決的重要問題.
迄今為止,國內(nèi)外許多學(xué)者對視頻處理技術(shù)進(jìn)行了大量的研究,產(chǎn)生多種視頻數(shù)據(jù)提取方法. Woft[2]提出基于光流分析提取關(guān)鍵幀,這種方法很好的考慮了運動特征,但是計算量非常大. Hanjalic等人[3]對聚類有較早的研究,通過多重分割聚類去除視頻的冗余部分,并將聚類中心作為關(guān)鍵幀,該方法具有一定的通用性. Shahraray等人[4]提出基于鏡頭邊界法,將切分得到的鏡頭中的首幀(或尾幀)作為關(guān)鍵幀. 文獻(xiàn)[5]中Liu Gentao等人提出了基于鏡頭的關(guān)鍵幀提取架構(gòu),結(jié)合了鏡頭邊界檢測算法和在鏡頭內(nèi)的關(guān)鍵幀提取算法.這些方法提取的關(guān)鍵幀能夠有效的表達(dá)原始視頻的內(nèi)容,適合多鏡頭多場景的視頻分析. 但是,自然保護區(qū)的視頻監(jiān)控系統(tǒng)面向特有的監(jiān)控對象與自然環(huán)境,視頻拍攝場景相對固定,沒有明顯的鏡頭切換,并且所產(chǎn)生的視頻數(shù)據(jù)中往往含有大量近似于靜止的視頻片段,具有很大的可壓縮空間. 現(xiàn)有的視頻處理技術(shù)并沒有針對這一特點做出相應(yīng)的改進(jìn),因此并不完全適用于自然保護區(qū)視頻數(shù)據(jù)的分析. 針對這一特殊需求,參考目前已有的視頻數(shù)據(jù)處理方法,設(shè)計并實現(xiàn)了自然保護區(qū)海量視頻數(shù)據(jù)分析與檢索系統(tǒng). 該系統(tǒng)中包括視頻要素信息提取、視頻關(guān)鍵幀提取、視頻關(guān)鍵幀目標(biāo)檢測、建立視頻索引等一系列處理流程,充分實現(xiàn)了對自然保護區(qū)視頻數(shù)據(jù)的自動分析與利用,取得了良好的實踐效果.
自然保護區(qū)海量視頻數(shù)據(jù)分析與檢索系統(tǒng)涵蓋了視頻數(shù)據(jù)存儲、分析、利用的完整處理流程,實現(xiàn)了數(shù)據(jù)存儲,數(shù)據(jù)分析、數(shù)據(jù)利用等核心功能. 其中,數(shù)據(jù)分析包括視頻數(shù)據(jù)的清洗、壓縮以及有效視頻數(shù)據(jù)的提取,數(shù)據(jù)利用則通過建立視頻索引實現(xiàn)基于視頻內(nèi)容的檢索操作,并將視頻分析與檢索結(jié)果進(jìn)行可視化展示. 按照上述設(shè)計思路,自然保護區(qū)海量視頻數(shù)據(jù)快速分析與檢索系統(tǒng)的總體架構(gòu)如圖1所示. 該系統(tǒng)主要分為以下幾個模塊:
(1) 數(shù)據(jù)存儲:通過分布式數(shù)據(jù)平臺將原始視頻數(shù)據(jù)錄入到數(shù)據(jù)庫中. 然后利用分布式數(shù)據(jù)平臺進(jìn)行視頻處理任務(wù)和視頻檢索任務(wù)的分配與并行處理,并將其產(chǎn)生的數(shù)據(jù)存儲到數(shù)據(jù)庫中.
(2) 數(shù)據(jù)分析:視頻處理引擎主要實現(xiàn)對視頻數(shù)據(jù)的分析和處理. 首先獲取視頻拍攝地經(jīng)緯度以及拍攝日期等視頻要素信息; 然后利用基于視頻幀圖像相似度的關(guān)鍵幀提取算法,提取視頻中的關(guān)鍵幀數(shù)據(jù),同時通過分析視頻流之間的變化,將原始監(jiān)控視頻劃分成靜態(tài)視頻段和動態(tài)視頻段(即下文所指的有效視頻段),并剔除其中不感興趣的靜態(tài)視頻片段,實現(xiàn)對視頻的清洗與壓縮; 最后利用YOLO目標(biāo)檢測算法[6,7]提取視頻關(guān)鍵幀中包含的野生動物物種、數(shù)量等關(guān)鍵信息.
(3) 數(shù)據(jù)利用:視頻檢索引擎為分析得到的有效視頻數(shù)據(jù)建立多種索引,提供視頻標(biāo)簽檢索、視頻要素信息檢索以及視頻圖像檢索等多種基于內(nèi)容的視頻檢索操作. 可視化展示與檢索模塊主要為用戶提供可視化服務(wù),即通過Web GIS可視化展示自然保護區(qū)動植物的分布以及用戶可以通過可視化窗口進(jìn)行視頻檢索.
圖1 自然保護區(qū)海量視頻數(shù)據(jù)快速分析與檢索系統(tǒng)總體框架
在本系統(tǒng)中,視頻處理引擎和視頻檢索引擎是視頻數(shù)據(jù)處理與檢索的主要模塊,實現(xiàn)了整個系統(tǒng)的核心功能,下面將重點介紹這兩個功能模塊.
目前自然保護區(qū)大多數(shù)采用高清紅外攝像機、激光紅外攝像機等監(jiān)控設(shè)備,計算機可以采集視頻拍攝地的經(jīng)緯度以及拍攝日期等視頻要素信息,并將它們存儲在數(shù)據(jù)庫中. 但是對于自然保護區(qū)的監(jiān)測人員和研究者,更加關(guān)注監(jiān)控視頻中的動態(tài)視頻片段和野生動物物種相關(guān)的要素信息,因此從海量視頻片段中提取能夠代表視頻變化情況的關(guān)鍵幀以及關(guān)鍵幀包含的視頻要素信息就顯得尤為重要. 視頻數(shù)據(jù)是由一系列連續(xù)的、漸變的幀組成,關(guān)鍵幀就是用于描述一段視頻的關(guān)鍵圖像幀,它通常能反映視頻的主要內(nèi)容,具有代表性. 本文針對自然保護區(qū)監(jiān)控視頻的特點,首先利用基于圖像相似度的視頻關(guān)鍵幀提取算法提取視頻關(guān)鍵幀,然后進(jìn)行視頻片段的劃分,剔除視頻數(shù)據(jù)中的靜態(tài)視頻片段,實現(xiàn)視頻數(shù)據(jù)的清洗和壓縮,有效地減少視頻數(shù)據(jù)量. 另外,本文采用基于深度學(xué)習(xí)的目標(biāo)檢測算法對視頻關(guān)鍵幀進(jìn)行進(jìn)一步分析與處理,提取視頻關(guān)鍵幀中包含的野生動物物種類別和數(shù)量等要素信息.
通過對多段監(jiān)控視頻進(jìn)行采樣分析發(fā)現(xiàn),在未進(jìn)行鏡頭調(diào)整的情況下,一段連續(xù)視頻的視頻幀圖像信息特征值總是與其前后幾幀相近,處于一種連續(xù)漸變的狀態(tài),但是當(dāng)這種漸變積累到一定程度的時候,視頻幀的圖像特征值會發(fā)生顯著的變化[8]. 因此,利用相似圖像的特征值相近這一特性,本文提出基于圖像相似度的視頻關(guān)鍵幀提取算法. 首先將視頻劃分成視頻幀圖像,然后提取圖像的特征向量,通過圖像的特征向量計算當(dāng)前幀與后續(xù)幀之間的特征距離,如果特征距離大于某一閾值,則當(dāng)前幀被選為關(guān)鍵幀,這樣減少了關(guān)鍵幀的冗余度,提高了關(guān)鍵幀的代表性.
基于內(nèi)容的關(guān)鍵幀提取技術(shù)主要利用的是圖像的底層視覺特征,包括顏色、形狀、紋理、邊緣等. 顏色特征[9]是圖像最基本的視覺特征,主要有RGB顏色空間、HSV顏色空間和HSI顏色空間. 與RGB顏色空間相比,HSV顏色空間能較好地反映人眼對顏色的感知,同時又能夠方便地同RGB顏色空間進(jìn)行轉(zhuǎn)換. 在顏色特征提取的過程中,首先將RGB顏色空間的各個像素轉(zhuǎn)換到HSV顏色空間內(nèi),然后將HSV空間進(jìn)行非均勻量化,形成顏色特征向量. 但是顏色直方圖缺乏像素空間信息,本文在提取顏色特征的同時,采用LBP紋理描述子[10]來描述圖像的紋理特征,并對視頻幀圖像進(jìn)行紋理特征的提取. 采用綜合特征[11]計算特征距離,提高了關(guān)鍵幀提取的準(zhǔn)確度,有效的避免了漏檢和誤檢的問題.
視頻關(guān)鍵幀提取算法的具體流程如下:
(1) 對于監(jiān)控視頻片段{π1,π2,…,πn},將πi劃分為視頻幀圖像,同時將每幀視頻圖像劃分成M×N的圖像塊[12].
(2) 提取視頻幀圖像塊的特征向量,記為Ip(m,n)=(xp1,xp2,…,xps),其中p代表視頻幀的位置,s代表特征向量的維度.
(3) 將視頻片段πi的起始幀作為參考幀和關(guān)鍵幀,計算參考幀與后續(xù)幀對應(yīng)圖像塊之間的特征距離.其中i為參考幀,j為后續(xù)幀,Dij(m,n)是參考幀和后續(xù)幀對應(yīng)的第m行n列圖像塊的特征距離.
(4) 設(shè)T1是局部閾值,如果Dij(m,n)>T1,說明此圖像塊發(fā)生了顯著變化; 如果Dij(m,n) (5) 將發(fā)生顯著變化的圖像塊的數(shù)目Cj進(jìn)行歸一化. (6) 設(shè)T2是全局閾值,比較Cj*和T2,如果Cj*>T2,說明后續(xù)幀相對于參考幀發(fā)生了巨大變化,將第j幀作為關(guān)鍵幀和參考幀,重復(fù)上述操作; 如果Cj* 圖2中,(a)示例了參考幀i與后續(xù)幀j對應(yīng)圖像塊特征距離的計算過程,(b)示例了根據(jù)設(shè)定的閾值判斷圖像塊是否發(fā)生顯著變化所生成的二維矩陣,其中0表示圖像塊未發(fā)生顯著變化,1表示圖像塊發(fā)生顯著變化. 圖2 參考幀與后續(xù)幀對應(yīng)圖像塊特征 一般情況下,實施監(jiān)控的攝像機是靜止不動的,即監(jiān)控視頻具有靜止的背景,不存在明顯的視頻結(jié)構(gòu)和鏡頭的切換,因此對于自然保護區(qū)的監(jiān)控視頻,視頻流之間的差異往往是由視頻中變化的目標(biāo)造成的. 根據(jù)視頻流之間的差異性,視頻數(shù)據(jù)可以分為靜態(tài)視頻片段和動態(tài)視頻片段. 對于靜態(tài)視頻片段,視頻流之間存在的差異比較小,而對于動態(tài)視頻片段,不同的視頻幀包含著不同的視覺內(nèi)容,內(nèi)容相近的視頻幀可以用關(guān)鍵幀表達(dá). 自然保護區(qū)的視頻監(jiān)控系統(tǒng)面向特定的監(jiān)控對象,所產(chǎn)生的視頻數(shù)據(jù)中往往會產(chǎn)生大量的靜態(tài)視頻片段,這些靜態(tài)視頻片段對于監(jiān)控對象的觀察與追蹤沒有太大價值,因此剔除視頻數(shù)據(jù)中的靜態(tài)視頻片段,實現(xiàn)視頻數(shù)據(jù)的清洗和壓縮顯得尤為重要. 利用圖像相似度的視頻關(guān)鍵幀提取算法,可以得到原始監(jiān)控視頻的關(guān)鍵幀集合. 由于關(guān)鍵幀的特性,視頻中不會出現(xiàn)兩段連續(xù)的靜態(tài)視頻片段,因此本文根據(jù)這一特點進(jìn)行視頻片段劃分. 首先計算當(dāng)前關(guān)鍵幀與相鄰關(guān)鍵幀之間間隔的視頻幀數(shù)目,如果數(shù)目小于某一閾值,則說明視頻流處于變化狀態(tài),當(dāng)前關(guān)鍵幀與相鄰關(guān)鍵幀之間間隔的視頻幀屬于動態(tài)視頻片段,反之,屬于靜態(tài)視頻片段. 具體的算法流程如下: (1) 對于視頻關(guān)鍵幀集合f={f1,f2,…,fn},fk(k=1,2,…,n)表示視頻幀的位置,根據(jù)公式(3)計算相鄰關(guān)鍵幀間的視頻幀數(shù)目. 其中fi為當(dāng)前關(guān)鍵幀位置,fi+1為相鄰關(guān)鍵幀位置,N(fi,fi+1)為當(dāng)前關(guān)鍵幀與相鄰關(guān)鍵幀之間間隔的視頻幀數(shù)目. (2) 設(shè)T3是閾值,如果N(fi,fi+1) 圖3 視頻片斷劃分示意圖 圖3示例了一段視頻的劃分過程. {f1,f2,…,fn}是這段視頻的關(guān)鍵幀集合,首先比較f1和f2,由于N(f1,f2) 視頻關(guān)鍵幀能有效的反映視頻的關(guān)鍵內(nèi)容,包含許多視頻要素信息,例如野生動物的物種類別、數(shù)量等信息,這些信息的提取與保存將為視頻檢索引擎提供強大的數(shù)據(jù)支持. 隨著深度學(xué)習(xí)在圖像與視頻分析領(lǐng)域的廣泛應(yīng)用,2015年Joseph Redmon等人[6]提出了一種新的目標(biāo)檢測方法YOLO,可以快速檢測出目標(biāo)的類別和位置,為我們提取視頻關(guān)鍵幀的要素信息提供了新的思路. 本文采用YOLO方法對關(guān)鍵幀圖像進(jìn)行目標(biāo)檢測,提取出關(guān)鍵幀圖像中包含的野生動物物種類別和數(shù)量信息,將這些信息作為描述視頻的要素信息存入數(shù)據(jù)庫,為視頻檢索引擎的實現(xiàn)奠定基礎(chǔ). 本文首先利用自然保護區(qū)視頻監(jiān)控數(shù)據(jù)構(gòu)建野生動物目標(biāo)檢測的訓(xùn)練數(shù)據(jù)集,然后使用YOLO對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,形成特定自然保護區(qū)的目標(biāo)檢測特征模型. 接著利用YOLO訓(xùn)練出的模型對提取的視頻關(guān)鍵幀圖像進(jìn)行目標(biāo)檢測,將檢測出的目標(biāo)類別和目標(biāo)數(shù)量存入數(shù)據(jù)庫. 經(jīng)過關(guān)鍵幀圖像目標(biāo)檢測處理,關(guān)鍵幀圖像數(shù)據(jù)就可以轉(zhuǎn)化為數(shù)據(jù)庫中方便檢索的文本數(shù)據(jù). 視頻關(guān)鍵幀目標(biāo)檢測的實現(xiàn)過程如圖4所示. 圖4 視頻關(guān)鍵幀目標(biāo)檢測流程圖 視頻檢索引擎將利用視頻的各種屬性與關(guān)鍵信息快速尋找用戶感興趣的視頻數(shù)據(jù),達(dá)到檢索的目的,極大地提高了視頻查找效率. 監(jiān)控視頻存入數(shù)據(jù)庫時,為了方便管理,會為每段視頻標(biāo)注能夠盡可能描述視頻內(nèi)容的文字,這樣用戶通過視頻內(nèi)容關(guān)鍵字進(jìn)行檢索時,系統(tǒng)將快速返回用戶感興趣的視頻片段,以及每段視頻包含的關(guān)鍵幀、拍攝時間、經(jīng)緯度等視頻要素信息. 對于監(jiān)控視頻來說,視頻的信息量非常大,不同身份的用戶對于視頻信息的關(guān)注點不同,例如有些研究者主要研究不同野生動物的分布狀況,而有些研究者則更加關(guān)注氣候因素的影響,因此實現(xiàn)視頻要素信息的檢索是非常必要的. 本系統(tǒng)為視頻處理引擎提取的每個視頻要素信息建立索引,加快查詢速度,減少系統(tǒng)的I/O操作. 用戶可以根據(jù)自身需要,通過GPS經(jīng)緯度、拍攝日期以及物種類別等視頻要素信息方便快捷的檢索出感興趣的視頻段. 隨著視頻信息量的日漸增加,僅僅依靠視頻標(biāo)簽以及視頻要素信息進(jìn)行視頻內(nèi)容的檢索已經(jīng)無法滿足用戶的需要,尤其對于視頻來說,視頻內(nèi)容描述的準(zhǔn)確性嚴(yán)重影響檢索結(jié)果的準(zhǔn)確性,時常出現(xiàn)檢索結(jié)果無法滿足用戶需求的情況. 因此,以圖搜圖成為視頻圖像檢索中應(yīng)用非常廣泛的方法. 本文利用感知哈希算法[13],對視頻的每一個關(guān)鍵幀生成一個“指紋”字符串,將其作為關(guān)鍵幀數(shù)據(jù)的圖像特征存入數(shù)據(jù)庫,當(dāng)用戶提交檢索圖片時也會產(chǎn)生相應(yīng)的一個“指紋”字符串,將其與數(shù)據(jù)庫中關(guān)鍵幀的指紋特征比較,結(jié)果越接近,說明圖片越相近,從而快速檢索出用戶感興趣的視頻段,實現(xiàn)過程如圖5所示. 這種圖像檢索方法實現(xiàn)非常簡單,能夠快速檢索出目標(biāo)視頻段,但是感知哈希算法對圖像特征的表達(dá)不充分,影響檢索結(jié)果的準(zhǔn)確性. 因此,在后續(xù)工作中,將結(jié)合SIFT和CNN的方法提取圖像特征向量,增加圖像檢索的速度和準(zhǔn)確率. 圖5 視頻圖像檢索流程圖 為了驗證本文中視頻數(shù)據(jù)分析與檢索方法的有效性,以青海湖野生動物監(jiān)控視頻為測試樣本進(jìn)行實驗.由于視頻處理過程中計算量非常大,并且計算任務(wù)重復(fù)性高,因此實驗過程中利用4臺計算機組成的HTCondor集群[14]對視頻數(shù)據(jù)進(jìn)行處理,相對于單機而言,視頻處理速度有了顯著提高. 本實驗首先利用基于圖像相似度的關(guān)鍵幀提取算法提取青海湖黑頸鶴監(jiān)控視頻的關(guān)鍵幀,然后利用關(guān)鍵幀的特性進(jìn)行視頻片段的劃分. 圖6 視頻關(guān)鍵幀提取與視頻片段劃分實驗結(jié)果 由于監(jiān)控視頻的背景基本靜止,視頻中黑頸鶴的運動使得視頻幀的圖像特征值發(fā)生變化. 通過視頻幀圖像特征值的比較,可以標(biāo)注出視頻幀變化的區(qū)域. 當(dāng)視頻幀變化區(qū)域面積達(dá)到設(shè)定的閾值時,則認(rèn)為當(dāng)前幀為視頻的關(guān)鍵幀,此時可以記錄下關(guān)鍵幀的拍攝時間以及在視頻片段中的位置,并將關(guān)鍵幀有效信息存入數(shù)據(jù)庫中. 圖6的結(jié)果顯示本文方法能夠有效地從野生動物監(jiān)視視頻中提取關(guān)鍵幀,通過這些關(guān)鍵幀的內(nèi)容,可以迅速地了解原視頻中兩只黑頸鶴的動作變化,如圖6(a)-(d)所示. 通過關(guān)鍵幀在視頻中的位置,可以快速地劃分視頻段,根據(jù)視頻段的幀數(shù)判斷出靜態(tài)視頻段和動態(tài)視頻段. 為了進(jìn)一步檢驗文中所述算法的效果,選擇了三段不同類型的視頻進(jìn)行實驗,在實驗中分別采用目測和文中所述的基于圖像相似度的關(guān)鍵幀提取算法進(jìn)行關(guān)鍵幀提取. 實驗數(shù)據(jù)和結(jié)果如表 1. 表1 不同類型視頻的關(guān)鍵幀提取結(jié)果 根據(jù)實驗結(jié)果,可以發(fā)現(xiàn)對于黑頸鶴活動視頻和青海湖風(fēng)景視頻,視頻中含有大量的靜態(tài)視頻片段,采用基于圖像相似度的關(guān)鍵幀提取算法可以有效地提取關(guān)鍵幀,并且視頻壓縮率比較高. 而對于車輛行駛視頻,視頻中物體快速運動,造成視頻幀間特征值相似性小,提取的視頻幀數(shù)目較多,視頻壓縮率低. 因此,針對自然保護區(qū)監(jiān)控視頻的特點,本文提出的關(guān)鍵幀提取算法可以快速準(zhǔn)確的提取出視頻中的關(guān)鍵幀,實現(xiàn)對視頻的清洗和壓縮,有效的減少了視頻數(shù)據(jù)量. 本實驗對青海湖野生動物物種圖像進(jìn)行建模,然后利用YOLO目標(biāo)檢測方法對青海湖野生動物監(jiān)控視頻的關(guān)鍵幀圖像進(jìn)行檢測. 圖7中是青海湖野生動物關(guān)鍵幀圖像的檢測結(jié)果,根據(jù)標(biāo)注出的標(biāo)簽可以得到圖像中包含的物種類別,同時根據(jù)目標(biāo)框的位置可以統(tǒng)計出各個類別物種的數(shù)量. 由圖7(b)可以看出,本文中使用的目標(biāo)檢測方法對小目標(biāo)也有較好的檢測結(jié)果.本實驗很好的驗證了利用視頻關(guān)鍵幀目標(biāo)檢測方法提取視頻要素信息的有效性. 圖7 視頻關(guān)鍵幀目標(biāo)檢測實驗結(jié)果 視頻關(guān)鍵幀的提取是實現(xiàn)視頻壓縮與檢索的關(guān)鍵環(huán)節(jié). 通過視頻關(guān)鍵幀的提取,可以快速刪除視頻中的靜態(tài)視頻片段,同時利用關(guān)鍵幀圖像可以快速瀏覽視頻內(nèi)容,篩選出用戶感興趣的視頻. 圖8展示了青海湖鳥類監(jiān)控視頻壓縮與檢索的結(jié)果. 由圖8中原始視頻幀數(shù)和提取關(guān)鍵幀數(shù)的統(tǒng)計結(jié)果可以看出,通過視頻關(guān)鍵幀的提取,有效的壓縮了自然保護區(qū)視頻監(jiān)控數(shù)據(jù)的數(shù)據(jù)量,節(jié)省了存儲空間. 同時,通過瀏覽視頻關(guān)鍵幀信息,可以快速篩選出用戶感興趣的視頻. 另外,用戶通過輸入檢索信息,系統(tǒng)自動檢索出數(shù)據(jù)庫中與檢索信息相匹配的關(guān)鍵幀,進(jìn)而檢索出相應(yīng)的視頻段,達(dá)到檢索的目的,極大的提高了視頻查找的效率. 視頻處理與檢索的過程中,由于視頻文件都是大文件,計算機單節(jié)點的數(shù)據(jù)傳輸壓力非常大,本系統(tǒng)利用Hadoop分布式系統(tǒng)[15],有效地緩解了視頻處理過程中單節(jié)點的數(shù)據(jù)傳輸壓力,解決了計算節(jié)點傳輸數(shù)據(jù)時占用大量網(wǎng)絡(luò)帶寬的瓶頸問題,大大提高了海量視頻數(shù)據(jù)分析與檢索過程中文件傳輸?shù)男? 圖8 視頻壓縮與檢索實驗結(jié)果 本文提出的視頻關(guān)鍵幀提取算法有效地實現(xiàn)了海量監(jiān)控視頻的清洗和壓縮,同時利用YOLO目標(biāo)檢測算法提取視頻關(guān)鍵幀要素信息,為視頻內(nèi)容檢索提供方便快捷的途徑,并且將提取的有效視頻段、視頻關(guān)鍵幀和視頻要素信息進(jìn)行關(guān)聯(lián)與整合,使用戶可以通過圖像、視頻標(biāo)簽、視頻要素信息檢索出感興趣的視頻段、關(guān)鍵幀圖像以及視頻描述信息等多種數(shù)據(jù). 這樣不僅為監(jiān)控人員減少了視頻處理與分析的工作量,也為快速檢索視頻內(nèi)容提供了平臺. 同時,為了提高視頻處理與檢索的速度,本文采用分布式數(shù)據(jù)平臺,緩解了單節(jié)點傳輸數(shù)據(jù)文件的壓力. 近年來,隨著深度學(xué)習(xí)的快速發(fā)展,在后續(xù)工作中,將改進(jìn)視頻圖像檢索的圖像匹配方法,利用Facebook發(fā)布的相似性檢索算法Faiss[16]進(jìn)行圖像檢索,提高視頻圖像檢索的速度和準(zhǔn)確率. 同時擴展視頻處理引擎和視頻檢索引擎的功能,實現(xiàn)視頻中的物體識別和目標(biāo)檢測,使之成為一個功能更加強大的視頻數(shù)據(jù)分析與檢索系統(tǒng). 1 謝慕哲,羅澤,閻保平. 視頻鳥類行為研究中基于尺度不變特征變換的形態(tài)分類算法. 科研信息化技術(shù)與應(yīng)用,2014,5(3):87-94. [doi:10.11871/j.issn.1674-9480.2014.03.011] 2 Wolf W. Key frame selection by motion analysis.Proceedings of the 1996 IEEE International Conference on Acoustics,Speech,and Signal Processing. Atlanta,GA,USA. 1996,2:1228-1231. 3 Hanjalic A,Zhang HJ. An integrated scheme for automated video abstraction based on unsupervised cluster-validity analysis. IEEE Transactions on Circuits and Systems for Video Technology,1999,9(8):1280-1289. [doi:10.1109/76.809162] 4 Shahraray B,Gibbon DC. Automatic generation of pictorial transcripts of video programs. Proceedings of the SPIE Volume 2417,Multimedia Computing and Networking. San Jose,CA,USA. 1995,2417. 512-518. 5 Liu GT,Wen XM,Zheng W,et al. Shot boundary detection and keyframe extraction based on scale invariant feature transform. Proceedings of the 8th IEEE/ACIS International Conference on Computer and Information Science. Shanghai,China. 2009. 1126-1130. 6 Redmon J,Divvala S,Girshick R,et al. You only look once:Unified,real-time object detection. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA. 2016. 779-788. 7 Redmon J,Farhadi A. YOLO9000:Better,faster,stronger.arXiv:1612.08242v1,Dec. 2016. 8 曹長青. 基于內(nèi)容的視頻檢索中關(guān)鍵幀提取算法研究[碩士學(xué)位論文]. 太原:太原理工大學(xué),2013. 9 Rao AB,Srihari RK,Zhang ZF. Spatial color histograms for content-based image retrieval. Proceedings of the 11th IEEE International Conference on Tools with Artificial Intelligence. Washington,DC,USA. 1999. 183-186. 10 Wang XY,Han TX,Yan SC. An HOG-LBP human detector with partial occlusion handling. Proceedings of the 12th International Conference on Computer Vision. Kyoto,Japan.2009. 32-39. 11 張萌. 視頻檢索中關(guān)鍵幀的提取和特征匹配的研究[碩士學(xué)位論文]. 北京:北京郵電大學(xué),2012. 12 Cao CQ,Chen ZH,Xie G,et al. Key frame extraction based on frame blocks differential accumulation. Proceedings of the 24th Chinese Control and Decision Conference. Taiyuan,China. 2012. 3621-3625. 13 張慧,張海濱,李瓊,等. 基于人類視覺系統(tǒng)的圖像感知哈希算法. 電子學(xué)報,2008,36(12A):30-34. 14 卞濤,羅澤,馬永征. 基于Hadoop的分布式視頻處理. 科研信息化技術(shù)與應(yīng)用,2016,7(4):61-69. 15 周文瓊,王樂球,葉玫. 云環(huán)境下Hadoop平臺的作業(yè)調(diào)度算法. 計算機系統(tǒng)應(yīng)用,2014,23(5):177-181. 16 Johnson J,Douze M,Jégou H. Billion-scale similarity search with GPUs. arXiv:1702.08734v1,Feb. 2017.2.2 視頻片段劃分
2.3 視頻關(guān)鍵幀目標(biāo)檢測
3 視頻檢索引擎
3.1 視頻標(biāo)簽檢索
3.2 視頻要素信息檢索
3.3 視頻圖像檢索
4 實驗結(jié)果與分析
4.1 視頻關(guān)鍵幀提取與視頻片段劃分實驗
4.2 視頻關(guān)鍵幀目標(biāo)檢測實驗
4.3 視頻壓縮與檢索實驗
5 結(jié)束語