龐尚珍 馮 雪
[摘要]隨著信息技術(shù)不斷發(fā)展,視頻信息越來(lái)越廣泛的應(yīng)用,如何快速有效地進(jìn)行視頻檢索變得越來(lái)越重要。詳細(xì)介紹基于內(nèi)容的視頻檢索技術(shù)的國(guó)內(nèi)外發(fā)展現(xiàn)狀和常用算法,并介紹現(xiàn)有虹膜識(shí)別技術(shù)中存在的主要問(wèn)題。
[關(guān)鍵詞]信息技術(shù) 視頻檢索 算法研究
中圖分類(lèi)號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0910048-01
一、引言
隨著信息技術(shù)和計(jì)算機(jī)互聯(lián)網(wǎng)的飛速發(fā)展,視頻信息因其內(nèi)容的豐富性,直觀性以及巨大的信息量在醫(yī)療、衛(wèi)星遙感、地質(zhì)探測(cè)、科學(xué)考察、影視娛樂(lè)、教育和在線信息服務(wù)等領(lǐng)域得到了越來(lái)越廣泛的應(yīng)用。然而,由于視頻數(shù)據(jù)量的巨大和數(shù)據(jù)格式的非結(jié)構(gòu)化特點(diǎn),有效地訪問(wèn)和檢索視頻內(nèi)容變得十分困難。因此,如何有效、準(zhǔn)確的進(jìn)行視頻檢索已經(jīng)成為多媒體領(lǐng)域一項(xiàng)重要的、迫切需要解決的問(wèn)題。
二、國(guó)內(nèi)外研究現(xiàn)狀
傳統(tǒng)的視頻檢索技術(shù)是基于對(duì)視頻內(nèi)容描述的文本的檢索,而基于內(nèi)容的視頻檢索,是根據(jù)視頻的內(nèi)容和上下文的關(guān)系對(duì)視頻數(shù)據(jù)庫(kù)中的視頻數(shù)據(jù)進(jìn)行檢索,是要從視頻的所有幀中提取主要內(nèi)容,并從下至上地對(duì)視頻內(nèi)容進(jìn)行結(jié)構(gòu)化描述。目前,國(guó)內(nèi)外的研究人員已經(jīng)對(duì)基于內(nèi)容的視頻檢索作了一定的研究,并且取得了一定的成果。
目前,已開(kāi)發(fā)出的基于內(nèi)容的視頻檢索系統(tǒng)主要分為兩類(lèi)[1]:一類(lèi)是按提供的圖像示例進(jìn)行檢索。這種系統(tǒng)首先提取示例的圖像特征矢量,再與圖像庫(kù)中的圖像特征矢量進(jìn)行比較,尋找相似的圖像;另一類(lèi)是直接按照指定的圖像視覺(jué)特征進(jìn)行檢索。這種系統(tǒng)將顏色、紋理、形狀等視覺(jué)特征轉(zhuǎn)化為特征矢量與數(shù)據(jù)庫(kù)中的事先提取的圖像視覺(jué)特征矢量進(jìn)行匹配。無(wú)論是哪一類(lèi)系統(tǒng),實(shí)現(xiàn)基于內(nèi)容的視頻檢索,均需要對(duì)視頻進(jìn)行如下處理和分析:視頻分割、關(guān)鍵幀提取、特征提取與分析、視頻內(nèi)容組織和相似性比較。
(一)視頻分割
視頻是非結(jié)構(gòu)化的二維圖像流序列,它的基本組成單位是幀,視頻流是具有時(shí)序關(guān)系的幀的集合。一秒的視頻約包含24-30幀,以幀為查詢單位,計(jì)算量過(guò)大,從而導(dǎo)致查詢時(shí)間過(guò)長(zhǎng),因此,通常將視頻分割成合適的視頻單元鏡頭,從分割后得到的鏡頭中提取關(guān)鍵幀作為基本的查詢單位進(jìn)行視頻片段的匹配查詢。視頻分割就是研究如何對(duì)視頻進(jìn)行有效分割,使得分割后的視頻單元能夠較為準(zhǔn)確地表達(dá)相對(duì)完整的內(nèi)容,以便于視頻檢索和瀏覽。
目前,視頻的分割方法常用的有基于時(shí)域信息的運(yùn)動(dòng)分割法和基于時(shí)空信息的聯(lián)合分割法。
基于時(shí)域信息的運(yùn)動(dòng)分割法,是根據(jù)運(yùn)動(dòng)信息的均一性估算圖像的運(yùn)動(dòng)區(qū)域,常用的閾值法[2],統(tǒng)計(jì)算法[3],光流場(chǎng)分割法[4]均屬于這一類(lèi)。閾值法和統(tǒng)計(jì)算法比較簡(jiǎn)單,但均需要人為地預(yù)先設(shè)定閾值,因此不具有自適應(yīng)性;光流場(chǎng)分割法復(fù)雜度比較高,難以實(shí)現(xiàn)實(shí)時(shí)性。在不要求計(jì)算出每個(gè)像素的精確運(yùn)動(dòng)矢量時(shí),可將視頻幀分割成互不重疊的像素塊,用塊運(yùn)動(dòng)矢量場(chǎng)來(lái)描述幀間運(yùn)動(dòng)[5],在精度和復(fù)雜度之間得到折中。
基于時(shí)空信息的聯(lián)合分割法[6],這種方法是通過(guò)空域分割將圖像分割為具有準(zhǔn)確邊界的語(yǔ)義區(qū)域,時(shí)域分割定位圖像的運(yùn)動(dòng)區(qū)域,最后綜合空域和時(shí)域的分割結(jié)果進(jìn)行區(qū)域融合,得到較好的視頻分割結(jié)果。
(二)關(guān)鍵幀提取
鏡頭通常是在一個(gè)場(chǎng)景下拍攝的,所以一個(gè)鏡頭下的各幀圖像會(huì)有相當(dāng)多的重復(fù)信息,因此,通常選取能夠描述鏡頭主要內(nèi)容的幀作為關(guān)鍵幀,根據(jù)內(nèi)容的復(fù)雜程度,一個(gè)鏡頭可以有一個(gè)或多個(gè)關(guān)鍵幀。常用的關(guān)鍵幀提取主要有三種[1]:1.固定間隔抽取法。這種方法是最簡(jiǎn)單的關(guān)鍵幀提取法,運(yùn)算量小,但是這要提取關(guān)鍵幀有可能遺漏持續(xù)時(shí)間較短的鏡頭。2.基于圖像特征提取法?;趫D像的特征,如顏色特征,運(yùn)動(dòng)信息等的提取方法,能夠提取最不相關(guān)的幾幀作為關(guān)鍵幀,包含最多的信息;但是,關(guān)鍵幀的數(shù)量依賴于圖像內(nèi)容隨時(shí)間的變化情況,計(jì)算量大。3.視頻幀聚類(lèi)法。得到的聚類(lèi)在聚類(lèi)內(nèi)和聚類(lèi)間距量度上都是最優(yōu)的,最靠近聚類(lèi)質(zhì)心的一幀被選為關(guān)鍵幀。聚類(lèi)后可以很好的避免相似鏡頭的跨類(lèi)存在,檢索時(shí)可減少相似性比較的范圍。如文獻(xiàn)[7]中所述,聚類(lèi)后將特征相似的鏡頭劃分為一類(lèi),如圖1所示。這種方法在近年的視頻檢索研究中被廣泛應(yīng)用。
(三)特征提取與分析
視頻特征提取主要包括高層內(nèi)容語(yǔ)義特征提取和低層或中層物理特征提取[1][8]。低層或中層物理特征提取主要是從視頻關(guān)鍵幀中提取顏色、紋理、形狀、空間特征,運(yùn)動(dòng)等低中層特征以及MPEG-7中定義的視覺(jué)特征描述子。高層內(nèi)容語(yǔ)義特征提取主要包括利用OCR技術(shù)實(shí)現(xiàn)對(duì)關(guān)鍵幀中的字符提取,利用人臉檢測(cè)技術(shù)實(shí)現(xiàn)人臉特征的提取,利用音頻特征進(jìn)行說(shuō)話人或者說(shuō)話內(nèi)容的識(shí)別等。高層內(nèi)容語(yǔ)義特征提取更為復(fù)雜,但相對(duì)的更為精確。提取特征后,要對(duì)所提取的多個(gè)特征進(jìn)行融合,最終形成特征矢量,便于比對(duì)。
(四)視頻內(nèi)容組織
系統(tǒng)對(duì)視頻數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行分析,形成特征庫(kù),建立特征索引提高檢索效率,常用的有樹(shù)形索引結(jié)構(gòu)[9],基于量化近似的索引結(jié)構(gòu)[10]和基于降維德索引結(jié)構(gòu)。樹(shù)形索引適用于低于20維德數(shù)據(jù)空間;基于量化近似的索引結(jié)構(gòu)查詢效率高,但是結(jié)構(gòu)復(fù)雜;基于降維德索引結(jié)構(gòu)克服了樹(shù)形索引的維數(shù)問(wèn)題,但是降低了查詢精度。
(五)相似性比較
相似度比較用來(lái)測(cè)量查詢鏡頭或特征矢量與庫(kù)中鏡頭或特征矢量匹配
程度的一種方法。在實(shí)際應(yīng)用中,最常用的方法是Hausdorff距離和均值距離,Hausdorff距離是一個(gè)集合中的點(diǎn)到另外一個(gè)集合中點(diǎn)的最小距離中的最大值;均值距離是兩個(gè)集合中點(diǎn)的最小距離中的最大值。這兩種方法是點(diǎn)集間相似度度量的較好方法。
三、存在的問(wèn)題
隨著網(wǎng)絡(luò)的不斷發(fā)展,面對(duì)海量的視頻信息,如何高速、有效地檢索視頻信息,仍然是我們面臨的主要問(wèn)題。在特征提取中如何更有效地利用語(yǔ)義特征對(duì)視頻進(jìn)行注釋;在關(guān)鍵幀提取中如何更簡(jiǎn)單有效地實(shí)現(xiàn)關(guān)鍵幀的提取;如何面對(duì)越來(lái)越多視頻信息如何更合理、有效地管理;在相似性比較中如何更快速有效的進(jìn)行相似度測(cè)量等等,這些問(wèn)題都是急待解決的問(wèn)題。
四、總結(jié)
雖然視頻檢索技術(shù)還存在著一定的不足,但我相信隨著科技水平的不斷提高,問(wèn)題的解決和研究的深入,視頻檢索產(chǎn)品將會(huì)在我們生產(chǎn)、生活的各個(gè)領(lǐng)域發(fā)揮有效作用,并帶來(lái)巨大的社會(huì)效益。
參考文獻(xiàn):
[1]劉富強(qiáng),數(shù)字視頻信息處理與傳輸教程,北京:機(jī)械工業(yè)出版社,2004.
[2]A.Neri,S.Colonnese,G.Russo and P.Talone.Automatic moving object and background separation.Signal Processing,vol.66,no.2,pp.219
-232,1998.
[3]T Aach,A Kaup and R Mester.Statistical model-based change detection in moving video.Signal Processing,1993,31(2):165-180.
[4]G.Adiv.Determining three-dimensional motion and structure from optical flow generated by several moving objects.IEEE Trans.Pattern Analysis and Machine Intelligence,vol. 7,pp.384-401,July,1985.
[5]朱向軍,視頻運(yùn)動(dòng)對(duì)象分割與先進(jìn)運(yùn)動(dòng)估計(jì)/運(yùn)動(dòng)補(bǔ)償算法之研究,浙江大學(xué)博士學(xué)位論文,2006.
[6]曾慶渝,視頻分割算法研究及實(shí)踐,浙江大學(xué)碩士學(xué)位論文,2005.
[7]蔣海娜,基于鏡頭的視頻檢索方法研究,重慶大學(xué)碩士學(xué)位論文,2007.
[8]張靜,視頻信息檢索研究,復(fù)旦大學(xué)博士學(xué)位論文,2006.
[9]A.Guttman,"R-tree:A dynamic index structure for spatial searching",Pro.of the ACM SIGMOD International Conference on Management of Data,pp.47-54,1984.
[10]R.Weber,H.-J.Schek,S.Blott,"A Quantitative Analysis and Performance study for similarity-search Methods in high-dimensional spaces",Pro.of the 24th VLDB Conference New York,1988.