朱耀麟,李 倩
(西安工程大學電子信息學院,陜西西安 710048)
由于視頻數(shù)據(jù)是由一系列連續(xù)拍攝的鏡頭組成,直接進行管理和檢索會很復雜,所以采用鏡頭分割的方式,按照一定的算法規(guī)則,把視頻數(shù)據(jù)劃分成單獨的不同鏡頭,然后在每個鏡頭中提取關鍵幀,這樣就把視頻檢索的問題轉化為圖像檢索問題。鏡頭分割是基于內(nèi)容的視頻檢索的第一步,分割的準確性會直接影響后續(xù)的檢索過程,因此,關于鏡頭分割方法的研究得到廣泛的重視,而且取得了豐富的研究成果。
鏡頭之間的轉換主要有兩類,即突變和漸變,在此情況下需要鏡頭分割主要是對鏡頭的邊界進行準確劃分。根據(jù)現(xiàn)在的研究結果,對鏡頭邊界的檢測算法主要分成兩個方向,分別是基于壓縮域的算法和基于非壓縮域的算法。從前一類方法來看,可以直接從壓縮視頻中進行分析和獲取關鍵幀,省略了解壓的過程,從而降低了計算的復雜度;而后一類方法,由于多年的研究和改進,在視頻檢索中也是比較重要的算法。本文對當前視頻檢索常用的鏡頭分割方法進行簡單的概述比較,得出各方法的優(yōu)缺點,為實際應用提供一些參考。
1.1.1 模板匹配法
模板匹配法也可以稱為像素比較法,這種方法比較簡單,但是對物體運動、噪聲等因素非常敏感,相機的微小移動都會使差值明顯增大,造成鏡頭邊緣的誤檢。
1.1.2 直方圖法
直方圖法是在像素比較法的基礎上發(fā)展起來的,是使用最普遍的鏡頭分割方法,并且能夠取得較好的效果。其中比較常用的是顏色直方圖法,該方法包括灰度直方圖和彩色直方圖。這種方法是利用兩幀圖像的直方圖差值與設定好的閾值進行比較來判斷是否發(fā)生鏡頭轉變。因為物體一般運動時幾乎不影響直方圖,所以常用的顏色直方圖法克服了模板匹配法的局限性。但是當物體快速移動時,會使幀圖像的顏色、灰度等發(fā)生較大改變,易出現(xiàn)誤檢情況;當2幀圖像直方圖相似時,內(nèi)容有可能完全不同,也易造成誤檢。對該問題的解決方法,可以參考文獻[1],采用直方圖幀差法、χ2檢驗直方圖差法、直方圖最小幀差法、平均彩色法等進行方法改進;也可以參考文獻[2]提出的基于直方圖法的切變鏡頭自動檢測算法,利用鏡頭內(nèi)直方圖幀間差值的相似性,通過尋找窗口內(nèi)的突變點來尋找鏡頭的切變幀。
1.1.3 基于邊緣法
基于邊緣法可稱為基于輪廓的方法,是利用連續(xù)鏡頭的邊緣變化程度來確定鏡頭是否發(fā)生轉變。判斷過程大致為:首先對2個連續(xù)幀圖像進行總體的運動補償,再提取2幀的邊緣(輪廓),計算出變化了的輪廓比率(即新的邊緣在舊的邊緣基礎上增加或者減少的像素比例),若該值大于事先設定的閾值,則可認定發(fā)生了鏡頭轉變。
這種方法先進行配準,再實行邊緣比較,所以能夠判斷運動物體的鏡頭,并且對鏡頭的突變和漸變都有很好的檢測效果。但是該方法計算量比較大,并且當幀圖像很復雜,主體或者背景中出現(xiàn)較多輪廓時,可造成對鏡頭邊界的判斷失誤;當亮度不強時,還有可能出現(xiàn)漏檢輪廓的情況。
1.1.4 塊匹配法
塊匹配法也可以改善模板匹配法的缺點,通過利用局部的特點來減弱整體對運動的敏感特性。塊匹配法首先需要進行幀圖像的n×n子塊劃分,然后,對連續(xù)幀的相同位置的子塊進行相似比較,比較依據(jù)可以是子塊的灰度差,也可以是直方圖,比較的結果可用相似比?表示。同樣,需要事先設定好一個閾值,該閾值要與?比較,統(tǒng)計n×n個子塊的?中有多少個是大于閾值的,當有足夠多的?大于閾值時,可判斷鏡頭發(fā)生轉變。從判定過程可看出,塊匹配法是計算量非常復雜的方法,并且只有子塊劃分得足夠小,才能提高判定的準確性。
1.1.5 基于模型法
這種方法適用于專業(yè)領域,需要對各種鏡頭轉變建立恰當?shù)臄?shù)學模型,利用建好的模型實現(xiàn)對鏡頭邊緣的檢測,實現(xiàn)鏡頭分割。該方法的關鍵點在于數(shù)學模型的建立,只有在準確建模的基礎上才能確保鏡頭分割的精準性。
1.1.6 自適應閾值法
有文獻提出的思路是,將鏡頭的幀差平均值乘上一個擴大系數(shù)a作為判定鏡頭轉換的閾值,達到閾值的自適應選擇。一般情況下,同一鏡頭內(nèi)的幀差值是與幀差平均值相差不多的,只有鏡頭轉變處的幀差才會顯著大于該幀差平均值,所以根據(jù)只要比幀差平均值大很多的幀差就是鏡頭轉變邊界的思路,研究出了自適應閾值法。關于自適應閾值法的算法還有很多,文獻[3]提出了綜合利用像素差值的統(tǒng)計方差、直方圖差異等多種方法,根據(jù)差值的分布自動計算閾值的算法。
1.1.7 基于聚類法
K-means聚類算法根據(jù)相鄰幀的顏色直方圖自動將幀差值分為場景有明顯變化和沒明顯變化兩類進行鏡頭分割,其中,單獨出現(xiàn)的場景變化處判定為鏡頭突變,連續(xù)出現(xiàn)的場景變化處判定為鏡頭漸變。該方法的最突出優(yōu)點就是不用進行閾值比較,并且對各段視頻序列有自適應的能力,但是該方法對噪聲的干擾比較敏感,同時由于鏡頭漸變時其變化不大,很容易把漸變歸入到無場景變化中,造成誤檢。
1.1.8 雙重比較法
由于鏡頭轉換分為突變和漸變,當發(fā)生突變時,幀間差在突變處會有明顯峰值,使用閾值能夠較準確檢測出突變;但是發(fā)生漸變時,幀間差沒有很明顯的峰值,所以,上述用到判定鏡頭轉換的閾值的方法都會有局限性。有文獻提出了雙重比較法,可以采用2個閾值T1和T2(T1<T2),當連續(xù)2幀的幀差大于T1、小于T2時,可判定潛在漸變開始,接著將差值進行累加,當差值大于T2時判定發(fā)生漸變,差值小于T1時判定漸變結束。這種方法主要用于漸變的檢測,但是當鏡頭運動速度緩慢時,基本也符合上述特點,容易出現(xiàn)誤檢情況。
1.2.1 基于DCT變換法
目前國際上常用的視頻壓縮標準都可以實現(xiàn)DCT變換。所謂DCT變換,就是將二維空間像素值轉變成二維頻域系數(shù)值,這樣就導致頻域的變換系數(shù)與像素域有了直接聯(lián)系,頻域能夠順利表達圖像幀。該方法主要是計算連續(xù)幀間的DCT系數(shù)的差值,與設定好的閾值進行比較,進而判斷出是否發(fā)生鏡頭轉換。
此方法還是有缺陷的,例如MPEG壓縮視頻,只對I幀進行DCT變化,P幀和B幀只能通過預測來編碼,所以采用DCT變化法來判定鏡頭轉換,在精度上會有所限制。
1.2.2 基于DC系數(shù)的方法
基于DC直流分量的方法是在DCT方法的基礎上發(fā)展改善的。DC方法使用的是DCT系數(shù)的直流分量,DC系數(shù)代表了塊內(nèi)圖像的平均亮度,并且DC圖像是原圖像8×8的平均,它包含了原圖像的基本全局信息。首先對視頻序列中的每幀圖像進行運動補償,進行DCT變化,將其DC直流分量取出,然后采用模板匹配法,設DC圖像之間的差值作2幀之間的相似性度量,當差值(亮度變化)明顯偏大時,表明亮度改變,可認為鏡頭發(fā)生轉換。這種方法的優(yōu)點是速度比較快,但是也有缺點,當2幀的像素值相似而密度函數(shù)不同時,容易造成誤檢。
1.2.3 基于運動矢量的方法
該方法的思路是,從視頻序列中估計出來的運動矢量在同一個鏡頭中肯定是相對連續(xù)的,只有不同鏡頭間的運動才會出現(xiàn)不連續(xù)性。以MPEG壓縮視頻為例,鏡頭轉變前B幀常有大量前向運動補償,鏡頭轉變后B幀常有大量后向運動補償,具體應用此方法,關系到P幀和B幀,還需要進行2次判斷。首先要檢測P幀中的幀內(nèi)編碼宏塊的數(shù)量,較大時說明可能出現(xiàn)鏡頭轉換,然后檢測統(tǒng)計B幀中前后向宏塊的數(shù)量,以此判定鏡頭轉換的具體位置。
由于該方法充分利用各種幀中運動補償信息,導致計算復雜,容易出錯。
1.2.4 基于宏塊編碼類型的方法
1.2.5 模糊查找法
該方法主要是根據(jù)H.264壓縮編碼視頻所研究出的鏡頭分割方法,Sungmin等人[4]提出通過比較2個連續(xù)I幀的宏塊分割模式來判斷鏡頭邊界的方法,該方法運算速度非??欤纫草^高,但是只能將鏡頭邊界確定在2個I幀之間,所以也可稱為模糊查找法。在此方法基礎上可進行改進,首先是找出差異大的相鄰2個I幀作為可能發(fā)生鏡頭轉換的位置,然后利用2個I幀間的P幀和B幀確定準確位置。這種方法的精度也很高,但是對漸變檢測效果一般。
關于鏡頭分割的常用方法,大致是按壓縮域和非壓縮域進行劃分,也可以認為是分成基于像素域和基于壓縮域兩大類。對本文提到的常用方法進行分類和歸納[5-14],如表1 所示。
表1 常用方法的分類和歸納
由于鏡頭分割存在兩種情況,分別是突變和漸變,導致分割方法需要在兩種情況下都要有良好的檢測效果,才能使該方法成為廣泛使用的分割方法。但是從目前的研究成果來看,因為鏡頭突變的立即性等特點,研究出多種分割方法,并且實測效果良好,可是關于鏡頭漸變的分割方法還沒有到達突變的檢測效果。同時,關于鏡頭分割方法,大部分還需要事先按照經(jīng)驗或者實驗數(shù)據(jù)設定一定的閾值,這種情況會導致檢測結果的不精準。
從現(xiàn)階段的研究發(fā)展來看,鏡頭分割的研究主要有以下幾點:1)閾值的設定??梢钥紤]自適應閾值的算法和不使用閾值的分割方法的研究;2)漸變檢測方法的研究,使對突變檢測效果較好的方法適用于漸變檢測,并且效果也較好;3)改善現(xiàn)有的突變算法,提高邊界識別率;4)壓縮域分割方法的研究。直接對壓縮視頻進行鏡頭分割,能夠縮短檢測時間,是近年來研究重點,并且現(xiàn)在大部分是對MPEG壓縮格式的研究,隨著越來越多的壓縮格式的產(chǎn)生,比如H.264,壓縮域的鏡頭分割算法也應該擴大適用性。
基于內(nèi)容的視頻檢索的鏡頭分割方法是多年來研究的熱點問題,有著豐碩的科研成果。本文對鏡頭分割主要方法進行概述,并簡單歸納出這些方法的優(yōu)缺點,最后根據(jù)研究現(xiàn)狀提出一些想法,為實際應用提供一定的參考。
:
[1]劉政凱,湯曉鷗.視頻檢索中鏡頭分割方法綜述[J].計算機工程與應用,2002(23):84-87.
[2]劉典,劉文萍.一種基于直方圖的切變鏡頭自動檢測算法[J].北方工業(yè)大學學報,2007,19(3):16-20.
[3]成勇,須德.一種自動選取閾值的視頻鏡頭邊界檢測算法[J].電子學報,2004(3):508-511.
[4]KIM S,BYUN J,WON C.A scene change detection in H.264/AVC[J].LNCS3786,2005:1072-1082
[5]ZABHI R,MILLER J,MAI K.A feature-based algorithm for detecting and classifying scene breaks[EB/OL].[2013-03-10].http://wenku.baidu.com/view/90972b126c175f0e7cd13718.html.
[6]孫利濤,楊雷.視頻鏡頭分割技術綜述[J].山東輕工業(yè)學院學報,2007(3):36-39.
[7]錢剛,曾貴華.典型視頻鏡頭分割方法的比較[J].計算機工程與應用,2004(32):51-55.
[8]周祥東,李國輝,涂丹,等.一種新的視頻鏡頭分割算法[J].計算機工程與科學,2003(25):5-8.
[9]ZHANG H J,KANKANHALL A K,WMOLIAR S W.Automatic partitioning of full-motion video[J].Multimedia Systems,1993,1(1):10-28.
[10]朱曦,林行剛.視頻鏡頭時域分割方法的研究[J].計算機學報,2004(8):1027-1035.
[11]呂曉宇.視頻鏡頭分割方法[J].辦公自動化雜志,2011(7):33-34.
[12]劉佳兵.視頻檢索中的視頻鏡頭分割技術[J].福建電腦,2007(1):66-67.
[13]洪夏俊,夏殿松.基于H.264/AVC壓縮域的實時視頻鏡頭分割算法[J].電腦知識與技術,2009(4):944-946.
[14]李向偉,李戰(zhàn)明,張明新,等.基于內(nèi)容的視頻鏡頭檢測技術[J].電視技術,2008,32(3):19-21.