陳燕升,任江濤,黃達峰
(1.廣東輕工職業(yè)技術(shù)學(xué)院 a.環(huán)境工程系;b.計算機工程系,廣東廣州510300;2.中山大學(xué)軟件學(xué)院,廣東廣州510275)
隨著網(wǎng)絡(luò)技術(shù)發(fā)展,視頻流劇增,不良的網(wǎng)絡(luò)視頻圖像對社會的穩(wěn)定和人們的身心健康產(chǎn)生不利影響,通過對視頻信息的字幕進行定位,有利于對后續(xù)視頻內(nèi)容進行安全分析和檢測,因此建立精確、高效的視頻字幕定位模型成為了當(dāng)前研究的熱點[1]。
視頻字幕定位實質(zhì)上是模式識別中的二分類問題,即指將字幕塊定義為“+l”,非字幕塊定義為“-l”,對于每一個輸入,如果其輸出為正,則表示為字幕塊;若為負,則為非字幕塊。視頻字幕定位主要包括視頻字幕特征自動提取和選擇、視頻字幕分類器設(shè)計等步驟[2]。特征選擇是視頻字幕定位的基礎(chǔ),原始視頻字幕特征包含大量冗余信息和對定位結(jié)果起“反作用”的噪聲特征,若對視頻字幕特征不加選擇直接使用,不僅大大削弱了視頻字幕分類器的分類性能,而且增加“維數(shù)災(zāi)難”出現(xiàn)概率,對視頻字幕定位結(jié)果產(chǎn)生不利影響[4]。當(dāng)前視頻字幕特征選擇算法主要有:主成分分析、窮舉算法、遺傳算法、粒子群優(yōu)化算法、免疫算法以及相關(guān)的改進算法[5]。窮舉算法計算量大、搜索效率低,不能滿足視頻字幕定位的實時性;主成分分析可以進行視頻字幕特征降維,但是可解釋性差;遺傳算法、粒子群優(yōu)化算法、免疫算法等均存在收斂速度慢、極易陷入局部極值等缺陷,難以找到全局最優(yōu)的視頻字幕特征[6]。人工魚群算法(Artificial Fish Swarm Algorithm,AFSA)是一種模擬魚群覓食行為的群智能算法,具有魯棒性強、簡單、易實現(xiàn)等優(yōu)點,在組合優(yōu)化領(lǐng)域取得了不錯的應(yīng)用效果[7]。視頻字幕特征選擇是一個大規(guī)??臻g搜索的組合優(yōu)化問題,因此可借助于AFSA進行求解。當(dāng)前視頻字幕分類器主要基于機器學(xué)習(xí)算法進行設(shè)計,主要有神經(jīng)網(wǎng)絡(luò)、支持向量機等[8]。神經(jīng)網(wǎng)絡(luò)基于經(jīng)驗風(fēng)險最小化原則和“大樣本”理論,當(dāng)不能滿足“大樣本”要求時,易出現(xiàn)過擬合、分類能力差等缺陷。最小二乘支持向量機(Least Square Support Vector Machine,LSSVM)是一種解決高維、非線性分類問題的機器學(xué)習(xí),較好地克服了神經(jīng)網(wǎng)絡(luò)泛化推廣能力差、支持向量機訓(xùn)練時間長等缺陷,泛化能力優(yōu)異[9]。因此本研究選擇LSSVM建立視頻字幕定位的分類器。
為了提高視頻字幕定位精度,針對視頻字幕定位特征選擇問題,提出一種AFSA和LSSVM相融合的視頻字幕定位型(AFSA-LSSVM)。首先用近鄰傳播聚類算法對視頻幀進行分解,并用圖像投影方法進行定位得到一個備選字幕區(qū)域集,然后提取備選字幕區(qū)域的特征參數(shù),并采用AFSA選擇最優(yōu)的特征子集,最后將最優(yōu)特征子集輸入到LSSVM進行學(xué)習(xí)和分類,得到視頻字幕定位的結(jié)果。仿真結(jié)果表明,AFSA-LSSVM提高了視頻字幕定位精度和效率。
采用近鄰傳播聚類算法把視頻圖像幀中的邊緣分解到若干個子圖當(dāng)中,將具有不同顏色的字幕邊緣和背景邊緣分開。通常情況下,字幕區(qū)域的邊緣信息比較密集,同時也含有豐富的筆劃信息,可以通過文獻[10]的方法對邊緣子圖進行水平和垂直投影來尋找包含字幕的備選字幕區(qū)域,然而這樣檢測到的字幕區(qū)域中還包含了一些錯誤的字幕區(qū)域,所以需要后續(xù)步驟對字幕區(qū)域作進一步的識別。視頻幀的分解結(jié)果如圖1所示。
圖1 視頻幀的分解結(jié)果
1)對備選字幕區(qū)域進行邊緣檢測,得到 0°,30°,60°,90°,120°以及 150°方向的邊緣圖,共得到 6 個方向的邊緣圖。
2)分別計算6個邊緣圖的均值、方差、能量、熵、慣性矩以及非相似性這6個統(tǒng)計特征,共得到36個特征參數(shù)。
設(shè)邊緣圖的灰度圖像的大小是M×N,點(i,j)的灰度值為f(i,j),則字幕區(qū)域均值ξ和方差δ2為
采用灰度共生矩陣可以描述在角度θ方向上,相距為s、灰度分別為i和j的兩個像素,它們的頻率相關(guān)矩陣pij(s,θ)的 θ選擇為 6 個離散的方向 0°,30°,60°,90°,120°,150°,而s可以取從 1 到圖像大小的值N。能量(E)、熵(I)、慣性矩(J)、非相似性(D)定義為
按照上文所述提取了36個字幕特征,這些特征可能包含大量冗余信息和對定位結(jié)果起“反作用”的噪聲特征,若對這些視頻字幕特征不加選擇直接作為分類器的輸入,不僅大大削弱了視頻字幕分類器的分類性能,而且增加“維數(shù)災(zāi)難”出現(xiàn)概率,對視頻字幕定位精度和效率產(chǎn)生不利影響,因此本文采用AFSA進行視頻字幕特征選擇。
1.3.1 人工魚群算法
人工魚群算法(AFSA)模仿魚群的覓食和追尾行為,搜索能力強,且搜索速度快,幾種典型行為如下:
1)覓食行為的數(shù)學(xué)表達式為
式中:X i為人工魚當(dāng)前狀態(tài);Yi為食物密度;Rand()為(0,1)范圍內(nèi)的隨機數(shù);Step為移動步長。
2)聚群行為的數(shù)學(xué)表達式為
式中:δ為擁擠度因子;nf為伙伴數(shù)目;X c為中心位置。
3)追尾行為的數(shù)學(xué)表達式為
式中,Xmax表示食物濃度最高Yj的人工魚位置。
4)公告板。公告牌是用于記錄最優(yōu)人工魚的狀態(tài)。
1)收集視頻字幕數(shù)據(jù),采用近鄰傳播聚類算法對視頻幀進行分解,并用圖像投影方法進行定位得到一個備選字幕區(qū)域集。
2)提取備選字幕區(qū)域的36個特征參數(shù),并對特征進行歸一化處理
式中,xi和分別為原始特征值和歸一化后的特征值。
3)初始化人工魚參數(shù),主要有位置、移動步長Step、種群規(guī)模n、擁擠度因子 δ、最大迭代次數(shù)max_iterate等。
4)在可行域范圍內(nèi)隨機生成n條人工魚,并設(shè)置初始迭代次數(shù)max_iterate=0。
5)對初始魚群的個體當(dāng)前位置食物濃度值(FC)進行計算,然后對它們進行排序,選擇FC值最大的人工魚個體進入公告板。
由此看來,在分析新聞?wù)Z篇時,光注重語篇內(nèi)部銜接是遠遠不夠的,應(yīng)把語篇置于社會語境中加以人際意義的分析注解,這樣才能完全吃透文本。
6)評價某條人工魚的覓食、追尾和聚群行為所得的結(jié)果,若執(zhí)行某個行為后,人工魚的狀態(tài)優(yōu)于當(dāng)前狀態(tài),則該人工魚向此方向前進一步,接著轉(zhuǎn)到步驟8)執(zhí)行。
7)產(chǎn)生一個隨機數(shù)r,若r<Pfb,則人工魚執(zhí)行隨機行為,否則執(zhí)行反饋行為,向公告牌中最優(yōu)方向移動一步,并得到當(dāng)前解域范圍內(nèi)的最好的人工魚狀態(tài)。
8)更新公告牌,將步驟7)中得到的最好人工魚狀態(tài)記入公告牌。
9)判斷算法結(jié)束條件,如果達到最大迭代次數(shù),則結(jié)束算法,并輸出公告牌中的人工魚狀態(tài),即為最優(yōu)視頻字幕特征子集,否則passed_iterate=passed_iterate+1,轉(zhuǎn)向步驟6)執(zhí)行。
10)根據(jù)最優(yōu)視頻字幕特征子集對最優(yōu)視頻字幕訓(xùn)練集和測試集進行特征約簡,得到約簡后的訓(xùn)練集和測試集。
11)將特征約簡后的最優(yōu)視頻字幕訓(xùn)練集送到LSSVM進行訓(xùn)練,建立最優(yōu)視頻字幕定位模型。
12)將約簡后的測試集輸入到已建立的最優(yōu)視頻字幕定位模型進行測試,以驗證模型的性能。
基于AFSA-LSSVM的視頻字幕定位流程為:首先對視頻字幕定位訓(xùn)練集數(shù)據(jù)進行預(yù)處理并提取原始特征,利用LSSVM建立視頻字幕定位分類器對原始特征子集進行評估,然后通過魚群的覓食、聚群及追尾行為,快速找到最優(yōu)特征子集,并根據(jù)選擇的最優(yōu)特征子集對訓(xùn)練集和測試集進行特征約簡,最后將特征約簡后的訓(xùn)練集送到LSSVM進行訓(xùn)練,建立視頻字幕定位模型,并對特征約簡后的視頻字幕進行定位檢測。AFSA-LSSVM的視頻字幕定位框架如圖2所示。
圖2 AFSA-LSSVM的視頻字幕定位框架
從中央電視臺選取了1 000幀不同的視頻節(jié)目圖像,包括主持人畫面、體育新聞、廣告和比賽畫面,選取800幀組成訓(xùn)練集,用于建立視頻字幕定位模型,其余200幀作為測試集,用于測試視頻字幕定位模型的有效性。在PIV雙核 CPU 3.0 GHz、2 Gbyte RAM,操作系統(tǒng)為 Windows XP,MATLAB 2012平臺下進行仿真測試。
為了讓AFSA-LSSVM模型的定位結(jié)果具有可比性,選擇表1中的幾種模型進行對比實驗。模型性能評價標(biāo)準(zhǔn)為:視頻字幕定位的正確率、誤判率和定位時間。
表1 對比模型及說明
2.3.1 各模型選擇的特征子集
采用 LSSVM,GA-LSSVM,PSO-LSSVM,AFSA-LSSVM進行特征子集選擇,得到最優(yōu)特征子集見表2。從表2可知,采用特征選擇方法,有效消除了冗余或無用特征,可以降低特征維數(shù),大大地壓縮了特征空間,因此在訓(xùn)練集和測試集輸入到分類器進行學(xué)習(xí)之前,對特征進行選擇是必須的。
表2 各模型對不同類型視頻字幕選擇的特征數(shù)
2.3.2 視頻字幕的定位性能對比
根據(jù)選擇最優(yōu)視頻字幕特征子集分別對訓(xùn)練集和測試集進行視頻字幕特征約簡處理,然后將訓(xùn)練集輸入到LSSVM進行學(xué)習(xí)和建模,最后采用建立的視頻字幕定位模型對測試集進行測試,定位結(jié)果的正確率和誤判率如圖3和圖4所示。
圖3 各模型的定位正確率對比
圖4 各模型的誤判率對比
從圖3和圖4可知,相對于沒有進行特征選擇的視頻字幕定位模型(LSSVM),GA-LSSVM、PSO-LSSVM、AFSA-LSSVM均不同程度地提高了視頻字幕定位的正確率,同時降低了誤判率,主要是因為特征選擇可以剔除冗余和不重要的視頻字幕特征,獲得有利于提高視頻字幕定位結(jié)果的視頻字幕特征。
同時從圖3和4可以看出,相對于GA-LSSVM和POS-LSSVM模型,AFSA-LSSVM的視頻字幕定位正確率更高,誤判率進一步降低,這有效地表明了AFSA獲得的特征子集可以更加準(zhǔn)確地描述視頻字幕區(qū)域,AFSA-LSSVM可以獲得更優(yōu)的視頻字幕定位結(jié)果。
2.3.3 訓(xùn)練和測試時間比較
對于大規(guī)模的視頻字幕定位問題,定位速度至關(guān)重要,采用tic和toc命令記錄每一個模型的平均訓(xùn)練時間和平均測試時間,結(jié)果見表3。從表3可知,在所有模型中,AFSA-LSSVM的訓(xùn)練時間和測試時間最短,定位速度最快,對比結(jié)果表明采用AFSA對視頻字幕進行選擇后,降低了分類器輸入維數(shù),計算復(fù)雜度降低,加快了定位收斂速度,AFSA-LSSVM可以滿足大規(guī)模的視頻字幕定位實時性要求。
表3 不同模型的訓(xùn)練時間和測試時間對比
針對視頻字幕的定位問題,提出了一種采用AFSA選擇特征和LSSVM定位相結(jié)合的視頻字幕定位模型,仿真實驗結(jié)果表明,AFSA-LSSVM提高了視頻字幕定位的效率與正確率。備選字幕區(qū)域的選取優(yōu)化是一下步將要進行的研究工作,以進一步提高字幕的定位正確率。
[1] TANG X,GAO X,LIU J.A spatial-temporal approach for video caption detection and recognition[J].IEEE Trans.Neural Networks,2002,13(4):961-971.
[2] LEFEVRE S,VINCENT N.Caption localization in video sequences by fusion of multiple detectors[C]//Proc.Eighth International Conference on Document Analysis and Recognition.[S.l.]:IEEE Press,2005:106-110.
[3]葛菲,史萍.基于內(nèi)容的電視廣告段落檢測系統(tǒng)[J].電視技術(shù),2010,34(9):106-109.
[4] ODOBEZ J,CHEN D.Video text recognition using sequential Monte Carlo and error voting methods[J].Pattern Recogn,Lett.,2005,26(9):1386-1403.
[5]葛菲,史萍,姚彬,等.廣告段落分割系統(tǒng)中的字幕檢測[J].電視技術(shù),2010,34(2):25-29.
[6]王勇,燕繼坤,鄭輝,一種自適應(yīng)的視頻幀中字幕檢測定位方法[J].計算機應(yīng)用,2004,24(1):134-135.
[7]易劍,彭宇新,肖建國.基于顏色聚類和多幀融合的視頻文字識別方法[J].軟件學(xué)報,2011,22(12):2919-2933.
[8]劉駿偉,吳飛,莊越挺.基于SVM和ICA的視頻幀字幕自動定位與提取[J].中國圖象圖形學(xué)報,2003,8(11):1331-1337.
[9]莊越挺,劉駿偉,吳飛.基于支持向量機的視頻字幕自動定位與提?。跩].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2002,14(8):750-0753.
[10] LIUM,SONG J,CAIM.A comprehensive method formultilingual video text detection,localization,and extraction[J].IEEE Trans.Circuits and Systems for Video Technology,2005,15(2):243-255.