王艷 陳姝君
摘要:通過(guò)對(duì)新聞視頻中主持人鏡頭的分析,提出基于模板色矩的主持人鏡頭檢測(cè)算法。實(shí)驗(yàn)表明,該方法能較準(zhǔn)確地檢測(cè)出主持人鏡頭,具有一定的魯棒性。
關(guān)鍵詞:主持人鏡頭檢測(cè);主持人模板;色矩1引言
由于主持人鏡頭是新聞視頻中的重要結(jié)構(gòu)特征,因此,主持人鏡頭的檢測(cè)始終是新聞視頻分析的一個(gè)重要方面。許多研究者對(duì)這個(gè)問(wèn)題進(jìn)行過(guò)研究和探索,比如:利用模板匹配來(lái)進(jìn)行檢測(cè)[1];利用主持人鏡頭會(huì)在整個(gè)視頻段中反復(fù)出現(xiàn),并以此作為檢測(cè)的依據(jù)[2]等等。這些方法效果大都不錯(cuò),但算法都比較復(fù)雜,計(jì)算量較大。
2主持人模板的提取與色矩的計(jì)算
新聞視頻中的主持入鏡頭,是一類具有鮮明特征的鏡頭,其一般形式為一個(gè)或兩個(gè)主持人,在固定的演播室背景前進(jìn)行新聞報(bào)道,主持人鏡頭實(shí)例如圖1。通過(guò)觀察可以發(fā)現(xiàn),主持人的位置以及字幕、臺(tái)標(biāo)和節(jié)目標(biāo)志的出現(xiàn)位置,都有嚴(yán)格的規(guī)定,由此可以建立了主持人鏡頭的空間結(jié)構(gòu)模型2。圖中,區(qū)域A-D分別代表主持人、臺(tái)標(biāo)、字幕和節(jié)目標(biāo)志所出現(xiàn)的區(qū)域。從簡(jiǎn)化算法和降低計(jì)算復(fù)雜性方面考慮,本文根據(jù)主持人鏡頭的背景不變性進(jìn)行檢測(cè)[3]。從不變的背景出發(fā),通過(guò)色矩計(jì)算和模板匹配來(lái)進(jìn)行主持人鏡頭的檢測(cè)。
本文的主持人鏡頭檢測(cè)方法如下:提取到主持人幀模板,計(jì)算如圖3各子塊的色矩作為模板色矩,通過(guò)計(jì)算關(guān)鍵幀各子塊的色矩向量與模板色矩向量的歐式距離,進(jìn)行匹配,從而判定關(guān)鍵幀是不是主持人幀,從而判定關(guān)鍵幀所在鏡頭是不是主持人鏡頭。在音頻特性上,第一個(gè)主持人鏡頭出現(xiàn)之前會(huì)有一段音樂(lè)過(guò)渡,并且從音樂(lè)向語(yǔ)音的過(guò)渡中間,有一個(gè)較長(zhǎng)的靜音片段。由于音視頻具有同步性,檢測(cè)到靜音幀后的第一或第二幀的圖像必定是主持人幀,從中可以提取到主持人幀的模板。
色矩是由Stricker和Orengo提出的一種簡(jiǎn)單而有效的顏色特征[4]。它的數(shù)學(xué)基礎(chǔ)是圖像中任何的色彩分布均可以用它的矩來(lái)表示。由于顏色分布信息主要集中在低階矩中,這里僅用色彩的一階矩(mean,均值)、二階矩(variance,方差)就足以表達(dá)圖像的顏色分布,其數(shù)學(xué)表達(dá)式為:
其中,pij表示圖像中第j個(gè)像素的第i個(gè)分量,這里在HSI顏色空間進(jìn)行計(jì)算。
3主持人鏡頭的算法
主持人鏡頭具體算法步驟如下:
Step1.根據(jù)音視頻的同步性,先是一段音樂(lè),檢測(cè)到靜音幀后的第一或第二幀的圖像必定是主持人幀,提取主持人幀的模板。
Step2.計(jì)算主持人幀模板的各子塊色矩作為模板色矩。
Step3.計(jì)算各關(guān)鍵幀的各子塊色矩,與主持人幀模板的模板色矩進(jìn)行匹配,確定關(guān)鍵幀是否是主持人幀,從而確定關(guān)鍵幀所在鏡頭是否是主持人鏡頭。
4實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)采用中央一臺(tái)長(zhǎng)達(dá)30分鐘的8個(gè)新聞聯(lián)播進(jìn)行主持人鏡頭檢測(cè),共檢測(cè)出72個(gè)主持人鏡頭,無(wú)誤檢,無(wú)漏檢,查準(zhǔn)率和查全率都達(dá)到了100%。
[參考文獻(xiàn)]
[1]王潤(rùn)生.圖像理解.長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1995.
[2]馬宇飛,等.新聞視頻中的口播幀檢測(cè)方法的研究.軟件學(xué)報(bào).2001(3)27-31.
[3]徐峻,等.新聞視頻中主持人鏡頭識(shí)別方法的研究.計(jì)算機(jī)工程.2002:Vol 28 NO.3.
[4]Stricker M,Orengo M.Similarity of color images.SPIE Storage and Retrieval for Image and Video Databases III,F(xiàn)eb.1995,2185:381-392.