亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于字幕文本提取的講座視頻快速瀏覽技術(shù)探討*

2014-07-12 17:09:51夏玉華鞏海梅

數(shù)字圖書(shū)館論壇 2014年4期

關(guān)鍵詞：字幕像素點(diǎn)講座

夏玉華鞏海梅

(1.山東大學(xué)圖書(shū)館，濟(jì)南 250100；2.山東建筑大學(xué)圖書(shū)館，濟(jì)南 250101)

基于字幕文本提取的講座視頻快速瀏覽技術(shù)探討*

夏玉華1鞏海梅2

(1.山東大學(xué)圖書(shū)館，濟(jì)南 250100；2.山東建筑大學(xué)圖書(shū)館，濟(jì)南 250101)

圖書(shū)館中的視頻資源越來(lái)越豐富，為使讀者能夠快速地從海量的視頻資料中找出想要的視頻，并且準(zhǔn)確地從視頻中定位到想要的段落，文章根據(jù)講座視頻字幕位置相對(duì)固定的特點(diǎn)，采用幀差法提取字幕文本，通過(guò)對(duì)字幕文本的識(shí)別，將檢索詞與視頻內(nèi)容聯(lián)系起來(lái)，進(jìn)而實(shí)現(xiàn)讀者快速瀏覽并定位視頻段落的目的。

講座視頻；快速瀏覽；字幕文本提取

近年來(lái)，隨著計(jì)算機(jī)技術(shù)、多媒體技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，學(xué)術(shù)講座越來(lái)越普及，講座視頻也應(yīng)運(yùn)而生。講座視頻不僅是讀者開(kāi)拓視野、了解學(xué)科前沿、提升綜合素質(zhì)的資源，而且給讀者提供了學(xué)習(xí)時(shí)間和空間上的自由度，可以隨時(shí)隨地重復(fù)觀看。在山東大學(xué)圖書(shū)館多媒體資源中，愛(ài)迪科森“網(wǎng)上報(bào)告廳”和超星學(xué)術(shù)視頻都收錄了大量的講座視頻。這些視頻中每個(gè)視頻包含的內(nèi)容豐富，時(shí)長(zhǎng)比較長(zhǎng)，對(duì)于只關(guān)注其中的幾個(gè)興趣點(diǎn)的讀者來(lái)說(shuō)，如何快速準(zhǔn)確地定位所關(guān)注的視頻內(nèi)容就成為了高效利用視頻資源的關(guān)鍵。雖然現(xiàn)在優(yōu)酷、搜狐等一些大型視頻網(wǎng)站提供了關(guān)鍵幀呈現(xiàn)視頻內(nèi)容的功能，但對(duì)于場(chǎng)景相對(duì)簡(jiǎn)單的講座視頻來(lái)說(shuō)，都不能很好地解決問(wèn)題。目前，山東大學(xué)圖書(shū)館對(duì)講座視頻的介紹僅限于專題名、主講人、主講人單位等，如此簡(jiǎn)單的介紹遠(yuǎn)不能滿足讀者對(duì)講座視頻內(nèi)容的檢索需求。因此，讀者如何快速檢索到所需內(nèi)容的視頻實(shí)現(xiàn)快速瀏覽成為亟待解決的問(wèn)題。

字幕文本是對(duì)講座視頻內(nèi)容準(zhǔn)確的描述，通過(guò)對(duì)字幕文本的提取和解析，可以實(shí)現(xiàn)對(duì)視頻內(nèi)容貼切的關(guān)鍵詞描述。目前，視頻的字幕提取算法是國(guó)內(nèi)外多媒體技術(shù)領(lǐng)域的研究熱點(diǎn)之一。國(guó)內(nèi)主要有基于多示例學(xué)習(xí)的視頻字幕提取算法[1]；基于邊緣強(qiáng)度的視頻圖像字幕提取算法[2]；基于行顏色梯度分析的視頻字幕區(qū)提取算法[3]；基于邊緣和灰度的視頻文字提取方法[4]；基于筆畫(huà)特征的多方法綜合視頻文本提取算法[5]等。國(guó)外主要有基于多層次特征優(yōu)先級(jí)的文本提取算法[6]；基于分層區(qū)域的圖像模型字幕提取算法[7]；利用圖論聚類的視頻字幕提取算法[8]等。

1 字幕文本提取算法的需求分析

目前，基于文本檢索的技術(shù)已經(jīng)非常成熟。讀者在檢索圖書(shū)、期刊、學(xué)位論文、會(huì)議論文、專利等文獻(xiàn)時(shí)，可通過(guò)題名、摘要、關(guān)鍵詞、全文等字段檢索所需文獻(xiàn)。但在檢索視頻時(shí)，由于在視頻幀的低級(jí)特征，如顏色、紋理、形狀等與其語(yǔ)義特征之間建立準(zhǔn)確的對(duì)應(yīng)關(guān)系非常困難，因而，往往采取視頻標(biāo)注的方式。比如北京大學(xué)圖書(shū)館對(duì)講座視頻的揭示有題名、主要責(zé)任者、內(nèi)容描述、主題關(guān)鍵詞、語(yǔ)種等。其中，“內(nèi)容描述”是編輯人員對(duì)視頻內(nèi)容的一個(gè)描述，容易引入個(gè)人見(jiàn)解，也就是說(shuō)不同的人對(duì)同一視頻的認(rèn)識(shí)和理解可能是不一樣的，那么給出來(lái)的描述就不一樣，這會(huì)影響對(duì)視頻最本質(zhì)的描述。視頻的字幕文本是一類特殊的文本，它是視頻內(nèi)容的文字呈現(xiàn)，是源于視頻本身的不帶有任何人主觀因素的描述。從這個(gè)角度來(lái)說(shuō)，該文本信息可以對(duì)視頻內(nèi)容進(jìn)行可信的有效描述。此外，這種描述由于能準(zhǔn)確記錄視頻內(nèi)容，可以完成低級(jí)特征不能表述的語(yǔ)義表達(dá)任務(wù)，從而有效建立視頻低層特征與高級(jí)意義之間的橋梁。同時(shí)，字幕在視頻中位置相對(duì)固定，文字比較突出，技術(shù)上實(shí)現(xiàn)的難度相對(duì)小一些。

2 基于幀差的字幕文本提取算法

2.1 講座視頻字幕文本特征分析

視頻文本有兩種：場(chǎng)景文本和字幕文本[9]。場(chǎng)景文本就是視頻中景物上出現(xiàn)的文字，比如講座視頻中的課件、體育視頻中的比分牌等都是在場(chǎng)景內(nèi)出現(xiàn)并由視頻攝制設(shè)備記錄下來(lái)的文本。雖然場(chǎng)景文本在一定程度上反映了視頻的內(nèi)容，但字幕文本才是視頻內(nèi)容的準(zhǔn)確表述，不但可以作為視頻內(nèi)容的標(biāo)注，而且可以據(jù)此實(shí)現(xiàn)基于內(nèi)容的檢索，定位視頻段落。通過(guò)對(duì)比分析大量的講座視頻，發(fā)現(xiàn)其字幕文本具有以下特征。

(1)位置相對(duì)固定

字幕文本位置通常在視頻幀底部1/4處，且在連續(xù)的多幀圖像中重復(fù)顯示，一般只有顯示和消失兩種變化狀態(tài)。

(2)字符尺寸、間距均勻且相對(duì)固定

為滿足講座視頻規(guī)范化的要求，字符大小一致，間距均勻無(wú)粘連，易于識(shí)別。

(3)顏色、亮度與其背景對(duì)比明顯

講座視頻的字幕文本與背景之間一般保持較高的顏色對(duì)比度，如文本通常為白色，亮度較高，其背景通常以藍(lán)色、深紅色為主，顏色較深，亮度較低。

總之，講座視頻字幕文本的位置、字符尺寸、顏色、亮度及其運(yùn)動(dòng)方向都有很好的穩(wěn)定性。

2.2 基于幀差的講座視頻字幕文本提取算法

通過(guò)對(duì)講座視頻字幕文本的特征分析，提出以下三種字幕文本提取算法，以實(shí)現(xiàn)基于內(nèi)容的講座視頻快速瀏覽。

2.2.1 逐幀字幕文本提取算法

逐幀提取字幕文本算法可以做到對(duì)講座視頻內(nèi)容的完全揭示，是最簡(jiǎn)單實(shí)用的算法。但字幕文本是連續(xù)顯示的，字?jǐn)?shù)多時(shí)，顯示的幀數(shù)可達(dá)到30～40幀；字?jǐn)?shù)少時(shí)，顯示的幀數(shù)也在5～10幀。此外，由于話語(yǔ)停頓，場(chǎng)景轉(zhuǎn)換等原因，字幕幀之間還有無(wú)字幕幀?？梢?jiàn)，該算法雖然簡(jiǎn)單但重復(fù)計(jì)算量大。

2.2.2 等幀數(shù)間隔字幕文本提取算法

由于在講座視頻中，相同的字幕文本是連續(xù)多幀重復(fù)顯示的，因而采取每隔固定數(shù)量的視頻幀提取一幀進(jìn)行灰度變換、邊緣檢測(cè)、二值化一系列處理之后提取字幕文本的方法，即等幀數(shù)間隔字幕文本提取算法。

圖1(a)中的“不可能”，在6幀圖像中重復(fù)，圖4-1(b)中的“國(guó)際交往中不易隨便探討對(duì)方”在30幀圖像中重復(fù)，圖1(c)無(wú)字幕幀在10幀中重復(fù)。如圖1所示，若間隔幀數(shù)為2幀，則圖1(a)、(b)、(c)中都有視頻幀被重復(fù)提取，若間隔幀數(shù)為28幀，則會(huì)漏掉圖1(a)文本幀。可見(jiàn)，幀數(shù)間隔大小難以確定。此外，由于鏡頭切換、話語(yǔ)停頓、場(chǎng)景變換等因素也會(huì)影響間隔幀數(shù)的選擇。

2.2.3 基于幀差的字幕文本提取算法

圖1 字幕文本字?jǐn)?shù)不同的有字幕幀和無(wú)字幕幀[10]

圖2 基于幀差的字幕文本提取算法流程圖

根據(jù)講座視頻字幕文本特征分析和對(duì)等幀數(shù)間隔字幕文本提取算法、逐幀字幕文本提取算法的比較，提出基于幀差的字幕文本提取算法，如圖2所示。

(1) 灰度變換

視頻幀的灰度變換就是把彩色視頻幀轉(zhuǎn)化為黑白顏色圖像的過(guò)程。讀取視頻幀底部1/4，按加權(quán)平均值法進(jìn)行灰度變換。

當(dāng)R=G=B=L時(shí)，

其中，L(x,y)—像素點(diǎn)(x,y)的灰度值；

R(x,y)—像素點(diǎn)RGB顏色的紅色分量；

G(x,y)—像素點(diǎn)RGB顏色的綠色分量；

B(x,y)—像素點(diǎn)RGB顏色的藍(lán)色分量。

(2) 幀差運(yùn)算

通過(guò)對(duì)逐幀字幕文本提取算法和等幀數(shù)間隔字幕文本提取算法的分析發(fā)現(xiàn)，關(guān)鍵是如何過(guò)濾掉視頻中的重復(fù)幀。本文采用幀差法，如圖3所示。

圖3 幀差運(yùn)算

幀差法的基本原理是采用基于像素的時(shí)間差分在圖像序列相鄰兩幀通過(guò)閉值化來(lái)提取圖像中的運(yùn)動(dòng)區(qū)域。講座視頻的字幕文本均在視頻幀的底部約1/4范圍內(nèi)，此處環(huán)境相對(duì)穩(wěn)定。設(shè)定閾值為0.5，那么，如幀差值大于0.5，則把讀入視頻幀作為參考幀，同時(shí)該幀進(jìn)入邊緣檢測(cè)處理程序。反之，如果幀差值小于0.5，則認(rèn)為該幀與參考幀相同，刪除該幀，如此循環(huán)處理。

(3) 邊緣檢測(cè)

圖像邊緣是圖像最基本的特征，如何提取對(duì)整個(gè)視頻場(chǎng)景的識(shí)別與理解尤為重要。如圖4所示的Sobel算子，(a)、(b)兩個(gè)卷積核形成了Sobel算子。其中，(a)用于提取水平方向上的邊緣，(b)用于提取垂直方向上的邊緣。視頻幀中的每個(gè)像素點(diǎn)都用這兩個(gè)核做卷積，兩卷積核的最大值就是該像素點(diǎn)的輸出位。這符合講座視頻字幕文本的空間分布和字符本身的特征，因而可以采用Sobel算子進(jìn)行圖像的邊緣檢測(cè)。

此外，Prewitt算子對(duì)灰度漸變和噪聲敏感度不高，因此，采用Prewitt算子進(jìn)行邊緣檢測(cè)也是較佳選擇之一。Prewitt算子用卷積模板描述如下：

圖4 Sobel算子

其中，(i,j)為點(diǎn)G(i,j)的像素輸出；

視頻幀中的每個(gè)像素點(diǎn)都用Px，Py模板做卷積，其最大值就是該像素點(diǎn)的輸出G(i,j)。

采用Sobel算子和Prewitt算子的邊緣檢測(cè)結(jié)果如圖5所示。

(4) 二值化

由于OCR識(shí)別軟件通常只能識(shí)別黑色或者白色背景下的字符，因此還要對(duì)邊緣圖像二值化處理。根據(jù)字符和背景在各區(qū)域內(nèi)灰度特性上具有某種均勻性，選定一個(gè)閾值來(lái)判斷哪些像素點(diǎn)是屬于字符內(nèi)部的點(diǎn)，哪些像素點(diǎn)是屬于背景的點(diǎn)。二值化圖像的質(zhì)量將直接影響到字幕文本提取的準(zhǔn)確度。

本文選用直方圖雙峰法計(jì)算閾值，并對(duì)圖5中的邊緣檢測(cè)圖像進(jìn)行二值化，結(jié)果如圖6(b)所示。對(duì)于圖5，閾值為0.22，若某像素的灰度值小于0.22，則其像素值為0，屬于字符內(nèi)部的點(diǎn)，反之，若某像素的灰度值大于0.22，則其像素值為255，是背景像素點(diǎn)?？梢?jiàn)，二值化的關(guān)鍵是閾值的計(jì)算。

圖5 Sobel算子和Prewitt算子邊緣檢測(cè)結(jié)果比較

圖6 二值化結(jié)果

2.3 仿真實(shí)驗(yàn)

利用MATLAB8.0軟件實(shí)現(xiàn)了基于幀差的字幕文本提取算法。在山東大學(xué)圖書(shū)館電子資源的愛(ài)迪克森“網(wǎng)上報(bào)告廳”中任選50個(gè)講座視頻中的200段，截取視頻段長(zhǎng)度為15秒～35秒，總時(shí)間約90分鐘。圖7只展示其中6段視頻的實(shí)驗(yàn)結(jié)果，實(shí)驗(yàn)結(jié)果見(jiàn)表1。

圖7 實(shí)驗(yàn)視頻

定義評(píng)價(jià)指標(biāo)—準(zhǔn)確率如式(3)表示。

其中， —準(zhǔn)確率；m—OCR軟件正確識(shí)別的字幕文本幀數(shù)；n—視頻段總幀數(shù)。

從表1可以看出該算法的準(zhǔn)確率都在90%以上，滿足了講座視頻基于內(nèi)容建立索引的需要，為實(shí)現(xiàn)基于內(nèi)容的視頻快速瀏覽提供了技術(shù)基礎(chǔ)。在驗(yàn)證該算法的實(shí)驗(yàn)過(guò)程中，講座視頻不同，閾值計(jì)算方法不同。一方面因?yàn)槲谋颈尘皬?fù)雜，另一方面文本的淡入和淡出也造成了閾值的不穩(wěn)定?？梢?jiàn)，需要在閾值計(jì)算時(shí)選擇適應(yīng)性更好的方法，同時(shí)加入字符檢測(cè)的方法，而不僅僅是二值化。

表1 基于幀差的字幕文本提取算法實(shí)驗(yàn)結(jié)果

3 結(jié)語(yǔ)

在對(duì)圖書(shū)館講座視頻結(jié)構(gòu)特征分析的基礎(chǔ)上，充分利用現(xiàn)有的灰度變換、邊緣檢測(cè)、二值化以及閾值計(jì)算方法，以幀差的方式提取講座視頻中的字幕文本，通過(guò)字幕文本對(duì)視頻內(nèi)容進(jìn)行快速定位。該方法具有實(shí)現(xiàn)簡(jiǎn)單、計(jì)算量小、準(zhǔn)確率高等優(yōu)點(diǎn)。對(duì)圖書(shū)館建立基于內(nèi)容的講座視頻索引，方便讀者根據(jù)內(nèi)容檢索所需視頻并定位視頻段落，實(shí)現(xiàn)基于內(nèi)容的視頻快速瀏覽具有現(xiàn)實(shí)意義。

[1]周長(zhǎng)建.基于多示例學(xué)習(xí)的視頻字幕提取算法研究[D].哈爾濱:哈爾濱工程大學(xué),2012.

[2]曹喜信,劉京,楊旭東,等.一種新的視頻字幕提取算法(英文)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)),2013(2):197-202.

[3]李瓊.基于行顏色梯度分析的視頻字幕區(qū)提取算法研究[J].三門峽職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013(2):115-118.

[4]高華.基于邊緣和灰度的視頻文字提取方法的研究與應(yīng)用[D].北京:北方工業(yè)大學(xué),2011.

[5]吳智愷.基于筆畫(huà)特征的多方法綜合視頻文本提取算法研究[D].上海:上海交通大學(xué),2010.

[6]CHITRAKALA G, MANJULA D. Multi Level Feature Priority algorithm based text extraction from heterogeneous and hybrid textual image [J]. International Journal of Signal and Imaging Systems Engineering, 2009, 2(4): 183-95.

[7]LEON M, VILAPLANA V, GASULL A, et al. Caption text extraction for indexing purposes using a hierarchical regionbased image model [C]// Proceedings of the 2009 16th IEEE International Conference on Image Processing (ICIP 2009), Cairo, Egypt. USA: IEEE, 2009: 1869-72.

[8]CHUN B T, HAN K, LEE J. Caption extraction in videos using graph-theoretic clustering [C]// CALLAOS N, HERNANDEZENCINAS L, YETIM F. 6th World Multiconference on Systemics, Cybernetics and Informatics. Proceedings, Orlando, FL, USA. USA: Int. Inst. Inf. &Syst., 2002: 57-60.

[9]劉曼曼.基于支持向量機(jī)的新聞視頻主題式字幕提取[D].天津:天津大學(xué),2007.

[10]夏玉華.基于高校圖書(shū)館學(xué)術(shù)講座視頻的快速瀏覽技術(shù)研究[D].濟(jì)南:山東大學(xué),2010.

作者簡(jiǎn)介

夏玉華，女，1972年生，山東大學(xué)圖書(shū)館館員，研究方向：信息與信號(hào)處理、學(xué)科評(píng)價(jià)。E-mail：377801915@qq.com。

Quick Browsing Approaches to Lecture Videos Based on Caption Text Extraction Algorithms

XIA YuHua1GONG HaiMei2
（1. Library, Shandong University, Ji'nan 250100, China; 2. Library, Shandong Jianzhu University, Ji'nan 250101, China）

With the enrichment of videos in library, in order to help readers to fi nd the exact video from huge number of videos and locate the required segments in the video is essential. In this paper, we propose a scheme, which utilizes the algorithm of frame difference to extract caption text based on the characteristics of its stationary position and bridge the index words to video content via the extracted caption text. Simulations show that the proposed scheme can help readers to locate the required video segments quickly and effectively.

Lecture Videos; Quick Browsing; Caption Text Extraction

G250.76

10.3772/j.issn.1673—2286.2014.04.006

2014-02-06）

*本研究得到國(guó)家自然科學(xué)基金項(xiàng)目“基于感知哈希和流形降維的視頻復(fù)制檢測(cè)技術(shù)研究”（編號(hào)：61001180）資助。