王瑞玉
(作者單位:國家新聞出版廣電總局成都監(jiān)測臺)
視頻文字提取技術在數(shù)字媒體監(jiān)管中的應用
王瑞玉
(作者單位:國家新聞出版廣電總局成都監(jiān)測臺)
摘 要:本文的思路重點落實在視頻文字的提取上,針對數(shù)字化媒體的內容監(jiān)管平臺,本文提出自己的設計思路,通過簡述其工作流程,反映出視頻文字提取技術在該平臺上的實際應用。
關鍵詞:視頻文字;提??;數(shù)字媒體;內容;分析
伴隨著計算機技術,尤其是網絡技術的迅猛發(fā)展,針對圖像和視頻的處理,成為非常重要和有現(xiàn)實意義的事情。要知道隨著通信技術的大力發(fā)展,移動帶寬的增加,大量的圖片和視頻可以以多媒體的形式展示出來,給人們最直觀和詳盡的表達。但是針對互聯(lián)網企業(yè)而言,要將這次信息完美地表達出來,就需要針對圖片和視頻進行處理,通過技術手段將它們連接起來,將龐大的數(shù)據信息表達出來。那么,隨著流媒體的大量應用,如何在海量的數(shù)據里面去找到我們需要的數(shù)據和資源,就成為我們必須去重點思考和解決的問題。擴大通信覆蓋面和廣播電視的監(jiān)管是兩個重要的手段。我們在實際的工作中,通過對流媒體的監(jiān)管和對海量信息的挖掘、整理,高效地提取出我們需要的部分。
視頻是一個綜合性很強的,將聲音、文字以及圖片進行有效結合的多媒體信息承載體,視頻顯然具有自身的特點,比如信息量大、結構復雜以及數(shù)據豐富等,目前視頻是各種網絡表現(xiàn)形式中最復雜的。
但是我們也應該看到,雖然這樣視頻的表現(xiàn)力是最強的,但是并不意為著與用戶的互動就也是最好的,視頻數(shù)據具有信息量大,存儲形式特別(以像素的形式存儲)等特性,同時視頻中像素的顏色和光亮等信息也很難用具有內容的高層語義進行描述。因此如何針對視頻數(shù)據進行有效組織,是目前視頻數(shù)據管理和分析的重點也是難點??梢韵胂?,當人們需要在大段的視頻數(shù)據中去尋找一些自己需要的片段時,如何利用多媒體的數(shù)據特性來滿足這樣的需求,這些都是視頻文字提取技術需要考慮的問題。
視頻文字可以分為場景文字和人工文字,這是按照它們出現(xiàn)的場景不同而劃分的,顯然,不同的場景很自然地代表了不一樣的語義,這些語義不同于單純的底層信息,它們被文本所承載,具有更加高層的意義。
場景文字來自于拍攝現(xiàn)場的實際場景,商店的招牌以及道路路標都可以作為場景文字而存在,它們是通過攝像機直接拍攝成像的。不過場景文字也有這樣一些缺點,比如容易傾斜、變形以及字跡模糊。由于這些方面具有很大的偶然性,以及考慮到場景文字與視頻內容在高層語義方面的不直接相關性,因此對場景文字的提取是具有相當困難的。
與場景文字不同,人工文字是后期加入的,人工文字是基于后期制作中,作者對于視頻內容的理解進行添加的,顯然這樣的文字是具有與高層語義的高度相關性的,可以對當前的視頻內容起到補充說明的作用。
可見視頻中的人工文字是一種高層的語義信息,是否可以有效地利用這些信息,對于后續(xù)的文獻檢索顯然具有重要的意義。這些信息存在與文本之中,是高速增長的視頻數(shù)據的一部分,將它們提取出來可以對基于內容的視頻檢索和管理、視頻對象編碼具有重要意義。
視頻文字提取系統(tǒng)可以分為兩個部分,一個是文本圖像提取模塊,另外一個是圖像字符識別模塊。其中圖像文本提取模塊又可以分為文字定位、文字跟蹤以及文字增強3小子模塊。同時圖片文本的字符識別模塊又是有4個部分組成,分別是字符切分、文本分割、字符識別以及后處理4塊。在文本圖片的處理過程中,步驟是這樣的,先是每隔n個幀進行一次文字定位,注意這個定位需要基于視頻幀所在的位置進行,從而得到文字出現(xiàn)的位置信息。在得到位置信息后,對視頻幀文字對象進行跟蹤,通過提取文字對象的出現(xiàn)和消失時間信息,融合文字信息的多幀圖片增強,得到文字的增強圖像。另外針對文字圖片的識別技術,首先是文本的分割,以獲取文本的二值圖形,然后進行字符切分,對切分后的灰度圖進行單元字符識別,最后處理識別出來的候選結果,最終選出最優(yōu)方案,得出最優(yōu)結果。
隨著互聯(lián)網的高速發(fā)展,針對多媒體數(shù)據的需求也在不斷更新,傳統(tǒng)的手工方式面臨諸多的困難,比如利用手工方式進行編目管理和內容標注,都是不現(xiàn)實不合理的。在這些地方,就必須要有計算機強大能力的介入。通過計算機系統(tǒng)建立一套可以進行海量數(shù)據自動處理和管理的自動化平臺?;诖耍覀冊O計并實現(xiàn)了數(shù)字媒體內容管理平臺,通過它來有效地管理海量數(shù)據。本文將簡要介紹該管理平臺的特點,以及視頻文字提取技術在該管理平臺上的應用。
4.1 系統(tǒng)描述
數(shù)字媒體內容管理平臺具有多種分析和檢測功能。比如它可以利用音頻進行場景分析,可以利用視頻來進行場景
協(xié)助分析。該管理系統(tǒng)在處理視頻的文字提取、語音識別以及信息聚合上具有顯著的特點。顯然這樣的特點便于跟蹤用戶的興趣和瀏覽習慣。通過這些數(shù)據分析出的語義信息可以很好地加以利用。
4.2 系統(tǒng)工作流程
數(shù)字媒體內容管理平臺的工作流程如圖1。在該工作流程圖中,可以看到用戶通過客戶端或瀏覽器對自己的信息進行更新,并對感興趣的內容進行指定。系統(tǒng)人員則向系統(tǒng)上傳數(shù)據媒體信息,以及指定采集媒體信息的網站資源。系統(tǒng)的分析模塊需要對采集的信息進行識別和處理,審核其語義。在對大數(shù)據的處理中,如果發(fā)現(xiàn)數(shù)據是用戶感興趣的內容,則對用戶進行推送。推送流程完成之后,進行用戶跟蹤和維護。
數(shù)字媒體內容管理平臺的核心功能是媒體內容的提取能力。數(shù)字媒體內容提取的設計流程如圖2所示。在這個示意圖中,用戶需要首先制定任務,通過任務來對數(shù)字媒體內容的分析進行自動化的處理,系統(tǒng)通過分析指定的任務進行內容數(shù)據的識別。必要時為了獲取數(shù)字媒體的元數(shù)據信息,可以輔以人工審核和校正,達到最佳效果。
圖1 數(shù)字媒體內容管理平臺的系統(tǒng)流程
圖2 數(shù)字媒體內容提取流程
在對文字信息的提煉過程中,視頻和圖片是分開進行的,并且是分析的重點,它們被按照一定的規(guī)則進行內容分類,圖片被剪切,長視頻被分割成短視頻。從分類上看,主要有新聞、體育、影視等。在分類完成之后,就是邊界檢測,逐個鏡頭地抽取文字信息,提取鏡頭特征,獲得鏡頭級的視頻信息。基于鏡頭級信息進行場景分割,得到視頻的場景級信息。綜合利用視頻分類信息、鏡頭級和場景級信息以及對片段的定義信息,得到視頻的片段級信息。最終,根據視頻節(jié)目分類的結果,綜合利用鏡頭級、場景級以及片段級目信息,得到視頻的節(jié)目級信息。
針對不同類型的視頻節(jié)目,提取不同的文字信息:(1)從新聞類節(jié)目視頻中,抽取對當前事件主題的文字性概述信息;(2)從廣告視頻中,抽取廠家、產品名稱以及功效等重要信息;(3)從電影和電視劇中,在片頭或片尾提取片名、導演、演職員、贊助商列表等信息,以及人物對白信息;(4)根據需求提取其他特定的文字信息。
將從視頻中抽取的文字信息與利用其他技術提取的信息相結合,形成視頻的內容分析結果。
利用文字信息提取技術對圖像進行處理,得到圖像中的文字信息。圖像的內容分析還包括顏色直方圖特征提取、特定目標識別等其他處理。
當然,視頻和圖片的文字抽取不一定能夠百分百準確,那么這個時候就需要我們在必要時以人工方式對文字內容進行校正,并進行相關的標注。
本文針對當前數(shù)據媒體監(jiān)管中的缺陷,進行了信息化的改造和設計。在傳統(tǒng)的數(shù)據媒體內容管理中存在的任務量大、人工效率不高的問題,在視頻文字系統(tǒng)中得到了較好的解決。本文也詳細描述了數(shù)據媒體內容監(jiān)管平臺的設計思路以及視頻文字的提取模式,數(shù)據特點以及分類,重點介紹了文字信息提取在媒體數(shù)據管理平臺中的實際應用。最后,隨著視頻文字提取技術的日漸成熟,相信可以大大提升媒體數(shù)字內容的監(jiān)管工作效率。
參考文獻:
[1]彭媛.視頻圖像中的文字提取技術研究[D].上海交通大學.2009.
[2]朱成軍,李超,熊璋.視頻文本監(jiān)測和識別技術研究[J].計算機工程.2007,(10).