亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

視頻文字提取技術(shù)在數(shù)字媒體監(jiān)管中的應用

2015-02-25 07:36:13王瑞玉

西部廣播電視 2015年11期

關(guān)鍵詞：提取數(shù)字媒體內(nèi)容

王瑞玉

（作者單位：國家新聞出版廣電總局成都監(jiān)測臺）

視頻文字提取技術(shù)在數(shù)字媒體監(jiān)管中的應用

王瑞玉

（作者單位：國家新聞出版廣電總局成都監(jiān)測臺）

摘要：本文的思路重點落實在視頻文字的提取上，針對數(shù)字化媒體的內(nèi)容監(jiān)管平臺，本文提出自己的設計思路，通過簡述其工作流程，反映出視頻文字提取技術(shù)在該平臺上的實際應用。

關(guān)鍵詞：視頻文字；提?。粩?shù)字媒體；內(nèi)容；分析

伴隨著計算機技術(shù)，尤其是網(wǎng)絡技術(shù)的迅猛發(fā)展，針對圖像和視頻的處理，成為非常重要和有現(xiàn)實意義的事情。要知道隨著通信技術(shù)的大力發(fā)展，移動帶寬的增加，大量的圖片和視頻可以以多媒體的形式展示出來，給人們最直觀和詳盡的表達。但是針對互聯(lián)網(wǎng)企業(yè)而言，要將這次信息完美地表達出來，就需要針對圖片和視頻進行處理，通過技術(shù)手段將它們連接起來，將龐大的數(shù)據(jù)信息表達出來。那么，隨著流媒體的大量應用，如何在海量的數(shù)據(jù)里面去找到我們需要的數(shù)據(jù)和資源，就成為我們必須去重點思考和解決的問題。擴大通信覆蓋面和廣播電視的監(jiān)管是兩個重要的手段。我們在實際的工作中，通過對流媒體的監(jiān)管和對海量信息的挖掘、整理，高效地提取出我們需要的部分。

1 視頻數(shù)據(jù)的特點

視頻是一個綜合性很強的，將聲音、文字以及圖片進行有效結(jié)合的多媒體信息承載體，視頻顯然具有自身的特點，比如信息量大、結(jié)構(gòu)復雜以及數(shù)據(jù)豐富等，目前視頻是各種網(wǎng)絡表現(xiàn)形式中最復雜的。

但是我們也應該看到，雖然這樣視頻的表現(xiàn)力是最強的，但是并不意為著與用戶的互動就也是最好的，視頻數(shù)據(jù)具有信息量大，存儲形式特別（以像素的形式存儲）等特性，同時視頻中像素的顏色和光亮等信息也很難用具有內(nèi)容的高層語義進行描述。因此如何針對視頻數(shù)據(jù)進行有效組織，是目前視頻數(shù)據(jù)管理和分析的重點也是難點?？梢韵胂?，當人們需要在大段的視頻數(shù)據(jù)中去尋找一些自己需要的片段時，如何利用多媒體的數(shù)據(jù)特性來滿足這樣的需求，這些都是視頻文字提取技術(shù)需要考慮的問題。

2 視頻文字的分類

視頻文字可以分為場景文字和人工文字，這是按照它們出現(xiàn)的場景不同而劃分的，顯然，不同的場景很自然地代表了不一樣的語義，這些語義不同于單純的底層信息，它們被文本所承載，具有更加高層的意義。

場景文字來自于拍攝現(xiàn)場的實際場景，商店的招牌以及道路路標都可以作為場景文字而存在，它們是通過攝像機直接拍攝成像的。不過場景文字也有這樣一些缺點，比如容易傾斜、變形以及字跡模糊。由于這些方面具有很大的偶然性，以及考慮到場景文字與視頻內(nèi)容在高層語義方面的不直接相關(guān)性，因此對場景文字的提取是具有相當困難的。

與場景文字不同，人工文字是后期加入的，人工文字是基于后期制作中，作者對于視頻內(nèi)容的理解進行添加的，顯然這樣的文字是具有與高層語義的高度相關(guān)性的，可以對當前的視頻內(nèi)容起到補充說明的作用。

可見視頻中的人工文字是一種高層的語義信息，是否可以有效地利用這些信息，對于后續(xù)的文獻檢索顯然具有重要的意義。這些信息存在與文本之中，是高速增長的視頻數(shù)據(jù)的一部分，將它們提取出來可以對基于內(nèi)容的視頻檢索和管理、視頻對象編碼具有重要意義。

3 視頻文字提取系統(tǒng)的構(gòu)成

視頻文字提取系統(tǒng)可以分為兩個部分，一個是文本圖像提取模塊，另外一個是圖像字符識別模塊。其中圖像文本提取模塊又可以分為文字定位、文字跟蹤以及文字增強3小子模塊。同時圖片文本的字符識別模塊又是有4個部分組成，分別是字符切分、文本分割、字符識別以及后處理4塊。在文本圖片的處理過程中，步驟是這樣的，先是每隔n個幀進行一次文字定位，注意這個定位需要基于視頻幀所在的位置進行，從而得到文字出現(xiàn)的位置信息。在得到位置信息后，對視頻幀文字對象進行跟蹤，通過提取文字對象的出現(xiàn)和消失時間信息，融合文字信息的多幀圖片增強，得到文字的增強圖像。另外針對文字圖片的識別技術(shù)，首先是文本的分割，以獲取文本的二值圖形，然后進行字符切分，對切分后的灰度圖進行單元字符識別，最后處理識別出來的候選結(jié)果，最終選出最優(yōu)方案，得出最優(yōu)結(jié)果。

4 數(shù)字媒體內(nèi)容管理平臺的設計

隨著互聯(lián)網(wǎng)的高速發(fā)展，針對多媒體數(shù)據(jù)的需求也在不斷更新，傳統(tǒng)的手工方式面臨諸多的困難，比如利用手工方式進行編目管理和內(nèi)容標注，都是不現(xiàn)實不合理的。在這些地方，就必須要有計算機強大能力的介入。通過計算機系統(tǒng)建立一套可以進行海量數(shù)據(jù)自動處理和管理的自動化平臺?；诖耍覀冊O計并實現(xiàn)了數(shù)字媒體內(nèi)容管理平臺，通過它來有效地管理海量數(shù)據(jù)。本文將簡要介紹該管理平臺的特點，以及視頻文字提取技術(shù)在該管理平臺上的應用。

4.1 系統(tǒng)描述

數(shù)字媒體內(nèi)容管理平臺具有多種分析和檢測功能。比如它可以利用音頻進行場景分析，可以利用視頻來進行場景

協(xié)助分析。該管理系統(tǒng)在處理視頻的文字提取、語音識別以及信息聚合上具有顯著的特點。顯然這樣的特點便于跟蹤用戶的興趣和瀏覽習慣。通過這些數(shù)據(jù)分析出的語義信息可以很好地加以利用。

4.2 系統(tǒng)工作流程

數(shù)字媒體內(nèi)容管理平臺的工作流程如圖1。在該工作流程圖中，可以看到用戶通過客戶端或瀏覽器對自己的信息進行更新，并對感興趣的內(nèi)容進行指定。系統(tǒng)人員則向系統(tǒng)上傳數(shù)據(jù)媒體信息，以及指定采集媒體信息的網(wǎng)站資源。系統(tǒng)的分析模塊需要對采集的信息進行識別和處理，審核其語義。在對大數(shù)據(jù)的處理中，如果發(fā)現(xiàn)數(shù)據(jù)是用戶感興趣的內(nèi)容，則對用戶進行推送。推送流程完成之后，進行用戶跟蹤和維護。

5 文字信息提取在數(shù)字媒體內(nèi)容管理平臺中的應用

數(shù)字媒體內(nèi)容管理平臺的核心功能是媒體內(nèi)容的提取能力。數(shù)字媒體內(nèi)容提取的設計流程如圖2所示。在這個示意圖中，用戶需要首先制定任務，通過任務來對數(shù)字媒體內(nèi)容的分析進行自動化的處理，系統(tǒng)通過分析指定的任務進行內(nèi)容數(shù)據(jù)的識別。必要時為了獲取數(shù)字媒體的元數(shù)據(jù)信息，可以輔以人工審核和校正，達到最佳效果。

圖1　數(shù)字媒體內(nèi)容管理平臺的系統(tǒng)流程

圖2　數(shù)字媒體內(nèi)容提取流程

在對文字信息的提煉過程中，視頻和圖片是分開進行的，并且是分析的重點，它們被按照一定的規(guī)則進行內(nèi)容分類，圖片被剪切，長視頻被分割成短視頻。從分類上看，主要有新聞、體育、影視等。在分類完成之后，就是邊界檢測，逐個鏡頭地抽取文字信息，提取鏡頭特征，獲得鏡頭級的視頻信息。基于鏡頭級信息進行場景分割，得到視頻的場景級信息。綜合利用視頻分類信息、鏡頭級和場景級信息以及對片段的定義信息，得到視頻的片段級信息。最終，根據(jù)視頻節(jié)目分類的結(jié)果，綜合利用鏡頭級、場景級以及片段級目信息，得到視頻的節(jié)目級信息。

針對不同類型的視頻節(jié)目，提取不同的文字信息：（1）從新聞類節(jié)目視頻中，抽取對當前事件主題的文字性概述信息；（2）從廣告視頻中，抽取廠家、產(chǎn)品名稱以及功效等重要信息；（3）從電影和電視劇中，在片頭或片尾提取片名、導演、演職員、贊助商列表等信息，以及人物對白信息；（4）根據(jù)需求提取其他特定的文字信息。

將從視頻中抽取的文字信息與利用其他技術(shù)提取的信息相結(jié)合，形成視頻的內(nèi)容分析結(jié)果。

利用文字信息提取技術(shù)對圖像進行處理，得到圖像中的文字信息。圖像的內(nèi)容分析還包括顏色直方圖特征提取、特定目標識別等其他處理。

當然，視頻和圖片的文字抽取不一定能夠百分百準確，那么這個時候就需要我們在必要時以人工方式對文字內(nèi)容進行校正，并進行相關(guān)的標注。

5 結(jié)語

本文針對當前數(shù)據(jù)媒體監(jiān)管中的缺陷，進行了信息化的改造和設計。在傳統(tǒng)的數(shù)據(jù)媒體內(nèi)容管理中存在的任務量大、人工效率不高的問題，在視頻文字系統(tǒng)中得到了較好的解決。本文也詳細描述了數(shù)據(jù)媒體內(nèi)容監(jiān)管平臺的設計思路以及視頻文字的提取模式，數(shù)據(jù)特點以及分類，重點介紹了文字信息提取在媒體數(shù)據(jù)管理平臺中的實際應用。最后，隨著視頻文字提取技術(shù)的日漸成熟，相信可以大大提升媒體數(shù)字內(nèi)容的監(jiān)管工作效率。

參考文獻：

[1]彭媛.視頻圖像中的文字提取技術(shù)研究[D].上海交通大學.2009.

[2]朱成軍,李超,熊璋.視頻文本監(jiān)測和識別技術(shù)研究[J].計算機工程.2007,(10).