董 明
(作者單位:中國(guó)華藝廣播公司電視中心)
音視頻識(shí)別處理系統(tǒng)探討
董 明
(作者單位:中國(guó)華藝廣播公司電視中心)
本文主要對(duì)音視頻識(shí)別處理系統(tǒng)的組成、技術(shù)方案、關(guān)鍵技術(shù)、技術(shù)可行性分析及風(fēng)險(xiǎn)分析進(jìn)行了一定的介紹,為業(yè)內(nèi)人士提供一定的參考。
音視頻識(shí)別處理系統(tǒng);技術(shù)方案;研究與論證
隨著技術(shù)創(chuàng)新和電視節(jié)目制作需求的不斷增大,“音視頻識(shí)別處理系統(tǒng)”作為一套精確節(jié)目錄制、增強(qiáng)節(jié)目處理效果、完善節(jié)目處理手段的工具,能達(dá)到進(jìn)一步提升電視節(jié)目制作的優(yōu)質(zhì)效果。
1.1系統(tǒng)組成
音視頻識(shí)別處理系統(tǒng)主要包括硬件分系統(tǒng)和軟件分析錄制分系統(tǒng)。其中硬件分系統(tǒng)是由衛(wèi)星電視信號(hào)的接收、解調(diào)、處理和錄制分系統(tǒng)組成;軟件分析錄制分系統(tǒng)由衛(wèi)星電視在線處理和本地視頻離線處理兩部分組成。
1.2各分系統(tǒng)主要技術(shù)方案
1.2.1硬件分系統(tǒng)
一是戶外衛(wèi)星接收天線。建設(shè)一副地面接收天線接收衛(wèi)星信號(hào),經(jīng)低噪聲放大和變頻為中頻段的信號(hào)。二是室內(nèi)衛(wèi)星接收系統(tǒng)。使用專業(yè)數(shù)字衛(wèi)星接收機(jī)接收衛(wèi)星天線信號(hào),輸出的數(shù)字TS流,經(jīng)采集卡通過PCI總線傳輸給PC機(jī)。電視信號(hào)傳輸沒有采樣損失,TS流中還存在EPG信息,便于后續(xù)的處理。
1.2.2軟件分析錄制分系統(tǒng)
衛(wèi)星電視在線處理部分可對(duì)采集到的衛(wèi)星電視信號(hào)進(jìn)行實(shí)時(shí)處理。本地視頻離線處理部分可對(duì)存儲(chǔ)在本地電腦上的視頻文件進(jìn)行處理,格式可包括avi、mpg、flv、h.264等主流媒體格式。該軟件平臺(tái)具備視頻采集、播放、錄像、視頻抓拍、字幕檢測(cè)、字幕識(shí)別、字幕替換、人臉檢測(cè)以及人臉識(shí)別等功能。
1.3關(guān)鍵技術(shù)
1.3.1視頻識(shí)別技術(shù)
視頻中出現(xiàn)的人物眾多,其中一些人物可能無關(guān)緊要,因此需要對(duì)檢測(cè)出的所有人物進(jìn)行過濾,獲取“有效人物”或“重要人物”。通常,視頻中的“有效人物”人臉一般出現(xiàn)在視頻的中央?yún)^(qū)域及其鄰域,且正面朝前,面部清晰完整,在視頻中反復(fù)出現(xiàn)的概率高,人臉畫面持續(xù)時(shí)間較長(zhǎng)。在對(duì)特定人物的視頻進(jìn)行分析后,形成面部特征庫,以后在電視節(jié)目中出現(xiàn)該人物時(shí)能自動(dòng)匹配,并立即啟動(dòng)錄制。
1.3.2臺(tái)標(biāo)檢測(cè)識(shí)別技術(shù)
電視信號(hào)中的臺(tái)標(biāo)包含電視臺(tái)名、節(jié)目取向等重要信息,是實(shí)現(xiàn)視頻分析、理解和檢索的重要來源。
1.3.3字幕檢測(cè)、識(shí)別、替換技術(shù)
電視新聞視頻中的字幕文本往往與視頻內(nèi)容密切相關(guān),是實(shí)現(xiàn)自動(dòng)化視頻分類、檢索、分析和理解的重要信息源之一。
2.1基于語義的重要人物人臉檢測(cè)方法和基于音素的聲音檢測(cè)方法
人臉是表征人物身份的主要特征,利用視頻中的語義和人臉數(shù)據(jù)庫建立的人臉特征進(jìn)行關(guān)聯(lián),提取重要人物。在獲取視頻的關(guān)鍵幀后,由于在YCbCr顏色空間,色度Cb、Cr構(gòu)成的二維平面膚色在顏色空間上集中在一個(gè)很小的區(qū)域,它的分布近似于高斯分布,能更好地區(qū)分膚色與其他顏色,并減少光照音素的影響。因此,選擇YCbCr顏色空間,進(jìn)行RGB到Y(jié)CbCr的色度空間轉(zhuǎn)換,通過數(shù)字運(yùn)算最后得到膚色和形狀過濾后的人臉區(qū)域。
在人臉檢測(cè)中,首先用主成分分析(PCA)方法提取出不具相關(guān)性的主要成分,然后用獨(dú)立成分分析(ICA)方法對(duì)面部圖像的主成分作進(jìn)一步的處理來提取特征參數(shù),最后采用支持向量(SVM)的分類方法檢測(cè)人臉。對(duì)檢測(cè)出的視頻人臉需進(jìn)一步判斷是否為提取所需的語義人臉。
通過以上步驟檢測(cè)出視頻中“有效人物”的語義人臉,利用人臉數(shù)據(jù)庫中建立的人臉特征與高層語義的關(guān)聯(lián),實(shí)現(xiàn)重要人物的檢測(cè)。
聲音首先要進(jìn)行分幀,具體的分幀操作通常使用移動(dòng)窗函數(shù)來實(shí)現(xiàn)。分幀后,必須將波形進(jìn)行交換,通過提取MFCC特征,把每一幀波形變成一個(gè)12維向量,即聲學(xué)特征提取。接下來將聲音矩陣變成文本,即把幀識(shí)別為狀態(tài),把狀態(tài)組合成音素,把音素組合成單詞。利用隱馬爾可夫模型(HMM)構(gòu)建一個(gè)狀態(tài)網(wǎng)絡(luò),從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑,進(jìn)而完成語音識(shí)別,與目標(biāo)語音庫比對(duì),完成關(guān)鍵人物鎖定。
2.2電視信號(hào)臺(tái)標(biāo)檢測(cè)技術(shù)
臺(tái)標(biāo)檢測(cè)是識(shí)別的第一步,對(duì)識(shí)別效果影響很大,主要采用圖像匹配法。圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識(shí)別同名點(diǎn),并確定圖像間差異度。在二維圖像匹配時(shí),通過比較目標(biāo)區(qū)和搜索區(qū)中相同大小的窗口的相關(guān)系數(shù),把搜索區(qū)中相關(guān)系數(shù)最大值所對(duì)應(yīng)的窗口中心點(diǎn)作為同名點(diǎn),其實(shí)質(zhì)是在基元相似性的條件下,運(yùn)用匹配準(zhǔn)則取得最佳搜索。
2.3基于時(shí)空域信息的視頻字幕檢測(cè)定位方法。
視頻中的同一字幕或標(biāo)題通常會(huì)在連續(xù)的多幀中出現(xiàn),且它們的位置、形狀和尺寸在時(shí)間域上幾乎不變,利用字幕的這一時(shí)域特性和字幕與背景具有較強(qiáng)的對(duì)比度等空域特性對(duì)字幕和標(biāo)題進(jìn)行檢測(cè)定位。
音視頻識(shí)別處理系統(tǒng)專業(yè)化程度高,技術(shù)發(fā)展迅速,設(shè)備備件專業(yè)指標(biāo)要求嚴(yán)格,具有可以在市場(chǎng)中直接采購(gòu)的特點(diǎn),只是很多設(shè)備均為精密設(shè)備,維修這些設(shè)備所需的維修費(fèi)用多、設(shè)備的備件價(jià)格昂貴,需要一定的維修資金儲(chǔ)備。