亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

音視頻識(shí)別處理系統(tǒng)探討

2016-02-28 06:30:42董明

西部廣播電視 2016年16期

關(guān)鍵詞：電視信號(hào)音視頻字幕

董明

（作者單位：中國(guó)華藝廣播公司電視中心）

音視頻識(shí)別處理系統(tǒng)探討

董明

（作者單位：中國(guó)華藝廣播公司電視中心）

本文主要對(duì)音視頻識(shí)別處理系統(tǒng)的組成、技術(shù)方案、關(guān)鍵技術(shù)、技術(shù)可行性分析及風(fēng)險(xiǎn)分析進(jìn)行了一定的介紹，為業(yè)內(nèi)人士提供一定的參考。

音視頻識(shí)別處理系統(tǒng)；技術(shù)方案；研究與論證

隨著技術(shù)創(chuàng)新和電視節(jié)目制作需求的不斷增大，“音視頻識(shí)別處理系統(tǒng)”作為一套精確節(jié)目錄制、增強(qiáng)節(jié)目處理效果、完善節(jié)目處理手段的工具，能達(dá)到進(jìn)一步提升電視節(jié)目制作的優(yōu)質(zhì)效果。

1　總體技術(shù)方案

1.1系統(tǒng)組成

音視頻識(shí)別處理系統(tǒng)主要包括硬件分系統(tǒng)和軟件分析錄制分系統(tǒng)。其中硬件分系統(tǒng)是由衛(wèi)星電視信號(hào)的接收、解調(diào)、處理和錄制分系統(tǒng)組成；軟件分析錄制分系統(tǒng)由衛(wèi)星電視在線處理和本地視頻離線處理兩部分組成。

1.2各分系統(tǒng)主要技術(shù)方案

1.2.1硬件分系統(tǒng)

一是戶外衛(wèi)星接收天線。建設(shè)一副地面接收天線接收衛(wèi)星信號(hào)，經(jīng)低噪聲放大和變頻為中頻段的信號(hào)。二是室內(nèi)衛(wèi)星接收系統(tǒng)。使用專業(yè)數(shù)字衛(wèi)星接收機(jī)接收衛(wèi)星天線信號(hào)，輸出的數(shù)字TS流，經(jīng)采集卡通過PCI總線傳輸給PC機(jī)。電視信號(hào)傳輸沒有采樣損失，TS流中還存在EPG信息，便于后續(xù)的處理。

1.2.2軟件分析錄制分系統(tǒng)

衛(wèi)星電視在線處理部分可對(duì)采集到的衛(wèi)星電視信號(hào)進(jìn)行實(shí)時(shí)處理。本地視頻離線處理部分可對(duì)存儲(chǔ)在本地電腦上的視頻文件進(jìn)行處理，格式可包括avi、mpg、flv、h.264等主流媒體格式。該軟件平臺(tái)具備視頻采集、播放、錄像、視頻抓拍、字幕檢測(cè)、字幕識(shí)別、字幕替換、人臉檢測(cè)以及人臉識(shí)別等功能。

1.3關(guān)鍵技術(shù)

1.3.1視頻識(shí)別技術(shù)

視頻中出現(xiàn)的人物眾多，其中一些人物可能無關(guān)緊要，因此需要對(duì)檢測(cè)出的所有人物進(jìn)行過濾，獲取“有效人物”或“重要人物”。通常，視頻中的“有效人物”人臉一般出現(xiàn)在視頻的中央?yún)^(qū)域及其鄰域，且正面朝前，面部清晰完整，在視頻中反復(fù)出現(xiàn)的概率高，人臉畫面持續(xù)時(shí)間較長(zhǎng)。在對(duì)特定人物的視頻進(jìn)行分析后，形成面部特征庫，以后在電視節(jié)目中出現(xiàn)該人物時(shí)能自動(dòng)匹配，并立即啟動(dòng)錄制。

1.3.2臺(tái)標(biāo)檢測(cè)識(shí)別技術(shù)

電視信號(hào)中的臺(tái)標(biāo)包含電視臺(tái)名、節(jié)目取向等重要信息，是實(shí)現(xiàn)視頻分析、理解和檢索的重要來源。

1.3.3字幕檢測(cè)、識(shí)別、替換技術(shù)

電視新聞視頻中的字幕文本往往與視頻內(nèi)容密切相關(guān)，是實(shí)現(xiàn)自動(dòng)化視頻分類、檢索、分析和理解的重要信息源之一。

2　技術(shù)可行性分析

2.1基于語義的重要人物人臉檢測(cè)方法和基于音素的聲音檢測(cè)方法

人臉是表征人物身份的主要特征，利用視頻中的語義和人臉數(shù)據(jù)庫建立的人臉特征進(jìn)行關(guān)聯(lián)，提取重要人物。在獲取視頻的關(guān)鍵幀后，由于在YCbCr顏色空間，色度Cb、Cr構(gòu)成的二維平面膚色在顏色空間上集中在一個(gè)很小的區(qū)域，它的分布近似于高斯分布，能更好地區(qū)分膚色與其他顏色，并減少光照音素的影響。因此，選擇YCbCr顏色空間，進(jìn)行RGB到Y(jié)CbCr的色度空間轉(zhuǎn)換，通過數(shù)字運(yùn)算最后得到膚色和形狀過濾后的人臉區(qū)域。

在人臉檢測(cè)中，首先用主成分分析（PCA）方法提取出不具相關(guān)性的主要成分，然后用獨(dú)立成分分析（ICA）方法對(duì)面部圖像的主成分作進(jìn)一步的處理來提取特征參數(shù)，最后采用支持向量（SVM）的分類方法檢測(cè)人臉。對(duì)檢測(cè)出的視頻人臉需進(jìn)一步判斷是否為提取所需的語義人臉。

通過以上步驟檢測(cè)出視頻中“有效人物”的語義人臉，利用人臉數(shù)據(jù)庫中建立的人臉特征與高層語義的關(guān)聯(lián)，實(shí)現(xiàn)重要人物的檢測(cè)。

聲音首先要進(jìn)行分幀，具體的分幀操作通常使用移動(dòng)窗函數(shù)來實(shí)現(xiàn)。分幀后，必須將波形進(jìn)行交換，通過提取MFCC特征，把每一幀波形變成一個(gè)12維向量，即聲學(xué)特征提取。接下來將聲音矩陣變成文本，即把幀識(shí)別為狀態(tài)，把狀態(tài)組合成音素，把音素組合成單詞。利用隱馬爾可夫模型（HMM）構(gòu)建一個(gè)狀態(tài)網(wǎng)絡(luò)，從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑，進(jìn)而完成語音識(shí)別，與目標(biāo)語音庫比對(duì)，完成關(guān)鍵人物鎖定。

2.2電視信號(hào)臺(tái)標(biāo)檢測(cè)技術(shù)

臺(tái)標(biāo)檢測(cè)是識(shí)別的第一步，對(duì)識(shí)別效果影響很大，主要采用圖像匹配法。圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識(shí)別同名點(diǎn)，并確定圖像間差異度。在二維圖像匹配時(shí)，通過比較目標(biāo)區(qū)和搜索區(qū)中相同大小的窗口的相關(guān)系數(shù)，把搜索區(qū)中相關(guān)系數(shù)最大值所對(duì)應(yīng)的窗口中心點(diǎn)作為同名點(diǎn)，其實(shí)質(zhì)是在基元相似性的條件下，運(yùn)用匹配準(zhǔn)則取得最佳搜索。

2.3基于時(shí)空域信息的視頻字幕檢測(cè)定位方法。

視頻中的同一字幕或標(biāo)題通常會(huì)在連續(xù)的多幀中出現(xiàn)，且它們的位置、形狀和尺寸在時(shí)間域上幾乎不變，利用字幕的這一時(shí)域特性和字幕與背景具有較強(qiáng)的對(duì)比度等空域特性對(duì)字幕和標(biāo)題進(jìn)行檢測(cè)定位。

3　系統(tǒng)的風(fēng)險(xiǎn)分析

音視頻識(shí)別處理系統(tǒng)專業(yè)化程度高，技術(shù)發(fā)展迅速，設(shè)備備件專業(yè)指標(biāo)要求嚴(yán)格，具有可以在市場(chǎng)中直接采購(gòu)的特點(diǎn)，只是很多設(shè)備均為精密設(shè)備，維修這些設(shè)備所需的維修費(fèi)用多、設(shè)備的備件價(jià)格昂貴，需要一定的維修資金儲(chǔ)備。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

音視頻識(shí)別處理系統(tǒng)探討

1 總體技術(shù)方案

2 技術(shù)可行性分析

3 系統(tǒng)的風(fēng)險(xiǎn)分析

1　總體技術(shù)方案

2　技術(shù)可行性分析

3　系統(tǒng)的風(fēng)險(xiǎn)分析