陳小平
摘要:隨著移動互聯(lián)網(wǎng)的發(fā)展和智能設(shè)備的普及,人與人之間的溝通更加多元化,而多媒體交互更是受到人們追捧,成為移動網(wǎng)絡(luò)下溝通交流的首選方式。而多媒體交互的關(guān)鍵在于視頻編碼和傳輸兩個方面且相互制約:高質(zhì)量視頻需要更大傳輸帶寬,而移動互聯(lián)網(wǎng)帶寬有限,因此解決質(zhì)量和帶寬矛盾問題是移動互聯(lián)網(wǎng)環(huán)境下多媒體交互的關(guān)鍵。該文跟進(jìn)實際應(yīng)用場景,提出基于人臉作為ROI區(qū)域編碼,能在不影響視頻主觀質(zhì)量的情況下,有效降低傳輸碼率,從而提供更加流暢的多媒體交互體驗。
關(guān)鍵詞:移動互聯(lián)網(wǎng);多媒體交互;感興趣區(qū)域(ROI)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)26-6197-03
隨著移動互聯(lián)網(wǎng)及智能設(shè)備的快速發(fā)展和普及,基于移動網(wǎng)絡(luò)環(huán)境的多媒體實時交互需求也日益強(qiáng)烈,多媒體應(yīng)用環(huán)境也變得越來越復(fù)雜和多樣化。移動智能設(shè)備的快速發(fā)展,為多媒體應(yīng)用在移動設(shè)備上的發(fā)展普及提供了良好的基礎(chǔ),尤其是隨著雙核、4核、8核以及64位處理器的發(fā)展與推廣,基于移動智能設(shè)備的多媒體應(yīng)用受限于設(shè)備處理性能的門檻越來越低。
雖然隨著3G網(wǎng)絡(luò)的普及、4G網(wǎng)絡(luò)的來臨,目前的移動互聯(lián)網(wǎng)帶寬相對與過去2G網(wǎng)絡(luò)時代,有了明顯的提升,但是相對與傳統(tǒng)的互聯(lián)網(wǎng),其傳輸速率及穩(wěn)定性都還有很大差異,以及移動終端的多樣性也給無線網(wǎng)絡(luò)傳輸帶來許多不確定因素。
因此,基于移動互聯(lián)網(wǎng)的多媒體應(yīng)用,不僅要考慮多媒體數(shù)據(jù)本身質(zhì)量、碼率等因素,同時也需要針對移動網(wǎng)絡(luò)特性進(jìn)行優(yōu)化,有效處理多媒體質(zhì)量、碼率以及網(wǎng)絡(luò)帶寬之間的相互制約關(guān)系。
感興趣區(qū)域(ROI,Region Of Interest)則是圖像觀察者注意力最集中的一部分圖像區(qū)域,也即是圖像質(zhì)量主觀評判的決定區(qū)域。因此,在編碼控制時,如果將主要碼流更多的分配到ROI區(qū)域,使得ROI區(qū)域質(zhì)量明顯提高,而非ROI區(qū)域質(zhì)量則有所下降,但圖像的總體主觀質(zhì)量評價則能夠有效提高。因此,ROI技術(shù)的應(yīng)用能夠有效解決圖像質(zhì)量和網(wǎng)絡(luò)帶寬之間的矛盾,使得在網(wǎng)絡(luò)帶寬較低或則不穩(wěn)定狀態(tài)下,也能夠獲得較好的視頻通訊質(zhì)量。
1 基于移動互聯(lián)網(wǎng)的多媒體交互系統(tǒng)
1) 音視頻處理模塊:音視頻處理模塊主要負(fù)責(zé)音視頻的采集、編碼、顯示,以及視頻數(shù)據(jù)的ROI檢測、動態(tài)質(zhì)量控制等。
2) 網(wǎng)絡(luò)傳輸處理模塊:網(wǎng)絡(luò)傳輸模塊負(fù)責(zé)終端間信令及多媒體數(shù)據(jù)傳輸,以及動態(tài)檢測網(wǎng)絡(luò)發(fā)送及接受速率,并將網(wǎng)絡(luò)狀態(tài)返回給音視頻處理模塊。音視頻處理模塊根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài),動態(tài)調(diào)整編碼參數(shù),使得輸出碼率與網(wǎng)絡(luò)傳輸速率匹配,保證多媒體數(shù)據(jù)質(zhì)量及傳輸實時性。
2 基于感興趣區(qū)域(ROI)的檢測
人們在進(jìn)行多媒體交互時,往往只對視頻中的某一個區(qū)域感興趣,并希望這一部分區(qū)域有較高的主觀質(zhì)量,而對于其他部分則不太關(guān)注,只需滿足一般視覺要求即可。因此,對視頻中ROI部分采用高質(zhì)量編碼以獲得較高視頻質(zhì)量,而對于非ROI區(qū)域,則采用量化步長較大的壓縮比編碼,這就是ROI編碼技術(shù)。ROI編碼技術(shù)能使視頻在相同的主觀質(zhì)量評價下,有效降低視頻輸出碼率。因此在基于移動互聯(lián)網(wǎng)的多媒體交互應(yīng)用中,ROI編碼技術(shù)則顯的尤為重要。
2.1 ROI區(qū)域檢測與分割
ROI區(qū)域的檢測與提取,從本質(zhì)上講屬于圖像分割問題,目前ROI檢測與分割主要有以下幾種方式。
2.1.1 基于先驗特征的ROI分割
該方法首先確定視頻ROI區(qū)域具有的特征向量,然后對視頻中的每一子區(qū)域,計算選定特征的特征向量,然后按照一定的標(biāo)準(zhǔn)評價特征相似度,從而確定哪些子區(qū)域?qū)儆赗OI。在實時視頻ROI檢測中,一般會根據(jù)編碼器所支持的宏塊大小來指定特征區(qū)域分開大小,如H.264/AVC支持16*16的宏編碼,則一般將特征區(qū)域大小設(shè)置為16*16。在參考文獻(xiàn)[1]中,對分塊圖像利用分塊圖像的像素方差座位特征來確定ROI。而參考文獻(xiàn)[2]中,則利用顏色和輪廓特征對圖像中的ROI(即車牌區(qū)域)進(jìn)行識別。
2.1.2 基于Snake模型的ROI分割
Snake模型分割方法最早由KASS在1987年提出。他的基本思想是用以構(gòu)成具有一定形狀的控制點(diǎn)為初始輪廓線,這條曲線在內(nèi)部力、外部力和約束里的作用下,主動向感興趣的目標(biāo)區(qū)域附近輪廓邊界移動,通過求解輪廓曲線能量函數(shù)的極小化,來完成對圖像分割[3]。
2.1.3基于幀差法的ROI分割
幀差法是比較常用的運(yùn)動目標(biāo)檢測方法,其基本原理就是利用視頻序列相鄰幀之間采用基于像素的時間差分閥值來提取ROI區(qū)域[4]。首先,將相鄰兩幀視頻對應(yīng)像素值相減得到差值,然后設(shè)定一個閥值T來判斷這個像素點(diǎn)是屬于運(yùn)動區(qū)還是屬于背景區(qū)域,如果對應(yīng)像素值變換小于預(yù)先設(shè)定的閥值T時,則認(rèn)為該像素屬于背景區(qū)域,反之則可以認(rèn)為該像素屬于前景區(qū)域。該算法實現(xiàn)簡單,能夠應(yīng)用于各種環(huán)境,不足指出是對環(huán)境較為敏感,并且閥值設(shè)定也非常關(guān)鍵。
2.1.4 基于背景模型的ROI分割
背景模型法是一種有效的運(yùn)動目標(biāo)ROI檢測算法,其基本思想是通過建立并不停更新背景模型,從而得到一副背景視頻幀,并將當(dāng)前視頻幀與建立的背景幀做像素差值,并設(shè)定一個閥值T,提取差值超過閥值T的區(qū)域作為ROI區(qū)域。
2.2 基于ROI編碼策略
ROI分割的目的即為分離視頻幀中的有效區(qū)域,從而在編碼過程中為這些區(qū)域分配更多的碼流,而對于非ROI區(qū)域則適當(dāng)降低碼流,進(jìn)而在相同的碼率下得到較高主觀視覺效果的視頻。一般ROI編碼策略有兩種[5]:
1) 調(diào)整量化參數(shù)值:該策略在編碼過程中,對于ROI區(qū)域使用低因子,而非ROI區(qū)域則使用高量化因子,從而使得ROI區(qū)域具有較高的質(zhì)量。為此,人們提出了兩種名為MBT和JBA壓縮策略。MBT策略對非ROI區(qū)域采用最大化的量化因子,ROI區(qū)域的量化因子則通過剩余比特數(shù)進(jìn)行計算。JBA則是對MBT的一種改進(jìn),在非ROI區(qū)域和ROI區(qū)域之間進(jìn)行比特分配時,考慮了區(qū)域面積、運(yùn)動等因素,使得比特分配更加合理,非ROI區(qū)域和ROI區(qū)域間過度更加柔和。
2) 調(diào)整碼率控制:這種方法根據(jù)限定的碼率,按照某一比例將比特率分配給ROI和非ROI區(qū)域,并且針對ROI和非ROI區(qū)域使用不同的碼率控制模型:針對非ROI區(qū)域,采用TMN8碼率控制算法為每一宏塊計算量化因子,而對于ROI區(qū)域,則采用高碼率失真模型建模,利用拉格朗日數(shù)值進(jìn)行優(yōu)化,計算每個宏塊的量化因子[6]。
3 基于H.264/AVC的ROI編碼在移動多媒體中的實現(xiàn)
3.3 ROI區(qū)域檢測策略
根據(jù)移動交互視頻應(yīng)用的特點(diǎn),人們在視頻聊天的過程中,最關(guān)注的必然是對方的面部情況,因此,我們將人臉部分作為我們編碼的ROI區(qū)域。同時,人們在進(jìn)行視頻通話的過程中,一般不會有劇烈的移動,也就是不會有大動態(tài)畫面;因此沒有必要每一個視頻幀都進(jìn)行ROI區(qū)域檢測,而是每隔時間窗t后強(qiáng)制檢測一次,而在這個時間窗t內(nèi),則可以使用更為簡單的算法進(jìn)行輔組檢測ROI區(qū)域是否有發(fā)生改變。因此我們在強(qiáng)制檢測時,利用OpenCV中的正面人臉定位,確定人面部位,繼而確定人面部位占據(jù)的宏塊范圍;而在輔組檢測時,則通過簡單的膚色檢測算法檢測ROI區(qū)域是否發(fā)生改變,如果發(fā)生改變則重新使用OpenCV進(jìn)行人臉部位置的檢測,具體實現(xiàn)如下:
4 結(jié)束語
在基于移動互聯(lián)網(wǎng)的多媒體應(yīng)用中,移動網(wǎng)絡(luò)的帶寬限制即傳輸不穩(wěn)定性,一定程度上制約了該類應(yīng)用的發(fā)展與推廣。RIO技術(shù)在移動互聯(lián)網(wǎng)有限的帶寬環(huán)境下,能夠提供較高的多媒體視覺效果。同時,在進(jìn)行視頻編碼時,我們也可以采用可擴(kuò)展編碼(SVC:Scalable Video Coding)和ROI相結(jié)合的方式,將ROI區(qū)域放到基礎(chǔ)層編碼,而非ROI區(qū)域則放到增強(qiáng)層編碼,并在網(wǎng)絡(luò)帶寬有限的情況下只發(fā)送基礎(chǔ)層,而在網(wǎng)絡(luò)帶寬允許時,則同時發(fā)送增強(qiáng)層,這樣就能夠更加有效的適配移動網(wǎng)絡(luò)情況,并獲取更好的視頻視覺效果。
參考文獻(xiàn):
[1] 許可,師忠超,漆進(jìn).一種面向感興趣區(qū)域的之分圖像分割方法[J].計算機(jī)應(yīng)用,2004,24(SI):149-151.
[2]尹顯東,姚軍,李在銘.基于BP神經(jīng)網(wǎng)絡(luò)的圖像感興趣區(qū)域自動檢測技術(shù)[J].系統(tǒng)工程與電子技術(shù),2006,28(2):192-195.
[3] 李慶,楊峻峰,江漢紅,等.基于Snake模型的圖像分割技術(shù)[J].武漢理工大學(xué)學(xué)報,2006,28(11).
[4] 汪洋,李強(qiáng).基于ROI的可伸縮視頻編碼技術(shù)研究[D].重慶郵電大學(xué),2011.
[5] 周磊,羅三定.視頻通信中ROI四橫批壓縮算法的研究與應(yīng)用[D].中南大學(xué),2011.
[6] 李子印,朱善安,劉麗芳.支持ROI優(yōu)先編碼策略的自適應(yīng)碼率控制算法[J].光電工程,2006,33(4):105-110.