譚 峰
(大連新聞傳媒集團(tuán)技術(shù)中心,遼寧 大連 116021)
隨著互聯(lián)網(wǎng)的發(fā)展,視頻通信技術(shù)日益成熟,融合了語音、圖像、數(shù)據(jù)多種信息,實現(xiàn)了音視頻的同步傳輸。視頻通信應(yīng)用于視頻會議、遠(yuǎn)程教學(xué)等領(lǐng)域,豐富了人們的交流方式。然而,視頻通信質(zhì)量容易受到網(wǎng)絡(luò)狀態(tài)及圖像處理技術(shù)限制的影響。在視頻通信過程中,圖像信息傳輸占主要地位,圖像處理技術(shù)直接關(guān)乎通信質(zhì)量。目前,視頻通信圖像存在劃塊、模糊等問題,制約了視頻通信的應(yīng)用。因此,開展視頻通信領(lǐng)域的圖像處理技術(shù)研究,對于提高圖像傳輸質(zhì)量意義重大。
模擬圖像處理技術(shù)是基于光學(xué)原理和電子原理對模擬圖像進(jìn)行處理的技術(shù)。模擬圖像主要指電視圖像等活動圖像。模擬圖像處理的核心設(shè)備是模擬圖像處理器,按照一定算法對輸入的模擬圖像信號進(jìn)行處理,經(jīng)過放大、濾波、檢波等處理后輸出優(yōu)化的模擬圖像信號。模擬圖像處理的特點(diǎn)是處理速度快,可以實現(xiàn)實時處理。其使用光子并行處理的特性,處理速度可以達(dá)到光速,滿足對活動圖像處理的實時性要求[1]。模擬圖像處理具有靈活性差、精確度低的特點(diǎn)。其處理精度取決于電子器件的性能,一般可以達(dá)到視頻信號本身的精度,但對圖像的處理判斷能力和非線性處理能力較弱,難以實現(xiàn)復(fù)雜的圖像分析處理??傮w來看,模擬圖像處理技術(shù)適用于對活動圖像的實時處理,特別是電視系統(tǒng)中的圖像處理,但在圖像分析處理方面較為薄弱。當(dāng)前,模擬圖像處理技術(shù)已逐漸被數(shù)字圖像處理技術(shù)所取代,但在需要實時處理的場合仍有應(yīng)用。
數(shù)字圖像處理技術(shù)是利用計算機(jī)對數(shù)字圖像進(jìn)行處理的技術(shù),也稱為計算機(jī)圖像處理。其基本過程是將模擬圖像信號采集并轉(zhuǎn)換為數(shù)字形式,然后在計算機(jī)內(nèi)部對數(shù)字圖像數(shù)據(jù)進(jìn)行各種算法處理,經(jīng)過處理后的數(shù)字圖像再轉(zhuǎn)換為模擬圖像輸出。數(shù)字圖像處理的特點(diǎn)是處理精度高。它可以實現(xiàn)復(fù)雜的非線性處理,并具有強(qiáng)大的分析判斷能力。與模擬圖像處理不同,數(shù)字圖像處理可以根據(jù)軟件進(jìn)行自由編程,更加靈活。另外,數(shù)字圖像處理技術(shù)提高了圖像處理的自動化程度,可減少人工干預(yù)。但是數(shù)字圖像處理也存在處理速度較慢的缺點(diǎn),難以對活動圖像做到實時處理。數(shù)字圖像的處理與存儲都需要消耗較大計算資源,對計算機(jī)硬件的性能提出了更高要求。數(shù)字圖像處理技術(shù)也受限于圖像采集與轉(zhuǎn)換中信息丟失的影響,但它在圖像分析、圖像復(fù)原等方面表現(xiàn)突出。未來隨著計算機(jī)技術(shù)的進(jìn)步,數(shù)字圖像處理技術(shù)會得到進(jìn)一步提升與發(fā)展。
視頻通信過程中,為實現(xiàn)圖像高效傳輸,需要對圖像進(jìn)行壓縮處理。圖像壓縮可大幅縮減圖像數(shù)據(jù)量,減少存儲空間及傳輸負(fù)荷。圖像壓縮技術(shù)在視頻通信中應(yīng)用廣泛,其基本原理是消除圖像中的冗余信息,提取最關(guān)鍵特征,再對特征數(shù)據(jù)進(jìn)行編碼。當(dāng)前圖像壓縮比較成熟的技術(shù)主要有向量量化、分形編碼及小波變換等。例如,分形編碼利用迭代函數(shù)系統(tǒng)對圖像進(jìn)行分解與重建,可取得較高的壓縮比;基于小波變換的壓縮技術(shù)則可以有效保留圖像邊緣等重要細(xì)節(jié)特征。為獲得更優(yōu)效果,可將不同技術(shù)進(jìn)行組合與改進(jìn)。
2.2.1 凸集投影法
凸集投影法是一種用于圖像恢復(fù)的數(shù)學(xué)方法。該方法將高質(zhì)量原始圖像看作希爾伯特空間中的一個向量,圖像壓縮和傳輸過程會導(dǎo)致向量發(fā)生變化,圖像質(zhì)量降低。為恢復(fù)圖像,可以先在希爾伯特空間內(nèi)建立多個封閉凸集S1,S2,…,將原始圖像向量約束在其中,然后計算出與各凸集相對應(yīng)的投影算子P1,P2,…。常用的約束凸集有量化限制凸集和平滑限制凸集等。接下來,可以選擇恢復(fù)圖像的初始估計,并通過迭代使用投影算子對其進(jìn)行處理,逐步收斂至恢復(fù)結(jié)果[2]。該方法能有效消除圖像塊效應(yīng),保持邊緣細(xì)節(jié)。例如,在量化限制凸集約束下,采用離散余弦變換(Discrete Cosine Transformation,DCT)和量化間隔控制,在平滑限制凸集約束下,可以抑制高頻噪聲,平滑圖像。經(jīng)過約10 次迭代,圖像就能基本恢復(fù)。凸集投影法數(shù)學(xué)規(guī)整,計算量不大,可獲得較好恢復(fù)效果。
2.2.2 貝葉斯方法
貝葉斯方法是一種概率統(tǒng)計方法,可應(yīng)用于圖像恢復(fù)處理。該方法將圖像處理看作隨機(jī)過程,運(yùn)用貝葉斯規(guī)則估計后驗概率分布。具體而言,設(shè)原始高質(zhì)量圖像為X,低質(zhì)量受損圖像為Y,根據(jù)貝葉斯公式有P(X|Y)=P(Y|X)P(X)/P(Y)。其中,P(Y|X)表示從原圖像生成受損圖像的條件概率,反映圖像退化過程;P(X)為原圖像的先驗概率分布。求解使后驗概率P(X|Y)最大化的X,就是恢復(fù)結(jié)果。在模型上,通常采用馬爾可夫隨機(jī)場建模,以表征圖像局部與全局特性,如Gibbs 隨機(jī)場就可用于描述圖像的平滑特性。該方法通過全面分析圖像特性,結(jié)合退化過程建模,能有效恢復(fù)高質(zhì)量圖像,但計算復(fù)雜度較高,需設(shè)計高效算法。當(dāng)前研究可通過采樣、稀疏表示及先驗?zāi)P蛯W(xué)習(xí)等方法進(jìn)行優(yōu)化,以提升貝葉斯圖像恢復(fù)效果。
2.3.1 環(huán)路濾波技術(shù)
環(huán)路濾波技術(shù)是視頻通信領(lǐng)域常用的圖像增強(qiáng)方法之一,通過在編碼端和解碼端采用對稱的環(huán)路濾波器結(jié)構(gòu),可以有效消除因壓縮編碼引起的圖像塊效應(yīng),提高圖像質(zhì)量。具體來說,在視頻編碼端,常使用國際標(biāo)準(zhǔn)中的環(huán)路濾波器,如H.263 標(biāo)準(zhǔn)中的環(huán)路濾波器或MPEG-4 中的去塊濾波器。這類濾波器能夠保證濾波前后圖像信號能量不變,避免引入模糊或鋸齒等失真。編碼端環(huán)路濾波可顯著抑制圖像中像素塊狀分布,提升圖像可壓縮性,一般可將壓縮后的峰值信噪比提高0.5 ~1.5 dB。而在解碼端,采用與編碼端對稱的環(huán)路濾波器,可以恢復(fù)圖像細(xì)節(jié),重構(gòu)邊緣輪廓,有效減少壓縮編碼導(dǎo)致的模糊感,增強(qiáng)圖像質(zhì)量。相比直接對解碼圖像進(jìn)行濾波,環(huán)路濾波可更好地保持圖像質(zhì)量。環(huán)路濾波計算量較小,結(jié)構(gòu)簡單,可方便硬件實現(xiàn),從而進(jìn)行實時圖像增強(qiáng)處理。當(dāng)前,環(huán)路濾波技術(shù)已在視頻會議和視頻通話等系統(tǒng)中廣泛應(yīng)用,對圖像效果提升具有顯著效果。
2.3.2 后續(xù)濾波技術(shù)
后續(xù)濾波技術(shù)是視頻通信領(lǐng)域的另一種常用圖像增強(qiáng)方法。不同于環(huán)路濾波需要在編碼端進(jìn)行對應(yīng)配置,后續(xù)濾波完全在解碼端進(jìn)行,僅基于解碼圖像信號特征來設(shè)計濾波器。其主要目的是消除由視頻壓縮編碼引入的塊效應(yīng)。具體來說,塊效應(yīng)在頻域主要表現(xiàn)為高頻噪聲,進(jìn)行全局低通濾波雖可消除塊狀誤差,但也會模糊圖像細(xì)節(jié)。為解決這一問題,后續(xù)濾波技術(shù)往往采用自適應(yīng)濾波,根據(jù)圖像不同區(qū)域設(shè)計不同濾波器,以保留細(xì)節(jié)。例如,可先采用離散余弦變換將圖像轉(zhuǎn)到頻域,再利用Walsh 變換得到4×4 塊狀結(jié)構(gòu),然后根據(jù)塊內(nèi)容自動分割平坦區(qū)、紋理區(qū)和邊緣區(qū),最后對不同區(qū)域分別濾波。這樣可在消除塊效應(yīng)的同時最大限度地保留邊緣細(xì)節(jié)。后續(xù)濾波無須修改編碼器,僅添加解碼端處理模塊,易于部署。當(dāng)前,多種國際標(biāo)準(zhǔn)均采用后續(xù)濾波技術(shù)。它也已在視頻會議系統(tǒng)中廣泛應(yīng)用。
圖像數(shù)字化處理是將模擬圖像信號采集并轉(zhuǎn)換成數(shù)字形式進(jìn)行處理的技術(shù),在視頻通信系統(tǒng)中有重要應(yīng)用。數(shù)字圖像處理可利用數(shù)字信號處理器(Digital Signal Process,DSP)或現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)等硬件進(jìn)行并行計算,實現(xiàn)復(fù)雜算法。例如,在視頻采集端,可使用圖像傳感器獲得模擬信號,再通過模數(shù)轉(zhuǎn)換器(Analog to Digital Converter,ADC)量化成數(shù)字信號;經(jīng)過數(shù)字濾波、增強(qiáng)等處理后,再通過數(shù)模轉(zhuǎn)換器(Digital to Analog Converter,DAC)還原為模擬視頻信號進(jìn)行顯示。另外,在視頻解碼端也需將模擬信號數(shù)字化,才能進(jìn)行各種圖像恢復(fù)、去噪等處理。相比模擬信號處理,數(shù)字圖像處理可實現(xiàn)更復(fù)雜的算法,提高圖像質(zhì)量。
為降低視頻通信的帶寬需求,視頻壓縮編碼技術(shù)必不可少。目前,國際上較成熟的視頻壓縮標(biāo)準(zhǔn)主要有MPEG-4 和H.263。其中,MPEG-4 標(biāo)準(zhǔn)采用基于內(nèi)容的編碼技術(shù),可實現(xiàn)較高的壓縮率,壓縮效果優(yōu)異。MPEG-4 標(biāo)準(zhǔn)不僅可應(yīng)用于窄帶和寬帶環(huán)境,還支持多種先進(jìn)功能,如提高編碼效率、支持多路復(fù)用傳輸、內(nèi)容可擴(kuò)展性等。其核心思想是基于視頻對象(視頻圖像及音頻等元素)進(jìn)行編碼,以提取語義信息。具體來說,MPEG-4 標(biāo)準(zhǔn)利用基于分形理論的模型進(jìn)行面部特征提取,以參數(shù)化面部和身體運(yùn)動,顯著減少數(shù)據(jù)冗余度。另外還使用視覺感知模型移除視覺冗余,只保留關(guān)鍵信息。MPEG-4 使用基于小波變換的方法實現(xiàn)時域與頻域信息整合編碼。這些技術(shù)確保在低比特率下也能提供高質(zhì)量壓縮視頻。
MPEG-4 作為先進(jìn)的視頻壓縮標(biāo)準(zhǔn),具有良好的可擴(kuò)縮性是其重要特征之一。MPEG-4 標(biāo)準(zhǔn)可擴(kuò)縮算法的目的是讓視頻碼流能夠適應(yīng)不同的網(wǎng)絡(luò)帶寬、解碼能力等條件的變化。其實現(xiàn)的關(guān)鍵在于視頻壓縮器要具有可變的復(fù)雜度級別,并可以只傳輸解碼端所需的部分碼流。具體來說,MPEG-4 標(biāo)準(zhǔn)采用了層級編碼結(jié)構(gòu),包含一個基本層和多個可選的增強(qiáng)層?;緦油ㄟ^低復(fù)雜度壓縮編碼保證輸出視頻的基本質(zhì)量和重要功能,提供最低限度的可視性。增強(qiáng)層則使用更復(fù)雜的編碼工具改進(jìn)視頻質(zhì)量,提供更好的分辨率、更高的幀率及更低的噪聲等。在解碼端,可以僅選擇解碼基本層,來適應(yīng)有限的計算資源或網(wǎng)絡(luò)帶寬。資源允許時,則可以附加解碼一些增強(qiáng)層,以提升視覺效果。這樣就可以平滑地調(diào)節(jié)解碼復(fù)雜度,實現(xiàn)可擴(kuò)展性。MPEG-4 編碼器的可擴(kuò)縮結(jié)構(gòu)如圖1 所示。
圖1 擴(kuò)展編碼器結(jié)構(gòu)
MPEG-4 標(biāo)準(zhǔn)還定義了多種編解碼工具以支持不同類型的可擴(kuò)展性,比如信噪比(Signal-to-Noise Ratio,SNR)可擴(kuò)縮性、時域可擴(kuò)展性和空域可擴(kuò)展性等[3]。例如,時域可擴(kuò)展性通過改變幀率來適應(yīng)可用帶寬,空域可擴(kuò)展性則通過改變分辨率進(jìn)行擴(kuò)展。綜合運(yùn)用這些工具,可以實現(xiàn)視頻質(zhì)量隨比特率平滑提升的可擴(kuò)縮性。
MPEG-4 中的可擴(kuò)縮框架,特別是FGS(Fine Granularity Scalability)算法,實現(xiàn)了良好的比特率可伸縮性。但是FGS 算法存在運(yùn)動補(bǔ)償效果不佳、編碼效率偏低等問題。其中,運(yùn)動補(bǔ)償問題是由于FGS 只使用基本層重構(gòu)幀進(jìn)行運(yùn)動估計所致,可通過在運(yùn)動預(yù)測中加入增強(qiáng)層信息進(jìn)行改進(jìn)。具體來說,可以增加一個直接使用原始視頻序列的參考鏈路,對每一幀視頻生成高質(zhì)量重構(gòu)圖像,并作為運(yùn)動預(yù)測的參考,然后進(jìn)行精細(xì)的運(yùn)動補(bǔ)償,改進(jìn)方式如圖2 所示。
圖2 MPEG-4 可擴(kuò)縮編碼改進(jìn)
這種方法能明顯提升FGS 編碼的運(yùn)動補(bǔ)償效果。針對FGS 編碼效率偏低問題,可通過優(yōu)化掃描方式、調(diào)整比特分配方案等進(jìn)行改進(jìn)。例如,改進(jìn)后的算法可先編碼低頻系數(shù),再編碼高頻系數(shù),這與視覺系統(tǒng)的特性更加吻合[4]。FGS 算法則可以根據(jù)基本層和增強(qiáng)層的復(fù)雜度動態(tài)調(diào)整比特分配。這些改進(jìn)方法既提升了FGS 算法的編碼效率,也改善了圖像質(zhì)量,更適合視頻通信場景[5]。
視頻通信技術(shù)的發(fā)展,改善了人們的音視頻交流方式,但圖像處理仍是提升通信質(zhì)量的關(guān)鍵。針對視頻通信領(lǐng)域的圖像處理技術(shù)進(jìn)行研究,對于進(jìn)一步提高圖像傳輸質(zhì)量意義重大。通過分析視頻通信中的圖像壓縮、恢復(fù)、增強(qiáng)和數(shù)字化處理等核心技術(shù),可以找出現(xiàn)有方法的不足,并提出針對性的改進(jìn)方案。這將有助于消除圖像的模糊、塊效應(yīng)等問題,使視頻通信圖像更清晰流暢。如果這些圖像處理技術(shù)能夠取得進(jìn)一步改進(jìn),必將大幅提升視頻通信的效果,豐富人們的交流方式。