周楓 薛熒熒 李千目
摘要:近年來,微電子器件、DSP技術(shù)、計(jì)算機(jī)、通信網(wǎng)等相關(guān)技術(shù)的不斷進(jìn)步,大量頻繁的視頻信息的交流和存貯帶來許多新的問題,數(shù)據(jù)通信,特別是數(shù)字視頻技術(shù)進(jìn)入新的發(fā)展階段。本文對(duì)現(xiàn)代數(shù)字視頻若干關(guān)鍵基礎(chǔ)技術(shù)及發(fā)展進(jìn)行綜述。論文首先指出,符合國(guó)際標(biāo)準(zhǔn)的視頻編碼及相關(guān)技術(shù)仍是研究熱點(diǎn);其次,數(shù)字視頻的多樣化獲取方式、視頻格式的相互兼容和轉(zhuǎn)換以及計(jì)算機(jī)動(dòng)畫也極具發(fā)現(xiàn)前景;此外,數(shù)字視頻非話業(yè)務(wù)的信息傳遞和交流日益成為通信的主要內(nèi)容。
關(guān)鍵詞:數(shù)字視頻;視頻編碼;非話業(yè)務(wù)
中圖分類號(hào):TN941.1 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2015.04.020
0.引言
目前,計(jì)算機(jī)的應(yīng)用逐漸進(jìn)入多媒體時(shí)代,信息載體擴(kuò)展到文、圖、聲等多種類型,數(shù)字視頻技術(shù)得到了發(fā)展。在數(shù)字視頻技術(shù)的發(fā)展初期,數(shù)字視頻的數(shù)據(jù)量非常大,存儲(chǔ)、傳輸和處理都有很大的困難。這使得視頻數(shù)據(jù)壓縮的研究成為必要。近年來,一些國(guó)際組織相繼制定了關(guān)于視頻圖像的編碼標(biāo)準(zhǔn),壓縮編碼技術(shù)日臻成熟。其次,計(jì)算機(jī)處理速度和存儲(chǔ)容量針對(duì)視頻數(shù)據(jù)而言還遠(yuǎn)遠(yuǎn)不能滿足要求,因此視頻數(shù)據(jù)的處理成了多媒體技術(shù)中的關(guān)鍵性技術(shù),眾多視頻存儲(chǔ)格式應(yīng)運(yùn)而生。另外,計(jì)算機(jī)動(dòng)畫的發(fā)展也將數(shù)字視頻技術(shù)引入了新的發(fā)展階段。
本文將對(duì)以上所述的視頻技術(shù)的發(fā)展與應(yīng)用進(jìn)行介紹和分析。
1.視頻的壓縮編碼
視頻信號(hào)信息量非常大,傳輸網(wǎng)路帶寬要求高,在這種情況下對(duì)存儲(chǔ)、傳輸和處理都有很大困難。所以需要將視頻信號(hào)在傳送前先進(jìn)行壓縮編碼,以便節(jié)省傳送帶寬和存儲(chǔ)空間。視頻信號(hào)壓縮編碼有兩個(gè)基本的要求:(1)必須壓縮在一定的帶寬內(nèi),即,具有足夠的壓縮比;(2)視頻信號(hào)在壓縮之后,經(jīng)解壓重建應(yīng)保持一定的視頻質(zhì)量。此外,視頻編碼器的設(shè)計(jì)應(yīng)力求簡(jiǎn)單、易實(shí)現(xiàn)、成本低、可靠性高。
1.1視頻數(shù)據(jù)壓縮的技術(shù)可能性
一幅圖像是由許多像素點(diǎn)構(gòu)成的。大量的統(tǒng)計(jì)表明,同一幅圖像的像素之間具有較強(qiáng)的相關(guān)性,兩個(gè)像素之間的距離越短,其相關(guān)性越強(qiáng),通俗地講,兩個(gè)像素的值越接近。換言之,兩個(gè)相鄰像素的值發(fā)生突變的概率極小,相等、相似或緩變的概率極大,這使得視頻信息的每個(gè)畫面內(nèi)部有許多信息冗余。并且,我們還可以利用幀間相關(guān)性進(jìn)行壓縮編碼,由于鄰近幀之間的相關(guān)性一般比幀內(nèi)像素間的相關(guān)性更強(qiáng),可以得到更大的壓縮比。人眼的視覺靈敏度有限,可以允許畫面有一定失真,一些冗余信息的失去對(duì)觀看視頻沒有太大影響。
1.2壓縮編碼
1.1.1有損與無損
無損壓縮是指壓縮前和解壓縮后的數(shù)據(jù)完全一致。多數(shù)的無損壓縮都采用RLE行程編碼算法。
有損壓縮意味著解壓縮后的數(shù)據(jù)與壓縮前的數(shù)據(jù)不一致。在壓縮的過程中要丟失一些人眼和人耳所不敏感的圖像或音頻信息,而且丟失的信息不可恢復(fù)。幾乎所有高壓縮的算法都采用有損壓縮,這樣才能達(dá)到低數(shù)據(jù)率的目標(biāo)。丟失的數(shù)據(jù)率與壓縮比有關(guān),壓縮比越小,丟失的數(shù)據(jù)越多,解壓縮后的效果一般越差。此外,有些有損壓縮算法采用多次重復(fù)壓縮的方式,這樣還會(huì)引起額外的數(shù)據(jù)丟失。
1.2.2幀內(nèi)與幀間
幀內(nèi)壓縮也稱為空間壓縮。當(dāng)壓縮一幀圖像時(shí),僅考慮本幀的數(shù)據(jù)而不考慮相鄰幀之間的冗余信息。幀內(nèi)一般采用有損壓縮算法,由于幀內(nèi)壓縮時(shí)各個(gè)幀之間沒有相互關(guān)系,所以壓縮后的視頻數(shù)據(jù)仍可以以幀為單位進(jìn)行編輯。幀內(nèi)壓縮一般達(dá)不到很高的壓縮。
幀間壓縮是基于連續(xù)前后兩幀具有很大的相關(guān)性,或者說前后兩幀信息變化很小的特點(diǎn)。也即,連續(xù)的視頻其相鄰幀之間具有冗余信息,根據(jù)這一特性,壓縮相鄰幀之間的冗余量就可以進(jìn)一步提高壓縮量,減小壓縮比。幀間壓縮也稱為時(shí)間壓縮,它通過比較時(shí)間軸上不同幀之間的數(shù)據(jù)進(jìn)行壓縮。幀間壓縮一般是無損的。幀差值算法就是一種典型的時(shí)間壓縮法,它通過比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數(shù)據(jù)量。
1.2.3對(duì)稱性
對(duì)稱性是壓縮編碼的一個(gè)關(guān)鍵特征。對(duì)稱意味著壓縮和解壓縮占用相同的計(jì)算處理能力和時(shí)間,對(duì)稱算法適合于實(shí)時(shí)壓縮和傳送視頻,比如視頻會(huì)議應(yīng)用就適合采用對(duì)稱的壓縮編碼算法。
在電子出版和其它多媒體應(yīng)用中,一般是把視頻預(yù)先壓縮處理好,再播放,因此可以采用不對(duì)稱編碼。不對(duì)稱或非對(duì)稱意味著壓縮時(shí)需要花費(fèi)大量的處理能力和時(shí)間,而解壓縮時(shí)則能較好地實(shí)時(shí)回放,也即以不同的速度進(jìn)行壓縮和解壓縮。一般地說,壓縮一段視頻的時(shí)間比回放(解壓縮)該視頻的時(shí)間要多得多。例如,壓縮一段三分鐘的視頻片斷可能需要10多分鐘的時(shí)間,而該片斷實(shí)時(shí)回放時(shí)間只有三分鐘。
1.3國(guó)際數(shù)字視頻標(biāo)準(zhǔn)分析
近年來,視頻圖像編碼技術(shù)得到了迅速發(fā)展和廣泛利用,日臻成熟。一些國(guó)際組織也相繼制定了關(guān)于視頻圖像的編碼標(biāo)準(zhǔn)。例如ITU-T制定的H.26X系列標(biāo)準(zhǔn)、ISO/IEC制定的關(guān)于靜態(tài)圖像的編碼標(biāo)準(zhǔn)JPEG和JPEG2000以及活動(dòng)圖像的編碼標(biāo)準(zhǔn)MPEG系列等。這些標(biāo)準(zhǔn)圖像的編碼算法融合了各種性能優(yōu)良的圖像編碼方法,代表了目前圖像編碼的發(fā)展水平。如表1所示,H.261、MPEG-1、和MPEG-2采用了第一代壓縮編碼方法,如:預(yù)測(cè)編碼、變換編碼、熵編碼以及運(yùn)動(dòng)補(bǔ)償。從MPEG-4標(biāo)準(zhǔn)以后,采用的是第二代視頻編碼方法,如分段編碼、基于模型的編碼和基于對(duì)象的編碼等。
其中,隨著多媒體應(yīng)用領(lǐng)域的不斷擴(kuò)展,傳統(tǒng)JPEG壓縮技術(shù)已無法滿足人們對(duì)多媒體影像資料的要求。JPEG中采用的算法靠丟棄頻率信息實(shí)現(xiàn)壓縮,因而圖像壓縮率越高,頻率信息丟棄的越多。在極端情況下,JPEG圖像只保留了反映圖像的基本信息,精細(xì)的圖像細(xì)節(jié)都損失了。為此,JPEG制定了新一代靜止圖像壓縮標(biāo)準(zhǔn)JPEG2000。JPEG2000放棄了JPEG所采用的以離散余弦變換(DCT)為主的區(qū)塊編碼方式,而采用以小波變換為主的多解析編碼方式,很好地保存了圖像信息中的相關(guān)性,達(dá)到了更好的壓縮編碼效果。JPEG具有高壓縮率且提供無損和有損兩種壓縮方式的特點(diǎn),但應(yīng)用并不廣泛,在圖像品質(zhì)要求比較高的醫(yī)學(xué)圖像的分析和處理中已經(jīng)有了一定程度的應(yīng)用。endprint
H.26X是ITU-T及其前身CCITT研究和制定的一系列視頻編碼的國(guó)際標(biāo)準(zhǔn)。其中,應(yīng)用最廣泛的是H.261、H.263、H.264。H.261是世界上第一個(gè)得到廣泛承認(rèn)、針對(duì)動(dòng)態(tài)圖像的視頻壓縮標(biāo)準(zhǔn),而且其后出現(xiàn)的MPEG系列、H.263等視頻壓縮標(biāo)準(zhǔn)都是以H.261為核心。H.263在H.261基礎(chǔ)上增加了一些功能,從而進(jìn)一步改善了圖像質(zhì)量,提高了壓縮比。后來出現(xiàn)的H.26L的編碼效率比已有的其他視頻編碼標(biāo)準(zhǔn)有很大的提高。在相同PSNR下與H.263和MPEG4相比,H.263在低碼率時(shí)的輸出碼率平均節(jié)省分別約為40%和36%,在高碼率時(shí)的輸出碼率平均節(jié)省分別約為55%和45%,具有較高壓縮比,尤其適用于公眾交換電話網(wǎng)及無線/Internet網(wǎng)絡(luò)環(huán)境下的視頻傳輸。H.264是比MPEG和H.263性能更好的視頻壓縮編碼標(biāo)準(zhǔn),不僅具有高壓縮比,而且在惡劣的網(wǎng)絡(luò)傳輸條件下,具有較高的抗誤碼性能,但是性能提高的同時(shí),也增加了計(jì)算的復(fù)雜度。
MPEG-X是一組由IEC和ISO制定發(fā)布的視頻、音頻、數(shù)據(jù)的壓縮標(biāo)準(zhǔn),已成為國(guó)際上影響最大的多媒體技術(shù)標(biāo)準(zhǔn)。MPEG-1最初用于數(shù)字信息存儲(chǔ)體上活動(dòng)圖像及其伴音的編碼,其速率為15Mb/s。MPEG-X是一組由IEC和ISO制定發(fā)布的視頻、音頻、數(shù)據(jù)的壓縮標(biāo)準(zhǔn),已成為國(guó)際上影響最大的多媒體技術(shù)標(biāo)準(zhǔn)。MPEG-1最初用于數(shù)字信息存儲(chǔ)體上活動(dòng)圖像及其伴音的編碼,其速率為15Mb/s。MPEG-2是一個(gè)通用多媒體編碼標(biāo)準(zhǔn),具有更廣闊應(yīng)用范圍和更高的編碼質(zhì)量。由于性能出色,已能適應(yīng)HDTV,使得MPEG-3被拋棄。它的另一特點(diǎn)是可提供一個(gè)范圍較廣的可變壓縮比,能夠適應(yīng)不同的畫面質(zhì)量、存儲(chǔ)容量以及帶寬的要求。MPEG-4持多種多媒體應(yīng)用,特別是多媒體信息基于內(nèi)容的檢索和訪問,可根據(jù)應(yīng)用的不同要求現(xiàn)場(chǎng)配置解碼器。編碼系統(tǒng)也是開放的,可以隨時(shí)加入新的有效的算法模塊:它可以將各種多媒體技術(shù)充分利用進(jìn)來,包括壓縮本身的一些工具、算法,也包括圖像合成、語音合成等技術(shù)。MPEG-4標(biāo)準(zhǔn)既可用于的高碼率的視頻壓縮編碼,又可用于低碼率的視頻壓縮編碼;既可用于傳統(tǒng)的矩形幀圖像,又可用于任意形狀的視頻對(duì)象壓縮編碼。
此外,近年來,本領(lǐng)域另一個(gè)研究熱點(diǎn)是聲像數(shù)據(jù)的基于內(nèi)容的檢索。實(shí)現(xiàn)這種基于內(nèi)容檢索的一個(gè)關(guān)鍵步驟是要定義一種描述聲像信息內(nèi)容的格式,而這與聲像信息的編碼又是密切相關(guān)的,MPFG-7就是這種壓縮編碼的代表性技術(shù),其名稱叫做“多媒體內(nèi)容描述接口”,它為各種類型的多媒體信息規(guī)定一種標(biāo)準(zhǔn)化的描述,這種描述與多媒體信息的內(nèi)容本身一起,支持用戶對(duì)其感興趣的各種“資料”進(jìn)行快速、有效地檢索。
盡管MPEG取得了種種成功,但在人們的信息交流中尚存有眾多的不便之處,如不同網(wǎng)絡(luò)之間的障礙、知識(shí)產(chǎn)權(quán)得不到有效保護(hù)等;不同的多媒體信息、網(wǎng)絡(luò)、設(shè)備、協(xié)議和標(biāo)準(zhǔn)、分布在不同的地點(diǎn)等都給用戶造成不能以統(tǒng)一的方式進(jìn)行多媒體信息交互。如何通過一個(gè)綜合標(biāo)準(zhǔn)來對(duì)上述不便之處加以協(xié)調(diào),使多媒體業(yè)務(wù)暢通無阻,這就是MPEG墨爾本會(huì)議提出的多媒體框架的概念,此即MPEG-21。MPEG-21標(biāo)準(zhǔn)的正式名稱為“多媒體框架”或者“數(shù)字視聽框架”,它致力于為多媒體傳輸和使用定義一個(gè)標(biāo)準(zhǔn)化的、可互操作的和高度自動(dòng)化的開放框架,這個(gè)框架考慮到了DRM(Digital Rights Management,數(shù)字版權(quán)管理)的要求、對(duì)象化的多媒體接入以及使用不同的網(wǎng)絡(luò)和終端進(jìn)行傳輸?shù)葐栴},這種框架會(huì)在一種互操作的模式下為用戶提供更豐富的信息。MPEG-21的最終目標(biāo)是要為多媒體信息的用戶提供透明而有效的電子交易和使用環(huán)境。任何與MPEG-21多媒體框架標(biāo)準(zhǔn)環(huán)境交互或使用MPEG-21數(shù)字項(xiàng)實(shí)體的個(gè)人或團(tuán)體都可以被視為用戶。從純技術(shù)角度來看,MPEG-21對(duì)于“內(nèi)容供應(yīng)商”和“消費(fèi)者”沒有任何區(qū)別。
MPEG-21標(biāo)準(zhǔn)是新一代多媒體內(nèi)容描述標(biāo)準(zhǔn),它吸收新技術(shù),同時(shí)消除多媒體系統(tǒng)框架中的缺陷,使得由于不同的設(shè)備、體系結(jié)構(gòu)和標(biāo)準(zhǔn)造成隔閡被逐步消除。對(duì)于用戶而言,新的多媒體系統(tǒng)是一個(gè)與設(shè)備無關(guān)的、互動(dòng)性強(qiáng)大的、高度智能化的、符合用戶各種不同需要的體系。
1.4我國(guó)視頻壓縮編碼的發(fā)展現(xiàn)狀
AVS標(biāo)準(zhǔn)是具有我國(guó)自主知識(shí)產(chǎn)權(quán)的編碼標(biāo)準(zhǔn),是一套包含系統(tǒng)、視頻、音頻、媒體版權(quán)管理在內(nèi)的完整標(biāo)準(zhǔn)體系。其編碼效率比MPEG-2高2~3倍,與H,264相當(dāng),但其算法復(fù)雜度比H.264低30%,達(dá)到了新一代編碼標(biāo)準(zhǔn)的最高水平,主要面向高清晰度電視廣播和數(shù)字存儲(chǔ)媒體。
2013年6月,AVS視頻編碼標(biāo)準(zhǔn)已經(jīng)成為了IEEE標(biāo)準(zhǔn),標(biāo)準(zhǔn)號(hào)為IEEE 1857。AVS標(biāo)準(zhǔn)的逐步完善與發(fā)展應(yīng)用,成為了標(biāo)志著我國(guó)在視頻壓縮編碼領(lǐng)域從跟蹤國(guó)際到自主創(chuàng)新再到國(guó)際推廣的里程碑。
1.5未來發(fā)展趨勢(shì)
目前,在視頻行業(yè)廣泛采用的壓縮和傳輸標(biāo)準(zhǔn)是2003年推出的H.264,在視頻編碼標(biāo)準(zhǔn)朝著高清晰度、低碼率的方向發(fā)展進(jìn)程中,H.264占據(jù)著統(tǒng)帥的地位,但是,在未來的五到十年內(nèi),H.265將會(huì)掀起引領(lǐng)超高清時(shí)代的潮流。H.265于2013年1月25日獲得了國(guó)際電聯(lián)的批準(zhǔn),H.265不僅在碼流、算法、編碼質(zhì)量上進(jìn)行了改善及優(yōu)化,而且同時(shí)支持4K(4096×2160)和8K(8192×4320)超高清視頻。H265標(biāo)準(zhǔn)下的畫面效果更流暢、更高清,勢(shì)必會(huì)對(duì)整個(gè)視頻行業(yè)在互聯(lián)網(wǎng)應(yīng)用中以及視頻壓縮編碼技術(shù)上引起一場(chǎng)巨大的變革。
2.視頻文件格式
2.1多媒體視頻文件格式
目前視頻的數(shù)據(jù)在計(jì)算機(jī)內(nèi)部的存儲(chǔ)格式眾多,其壓縮比、質(zhì)量和適用領(lǐng)域等各不相同,下面就此對(duì)其常用格式及發(fā)展進(jìn)行介紹和分析。
2.1.1QuickTime(MOV)格式
MOV格式的英文全稱是Movie Digital Video Technology。MOV格式能夠跨平臺(tái)、存儲(chǔ)空間要求小,得到了業(yè)界的廣泛認(rèn)可。QuickTime文件格式支持25位彩色,支持領(lǐng)先的集成壓縮技術(shù),提供150多種視頻效果,并提供200多種MIDI兼容音響和設(shè)備的聲音裝置。該格式具有較高的壓縮比率和較完美的視頻清晰度,最大的特點(diǎn)是跨平臺(tái)性,目前已成為數(shù)字媒體軟件技術(shù)領(lǐng)域的事實(shí)上的工業(yè)標(biāo)準(zhǔn)。endprint
2.1.2AVI格式
AVI的英文全稱是Audio Video Interleaved,叫做音頻視頻交錯(cuò),是由微軟公司開發(fā)的一種數(shù)字視頻文件格式。AVI是Windows操作系統(tǒng)上最基本的、最常用的一種媒體文件格式,支持256色和RLE壓縮,但壓縮標(biāo)準(zhǔn)不統(tǒng)一,不具有兼容性,體積龐大,用不同壓縮算法生成的AVI文件,必須使用相對(duì)應(yīng)的解壓縮算法才能播放。它最大的優(yōu)點(diǎn)是調(diào)用方便、圖像質(zhì)量好;還可以根據(jù)不同的應(yīng)用要求,隨意調(diào)整AVI的分辨率,而且對(duì)計(jì)算機(jī)的配置要求不高,可以先做成AVI格式的視頻,在轉(zhuǎn)換為其他格式。
2.1.3MPEG-2(DVD)
PAL制式的標(biāo)準(zhǔn)MPEG-2分辨率高達(dá)720X576。MPEG-2在編碼時(shí)使用了幀間壓縮和幀內(nèi)壓縮兩種方式,并且通過運(yùn)動(dòng)補(bǔ)償?shù)燃夹g(shù)來改善畫質(zhì)。從清晰度來看,MPEG-2幾乎是無可挑剔的,但是MPEG-2也并非十全十美。由于MPEG-2沒能在壓縮技術(shù)上有所突破,因此其數(shù)據(jù)量比MPEG-1大。此外,MPEG-2的壓縮數(shù)據(jù)的碼流比較特殊,各種編輯軟件無法隨機(jī)訪問,因此在進(jìn)行非線性編輯時(shí)會(huì)導(dǎo)致素材搜索很遲緩。更為重要的是,MPEG-2過大的編解碼必須依賴強(qiáng)大的處理芯片。
2.1.4DivX和XviD格式
MPEG在開始的時(shí)候建立了4個(gè)版本:MPEG-1-MPEG-4,分別適應(yīng)于不同的帶寬和數(shù)字影像質(zhì)量的要求。DivX和XviD就是一種MPEG-4編碼格式,只不過舊版的MPEG-4編碼不允許在AVI文件格式上使用,才會(huì)有DivX和XviD編碼格式的出現(xiàn)。不過現(xiàn)在國(guó)內(nèi)外稱呼的DivX和XviD是MPEG/MP3影片,即影像部分以MPEG-4格式壓縮,Audio部分以MP3格式壓縮組合而成的AVI影片。它的好處是生成的文件體積小,約為同樣播放時(shí)間的DVD的1/5到1/10,但是聲音及影像的品質(zhì)都相當(dāng)不錯(cuò),當(dāng)然比DVD還是差一點(diǎn),但比起VCD要好很多,也就是說,DivX和XviD只要一張光盤就可以放下一個(gè)90分鐘的電影,而且清晰度要比兩張光盤的VCD好許多。在視頻采集時(shí),DivX和XviD編碼對(duì)于系統(tǒng)性能的要求并不高,數(shù)據(jù)量的降低可以明顯減輕CPU與磁盤系統(tǒng)的負(fù)擔(dān)。
2.1.5 RM(Real Media)格式
Real Media是Real Networks公司所制定的音頻視頻壓縮規(guī)范,包含RealAudio(.ra,聲音文件)、RealVideo(.rm,視頻文件)和Real Flash(.ram,矢量動(dòng)畫)三類文件。Real Media可以根據(jù)網(wǎng)絡(luò)數(shù)據(jù)傳輸速率的不同制定不同的壓縮比,實(shí)現(xiàn)在低速率的廣域網(wǎng)上進(jìn)行彩像數(shù)據(jù)的實(shí)時(shí)傳送和實(shí)時(shí)播放。
2.1.6FLV格式
FLV全稱為Flash video,是在Sorenson公司的壓縮算法的基礎(chǔ)上開發(fā)出來的。FLV格式不僅可以輕松地導(dǎo)入Flash中,速度極快,并且能起到保護(hù)版權(quán)的作用。由于它形成的文件極小、加載速度極快,使得網(wǎng)絡(luò)觀看視頻文件成為可能,它的出現(xiàn)有效地解決了視頻文件導(dǎo)入flash后,使導(dǎo)出的SWF文件體積龐大,不能在網(wǎng)絡(luò)上很好地使用等缺點(diǎn),是目前增長(zhǎng)最快、最為廣泛的視頻傳播格式。目前各在線視頻網(wǎng)站均采用此視頻格式。
2.2媒體格式的發(fā)展分析
影響多媒體文件格式發(fā)展的因素有很多,歸納起來主要有應(yīng)用和技術(shù)兩個(gè)方面??偟膩碇v,一種格式有存在的必要,必須有一定的應(yīng)用范圍,而壓縮、解壓縮等技術(shù)的發(fā)展必將促使新格式的產(chǎn)生。
影像視頻的發(fā)展必將淘汰傳統(tǒng)的影響視頻格式。隨著視頻壓縮技術(shù)和視頻編輯處理技術(shù)的不斷創(chuàng)新和改進(jìn),傳統(tǒng)的影像視頻(如AVI和MPEG-1格式等)一般體積較大且清晰度較差,因此這些格式必將被體積小數(shù)倍,而且具有超高清晰度的新視頻格式所代替。另外,隨著移動(dòng)通信的不斷發(fā)展,市場(chǎng)需求和技術(shù)進(jìn)步共同推動(dòng)移動(dòng)視頻業(yè)務(wù)發(fā)展的同時(shí),必將極大地推動(dòng)視頻技術(shù)的發(fā)展,對(duì)于視頻文件格式的發(fā)展產(chǎn)生巨大影響。
隨著多媒體技術(shù)的迅速發(fā)展、各種壓縮算法在該領(lǐng)域的應(yīng)用,對(duì)目前存在的各種文件格式很難準(zhǔn)確評(píng)價(jià)孰優(yōu)孰劣,從壓縮率、質(zhì)量而言,每一種格式都有其優(yōu)缺點(diǎn),而且都被大批軟件所支持,占有一定的應(yīng)用領(lǐng)域。因此,在一定時(shí)期內(nèi),多種文件格式共存的局面不會(huì)改變,但隨著時(shí)間的推移,應(yīng)用的發(fā)展和技術(shù)的革新,將不斷涌現(xiàn)新的、先進(jìn)的格式,淘汰落后的格式。
3.計(jì)算機(jī)動(dòng)畫
3.1計(jì)算機(jī)動(dòng)畫的原理與分類
計(jì)算機(jī)動(dòng)畫是采用連續(xù)播放靜止圖像的方法產(chǎn)生物體運(yùn)動(dòng)的效果,利用計(jì)算機(jī)生成一系列可供實(shí)時(shí)演播的畫面的技術(shù)。它可輔助傳統(tǒng)卡通動(dòng)畫片的制作,也可通過對(duì)三維空間中虛擬攝象機(jī)、光源及物體運(yùn)動(dòng)和變化(形狀、色彩等)的描述,逼真地模擬客觀世界中真實(shí)的或虛構(gòu)的三維場(chǎng)景隨時(shí)間而演變的過程。所生成的一系列畫面可在顯示屏上動(dòng)態(tài)演示,也可將它們記錄在電影膠片上或轉(zhuǎn)換成視頻信息輸出到錄像帶上。計(jì)算機(jī)動(dòng)畫由于采用數(shù)字處理方式,動(dòng)畫的運(yùn)動(dòng)效果、
畫面色調(diào)、紋理、光影效果等可以不斷改變,輸出方式也多種多樣。計(jì)算機(jī)動(dòng)畫分為四類。
實(shí)時(shí)動(dòng)畫:采用各種算法來實(shí)現(xiàn)運(yùn)動(dòng)物體的運(yùn)動(dòng)控制或指可直接在顯示屏幕上實(shí)時(shí)顯示動(dòng)畫圖像。
逐幀動(dòng)畫:記錄下每一幀畫面,然后按顯示動(dòng)畫的圖象序列一幀一幀播放而實(shí)現(xiàn)運(yùn)動(dòng)的效果。
三維動(dòng)畫:畫中的景物有正面、側(cè)面和反面,調(diào)整三維空間的視點(diǎn),能夠看到不同的內(nèi)容。
二維動(dòng)畫:平面上的畫面,由紙張、照片或計(jì)算機(jī)屏幕顯示。
在屏幕上實(shí)現(xiàn)動(dòng)畫有三種方式:(1)位置不動(dòng)形態(tài)變化。(2)形態(tài)不變位置變化。(3)位置和形態(tài)均變化。
計(jì)算機(jī)動(dòng)畫的主要研究?jī)?nèi)容包括:①動(dòng)畫形體造型技術(shù);②動(dòng)畫運(yùn)動(dòng)控制和描述;③動(dòng)畫圖象繪制技術(shù)和算法;④動(dòng)態(tài)模擬、動(dòng)畫系統(tǒng)的集成環(huán)境;⑤關(guān)節(jié)體、人體動(dòng)畫;⑥動(dòng)畫語言與系統(tǒng);⑦用于動(dòng)畫運(yùn)動(dòng)控制和生成的專門硬件設(shè)備及接口;⑧特殊視覺效果生成技術(shù)。endprint
3.2計(jì)算機(jī)動(dòng)畫技術(shù)
計(jì)算機(jī)動(dòng)畫的研究始于20世紀(jì)60年代初。1963年美國(guó)AT&TBell實(shí)驗(yàn)室制作了第一部計(jì)算機(jī)動(dòng)畫片。在80年代之前,計(jì)算機(jī)動(dòng)畫主要集中于二維動(dòng)畫系統(tǒng)的研制,應(yīng)用于教學(xué)演示和輔助傳統(tǒng)的動(dòng)畫片制作。
三維動(dòng)畫的研究始于70年代初,當(dāng)時(shí)開發(fā)了一些三維計(jì)算機(jī)動(dòng)畫系統(tǒng)。直至80年代中后期,由于具有實(shí)時(shí)處理能力的超級(jí)圖形工作站的出現(xiàn),三維幾何造型技術(shù)和真實(shí)感圖形生成技術(shù)取得很大進(jìn)展,促進(jìn)了具有高度逼真效果的三維計(jì)算機(jī)動(dòng)畫技術(shù)迅速發(fā)展,并達(dá)到實(shí)用商品化地步。到90年代初,計(jì)算機(jī)動(dòng)畫技術(shù)應(yīng)用于電影特技取得了顯著成就。
與此同時(shí),為適應(yīng)科學(xué)研究與復(fù)雜系統(tǒng)中的動(dòng)態(tài)模擬、視覺模擬、機(jī)器人學(xué)和生物力學(xué)等領(lǐng)域的需求,基于物理的造型和動(dòng)畫的研究的開展,已成為計(jì)算機(jī)動(dòng)畫研究中的一個(gè)重要課題。
人體動(dòng)畫是近年來發(fā)展起來的計(jì)算機(jī)動(dòng)畫新課題。它是研究開發(fā)基于人造角色的集成動(dòng)畫系統(tǒng),該系統(tǒng)產(chǎn)生涉及人造角色在三維場(chǎng)景中具有人的自覺意識(shí)的行為動(dòng)畫,這樣的系統(tǒng)是以多種學(xué)科的知識(shí)、技術(shù)和方法為基礎(chǔ)的,如動(dòng)畫、力學(xué)、機(jī)器人學(xué)、生物學(xué)、心理學(xué)和人工智能等?,F(xiàn)在的Poser就是著名的MetaCreations公司生產(chǎn)的具有特色的人體建模三維動(dòng)畫制作軟件。
目前,主流的計(jì)算機(jī)動(dòng)畫技術(shù)包括:
(1)參數(shù)關(guān)鍵幀技術(shù):關(guān)鍵幀技術(shù)最初僅僅用來插值幀與幀之間卡通畫的形狀,后來該技術(shù)馬上發(fā)展成為可以用來插值影響運(yùn)動(dòng)的任何參數(shù)(例如,一個(gè)物體的平移、比例變換、旋轉(zhuǎn)、材料、紋理、形狀、可見性參數(shù)等都可作為關(guān)鍵幀參數(shù),另外,攝象機(jī)和燈光的大部分參數(shù)也可作為關(guān)鍵幀參數(shù))。
(2)軌跡驅(qū)動(dòng)技術(shù):指先設(shè)計(jì)好物體的運(yùn)動(dòng)軌跡,然后指定物體沿該軌跡運(yùn)動(dòng)。通常,物體的運(yùn)動(dòng)軌跡為三次樣條曲線(也稱為樣條驅(qū)動(dòng)),并且由用戶交互給出。
(3)變形動(dòng)畫技術(shù):為了制作一種形態(tài)變形的動(dòng)畫,即將物體外觀上發(fā)生變化的過程記錄下來,生成一個(gè)形態(tài)連續(xù)變化的動(dòng)畫序列。
(4)關(guān)節(jié)動(dòng)畫技術(shù):它的主要目的是模擬骨架動(dòng)物(尤其是人體)的運(yùn)動(dòng)。
(5)過程動(dòng)畫技術(shù):指物體的運(yùn)動(dòng)或變形可由一個(gè)過程來描述。最簡(jiǎn)單的過程動(dòng)畫是用一個(gè)數(shù)學(xué)模型去控制物體的幾何形狀和運(yùn)動(dòng),較復(fù)雜的過程動(dòng)畫則是包括物體的變形、彈性理論、動(dòng)力學(xué)、碰撞檢測(cè)在內(nèi)的物體的復(fù)雜運(yùn)動(dòng)。
(6)基于物理的動(dòng)畫技術(shù):一種具有潛在優(yōu)勢(shì)的三維造型和運(yùn)動(dòng)模擬技術(shù)。盡管該技術(shù)比傳統(tǒng)動(dòng)畫技術(shù)的計(jì)算復(fù)雜度要高得多,但它能逼真地模擬各種自然物理現(xiàn)象,這是基于幾何的傳統(tǒng)動(dòng)畫生成技術(shù)所無法比擬的。
3.3計(jì)算機(jī)動(dòng)畫的未來發(fā)展趨勢(shì)
從國(guó)際上看,計(jì)算機(jī)動(dòng)畫技術(shù)的發(fā)展正在趨向于規(guī)?;?biāo)準(zhǔn)化、網(wǎng)絡(luò)化。
從技術(shù)的發(fā)展方向看,體視動(dòng)畫會(huì)是未來的熱點(diǎn)。目前人們正在研究降低立體眼鏡的成本、提高圖像質(zhì)量的方法和有關(guān)的替代技術(shù),未來我們很可能不用立體眼鏡的幫助也能欣賞逼真的立體效果。另一個(gè)熱點(diǎn)會(huì)是虛擬現(xiàn)實(shí)(vR)技術(shù),與一般的動(dòng)畫相比,VR的特點(diǎn)在于實(shí)時(shí)、交互。VR中的場(chǎng)景會(huì)隨參觀者的位置、視點(diǎn)變化而實(shí)時(shí)動(dòng)態(tài)生成,并具有人機(jī)交互的能力,這種技術(shù)在未來將大有可為。
今后的幾年,還可以繼續(xù)從以下幾個(gè)方面研究和發(fā)展:
1、新造型技術(shù)的設(shè)計(jì)。盡管造型技術(shù)在CAD和CAGD中得到了廣泛的研究,但計(jì)算機(jī)動(dòng)畫對(duì)傳統(tǒng)的實(shí)體、曲面造型提出了一些新的要求。這導(dǎo)致許多針對(duì)動(dòng)畫應(yīng)用而設(shè)計(jì)的造型技術(shù)。
1)Catmull-Clark細(xì)分曲面的造型和動(dòng)畫研究。由Catmull和Clark提出的根據(jù)任意拓?fù)淇刂凭W(wǎng)格生成B樣條曲面的細(xì)分曲面方法近幾年來在計(jì)算機(jī)動(dòng)畫中越來越受到人們的重視。在AliasIWavefront公司的動(dòng)畫軟件Maya中,基于Catmull-Clark細(xì)分曲面的造型和動(dòng)畫已經(jīng)成為其重要手段。
2)隱式曲面的造型和動(dòng)畫研究。隱式曲面是圓球的更一般形式,它在表現(xiàn)人體的肌肉、水滴、云、樹等物體的造型和動(dòng)畫方面有很大的優(yōu)勢(shì)。該研究方向近年來逐漸為人們研究的熱點(diǎn),歐洲圖形學(xué)學(xué)會(huì)專門設(shè)立了相應(yīng)的Implicit Surface學(xué)術(shù)會(huì)議。
2、運(yùn)動(dòng)捕獲動(dòng)畫數(shù)據(jù)的處理。運(yùn)動(dòng)捕獲技術(shù)在電影《泰坦尼克》中取得了非常大的成功,該片中乘客從船上落入水中的許多驚險(xiǎn)鏡頭都是由動(dòng)畫特技來完成的。實(shí)際上,運(yùn)動(dòng)捕獲已成為現(xiàn)代高科技電影不可缺少的工具。怎樣把運(yùn)動(dòng)捕獲動(dòng)畫數(shù)據(jù)重用和重置目標(biāo)值得進(jìn)一步的研究。
3、三維Morphing和變形研究。二維圖象的Morphing雖然已經(jīng)比較成熟,但三維Morphing方法尚存在各種各樣的缺陷,具有任意拓?fù)涞膬扇S物體之間的Morphing技術(shù)還有待于進(jìn)一步的發(fā)展?;诩s束的變形也是值得研究的方向。
4.數(shù)字視頻的其他技術(shù)
4.1數(shù)字電視技術(shù)
數(shù)字電視是數(shù)字技術(shù)的產(chǎn)物,它將電視信號(hào)進(jìn)行數(shù)字化,然后以數(shù)字形式進(jìn)行編輯、制作、傳輸、接收和播放。
數(shù)字電視除了具有頻道利用率高、圖像清晰度好等特點(diǎn)之外,它還可以開展交互式數(shù)據(jù)業(yè)務(wù),包括電視購(gòu)物、電視銀行、電視商務(wù)、電視通信、電視游戲、實(shí)時(shí)點(diǎn)播電視、電視網(wǎng)上游覽、觀眾參與的電視競(jìng)賽等。
目前,數(shù)字電視已成功地應(yīng)用于衛(wèi)星直播,有線電視也在向數(shù)字方式過渡。整個(gè)電視傳播業(yè)已進(jìn)人了從模擬式向數(shù)字式過渡的時(shí)代。整個(gè)數(shù)字電視系統(tǒng)由信源編碼、業(yè)務(wù)復(fù)用和信道傳輸與發(fā)送三個(gè)部分構(gòu)成。美國(guó)的DTV、歐洲的DVB和日本的ISDB這幾種標(biāo)準(zhǔn),信源編碼中視頻都采用MPEG-2標(biāo)準(zhǔn),音頻采用MPEG-2或Dolby AC-3;業(yè)務(wù)復(fù)用采用的都是MPEG-2系統(tǒng)層規(guī)范或其擴(kuò)展形式,它們的主要差別在于信道及發(fā)送部分。
數(shù)字電視的傳輸途徑是多種多樣的,因特網(wǎng)性能的不斷提高也將使其成為數(shù)字電視傳播的一種新媒介。圖1是數(shù)字電視傳播系統(tǒng)的示意圖。數(shù)字電視接收機(jī)(簡(jiǎn)稱DTV接收機(jī))大體有三種形式:一種是傳統(tǒng)模擬電視接收機(jī)的換代產(chǎn)品——數(shù)字電視接收機(jī),另一種是傳統(tǒng)模擬電視機(jī)外加一個(gè)數(shù)字機(jī)頂盒,第三種是可以接收數(shù)字電視的PC機(jī)。endprint
4.2點(diǎn)播電視(VOD)技術(shù)
VOD(Video On Demand)是視頻點(diǎn)播(也稱為點(diǎn)播電視)技術(shù)的簡(jiǎn)稱,意即用戶可以根據(jù)自己的需要收看電視節(jié)目。VOD技術(shù)從根本上改變了用戶過去被動(dòng)收看電視的不足。
視頻點(diǎn)播系統(tǒng)可分為TVOD(True VOD)和NVOD(Near VOD)兩種。在TVOD(真視頻點(diǎn)播)環(huán)境下,用戶提出要求后即可及時(shí)從VOD系統(tǒng)得到服務(wù),這種系統(tǒng)為每一個(gè)用戶提供一個(gè)單獨(dú)的連接,每個(gè)連接需要占用一定的網(wǎng)絡(luò)帶寬;NVOD(準(zhǔn)視頻點(diǎn)播)是視頻點(diǎn)播的另一種實(shí)現(xiàn)方案。采用這種方案,系統(tǒng)可每隔一段時(shí)間(例如10分鐘)在不同的頻道上開始播放同一個(gè)節(jié)目,用戶可以選擇收看。如果用戶需要“倒退”功能,可以切換到比他當(dāng)前頻道晚10分鐘播放的頻道,需要“快進(jìn)”功能,可切換到比當(dāng)前頻道早10分鐘的頻道。顯然,這種方式不能為用戶及時(shí)提供點(diǎn)播服務(wù)功能,但減少了用戶連接數(shù)目,節(jié)省了網(wǎng)絡(luò)帶寬與費(fèi)用,服務(wù)器的性能要求也可適當(dāng)降低。
視頻點(diǎn)播是基于數(shù)字網(wǎng)絡(luò)的一種數(shù)字視頻服務(wù)。網(wǎng)絡(luò)中的音頻視頻數(shù)據(jù)必須以實(shí)時(shí)數(shù)據(jù)流的形式進(jìn)行傳輸,傳輸一旦開始,就必須以穩(wěn)定的速率進(jìn)行,以保證節(jié)目平滑地播放。任何由于網(wǎng)絡(luò)擁塞,CPU爭(zhēng)用或磁盤的I/O瓶頸產(chǎn)生的系統(tǒng)或網(wǎng)絡(luò)的停滯,都可能導(dǎo)致視頻傳送的延遲,影響用戶的收看。因此,大型視頻點(diǎn)播系統(tǒng)在技術(shù)上是有相當(dāng)難度的。
視頻點(diǎn)播系統(tǒng)的工作過程如下:用戶在客戶端啟動(dòng)播放請(qǐng)求,通過網(wǎng)絡(luò)傳送給分配服務(wù)器,經(jīng)驗(yàn)證后,系統(tǒng)把視頻服務(wù)器中可訪問的節(jié)目單發(fā)送給用戶瀏覽,用戶選擇節(jié)目后,視頻服務(wù)器讀出節(jié)目的內(nèi)容,并傳送到客戶端進(jìn)行播放。
4.3可視電話與視頻會(huì)議技術(shù)
可視電話:通話雙方能互相看見的一種電話系統(tǒng),電話機(jī)具有攝像、顯示、聲音等功能,內(nèi)置高質(zhì)量CCD鏡頭及MODEM。其應(yīng)用之一就是視頻會(huì)議,
視頻會(huì)議:多人同時(shí)參與的一種音/視頻通信系統(tǒng)類似于可視電話,但多人參加通話,提供的功能也更加豐富。
兩種實(shí)施方式:(1)在電信局的數(shù)字通信網(wǎng)上進(jìn)行;(2)在互聯(lián)網(wǎng)上進(jìn)行,例如使用下列即時(shí)通信軟件:微軟的MSN Messenger,騰迅的QQ,網(wǎng)易的POPO,新浪的UC等。
5.結(jié)論
本文通過從五個(gè)方面,對(duì)數(shù)字視頻及其技術(shù)應(yīng)用在近年的研究?jī)?nèi)容、方法和進(jìn)展做了比較全面的回顧和分析。從中可以看出,數(shù)字視頻的壓縮編碼主要方向集中在基于國(guó)際數(shù)字視頻標(biāo)準(zhǔn)及其應(yīng)用、IP網(wǎng)絡(luò)和無線網(wǎng)絡(luò)視頻的可靠性編碼及傳輸技術(shù)、新的高效編碼方法(小波變換編碼等)、面向?qū)ο蟮木幋a等以及3D視頻編碼,其未來的應(yīng)用前是非常廣闊的。同時(shí),數(shù)字視頻壓縮編碼領(lǐng)域的重大突破推動(dòng)了可視電話等“會(huì)話型”和DVD等“非會(huì)話型”視頻業(yè)務(wù)。另外,數(shù)字視頻的獲取與視頻的文件格式是難以分割的,很多情況下,視頻的獲取需要轉(zhuǎn)換文件格式,而且視頻獲取往往因?yàn)槲募蠖枰獢?shù)字視頻壓縮編碼。從國(guó)際上看,計(jì)算機(jī)動(dòng)畫技術(shù)的發(fā)展正趨于會(huì)規(guī)?;?biāo)準(zhǔn)化、網(wǎng)絡(luò)化??梢灶A(yù)見,在不久的將來,VR技術(shù)將取得巨大的進(jìn)步。endprint