鄭世寶
上海交通大學(xué)信息技術(shù)與電氣工程研究院/電子工程系教授
21世紀(jì)的信息世界是視聽(tīng)多媒體的世界,人們80%以上的信息是通過(guò)視聽(tīng)媒體獲得的。首先是視覺(jué)媒體,即看的媒體、眼的媒體。如無(wú)聲電視電影、動(dòng)畫(huà)、圖片或圖文(傳真、電子白板)、電視等。70%的信息來(lái)自于視覺(jué)媒體。接下來(lái)是聽(tīng)覺(jué)媒體,即聽(tīng)的媒體、耳的媒體。如電話、廣播、音樂(lè)等。視聽(tīng)多媒體是視覺(jué)和聽(tīng)覺(jué)的組合媒體。如可視電話、視頻會(huì)議、黑白或彩色電視、DVD、高清晰度電視、IPTV或流媒體電視、3D電視等。
視聽(tīng)多媒體技術(shù)主要包含視頻技術(shù)、音頻技術(shù)和多媒體通信技術(shù)。視頻技術(shù)是實(shí)現(xiàn)視覺(jué)媒體的技術(shù),包括視覺(jué)信息的采集、編碼、傳輸、顯示和理解等。音頻技術(shù)是實(shí)現(xiàn)聽(tīng)覺(jué)媒體的技術(shù),包括聽(tīng)覺(jué)信息的拾音、編碼、傳輸、放送和音效工程等。多媒體通信技術(shù)是同時(shí)實(shí)現(xiàn)視覺(jué)和聽(tīng)覺(jué)的媒體技術(shù),包括音視頻同步、傳輸協(xié)議、服務(wù)質(zhì)量QoS等。
此外,視頻技術(shù)還涉及視覺(jué)信息的處理、分析和理解等信息處理理論;音頻技術(shù)還涉及聽(tīng)覺(jué)信息的處理、分析和識(shí)別等信息處理理論;多媒體通信技術(shù)還涉及有線、無(wú)線、衛(wèi)星或局域網(wǎng)。
下面介紹編碼工具和標(biāo)準(zhǔn)的主要進(jìn)展。從20世紀(jì)50年代到現(xiàn)在,視頻編碼標(biāo)準(zhǔn)已經(jīng)有了長(zhǎng)足的發(fā)展。編碼效率不斷提高。到H.264已經(jīng)接近極限,沒(méi)有新的更為智能的技術(shù)或結(jié)構(gòu),編碼效率已經(jīng)很難繼續(xù)提高。ITU-T與ISO/IEC的JVT組織已經(jīng)進(jìn)展到H.265/MPEG-5 HEVC。此外還有JPEG系列標(biāo)準(zhǔn)、SMPTE 標(biāo)準(zhǔn)VC-1(即WMV9),中國(guó)有AVS和安防應(yīng)用的SVAC。
視頻編碼永恒的努力方向:1)努力提高編碼效率,使其率失真性能達(dá)到最佳;2)努力提高編碼傳輸穩(wěn)健性,使其傳輸可靠性或容錯(cuò)性能達(dá)到最佳。
H264/AVS后的編碼技術(shù)有SVC可伸縮編碼、MVC多視角立體編碼、HEVC極高效視頻編碼和SVAC智能視頻編碼。
H.264 SVC考慮網(wǎng)絡(luò)視頻傳輸及用戶(hù)終端條件存在很大差異,如傳輸帶寬不同、終端功耗不同、終端顯示能力不同等提出的一種可伸縮編碼。H.264 SVC基于H.264核心框架實(shí)現(xiàn)了高效的時(shí)域、空域、質(zhì)量的可分級(jí),已納入H.264標(biāo)準(zhǔn)的一個(gè)附錄(Annex G)。
H.264 MVC主要應(yīng)用在領(lǐng)3D視頻、自由視點(diǎn)視頻、身臨其境的電視電話會(huì)議等領(lǐng)域。已納入H.264標(biāo)準(zhǔn)(Annex H)。
最新的標(biāo)準(zhǔn)是HEVC/H.265。實(shí)際自H.264誕生后的第二年開(kāi)始,就一直沒(méi)有停止H.265版本的建議,直到2010年提出了HEVC,才終于達(dá)成一致。HEVC的目標(biāo)是使壓縮效率比H.264提高1倍。高效視頻編碼(HEVC)已經(jīng)發(fā)布測(cè)試模型,它具有兩種架構(gòu)——高效率和低復(fù)雜度。針對(duì)這兩個(gè)方面有多的工具被提出來(lái)。
國(guó)內(nèi),AVS之后,一個(gè)進(jìn)展是監(jiān)控領(lǐng)域?qū)S玫囊曇纛l編碼標(biāo)準(zhǔn)SVAC。這個(gè)標(biāo)準(zhǔn)是全國(guó)安防標(biāo)委會(huì)與AVS聯(lián)合推出的。仍然是AVS的編碼框架,引入了智能視頻監(jiān)控所需的感興趣目標(biāo)或事件的編碼。另外一個(gè)進(jìn)展是AVS-3D標(biāo)準(zhǔn),在AVS基礎(chǔ)上引入了立體視頻編碼。
視聽(tīng)多媒體技術(shù)的最新進(jìn)展,一個(gè)是3DTV,市場(chǎng)前景被看好,已經(jīng)有一些國(guó)家在進(jìn)行試驗(yàn)性廣播。但3DTV目前仍然存在一些缺陷,如要戴眼鏡,長(zhǎng)時(shí)間觀看會(huì)疲勞等,目前針對(duì)3DTV對(duì)人眼健康的影響仍在進(jìn)一步研究。另一個(gè)是超高清SHV(UHDTV),這方面日本正在大力研發(fā)。
智能視頻應(yīng)用技術(shù)是當(dāng)前的一個(gè)熱點(diǎn),主要有:圖像增強(qiáng)技術(shù),如降噪、去云霧、修復(fù)、超分辨率重建等;視頻分析與理解技術(shù),包括目標(biāo)發(fā)現(xiàn)(檢測(cè))、跟蹤與識(shí)別,視頻語(yǔ)義提取與描述等;視頻內(nèi)容檢索與挖掘,主要是視頻事件查找和圖像挖掘。
21世紀(jì)是視覺(jué)媒體為主的世紀(jì)?,F(xiàn)代視頻編碼理論和技術(shù)經(jīng)歷了30年的快速發(fā)展,現(xiàn)已相對(duì)成熟,一些標(biāo)準(zhǔn)的編碼器,很容易通過(guò)市場(chǎng)獲得,但一些特殊環(huán)境、特殊應(yīng)用場(chǎng)合的視頻編碼器仍是一個(gè)急需解決的問(wèn)題,如智能監(jiān)控和深空高動(dòng)態(tài)高清晰度圖像編碼器、3D編碼器和超高清編碼器等。另外,視頻分析和理解技術(shù)將成為今后視覺(jué)媒體技術(shù)發(fā)展的熱點(diǎn),希望引起關(guān)注。