張 婷
(武警甘肅省總隊(duì),甘肅 蘭州 730000)
近幾年,隨著我國(guó)信息化進(jìn)程的加快,IT 技術(shù)持續(xù)革新。加上疫情原因,高效、穩(wěn)定、可靠的視頻會(huì)議系統(tǒng),成為支持人們實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)交流、開展協(xié)同工作的交流模式,并被提出新的更高要求。音頻和視頻壓縮技術(shù)是視頻會(huì)議的核心技術(shù),直接關(guān)系到視頻會(huì)議的質(zhì)量。
H.265 標(biāo)準(zhǔn)是繼H.264 標(biāo)準(zhǔn)之后的新的視頻編碼標(biāo)準(zhǔn)。H.265 標(biāo)準(zhǔn)在基于H.264 標(biāo)準(zhǔn)的框架下,支持更精確的幀間預(yù)測(cè)、多個(gè)方向幀內(nèi)預(yù)測(cè)等,并對(duì)每個(gè)圖像進(jìn)行了優(yōu)化,根據(jù)每個(gè)圖像分割出更小的宏塊,根據(jù)不同的區(qū)域進(jìn)行預(yù)測(cè),提高了編碼效率,提高了動(dòng)態(tài)補(bǔ)償和矢量預(yù)測(cè)效果。因此,高分辨率、高幀率、高壓縮率的H.265 標(biāo)準(zhǔn)在視頻會(huì)議系統(tǒng)中得到普遍運(yùn)用。
H.265 標(biāo)準(zhǔn)在繼承H.264/AVC 標(biāo)準(zhǔn)基礎(chǔ)架構(gòu)的基礎(chǔ)上,總體上沒有太大的改變,仍然是基于混合編碼的框架[1]。其特定的代碼結(jié)構(gòu)如圖1 所示。
圖1 H.265 編碼框架
在此架構(gòu)中,幀間預(yù)測(cè)與幀內(nèi)預(yù)測(cè)組成了編碼的預(yù)測(cè)部分,并結(jié)合單幀圖像內(nèi)部的圖像參數(shù),進(jìn)行圖像冗余度壓縮,以減少空間冗余。幀間預(yù)測(cè)是以特定的參考幀為基礎(chǔ),通過計(jì)算當(dāng)前幀的運(yùn)動(dòng)矢量,以消除時(shí)間相關(guān)性。一般情況下,在第一幀圖像中,由于沒有相應(yīng)的參考幀,因此只能先進(jìn)行幀內(nèi)編碼,然后再進(jìn)行幀間編碼。在預(yù)測(cè)裝置生成預(yù)測(cè)信息之后,將所述預(yù)測(cè)信息連同所述當(dāng)前幀的信息進(jìn)行編碼器差分,從而對(duì)數(shù)據(jù)進(jìn)行一系列量化轉(zhuǎn)換,進(jìn)一步消除冗余信息,并且結(jié)合對(duì)比編碼信息與預(yù)測(cè)信息,形成數(shù)據(jù)流并輸出。而在此架構(gòu)下,反量化、反變換、濾波等操作則與譯碼器的對(duì)應(yīng)功能相同[2]。該部分的主要作用是通過轉(zhuǎn)換和量化的殘差信息來(lái)重構(gòu)原始的殘差信息,并將其與某些預(yù)測(cè)信息結(jié)合起來(lái),成為幀內(nèi)預(yù)測(cè)的必要數(shù)據(jù);或?qū)δ承┝羞M(jìn)行過濾,最后將其作為參考幀,用于幀間預(yù)測(cè)[3]。
H.265 標(biāo)準(zhǔn)是在H.264 標(biāo)準(zhǔn)基礎(chǔ)上的升級(jí)版,在保持H.264 部分技術(shù)的基礎(chǔ)上,對(duì)編碼流、編碼質(zhì)量、延時(shí)及復(fù)雜性等方面進(jìn)行了改進(jìn)[4]。在相同的圖像質(zhì)量和相同的編碼速率下,H.265 標(biāo)準(zhǔn)理論上要比H.264 標(biāo)準(zhǔn)節(jié)省50%的內(nèi)存;采用較好的算法,可以支持在1 ~2 Mb·s-1的傳輸速率下,傳輸720P(1 280×720)的普通高清音視頻傳輸,在實(shí)現(xiàn)4K 與8K 超高清視頻傳輸時(shí)能有效降低帶寬[5]。
H.264 標(biāo)準(zhǔn)中,每個(gè)宏塊大小都是固定的16×16像素,相比較于H.264 視頻編碼技術(shù),H.265 高效視頻編碼技術(shù)將不同的宏分成不同的宏塊,大小從8×8 到64×64。將信息不多的區(qū)域分割成大的宏塊,可以減少編碼字節(jié);而對(duì)細(xì)節(jié)更多的圖片,將其分割成更小的宏塊,并在編碼后增加更多的字節(jié),就相當(dāng)于對(duì)圖像進(jìn)行了集中編碼。H.265 標(biāo)準(zhǔn)在這種塊結(jié)構(gòu)劃分的基礎(chǔ)上采用一系列自適應(yīng)預(yù)測(cè)和變換等編碼技術(shù),從而降低了碼率,提高了編碼效率[6]。
幀內(nèi)預(yù)測(cè)的核心是假設(shè)圖像內(nèi)部有大量重復(fù)或關(guān)聯(lián)元素,比如重復(fù)的紋理、明暗變化的色塊等。因此可以從當(dāng)前幀的相領(lǐng)區(qū)域里找一塊,直接預(yù)測(cè)當(dāng)前塊。H.265 標(biāo)準(zhǔn)對(duì)H.264 標(biāo)準(zhǔn)的預(yù)測(cè)方向進(jìn)行了進(jìn)一步的改進(jìn),其中H.265 標(biāo)準(zhǔn)的亮度預(yù)測(cè)方向?yàn)?3 個(gè),加上DC 預(yù)測(cè)模式和Planaar 預(yù)測(cè)模式(DC模式適用于整塊平坦區(qū)域,Planaar 適用于像素值漸變的區(qū)域),而H.264 亮度4×4 和8×8 塊支持4個(gè)方向、9 個(gè)顏色。這樣,H.265 標(biāo)準(zhǔn)幀內(nèi)預(yù)測(cè)的準(zhǔn)確性更高,能夠減少殘差數(shù)據(jù)。H.265 標(biāo)準(zhǔn)的幀內(nèi)預(yù)測(cè)模式如圖2 所示。
圖2 H.265 幀內(nèi)預(yù)測(cè)模式圖
H.265/HEVC 標(biāo)準(zhǔn),采用了運(yùn)動(dòng)補(bǔ)償方式進(jìn)行幀間預(yù)測(cè)。H.265 標(biāo)準(zhǔn)在H.264 標(biāo)準(zhǔn)基礎(chǔ)上使用了更高階的濾波器,通過不同濾波器的適配實(shí)現(xiàn)不同像素插值的直接計(jì)算。高階濾波器直接取值,省去了中間取整過程,直接提升了運(yùn)動(dòng)插值的準(zhǔn)確性[7]。H.265 標(biāo)準(zhǔn)的插值精度與H.264 標(biāo)準(zhǔn)一樣,都達(dá)到了1/4 的亮度,但是插值濾波器的抽頭長(zhǎng)度和系數(shù)卻有很大差別。
對(duì)于130 萬(wàn)像素的攝像頭,碼流速率為2 MB·s-1,采用H.264 標(biāo)準(zhǔn),一天的存儲(chǔ)量為2 048×3 600×24÷8÷1024÷1024,約等于20 GB。H.265 技術(shù)下,存儲(chǔ)一天的數(shù)據(jù)量為10 GB。以半年時(shí)間為例,使用H.264 標(biāo)準(zhǔn)存儲(chǔ)數(shù)據(jù)為20×6×30=3.6 TB,而使用H.265 標(biāo)準(zhǔn)則是1.8 TB 的數(shù)據(jù)[8]。從帶寬方面來(lái)說(shuō),采用H.264 標(biāo)準(zhǔn)的視頻傳輸130 萬(wàn)像素的圖像,最低需要上行速率是6 Mb·s-1,而H.265 標(biāo)準(zhǔn)在4 Mb·s-1帶寬下,就可以傳輸300 萬(wàn)像素的高清視頻或2 個(gè)200 萬(wàn)像素的視頻,這樣不僅節(jié)省了硬盤的存儲(chǔ)費(fèi)用,還減少了交換機(jī)的開銷[9]。
相比H.264 編碼,H.265 編碼應(yīng)用到會(huì)議系統(tǒng)中,可以將會(huì)議端到端的延時(shí)降到最低,可以有效解決視頻卡頓,可以實(shí)現(xiàn)在低帶寬的條件下實(shí)現(xiàn)高清視頻的傳輸,使會(huì)議更加流暢高效[10]。
視頻會(huì)議在解決了編碼的問題后,需要考慮實(shí)時(shí)不間斷的大量視頻數(shù)據(jù)傳輸,RTP(實(shí)時(shí)傳輸協(xié)議)在UDP 傳輸協(xié)議的基礎(chǔ)上加入了實(shí)時(shí)控制協(xié)議,即可以控制數(shù)據(jù)丟包率,又能保證數(shù)據(jù)的可靠性,因此,RTP 協(xié)議是視頻會(huì)議中較好的傳輸協(xié)議[11]。H.265標(biāo)準(zhǔn)分為VCL(視頻編碼層)和NAL(網(wǎng)絡(luò)提取層),視頻編解碼功能包括宏塊劃分、運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)處理以及循環(huán)過濾器處理等都在VCL 層實(shí)現(xiàn);H.265 的NAL 把VCL 的輸出封裝成NALU(NAL 單元),以適應(yīng)基于包的網(wǎng)絡(luò)傳輸或面向包的多路復(fù)用環(huán)境。NALU 的結(jié)構(gòu)由開始碼、NALU 頭以及NALU 數(shù)據(jù)組成。NALU 載荷數(shù)據(jù)中包含圖像的標(biāo)識(shí)、參數(shù)、視頻格式、幀數(shù)、補(bǔ)充信息及幀類型等信息。
編碼器在生成H.265 編碼后,采用RTP 傳輸模式,每個(gè)封包單元都要占據(jù)一定大小的頭信息,這就要求封包策略要適應(yīng)網(wǎng)絡(luò)體系,控制每一個(gè)RTP包的載荷大小。H.265 標(biāo)準(zhǔn)中,每一個(gè)NAL 單元被封包在一個(gè)RTP 分組里,再加上RTP 頭信息,RTP封包的問題就變得非常簡(jiǎn)單了,即一個(gè)NAL 單元作為一個(gè)RTP 分組的載荷,直接加上RTP 頭封裝成一個(gè)RTP 包。但是這種情況需要VCL 編碼將生成的NAL 控制在小于RTP 最大有效載荷,有時(shí)候一幀或一組的數(shù)據(jù)量非常大,H.265 標(biāo)準(zhǔn)支持將過大的NALU 分割成多個(gè)RTP 包,也可以將多個(gè)較小的NALU 封裝在一個(gè)RTP 包中。
值得注意的是,不能將幀首與第一個(gè)塊分別包裝成RTP 包,也不能將塊與第一個(gè)宏塊單獨(dú)包裝成RTP 包。此外,宏塊有時(shí)不會(huì)以整字節(jié)開頭和結(jié)尾,RTP 包裝是將宏塊作為最小的劃分單元,因此包頭部中包括兩個(gè)3 位的整數(shù)Sbit 和Ebit(其數(shù)值從0至7),用于識(shí)別封裝H.265 數(shù)據(jù)的首、末字節(jié)中的位數(shù)。
H.265 標(biāo)準(zhǔn)的目的是在有限的帶寬下傳送高品質(zhì)的網(wǎng)絡(luò)視頻,而它的帶寬要求只有原來(lái)的一半。這就意味著智能手機(jī)、平板電腦等移動(dòng)設(shè)備可以在線觀看1 080p 的高清晰度視頻。H.265 標(biāo)準(zhǔn)還支持4K(4 096×2 160)和8K(8 192×4 320)的超高清晰度視頻。H.265 標(biāo)準(zhǔn)使得網(wǎng)絡(luò)視頻能夠與屏幕的“高解析度”同步。
在疫情的大背景下,視頻會(huì)議成為人們工作生活不可缺少的工具。對(duì)于跨地區(qū)的企業(yè)或政府部門,視頻會(huì)議是組織大型活動(dòng)、發(fā)布工作部署、開展學(xué)習(xí)教育的重要手段。在平時(shí)生活中,視頻會(huì)議是網(wǎng)上教學(xué)學(xué)習(xí)、培訓(xùn)或者遠(yuǎn)程交流的重要方式[12]。
會(huì)議系統(tǒng)的功能絕不僅僅是實(shí)現(xiàn)交流,各種新需求的產(chǎn)生,不斷對(duì)會(huì)議系統(tǒng)提出更高的智能化要求,如背景虛化、自動(dòng)捕捉、智能分析會(huì)議信息、自動(dòng)添加字幕等。隨著人工智能(Artificial Intelligence,AI)技術(shù)的日益成熟,可以在會(huì)議系統(tǒng)中集成AI,從而實(shí)現(xiàn)人臉識(shí)別、入會(huì)簽到及在線標(biāo)注個(gè)人姓名。智能化的另一個(gè)方面是提高系統(tǒng)的可操作性,功能越來(lái)越多而操作越來(lái)越簡(jiǎn)單,是發(fā)展潮流[13]。
視頻會(huì)議發(fā)展至今,安全性問題需要更加引起重視。隨著國(guó)際局勢(shì)的變化,視頻會(huì)議系統(tǒng)中芯片國(guó)產(chǎn)化及會(huì)議軟件國(guó)產(chǎn)化已成為不可忽略的趨勢(shì)。我國(guó)相關(guān)產(chǎn)業(yè)的核心能力不足,特別是硬件視頻會(huì)議系統(tǒng)所需的音視頻處理芯片和攝像機(jī)機(jī)芯等核心零件依然高度依賴進(jìn)口,尚未實(shí)現(xiàn)自主可控[14]。同時(shí),需要從安全系統(tǒng)架構(gòu)、更有效的安全防護(hù)、多重加密技術(shù)以及完善管理機(jī)制等方面,使視頻會(huì)議系統(tǒng)安全得到真正的保障[15]。
傳統(tǒng)硬件視頻系統(tǒng)正在被基于云的視頻會(huì)議取代。各大主流廠家紛紛推出了軟件MCU 平臺(tái),發(fā)布了基于通用服務(wù)器或虛擬機(jī)的云視頻系統(tǒng)。未來(lái)視頻會(huì)議的發(fā)展將是云視頻會(huì)議與軟件的結(jié)合。動(dòng)態(tài)變化的多速率視頻碼流,可以智能適應(yīng)不同終端接入會(huì)議的問題,解決不同應(yīng)用場(chǎng)景的需求,從視頻應(yīng)用延展到應(yīng)急指揮、防控調(diào)度、個(gè)人互聯(lián)、移動(dòng)介入、監(jiān)控融合等多種應(yīng)用場(chǎng)景[16]。
由于用戶的要求越來(lái)越高,因此視頻會(huì)議成為編碼和解碼技術(shù)的先鋒。未來(lái)視頻會(huì)議中,以硬件視頻為主的專有視頻會(huì)議系統(tǒng),可以通過軟件擴(kuò)容實(shí)現(xiàn)現(xiàn)有會(huì)議系統(tǒng)的擴(kuò)展,利用桌面集成型的小型攝像頭和顯示器,實(shí)現(xiàn)機(jī)動(dòng)條件下的音視頻傳輸。目前,以H.265 標(biāo)準(zhǔn)為基礎(chǔ)的HM、X265、T265 軟編碼器以及各種各樣的國(guó)產(chǎn)硬件編碼器,為H.265標(biāo)準(zhǔn)在視頻會(huì)議系統(tǒng)中的應(yīng)用提供了更好的良機(jī)。總的來(lái)說(shuō),H.265 視頻編碼改進(jìn)了基于塊的視頻壓縮模式,其特點(diǎn)是可變尺寸轉(zhuǎn)換的宏塊、基于候選列表的運(yùn)動(dòng)矢量預(yù)測(cè)、多幀內(nèi)預(yù)測(cè)模式、更精確的運(yùn)動(dòng)補(bǔ)償濾波器以及優(yōu)化采樣點(diǎn)自適應(yīng)補(bǔ)償濾波器等,占用更小的帶寬就可以獲得更高清晰度的視頻信號(hào)。結(jié)合多速率視頻,云視頻會(huì)議采用更新的視頻編碼,智能適應(yīng)系統(tǒng)中不同與會(huì)終端的帶寬要求,PC、手機(jī)、會(huì)議終端應(yīng)用于不同網(wǎng)絡(luò)(專網(wǎng)、局域網(wǎng)、因特網(wǎng)、移動(dòng)網(wǎng)絡(luò)、WiFi 甚至藍(lán)牙),能夠使視頻會(huì)議系統(tǒng)真正實(shí)現(xiàn)任何網(wǎng)絡(luò)、任何場(chǎng)合、任何終端都能看得清。