摘要:文章分別從視頻教室的音頻編碼和視頻編碼的角度展開,介紹了各類相關(guān)的技術(shù),并引出了系統(tǒng)所采用的先進(jìn)的音視頻編碼技術(shù)。最后,說明了系統(tǒng)采用的音視頻流控技術(shù)的幾個(gè)優(yōu)點(diǎn)。
關(guān)鍵詞:視頻教室;音視頻;H.264
中圖分類號(hào):TP309 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)15-4017-02
Reacher Audio-video Cording Based on Video-classroom
WU Ai-lan1, LOU Jian-lie2
(1.Zhejiang highway technolgy collage,Hangzhou,310014,China;2.Zhejiang technology institute of Economy,Hangzhou 310018,China)
Abstract: This paper introducedaudio - video coding technology,and gives out system’s Advanced audio-video coding. Finally,this paper explained advantage of streaming control technology.
Key word: vedio-classroom; audio-video; H.264
自“信息高速公路”提出以來,網(wǎng)絡(luò)在全世界以驚人的速度發(fā)展著。因特網(wǎng)將全世界聯(lián)系起來,LAN、WAN使局域網(wǎng)內(nèi)資源、信息得以傳播和共享。網(wǎng)絡(luò)改變了人們的學(xué)習(xí)方式、生活方式、工作方式、管理方式、金融方式、文化教育方式、娛樂休閑方式。進(jìn)入數(shù)字化、信息化的二十一世紀(jì)網(wǎng)絡(luò)令信息的傳播速度加速、人們的工作效率提高、世界經(jīng)濟(jì)發(fā)展的步伐加快。視頻教室系統(tǒng)就是在這種背景下蓬勃發(fā)展起來。
視頻教室系統(tǒng)(Videoconference)是指兩個(gè)或兩個(gè)以上不同地方的個(gè)人或群體通過傳輸線路及多媒體設(shè)備將聲音、影像及文件資料互傳達(dá)到實(shí)時(shí)互動(dòng)的溝通從而完成會(huì)議目的的系統(tǒng)設(shè)備。視頻會(huì)議系統(tǒng)是集通信技術(shù)、計(jì)算機(jī)技術(shù)、多媒體技術(shù)、微電子技術(shù)于一體的遠(yuǎn)程異地通信方式,它將計(jì)算機(jī)的交互性、通信的分布性以及電視的真實(shí)性有機(jī)地結(jié)合在一起。
1 音頻編碼
通過Internet傳輸實(shí)時(shí)的語音或圖像與傳輸普通數(shù)據(jù)是不一樣的,應(yīng)用網(wǎng)絡(luò)的組成必須符合這種實(shí)時(shí)傳輸?shù)男枰?。?列出了國際電信聯(lián)盟G系列典型語音壓縮標(biāo)準(zhǔn)的參數(shù)。
表1中的語音質(zhì)量是在理想情況下的比較,實(shí)際上,不同的編碼方法在語音質(zhì)量上的性能,在不同的具體條件(如背景噪聲、多重編碼、丟幀影響)下有不同的表現(xiàn)。
在實(shí)際選擇語音壓縮的算法時(shí),要綜合考慮各種因素。例如,高比特率可以保證良好的話音品質(zhì),但要占用大量存儲(chǔ)空間,耗費(fèi)更多的系統(tǒng)資源;而過低的比特率又會(huì)影響話音的品質(zhì)和增加延遲。所以,在較低比特率的前提下,保持較好的話音質(zhì)量,是選擇壓縮算法的原則。
我們選用了G.729 A標(biāo)準(zhǔn)采用的算法,可以僅用8Kbps傳輸話音,話音質(zhì)量與32Kbps ADPCM(G.724)相同(ADPCM(差分脈沖編碼調(diào)制)在全球的公共電話網(wǎng)絡(luò)中被用于提供長話級(jí)話音)。G.729A標(biāo)準(zhǔn)在標(biāo)準(zhǔn)PCM或線性PCM的話音采樣基礎(chǔ)上,每10ms生成一個(gè)10字節(jié)長的話音幀。這個(gè)算法提供了優(yōu)秀音質(zhì),且延時(shí)很小,采用G.729A能最好的滿足我公司在視頻會(huì)議系統(tǒng)對(duì)音頻實(shí)時(shí)性和高清晰方面的高要求。
靜噪抑制技術(shù),節(jié)省您的帶寬提高其他應(yīng)用的質(zhì)量:
所謂靜噪抑制技術(shù),是指檢測到通話過程或傳真過程中的安靜時(shí)段,并在這些安靜時(shí)候停止發(fā)送語音包。大量的研究表明,在一路全雙工電話交談中,只有36%~40%的信號(hào)是活動(dòng)的或有效的。當(dāng)一方在講話時(shí),另一方在聽,而且講話過程中有大量顯著的停頓。通過靜噪抑制技術(shù),大量的網(wǎng)絡(luò)帶寬節(jié)省下來用于其他話音視頻或數(shù)據(jù)通信。
1.1 回聲抑制技術(shù)
在視頻會(huì)議的實(shí)際應(yīng)用中,特別是會(huì)議室場景中,音箱放出的聲音又回到麥克風(fēng)返回到遠(yuǎn)程說話人那里,說話人會(huì)明顯聽到系統(tǒng)中有自己的回音。而系統(tǒng)允許多人同時(shí)發(fā)言,這樣發(fā)生回聲的可能性大大提高。為了防止類似回聲對(duì)系統(tǒng)效果的影響,我們采用了回聲消除技術(shù),使用特殊的軟件代碼監(jiān)聽回聲信號(hào),并將它從聽話人的語音信號(hào)中排除掉。
1.2 話音丟包處理技術(shù)
網(wǎng)絡(luò)的一個(gè)特征就是網(wǎng)絡(luò)延時(shí)與網(wǎng)絡(luò)抖動(dòng),這可能導(dǎo)致音質(zhì)下降。網(wǎng)絡(luò)延時(shí)是指一個(gè)IP包在網(wǎng)絡(luò)上傳輸平均所需的時(shí)間,網(wǎng)絡(luò)抖動(dòng)是指IP包傳輸時(shí)間的長短變化。如果網(wǎng)絡(luò)抖動(dòng)較嚴(yán)重,那么有的話音包因遲到而被丟棄,會(huì)產(chǎn)生話音的斷續(xù)及部分失真,嚴(yán)重影響音質(zhì)。目前互聯(lián)網(wǎng)的質(zhì)量,尤其是中國互聯(lián)網(wǎng)的質(zhì)量參差不齊。很多時(shí)候,用戶即使有較高的帶寬,但卻同樣存在較高的網(wǎng)絡(luò)丟包率和較大的網(wǎng)絡(luò)抖動(dòng),這些都會(huì)對(duì)用戶在實(shí)際使用中的視頻會(huì)議質(zhì)量尤其是聲音質(zhì)量產(chǎn)生嚴(yán)重影響。
為了防止這種抖動(dòng),我們采用了獨(dú)特的語音數(shù)據(jù)包緩沖和糾錯(cuò)技術(shù),該技術(shù)可以在高達(dá)20%丟包率的網(wǎng)絡(luò)環(huán)境下仍然保持聲音的連貫性和良好的音質(zhì),采用上述技術(shù)山大聯(lián)潤視維TM網(wǎng)絡(luò)視頻會(huì)議系統(tǒng)在與同類產(chǎn)品競爭中因?yàn)檎Z音質(zhì)量的優(yōu)秀脫穎而出。
1.3 話音優(yōu)先技術(shù)
話音通信實(shí)時(shí)性要求較高。為了保證提供高音質(zhì)的IP電話通信,在廣域網(wǎng)帶寬不足(擁擠)的IP網(wǎng)絡(luò)上,一般需要話音優(yōu)先技術(shù)。針對(duì)音頻和視頻的傳輸特點(diǎn),我們對(duì)RTP線程的設(shè)置很高的優(yōu)先級(jí)別,把其音頻的級(jí)別設(shè)置為最高。
2 網(wǎng)絡(luò)視頻技術(shù)(H.264/AVC)
我們在系統(tǒng)中首先引入了新興的視頻編解碼標(biāo)準(zhǔn)H.264。由國際電信聯(lián)盟、國際標(biāo)準(zhǔn)化組織(ISO)以及國際電工委員會(huì)(IEC)組成的一個(gè)聯(lián)合視頻小組的成員對(duì)該系統(tǒng)的技術(shù)設(shè)計(jì)基礎(chǔ)達(dá)成了一致意見。國際電信聯(lián)盟將該系統(tǒng)命名為H.264/AVC,國際標(biāo)準(zhǔn)化組織和國際電工委員會(huì)將其稱為14496-10/MPEG-4 AVC。
在互聯(lián)網(wǎng)技術(shù)方面,H.264/AVC同以往的標(biāo)準(zhǔn)如廣泛使用的H.262/MPEG-2或H.263等格式相比,在設(shè)計(jì)上能夠更好地處理信息包和數(shù)據(jù)丟失。在視頻質(zhì)量、壓縮效率和數(shù)據(jù)包恢復(fù)和數(shù)據(jù)丟失等方面,超越了現(xiàn)有的MPEG-2、MPEG-4和H.26X視頻通訊標(biāo)準(zhǔn),得到了顯著的提高目前,該系統(tǒng)已吸引了視頻和廣播行業(yè)的極大關(guān)注。
H.264不僅比H.263和MPEG-4節(jié)約了50%的碼率,而且對(duì)網(wǎng)絡(luò)傳輸具有更好的支持功能。它引入了面向IP包的編碼機(jī)制,有利于網(wǎng)絡(luò)中的分組傳輸,支持網(wǎng)絡(luò)中視頻的流媒體傳輸。H.264具有較強(qiáng)的抗誤碼特性,可適應(yīng)丟包率高、干擾嚴(yán)重的無線信道中的視頻傳輸。H.264支持不同網(wǎng)絡(luò)資源下的分級(jí)編碼傳輸,從而獲得平穩(wěn)的圖像質(zhì)量。H.264能適應(yīng)于不同網(wǎng)絡(luò)中的視頻傳輸,網(wǎng)絡(luò)親和性好。
經(jīng)過我們研究發(fā)現(xiàn),互聯(lián)網(wǎng)絡(luò)的丟包率與包的大小及數(shù)據(jù)包的發(fā)送間隔相關(guān)如圖2。
根據(jù)上述結(jié)果,我們對(duì)不同的帶寬條件規(guī)定了視頻數(shù)據(jù)包的大小范圍,可能把數(shù)據(jù)大包拆成小包傳送,到緩沖區(qū)后,再裝配;也可能將數(shù)據(jù)小包組成大包后發(fā)送。關(guān)鍵幀的數(shù)據(jù)包理所當(dāng)然的被優(yōu)先傳送。
3 音視頻數(shù)據(jù)的流控技術(shù)(RTP/RTCP)
RTP(Real-Time Transport Protocol)/RTCP(Real-Time Transport Control Protocol)是一種應(yīng)用型的傳輸層協(xié)議,它并不提供任何傳輸可靠性的保證和流量的擁塞控制機(jī)制。它是由IETF(Internet Engineering Task Force)為音視頻的實(shí)時(shí)傳輸而設(shè)計(jì)的傳輸協(xié)議,定義在RFC 1889中。
RTP協(xié)議位于UDP協(xié)議之上,在功能上獨(dú)立于下面的傳輸層(UDP)和網(wǎng)絡(luò)層,但不能單獨(dú)作為一個(gè)層次存在,通常是利用低層的UDP協(xié)議在組播(Multicast)或單播(Unicast)網(wǎng)絡(luò)服務(wù)中傳輸實(shí)時(shí)數(shù)據(jù),而實(shí)時(shí)數(shù)據(jù)的傳輸則由RTCP協(xié)議來監(jiān)視和控制。
順序號(hào)(Sequence Number Field)域的長度為16位。每發(fā)送一個(gè)RTP信息包順序號(hào)就加1,接收端可以用它來檢查信息包是否有丟失以及按順序號(hào)處理信息包。
時(shí)間戳(Timestamp)域的長度為32字節(jié)。它反映RTP數(shù)據(jù)信息包中第一個(gè)字節(jié)的采樣時(shí)刻(時(shí)間)。接收端可以利用這個(gè)時(shí)間戳來去除由網(wǎng)絡(luò)引起的信息包的抖動(dòng),并且在接收端為播放提供同步功能。
同步源標(biāo)識(shí)符(Synchronization Source Identifier,SSRC)域的長度為32位。它用來標(biāo)識(shí)RTP信息包流的起源,在RTP會(huì)話或者期間的每個(gè)信息包流都有一個(gè)清楚的SSRC。
實(shí)時(shí)傳輸控制協(xié)議(Real-Time Control Protocol,RTCP)也定義在1996年提出的RFC 1889中。RTCP是RTP的控制協(xié)議,它單獨(dú)運(yùn)行在底層協(xié)議上。RTCP是由接收方向發(fā)送的報(bào)文,它負(fù)責(zé)監(jiān)視網(wǎng)絡(luò)的服務(wù)質(zhì)量、通信帶寬以及網(wǎng)上傳送的信息,并將這些信息發(fā)送給發(fā)送端。
RTCP的主要功能包括,數(shù)據(jù)傳輸?shù)馁|(zhì)量提供反饋,并提供QoS的檢測;根據(jù)時(shí)間戳提供不同媒體間的同步;在會(huì)話的用戶界面上顯示會(huì)話參與者的標(biāo)識(shí)。
我們知道,視頻流和音頻流在時(shí)間軸上的連續(xù)性要求網(wǎng)絡(luò)的實(shí)時(shí)傳輸及高帶寬,同時(shí)又允許傳輸中存在一定的數(shù)據(jù)錯(cuò)誤率及數(shù)據(jù)丟失率。由于RTP本身并不具有一種獨(dú)立傳輸能力,它必須與低層網(wǎng)絡(luò)協(xié)議結(jié)合才能完成數(shù)據(jù)的傳輸服務(wù)。又由于視頻和音頻在時(shí)間軸上的相關(guān)性不強(qiáng),而數(shù)據(jù)的實(shí)時(shí)性要高于其可靠性,所以在UDP之上利用RTP/RTCP協(xié)議對(duì)媒體(視頻和音頻)流進(jìn)行封裝、打包和同步,可以使數(shù)字視音頻信號(hào)的網(wǎng)絡(luò)傳輸延時(shí)達(dá)到最小。
3.1 自適應(yīng)帶寬適應(yīng)
在網(wǎng)絡(luò)會(huì)議過程中,經(jīng)常會(huì)出現(xiàn)網(wǎng)絡(luò)帶寬波動(dòng)的情況。如果帶寬的波動(dòng)幅度使得視頻會(huì)議本身的音視頻數(shù)據(jù)無法正常傳輸,就會(huì)造成音視頻質(zhì)量的下降。這時(shí)候往往會(huì)出現(xiàn)以下情形:聲音斷斷續(xù)續(xù),視頻出現(xiàn)大量馬賽克甚至完全模糊不可辨認(rèn)。這就要求系統(tǒng)對(duì)網(wǎng)絡(luò)帶寬的異常波動(dòng)做出相應(yīng)的處理。
經(jīng)過大量的用戶調(diào)查我們發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)發(fā)生波動(dòng)的時(shí)候,用戶可以接受視頻效果的一點(diǎn)降低但要求聲音仍保證連續(xù)、清晰。所以,視頻會(huì)議系統(tǒng)的設(shè)計(jì)為:當(dāng)系統(tǒng)檢測到網(wǎng)絡(luò)帶寬變化時(shí),會(huì)首先降低視頻幀率以保證聲音的連續(xù)性。幀率變化的機(jī)制完全建立在對(duì)國內(nèi)互聯(lián)網(wǎng)絡(luò)環(huán)境的研究和測試的基礎(chǔ)之上的,在整個(gè)幀率調(diào)整過程中,語音的碼率是保持不變的。
3.2 寬帶環(huán)境下的高質(zhì)量音視頻
隨著寬帶的不斷普及,用戶對(duì)寬帶環(huán)境下的高質(zhì)量音視頻效果的要求也越來越強(qiáng)烈。針對(duì)這樣的需求,針對(duì)寬帶專門做了音視頻質(zhì)量的優(yōu)化。在寬帶環(huán)境下,用戶的視頻幅面可以達(dá)到CIF(352x288),25幀/秒,并可放大到全屏,在帶寬允許的情況下(每路視頻帶寬大于500 Kbps),視頻質(zhì)量甚至可以超過VCD的畫質(zhì)。同時(shí),在寬帶環(huán)境下選擇了G.711的寬帶語音壓縮算法,保證聲音更清晰,混音效果更好,同時(shí)大幅度降低了對(duì)用戶機(jī)器資源的消耗。
4 總結(jié)
視頻教室系統(tǒng)在H.262標(biāo)準(zhǔn)不斷的發(fā)展和完善的同時(shí)得到了很大的發(fā)展,它應(yīng)用的日漸普遍表明了視頻技術(shù)的發(fā)展符合了當(dāng)今社會(huì)發(fā)展的趨勢,得到各界的肯定和支持,它將朝著多功能、高性能、智能化、集成化的方向不斷發(fā)展,我們相信,視頻教室系統(tǒng)在學(xué)校教育中的應(yīng)用將會(huì)越來越廣泛,越來越好。
參考文獻(xiàn):
[1] 張啟浩.視頻會(huì)議系統(tǒng)技術(shù)架構(gòu)淺析[J].智能建筑,2005(8).
[2] 徐迎川等.基于IP網(wǎng)絡(luò)的多點(diǎn)視頻會(huì)議系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電信科學(xué),2004(11).
[3] 朱小鍵.視頻會(huì)議系統(tǒng)設(shè)計(jì)[J].中國金融電腦,2001(7).