魏耀都,謝湘,匡鏡明,韓辛璐
(北京理工大學 信息與電子學院,北京 100081)
進入 21世紀,多媒體通信的蓬勃發(fā)展使溝通和交流變得更加輕松方便,然而多媒體業(yè)務的質(zhì)量卻參差不齊,在信道不穩(wěn)定時常常無法提供讓人滿意的質(zhì)量。對多媒體質(zhì)量進行準確的評價能夠規(guī)范多媒體服務水平,促進行業(yè)健康發(fā)展?,F(xiàn)有的多媒體質(zhì)量評價方法集中在單獨對視頻或者音頻的評價上,然而在大多數(shù)多媒體業(yè)務中用戶都會同時使用音頻和視頻,因此對音視頻質(zhì)量進行綜合評價能夠更準確地描述用戶感知體驗。
目前,國際上對音視頻質(zhì)量綜合評價已經(jīng)有一些研究,Andrew Rimell等分析了音視頻質(zhì)量間的相互影響[1],Hands提出了一種基本的音視頻質(zhì)量評價模型[2],該模型在音視頻同步的假設下提出,當音視頻不同步時沒有給出評價方法。對音視頻同步感知質(zhì)量的研究可以完善現(xiàn)有音視頻質(zhì)量評價模型。
在對音視頻同步的研究方面,Steinmetz定義了同步、失步和暫態(tài)區(qū)間,用于描述感知質(zhì)量在不同同步誤差范圍內(nèi)的性質(zhì)[3]。隨后針對幾種音視頻研究了同步區(qū)間的寬度,結(jié)果表明同步區(qū)間的寬度受到音視頻內(nèi)容的影響。但 Steinmetz沒有指出如何在內(nèi)容和感知質(zhì)量之間建立聯(lián)系。Nishibori等利用格式塔心理學中的同時性和同向性作為判斷音頻與視頻事件是否出自同一事件的準則[4]。Bredin等總結(jié)了音頻和視頻相關(guān)性的衡量方法[5]。在音視頻相關(guān)性的基礎上,Gillet和Liu等分別提出了自動恢復音視頻同步的方法[6,7]。Enrique等利用隱馬爾科夫模型和協(xié)慣量分析(CoIA, co-inertia analysis)對失步的音視頻進行自動同步[8]。Eveno等通過對同步的檢測設計了一種活性評分機制,用以檢測語音是否由視頻中的人物實時說出[9]。Kumar等研究了臉部正面圖像與語音的同步檢測方法[10]。雖然目前已經(jīng)有多種自動恢復同步的方法,但實際業(yè)務中仍然常會出現(xiàn)音視頻同步誤差,所以仍然需要在質(zhì)量評價模型中加入同步質(zhì)量評價指標。然而目前對音視頻同步的研究并沒有對同步誤差與感知質(zhì)量之間的關(guān)系進行分析。
本文針對QVGA分辨率的視頻進行研究。首先將待測序列的音視頻分別與參考序列進行對齊,利用對齊結(jié)果得到待測序列的同步誤差。由于感知質(zhì)量受到音視頻內(nèi)容的影響,所以根據(jù)音頻內(nèi)容將音視頻分為純凈語音、無語音和有背景語音3類,純凈語音類進一步劃分為視頻中出現(xiàn)說話人和不出現(xiàn)說話人2個子類。對各類分別提取不同的特征。利用CoIA尋找使音頻和視頻特征協(xié)方差最大的映射,并將該映射結(jié)果的協(xié)方差系數(shù)作為相關(guān)程度參數(shù)。將參考序列的音頻進行小范圍的移位,每次移位后均進行CoIA計算,從而得到相關(guān)程度參數(shù)曲線。利用該曲線估計同步誤差與感知質(zhì)量之間的映射關(guān)系,從而在主觀質(zhì)量與同步誤差之間建立質(zhì)量評價模型。模型中各參數(shù)由主觀實驗結(jié)果確定。為驗證模型有效性,選擇不同類型的序列進行了驗證實驗,驗證結(jié)果表明本模型與主觀質(zhì)量有較好相關(guān)性。
人類對音視頻是否同步的判斷主要依靠視頻事件和對應的音頻事件是否同時發(fā)生,因此本模型通過計算音頻和視頻特征在時間上的關(guān)聯(lián)對感知質(zhì)量進行估計。評價模型包括2部分,第1部分獲得同步誤差,第2部分通過對音視頻內(nèi)容的分析獲得同步誤差與感知質(zhì)量之間的映射關(guān)系,從而通過同步誤差對感知質(zhì)量進行估計。
計算音視頻的同步誤差需要使用參考序列。假設參考序列的音視頻完全同步,根據(jù) ITU-T P.931標準建議的方法將待測序列的視音頻分別與參考序列進行對齊,從而得到視頻延遲的幀數(shù)fvideo和音頻延遲的幀數(shù)faudio。若相鄰視頻幀間隔時間為tvideo,音頻幀長度為taudio,則待測序列的音視頻同步誤差tskew為
其中,tskew為負值時表示音頻的播放領先于視頻,為正值時表示視頻的播放領先于音頻。
感知質(zhì)量通常采用平均意見分(MOS,mean opinion score)進行定量描述。MOS的評分范圍一般為5等級。然而主觀評價中測試人對評分表兩端的使用較為慎重,導致實際評分的可區(qū)分度不高。因此本評價模型采用9等級評分,在獲得評價數(shù)據(jù)之后對 MOS分值進行去除隱含參考條件操作(HRR,hidden reference removal),得到ACR-HRR分值。ACR-HRR分值能夠提供與使用失真等級評定(DCR,differential category rating)方法進行實驗相同的信息,同時使測試時間僅為 DCR實驗的一半[11]。
音視頻的特征通常為多維異構(gòu)特征,對多維異構(gòu)特征的關(guān)聯(lián)性計算方法有典型相關(guān)方法(CANCOR, canonical correlation)和 CoIA 方法。CANCOR方法可以從多維特征中找到相關(guān)系數(shù)最大的映射,CoIA可以找到協(xié)方差最大的映射,二者都可以分析音頻與視頻的關(guān)聯(lián)。CoIA由Doledec和 Chessel在關(guān)于物種與環(huán)境關(guān)系的研究中提出,但直到近年才被引入到多媒體分析中[12]。CoIA能夠?qū)?個具有不同維數(shù)的多元隨機變量X、Y尋找到矩陣A和B,使得X和Y分別在A和B上的投影具有最大的協(xié)方差。Enrique等人給出了CoIA的詳細計算過程,隨后比較了CANCOR與CoIA 2種方法在音視頻同步分析中的效果,結(jié)果表明 CoIA更適于分析音視頻之間的關(guān)聯(lián)性[8]。另一方面,CANCOR的計算中需要多次對音視頻特征的協(xié)方差矩陣求逆,在協(xié)方差矩陣不可逆的情況下無法求得結(jié)果。而CoIA則不需要求逆矩陣,適用性更好。因此本模型采用CoIA進行音視頻關(guān)聯(lián)性的計算。
由于音視頻內(nèi)容對同步感知質(zhì)量有明顯的影響,所以需要對內(nèi)容進行分類,根據(jù)各類的性質(zhì)分別構(gòu)建評價模型[3],分類方法如圖1所示。視頻的內(nèi)容非常靈活,分類方法和所分類別眾多;對視頻內(nèi)容進行自動識別和歸類所需要的計算資源較多,同時可識別的種類很少,因此很難根據(jù)視頻內(nèi)容對音視頻進行有效的分類。然而音頻信號的分析、識別與歸類則較為容易。同時,語音在人類感知中有著特殊的作用,人類對語音和唇型的同步感知比其他內(nèi)容更為敏感。因此根據(jù)音頻內(nèi)容將音視頻分為3類:純凈語音類、無語音類和有背景語音類,其中純凈語音類根據(jù)視頻內(nèi)容中是否出現(xiàn)與語音對應的嘴進一步分為有說話人和無說話人2個子類。
圖1 音視頻內(nèi)容分類
由于語音只能由嘴的運動發(fā)出,嘴部視頻與其所發(fā)出的語音具有很強的關(guān)聯(lián)性,所以唇型與語音的不同步很容易被察覺。而當視頻中沒有出現(xiàn)與語音對應的唇型時,語音與視頻內(nèi)容的關(guān)聯(lián)性則較弱,用戶對同步誤差也較為不敏感。因此純凈語音類根據(jù)視頻中是否出現(xiàn)與語音相對應的嘴分為2個子類:有說話人和無說話人。由于視頻鏡頭切換可能會造成視頻中人物的變化,所以對純凈語音類的評價以一個視頻鏡頭為單位進行。
造成視頻中沒有說話人的原因有2種:①視頻中的人物在聽鏡頭外其他人說的話,例如正在聽記者問題的被采訪對象;②視頻中不存在人物或者沒有清晰可辨的嘴,例如視頻為風光或者體育節(jié)目中的遠景鏡頭。在這2種情況下語音與視頻內(nèi)容都不存在嚴格的時間關(guān)聯(lián),音視頻同步誤差tskew的增大對主觀質(zhì)量分值(ACR_HRR)的影響較小。所以無說話人子類的評價模型采用一條較為平坦的高斯曲線來進行描述。
其中,σ為高斯曲線的標準差。
嘴部特征可以分為形狀特征和整體特征,形狀特征包括嘴的高度、寬度、面積和輪廓等,整體特征包括DCT系數(shù)等。Bredin等比較了2種特征與音頻的相關(guān)性,結(jié)果表明采用整體特征優(yōu)于形狀特征[5]。因此對于有說話人子類,首先進行嘴部檢測找到視頻中嘴部的位置。對每個鏡頭分別用一個包含嘴部的固定尺寸矩形作為嘴部范圍,對嘴部矩形范圍內(nèi)的亮度圖形進行二維8×8 DCT變換后按照Z字型掃描順序選取前30個DCT系數(shù),這30個系數(shù)和它們的一、二階差分一起作為視頻特征。
音頻按照 20ms的長度進行分幀,幀間疊接10ms。對每個音頻幀計算短時能量和梅爾倒譜系數(shù)(MFCC, mel-frequency cepstral coefficients),采用短時能量和MFCC前12個系數(shù)及其一、二階倒數(shù)作為音頻特征。由于音頻幀和視頻幀的長度不同,所以對每個視頻幀長度范圍內(nèi)的音頻特征求平均,使得音頻特征與視頻特征的長度相同。
將縮短后的音頻特征在±20視頻幀范圍內(nèi)進行逐幀移位。每次移位后均對視頻特征與移位后的音頻特征進行協(xié)慣量分析。協(xié)慣量分析的2個第一維特征為使音頻與視頻特征協(xié)方差最大的映射結(jié)果,將2個第一維特征的協(xié)方差作為音視頻的相關(guān)程度參數(shù)。通過音頻的移位可以得到相關(guān)程度參數(shù)曲線,對該曲線進行歸一化。如果音頻與視頻內(nèi)容存在關(guān)聯(lián),相關(guān)程度曲線會在靠近中心的位置出現(xiàn)凸起,在兩側(cè)逐漸下降;而當音視頻內(nèi)容不存在關(guān)聯(lián)時則不會出現(xiàn)明顯的凸起[9]。因此本模型通過相關(guān)程度曲線的凸起程度估計主觀質(zhì)量隨tskew的上升程度。為描述相關(guān)程度曲線,采用高斯曲線對其進行擬合,擬合公式為
其中,β為相關(guān)程度曲線峰值位置,σobj為標準差,描述了相關(guān)程度曲線的凸起程度。隨后再次利用高斯曲線對主觀質(zhì)量與 tskew之間的映射關(guān)系進行建模,高斯曲線為
其中,σsub由σobj通過線性或者非線性映射得到。最后通過待測序列的音視頻同步誤差tskew得到該序列的感知質(zhì)量ACR-HRR評分。模型中各參數(shù)通過主觀實驗結(jié)果確定。
無語音類的評價以一個或數(shù)個無語音類鏡頭為單位進行。評價模型的構(gòu)造方法與有說話人子類的方法在音視頻特征選取上有明顯的區(qū)別,其余部分完全相同。
在無語音類音視頻當中,用戶通常只在出現(xiàn)鏡頭切換、沖擊音、節(jié)奏變換等音頻或者視頻內(nèi)容有顯著變化的時刻才會感受到音視頻的不同步。所以在視頻特征的選取中需要選取能夠反映視頻運動狀態(tài)變化的特征。運動矢量的統(tǒng)計量可以較好地反映視頻內(nèi)容的狀態(tài)[13]。光流法可以提供與運動矢量類似的結(jié)果,同時能夠反映視頻中光線的變化,利用光流矢量的統(tǒng)計結(jié)果可以更全面地描述視頻中的運動狀態(tài)。因此本模型對于待測序列首先進行鏡頭切換檢測,得到鏡頭切換時刻。隨后通過Horn & Schunck方法得到每幀視頻的光流矢量圖。最后統(tǒng)計光流幅度的方差、光流幅度非零塊的個數(shù)、非零光流的幅度方差、光流幅度最大2個塊間的距離。將光流的統(tǒng)計量與鏡頭切換點一起作為視頻特征。
在音頻中引入Gillet等提出的段落相似程度指標[6]。該指標比較當前時刻的前后 2段音頻,將 2段音頻的各種特征映射到再生核希爾伯特空間中,在該空間中各特征均可被認為服從正態(tài)分布。隨后計算2段音頻特征分布的Kullback-Leibler距離作為2段音頻的段落相似程度。該指標在音頻中旋律和段落變化的時刻會出現(xiàn)峰值,從而反映音頻性質(zhì)的改變情況。得到段落相似程度指標后進行能量檢測,獲得沖擊音發(fā)生的時刻,同時進行基音檢測以提取旋律特征。最后計算音頻響度。將段落指標、沖擊音發(fā)生時刻、基音以及響度作為音頻特征。
在有背景語音類中同時存在著純凈語音和非語音的背景,因此音頻與視頻的相關(guān)性既可以存在于語音與圖像之間又可以存在于非語音的音頻和圖像之間。即有背景語音類可以看作純凈語音類與非語音類的疊加,2種類別的音頻與視頻之間的相關(guān)都可以使有背景語音類的音頻和視頻之間產(chǎn)生相關(guān)性。因此,有背景語音類可以利用純凈語音類與無語音類的評價模型進行評價。
首先對待測序列的視頻內(nèi)容進行判斷,根據(jù)判斷結(jié)果分別使用不同的評價模型。如果待測序列中沒有出現(xiàn)清晰的嘴,則采用無語音類的方法進行評價;如果待測序列存在清晰的嘴,但嘴沒有說話,則使用純凈語音類中無說話人子類的方法;如果序列中存在說話的嘴則使用純凈語音類中有說話人子類的方法。
各類評價模型的流程如圖2所示。
圖2 評價模型流程
主觀實驗的測試環(huán)境符合ITU-T P.911標準的規(guī)定。實驗采用4臺三星T220P(1920×1200)液晶顯示器進行視頻播放。音頻播放使用 4個Sennhesier HD25耳機進行。視頻序列采用QVGA分辨率在顯示器中央進行顯示,顯示器其余部分顯示中灰色作為背景。每組測試由4名測試人同時進行,對各組分別使用不同的隨機播放順序。根據(jù)ITU-T P.911的建議,測試人可以在視頻高度的1~8倍距離內(nèi)自行調(diào)節(jié)觀看距離。對純凈語音類的測試使用32名測試人,對無語音類的測試使用20名測試人,男女測試人員各占測試人數(shù)的一半。測試人年齡在22~29歲之間,全部具有正常聽力、視力或矯正視力且均不是音頻或視頻方面的專家。由于實驗規(guī)模較大,測試分為3階段進行,階段之間均間隔兩周以上。
實驗采用ITU-T P.911建議的9等級絕對等級評分(ACR, absolute category rating)獲得平均意見分,評分準則如圖3所示。在獲得評價數(shù)據(jù)之后對MOS分值進行去除隱含參考條件操作得到ACR-HRR分值。
圖3 ACR評分準則
測試序列均由高質(zhì)量源視頻通過雙3次插值轉(zhuǎn)換為320×240的無壓縮avi格式視頻。音頻轉(zhuǎn)換為48kHz采樣,16比特量化的PCM單聲道音頻。實驗采用10條有說話人序列、3條無說話人序列以及5條無語音序列。測試序列名稱及內(nèi)容在表1中詳細列出。有背景語音類由于可以利用純凈語音類與無語音類的評價模型,故在本階段實驗中沒有進行測試,只在驗證實驗中進行測試。
將測試序列的音頻進行移位,對移位后的序列進行主觀質(zhì)量的評分,音頻的移位時間量分別為±1 000ms、±800ms、±720ms、±640ms、±560ms、±480ms、±400ms、±320ms、±240ms、±160ms、±80ms和0ms。
各序列的ACR-HRR實驗結(jié)果如圖4所示。從圖4可以看出,當同步誤差增加時,所有序列的主觀質(zhì)量均下降,下降趨勢與高斯曲線基本吻合,但下降的速度各不相同,表明內(nèi)容對評價結(jié)果有明顯的影響。所以主觀質(zhì)量曲線可以利用具有不同標準差的高斯函數(shù)進行擬合,擬合方法采用非線性最小均方誤差法。擬合結(jié)果在表2中列出,擬合為式(4)。純凈語音類擬合的R2>0.8,無語音類R2>0.7。同時可以看出“對話節(jié)目”、“鑒寶節(jié)目”與“足球2”3條序列曲線都非常平坦,如果將3條曲線通過平移使得中心一致的話,3條曲線的變化趨勢非常接近,可以用一條固定的高斯曲線對它們進行統(tǒng)一描述。
表1 測試序列
圖4 測試結(jié)果
對有說話人子類和無語音類,分別對各測試序列進行移位和協(xié)慣量分析,得到相關(guān)程度曲線,百家講壇、交響樂會1和大河之舞3條序列的相關(guān)程度曲線如圖5所示。由于測試使用的參考序列本身的音視頻并不是完全準確同步,所以相關(guān)程度曲線的凸起中心有一定偏移。隨后用式(3)對相關(guān)程度曲線中的凸起部分進行擬合。純凈語音類與無語音類的σobj與σsub的映射關(guān)系如圖6所示,對2類分別進行映射關(guān)系的曲線擬合,純凈語音類的擬合式為
無語音類的擬合公式為
圖5 相關(guān)程度曲線
圖 6 σobj與 σsub的映射關(guān)系
無說話人子類各序列的主觀質(zhì)量曲線非常接近,因此采用同樣的高斯曲線對其進行回歸分析,并將擬合得到的曲線直接作為同步誤差與主觀質(zhì)量間的映射曲線。擬合結(jié)果為回歸分析的R2>0.9。
表2 驗證實驗測試序列
圖7 驗證實驗結(jié)果
因此,對于待測的音視頻序列,可以首先計算其相關(guān)程度曲線,然后通過相關(guān)程度曲線得到 σobj對σsub進行估計,從而得到主觀質(zhì)量與同步誤差時間之間的映射關(guān)系。
為了驗證所提出模型的性能,另外選擇了5條有背景語音序列、3條無語音序列以及3條純凈語音序列使用同樣的測試人員進行了驗證實驗。驗證實驗的實驗設計除測試序列外與上一次實驗相同。驗證實驗的測試序列內(nèi)容如表 2所示。
圖7顯示了部分序列的高斯曲線擬合結(jié)果,可以看出高斯曲線可以較好地描述主觀測試結(jié)果。分別利用有說話人子類、無說話人類和無說話人子類對驗證實驗各序列的主觀質(zhì)量曲線進行客觀估計,估計結(jié)果如圖7所示。在有背景語音類型序列中,演唱會片斷1和演唱會片斷2按照有說話人子類方法處理,紀錄片和武打片斷按照無語音類方法處理,閱兵式按照無說話人子類方法處理。由圖7可以看出估計結(jié)果與主觀曲線本身的擬合結(jié)果很接近,也能較好地描述主觀質(zhì)量曲線。
為了比較評價模型的結(jié)果與主觀實驗結(jié)果,分別計算主觀質(zhì)量擬和曲線與評價模型擬和曲線對主觀質(zhì)量曲線之間的均方根誤差。各序列的均方根誤差比較結(jié)果如表3所示。
表3 均方根誤差比較
從表3可以看出,用高斯曲線對主觀評價結(jié)果進行擬和可以獲得較小的均方根誤差,說明高斯曲線可以較好地擬和主觀質(zhì)量隨同步誤差時間增加而下降的趨勢??陀^擬和曲線與主觀實驗結(jié)果的均方根誤差與主觀擬和曲線非常接近,表明所提出的模型可以較好地對各種類型的音視頻序列進行同步質(zhì)量估計。
對音視頻質(zhì)量進行評價需要對各種導致質(zhì)量下降的因素進行定量分析。音視頻不同步作為當前音視頻業(yè)務常見的失真方式之一,將導致用戶的感知體驗受到損傷,從而降低音視頻質(zhì)量。已有的研究集中在如何對音視頻質(zhì)量進行融合上,對同步帶來的損傷沒有進行定量的分析與描述。
本文提出一種利用協(xié)慣量分析進行的全參考音視頻同步質(zhì)量感知評價模型,模型通過對齊算法獲得音視頻同步的時間誤差,隨后針對不同類型音視頻內(nèi)容,通過協(xié)慣量分析獲得同步誤差與主觀質(zhì)量之間的映射關(guān)系從而得到質(zhì)量評分。實驗結(jié)果表明,采用9等級評分制時,11條測試序列中的9條序列由本模型獲得的評價結(jié)果與主觀實驗結(jié)果的均方根誤差小于 1,其余 2條序列的均方根誤差略大于 1,說明本模型的評價結(jié)果與主觀結(jié)果的偏離程度較小,可以較好地描述主觀感知質(zhì)量。
由于采用高斯曲線對同步誤差與主觀質(zhì)量的映射關(guān)系進行建模,本模型對音頻和視頻存在周期性的音視頻內(nèi)容尚無法給出較準確的質(zhì)量估計結(jié)果。另外,如果音視頻分類出現(xiàn)錯誤,會在質(zhì)量估計結(jié)果中引入很大的誤差,因此對于音視頻的自動分類方法還需要進行進一步的研究。為實現(xiàn)本模型,還需要引入有效的嘴部區(qū)域檢測算法以支持純凈語音類和有背景語音類中的特征提取方法。
[1] RIMELL A, OWEN A. The effect of focused attention on audio-visual quality perception with applications in multi-model codec design[A].ICASSP 2000[C]. Istanbul, Turkey, 2000. 2377-2380.
[2] HANDS D S. A basic multimedia quality model[J]. IEEE Transactions on Multimedia,2004 ,12 (6): 806-816.
[3] STEINMETZ R. Human perception of jitter and media synchronization[J]. IEEE Journal on Selected Areas in Communications, 1996,14(1): 61-72.
[4] NISHIBORI K, TAKEUCHI Y, MATSUMOTO T, et al. Finding the correspondence of audiovisual events by object manipulation[J]. Electronics and Communications, 2009, 92(5): 1-13.
[5] BREDIN H, CHOLLET G. Audiovisual speech synchrony measure:application to biometrics[J]. Eurasip Journal on Advances in Signal Processing, 2007, (3): 1-11.
[6] GILLET O, ESSID S, RICHARD G. On the correlation of automatic audio and visual segmentations of music videos[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007,3(17): 347-355.
[7] LIU Y Y, SATO Y. Recovery of audio-to-video synchronization through analysis of cross-modality correlation[J]. Pattern Recognition Letters, 2010 ,31 (8): 696-701.
[8] ENRIQUE A R, BREDIN H, GARCIA M C, et al. Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models[J]. Pattern Analysis & Applications,2009,9(12):271-284.
[9] EVENO N, BESACIER L. Co-inertia analysis for “l(fā)iveness” test in audio-visual biometrics[A]. Proceedings of the 4th International Symposium on Image and Signal Processing and Analysis[C]. Zagreb,Croatia, 2005. 257-261.
[10] KUMAR K, NAVEATIL J, MARCHERET E, et al. Audio-visual speech synchronization detection using a bimodal linear prediction model[A]. 2009 IEEE Conference on Computer Vision and Pattern Recognition[C]. 2009. 53-59.
[11] QUAN H T, GHANBARI M. A comparison of subjective video quality assessment methods for low-bit rate and low-resolution video[A]. The 7th IASTED International Conference on Signal & Image Processing[C].2005.70-76.
[12] DOLEDEC S, CHESSEL D. Co-inertia analysis: an alternative method for studying pecies-environment relationships[J]. Freshwater-Biology, 1994,31: 277-294.
[13] JEANNIN S, DIVAKARAN A. MPEG-7 visual motion descriptors[J].IEEE Transactions on Circuits and Systems for Video Technology,2001, 6(11):720-724.