宋 巍,肖 毅,杜艷玲,張明華
上海海洋大學(xué) 信息學(xué)院,上海201306
在水下環(huán)境中獲取清晰圖像是海洋工程中的一個(gè)重要問(wèn)題[1]。水下視頻在海洋生物探測(cè)跟蹤、海洋種類研究和海洋生態(tài)研究中發(fā)揮著關(guān)鍵作用,是海洋研究的載體。視頻在經(jīng)過(guò)采集、壓縮、處理、傳輸?shù)炔襟E中都可能產(chǎn)生質(zhì)量退化的情況。針對(duì)水下視頻的質(zhì)量評(píng)價(jià)方法可對(duì)水下視頻的質(zhì)量進(jìn)行評(píng)估,保證水下視頻質(zhì)量將為水下研究提供一個(gè)良好的開端。評(píng)估水下視頻的質(zhì)量是計(jì)算機(jī)視覺(jué)領(lǐng)域中重要的研究問(wèn)題。視頻質(zhì)量評(píng)價(jià)(video quality assessment)根據(jù)其類型可以分為主觀質(zhì)量評(píng)價(jià)和客觀質(zhì)量評(píng)價(jià)。主觀質(zhì)量評(píng)價(jià)是通過(guò)測(cè)試者對(duì)不同質(zhì)量的視頻做出評(píng)價(jià)并進(jìn)行處理得到主觀視頻分?jǐn)?shù)。由于主觀視頻質(zhì)量評(píng)價(jià)需要人工標(biāo)注,具有效率低下和成本高等問(wèn)題。客觀質(zhì)量評(píng)價(jià)通過(guò)建立算法模型來(lái)自動(dòng)計(jì)算視頻質(zhì)量,能夠快速、低成本、穩(wěn)定地進(jìn)行評(píng)價(jià)。國(guó)際電信聯(lián)盟(International Telecommunication Union)[2]根據(jù)對(duì)原始視頻的需要程度,將客觀視頻質(zhì)量評(píng)價(jià)分為全參考視頻質(zhì)量評(píng)價(jià)(full-reference)、部分參考視頻質(zhì)量評(píng)價(jià)(reduced-reference)和無(wú)參考視頻質(zhì)量評(píng)價(jià)(no-reference)。
光在水介質(zhì)中傳播時(shí)介質(zhì)的物理特性導(dǎo)致了水下拍攝的視頻存在退化效應(yīng)[3]。一方面,光線在水中傳播時(shí)呈指數(shù)衰減導(dǎo)致水下視頻質(zhì)量損失;另一方面,受到水下復(fù)雜拍攝環(huán)境(例如水流和水壓等)的影響造成視頻的不穩(wěn)定性。考慮到水下視頻的這兩個(gè)特性,通常無(wú)法獲得理想的參考圖像/視頻,全參考和部分參考評(píng)價(jià)方法在水下視頻質(zhì)量評(píng)價(jià)中的實(shí)用性有限,因此在水下視頻質(zhì)量評(píng)價(jià)中一般采用無(wú)參考評(píng)價(jià)的方法。
目前自然場(chǎng)景的評(píng)價(jià)方法在評(píng)價(jià)水下視頻時(shí)適應(yīng)性差,水下場(chǎng)景質(zhì)量評(píng)價(jià)方法只考慮了空間維度,忽視了時(shí)間維度的不穩(wěn)定性對(duì)于視頻質(zhì)量的影響。本文旨在將水下視頻特有的時(shí)空特征和運(yùn)動(dòng)特征進(jìn)行分析并與深度學(xué)習(xí)的理論思想結(jié)合,發(fā)展基于深度特征學(xué)習(xí)的水下視頻質(zhì)量評(píng)價(jià)模型。本文的貢獻(xiàn)可以概述如下:(1)通過(guò)實(shí)驗(yàn)分析設(shè)計(jì)了一個(gè)雙流網(wǎng)絡(luò)對(duì)水下視頻特征進(jìn)行提取,從時(shí)空特征和運(yùn)動(dòng)特征的角度獲取視頻質(zhì)量的相關(guān)特征,考慮多種特征融合方式,建立了TS-UVQA(two-stream underwater video quality assessment)模型。(2)驗(yàn)證了光流圖對(duì)水下視頻質(zhì)量分析的有效性。(3)與多種優(yōu)秀的質(zhì)量評(píng)價(jià)模型進(jìn)行了對(duì)比實(shí)驗(yàn),取得了更高的相關(guān)系數(shù)。
水下場(chǎng)景不同于傳統(tǒng)自然場(chǎng)景,水介質(zhì)對(duì)光具有特殊吸收和散射特性,這些特性使得在自然場(chǎng)景的圖像視頻質(zhì)量評(píng)價(jià)方法不能直接應(yīng)用在水下場(chǎng)景中,針對(duì)自然場(chǎng)景提出質(zhì)量評(píng)價(jià)方法在水下數(shù)據(jù)集中通常表現(xiàn)出不適應(yīng)性。相關(guān)工作將從自然場(chǎng)景質(zhì)量評(píng)價(jià)方法和水下場(chǎng)景質(zhì)量評(píng)價(jià)方法兩方面展開。
目前,許多學(xué)者對(duì)自然場(chǎng)景的質(zhì)量評(píng)價(jià)進(jìn)行了研究,為研究水下場(chǎng)景質(zhì)量評(píng)價(jià)提供了大量的理論基礎(chǔ)。Saad 等人[4]設(shè)計(jì)了一個(gè)依靠離散余弦變換域中視頻場(chǎng)景的時(shí)空模型以及表征場(chǎng)景中發(fā)生的運(yùn)動(dòng)類型的模型來(lái)預(yù)測(cè)視頻質(zhì)量。Xu 等人[5]提出了一種用于無(wú)參考視頻質(zhì)量評(píng)價(jià)的可感知系統(tǒng),通過(guò)無(wú)監(jiān)督學(xué)習(xí)提取特征應(yīng)用到支持向量回歸(support vector regression,SVR)上計(jì)算視頻質(zhì)量。Men 等人[6]使用自然視頻質(zhì)量數(shù)據(jù)庫(kù)KoNViD-1k 提出一種無(wú)參考視頻質(zhì)量評(píng)價(jià)方法,該方法組合視頻的模糊性、色彩性、對(duì)比度、空間和時(shí)間信息多種特征來(lái)形成特征向量,最后通過(guò)SVR 映射到主觀質(zhì)量分?jǐn)?shù)。Kang等人[7]提出一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)預(yù)測(cè)圖像質(zhì)量并以圖像patch 作為輸入,該網(wǎng)絡(luò)由一個(gè)具有最大池和最小池的卷積層、兩個(gè)完全連接層和一個(gè)輸出節(jié)點(diǎn)組成,將特征學(xué)習(xí)和回歸集成到一個(gè)優(yōu)化過(guò)程中從而形成更有效的圖像質(zhì)量估計(jì)模型。Jia 等人[8]提出基于PCANet進(jìn)行圖像質(zhì)量評(píng)價(jià),取得比CNN 網(wǎng)絡(luò)更高的精度。Bianco 等人[9]以CNN 網(wǎng)絡(luò)架構(gòu)將圖像分塊進(jìn)行質(zhì)量評(píng)價(jià),使用平均池化對(duì)分塊質(zhì)量分?jǐn)?shù)進(jìn)行處理得到總體質(zhì)量評(píng)價(jià)。Yan 等人[10]采用雙流CNN 網(wǎng)絡(luò)分別捕獲輸入圖像和梯度圖像的信息進(jìn)行質(zhì)量評(píng)價(jià)。Li 等人[11]將視頻序列進(jìn)行分塊,借助3D-shearlet 變換提取特征,基于這些特征向量,采用CNN 和logistics對(duì)視頻質(zhì)量進(jìn)行預(yù)測(cè)。Liu 等人[12]在視頻多任務(wù)端到端優(yōu)化神經(jīng)網(wǎng)絡(luò)(video multi-task end-to-end optimized neural network,V-MEON)使用了一個(gè)多任務(wù)神經(jīng)網(wǎng)絡(luò)框架,同時(shí)對(duì)視頻感知質(zhì)量和編碼類型的概率進(jìn)行預(yù)測(cè),能夠適應(yīng)于各種編解碼器壓縮的視頻。Varga 和Szirányi[13]利用預(yù)先訓(xùn)練的CNN和LSTM(long short-term memory)網(wǎng)絡(luò)提取深度特征并將特征映射到質(zhì)量分?jǐn)?shù)上。Li等人[14]提出了一種客觀的無(wú)參考視頻質(zhì)量評(píng)估方法,將內(nèi)容依賴性和時(shí)間記憶效應(yīng)集成到一個(gè)深度神經(jīng)網(wǎng)絡(luò)中來(lái)預(yù)測(cè)視頻質(zhì)量。這些基于深度學(xué)習(xí)的質(zhì)量評(píng)價(jià)方法都能取得與人類視覺(jué)感知相關(guān)性很高的預(yù)測(cè)結(jié)果。
許多學(xué)者也對(duì)水下場(chǎng)景的質(zhì)量評(píng)價(jià)做了研究。Schechner 等人[15]提出了將對(duì)比度應(yīng)用于度量水下圖像質(zhì)量。Hou 等人[16]提出了基于加權(quán)灰度尺度角(weight gray scale angle,WGSA)的圖像清晰度評(píng)價(jià)標(biāo)準(zhǔn)對(duì)受噪聲影響的水下圖像進(jìn)行評(píng)價(jià)。Yang等人[17]提出水下彩色圖像質(zhì)量評(píng)價(jià)指標(biāo)(underwater color image quality evaluation,UCIQE),該指標(biāo)提取CIELab空間統(tǒng)計(jì)特征中與觀察者感知相關(guān)度最高的三個(gè)質(zhì)量度量:色度、飽和度和對(duì)比度。將這些參數(shù)線性組合用來(lái)預(yù)測(cè)圖像質(zhì)量。Panetta 等人[18]提出了一種無(wú)參考的水下圖像質(zhì)量評(píng)價(jià)方法(underwater image quality measure,UIQM),采用三種水下圖像屬性測(cè)量(水下圖像色彩測(cè)量UICM、水下圖像清晰度測(cè)量UISM、水下圖像對(duì)比度測(cè)量UIConM)來(lái)表征水下圖像質(zhì)量。Moreno-Roldán 等人[19]針對(duì)水聲網(wǎng)絡(luò)傳輸?shù)乃乱曨l,提出了一種基于自然視頻統(tǒng)計(jì)的矢量量化算法,該方法將6 個(gè)自然視頻統(tǒng)計(jì)(natural video statistics,NVS)特征作為評(píng)價(jià)指標(biāo)。郭繼昌等人[20]將深度學(xué)習(xí)網(wǎng)絡(luò)框架與隨機(jī)森林回歸模型相結(jié)合,無(wú)需參考圖像就能得到與觀察者感知質(zhì)量相關(guān)性很高的預(yù)測(cè)結(jié)果。宋巍等人[21]考慮水下視頻特性,提出一種適用小樣本的結(jié)合空域統(tǒng)計(jì)特性與編碼的水下視頻質(zhì)量評(píng)價(jià)方法NR-UVQA(no-reference underwater video quality assessment)。該方法針對(duì)空間域計(jì)算圖像失真統(tǒng)計(jì)特性,結(jié)合視頻編碼參數(shù)訓(xùn)練線性模型。
目前傳統(tǒng)場(chǎng)景的質(zhì)量評(píng)價(jià)方法的研究已經(jīng)有數(shù)十年的發(fā)展,但針對(duì)水下場(chǎng)景的質(zhì)量評(píng)價(jià)研究比較缺乏,并且傳統(tǒng)場(chǎng)景的方法不能很好地適應(yīng)水下場(chǎng)景,相關(guān)研究只是提取簡(jiǎn)單的手工特征和淺層特征,無(wú)法反映水下場(chǎng)景的特點(diǎn)。另外,大部分研究只考慮了空間維度,未將時(shí)間維度對(duì)于視頻質(zhì)量的影響考慮在內(nèi)。因此,設(shè)計(jì)針對(duì)水下視頻場(chǎng)景的質(zhì)量評(píng)價(jià)方法是目前一個(gè)待解決的問(wèn)題。
針對(duì)目前研究的不足,考慮到光線在水下傳播時(shí)導(dǎo)致的質(zhì)量損失以及水下復(fù)雜的拍攝環(huán)境的影響造成的不穩(wěn)定性特點(diǎn),根據(jù)不同特點(diǎn)分別做不同的處理,設(shè)計(jì)雙流網(wǎng)絡(luò)分別從時(shí)空維度和運(yùn)動(dòng)信息維度中提取特征,學(xué)習(xí)視頻質(zhì)量與特征間的關(guān)系并預(yù)測(cè)視頻質(zhì)量。
視頻可以看成由空間信息和時(shí)間信息組成,單幀圖像體現(xiàn)的是視頻的空間信息,例如空間場(chǎng)景和主體;時(shí)間信息則由多幀的圖像組成,幀間變化體現(xiàn)了視頻主體的運(yùn)動(dòng)情況,幀間光流是體現(xiàn)幀間變化的一種方式。為了充分提取視頻的相關(guān)信息,本文借鑒了Two-Stream[22]方法的雙流結(jié)構(gòu)概念,針對(duì)時(shí)空特征和運(yùn)動(dòng)特征分別設(shè)計(jì)相應(yīng)的網(wǎng)絡(luò)來(lái)提取對(duì)應(yīng)的特征,并考慮多種特征融合方式將特征進(jìn)一步融合,提出具有雙流結(jié)構(gòu)的水下視頻質(zhì)量評(píng)價(jià)模型(TS-UVQA)。網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
由于原始視頻四周含有人工添加的文字標(biāo)注等,為避免對(duì)模型效果的影響,同時(shí)提高特征學(xué)習(xí)的效率,將視頻統(tǒng)一裁剪為224×224 像素大小。原始視頻的絕大部分信息分布在視頻的中間部分,故裁剪圍繞視頻中心進(jìn)行。光流場(chǎng)圖進(jìn)行相同裁剪。
以雙流網(wǎng)絡(luò)學(xué)習(xí)水下視頻中的特征,需要對(duì)原始水下視頻進(jìn)行不同的處理。圖1(a)中Spatialtemporal Net 從原始視頻流中學(xué)習(xí)時(shí)空特征。為此,將原始視頻流按一定的間隔抽取視頻幀,組成視頻幀組。由于本文數(shù)據(jù)集中的視頻序列均為10~13 s,為獲得相同長(zhǎng)度的視頻幀組,以1.0~1.3 s為間隔進(jìn)行抽取,獲得10 幀。為了加快模型的訓(xùn)練,將數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)模式,對(duì)輸入圖像做歸一化處理。
圖1(a)中的Motion Net 的目的是從能夠描述整個(gè)視頻運(yùn)動(dòng)信息的光流場(chǎng)塊中學(xué)習(xí)視頻的運(yùn)動(dòng)特征。光流圖的獲取通常使用光流法對(duì)幀間光流進(jìn)行提取,光流法是利用圖像在時(shí)間域上相鄰幀之間相關(guān)性計(jì)算物體的運(yùn)動(dòng)信息的一種方法。本文計(jì)算視頻的稠密光流(dense optical flow)[23],將每5 個(gè)相鄰幀的稠密光流信息疊加,得到能夠描述短時(shí)視頻運(yùn)動(dòng)變化的光流場(chǎng)圖,對(duì)于整個(gè)視頻序列,按一定間隔T提取10 幀光流場(chǎng)圖,獲得一個(gè)維度為10 的光流場(chǎng)塊以描述整個(gè)視頻運(yùn)動(dòng)信息。
圖1 雙流網(wǎng)絡(luò)的水下視頻質(zhì)量評(píng)價(jià)框架Fig.1 Two-stream network structure for underwater video quality assessment
為了提取到視頻的時(shí)間維度信息,需要將包含時(shí)間信息的多視頻幀堆疊在一起輸入到神經(jīng)網(wǎng)絡(luò)中。通過(guò)預(yù)處理獲得的視頻幀組是從連續(xù)幀之間按照一定間隔提取的,具有一定的時(shí)序性。二維(2D)卷積網(wǎng)絡(luò)能夠很好地捕獲空間上的信息,但缺乏捕獲時(shí)序信息的能力。相較于二維,三維(3D)卷積神經(jīng)網(wǎng)絡(luò)更適合提取處理帶時(shí)間維度的信息。研究已經(jīng)表明三維卷積神經(jīng)網(wǎng)絡(luò)能夠通過(guò)堆疊連續(xù)的多視頻幀學(xué)習(xí)部分時(shí)間信息。因此,本文根據(jù)時(shí)空特征特點(diǎn)設(shè)計(jì)了一個(gè)學(xué)習(xí)視頻時(shí)空特征的卷積神經(jīng)網(wǎng)絡(luò),命名為Spatial-temporal Net,結(jié)構(gòu)如圖1(a)所示。該網(wǎng)絡(luò)由3 個(gè)Conv3D Block,1 個(gè)全局平均池化層(global average pooling,GAP)以及1 個(gè)全連接層(Fc)組成。
(1)Conv3D Block 模塊
Conv3D Block 模塊如圖1(b)所示,包含Conv3D層、SN(switchable normalization)層[24]和MaxPooling 3D層。Conv3D 層通過(guò)三維卷積能夠同時(shí)提取視頻中的空間和時(shí)間維度的特征。在Spatial-temporal Net中,3 個(gè)Conv3D Block 中的Conv3D 層卷積核數(shù)分別為8、16 和32。
數(shù)據(jù)歸一化對(duì)模型的性能提升有重要的影響。SN 歸一化方法使用可微分學(xué)習(xí),為深度學(xué)習(xí)網(wǎng)絡(luò)中的每一個(gè)歸一化層確定合適的歸一化操作。SN 相較于其他的歸一化方法,如BN(batch normalization)[25]、IN(instance normalization)[26]和LN(layer normalization)[27]魯棒性更好,對(duì)batch size 的設(shè)置不敏感,使模型能夠在各種batch size 的設(shè)計(jì)下保持穩(wěn)定。SN算法如式(1)所示:
其中,hncij和分別是歸一化前后的像素點(diǎn)的值;γ和β分別是位移變量和縮放變量;?是一個(gè)非常小的數(shù),用以防止除0;μk和σk分別是均值和方差;Ω={in,ln,bn}是三種歸一化方法的集合。
(2)慢融合策略
為了更有效地融合時(shí)間維度的特征,本文采用了一種在時(shí)間維度上卷積的慢融合策略[28]來(lái)更有效地學(xué)習(xí)長(zhǎng)時(shí)間序列數(shù)據(jù)與視頻質(zhì)量分?jǐn)?shù)之間的相關(guān)性。
慢融合策略如圖2 所示。區(qū)別于一次性通過(guò)Conv3D 對(duì)10 幀進(jìn)行特征提取,該策略將時(shí)間信息在3 維卷積層中逐漸融合。具體來(lái)說(shuō),第一個(gè)卷積層將10 幀壓縮為5 幀,第二個(gè)卷積層將5 幀壓縮為3 幀,第三個(gè)卷積層將前一層的3 幀融合為2 幀。通過(guò)這種方式融合復(fù)雜的時(shí)間維度特征。通過(guò)該策略控制卷積核在時(shí)間維度的步幅,緩慢地融合時(shí)間維度特征,使得模型能夠提取到更復(fù)雜的特征。
圖2 慢融合策略圖Fig.2 Slow fusion strategy diagram
與2.2 節(jié)中的時(shí)空特征提取不同,光流特征主要表達(dá)的是視頻中主體的運(yùn)動(dòng)特征。雖然Conv3D 結(jié)構(gòu)可以通過(guò)三維卷積核同時(shí)提取視頻幀組中的時(shí)空特征,但在時(shí)間維度信息的描述上,本質(zhì)是通過(guò)局部卷積來(lái)表達(dá)時(shí)間關(guān)系,這種時(shí)間特征提取對(duì)于水下視頻質(zhì)量的評(píng)價(jià)是不充分的,因此從光流場(chǎng)塊中提取運(yùn)動(dòng)特征是更加合理的選擇。在光流特征提取中,輸入的是疊加的光流場(chǎng)塊,通過(guò)二維卷積神經(jīng)網(wǎng)絡(luò)提取其中特征。因此,本文根據(jù)運(yùn)動(dòng)特征的特點(diǎn)設(shè)計(jì)了一個(gè)Conv2D Block 模塊,如圖1(c)所示,包含Conv2D 層、SN 層 和MaxPooling2D 層。在Conv2D Block 的基礎(chǔ)上設(shè)計(jì)了一個(gè)包含3 個(gè)Conv2D Block模塊的二維卷積神經(jīng)網(wǎng)絡(luò)Motion Net,如圖1(a)所示。同時(shí)將Motion Net 網(wǎng)絡(luò)與經(jīng)典的二維特征提取網(wǎng) 絡(luò)——AlexNet、VGG16、InceptionV1、ResNet50、ResNet18 進(jìn)行了對(duì)比實(shí)驗(yàn)。
本文通過(guò)實(shí)驗(yàn)對(duì)比(詳見(jiàn)3.3.2 小節(jié))表明了Motion Net 網(wǎng)絡(luò)作為運(yùn)動(dòng)特征提取器的優(yōu)勢(shì)。相較于VGG16、InceptionV1、ResNet18 來(lái)說(shuō),Motion Net網(wǎng)絡(luò)使用了3×3 的卷積核和SN 層,具有參數(shù)量小和自適應(yīng)選擇正則化的優(yōu)點(diǎn)。而ResNet50 網(wǎng)絡(luò)太深,需要更多的數(shù)據(jù)量才能很好地訓(xùn)練。Motion Net 網(wǎng)絡(luò)能夠有效提取光流場(chǎng)中的特征,所提取的特征與主觀質(zhì)量分?jǐn)?shù)有較高的相關(guān)性。
為了獲得更有效表達(dá)水下視頻質(zhì)量的特征,需要將雙流網(wǎng)絡(luò)提取的不同類型的特征進(jìn)行融合。本文考慮了三種融合方式對(duì)實(shí)驗(yàn)結(jié)果的影響,分別為:決策級(jí)平均融合、決策級(jí)線性融合和特征級(jí)SVR(support vector regression)融合。決策級(jí)平均融合如式(2),將雙流模型得到的預(yù)測(cè)結(jié)果作平均池化得到?jīng)Q策級(jí)平均融合的結(jié)果。決策級(jí)線性融合如式(3),雙流模型結(jié)果通過(guò)線性加權(quán)得到融合后的預(yù)測(cè)結(jié)果,加權(quán)權(quán)重通過(guò)訓(xùn)練得到。特征級(jí)SVR 融合如式(4)。取雙流模型中最后一層全連接層的輸出作為特征向量,將兩個(gè)特征向量做拼接操作后輸入到SVR 中(使用RBF(radial basis function)核函數(shù)),由SVR 進(jìn)一步融合特征信息,并建立與質(zhì)量評(píng)分之間的映射關(guān)系,實(shí)現(xiàn)視頻質(zhì)量預(yù)測(cè)。
其中,i∈1,2,…,N,N為測(cè)試集的大??;si為第i個(gè)視頻的預(yù)測(cè)結(jié)果;fi為時(shí)空特征提取網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果;hi為光流特征提取網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果;α、β為權(quán)重系數(shù);V f為時(shí)空特征提取網(wǎng)絡(luò)最后一個(gè)全連接層輸出的特征向量;Vh為光流特征提取網(wǎng)絡(luò)最后一個(gè)全連接層輸出的特征向量。
網(wǎng)絡(luò)的總體損失函數(shù)為L(zhǎng)ogcosh,該函數(shù)應(yīng)用于回歸任務(wù),相較于L2 損失函數(shù)更加平滑。Logcosh 損失函數(shù)公式如式(5):
其中,y表示label值,yp表示模型的預(yù)測(cè)值。
本章通過(guò)綜合實(shí)驗(yàn)對(duì)本文提出的TS-UVQA 方法的性能進(jìn)行了全面分析。首先,針對(duì)TS-UVQA 的三個(gè)主要模塊——時(shí)空特征提取網(wǎng)絡(luò)、運(yùn)動(dòng)特征提取網(wǎng)絡(luò)和特征融合策略,通過(guò)實(shí)驗(yàn)分析了特征提取網(wǎng)絡(luò)的有效性,以及不同特征融合方式對(duì)于實(shí)驗(yàn)結(jié)果的影響(實(shí)驗(yàn)結(jié)果見(jiàn)3.3.1~3.3.3 小節(jié))。其次,通過(guò)對(duì)比光流運(yùn)動(dòng)特征在水下視頻和自然場(chǎng)景視頻質(zhì)量評(píng)價(jià)的不同表現(xiàn),驗(yàn)證了光流對(duì)于水下視頻質(zhì)量評(píng)價(jià)的作用(實(shí)驗(yàn)結(jié)果見(jiàn)3.3.4 小節(jié))。最后,與目前最先進(jìn)視頻質(zhì)量評(píng)價(jià)方法進(jìn)行對(duì)比實(shí)驗(yàn),檢驗(yàn)了本文方法在水下視頻評(píng)價(jià)方面的優(yōu)良性能,以及用于其他自然場(chǎng)景視頻質(zhì)量評(píng)價(jià)的泛化能力(實(shí)驗(yàn)結(jié)果見(jiàn)3.3.5 小節(jié))。
目前,針對(duì)水下場(chǎng)景的視頻客觀質(zhì)量評(píng)價(jià)模型的構(gòu)建缺乏公開的水下視頻數(shù)據(jù)集。本文使用了之前研究中建立的水下數(shù)據(jù)集[21]。該數(shù)據(jù)集中的視頻序列涵蓋了水下動(dòng)態(tài)、靜態(tài)動(dòng)植物以及海底巖石等場(chǎng)景,包含廣泛的時(shí)間空間維度變化。該數(shù)據(jù)集對(duì)25 個(gè)原始視頻選擇不同比特率(96 Kbit/s、200 Kbit/s、500 Kbit/s)和不同幀率(5 FPS、10 FPS、25 FPS)參數(shù)采用H.264 進(jìn)行模擬失真壓縮。由15 名觀測(cè)者為水下視頻進(jìn)行質(zhì)量打分,將每個(gè)視頻的平均意見(jiàn)得分(MOS)作為視頻的質(zhì)量標(biāo)注。除了上述水下數(shù)據(jù)集外,本文將方法在公開的非水下視頻數(shù)據(jù)集ECVQ[29]、EVVQ[30]、LIVE[31-32]上也進(jìn)行了實(shí)驗(yàn)。ECVQ 包含8 個(gè)原始CIF 視頻,通過(guò)H.264 和MPEG4-Visual 壓縮成90個(gè)視頻。EVVQ包含8個(gè)VGA原始視頻,通過(guò)H.264 和MPEG4-Visual壓縮成90個(gè)視頻。LIVE 數(shù)據(jù)集包含15 個(gè)原始視頻,通過(guò)無(wú)線失真、IP 失真、H.264 和MPEG-2 失真壓縮成150 個(gè)視頻。
為評(píng)估視頻客觀質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)的性能,將每個(gè)數(shù)據(jù)集隨機(jī)劃分為80%的訓(xùn)練集和20%的測(cè)試集,實(shí)驗(yàn)重復(fù)10 次取平均值作為實(shí)驗(yàn)的最終結(jié)果。訓(xùn)練階段采用Adam 優(yōu)化,參數(shù)為beta1=0.9,beta2=0.999,epsilon=1E-07。初始學(xué)習(xí)率為0.000 3,采用早停(Early-Stopping)策略。
視頻客觀質(zhì)量評(píng)價(jià)的評(píng)價(jià)指標(biāo)是基于預(yù)測(cè)值與主觀評(píng)分之間的相關(guān)性。本文采用的評(píng)價(jià)指標(biāo)為:皮爾森線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC)和斯皮爾曼秩序相關(guān)系數(shù)(Spearman rank order correlation coefficient,SROCC),PLCC 和SROCC 在質(zhì)量評(píng)價(jià)領(lǐng)域廣泛使用。
PLCC 描述兩個(gè)變量之間的線性相關(guān)性。
其中,集合S和集合L分別表示視頻數(shù)據(jù)集的質(zhì)量預(yù)測(cè)值和標(biāo)簽值。Sˉ、Lˉ為S和L的平均值。
SROCC 是非線性相關(guān)指標(biāo),描述序列中元素的排列關(guān)系。
3.3.1 時(shí)空特征提取網(wǎng)絡(luò)性能分析
為獲取與水下視頻主觀質(zhì)量分?jǐn)?shù)相關(guān)性高的時(shí)空特征,對(duì)Spatial-temporal Net 中的Conv3D Block 模塊進(jìn)行探索,開展了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示。表中的模型名稱分別為:(1)c3d,僅使用三維卷積神經(jīng)網(wǎng)絡(luò)Conv3D 提取特征并預(yù)測(cè);(2)c3d-sn,在三維卷積網(wǎng)絡(luò)的基礎(chǔ)加上SN 層;(3)c3d-sn-slow,在三維卷積神經(jīng)網(wǎng)絡(luò)加上SN 層的基礎(chǔ)上再加上慢融合策略。同時(shí),實(shí)驗(yàn)也對(duì)比了輸入圖像為灰度圖和RGB 圖的情況,其中,灰度圖是模型的默認(rèn)輸入,rgb表示輸入圖像為RGB 圖。
表1 不同策略下時(shí)空特征提取網(wǎng)絡(luò)的評(píng)價(jià)結(jié)果Table 1 Results of spatial-temporal feature extraction networks under different strategies
從表1 中給出的結(jié)果可見(jiàn),僅使用三維卷積神經(jīng)網(wǎng)絡(luò)提取的特征(c3d)不能很好地反映水下特征,在相關(guān)系數(shù)上取得了最低的分值。SN 層能自適應(yīng)選擇正則化方式,緩解梯度消失問(wèn)題加快模型收斂,因此c3d-sn 方法加快了模型的訓(xùn)練,并大大提升了模型的性能,取得了比c3d 更好的效果。添加慢融合策略的c3d-sn-slow 加強(qiáng)了時(shí)間信息的學(xué)習(xí),使得時(shí)空維度的特征更豐富,能夠更準(zhǔn)確地反映視頻的質(zhì)量特征,因此取得了最佳的評(píng)價(jià)結(jié)果。
表1 中c3d-sn-slow 和c3d-sn-slow-rgb 的對(duì)比,顯示了輸入為灰度圖和RGB 三通道彩色圖對(duì)結(jié)果的影響。實(shí)驗(yàn)表明,RGB 彩色圖像和單通道灰度圖像對(duì)于視頻質(zhì)量的影響無(wú)顯著變化,但使用灰度圖可以減少模型參數(shù)的計(jì)算量,加快模型的訓(xùn)練速度,因此,本文在數(shù)據(jù)預(yù)處理中將RGB 圖轉(zhuǎn)化為灰度圖。
3.3.2 運(yùn)動(dòng)特征提取網(wǎng)絡(luò)性能分析
為了提取能夠反映水下視頻運(yùn)動(dòng)的特征,以光流場(chǎng)的幀流作為輸入,選擇二維卷積神經(jīng)網(wǎng)絡(luò)獲取其中的信息。實(shí)驗(yàn)對(duì)比了所設(shè)計(jì)網(wǎng)絡(luò)Motion Net 與經(jīng)典的二維特征提取網(wǎng)絡(luò)——AlexNet、VGG16、InceptionV1、ResNet18 和ResNet50,結(jié)果如表2 所示。
從表2 中可以知道,AlexNet、VGG16、Inception V1、ResNet18 等網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與主觀質(zhì)量評(píng)價(jià)的相關(guān)性均低于Motion Net(PLCC=0.822 0 和SROCC=0.825 6)。ResNet50 模型太過(guò)復(fù)雜,而所使用數(shù)據(jù)的量太小,導(dǎo)致模型不能很好地?cái)M合,得到了最低的相關(guān)性系數(shù)。
表2 不同網(wǎng)絡(luò)對(duì)于光流特征提取的對(duì)比結(jié)果Table 2 Comparison results of different networks for optical flow feature extraction
3.3.3 融合策略分析
在3.3.1 小節(jié)和3.3.2 小節(jié)中分別驗(yàn)證了時(shí)空特征和運(yùn)動(dòng)特征對(duì)于水下視頻質(zhì)量評(píng)價(jià)的有效性,本小節(jié)進(jìn)一步對(duì)時(shí)空特征和運(yùn)動(dòng)特征進(jìn)行融合,期望獲得更高精度的質(zhì)量評(píng)價(jià)模型。
在特征融合前,先以熱力圖的形式對(duì)兩個(gè)網(wǎng)絡(luò)提取的特征進(jìn)行直觀展示,如圖3 所示。圖3(a)中,左圖為Spatial-temporal Net 輸入視頻幀組中的一幀,右圖為第二個(gè)ConvBlock 塊中卷積層后輸出的特征圖;圖3(b)中,左圖為Motion Net 輸入的光流場(chǎng)圖,右圖為第二個(gè)卷積塊后輸出的特征圖。可以觀察到,時(shí)空特征圖關(guān)注了視頻空間上的細(xì)節(jié)特征以及部分時(shí)間信息(如變化的數(shù)字),而運(yùn)動(dòng)特征圖關(guān)注了視頻中主體對(duì)象的運(yùn)動(dòng)輪廓,二者具有一定的互補(bǔ)性。
圖3 特征圖Fig.3 Feature maps
本文對(duì)比了三種融合方式的效果:決策級(jí)平均融合(average decision fusion)、決策級(jí)線性融合(linear decision fusion)、特征級(jí)SVR融合(SVR feature fusion)。三種融合方式的比較結(jié)果如表3 所示。
表3 不同融合策略的PLCC 和SROCCTable 3 PLCC and SROCC of different integration strategies
從表3 中可以知道,特征級(jí)SVR 融合取得相關(guān)系數(shù)較低,決策級(jí)平均融合與決策級(jí)線性融合結(jié)果相近,決策級(jí)線性融合取得了最高的相關(guān)性系數(shù)(PLCC=0.866 4,SROCC=0.866 6)。同時(shí),線性融合的結(jié)果優(yōu)于未融合的結(jié)果。相較于Spatial-temporal Net 的結(jié)果,PLCC 提高了0.031 6,SROCC 提高了0.031 2;相較于光流特征提取網(wǎng)絡(luò)的結(jié)果PLCC 和SROCC 分別提高了0.044 4 和0.041 0。
3.3.4 運(yùn)動(dòng)特征對(duì)水下視頻質(zhì)量評(píng)價(jià)的影響
為進(jìn)一步驗(yàn)證基于光流圖的運(yùn)動(dòng)特征對(duì)水下視頻質(zhì)量評(píng)價(jià)的作用,在自然場(chǎng)景數(shù)據(jù)集上開展了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表4 所示,其中Spatial-temporal Net 代表只提取時(shí)空特征,Motion Net 代表只提取光流特征,Aggregate表示融合時(shí)空特征與光流特征。
表4 自然場(chǎng)景數(shù)據(jù)集上不同網(wǎng)絡(luò)模型的評(píng)價(jià)結(jié)果Table 4 Evaluation results of different networks on natural scene datasets
根據(jù)表4 中的相關(guān)系數(shù)PLCC 和SROCC 可知,在不同的自然場(chǎng)景數(shù)據(jù)集(ECVQ、EVVQ 和LIVE)中,時(shí)空特征(由Spatial-temporal Net 提取)對(duì)視頻質(zhì)量預(yù)測(cè)的貢獻(xiàn)遠(yuǎn)遠(yuǎn)大于運(yùn)動(dòng)特征(由Motion Net 提?。疫\(yùn)動(dòng)特征與時(shí)空特征相融合后也未能取得比原始僅時(shí)空特征更好的預(yù)測(cè)結(jié)果。但是,在水下數(shù)據(jù)集中,基于光流圖的運(yùn)動(dòng)特征與水下視頻質(zhì)量有很強(qiáng)的相關(guān)性(如表2 所示),且與時(shí)空特征結(jié)合后進(jìn)一步提高了模型預(yù)測(cè)精度,這說(shuō)明本文所設(shè)計(jì)的雙流網(wǎng)絡(luò)對(duì)于水下視頻質(zhì)量評(píng)價(jià)的有效性。
3.3.5 對(duì)比實(shí)驗(yàn)
(1)模型性能對(duì)比
為驗(yàn)證本文所提出的雙流水下視頻質(zhì)量評(píng)價(jià)模型的整體性能,與13 種目前最先進(jìn)的自然場(chǎng)景圖像/視頻質(zhì)量評(píng)價(jià)方法和水下場(chǎng)景的圖像/視頻質(zhì)量評(píng)價(jià)方法進(jìn)行了比較。其中,包括3 種針對(duì)水下圖像的質(zhì)量評(píng)價(jià)方法,2 種針對(duì)水下視頻的質(zhì)量評(píng)價(jià)方法,8 種針對(duì)自然場(chǎng)景的圖像/視頻的質(zhì)量評(píng)價(jià)方法。圖像質(zhì)量評(píng)價(jià)方法包括:通用彩色圖像的質(zhì)量評(píng)價(jià)方法CIQI 和CQE[33],基于NSS 特征的無(wú)參考空間域圖像質(zhì)量評(píng)價(jià)方法BRISQUE[34],針對(duì)水下彩色圖像質(zhì)量評(píng)價(jià)方法的線性模型UCIQE[17]和UIQM[18],基于深度學(xué)習(xí)的圖像質(zhì)量評(píng)價(jià)方法PCANet[8]和水下圖像質(zhì)量評(píng)價(jià)方法Guo[20]。視頻質(zhì)量評(píng)價(jià)方法包括:通用失真視頻的質(zhì)量評(píng)價(jià)方法VIIDEO[35]和V-BLIINDS[4],基于NVS 特征的水下視頻質(zhì)量評(píng)價(jià)方法Moreno-Roldán[19],基于統(tǒng)計(jì)和編碼特征的水下視頻質(zhì)量評(píng)價(jià)模型NR-UVQA[21],基于深度學(xué)習(xí)框架的視頻質(zhì)量評(píng)價(jià)模型V-MEON[12]和采用CNN+LSTM 相結(jié)合視頻質(zhì)量評(píng)價(jià)方法[13]。所有對(duì)比方法將在相同的水下視頻數(shù)據(jù)集中以隨機(jī)劃分的80%的訓(xùn)練集和20%的測(cè)試集重新訓(xùn)練,實(shí)驗(yàn)重復(fù)多次取平均值。所有的測(cè)試數(shù)據(jù)未出現(xiàn)在訓(xùn)練數(shù)據(jù)中,保證方法間的公平比較。需要說(shuō)明的是,V-MEON 方法是面向視頻失真類型判定和視頻質(zhì)量評(píng)分多任務(wù)的網(wǎng)絡(luò),根據(jù)不同的失真類型對(duì)視頻質(zhì)量損失的評(píng)價(jià)進(jìn)行了優(yōu)化。由于本文使用的水下視頻沒(méi)有相應(yīng)的失真類型標(biāo)簽,本文僅復(fù)現(xiàn)V-MEON 基于C3D 慢融合的特征學(xué)習(xí)網(wǎng)絡(luò)和質(zhì)量分?jǐn)?shù)預(yù)測(cè)的部分。對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。
從表5 中可知,大部分圖像質(zhì)量評(píng)價(jià)模型,如CIQI、CQE、UCIQE、UIQM 等,雖然是針對(duì)大氣圖像和水下圖像的質(zhì)量評(píng)價(jià)方法,但由于圖像和視頻存在顯著差異性,對(duì)于水下視頻質(zhì)量的評(píng)價(jià)都不能取得與主觀分?jǐn)?shù)很好的相關(guān)系數(shù)(PLCC<0.5),基于圖像統(tǒng)計(jì)特征的評(píng)價(jià)指標(biāo),如BRISQUE 能獲得相對(duì)較高的相關(guān)系數(shù),這說(shuō)明水下視頻質(zhì)量與自然場(chǎng)景下的統(tǒng)計(jì)特性有強(qiáng)關(guān)聯(lián)。視頻質(zhì)量評(píng)價(jià)模型中,除VIIDEO 方法最差外,總體上優(yōu)于圖像質(zhì)量評(píng)價(jià)模型,PLCC 和SROCC 相關(guān)系數(shù)均大于0.5,這表明僅依賴空間維度特征的圖像質(zhì)量評(píng)價(jià)不能充分表達(dá)視頻的質(zhì)量特征。
基于深度學(xué)習(xí)的方法,不論是圖像質(zhì)量評(píng)價(jià)模型Guo 和PCANet,還是視頻質(zhì)量評(píng)價(jià)模型V-MEON、CNN+LSTM 及本文方法,均取得較其他方法更好的結(jié)果。其中,Guo 的方法采用了VGG 和隨機(jī)森林相結(jié)合,在充分提取空間特征的情況下,用集成學(xué)習(xí)方法對(duì)決策進(jìn)行了優(yōu)化;V-MEON 模型直接學(xué)習(xí)視頻幀的時(shí)空聯(lián)合特征;CNN+LSTM 方法先使用預(yù)訓(xùn)練CNN 提取視頻幀的空間特征,再用LSTM 進(jìn)一步提取時(shí)間特征。本文方法在多重特征(時(shí)空和運(yùn)動(dòng)特征)學(xué)習(xí)和信息融合方面更優(yōu)秀。表5 中NR-UVQA方法同樣取得了很高的相關(guān)系數(shù),且方法較為簡(jiǎn)單,但該方法是否具有普適性待驗(yàn)證。
表5 14 種圖像、視頻質(zhì)量評(píng)價(jià)方法的結(jié)果Table 5 Results of 14 quality assessment methods for image and video
(2)泛化性能分析
為驗(yàn)證各類方法的泛化性能,選擇了五種視頻質(zhì)量評(píng)價(jià)方法,在自然場(chǎng)景的數(shù)據(jù)集ECVQ[29]、EVVQ[30]和LIVE[31-32]上分別做了實(shí)驗(yàn),結(jié)果如表6 所示。從表6 中可以看出,通用的視頻質(zhì)量評(píng)價(jià)方法VIIDEO 在ECVQ 和EVVQ 中表現(xiàn)較差,在LIVE 上表現(xiàn)較好,VBLIINDS 在ECVQ、EVVQ、LIVE 數(shù)據(jù)集中表現(xiàn)穩(wěn)定,且在LIVE 數(shù)據(jù)集上取得了最高的相關(guān)系數(shù)。NR-UVQA 方法在水下視頻質(zhì)量評(píng)價(jià)中獲得了很高的相關(guān)系數(shù),但在幾個(gè)自然場(chǎng)景數(shù)據(jù)集中表現(xiàn)不太穩(wěn)定。針對(duì)自然場(chǎng)景的V-MEON 方法在ECVQ、EVVQ 數(shù)據(jù)集上取得了最高的相關(guān)系數(shù),在LIVE 上表現(xiàn)一般。TS-UVQA 方法在三個(gè)自然場(chǎng)景數(shù)據(jù)集中都能表現(xiàn)穩(wěn)定,且在自然場(chǎng)景數(shù)據(jù)集中能夠取得和其他優(yōu)秀方法相近的結(jié)果。綜上所述,本文方法不僅適用于水下數(shù)據(jù)集,在自然場(chǎng)景數(shù)據(jù)集中也能取得和其他最優(yōu)秀方法相近的相關(guān)系數(shù)。
表6 自然場(chǎng)景數(shù)據(jù)集上的視頻質(zhì)量評(píng)價(jià)結(jié)果對(duì)比Table 6 Comparison of video quality assessment results on natural scene datasets
通過(guò)建立水下視頻客觀質(zhì)量評(píng)價(jià)模型,有利于解決自然場(chǎng)景質(zhì)量評(píng)價(jià)方法在水下場(chǎng)景中表現(xiàn)不適用性問(wèn)題,推動(dòng)當(dāng)前水下視頻質(zhì)量評(píng)價(jià)的優(yōu)化。本文針對(duì)水下視頻的質(zhì)量損失和視頻不穩(wěn)定性特點(diǎn),提出了一種面向水下視頻的客觀無(wú)參考質(zhì)量評(píng)價(jià)方法TS-UVQA。TS-UVQA 從時(shí)空維度、運(yùn)動(dòng)信息維度方面提取相關(guān)特征,利用三維卷積、自適應(yīng)正則化和慢融合策略從多視頻幀中提取時(shí)空特征,用二維卷積和自適應(yīng)正則化對(duì)光流場(chǎng)塊提取相關(guān)運(yùn)動(dòng)特征。使用決策級(jí)融合策略將時(shí)空特征和運(yùn)動(dòng)特征相融合,建立了能夠快速高效預(yù)測(cè)水下視頻質(zhì)量的評(píng)價(jià)模型,同時(shí)驗(yàn)證了光流圖對(duì)于水下視頻質(zhì)量評(píng)價(jià)的有效性。模型預(yù)測(cè)結(jié)果與主觀質(zhì)量評(píng)分取得了很高的相關(guān)性。
由于實(shí)驗(yàn)條件的限制,本文還存在許多不足。本文用于訓(xùn)練的數(shù)據(jù)集量比較小,不能涵蓋水下視頻各種各樣的情形,不能很好地評(píng)價(jià)極端環(huán)境下的水下視頻,如果有更大的數(shù)據(jù)量以供學(xué)習(xí),模型將取得更好的性能。下一步工作將深入研究水下視頻的特點(diǎn),優(yōu)化網(wǎng)絡(luò),提取更加能反映水下視頻質(zhì)量的特征,增強(qiáng)模型的性能。