譚婭婭,孔廣黔
貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng)550025
近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,各種視聽(tīng)設(shè)備充斥著人們的日常生活,視頻的分享傳輸也更加頻繁。高質(zhì)量視頻的需求也不斷增加。在壓縮和上傳視頻的過(guò)程中,視頻易受到損傷而導(dǎo)致視頻質(zhì)量下降,如丟包、模糊和高斯噪聲等損傷行為。因而,對(duì)視頻質(zhì)量進(jìn)行評(píng)價(jià)是非常必要的。視頻質(zhì)量評(píng)價(jià)(video quality assessment,VQA)是視頻服務(wù)系統(tǒng)中的重要技術(shù),在視頻編碼器性能評(píng)測(cè)、視頻質(zhì)量監(jiān)測(cè)方面有廣泛應(yīng)用,是為觀眾提供高質(zhì)量視頻的必要技術(shù)[1]。視頻質(zhì)量評(píng)價(jià)方法有兩種,一種是視頻主觀質(zhì)量評(píng)價(jià)方法,一種是視頻客觀質(zhì)量評(píng)價(jià)方法。又根據(jù)對(duì)原始視頻的依賴程度,視頻客觀質(zhì)量評(píng)價(jià)方法可以分為三種類型:全參考(full reference,F(xiàn)R)、部分參考(reduced reference,RR)和無(wú)參考(no reference,NR)。全參考需要依靠完整的原始視頻;部分參考需要依靠部分原始視頻;而無(wú)參考不需要依靠原始視頻,只需要針對(duì)失真視頻進(jìn)行評(píng)價(jià)。在許多實(shí)際情況中,由于難以獲得原始視頻,因而無(wú)參考視頻的評(píng)價(jià)方法具有重要的研究應(yīng)用價(jià)值,成為近年來(lái)視頻評(píng)價(jià)方面的研究熱點(diǎn)。
在科技快速發(fā)展、大數(shù)據(jù)爆發(fā)的當(dāng)下,VQA方法不再是以傳統(tǒng)的基于手工特征的方式進(jìn)行評(píng)估,基于深度學(xué)習(xí)的VQA 方法成為了大數(shù)據(jù)下的研究趨勢(shì)。并且隨著多媒體種類的增加,人類接收視覺(jué)信息的途徑也越來(lái)越多,視頻的種類也不再單一,出現(xiàn)了立體視頻、全方位視頻和虛擬現(xiàn)實(shí)(virtual reality,VR)視頻等多樣的視頻類型。單一的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的評(píng)價(jià)方法已不能滿足當(dāng)下情況,對(duì)其進(jìn)行技術(shù)擴(kuò)展使其達(dá)到更好的評(píng)估效果是非常必要的,開(kāi)展新型的網(wǎng)絡(luò)模型是打破瓶頸的必要手段。
本文通過(guò)分析近幾年來(lái)國(guó)內(nèi)外的基于深度學(xué)習(xí)的VQA方法,概括不同的卷積神經(jīng)網(wǎng)絡(luò)模型,了解視頻質(zhì)量評(píng)價(jià)現(xiàn)狀及未來(lái)發(fā)展趨勢(shì),為后續(xù)的研究提供參考資料。
視頻質(zhì)量評(píng)價(jià)是指通過(guò)特定的評(píng)價(jià)方法對(duì)兩段主體內(nèi)容相同的視頻信息的變化和失真進(jìn)行感知、衡量和評(píng)價(jià),在指導(dǎo)視頻編碼壓縮和視頻質(zhì)量監(jiān)控領(lǐng)域有重大應(yīng)用[2]。評(píng)價(jià)方法分為視頻主觀質(zhì)量評(píng)價(jià)方法和視頻客觀質(zhì)量評(píng)價(jià)方法兩種。視頻主觀質(zhì)量評(píng)價(jià)方法是讓觀測(cè)者對(duì)視頻質(zhì)量做出直觀判斷,主觀評(píng)分一般是由平均主觀得分(mean opinion score,MOS)或平均主觀得分差(difference of mean opinion score,DMOS)表示。主觀質(zhì)量評(píng)價(jià)方法雖然是最為準(zhǔn)確的評(píng)估方法,但是其結(jié)果容易受到多種因素影響且方法復(fù)雜。因此,大多采用易于實(shí)現(xiàn)的視頻客觀質(zhì)量評(píng)價(jià)方法??陀^質(zhì)量評(píng)價(jià)方法是計(jì)算機(jī)通過(guò)某些算法從人類的主觀評(píng)分角度出發(fā),從而預(yù)測(cè)給定視頻的評(píng)分,又根據(jù)對(duì)原始視頻的依賴程度,可將其分為三種類型:全參考、部分參考和無(wú)參考。根據(jù)是否引入深度學(xué)習(xí)方法,又可將其分為非深度學(xué)習(xí)的客觀評(píng)價(jià)方法和深度學(xué)習(xí)的客觀評(píng)價(jià)方法。如圖1所示,從主客觀兩方面對(duì)視頻質(zhì)量評(píng)價(jià)方法進(jìn)行分類,并列舉出典型的評(píng)估方法。
Fig.1 Classification of video quality assessment圖1 視頻質(zhì)量評(píng)價(jià)分類
主觀質(zhì)量評(píng)價(jià)方法是通過(guò)觀察者的評(píng)分歸一化來(lái)判斷視頻質(zhì)量。在ITURBT.500 建議書(shū)中,有主觀評(píng)價(jià)的相關(guān)標(biāo)準(zhǔn)。常用的評(píng)價(jià)方法有雙刺激損傷分級(jí)法(double stimulus impairment scale,DSIS)、雙刺激連續(xù)質(zhì)量評(píng)價(jià)法(double stimulus continuous quality scale,DSCQS)、單刺激方法(single stimulus methods,SSM)、單刺激連續(xù)質(zhì)量評(píng)價(jià)法(single stimulus continuous quality evaluation,SSCQE)等。其中DSIS 評(píng)價(jià)方法采用的是讓觀察者待在一個(gè)受控的環(huán)境中,連續(xù)觀看一定時(shí)間內(nèi)的多個(gè)測(cè)試序列對(duì),其中包括原始參考視頻和失真視頻。在每次觀看時(shí),先看原始參考視頻,再觀看失真視頻;然后采用五級(jí)評(píng)分方法(質(zhì)量尺度為優(yōu)、好、中、差、劣五類)讓觀察者對(duì)視頻序列的質(zhì)量進(jìn)行評(píng)分;最后求得MOS 來(lái)判斷視頻質(zhì)量并對(duì)所得數(shù)據(jù)進(jìn)行分析。
雖然主觀質(zhì)量評(píng)價(jià)是最為準(zhǔn)確的評(píng)估方法,但需要考慮多種因素,如觀測(cè)環(huán)境、觀測(cè)時(shí)長(zhǎng)、觀測(cè)距離以及觀看參考視頻和失真視頻的先后順序等因素,并且人類視覺(jué)系統(tǒng)易受到時(shí)間掩蔽效應(yīng)[3]的影響,即當(dāng)存在大運(yùn)動(dòng)時(shí),相對(duì)于運(yùn)動(dòng)物體不太明顯的色調(diào)、亮度等微小變化,人類是無(wú)法察覺(jué)的。而且在主觀質(zhì)量評(píng)價(jià)中需要大量的觀測(cè)人員以及專業(yè)化的實(shí)驗(yàn)環(huán)境,需要花費(fèi)大量的時(shí)間和費(fèi)用,成本較大,且不利于實(shí)施。因此,在實(shí)際情況中需要一種客觀的、易于實(shí)現(xiàn)的視頻客觀質(zhì)量評(píng)價(jià)方法。
客觀質(zhì)量評(píng)價(jià)方法是計(jì)算機(jī)根據(jù)算法計(jì)算出視頻質(zhì)量的量度。要求在相同的測(cè)試序列下,客觀評(píng)價(jià)的結(jié)果要與主觀評(píng)價(jià)的結(jié)果相一致,可以從預(yù)測(cè)的單調(diào)性、一致性、穩(wěn)定性和準(zhǔn)確性來(lái)衡量評(píng)價(jià)量度本身的優(yōu)劣。根據(jù)對(duì)原始參考視頻的依賴程度,客觀質(zhì)量評(píng)價(jià)法又可以分為三種類型:全參考、部分參考和無(wú)參考。如表1所示,從原理、不同點(diǎn)和代表性方法方面對(duì)三種類型進(jìn)行了對(duì)比。其代表性方法有基于運(yùn)動(dòng)的視頻保真度評(píng)價(jià)方法(motion-based video integrity evaluation,MOVIE)[4]、ST-MAD(spatiotemporal most-apparent-distortion)[5]、結(jié)構(gòu)相似度算法(structural similarity,SSIM)[6]和V-CORNIA(video codebookrepresentation for no-reference image assessment)[7]。
在傳統(tǒng)的質(zhì)量評(píng)估方法中,常常采用低復(fù)雜度且簡(jiǎn)單的均方誤差(mean square error,MSE)和峰值信噪比[8](peak signal to noise ratio,PSNR)等評(píng)價(jià)方法,但由于它們未能充分地考慮人眼的視覺(jué)特性,因而會(huì)導(dǎo)致客觀評(píng)價(jià)與實(shí)際視覺(jué)效果不一致的結(jié)果。隨后提出了基于人眼視覺(jué)特性(human visual system,HVS)仿生的算法以及支持向量機(jī)(support vector machine,SVM)方法[9]等,與MSE和PSNR相比,有了很大的改進(jìn),但依舊未能達(dá)到期望值。Seshadrinathan等人提出了MOVIE[4]方法,考慮視頻中的運(yùn)動(dòng)信息,獲得了較好的性能評(píng)價(jià),但在多數(shù)情況下難以獲得足夠的參考信息。Mittal 等人提出一種基于空間域自然視頻統(tǒng)計(jì)(natural video statistic,NVS)的模型[10],用于建模時(shí)空關(guān)系的感知相關(guān)特征;Saad等人[11]結(jié)合時(shí)空NVS和運(yùn)動(dòng)相關(guān)性提出了一個(gè)無(wú)參考的質(zhì)量評(píng)價(jià)方法,以此進(jìn)行質(zhì)量評(píng)估。隨后,以HVS 和NVS為基礎(chǔ)擴(kuò)展的評(píng)估方法[12-13],雖有較好的準(zhǔn)確率和響應(yīng)速度,但這些方法都需要大量的手工提取特征,且特征提取復(fù)雜、耗時(shí),難以做到無(wú)監(jiān)督學(xué)習(xí)。
總之,由于傳統(tǒng)方法的種種局限性,要使客觀質(zhì)量評(píng)價(jià)方法與主觀質(zhì)量評(píng)價(jià)方法結(jié)果達(dá)到一致是較為困難的。而隨著深度學(xué)習(xí)的發(fā)展,計(jì)算機(jī)視覺(jué)領(lǐng)域達(dá)到了新的高度,對(duì)于圖像和視頻的處理有很大的突破。由此,基于深度學(xué)習(xí)的更精確、更高效的VQA方法受到了更廣泛的關(guān)注。
深度學(xué)習(xí)網(wǎng)絡(luò)可以提取到高層次、高區(qū)分性的特征,更好地使主觀評(píng)價(jià)結(jié)果與客觀評(píng)價(jià)結(jié)果達(dá)到一致。在基于深度學(xué)習(xí)的質(zhì)量評(píng)估方法中,大多采用的是基于卷積神經(jīng)網(wǎng)絡(luò)的模型,例如Callet等人[14]首次提出將CNN應(yīng)用到客觀的VQA上,雖然只解決了對(duì)SSCQE 方法的預(yù)測(cè)問(wèn)題,但這是傳統(tǒng)方法向深度學(xué)習(xí)方法過(guò)渡的開(kāi)端。Kang 等人[15]提出了一種NR 圖像質(zhì)量評(píng)價(jià)(image quality assessment,IQA)方法,這是CNN 首次用于通用NR-IQA,是可視質(zhì)量評(píng)價(jià)方向的一大進(jìn)步。
然而,在VQA方面,2D-CNN主要是將視頻的一幀作為輸入,易忽略各幀之間的關(guān)聯(lián)信息,難以捕獲時(shí)間信息。而三維卷積神經(jīng)網(wǎng)絡(luò)(three-dimensional convolutional neural network,3D-CNN)以連續(xù)的多幀作為輸入,增加時(shí)間維度信息,能夠提取到更具表達(dá)性的特征。因此,3D-CNN 將更適合視頻分析處理。目前在視頻質(zhì)量評(píng)估方面,通??紤]全參考型和無(wú)參考型的兩種類型的評(píng)價(jià)方法;大多采用基于2DCNN 的方法和基于3D-CNN 的方法,其中2D-CNN要引入遷移學(xué)習(xí)及其他的時(shí)空特征提取技術(shù)來(lái)彌補(bǔ)其不足。
Table 1 Comparison of objective quality assessment methods表1 客觀質(zhì)量評(píng)價(jià)方法對(duì)比
在深度學(xué)習(xí)中,模型訓(xùn)練測(cè)試的前提條件就是必須具備極大的數(shù)據(jù)量。而全參考視頻評(píng)估方法必須提供完整的原始參考視頻與失真視頻進(jìn)行對(duì)比評(píng)估,但這往往是難以獲得的。一方面是因?yàn)?,現(xiàn)有的包含原始參考視頻、具有規(guī)范性且數(shù)據(jù)規(guī)模大的公開(kāi)視頻數(shù)據(jù)集較少;另一方面,自制視頻數(shù)據(jù)集需要高成本的代價(jià),人力、物力都是難以達(dá)到的。因此,全參考的評(píng)價(jià)方法雖然比無(wú)參考的評(píng)價(jià)方法更具有準(zhǔn)確性,但依舊存在由樣本數(shù)據(jù)不足引起的評(píng)估效果不佳等問(wèn)題。為解決此類問(wèn)題,大多模型采用遷移學(xué)習(xí),通過(guò)特征遷移,以圖像特征豐富視頻特征,或以遷移模型提高評(píng)估能力。
圖2 是基于深度學(xué)習(xí)的FR-VQA 方法的一般框架圖。FR-VQA 方法流程大致分為四個(gè)步驟:預(yù)處理、特征提取、特征融合和回歸模型。預(yù)處理部分對(duì)輸入的視頻數(shù)據(jù)進(jìn)行大小的歸一化,包括視頻數(shù)據(jù)的長(zhǎng)、寬和時(shí)間長(zhǎng)度。設(shè)置輸入形式,以一幀幀圖像作為輸入或是以連續(xù)幾秒的視頻塊作為輸入;特征提取部分以CNN 網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行卷積提取特征,在FR-VQA 方法中需各自提取原始參考視頻和失真視頻的時(shí)空特征;大多采用級(jí)聯(lián)的方式將參考視頻特征和失真視頻特征融合;最后以融合后的時(shí)空特征以及對(duì)應(yīng)原始參考視頻的MOS 作為回歸模型的輸入,回歸模型大多采用全連接層學(xué)習(xí)整體的感知質(zhì)量和目標(biāo)質(zhì)量分?jǐn)?shù)的非線性回歸關(guān)系;最后得到失真視頻的質(zhì)量分?jǐn)?shù)。以下對(duì)近年來(lái)的一些典型FRVQA方法進(jìn)行介紹。
Fig.2 FR-VQA method frame圖2 FR-VQA方法框架
由于樣本數(shù)據(jù)的不足對(duì)訓(xùn)練效果有很大的影響,而現(xiàn)今可用的包含原始參考視頻和失真視頻的VQA 數(shù)據(jù)庫(kù)中的樣本非常有限且分布不平衡,缺乏內(nèi)容豐富、失真程度多樣和標(biāo)簽平衡的失真視頻。對(duì)于樣本不足的情況,??紤]使用遷移學(xué)習(xí)或預(yù)處理等方式解決。如Zhang 等人[16]模仿基于特征的遷移學(xué)習(xí)框架,將失真的圖像和視頻轉(zhuǎn)移到一個(gè)共同潛在的特征空間中進(jìn)行預(yù)處理,以特征遷移來(lái)豐富失真樣本,有效解決了訓(xùn)練樣本和標(biāo)簽不足的情況。在池化后引入后處理技術(shù),可以有效抵消組間標(biāo)簽錯(cuò)誤造成的偏差。與其他網(wǎng)絡(luò)相比,預(yù)處理和后處理的引入,有效地減少了FR-VQA 指標(biāo)預(yù)測(cè)的不準(zhǔn)確標(biāo)簽的影響。然而,由于采用經(jīng)過(guò)交流分量系數(shù)(deformations of alternating current(AC component)coefficients,DAC)變形的視頻塊作為輸入,使得模型更具復(fù)雜性,但性能相比當(dāng)時(shí)其他模型較好。
另一方面,VQA的目的是準(zhǔn)確地衡量視頻內(nèi)容的人眼感知質(zhì)量。然而,現(xiàn)有的將視覺(jué)感知納入VQA的模型大多具有局限性,無(wú)法準(zhǔn)確、高效地將人眼視覺(jué)感知納入到模型中。考慮到這一問(wèn)題,Kim等人提出了DeepVQA[17]。通過(guò)CNN 和卷積神經(jīng)聚合網(wǎng)絡(luò)(convolutional neural aggregation network,CNAN)來(lái)量化時(shí)空視覺(jué)感知。借鑒了“注意力機(jī)制”的思想[18-19],提出CNAN 來(lái)對(duì)每一幀的預(yù)測(cè)質(zhì)量分?jǐn)?shù)進(jìn)行加權(quán),在時(shí)間池化方法中考慮了預(yù)測(cè)分?jǐn)?shù)的整體分布,而非單一幀的質(zhì)量分?jǐn)?shù),以此提高模型的評(píng)估效果。與未使用CNAN 的模型對(duì)比,使用了CNAN 的模型提高了整體預(yù)測(cè)的性能。然而,2D 卷積難以很好地保留時(shí)域信息。為了能夠更好地捕獲視頻時(shí)間特征,提出了以3D卷積來(lái)處理視頻信息。如Xu等人提出了C3DVQA(convolutional neural network with 3D kernels(C3D)for video quality assessment)方法[20]。使用3D卷積學(xué)習(xí)時(shí)空特征,捕獲視頻的時(shí)間掩蔽效應(yīng),模擬HVS 的質(zhì)量評(píng)估過(guò)程。3D 卷積的引入提高了模型的性能,但需在更大規(guī)模的數(shù)據(jù)庫(kù)中進(jìn)行推廣,進(jìn)行更全面的實(shí)驗(yàn),驗(yàn)證模型性能。Li 等人認(rèn)為物體的運(yùn)動(dòng)將影響人類的視覺(jué)體驗(yàn)[21],創(chuàng)新性地提出評(píng)估復(fù)雜運(yùn)動(dòng)場(chǎng)景中人體運(yùn)動(dòng)質(zhì)量的3D-CNN 網(wǎng)絡(luò)模型。使用特征映射圖提取參考視頻和失真視頻的局部相似度,最后結(jié)合權(quán)重以獲得整體圖像質(zhì)量分?jǐn)?shù)。作為全參考模型,其評(píng)估效果一般,其原因可能是只考慮了物體運(yùn)行時(shí)的質(zhì)量效果,物體運(yùn)動(dòng)過(guò)程中帶有了許多不確定性,難以全面處理。其模型性能還需通過(guò)數(shù)據(jù)預(yù)處理來(lái)提高,可參考文獻(xiàn)[20]中的以參考幀與失真幀之間的殘差幀為輸入,通過(guò)增加不同類型的輸入來(lái)獲得更多的特征。
FR-VQA 方法雖能使用2D-CNN 和3D-CNN 網(wǎng)絡(luò)達(dá)到良好的評(píng)估效果,但由于現(xiàn)有的原始參考視頻數(shù)據(jù)庫(kù)少,并且難以獲得,2D-CNN 模型雖能采用遷移學(xué)習(xí)的方法解決樣本不足問(wèn)題,但引入的預(yù)訓(xùn)練模型也導(dǎo)致模型訓(xùn)練中參數(shù)過(guò)多,且未能充分利用到時(shí)域信息;使用了3D 卷積的FR-VQA 方法雖能達(dá)到很好的評(píng)估效果,但泛化能力有待評(píng)估,且在實(shí)際應(yīng)用中沒(méi)有原始參考視頻進(jìn)行對(duì)比,致使全參考型模型并不適用。由于這些局限性,導(dǎo)致全參考型方法并不實(shí)用,因而無(wú)需參考原始視頻的無(wú)參考型評(píng)價(jià)方法得到了更多關(guān)注,具有更大的研究應(yīng)用價(jià)值。
NR-VQA 方法又稱為盲視頻質(zhì)量評(píng)價(jià)(blind video quality assessment,BVQA),無(wú)需提供原始參考視頻,只需根據(jù)失真視頻的自身特征估計(jì)視頻質(zhì)量。與FR-VQA 相比,NR-VQA 提供了更大的可能性,且現(xiàn)今的評(píng)估方法大多針對(duì)通用的失真類型。因而NR-VQA 方法最具實(shí)用價(jià)值,有著非常廣泛的應(yīng)用范圍。圖3 是基于深度學(xué)習(xí)的NR-VQA 方法的一般框架結(jié)構(gòu)圖。NR-VQA 方法與FR-VQA 方法流程相似,只是去掉了參考視頻的特征提取和特征融合部分。
Fig.3 NR-VQA method frame圖3 NR-VQA方法框架
現(xiàn)有的NR-VQA方法還面臨著一些問(wèn)題:(1)在一些數(shù)據(jù)庫(kù)中,訓(xùn)練樣本不均衡,數(shù)量不足;對(duì)于一些特殊的視頻類型,如VR 視頻類型,難以得到其數(shù)據(jù)庫(kù),需要自己手動(dòng)創(chuàng)建。(2)視頻的失真類型多樣,而標(biāo)準(zhǔn)NR-VQA 是專為特定類型的失真而設(shè)計(jì)的,具有局限性,缺乏通用性。(3)對(duì)于自然失真視頻數(shù)據(jù)庫(kù),難以達(dá)到較好的評(píng)估結(jié)果。下文將NR-VQA模型分為基于2D-CNN 的方法和基于3D-CNN 的方法兩部分進(jìn)行介紹。
2.2.1 基于2D-CNN的方法
在2D-CNN 中,卷積只能表示二維的特征圖,每進(jìn)行一次二維解算操作,時(shí)域信息就會(huì)丟失。一般的CNN 并不適合處理具有三維時(shí)空規(guī)律的視頻,即使以視頻塊作為輸入,也很難得到適中的評(píng)估效果,并且樣本的缺乏使得網(wǎng)絡(luò)難以訓(xùn)練。因此,在基于深度學(xué)習(xí)的VQA中,大多采用經(jīng)過(guò)預(yù)訓(xùn)練的CNN模型結(jié)構(gòu)和其他技術(shù)組合的方法進(jìn)行質(zhì)量評(píng)估。
在視頻質(zhì)量評(píng)價(jià)中,設(shè)計(jì)一個(gè)對(duì)于任何失真類型都適用,且能保證與人類主觀視覺(jué)感知一致的算法模型是非常必須的。如Li 等人提出了SACONVA(shearlet-and CNN-based NR-VQA)[22]方法,啟發(fā)靈感來(lái)源于NR-IQA[23]??紤]到將視頻視為靜態(tài)圖像,以一幀幀圖像作為輸入并不能有效提取時(shí)間運(yùn)動(dòng)信息的問(wèn)題,此算法以視頻塊為輸入,通過(guò)三維剪切波變換提取時(shí)空特征,三維剪切波變換可以有效處理時(shí)域信息,其稀疏性質(zhì)可改進(jìn)算法的評(píng)估能力。然后經(jīng)過(guò)平均池化得到相應(yīng)的特征向量,再利用CNN 網(wǎng)絡(luò)和邏輯回歸用于預(yù)測(cè)視頻質(zhì)量。此算法為VQA方法提供了一個(gè)利用通用CNN 的范例,并證明了在盲視頻降噪等實(shí)際情況中的應(yīng)用。然而,該算法雖然與人類的視覺(jué)感知有著良好的相關(guān)性,但依然存在訓(xùn)練失真視頻的數(shù)量有限和標(biāo)簽不均衡等問(wèn)題,限制了算法的性能、魯棒性和泛化能力。由此,Wang等人[24]提出將視頻中的時(shí)空特征分開(kāi)提取,一是利用CNN 學(xué)習(xí)幀級(jí)的空間質(zhì)量特征,二是利用自然場(chǎng)景統(tǒng)計(jì)特性(natural scene statistics,NSS)[11]捕獲時(shí)間運(yùn)動(dòng)特征;最后考慮到人的心理感知,訓(xùn)練一個(gè)多元回歸模型來(lái)決定最終的視頻質(zhì)量。在當(dāng)時(shí)條件下,該方法優(yōu)于其他NR-VQA方法。但在時(shí)間特征的提取方面引入了手工特征提取,且將時(shí)空特征分為空間特征和時(shí)間特征進(jìn)行提取再融合,這并不利于時(shí)空特征的充分提取。Ahn等人提出DeepBVQA方法[25]。引入遷移學(xué)習(xí),由經(jīng)過(guò)預(yù)訓(xùn)練的CNN 提取每個(gè)視頻中的空間線索,采用手工提取方法提取時(shí)間線索特征。算法性能只是相關(guān)性值略高于其他VQA 模型。整體上,算法的性能并不好,且引入了手工特征提取。文獻(xiàn)[24]和文獻(xiàn)[25]都是半深度學(xué)習(xí)方法,都需要擺脫手工提取時(shí)間特征。文獻(xiàn)[26]中也引入了遷移學(xué)習(xí),從經(jīng)過(guò)預(yù)訓(xùn)練的CNN中獲得特征,但未使用手工提取方法提取特征,而是結(jié)合了時(shí)間池化方法進(jìn)行特征信息融合,最后以支持向量回歸(support vector regressor,SVR)映射到質(zhì)量得分上。遷移學(xué)習(xí)的引用彌補(bǔ)了樣本的不足,改善了模型訓(xùn)練效果。
另一方面,有效提取自然視頻中的時(shí)空特征有利于訓(xùn)練算法的性能,得到更好的結(jié)果??紤]到一些NR-VQA 算法難以有效、全面地提取自然視頻的三維時(shí)空特征。Zhang等人[27]以FR-VQA度量得出視頻塊的弱標(biāo)簽和相應(yīng)的主要特征作為輸入,以此豐富訓(xùn)練集;引入模型遷移,利用預(yù)訓(xùn)練的CNN 模型,且為提高從失真視頻到質(zhì)量分?jǐn)?shù)的映射函數(shù)性能,應(yīng)用重采樣策略生成將深層特征映射到質(zhì)量得分的回歸函數(shù)。算法采用多種方法來(lái)豐富樣本和提高評(píng)估性能,取得了較高的精確度。但依舊存在問(wèn)題:訓(xùn)練樣本不均衡,數(shù)量不足,遷移樣本由人工選擇以及FR-VQA指標(biāo)產(chǎn)生的弱標(biāo)簽引入了噪聲。Utke等人[28]以具有主觀質(zhì)量評(píng)估能力的視頻多方法評(píng)估融合[29-30](video multimethod assessment fusion,VMAF)模型為參考,通過(guò)組合多個(gè)基本質(zhì)量指標(biāo)來(lái)預(yù)測(cè)主觀質(zhì)量。VMAF 模型采用三個(gè)基本指標(biāo):衡量空間特征的視覺(jué)信息保真度[31]、細(xì)節(jié)丟失指標(biāo)[32]以及具有時(shí)間特性的運(yùn)動(dòng)量。以SVM將這三個(gè)基本指標(biāo)融合為一個(gè)最終指標(biāo),并為每個(gè)基本指標(biāo)分配一定的權(quán)重,保留指標(biāo)的評(píng)價(jià)優(yōu)勢(shì),從而獲得更精確的評(píng)估分?jǐn)?shù),分?jǐn)?shù)范圍在[0,100],分?jǐn)?shù)越高質(zhì)量越好,其評(píng)估結(jié)果與最終人眼感知達(dá)到完全線性正相關(guān)關(guān)系。然后再利用經(jīng)過(guò)預(yù)訓(xùn)練的DenseNet[33]網(wǎng)絡(luò)對(duì)游戲視頻流中的質(zhì)量進(jìn)行評(píng)估。然而,此方法的計(jì)算量大,不利于實(shí)施,勝在創(chuàng)新性地對(duì)游戲視頻流進(jìn)行評(píng)估,有巨大的前景需求。
考慮到VQA 模型的一個(gè)主要目的就是要在自然失真視頻數(shù)據(jù)庫(kù)上達(dá)到優(yōu)良的效果。但大多模型都只能在人為制造的失真視頻上達(dá)到良好效果,在自然失真視頻數(shù)據(jù)庫(kù)上難以達(dá)到好的結(jié)果。由此,Varga 等人提出了一種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和CNN 的通用算法[34]。這是第一個(gè)基于自然視頻質(zhì)量數(shù)據(jù)庫(kù)的深層架構(gòu)。比較創(chuàng)新的是,它將視頻序列作為CNN 提取的深度特征的時(shí)間序列,利用經(jīng)過(guò)預(yù)訓(xùn)練后的CNN 模型提取幀級(jí)深度特征,以此作為L(zhǎng)STM 網(wǎng)絡(luò)的輸入,訓(xùn)練兩層的LSTM 網(wǎng)絡(luò)和一層全連接層來(lái)預(yù)測(cè)質(zhì)量分?jǐn)?shù)。利用LSTM 網(wǎng)絡(luò)學(xué)習(xí)感知質(zhì)量預(yù)測(cè)的長(zhǎng)期依賴關(guān)系,可以有效地發(fā)現(xiàn)在NR-VQA 中可能有用的長(zhǎng)期時(shí)間關(guān)系。算法在具有真實(shí)自然失真序列的KoNViD-1k[35]視頻數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練,其性能略優(yōu)于當(dāng)時(shí)最先進(jìn)的方法。與文獻(xiàn)[34]相似,Li等人[36]使用具有門(mén)控制的遞歸神經(jīng)網(wǎng)絡(luò)(gated recurrent neural network,GRU)對(duì)時(shí)間記憶進(jìn)行建模,以學(xué)習(xí)感知質(zhì)量的長(zhǎng)期依賴關(guān)系,并在自然失真數(shù)據(jù)庫(kù)中驗(yàn)證了方法的有效性。
以上2D-CNN結(jié)構(gòu)的網(wǎng)絡(luò)模型,大多引入遷移學(xué)習(xí),采用經(jīng)過(guò)預(yù)訓(xùn)練后的CNN模型ResNet-50、VGG-16、Inception-V3 和AlexNet 等網(wǎng)絡(luò),以此來(lái)提高模型的評(píng)估能力。特征遷移和模型遷移的引入雖能彌補(bǔ)訓(xùn)練樣本過(guò)少的問(wèn)題,提高算法性能和速度,但網(wǎng)絡(luò)中的卷積操作并不能很好地反映幀與幀之間的時(shí)序關(guān)系。對(duì)于難以捕獲時(shí)間信息的問(wèn)題,一些方法或多或少地引入人工提取特征,這并不高效;或通過(guò)三維剪切波變換等技術(shù)來(lái)高效提取時(shí)空特征,以提取到的多方位、多角度的時(shí)空特征映射到最終的質(zhì)量得分回歸函數(shù),通過(guò)增加特征的方式來(lái)提升模型的評(píng)估能力。而對(duì)于文獻(xiàn)[34,36]提出的方法,以循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)解決時(shí)序問(wèn)題,通過(guò)充分利用時(shí)間信息提取特征來(lái)提高模型性能。且在自然失真視頻數(shù)據(jù)庫(kù)上得到驗(yàn)證,并取得較好的效果。為應(yīng)對(duì)自然失真的實(shí)際情況,模型的泛化能力還需提高。未來(lái)可能更加關(guān)注遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)模型的研究。綜上,在基于CNN的方法中加入其他技術(shù)進(jìn)行輔助能很好地應(yīng)用在質(zhì)量評(píng)估上,有效改善2D卷積上時(shí)域信息丟失問(wèn)題,但數(shù)據(jù)預(yù)處理方面并不簡(jiǎn)單,依舊存在未能充分利用時(shí)間信息的問(wèn)題。
2.2.2 基于3D-CNN的方法
在2D-CNN中,卷積僅從空間維度計(jì)算特征。而在視頻處理問(wèn)題上,為了能夠捕獲到多個(gè)連續(xù)幀中的運(yùn)動(dòng)信息,提出用3D卷積來(lái)計(jì)算空間和時(shí)間維度特征。與2D卷積不同,3D卷積中的輸入圖像多了一個(gè)時(shí)間維度,這個(gè)維度可以是視頻上的連續(xù)幀,也可以是立體圖像中的不同切片。3D卷積通過(guò)堆疊多個(gè)連續(xù)幀,從而組成一個(gè)立方體,然后在立方體中運(yùn)用3D 卷積核[37]。在整個(gè)卷積過(guò)程中,都是使用同一種卷積核,也就是權(quán)值共享。在輸出上,2D卷積的結(jié)果是一張包含高和寬的特征圖,而3D卷積的結(jié)果是一個(gè)包含高、寬和時(shí)間維度的立方體。如圖4 所示[37],對(duì)比了2D卷積和3D卷積操作,其中H、W表示輸入圖像的高度和寬度,K×K表示卷積核的大小,L可以視為L(zhǎng)幀的視頻,d為卷積核的深度。
由于3D 卷積可以有效保留時(shí)間信息,將更適于視頻分析。例如Liu 等人提出了視頻多任務(wù)端到端優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)(video multi-task end-to-end optimized neural network,V-MEON)[38]方法。啟發(fā)來(lái)源于對(duì)于圖像的質(zhì)量評(píng)價(jià)方法MEON(multi-task endto-end optimized neural network)[39],將特征提取部分和回歸部分共同優(yōu)化,可預(yù)測(cè)最終的質(zhì)量分?jǐn)?shù)。特征提取部分中將2D卷積改為3D卷積,有利于時(shí)空特征的提取,并且利用慢融合結(jié)構(gòu)的濾波器捕獲了更多的時(shí)空信息。評(píng)價(jià)結(jié)果表明,此方法比當(dāng)時(shí)最先進(jìn)的通用BVQA 模型性能更好,具有評(píng)估增強(qiáng)視頻感知質(zhì)量的潛力,有助于改進(jìn)視頻增強(qiáng)算法。再如Hou等人提出一種三維深度卷積神經(jīng)網(wǎng)絡(luò)[40]。網(wǎng)絡(luò)模型由經(jīng)過(guò)預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)前12層和一個(gè)3D-CNN架構(gòu)組成,前者使用卷積操作提取視頻內(nèi)部每一幀的質(zhì)量敏感特征,后者以3D卷積充分提取時(shí)空特征,最后利用全連接層進(jìn)行回歸操作對(duì)視頻質(zhì)量進(jìn)行評(píng)估。采用基于bin 的平均池化,有效防止過(guò)擬合,且方便提取特征的卷積結(jié)構(gòu)并加快收斂速度。算法性能結(jié)果優(yōu)于當(dāng)時(shí)的其他NR-VQA 方法,甚至優(yōu)于某些流行的FR-IQA方法。
另一方面,現(xiàn)有的視頻類型多種多樣,立體視頻、全方位視頻和VR 視頻等多角度、全方位的視頻已經(jīng)大規(guī)模地出現(xiàn)在人們的生活中,因此,對(duì)于不同視頻類型的質(zhì)量評(píng)價(jià)研究也是非常必要的。不同于平常的二維視頻,這些類型的視頻更加復(fù)雜、多樣,一般的VQA 方法難以進(jìn)行。但是,使用3D-CNN 模型也能進(jìn)行準(zhǔn)確的評(píng)估,例如Yang 等人提出基于3D-CNN 的立體視頻質(zhì)量評(píng)估(stereoscopic video quality assessment,SVQA)框架[41],是首個(gè)將3D-CNN應(yīng)用到評(píng)估立體視頻質(zhì)量的方法。使用三次差分視頻塊作為輸入,能夠有效地建模局部的時(shí)空信息和全局的時(shí)間信息。設(shè)計(jì)3D-CNN 架構(gòu)來(lái)自動(dòng)有效地捕捉局部空間特征,比通過(guò)手工提取的特征更準(zhǔn)確、更方便;且不需要復(fù)雜的預(yù)處理和GPU加速,計(jì)算效率高,易于使用。再如Yang等人提出針對(duì)VR視頻的基于3D-CNN的端到端網(wǎng)絡(luò)框架[42],由于數(shù)據(jù)庫(kù)的缺少,建立了一種VR 質(zhì)量評(píng)價(jià)的免費(fèi)可用數(shù)據(jù)集(VRQ-TJU);將VR視頻的局部時(shí)空特征與質(zhì)量分?jǐn)?shù)融合策略相結(jié)合,從而得到視頻的客觀預(yù)測(cè)分?jǐn)?shù)。此方法是首個(gè)利用3D-CNN 來(lái)評(píng)估VR 視頻質(zhì)量的方法,無(wú)需復(fù)雜的預(yù)處理。算法的結(jié)果與主觀質(zhì)量評(píng)價(jià)結(jié)果一致。由于只是在自建的數(shù)據(jù)庫(kù)上訓(xùn)練,因此實(shí)驗(yàn)缺乏豐富性。Wu 等人也提出一種基于自建數(shù)據(jù)庫(kù)的虛擬現(xiàn)實(shí)質(zhì)量評(píng)價(jià)方法[43]。使用3D-CNN來(lái)預(yù)測(cè)虛擬現(xiàn)實(shí)視頻的質(zhì)量,采用不同的質(zhì)量分?jǐn)?shù)策略得到最終的分?jǐn)?shù)。結(jié)果表明,該方法比傳統(tǒng)方法具有更好的性能,并且結(jié)合權(quán)重后的網(wǎng)絡(luò)性能更好。
文獻(xiàn)[42]中視頻質(zhì)量評(píng)價(jià)的3D-CNN 結(jié)構(gòu)圖如圖5所示,其框架由兩個(gè)3D卷積層C1、C2,兩個(gè)3D池層S1、S2 和兩個(gè)全連接層FC1、FC2 組成。以10個(gè)圖像補(bǔ)丁組成的32×32大小的視頻補(bǔ)丁為輸入,無(wú)需人工提取特征;第一層是3D 卷積層,對(duì)輸入采用3×3×2的卷積核進(jìn)行卷積,輸出50個(gè)大小為30×30×9的三維特征圖;第二層采用大小為3×3×3卷積核進(jìn)行最大池化,得到50 個(gè)10×10×3 的三維特征圖;第三、四層依次進(jìn)行卷積、池化;第五、六層采用全連接層;最后,采用質(zhì)量分?jǐn)?shù)融合策略解決VR視頻中的空間分布不均勻問(wèn)題,輸出為512維特征向量以及最終的客觀質(zhì)量分?jǐn)?shù)。作為首個(gè)應(yīng)用于VR 視頻質(zhì)量評(píng)價(jià)的3D-CNN 模型,由于缺少VR 視頻數(shù)據(jù)庫(kù),因而在自建的VRQ-TJU 數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練。對(duì)于全方位、多角度的VR視頻,模型的輸入只是進(jìn)行了簡(jiǎn)單視頻大小劃分的預(yù)處理,未進(jìn)行復(fù)雜的特征變化處理。且模型結(jié)構(gòu)簡(jiǎn)易,最終取得了與主觀質(zhì)量評(píng)價(jià)一致的結(jié)果。但數(shù)據(jù)庫(kù)的缺乏,難以評(píng)估模型的泛化能力。
Fig.4 Comparison between 2D convolution and 3D convolution operation圖4 2D卷積與3D卷積操作對(duì)比
Fig.5 3D-CNN structure diagram圖5 3D-CNN結(jié)構(gòu)圖
與2D-CNN相比,3D-CNN在處理視頻方面有更大的優(yōu)勢(shì)。3D卷積的網(wǎng)絡(luò)模型充分保留了輸入的時(shí)間信息,在訓(xùn)練中提取到了更全面、更可靠的時(shí)空特征,由此提升了模型的評(píng)估能力。且訓(xùn)練過(guò)程中無(wú)需復(fù)雜的預(yù)處理和高速運(yùn)算,有更高的計(jì)算效率且易實(shí)現(xiàn)。因此,3D 卷積更適于視頻分析。并且對(duì)于復(fù)雜的、多樣化的VR視頻等,3D-CNN模型也能很好地進(jìn)行訓(xùn)練評(píng)估,但由于缺少內(nèi)容豐富的視頻數(shù)據(jù)庫(kù),其泛化能力需加強(qiáng)研究,且在自然失真視頻數(shù)據(jù)庫(kù)上的評(píng)估效果不佳,其研究還待加強(qiáng)。未來(lái),對(duì)于適合視頻處理的3D-CNN模型或?qū)⒌玫礁嗟年P(guān)注。
在視頻質(zhì)量評(píng)價(jià)研究中,建立失真類型多樣、內(nèi)容豐富且包含MOS評(píng)分的視頻數(shù)據(jù)庫(kù)是視頻質(zhì)量評(píng)價(jià)研究中不可缺少的一部分。而現(xiàn)有的視頻數(shù)據(jù)庫(kù)多種多樣,常用的視頻數(shù)據(jù)庫(kù)有LIVE[44]、CSIQ[45]、IVP[46]和KoNViD-1k[35]等。對(duì)于其他類型的視頻,也有相應(yīng)的數(shù)據(jù)庫(kù)。在全方位視頻數(shù)據(jù)庫(kù)方面,有頭部運(yùn)動(dòng)(HM)數(shù)據(jù)庫(kù)[47-48],也有包括HM數(shù)據(jù)和眼部運(yùn)動(dòng)(EM)數(shù)據(jù)的數(shù)據(jù)庫(kù)[49]。在立體視頻方面,有CornellA57[50]、VQEG[51]、NAMA3DS1[52]等立體視頻數(shù)據(jù)庫(kù),包括了原始立體視頻和失真立體視頻以及MOS評(píng)分。在此僅介紹部分視頻數(shù)據(jù)庫(kù)。
(1)LIVE數(shù)據(jù)庫(kù)[44]:10個(gè)參考原始視頻和150個(gè)失真視頻。4 種失真類型:Wireless 壓縮失真、IP 失真、H.264 壓縮失真和MPEG-2 壓縮失真。每段視頻對(duì)應(yīng)一個(gè)DMOS得分,分值范圍為[0,100],分?jǐn)?shù)越高,視頻質(zhì)量越差。
(2)CSIQ數(shù)據(jù)庫(kù)[45]:12個(gè)參考原始視頻和216個(gè)失真視頻。6種失真類型:H.264/AVC壓縮失真、具有丟包率的H.264 視頻、MJPEG 壓縮失真、小波壓縮失真、白噪聲和HEVC 壓縮失真。每段視頻對(duì)應(yīng)一個(gè)DMOS得分,分值范圍為[0,100],分?jǐn)?shù)越高,視頻質(zhì)量越差。
(3)MCLV數(shù)據(jù)庫(kù)[53]:12個(gè)參考原始視頻和96個(gè)失真視頻。兩種類型的壓縮失真:具有4個(gè)不同質(zhì)量等級(jí)的原始視頻的H.264/AVC 壓縮失真和具有4 個(gè)質(zhì)量等級(jí)的縮小原始視頻的H.264/AVC 壓縮失真。所有失真的視頻都提供MOS 得分的平均值和MOS得分的偏差。
(4)VQA-ODV數(shù)據(jù)庫(kù)[54]:由600個(gè)全向序列的主觀評(píng)分、HM 數(shù)據(jù)和EM 數(shù)據(jù)組成的大規(guī)模全向視頻VQA 數(shù)據(jù)庫(kù)。600 個(gè)序列中包括60 個(gè)參考序列和540 個(gè)受損序列,它們?cè)趦?nèi)容、持續(xù)時(shí)間和分辨率上都存在差異,壓縮和地圖投影都存在缺陷。
(5)VRQ-TJU 數(shù)據(jù)庫(kù)[42]:13 個(gè)參考VR、104 個(gè)對(duì)稱失真VR 和260 個(gè)非對(duì)稱失真VR 和相關(guān)MOS 組成。是針對(duì)VR視頻質(zhì)量評(píng)價(jià)構(gòu)建的VR數(shù)據(jù)庫(kù)。
客觀視頻質(zhì)量評(píng)價(jià)方法的性能指標(biāo)使用最廣泛的是Pearson 線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC)、Spearman秩序相關(guān)系數(shù)(Spearman rank-order correlation coefficient,SROCC)、Kendall秩序相關(guān)系數(shù)(Kendall rank-order correlation coefficient,KROCC)和均方根誤差(root mean square error,RMSE),它們常常用于測(cè)量?jī)蓚€(gè)變量之間的相關(guān)程度。
Pearson線性相關(guān)系數(shù)用于預(yù)測(cè)值與主觀評(píng)分之間的相關(guān)性,其計(jì)算值的范圍在0 到1 之間,相關(guān)性值越大,性能越好。計(jì)算公式如下:
其中,N表示失真視頻的數(shù)量,Ai表示第i個(gè)視頻的主觀評(píng)價(jià)分?jǐn)?shù),Bi表示通過(guò)客觀評(píng)價(jià)模型得到的第i個(gè)視頻的質(zhì)量預(yù)測(cè)分?jǐn)?shù),Aˉ和Bˉ分別表示主觀預(yù)測(cè)值和客觀預(yù)測(cè)值的均值。
均方根誤差用于衡量算法的準(zhǔn)確性,準(zhǔn)確性值越小,表明誤差越小,模型性能越好。計(jì)算公式如下:
Spearman 秩序相關(guān)系數(shù)和Kendall 秩序相關(guān)系數(shù)用于衡量算法的單調(diào)性,單調(diào)性值越大,性能越好。計(jì)算公式如下:
其中,Di表示第i個(gè)失真視頻的主觀評(píng)價(jià)值與客觀預(yù)測(cè)值之間的差異,Nc代表數(shù)據(jù)序列中序號(hào)對(duì)一致的個(gè)數(shù),Nd代表數(shù)據(jù)序列中序號(hào)不一致的個(gè)數(shù)。
統(tǒng)計(jì)各算法在不同數(shù)據(jù)庫(kù)上的Pearson線性相關(guān)系數(shù)(PLCC)和Spearman 秩序相關(guān)系數(shù)(SROCC)的值,PLCC 和SROCC 分別衡量算法的相關(guān)性和單調(diào)性。整體過(guò)程:對(duì)比數(shù)據(jù)由各自算法提供,數(shù)據(jù)不全且未開(kāi)源的算法模型不參與對(duì)比。未命名的算法以其開(kāi)頭作者名代替,每項(xiàng)數(shù)值保留小數(shù)點(diǎn)后三位,性能最好的算法數(shù)值用加粗標(biāo)出。算法針對(duì)的失真類型都是混合型失真,即算法對(duì)數(shù)據(jù)庫(kù)中所有類型的失真進(jìn)行隨機(jī)訓(xùn)練,而非對(duì)某一類失真類型進(jìn)行單獨(dú)訓(xùn)練。算法中若進(jìn)行了多種情況的比較,選擇效果最好的一次加入對(duì)比,所選數(shù)據(jù)庫(kù)有LIVE、CSIQ和KoNViD-1k。
如表2 所示,比較了全參考型算法和無(wú)參考型算法在三個(gè)視頻數(shù)據(jù)庫(kù)上訓(xùn)練的效果。為更直觀地進(jìn)行比較,在全參考型算法中加入典型的PSNR、MOVIE[4]和STMAD[5]算法進(jìn)行對(duì)比。特別地,引入了最新的STS(space-time slices)類算法[55],此算法以參考視頻和失真視頻的各類特征圖為輸入,如邊緣增強(qiáng)圖、幀差異圖和相對(duì)梯度量圖等,使用典型的IQA 模型(PSNR、SSIM[56]和視覺(jué)信息保真度算法(visual information fidelity,VIF)[57])對(duì)視頻質(zhì)量進(jìn)行訓(xùn)練,由此有三種算法STS-PSNR、STS-SSIM和STSVIF。在無(wú)參考型算法加入典型的V-BLIINDS(video blind image integrity notator using discrete cosine transform statistics)[11]和V-CORNIA[7]算法進(jìn)行對(duì)比。
如表2 所示,與傳統(tǒng)的典型算法相比,加入3D卷積的全參考型C3DVQA 算法在整體上有最好的評(píng)估效果,在LIVE 和CSIQ 數(shù)據(jù)庫(kù)上的PLCC 值和SROCC 值都達(dá)到0.900 以上的評(píng)估值,這是非??捎^的。與STS 類算法相比,C3DVQA 在LIVE 數(shù)據(jù)庫(kù)上的PLCC 值低于STS 類算法,最差比STS-PSNR低了0.036,其他數(shù)值遠(yuǎn)高于STS 類算法。其次是DeepVQA 算法,整體效果較為均勻,只是LIVE 數(shù)據(jù)庫(kù)的PLCC 值為0.895,低于STS 類算法和C3DVQA算法,其相關(guān)性還需加強(qiáng)。值得關(guān)注的是,STS 類算法用的是典型的IQA 模型進(jìn)行視頻分析,其評(píng)估效果遠(yuǎn)高于典型的VQA 算法。而加入3D 卷積的MEON 和3D-CNN VQA 等無(wú)參考算法效果一般,最好的評(píng)價(jià)結(jié)果也未超過(guò)0.850,其原因可能是視頻失真的復(fù)雜性使得模型在學(xué)習(xí)的過(guò)程中未能提取到多樣的時(shí)空信息。而2D卷積的各個(gè)無(wú)參考型算法大都表現(xiàn)均勻,但評(píng)估效果都未有達(dá)到0.900 以上的,遠(yuǎn)低于全參考型模型??梢酝茢啵词篃o(wú)參考型模型更符合當(dāng)下的情況,但全參考型模型評(píng)價(jià)效果依舊是最好的,所依賴的原始參考視頻為算法提供了好的依據(jù),有效提高了算法的評(píng)估能力。無(wú)參考型模型還需更進(jìn)一步研究,以改進(jìn)模型的性能。其次,對(duì)比算法在自然失真視頻數(shù)據(jù)庫(kù)KoNViD-1k上的評(píng)價(jià)效果,文獻(xiàn)[26]和文獻(xiàn)[34]是由同一研究團(tuán)隊(duì)先后發(fā)表的。文獻(xiàn)[34]所提算法在KoNViD-1k 數(shù)據(jù)庫(kù)上的整體效果較為均勻,PLCC 值和SROCC 值分別為0.867和0.849,但在人為制作的失真視頻數(shù)據(jù)庫(kù)LIVE上卻表現(xiàn)不佳,其PLCC 值和SROCC 值只有0.691 和0.703,遠(yuǎn)低于0.800。而在文獻(xiàn)[26]所提算法中也有類似情況??赡苁怯捎贙oNViD-1k數(shù)據(jù)庫(kù)中不具有LIVE 數(shù)據(jù)庫(kù)中的失真視頻類型導(dǎo)致的。而Li 中的相關(guān)性表現(xiàn)較差,PLCC 值只有0.744,其原因可能是在全局池化過(guò)程中保存的信息不足。與典型的VBLIINDS 和V-CORNIA 算法相比,這些算法都有很大的提升,尤其是在自然失真視頻庫(kù)KoNViD-1k上。
Table 2 Algorithm performance comparison on database表2 算法在數(shù)據(jù)庫(kù)上的性能對(duì)比
從整體上看,相比無(wú)參考型算法,全參考型算法表現(xiàn)出更好的評(píng)估效果,最高可達(dá)到0.900以上的評(píng)估效果值,但由于訓(xùn)練測(cè)試的數(shù)據(jù)庫(kù)較少,難以看出其泛化能力。可通過(guò)增加不同的數(shù)據(jù)庫(kù)訓(xùn)練算法,以交叉檢驗(yàn)的形式說(shuō)明算法的魯棒性。對(duì)于STS 類算法,未使用復(fù)雜的網(wǎng)絡(luò)模型,創(chuàng)新地利用典型的IQA網(wǎng)絡(luò)進(jìn)行視頻處理。雖在預(yù)處理過(guò)程中,使用了復(fù)雜的STS[58]技術(shù)提取時(shí)空特征圖,但評(píng)估效果非??捎^。因而,在追求前沿、復(fù)雜算法模型的同時(shí),也應(yīng)保持對(duì)經(jīng)典算法的探究,其價(jià)值不可小覷。在實(shí)際情況中,面臨的是沒(méi)有原始參考視頻的自然失真情況,因此,無(wú)參考型依舊是最具研究?jī)r(jià)值的,但采用2D 卷積或3D 卷積的無(wú)參考模型的評(píng)估效果都難以達(dá)到全參考型的高精度。考慮到此問(wèn)題,一方面,是否可以通過(guò)多角度、多方位提取失真視頻的特征圖來(lái)豐富輸入數(shù)據(jù),以此提高算法性能;另一方面,在IQA 方法也存在此類問(wèn)題,它引入對(duì)抗神經(jīng)網(wǎng)絡(luò)于NR-IQA[59-62]中,以重建偽原始圖像來(lái)將無(wú)參考問(wèn)題轉(zhuǎn)為全參考問(wèn)題,以此提高算法性能,是否VQA方法也可以從此處找到突破點(diǎn)。對(duì)于視頻自然失真的情況,算法較為稀少。雖可以通過(guò)設(shè)計(jì)循環(huán)神經(jīng)網(wǎng)絡(luò)模型得到較高的評(píng)估效果,但泛化能力較差。無(wú)參考型模型要在實(shí)際應(yīng)用情況上達(dá)到高效的評(píng)估能力還需進(jìn)一步探究。
本文對(duì)基于深度學(xué)習(xí)的視頻質(zhì)量評(píng)價(jià)方法進(jìn)行了綜述,根據(jù)在客觀質(zhì)量評(píng)價(jià)方法中有無(wú)參考原始視頻進(jìn)行劃分介紹。對(duì)基于深度學(xué)習(xí)的BVQA方法從2D-CNN 和3D-CNN 兩類框架上進(jìn)行對(duì)比。目前在圖像方面的研究已日趨成熟,大多通用的NR-IQA方法[63-69]已經(jīng)得到實(shí)際應(yīng)用,新型的IQA 方法[70-71]也取得了很高的評(píng)估效果,對(duì)于全景圖像、VR 圖像等特殊圖像方面的IQA 方法[72-73]也得到極大的技術(shù)提高。在視頻方面,主觀的VQA方法已經(jīng)基本成熟,但成本較大,并不適用;在客觀的VQA 中,與FR-VQA方法相比,無(wú)需原始參考視頻,更符合VQA實(shí)際情況且易推廣到實(shí)際應(yīng)用中的NR-VQA方法獲得了更多的關(guān)注;而基于深度學(xué)習(xí)的方法比傳統(tǒng)方法更高效、更精確,成為VQA 研究人員的主要研究方向。又由于3D-CNN比2D-CNN更適用于視頻分析,對(duì)于復(fù)雜的立體視頻[74-75]、全方位視頻[76-79]以及VR視頻[80]的研究也可使用3D-CNN 進(jìn)行,且消耗資源少。因此,使用3D 卷積的NR-VQA 方法將是一大發(fā)展重點(diǎn)??陀^VQA方法現(xiàn)存的主要問(wèn)題是視頻數(shù)據(jù)集的內(nèi)容不豐富、樣本不平衡,這不利于它的發(fā)展;其次,大多算法模型在人為制造的失真數(shù)據(jù)上能夠得到好的效果,但對(duì)于自然失真數(shù)據(jù)難以達(dá)到好的效果;再者,大部分VQA方法未能使用到實(shí)際應(yīng)用中。
綜上,VQA 的研究還有許多問(wèn)題,需進(jìn)一步探索?,F(xiàn)對(duì)未來(lái)的發(fā)展方向進(jìn)行推斷,具體包括以下幾個(gè)方面:
(1)從IQA 到VQA 的改進(jìn):當(dāng)前的VQA 大多借鑒IQA 中的方法,或是從IQA 中得到啟發(fā)靈感。如V-MEON算法的啟發(fā)來(lái)源于對(duì)于圖像的質(zhì)量評(píng)價(jià)方法MEON[39],將2D 卷積改為了3D 卷積,并增加濾波器的選擇,以此應(yīng)用于視頻的質(zhì)量評(píng)估上。
(2)從FR-VQA 到NR-VQA 的推進(jìn):由于具有規(guī)范性、代表性的公開(kāi)視頻數(shù)據(jù)庫(kù)稀少,以及自制視頻數(shù)據(jù)成本高,難以達(dá)到,致使大多FR-VQA 方法依舊無(wú)法獲得樣本豐富、數(shù)據(jù)量大的原始視頻源,雖能使用遷移學(xué)習(xí)彌補(bǔ),但難以考究模型的泛化能力,又因?yàn)镕R-VQA方法無(wú)法應(yīng)用于實(shí)際情況的局限性,因此將FR-VQA向NR-VQA推進(jìn)將是一個(gè)必要的趨勢(shì)。
(3)擴(kuò)大數(shù)據(jù)規(guī)模:一方面擴(kuò)大現(xiàn)有的公共數(shù)據(jù)庫(kù),增加失真類型的種類,豐富視頻數(shù)據(jù)庫(kù),為訓(xùn)練模型提供數(shù)據(jù)基礎(chǔ);另一方面,為應(yīng)對(duì)視頻類型的多樣化,創(chuàng)建更健全、更合適的視頻數(shù)據(jù)庫(kù)是必不可少的,如立體視頻數(shù)據(jù)庫(kù)、全方位視頻數(shù)據(jù)庫(kù)以及VR視頻數(shù)據(jù)庫(kù)等。
(4)視聽(tīng)聯(lián)合的質(zhì)量評(píng)價(jià):視頻中往往伴隨著聲音,音頻與視頻之間的相互關(guān)系是復(fù)雜的,如視頻失真可能導(dǎo)致音頻無(wú)法與視頻人物口唇同步,使得最終用戶的體驗(yàn)質(zhì)量不佳。因此,視聽(tīng)聯(lián)合的質(zhì)量評(píng)價(jià)是非常有必要的,而現(xiàn)有的音視頻質(zhì)量評(píng)價(jià)方法,都集中在單模式的視覺(jué)或音頻信號(hào)上研究[81],未對(duì)視聽(tīng)結(jié)合進(jìn)行探索,這并不滿足實(shí)際情況的應(yīng)用。因而,對(duì)于視聽(tīng)聯(lián)合的質(zhì)量評(píng)價(jià)研究進(jìn)展還需要進(jìn)一步探索音頻和視頻之間的相互影響,以應(yīng)用于視頻會(huì)議或遠(yuǎn)程服務(wù)類的實(shí)時(shí)在線視頻質(zhì)量監(jiān)控上。
(5)構(gòu)建/改進(jìn)評(píng)價(jià)標(biāo)準(zhǔn):視頻多方法評(píng)估融合(VMAF)方法是最偏向主觀的視頻質(zhì)量評(píng)價(jià)度量標(biāo)準(zhǔn),但依舊存在未利用到時(shí)間信息的問(wèn)題。在后來(lái)的改進(jìn)方法[82]中,準(zhǔn)確率和速度得到很大提升,但仍未利用到深層次的時(shí)域特征和色度特征。因此,構(gòu)建/改進(jìn)更加符合主觀質(zhì)量的視頻質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)將是一大挑戰(zhàn)。
(6)客觀評(píng)價(jià)與主觀評(píng)價(jià)的一致性:客觀評(píng)價(jià)的最終目的是要與人類主觀感知達(dá)到一致,由于人類視覺(jué)系統(tǒng)的復(fù)雜性,致使現(xiàn)有的客觀評(píng)價(jià)方法與主觀評(píng)價(jià)方法在準(zhǔn)確率方面還存在差距??陀^評(píng)價(jià)要做到和主觀評(píng)價(jià)精確一致還需研究。
由于人類感知的復(fù)雜性,在觀察視頻時(shí)易出現(xiàn)時(shí)間掩蔽效應(yīng)和時(shí)間滯后效應(yīng)等情況,而目前對(duì)人類感知的認(rèn)識(shí)和研究還不夠深入,致使對(duì)視頻質(zhì)量評(píng)價(jià)的研究較為緩慢。要想提高視頻質(zhì)量評(píng)價(jià)算法整體的準(zhǔn)確度和速度,還需從人類內(nèi)容感知方向進(jìn)一步研究。且為應(yīng)對(duì)市場(chǎng)的需求,現(xiàn)今的質(zhì)量評(píng)估方法已經(jīng)不僅僅是對(duì)二維視頻進(jìn)行研究。隨著視頻種類的增多,立體視頻、全方位視頻和虛擬現(xiàn)實(shí)視頻已經(jīng)分布在大眾視野之中,而對(duì)于這類視頻的研究熱度也是逐漸上升的,為其提供可靠適用的算法是非常必要的。
總之,目前的視頻質(zhì)量評(píng)價(jià)還處于探究階段,仍有許多問(wèn)題有待解決,對(duì)視頻方面的研究依舊是一個(gè)艱難的挑戰(zhàn)。相信隨著深度學(xué)習(xí)領(lǐng)域的發(fā)展,計(jì)算機(jī)視覺(jué)處理將得到更大改進(jìn)與提高。