許瑩瑩,李朝鋒,2
XU Yingying1,LI Chaofeng1,2
1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122
2.江南大學(xué) 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122
1.School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122 China
2.Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China
視頻技術(shù)與人類的生活息息相關(guān),比如人臉識(shí)別[1]等。然而,在處理視頻信息的過程中,視頻的壓縮、傳輸、重構(gòu)等處理會(huì)導(dǎo)致視頻信息的丟失,從而導(dǎo)致視頻失真。失真直接影響到了視頻的質(zhì)量,因此在視頻系統(tǒng)中使用一個(gè)準(zhǔn)確有效的視頻質(zhì)量評價(jià)方法也越來越受到人們的重視。
根據(jù)對原始視頻信息的依賴程度,視頻質(zhì)量評價(jià)方法可以大致分成三類:全參(Full Reference,F(xiàn)R)、半?yún)ⅲ≧educed Reference,RR)以及無參(No Reference,NR)視頻質(zhì)量評價(jià)方法。全參視頻質(zhì)量評價(jià)目前已經(jīng)有了一些很成熟算法,比如Wang等[2]根據(jù)人眼對自然場景中結(jié)構(gòu)信息的敏感性原則提出的結(jié)構(gòu)相似度算法(Structural Similarity Index Metric,SSIM)。姚杰等提出一種運(yùn)動(dòng)估計(jì)的幀加權(quán)方法,將4-SSIM算法[3]擴(kuò)展到視頻質(zhì)量評價(jià)中,也取得了不錯(cuò)的效果。戴慧慧等提出基于小波域和時(shí)域的視頻質(zhì)量評價(jià)算法[4]。半?yún)⒁曨l質(zhì)量評價(jià)通過提取原始視頻與待測視頻的部分特征,來進(jìn)行對比處理,進(jìn)而獲得視頻質(zhì)量。在文獻(xiàn)[5]中,Soundararajan等人利用小波變換提取空域和頻域的熵差(Reduced Reference Entropic Differencing,RRED),進(jìn)而評估失真視頻的質(zhì)量。無參視頻質(zhì)量評價(jià)不需要原始視頻信息,因此使用最為靈活,但與此同時(shí)挑戰(zhàn)性也是最大的。
目前無參考視頻質(zhì)量評價(jià)的方法相對較少,Saad等人提出了Video Blinds[6]模型。該模型主要運(yùn)用DCT變換以及運(yùn)動(dòng)特征,最后將提取的一系列特征通過訓(xùn)練測試的方式評估得到視頻質(zhì)量。然后,又對視覺特征進(jìn)行分析,提出一種絕對的盲評估視頻質(zhì)量模型VIIDEO[7]。Xu等[8]通過提取失真特征,提出Video CORNIA算法來評價(jià)視頻的質(zhì)量。Li等[9]通過分析視頻時(shí)空域的統(tǒng)計(jì)信息,進(jìn)而估算視頻質(zhì)量。張航等[10]利用Gabor濾波器來模擬人眼的多通道性,最后加上動(dòng)態(tài)視覺感知權(quán)重來獲得失真視頻質(zhì)量。
當(dāng)前報(bào)道的大部分視頻質(zhì)量評價(jià)方法都僅僅針對單個(gè)域內(nèi)提取特征構(gòu)建評價(jià)模型,沒有考慮結(jié)合其他域內(nèi)與其互補(bǔ)的視頻質(zhì)量相關(guān)特征。本文通過對空域和頻域的聯(lián)合分析,提取了一系列的感知特征,包括灰度-梯度共生矩陣、空間熵、譜熵、關(guān)系熵和自然指數(shù)特征。并且區(qū)別于傳統(tǒng)處理特征僅僅用取平均提取整個(gè)視頻特征的方法,本文針對頻域特征,通過求方差計(jì)算得到整個(gè)視頻的特征值。最后將提取的特征用支持向量機(jī)采取訓(xùn)練測試的方法進(jìn)行視頻質(zhì)量的評價(jià)。實(shí)驗(yàn)結(jié)果表明該方法與主觀得分有很好的一致性。
視頻質(zhì)量下降是視頻系統(tǒng)在處理視頻過程中由于壓縮、量化、噪聲等引起的。壓縮和量化導(dǎo)致視頻邊緣輪廓信息的丟失,表現(xiàn)為圖像邊緣不夠清晰的現(xiàn)象,而噪聲是在視頻傳輸過程中信道誤碼、噪聲、丟包等情況引起的。這些都在不同程度上影響用戶客戶端接收到的視頻質(zhì)量。
熵可以捕捉圖像的全局信息,體現(xiàn)了紋理輪廓的復(fù)雜度,空間熵反映了局部像素值的概率分布,頻譜熵反映了頻域內(nèi)小波系數(shù)值的概率分布。聯(lián)合空間熵和頻譜熵可以體現(xiàn)出圖像結(jié)構(gòu)信息的統(tǒng)計(jì)特性,有效地減少由于視頻內(nèi)容帶來的影響。但是空間熵和頻譜熵更多的是捕捉圖像灰度值信息的變化,沒有考慮梯度信息。
梯度構(gòu)成了圖像的邊緣輪廓,是圖像的基本要素之一?;叶?梯度矩陣模型聯(lián)合了捕捉圖像紋理差異的灰度和梯度,因此加入灰度-梯度矩陣特征能更好地補(bǔ)充熵在反映圖像結(jié)構(gòu)信息統(tǒng)計(jì)特性的能力。
考慮到視頻失真不僅僅是壓縮造成的紋理失真,還有在傳輸過程中信道噪聲造成的傳輸失真。相關(guān)熵作為一個(gè)局部相似性測量的工具,可以有效地處理噪聲帶來的傳輸失真。這里在上述特征的基礎(chǔ)上進(jìn)一步聯(lián)合相關(guān)熵特征來彌補(bǔ)紋理失真特征帶來的單一性,從而更加全面地評價(jià)了不同失真類型的視頻。
在實(shí)驗(yàn)過程中發(fā)現(xiàn),上述四個(gè)特征對高頻失真展現(xiàn)出了很好的處理能力,但是在處理平坦區(qū)域的低頻失真時(shí),預(yù)測失真的性能有所下降。而自然指數(shù)特征可以捕捉不同頻率上視頻的降質(zhì)程度,能夠有效處理低頻失真的問題,因此,本文再次聯(lián)合了自然指數(shù)特征,充分地解決高頻和低頻失真問題。
實(shí)驗(yàn)表明,通過五種特征的互補(bǔ),可以有效評價(jià)視頻在不同尺度、不同內(nèi)容、不同類型的失真。更能全面地捕捉失真視頻與原始視頻之間的差異,從而更好地評價(jià)視頻的質(zhì)量。
在上述基礎(chǔ)上,本文提出了空域和頻域聯(lián)合特征挖掘的無參視頻質(zhì)量評價(jià)方法,該方法首先提取上述五種特征(空間熵,譜熵,灰度-梯度共生矩陣,關(guān)系熵和自然指數(shù)特征),然后通過SVR構(gòu)建提取的特征與視頻質(zhì)量之間的模型。
該方法的流程圖如圖1所示。
圖1 算法流程圖
區(qū)別于圖像失真僅存在于空域中,數(shù)字視頻必然存在著時(shí)域失真。比如拍攝視頻時(shí)人為抖動(dòng),鏡頭臟污等都會(huì)造成時(shí)域失真。為了解決時(shí)域失真帶來的問題,本文在提取視頻質(zhì)量感知特征時(shí),充分考慮相鄰視頻幀之間的運(yùn)動(dòng)性強(qiáng)度,采取幀差提取特征的方法。假設(shè)一個(gè)視頻有M幀,后一幀減去前一幀得到一個(gè)幀差圖像,以此類推,一個(gè)視頻得到M-1個(gè)幀差。大量的研究表明幀差有著統(tǒng)計(jì)數(shù)據(jù)上的規(guī)律,而視頻失真會(huì)破壞這種規(guī)律[5],因此幀差提取的感知特征能夠反映視頻時(shí)域失真程度。圖2和圖3分別顯示了LIVE視頻庫中“pa”失真視頻幀和失真視頻幀差圖。
圖2 LIVE視頻庫中“pa”失真視頻第1幀
圖3 LIVE視頻庫中“pa”失真幀差視頻第1幀
2.2.1 空間熵
信息熵表示圖像所包含的信息量,反映了圖像紋理信息的復(fù)雜度。信息熵與感知圖像的質(zhì)量有著密切的關(guān)系[11],并且圖像的失真類型以及失真的程度直接影響信息熵的分布。假設(shè)沒有失真的圖像的空間熵值分布有一定的統(tǒng)計(jì)規(guī)律,那么引入失真就會(huì)破壞像素之間的這種相關(guān)性。
圖4顯示了基于內(nèi)容不同的10組原始視頻及其相對應(yīng)的失真視頻的空間熵,從圖中可以看出空間熵可以區(qū)分出原始視頻以及四種不同的失真類型,特別是H.264失真,與原始視頻的波動(dòng)相差很大。這表明空間熵能夠反映視頻的失真情況。因此,選取空間熵作為視頻質(zhì)量的第一類候選特征,通過熵值的變化來反映視頻質(zhì)量的改變。
圖4 10組原始視頻及其對應(yīng)失真視頻的空間熵分布
空間熵的定義如下:其中,x是失真視頻的幀差值。計(jì)算出每一個(gè)幀差的H值后,取其平均值當(dāng)作整個(gè)視頻的空間熵特征。
2.2.2 頻譜熵
空間熵反映了空間像素值的概率分布,頻譜熵反映了頻域內(nèi)小波系數(shù)值的概率分布。從圖4中可以看出,雖然空間熵可以在一定程度上反映視頻的失真情況,但是空間熵的分布受到視頻內(nèi)容的影響,比如第2組和第4組視頻的空間熵對于失真視頻的差異就不能很好地衡量。聯(lián)合空間熵和頻譜熵可以有效地減少由于視頻內(nèi)容帶來的影響,更好地捕捉由于失真帶來的邊緣輪廓信息的差異。頻譜熵是在小波域中計(jì)算得到的。首先用方向金字塔對失真視頻的幀差進(jìn)行三尺度六方向的尺度分解來獲取小波系數(shù),然后對所有的子帶進(jìn)行不重疊的分塊處理,塊大小為3×3??紤]到人眼對小波系數(shù)的粗子帶更加敏感[12],這里只對分解后的小波系數(shù)的粗子帶進(jìn)行處理,實(shí)驗(yàn)證明這些子帶確實(shí)給予了更好的實(shí)驗(yàn)效果。
在文獻(xiàn)[13]中,Liu等人用高斯尺度混合模型(Gaussian Scale Mixture,GSM)來模擬自然圖像的小波系數(shù)。原始圖像的小波系數(shù)服從高斯分布,然而失真卻打破了這種分布。模擬小波系數(shù)之后,計(jì)算得到GSM模型的協(xié)方差矩陣Q。小波系數(shù)的熵值通過下面的公式給出:
其中,x是小波系數(shù)。頻譜熵T是基于GSM模型計(jì)算出來的,計(jì)算公式如下:
上式中,Q和Q′分別是基于圖像幀和圖像幀差GSM模型的協(xié)方差矩陣。E是基于幀差的小波熵。
圖5 10組原始視頻及其相對應(yīng)的失真視頻的頻譜熵分布
圖5顯示了10組原始視頻以及其相對應(yīng)的失真視頻的頻譜熵,從圖5中,觀察到除了MPEG-2失真,其他的失真類型都能夠被頻譜熵的變化很好地區(qū)分出來。例如IP失真,由于在參考圖像中加入了高頻率信息,故其頻譜熵基本上分布在原始視頻的上面。對于MPEG-2失真,由于減少了圖像高頻信息再加上運(yùn)動(dòng)矢量等因素,使得頻譜熵值較小。從上述分析可以看出頻譜熵的變化與人的主觀感知有著密切的關(guān)系,因此采用圖像頻譜熵作為視頻質(zhì)量感知的第二類候選特征特征,通過熵值的變化區(qū)分出不同失真類型以及失真程度。
由于一個(gè)視頻包含了很多幀,如果只是單純的取平均來求取特征值則會(huì)忽略掉很多信息。為了捕捉頻譜熵在時(shí)域上的波動(dòng)性,計(jì)算出頻譜熵T后,取方差表示整個(gè)視頻的頻譜熵值。通過第3章的實(shí)驗(yàn)分析結(jié)果也能看出,選取方差作為特征值確實(shí)提高了算法的性能,將結(jié)果從0.642大幅度提高到0.782。
2.2.3 灰度梯度共生矩陣
圖像的灰度是構(gòu)成一幅圖像的基礎(chǔ),而梯度是構(gòu)成圖像邊緣輪廓的要素?;叶忍荻裙采仃嘯14]反映了灰度和梯度的聯(lián)合分布,通過灰度-梯度共生矩陣可以很好地體現(xiàn)圖像中各個(gè)像素及其相鄰像素的空間關(guān)系,更好地增強(qiáng)了熵在反映圖像結(jié)構(gòu)信息統(tǒng)計(jì)特性的能力。圖像的紋理信息在一定程度上反映了其周圍像素灰度值的變化,一般來說,平滑區(qū)域的像素灰度彼此接近,而粗糙區(qū)域則變化較大。紋理特征一直以來是圖像處理中的熱點(diǎn),很多領(lǐng)域,比如:模式識(shí)別、圖像檢索等等方面都熱衷于提取圖像紋理特征?;谏鲜龅睦碚摶A(chǔ),考慮提取幀差的灰度梯度共生矩陣來作為一類感知特征來評價(jià)視頻的質(zhì)量?;叶忍荻裙采仃嚨亩x如下:對于一個(gè)二維圖像 f(i,j),首先通過Sobel算子計(jì)算各像素點(diǎn)的梯度值,得到梯度圖像g(i,j),然后通過下式求得歸一化的梯度圖像:
其中,INT表示取整運(yùn)算,gmax是圖像中最大的梯度值,Ng表示歸一化的最大梯度值?;叶忍荻裙采仃嚨脑豀(x,y)定義為在歸一化的灰度圖像 f(i,j)及其歸一化的梯度圖像G(i,j)中統(tǒng)計(jì)同時(shí)具有灰度值x和梯度值y的像點(diǎn)對數(shù),最后對進(jìn)行歸一化處理,得到:
基于灰度梯度共生矩陣,得到15個(gè)圖像紋理參數(shù)。
圖6顯示了一組原始視頻(pedestrian area,pa)以及其相對應(yīng)的4種失真類型的15個(gè)紋理參數(shù)的值。由于有些參數(shù)的值大小分布差異太大,所以對于縱坐標(biāo)采取了不同的分布范圍。圖6(a)和(b)表示不同的y軸分布范圍。從圖6中可以看出,有些紋理參數(shù)特征并不能很好反映視頻失真情況,這里只選取大梯度優(yōu)勢(第二個(gè)特征),灰度和梯度分布不均勻性(第三和第四個(gè)特征),灰度均勻(第六個(gè)特征),相關(guān)(第十個(gè)特征)以及慣性(第十四個(gè)特征)?;趲钣?jì)算出這六個(gè)紋理特征之后,取平均值得到整個(gè)視頻的灰度梯度共生矩陣特征,作為視頻質(zhì)量感知的第三類特征。
圖6 “pa”原始視頻及其失真視頻的15個(gè)紋理參數(shù)值
2.2.4 相關(guān)熵
考慮到視頻失真不僅僅是壓縮失真,還包括傳輸過程中由于噪聲、丟包等造成的傳輸失真。因此結(jié)合傳輸失真特征可以有效地避免僅考慮紋理失真帶來的單一性,從而全面的評價(jià)不同失真類型的視頻。根據(jù)文獻(xiàn)[15]知道,相關(guān)熵作為一個(gè)局部相似性測量的工具,可以有效地處理高斯噪聲,而高斯噪聲通常是造成圖像失真的主要原因。圖7顯示的是一組原始視頻(pedestrian area,pa)以及其相對應(yīng)的四種失真類型的視頻的相關(guān)熵值的分布。從圖中可以看出相關(guān)熵在原始視頻以及不同類型失真視頻中的分布情況不同,例如原始視頻的相關(guān)熵分布較為緩和,而其他失真類型,特別是傳輸失真的相關(guān)熵波動(dòng)較大。這表明相關(guān)熵可以捕捉原始視頻與失真視頻之間的差異,從而預(yù)測失真視頻的質(zhì)量。
對于兩個(gè)局部的隨機(jī)變量x和y的相關(guān)熵定義為:
其中,xi和yi分別是相鄰幀的9×9的圖像塊。計(jì)算出視頻相鄰幀的相關(guān)熵值之后,取平均得到整個(gè)視頻的相關(guān)熵,取其作為視頻質(zhì)量感知的第四類特征。
圖7 “pa”原始視頻及其失真視頻的相關(guān)熵值分布圖
2.2.5 自然圖像質(zhì)量指數(shù)特征
視頻失真不僅僅存在高頻區(qū)域,還包括低頻部分。低頻部分代表著視頻幀圖像的平坦區(qū)域,由于平坦區(qū)域灰度變化緩慢,失真帶來的原始視頻與失真視頻的差異也相對較小。本文通過自然指數(shù)特征捕捉不同尺度上視頻的降質(zhì)程度,有效地解決了熵等上述特征不能很好地描述低頻失真的問題。實(shí)現(xiàn)了失真特征從不同尺度、不同內(nèi)容,不同類型的評價(jià)視頻質(zhì)量。自然指數(shù)[16](Natural Index Quality Evaluator,NIQE)是基于自然統(tǒng)計(jì)場景提取的圖像特征。首先用自然圖像提取出來的特征通過高斯擬合得到一個(gè)多維高斯(Multivariate Guassian,MVG)模型,然后對測試圖片提取出來的特征也用高斯擬合得到一個(gè)多維高斯模型,通過計(jì)算兩個(gè)模型之間的差異來描述圖片的失真程度,提取特征的步驟主要包括自然場景統(tǒng)計(jì)模型的建立,圖像塊的選取,圖像塊提取特征以及建立多維高斯模型。首先通過圖像的局部均值移除以及區(qū)分歸一化來計(jì)算圖像的系數(shù),將圖像分成n×n塊,根據(jù)文獻(xiàn)[17],可以得知,原始和失真的視頻的圖像系數(shù)都服從高斯分布,只是原始視頻的圖像系數(shù)服從比較規(guī)律的高斯分布,而失真卻打破了這種規(guī)律??梢酝ㄟ^分析相鄰的圖像塊系數(shù)在四個(gè)方向上(水平、垂直、兩個(gè)對角)的分布來捕捉這種差異。通過對四個(gè)方向上的估算,得到18個(gè)特征,然后對圖像進(jìn)行低通濾波和下采樣處理,得到36個(gè)特征。
自然圖像的多維高斯模型的圖片來源于Berkeley Image Segmentation數(shù)據(jù)庫,選取了125張圖片,圖片的大小從480×320到1 280×720。對測試圖像提取出來的特征進(jìn)行高斯擬合之后,得到測試圖像的高斯模型,分別計(jì)算高斯模型的均值和協(xié)方差 ,并計(jì)算最終的圖像質(zhì)量q。圖像的失真程度是通過衡量兩個(gè)多維高斯模型(通過測試圖片提取的特征模擬出來的多維高斯模型以及通過Berkeley Image Segmentation數(shù)據(jù)庫提取的特征模擬出來的多維高斯模型)的差異。計(jì)算的公式如下:
其中,μ1、μ2和σ1、σ2分別是自然圖像的MVG模型和測試失真視頻幀差的MVG模型的平均值和協(xié)方差。計(jì)算出q之后,與之前的36個(gè)特征加到一起,得到最終的37個(gè)特征。選取其作為視頻質(zhì)量感知的第五類特征。
本文中提出的視頻質(zhì)量評價(jià)算法在LIVE數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),LIVE視頻數(shù)據(jù)庫是德克薩斯州奧斯汀分校圖像和視頻工程實(shí)驗(yàn)室于2010年提供的視頻質(zhì)量評價(jià)數(shù)據(jù)庫。庫中包含了10組內(nèi)容不同的自然場景原始視頻及其失真視頻。每組視頻包括了1個(gè)原始視頻、4個(gè)無線傳輸失真視頻、3個(gè)IP傳輸失真視頻、4個(gè)H.264壓縮失真視頻以及4個(gè)MPEG-2壓縮失真視頻。把這10組失真視頻分為兩部分,隨機(jī)取8組原始視頻所對應(yīng)的失真視頻進(jìn)行訓(xùn)練,其余2組原始視頻所對應(yīng)的失真視頻進(jìn)行測試,即120個(gè)視頻訓(xùn)練,30個(gè)視頻測試。這種做法有效地避免了訓(xùn)練樣本與測試樣本有交集,不管訓(xùn)練多少次,用于訓(xùn)練和測試的視頻不會(huì)重疊從而保證了實(shí)驗(yàn)結(jié)果的有效性和說服性。將之前所提取的特征用支持向量回歸模型(Support Vector Regression,SVR)進(jìn)行訓(xùn)練測試,得到最終的失真視頻的質(zhì)量分?jǐn)?shù)值。為了評估本文中方法的性能,選取現(xiàn)在比較通用的兩種指標(biāo):斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman Rank Order Correlation Coefficient,SROCC)以及皮爾遜線性相關(guān)系數(shù)(Liner Correlation Coefficient,LCC)。這兩種指標(biāo)的絕對值越接近于1說明算法的性能越好。迭代訓(xùn)練測試的次數(shù)為1 000次,取其中值為最終的結(jié)果。
為了分析每種特征對算法性能的貢獻(xiàn)值,實(shí)驗(yàn)中對每一種特征單獨(dú)地進(jìn)行訓(xùn)練測試并且計(jì)算其SROCC值和LCC值,結(jié)果顯示在表1中。從表1中可以看出:空間熵和頻譜熵對算法性能的影響是比較大的,從第2章中特征的分布圖中也可以看出,空間熵和頻譜熵能夠較為明顯地區(qū)分出原始視頻和失真視頻之間的差異,并且由于熵值反映了圖像紋理輪廓方面的失真情況,而紋理輪廓是圖像的基本信息,很多壓縮、傳輸過程中的處理都會(huì)造成輪廓紋理結(jié)構(gòu)方面的失真。
表1 單種類型特征的SROCC和LCC值
在LIVE視頻質(zhì)量評價(jià)數(shù)據(jù)庫的實(shí)驗(yàn)結(jié)果對比中,本文選擇了比較經(jīng)典的算法以及近幾年在視頻質(zhì)量評價(jià)方面比較好的算法進(jìn)行對比,為了進(jìn)一步測試每一個(gè)特征的有效性,實(shí)驗(yàn)中嘗試不同的特征組合并且獲得相應(yīng)的SROCC和LCC值。表2顯示了所有算法的SROCC和LCC值。從表2中的結(jié)果可以看出這些特征結(jié)合之后的結(jié)果與表1中的結(jié)果是相對應(yīng)的,也就是說空間熵和頻譜熵是有效性特征,加入這兩種特征后將結(jié)果從0.532提高到了0.782。但同時(shí)其他幾類特征也促進(jìn)了算法性能的提高,所有的特征都為提高算法做出了貢獻(xiàn),這說明本文提出的空域和頻域聯(lián)合特征挖掘的思想是具有獨(dú)特優(yōu)勢的。同時(shí),在頻域中的特征提取方法里,本文提出方差取特征的概念,打破了傳統(tǒng)方法中用均值取整個(gè)視頻特征的思想,表3中的結(jié)果證明用方差在頻域中提取特征比用均值提取特征的性能要好得多。
表2 LIVE視頻庫上不同方法的性能比較
表3 LIVE數(shù)據(jù)庫中頻域內(nèi)分別用方差與均值提取特征的SROCC和LCC值
為了測試算法對每一類失真類型的預(yù)測性能,本文又對每一類失真類型進(jìn)行分開訓(xùn)練測試,并將計(jì)算得到的SROCC值以及其余算法的SROCC值對比都顯示在表4里。
表4 LIVE數(shù)據(jù)庫上針對每一種失真類型的算法性能比較
從表2~4可以看出,本文提出的算法在LIVE視頻數(shù)據(jù)庫整體上的評價(jià)結(jié)果優(yōu)于當(dāng)前文獻(xiàn)報(bào)道相關(guān)方法,在MPEG-2和H.264單個(gè)失真類型上,也體現(xiàn)了優(yōu)勢,這說明本文提出的失真特征針對視頻壓縮處理造成的失真更為有效,而對網(wǎng)絡(luò)傳輸丟包造成的視頻失真稍稍欠缺,IP和Wireless網(wǎng)絡(luò)傳輸失真往往還要考慮到由于網(wǎng)絡(luò)延時(shí)等造成視頻時(shí)域上的失真,故而結(jié)果有所欠缺。但是本文加強(qiáng)了對空域頻域紋理失真方面的分析和特征提取,考慮了兩個(gè)域里面可以互補(bǔ)的感知特征,所以在MPEG-2和H.264單個(gè)主要由壓縮造成的失真類型上,體現(xiàn)出優(yōu)勢。
相對于使用單視頻數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn),用兩個(gè)數(shù)據(jù)庫可以避免方法對于單數(shù)據(jù)庫的優(yōu)化而產(chǎn)生偏差,使算法更為可靠,通用性強(qiáng)。因此,為了測試本文算法中的數(shù)據(jù)庫的通用性,本文又在IVP視頻數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。IVP數(shù)據(jù)庫是由香港中文大學(xué)圖像與視頻處理實(shí)驗(yàn)室于2011年提供的主觀視頻質(zhì)量數(shù)據(jù)庫,其中9組是自然場景視頻,有一組是通過3D建模制造的動(dòng)畫。視頻庫包括四種失真類型,有MPEG-2壓縮失真、Dirac小波壓縮失真、H.264壓縮失真以及IP網(wǎng)絡(luò)傳輸失真。訓(xùn)練測試的方法與LIVE數(shù)據(jù)庫是一樣的,迭代訓(xùn)練的次數(shù)為1 000次,表5顯示了實(shí)驗(yàn)得到的SROCC和LCC值以及與其他算法的性能比較結(jié)果。
表5 IVP視頻庫上不同方法的性能比較
從表5可以看出,本文在IVP庫上的結(jié)果比起LIVE庫上更加精準(zhǔn),與Video BLINDS算法的差距有所拉大。通過分析IVP庫的內(nèi)容和失真類型可以發(fā)現(xiàn),IVP庫中不僅僅是自然場景,還有一組是通過3D建模制造的動(dòng)畫,而且IVP庫中有Dirac小波壓縮失真,本文提取的失真特征中,小波域中提取的頻譜熵針對這種失真類型,更加具有優(yōu)勢,所以在整體數(shù)據(jù)庫中算法性能提高得更多。根據(jù)以上分析可以看出,本文提出的算法在IVP視頻數(shù)據(jù)庫上的評價(jià)結(jié)果優(yōu)于當(dāng)前文獻(xiàn)報(bào)道相關(guān)方法,表明本文方法是數(shù)據(jù)庫通用的。
通過對視頻的感知特征進(jìn)行分析,本文挖掘了一系列空域和頻域聯(lián)合的質(zhì)量感知特征,包括灰度-梯度共生矩陣、空間熵、譜熵、關(guān)系熵以及自然指數(shù)特征,實(shí)驗(yàn)中還對這些特征進(jìn)行組合分析,從分析過程以及最后的結(jié)果上來看,本文提出的特征都是行而有效的。針對當(dāng)前大部分視頻質(zhì)量評價(jià)模型都是僅在空域、頻域等單個(gè)域內(nèi)提取特征構(gòu)建評價(jià)模型,沒有考慮結(jié)合其他域內(nèi)與其互補(bǔ)的特征問題,本文結(jié)合了視頻的空域和頻域,使得評價(jià)效果更好。對于當(dāng)前報(bào)道的文獻(xiàn)大多采用取均值提取特征的方法,本文針對頻域提出取方差來得到視頻特征。從實(shí)驗(yàn)的結(jié)果來看,采用方差提取整個(gè)視頻特征的方法能夠有效地提高算法的性能。最后用支持向量回歸模型構(gòu)建這些感知特征與視頻質(zhì)量之間的關(guān)系模型。在LIVE和IVP視頻質(zhì)量評價(jià)數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果,表明了本文提出算法的有效性。
參考文獻(xiàn):
[1]胡一帆,胡友彬,李騫.基于視頻監(jiān)控的人臉檢測跟蹤識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(21):1-7.
[2]Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:From error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[3]姚杰,謝永強(qiáng),譚建明,等.采用內(nèi)容劃分方法的視頻質(zhì)量評價(jià)[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(11):158-161.
[4]戴慧慧,桑慶兵.基于小波域和時(shí)域的視頻質(zhì)量評價(jià)[J].計(jì)算機(jī)工程,2015,41(5):280-284.
[5]Soundararajan R,Bovik A C.RRED indices:Reduced reference entropic differencing for image quality assessment[J].IEEE Transactions on Image Processing,2012,21(2):517-526.
[6]Saad M A,Bovik A C,Christophe C.Blind prediction of natural video quality[J].IEEE Transactions on Image Process,2014,23(3):1352-1365.
[7]Saad M A,Bovik A C.A completely blind video integrity oracle[J].IEEE Transactions on Image Processing,2016,25(1):289-300.
[8]Xu J,Ye P,Liu Y,et al.No-reference video quality assessment via feature learning[C]//IEEE International Conference on Image Processing,2015:491-495.
[9]Li X,Guo Q,Lu X.No-reference video quality assessment based on statistical analysis in 3D-DCT domain[J].IEEE Transactions on Image Processing,2016,25(7).
[10]張航.數(shù)字圖像及視頻質(zhì)量評價(jià)方法研究[D].杭州:浙江大學(xué),2015.
[11]Sheikh H R,Bovik A C.Image information and visual quality[J].IEEE Transactions on Image Process,2006,15(2):430-444.
[12]Burr D C,Ross J.Contrast sensitivity at high velocities[J].Vision Research,1982,23(4):3567-3569.
[13]Liu L,Liu B,Huang H.No-reference image quality assessment based on spatial and spectral entropies[J].Signal Processing:Image Communication,2014,29(8):856-863.
[14]桑慶兵,李朝鋒,吳小俊.基于灰度共生矩陣的無參考模糊圖像質(zhì)量評價(jià)方法[J].模式識(shí)別與人工智能,2013,26(5):492-497.
[15]Liu W,Pokharel P,Principe J C.Correntropy:Properties and applications in non-Gaussian signal processing[J].IEEE Transactions on Signal Processing,2007,55(11):5286-5298.
[16]Mittal A,Soundararajan R,Bovik A C.Making a“Completely Blind”image quality analyzer[J].IEEE Signal Processing Letters,2013,20(3):209-212.
[17]Ruderman D L.The statistics of natural images[J].Network Computation in Neural System,2009,5(4):517-548.