亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度時(shí)空特征聚合的全參考視頻質(zhì)量評(píng)價(jià)

        2023-09-25 08:57:08趙世靈劉銀豪王鴻奎殷海兵
        關(guān)鍵詞:空域尺度預(yù)測(cè)

        張 威,趙世靈,劉銀豪,王鴻奎,殷海兵

        杭州電子科技大學(xué)通信工程學(xué)院,杭州310000

        隨著移動(dòng)多媒體設(shè)備的普及,人們對(duì)高質(zhì)量視頻的需求與日俱增。但是在有限的帶寬條件下,視頻數(shù)據(jù)的壓縮和傳輸不可避免地會(huì)導(dǎo)致視頻質(zhì)量下降。因此,設(shè)備端需要精確地評(píng)估視頻質(zhì)量,為調(diào)整編解碼器的相關(guān)參數(shù)[1]提供參考依據(jù)。而主觀視頻質(zhì)量評(píng)估需要組織觀測(cè)者給出視頻質(zhì)量得分,在工業(yè)生產(chǎn)中并不適用,這促使研究人員尋求能與人類視覺系統(tǒng)(human vision system,HVS)感知一致的客觀計(jì)算方法。

        在早期階段,研究者們遷移圖像質(zhì)量評(píng)估(image quality assessment,IQA)的知識(shí)來預(yù)測(cè)視頻質(zhì)量,通過對(duì)視頻中所有幀的質(zhì)量進(jìn)行簡(jiǎn)單的時(shí)域平均池化得到視頻質(zhì)量得分。雖然此類方法實(shí)現(xiàn)簡(jiǎn)單且時(shí)間復(fù)雜度低,但由于缺少針對(duì)視頻中復(fù)雜的時(shí)域特征建模[2],其預(yù)測(cè)結(jié)果與實(shí)際人類主觀感知結(jié)果仍有一定差距。

        時(shí)間尺度是視頻的重要特征,在過去幾年間,研究者花費(fèi)大量精力分析如何把時(shí)域信息應(yīng)用于視頻質(zhì)量評(píng)價(jià)。在TLVQM 中,Korhonen 等[3]從小時(shí)間尺度的角度出發(fā),逐幀分析運(yùn)動(dòng)光流與時(shí)域失真的關(guān)系,通過統(tǒng)計(jì)光流的變化來測(cè)量視頻中的運(yùn)動(dòng)失真。隨后,Liu等[4]提出FAST,每次間隔9 幀對(duì)視頻序列提取固定長(zhǎng)度的運(yùn)動(dòng)軌跡,在較大的時(shí)間尺度下,比較失真視頻與原視頻間運(yùn)動(dòng)內(nèi)容的差異來描述運(yùn)動(dòng)軌跡的失真。近年來隨著卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)用,研究者們也試圖利用深度學(xué)習(xí)的方法解決視頻質(zhì)量評(píng)價(jià)存在的問題。在Kim等[5]提出的DeepVQA中,通過提取HVS的時(shí)空敏感度圖來預(yù)測(cè)單幀質(zhì)量,并利用敏感度圖對(duì)視頻幀進(jìn)行加權(quán)獲得視頻質(zhì)量。在C3DVQA中,Xu等[6]引入2D卷積網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)相結(jié)合的方法學(xué)習(xí)時(shí)空特征,通過對(duì)大量的特征進(jìn)行聚合回歸得到預(yù)測(cè)得分。在Liu等的SDM[7]中重新對(duì)FAST 進(jìn)行優(yōu)化,通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)光流信息進(jìn)行二次特征提取與降維,并引入注意力機(jī)制預(yù)測(cè)視頻質(zhì)量。

        然而這些基于傳統(tǒng)特征[3-4]或基于深度學(xué)習(xí)[5-7]的全參考視頻質(zhì)量評(píng)價(jià)方法(full-referenc video quality assessment,F(xiàn)R-VQA),普遍都是在固定時(shí)間尺度下對(duì)視頻進(jìn)行處理。小時(shí)間尺度下提取的細(xì)粒度時(shí)空特征盡管具有較高的分辨率,但是對(duì)全局信息的刻畫能力不足。而大時(shí)間尺度下提取的粗粒度時(shí)空特征雖能更快速感知視頻整體內(nèi)容,但卻不能對(duì)局部場(chǎng)景詳細(xì)描述。根據(jù)反向?qū)哟卫碚揫8](reverse hierarchy theory,RHT),視覺神經(jīng)將眼睛捕捉的圖像傳輸?shù)酵鈧?cè)膝狀核,后者通過前饋連接將信息傳遞到由V1 區(qū)域到V5 區(qū)域組成的視覺皮質(zhì),在高級(jí)皮層對(duì)全局場(chǎng)景建模;而高層皮質(zhì)區(qū)域(V2、V3、V4、V5)還存在到低層皮質(zhì)區(qū)域(如V1)的反饋連接,由大腦引導(dǎo)眼球轉(zhuǎn)動(dòng)對(duì)局部細(xì)節(jié)感知。因此,建立一個(gè)能夠有效聚合多尺度時(shí)空域特征的預(yù)測(cè)模型對(duì)于視頻質(zhì)量評(píng)價(jià)至關(guān)重要。

        針對(duì)現(xiàn)有FR-VQA方法存在的問題,本文提出多尺度時(shí)空域特征聚合網(wǎng)絡(luò)(multi-scale temporal feature aggregation network,MTN)。首先,依據(jù)HVS連續(xù)性依賴機(jī)制[9](serial dependence in visual perception,SDP)中觀測(cè)者更關(guān)注失真片段的特性,模型自適應(yīng)采樣失真明顯的片段;其次,模型結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[10](long short-term memory network,LSTM),通過多個(gè)LSTM網(wǎng)絡(luò)層堆疊增加網(wǎng)絡(luò)感受野,進(jìn)而感知多時(shí)間步長(zhǎng)的采樣片段,提取各個(gè)尺度的時(shí)域上下文特征。為探索如何對(duì)多尺度特征有效聚合,本文模擬大腦正反向多次迭代感知的過程,通過在多個(gè)記憶網(wǎng)絡(luò)層之間建立連接,以前饋與反饋串聯(lián)的路徑對(duì)多粒度的時(shí)域上下文信息進(jìn)行聚合;最后,引入多通道自注意力機(jī)制對(duì)各時(shí)間尺度的視頻序列分別進(jìn)行預(yù)測(cè),視頻質(zhì)量得分由不同時(shí)間尺度下預(yù)測(cè)得分的均值構(gòu)成。

        1 多尺度時(shí)空域特征聚合網(wǎng)絡(luò)

        如圖1所示,本文所提的視頻質(zhì)量評(píng)價(jià)算法主要包括自適應(yīng)采樣模塊及信息聚合模塊兩部分。首先,輸入視頻數(shù)據(jù)至自適應(yīng)采樣模塊,SDM 中關(guān)于連續(xù)性依賴機(jī)制實(shí)驗(yàn)[7]已證明感知過程中最差感知質(zhì)量幀會(huì)造成更顯著影響,故自適應(yīng)采樣模塊明確選擇失真較為明顯的幀進(jìn)行著重分析。

        圖1 多尺度時(shí)空域特征聚合模型總框圖Fig.1 Overall structure of proposed multi-scale spatiotemporal feature aggregation model

        其次,本文結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在時(shí)間序列方面展現(xiàn)出的強(qiáng)大建模能力,利用堆疊的LSTM 網(wǎng)絡(luò)提取多時(shí)間尺度下的時(shí)空依賴特征。最后,本文依據(jù)視覺神經(jīng)研究中的反向?qū)哟卫碚撎骄繉?duì)多尺度特征的有效融合方式,嘗試刻畫與人類感知相符的聚合方法。

        1.1 基于感知依賴機(jī)制的自適應(yīng)采樣策略

        現(xiàn)有FR-VQA 模型提取高層次的時(shí)空域特征時(shí)往往需要大量計(jì)算。為降低算法復(fù)雜度,模型大多會(huì)通過采樣策略對(duì)視頻數(shù)據(jù)進(jìn)行篩選。而固定間隔采樣策略能夠保持?jǐn)?shù)據(jù)分布的均勻性且使用簡(jiǎn)單,已有VQA 算法普遍都采用此策略。

        然而最近的視覺神經(jīng)研究已經(jīng)證明人眼感知過程中存在連續(xù)性依賴機(jī)制[9],當(dāng)受測(cè)者受到視頻信號(hào)刺激時(shí),大腦總是試圖使用先前的視覺感知信息來指導(dǎo)對(duì)當(dāng)前視覺輸入的感知。SDM中的實(shí)驗(yàn)進(jìn)而證明受測(cè)者對(duì)視頻的觀看體驗(yàn)更易受到視頻中失真嚴(yán)重幀所造成的影響。但是固定間隔采樣卻忽視此感知特性,直接從視頻序列中按照固定步長(zhǎng)采樣若干幀,這無(wú)疑會(huì)丟失部分具有顯著影響的失真幀,進(jìn)而導(dǎo)致VQA 模型預(yù)測(cè)準(zhǔn)確度的降低。

        為準(zhǔn)確衡量視頻中逐幀的感知失真進(jìn)而對(duì)序列進(jìn)行采樣,與自然圖像的空域失真相比,視頻中的圖像還受到時(shí)域掩蔽效應(yīng)影響。本文考慮到當(dāng)相鄰幀間出現(xiàn)較劇烈的運(yùn)動(dòng)時(shí),由于運(yùn)動(dòng)掩蔽效應(yīng)[11],人眼聚焦能力迅速下降,運(yùn)動(dòng)模糊隱藏部分失真。為充分刻畫運(yùn)動(dòng)掩蔽效應(yīng)對(duì)空域失真的影響,本文受到MOVIE[12]中處理時(shí)空域掩蔽方法的啟發(fā),首先利用幀間運(yùn)動(dòng)劇烈程度FMT(t)的倒數(shù)表征運(yùn)動(dòng)掩蔽效應(yīng)的強(qiáng)弱FAT(t);其次依據(jù)當(dāng)前時(shí)刻運(yùn)動(dòng)掩蔽的程度對(duì)空域失真FQS(t)做加權(quán)處理;最后本文提出感知運(yùn)動(dòng)失真度指標(biāo)(perceived motion distortion,PMD)來描述第t幀在運(yùn)動(dòng)情況下的失真程度。

        視頻質(zhì)量感知是一個(gè)復(fù)雜的過程,視覺系統(tǒng)可以被視為由不同皮質(zhì)區(qū)域組成多層次結(jié)構(gòu),其中紋外皮質(zhì)的連續(xù)皮質(zhì)層MT/V5 在運(yùn)動(dòng)知覺中發(fā)揮重要作用,皮質(zhì)層上的大量神經(jīng)元具有空間頻率和方向選擇性,對(duì)沿特定方向移動(dòng)的刺激反應(yīng)最強(qiáng)烈。因此,為充分刻畫幀間運(yùn)動(dòng)程度的指標(biāo)FMT( )t,模型需要同時(shí)對(duì)運(yùn)動(dòng)強(qiáng)度與運(yùn)動(dòng)方向進(jìn)行描述。參考感知運(yùn)動(dòng)能量[13]的計(jì)算方法,視頻幀被劃分為N塊不重疊48×48 大小的宏塊,并用宏塊級(jí)運(yùn)動(dòng)矢量幅度的均值表示當(dāng)前幀的運(yùn)動(dòng)強(qiáng)度,其中mi,j(t)是指是第t時(shí)刻幀i,j位置宏塊的運(yùn)動(dòng)矢量幅度。通過計(jì)算視頻幀的光流直方圖HOF(t,k),得到在第t時(shí)刻分布在k角度范圍內(nèi)的光流幅度,而幀內(nèi)運(yùn)動(dòng)矢量的主導(dǎo)運(yùn)動(dòng)方向θ由幅度最大的光流決定。統(tǒng)計(jì)所有方向光流得到第t幀的主導(dǎo)運(yùn)動(dòng)方向本文將2π劃分為n個(gè)角度,n的大小與FAST中的參數(shù)設(shè)定一致,設(shè)置為8。定義幀間運(yùn)動(dòng)程度FMT(t)為幀級(jí)運(yùn)動(dòng)強(qiáng)度與主導(dǎo)運(yùn)動(dòng)方向乘積:

        N()?表示歸一化操作,運(yùn)動(dòng)程度FMT( )t被線性歸一化在0-1之間。當(dāng)FMT( )t =0 時(shí),表示該幀的內(nèi)容保持靜止?fàn)顟B(tài);當(dāng)FMT( )t =1 時(shí),表示幀內(nèi)運(yùn)動(dòng)程度最為劇烈。圖2 分別展示視頻序列中處于不同時(shí)刻幀內(nèi)的運(yùn)動(dòng)矢量方向與感知運(yùn)動(dòng)能量分布。

        圖2 CSIQ數(shù)據(jù)集中名為“Basketball”失真視頻的若干幀F(xiàn)ig.2 Frames of distorted video named“Basketball”inCSIQ dataset

        與許多其他VQA算法類似,本文也使用現(xiàn)有的IQA算法來測(cè)量逐幀空域失真FQS(t)。權(quán)衡算法復(fù)雜度與測(cè)量精確度,模型使用圖像結(jié)構(gòu)失真度[14(]gradient magnitude similarity deviation,GMSD)衡量視頻信號(hào)中t時(shí)刻幀的空域失真程度。GMS為圖中N個(gè)塊的梯度幅度差異,而GMSM為幀內(nèi)GMS的均值:

        為確保分母非零,取γ值為1 的常數(shù),當(dāng)FMT(t)+γ=1 時(shí),表示前后幀間沒有運(yùn)動(dòng),此時(shí)感知失真程度為FQS(t);當(dāng)FMT(t)+γ大于1 時(shí),表示相鄰幀間存在運(yùn)動(dòng)掩蔽效性而隱藏部分噪聲,此時(shí)感知失真程度應(yīng)小于FQS(t)。

        受測(cè)者觀看視頻時(shí),只能感知到較短時(shí)間內(nèi)的若干幀。普通視頻幀率約為30,而大腦并不能在1/30 s內(nèi)對(duì)每幀做出反應(yīng)[15]。因此合理假設(shè)視覺感知數(shù)目為T幀的視頻片段。為確保采樣數(shù)據(jù)分布均衡,本文將序列平均切分成N段T幀的子視頻段,依據(jù)SDM 與FAST 進(jìn)行參數(shù)設(shè)置,視頻段數(shù)N=10,幀長(zhǎng)度T=18??紤]到失真總是分布于連續(xù)的若干幀中,所以在每段子視頻中確定最大PMD 指標(biāo)幀所在的位置,從該位置往兩端延伸T/2 個(gè)連續(xù)幀作為具有顯著影響片段,圖3展示自適應(yīng)采樣與固定間隔采樣數(shù)據(jù)分布差異。

        圖3 固定間隔采樣與自適應(yīng)采樣結(jié)果對(duì)比圖Fig.3 Difference between fixed interval frame sampling and adaptively frame sampling

        圖3中藍(lán)色曲線為感知運(yùn)動(dòng)失真度PMD,越大的PMD 指標(biāo)表明感知失真越嚴(yán)重。紅色與紫色線段對(duì)應(yīng)的x軸坐標(biāo)分別為固定間隔與自適應(yīng)采樣得到的視頻幀索引。以SDM中使用的固定間隔采樣策略[7]為例,每隔7幀采樣一段長(zhǎng)度為18幀的視頻片段,由于忽略HVS更關(guān)注嚴(yán)重失真幀的特點(diǎn),所以圖3(a)中標(biāo)出的紅色填充區(qū)間丟失對(duì)失真嚴(yán)重幀的選取。而自適應(yīng)采樣考慮失真幀總會(huì)造成更顯著影響,圖3(b)中所標(biāo)注的紫色填充區(qū)間可以發(fā)現(xiàn),在每個(gè)視頻片段中都能取到最大PMD指標(biāo)的幀。

        1.2 多尺度時(shí)空域特征遞進(jìn)聚合網(wǎng)絡(luò)

        多尺度信息是時(shí)間序列建模過程中所需的關(guān)鍵要素。而大多數(shù)現(xiàn)有方法只利用單一時(shí)間尺度時(shí)空域特征對(duì)每個(gè)序列樣本進(jìn)行表征,這忽略了各樣本間內(nèi)容的差異性。本文為此專門設(shè)計(jì)了多尺度特征迭代遞進(jìn)網(wǎng)絡(luò),整個(gè)框架如圖4所示。

        圖4 多尺度特征迭代遞進(jìn)網(wǎng)絡(luò)Fig.4 Architecture of multi-scale feature progressive network

        直觀來說,對(duì)于場(chǎng)景切換較多的視頻,其內(nèi)容需要較小尺度的LSTM網(wǎng)絡(luò)來捕捉短期依賴,而對(duì)于場(chǎng)景切換較少的視頻,則需要更大的尺度來捕捉長(zhǎng)期依賴。因此,只提取單個(gè)固定尺度的時(shí)空特征并不足以刻畫數(shù)據(jù)集中具有不同內(nèi)容的視頻序列,而本文提出的特征聚合模塊能夠?qū)π蛄刑崛《鄠€(gè)時(shí)間尺度的語(yǔ)義特征,通過多通道注意力網(wǎng)絡(luò)對(duì)各尺度特征進(jìn)行擬合。

        為追求合理的算法復(fù)雜性,本文結(jié)合HVS 感知特性,選擇每段子視頻中失真最嚴(yán)重幀作為代表幀,用以描述對(duì)應(yīng)視頻段的空域失真分布。而提取代表幀空域特征可以通過卷積網(wǎng)絡(luò)感知深層語(yǔ)義或基于統(tǒng)計(jì)特性人為設(shè)計(jì)??紤]到在小數(shù)據(jù)集上大量的語(yǔ)義特征極易造成模型過擬合,而傳統(tǒng)手工特征[3]具有復(fù)雜度低,魯棒性強(qiáng)的優(yōu)點(diǎn)。故本文提取飽和度特征γsat、塊效應(yīng)特征γblo、銳度特征γsha、對(duì)比度特征γcon和噪聲特征γnoi來描述代表幀的空域信息,通過串聯(lián)拼接得到N個(gè)空域特征圖St。分析數(shù)據(jù)集中的視頻可知,測(cè)試序列的內(nèi)容大多為用戶拍攝實(shí)際場(chǎng)景的短視頻,通常只包含2~3個(gè)場(chǎng)景切換,故并不需要過多粒度的特征對(duì)視頻感知。因此,對(duì)空域特征圖St只進(jìn)行3 種時(shí)間步長(zhǎng){α1,α2,α3}的采樣,得到αi粒度的空域特征分布Sαit;并利用堆疊的LSTM網(wǎng)絡(luò)對(duì)進(jìn)行感知得到時(shí)域感知特征圖,以Lαi代表采樣顆粒度為αi的LSTM層;其中空域采樣粒度與時(shí)域采樣粒度保持一致被設(shè)置成{0,2,4}。

        圖5 CSIQ數(shù)據(jù)集中名為“BQTerrace”失真視頻Fig.5 Frames of distorted video named“BQTerrace”in CSIQ dataset

        圖5(b)為小時(shí)間尺度下提取的細(xì)粒度特征圖,幀內(nèi)局部紋理凸顯;圖5(c)為大時(shí)間尺度提取的粗粒度特征圖,側(cè)重對(duì)幀的全局信息進(jìn)行刻畫。

        以下公式中h′為網(wǎng)絡(luò)隱藏層的初始狀態(tài),默認(rèn)各項(xiàng)設(shè)置為0.1。其中F()?、δ()?、A()?分別表示全連接層、ReLu激活層、平均池化層,代表第t段子視頻的預(yù)測(cè)得分。

        在過去的研究中,通常使用時(shí)域的平均池化來擬合預(yù)測(cè)得分,這忽略HVS 感知機(jī)制的影響。而自注意力機(jī)制能夠?qū)W習(xí)各段視頻之間的相關(guān)性,保留各視頻段的上下文關(guān)系。故引入多通道的自注意力網(wǎng)絡(luò),關(guān)注感知最差時(shí)刻神經(jīng)網(wǎng)絡(luò)所提取語(yǔ)義特征,將完整視頻的語(yǔ)義特征表示為,通過縮放點(diǎn)積的方法比較與Hαi中每段視頻特征分布的相似性,進(jìn)而自適應(yīng)的完成權(quán)重分配,其中dh為隱藏層的大小。

        經(jīng)過對(duì)多尺度的序列內(nèi)容感知,提取豐富時(shí)間語(yǔ)義特征,擬合每一段視頻的預(yù)測(cè)得分,完整視頻的預(yù)測(cè)得分可以表示為。利用多通道的自注意力機(jī)制對(duì)各段視頻進(jìn)行比較,得到自適應(yīng)權(quán)重Wαi=最終視頻的得分Q表示為不同時(shí)間尺度下預(yù)測(cè)得分的均值:

        2 實(shí)驗(yàn)結(jié)果與分析

        為保證實(shí)驗(yàn)的有效性,本文在香港中文大學(xué)圖像與視頻處理實(shí)驗(yàn)室提供的IVPL 數(shù)據(jù)集以及廣泛使用的LIVE與CSIQ[16]數(shù)據(jù)集分別進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集具體信息如表1所示。

        表1 數(shù)據(jù)集信息Table 1 Information of dataset

        本文遵循與主流文獻(xiàn)一致的測(cè)試流程,隨機(jī)選擇80%的參考視頻進(jìn)行訓(xùn)練,剩下的20%用于驗(yàn)證。一旦某個(gè)參考視頻被劃分到訓(xùn)練集或測(cè)試集,由它生成的所有失真視頻將被放入對(duì)應(yīng)的數(shù)據(jù)集中,以保證訓(xùn)練集與測(cè)試集之間沒有交集。在隨機(jī)劃分?jǐn)?shù)據(jù)集重復(fù)實(shí)驗(yàn)10次的條件下,使用斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman’s correlation coefficient,SRCC)、肯德爾等級(jí)相關(guān)系數(shù)(Kendall’s tau coefficient,KRCC)和皮爾遜線性相關(guān)系數(shù)(Pearson correlation coefficient,PLCC)進(jìn)行性能比較。

        (1)PLCC 用于衡量預(yù)測(cè)得分Ypre與主觀評(píng)分Xlab之間的線性相關(guān)程度,令?Xlab與?Ypre分別為其標(biāo)準(zhǔn)差,通過cov()?計(jì)算其協(xié)方差,則PLCC可以表示為:

        PLCC的取值范圍為[0,1],該數(shù)值越大表示預(yù)測(cè)結(jié)果與實(shí)際主觀評(píng)分線性相關(guān)程度越強(qiáng),模型預(yù)測(cè)越準(zhǔn)確。

        (2)SRCC 和KRCC 用于衡量預(yù)測(cè)得分與主觀得分間的等級(jí)相關(guān)性,取n為數(shù)據(jù)對(duì)的總數(shù),di為預(yù)測(cè)得分與主觀得分間的等級(jí)差異,nd為得分不一致的數(shù)據(jù)對(duì)數(shù),ns為得分一致的數(shù)據(jù)對(duì)數(shù)。這兩者可以表示為:

        SRCC 與KRCC 的取值范圍為[]-1,+1 ,當(dāng)預(yù)測(cè)值與標(biāo)簽值的變化趨勢(shì)完全相同時(shí),這兩個(gè)變量之間的相關(guān)系數(shù)可以達(dá)到+1;若兩個(gè)變量的變化趨勢(shì)完全相反,則相關(guān)系數(shù)達(dá)到-1。對(duì)于VQA 問題,SRCC 或KRCC越接近+1,代表模型效果越好。

        2.1 模型性能比較

        為全面地比較本算法,本文將所提方法與現(xiàn)有的10個(gè)FR-VQA模型進(jìn)行比較,即PSNR、MS-SSIM[17]、GMSD、MOVIE、Vis3[16]、VMAF[18]和FAST,以及近些年提出的基于深度學(xué)習(xí)FR-VQA模型DeepVQA、C3DVQA和SDM。本文對(duì)已開源的算法按照相同的流程進(jìn)行驗(yàn)證,性能結(jié)果以*號(hào)注明,其余模型的性能均取自相關(guān)文獻(xiàn)。表2列出三個(gè)公開數(shù)據(jù)集上各種FR-VQA模型的總體性能。

        表2 VQA算法在各個(gè)數(shù)據(jù)集上的性能Table 2 Performance comparison of video quality evaluation algorithms on various dataset

        通過比較SRCC、KRCC 指標(biāo)可以看出:(1)傳統(tǒng)全參考圖像質(zhì)量評(píng)價(jià)算法如PSNR、MS-SSIM、GMSD 忽略視頻在時(shí)間域上的失真,導(dǎo)致算法性能表現(xiàn)比較差;(2)利用傳統(tǒng)統(tǒng)計(jì)特征的FR-VQA 算法如MOVIE、VMAF、Vis3、FAST 等通過加入前后幀間的光流特征對(duì)時(shí)域失真表征,較IQA 算法性能有部分提升,但仍與人類主觀感知有差距;(3)而基于深度學(xué)習(xí)的FR-VQA 算法如C3DVQA、DeepVQA 等總體性能較傳統(tǒng)方法都有大幅提升,但C3DVQA 或者DeepVQA 在LIVE 數(shù)據(jù)集實(shí)測(cè)的性能并不出色,這是由于深度學(xué)習(xí)方法在傳統(tǒng)小數(shù)據(jù)集上由于樣本量少參數(shù)量多,模型極易出現(xiàn)過擬合,從而導(dǎo)致模型泛用性下降,其預(yù)測(cè)結(jié)果容易受到數(shù)據(jù)集劃分的影響。此外,上述三種FR-VQA算法都采用固定間隔采樣策略,并沒有深入考慮將采樣策略與HVS的感知特性相聯(lián)系。

        本文所提算法在公開數(shù)據(jù)集中絕大部分指標(biāo)都取得最優(yōu)或者次優(yōu)的結(jié)果,且SRCC 指標(biāo)都高于0.93,這表明本算法具有更強(qiáng)的穩(wěn)定性與泛化能力,始終與人類感知保持良好的一致性。圖6給出多種IQA與VQA算法的性能分布情況,橙色橫線代表性能的中位數(shù),綠色三角形代表其平均值。

        圖6 模型的性能結(jié)果(SRCC與PLCC)對(duì)比Fig.6 Performance comparison(SRCC and PLCC)

        由箱線圖可以觀察到部分算法預(yù)測(cè)結(jié)果較為分散。如圖6(b)中MS-SSIM 算法獲得的PLCC 指標(biāo)最高達(dá)到0.943 8,而最低得分卻只有0.538 6,所以得分的分布范圍也是比較算法的標(biāo)準(zhǔn)之一。從此角度看,在不同數(shù)據(jù)集的多個(gè)指標(biāo)中,本文提出的方法不僅擁有更加優(yōu)越的性能而且預(yù)測(cè)得分的分布也更加緊湊,證明該方法具有更強(qiáng)的有效性和魯棒性。

        視頻預(yù)測(cè)得分與真實(shí)得分被歸一化到0-1 范圍內(nèi),預(yù)測(cè)得分越接近圖7 中的對(duì)角線,表明預(yù)測(cè)精確度越高。圖7中將此前性能最優(yōu)算法SDM與本文算法在LIVE數(shù)據(jù)集上進(jìn)行比較。從圖中可以看出本算法的預(yù)測(cè)數(shù)據(jù)主要分布在對(duì)角線的兩側(cè),展現(xiàn)更良好的擬合效果。

        圖7 模型主觀得分與預(yù)測(cè)得分的分布圖Fig.7 Subjective score and predicted score distribution diagram

        2.2 消融實(shí)驗(yàn)

        為充分驗(yàn)證算法中不同模塊的有效性,本文以SRCC、KRCC、PLCC 以及RMSE 為指標(biāo)在三個(gè)公開數(shù)據(jù)集中進(jìn)行消融實(shí)驗(yàn),分別對(duì)固定間隔采樣模塊(fixed interval frame sampling module,F(xiàn)FS)、自適應(yīng)采樣模塊(adaptively frame sampling,AFS)、多尺度時(shí)域信息融合模塊及多通道自注意力模塊進(jìn)行增量實(shí)驗(yàn),比較各模塊對(duì)性能的影響。

        如表3所示,隨著各個(gè)模塊的加入絕大部分指標(biāo)都有提升。例如LIVE 數(shù)據(jù)集中,初始僅利用固定間隔采樣策略SRCC與KRCC僅為0.923 9和0.771 7,而加入本文所提出的自適應(yīng)采樣模塊,模型對(duì)嚴(yán)重幀失真進(jìn)行感知,SRCC與KRCC指標(biāo)略有提升;再接入多尺度感知網(wǎng)絡(luò)感知時(shí)序特征,SRCC與KRCC指標(biāo)顯著提升到0.936 4與0.802 3;最后接入多通道的注意力機(jī)制對(duì)時(shí)序特征回歸,得到預(yù)測(cè)得分,雖然SRCC 與KRCC 提升較小但是PLCC 提升顯著,由此驗(yàn)證注意力機(jī)制對(duì)于模型預(yù)測(cè)準(zhǔn)確性的提升。雖然LIVE數(shù)據(jù)集中多模塊的組合在每項(xiàng)指標(biāo)都取得最好成績(jī),但在CSIQ 數(shù)據(jù)集中PLCC 與RMSE卻有所損失,原因?yàn)槠湟曨l幀率在25~60 之間不等,三種尺度感知特征并不具有完整代表意義,進(jìn)而影響模型性能。本文以SRCC為指標(biāo),對(duì)引入的模塊在三個(gè)數(shù)據(jù)集中進(jìn)行增量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果在柱形圖8中進(jìn)行展示。

        表3 不同模塊在各個(gè)數(shù)據(jù)集上的性能比較Table 3 Performance comparison of different modules on various dataset

        圖8 不同數(shù)據(jù)集下,不同模塊組合的性能結(jié)果對(duì)比Fig.8 Comparison of results of different modules combinations on various dataset

        實(shí)驗(yàn)結(jié)果證明,AFS+MTN+MTA的組合在CSIQ數(shù)據(jù)集中實(shí)測(cè)所得PLCC與RMSE指標(biāo)雖并未取得最優(yōu),但綜合考慮其他數(shù)據(jù)集中的多項(xiàng)指標(biāo)表現(xiàn)來看,其仍取得最優(yōu)的性能。

        對(duì)幀內(nèi)空域特征進(jìn)行刻畫時(shí),為比較基于神經(jīng)網(wǎng)絡(luò)提取的深度特征與人為設(shè)計(jì)的傳統(tǒng)特征在性能和復(fù)雜度的區(qū)別,本文在僅改變空域特征提取方式的條件下,以SRCC 為指標(biāo)測(cè)試完整模型在各數(shù)據(jù)集的性能表現(xiàn)以及模型前向推理耗費(fèi)的時(shí)間。其中,深度特征的提取方式與CNN-TLVQM[19]一致,利用預(yù)訓(xùn)練的ResNet-50網(wǎng)絡(luò)對(duì)視頻幀進(jìn)行感知得到深度特征圖Srest,而傳統(tǒng)手工特征以字符Strat表示。針對(duì)不同分辨率視頻,CPU上的測(cè)試結(jié)果以秒為最小時(shí)間單位統(tǒng)計(jì)。具體結(jié)果如表4所示,其中{XXX}frs@{YYY}p分別表示視頻包含幀數(shù)以及視頻分辨率。

        表4 不同特征提取方式耗費(fèi)時(shí)間對(duì)比Table 4 Comparison of time taken by different feature extraction methods單位:s

        為驗(yàn)證基于深度學(xué)習(xí)的特征圖Srest與利用傳統(tǒng)手工特征拼接特征圖Strat的有效性,本文在多個(gè)公開數(shù)據(jù)集以SRCC為指標(biāo)進(jìn)行對(duì)比實(shí)驗(yàn),最終結(jié)果如表5所示,并在圖9中展示多次實(shí)驗(yàn)所得分?jǐn)?shù)的分布范圍。

        表5 各數(shù)據(jù)集中不同特征提取方式性能對(duì)比Table 5 Performance comparison of different feature extraction methodson various dataset

        圖9 各數(shù)據(jù)集中不同特征提取方式性能對(duì)比Fig.9 Performance comparison of different feature extraction combinations on various dataset

        由圖9 可知基于深度學(xué)習(xí)的特征與基于統(tǒng)計(jì)特性的傳統(tǒng)手工特征在各數(shù)據(jù)集上性能相差并不大,但是神經(jīng)網(wǎng)絡(luò)模型計(jì)算復(fù)雜度較高,特征提取耗費(fèi)時(shí)間較長(zhǎng),而傳統(tǒng)手工特征擁有更低計(jì)算復(fù)雜度。此外,利用傳統(tǒng)手工特征得到的實(shí)驗(yàn)結(jié)果上下浮動(dòng)較小且下限較高,而利用深度學(xué)習(xí)特征得到的實(shí)驗(yàn)結(jié)果差異較大。這主要因?yàn)轭A(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型包含上百萬(wàn)的參數(shù),而全參考數(shù)據(jù)集較小極容易得到過擬合的特征圖,導(dǎo)致模型的魯棒性下降。

        3 結(jié)論

        首先,本文結(jié)合感知失真度與感知連續(xù)機(jī)制提出自適應(yīng)采樣策略,成功克服傳統(tǒng)方法中固定間隔采樣丟失關(guān)鍵幀的弊端;其次,為解決單一尺度特征對(duì)視頻整體失真刻畫不充分的問題,本文從HVS 的長(zhǎng)期記憶機(jī)制出發(fā),利用堆疊的LSTM 網(wǎng)絡(luò)提取多尺度的時(shí)空域特征,并結(jié)合人類視覺復(fù)雜的前反饋感知機(jī)制,進(jìn)而探究聚合多尺度特征的有效方式,提出基于多尺度時(shí)空特征聚合網(wǎng)絡(luò)的全參考視頻質(zhì)量評(píng)價(jià)算法。通過全面的消融實(shí)驗(yàn),驗(yàn)證了所提各模塊的有效性。在多個(gè)公開數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文模型具有更優(yōu)的泛化能力,且與人類感知基本一致,相對(duì)于目前最優(yōu)FR-VQA方法表現(xiàn)出更出色的性能。

        猜你喜歡
        空域尺度預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        我國(guó)全空域防空體系精彩亮相珠海航展
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        不必預(yù)測(cè)未來,只需把握現(xiàn)在
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        基于貝葉斯估計(jì)的短時(shí)空域扇區(qū)交通流量預(yù)測(cè)
        淺談我國(guó)低空空域運(yùn)行管理現(xiàn)狀及發(fā)展
        基于能量空域調(diào)控的射頻加熱花生醬均勻性研究
        在线涩涩免费观看国产精品| 97久久综合精品国产丝袜长腿| 亚洲女同同性少妇熟女| 日本一区不卡高清在线观看 | 国产亚洲中文字幕一区| 午夜免费电影| 236宅宅理论片免费| 久久久男人天堂| 国产va精品免费观看| 人妻av午夜综合福利视频| 国产精品亚洲综合久久系列| 97精品国产一区二区三区| 国产婷婷色综合av蜜臀av| 精品久久久久久777米琪桃花| 五月天久久国产你懂的| 一区二区三区中文字幕有码 | 中文字幕人成乱码中文乱码 | 国产精品亚洲五月天高清| 精品一区二区av天堂| 超清无码AV丝袜片在线观看| 人妻少妇激情久久综合| 在线观看一区二区三区在线观看| 青春草免费在线观看视频| 欧美狠狠入鲁的视频777色 | 国产午夜毛片v一区二区三区| 国产av影片麻豆精品传媒| 婷婷成人亚洲综合国产| av中文字幕性女高清在线| 国产手机在线观看一区二区三区 | 久久精品国产亚洲精品| 欧洲亚洲色一区二区色99| 91盗摄偷拍一区二区三区| 久久天天躁狠狠躁夜夜av| 中文字幕精品亚洲人成| 国产高清一区二区三区视频| 蜜桃视频羞羞在线观看| 无码av天天av天天爽| 50岁退休熟女露脸高潮| 午夜tv视频免费国产区4| 美国又粗又长久久性黄大片| 一区二区三区内射美女毛片|