亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于預(yù)訓(xùn)練模型的FVD在非可見光視頻質(zhì)量評(píng)估的應(yīng)用與改進(jìn)＊

2022-12-05 11:36:26集美大學(xué)謝曉婷吳佳棟周俊丞黃勛黃斌

數(shù)字技術(shù)與應(yīng)用 2022年11期

集美大學(xué) 謝曉婷吳佳棟周俊丞黃勛黃斌

FVD 是一種評(píng)估機(jī)器自動(dòng)生成視頻質(zhì)量的評(píng)估指標(biāo)，在可見光視頻生成領(lǐng)域已經(jīng)得到了較為廣泛的應(yīng)用?，F(xiàn)有文獻(xiàn)在計(jì)算FVD 數(shù)值時(shí)，需要通過一個(gè)預(yù)訓(xùn)練模型提取視頻數(shù)據(jù)的關(guān)鍵特征。然而，這個(gè)預(yù)訓(xùn)練模型是通過可見光視頻數(shù)據(jù)集訓(xùn)練得到的，目前仍缺少對(duì)其在非可見光領(lǐng)域視頻質(zhì)量評(píng)估可行性的探索。為了研究FVD對(duì)非可見光視頻生成的評(píng)估效果，本文基于I3D 模型，使用非可見光領(lǐng)域數(shù)據(jù)集分別微調(diào)預(yù)訓(xùn)練模型和重新訓(xùn)練模型，采用紅外和紫外視頻數(shù)據(jù)集模擬出不同質(zhì)量的生成視頻，剖析FVD 在非可見光視頻質(zhì)量評(píng)估的應(yīng)用表現(xiàn)。本文通過實(shí)驗(yàn)發(fā)現(xiàn)：（1）將可見光領(lǐng)域預(yù)訓(xùn)練模型直接遷移到非可見光領(lǐng)域，評(píng)估效果較差，無法吻合人眼觀看感受；（2）當(dāng)使用非可見光數(shù)據(jù)集訓(xùn)練出提取特征的預(yù)訓(xùn)練模型，F(xiàn)VD 的評(píng)估結(jié)果更為準(zhǔn)確。

隨著基于自注意力的深度生成模型的發(fā)展，人們從圖像生成領(lǐng)域逐步關(guān)注到難度更大的視頻生成領(lǐng)域，并在視頻生成領(lǐng)域取得了一定的進(jìn)展，如Video Transformer[1]模型在Kinetics-400[2]數(shù)據(jù)集上對(duì)真實(shí)人物的復(fù)雜行為實(shí)現(xiàn)了較好的預(yù)測(cè)，該模型根據(jù)輸入的初始視頻幀，自動(dòng)生成未來若干幀的人物動(dòng)作，從而達(dá)到行為預(yù)測(cè)的目的。Fréchet Video Distance(FVD)[3]是一種視頻質(zhì)量評(píng)估指標(biāo)，它根據(jù)模型生成的視頻與真實(shí)視頻的相似程度，以此來衡量生成視頻質(zhì)量的好壞。在理想的情況下，使用兩段真實(shí)的視頻計(jì)算出的FVD 值為0；隨著生成視頻的質(zhì)量的下降，F(xiàn)VD 的值逐步上升。與PSNR 和SSIM等指標(biāo)相比，F(xiàn)VD 考慮了整個(gè)視頻的分布，從而彌補(bǔ)了幀級(jí)指標(biāo)的缺點(diǎn)，使評(píng)估結(jié)果更加符合人眼感受[3]。

FVD 被提出時(shí)主要考慮可見光（波長在380 ～780nm）領(lǐng)域的視頻質(zhì)量評(píng)估，使用者需要從基于可見光數(shù)據(jù)訓(xùn)練的I3D 模型[4]提取能夠表征視頻質(zhì)量的特征，并用該特征計(jì)算FVD 值。因此，F(xiàn)VD 評(píng)估結(jié)果的準(zhǔn)確性依賴于預(yù)訓(xùn)練I3D 模型能否提供可靠的特征。現(xiàn)有文獻(xiàn)通常采用DeepMind 在Kinetics-400 數(shù)據(jù)集上預(yù)訓(xùn)練的I3D 模型提取視頻特征計(jì)算FVD，該預(yù)訓(xùn)練I3D 模型能夠在UCF-101[5]數(shù)據(jù)集上達(dá)到93.4%的預(yù)測(cè)準(zhǔn)確率[4]。

隨著視頻領(lǐng)域的進(jìn)一步發(fā)展，人們對(duì)視頻生成的研究從可見光逐漸拓展到非可見光領(lǐng)域。非可見光波長與可見光波長不同，在實(shí)際應(yīng)用中紅外光和紫外光較為常見。比如，在光電探測(cè)領(lǐng)域中，紅外探測(cè)可用于遠(yuǎn)距離檢測(cè)和跟蹤空中飛行目標(biāo)等[6]。在電氣設(shè)備的放電檢測(cè)領(lǐng)域中，基于240-280nm“日盲區(qū)”波段紫外光信號(hào)的“日盲”紫外放電檢測(cè)得到了較廣泛的應(yīng)用[7]。這些應(yīng)用場景均存在著通過機(jī)器自動(dòng)生成視頻達(dá)到擴(kuò)充數(shù)據(jù)集或進(jìn)行目標(biāo)運(yùn)動(dòng)軌跡預(yù)測(cè)的需要。因此，非可見光視頻的生成和質(zhì)量評(píng)估具有重要的意義。

然而，F(xiàn)VD 是否適用于非可見光的生成視頻質(zhì)量評(píng)估還未得到充分的研究。本文從研究基于可見光的預(yù)訓(xùn)練I3D 模型是否適用于提取非可見光視頻的特征入手，分析通過不同方法得到的I3D 模型對(duì)FVD 計(jì)算所帶來的影響，進(jìn)而研究I3D 模型提取特征的位置將在何種程度上影響FVD 值的計(jì)算，逐步剖析FVD 這一評(píng)估指標(biāo)的特性。同時(shí)提出FVD 在非可見光視頻領(lǐng)域使用方法的建議和改進(jìn)，使得FVD 的評(píng)估結(jié)果更具準(zhǔn)確性。

1 相關(guān)工作

1.1 視頻生成領(lǐng)域的近況

與圖像生成相比，建立視頻生成模型是一個(gè)更為復(fù)雜的任務(wù)，不僅需要捕捉物體的視覺表現(xiàn)，而且需要捕捉時(shí)間維度上的信息，即視頻幀與幀之間的時(shí)間動(dòng)態(tài)。自然視頻的復(fù)雜性要求在高維的輸入上，對(duì)空間和時(shí)間的相關(guān)性進(jìn)行建模，這使得高保真自然視頻生成方面的進(jìn)展無法同圖像、文本的生成達(dá)到同樣的水平。

VideoGPT[8]是一個(gè)概念上簡單的架構(gòu)，將基于似然的生成模型拓展到視頻生成領(lǐng)域。使用Vector Quantised Variational AutoEncoder(VQ-VAE)通過3D 卷積和軸向自注意力學(xué)習(xí)原始視頻的下采樣隱變量表示，同時(shí)使用類似GPT 的架構(gòu)對(duì)隱變量進(jìn)行時(shí)空上的建模。

VideoTransformer[1]是一個(gè)基于三維自注意力機(jī)制的自回歸視頻生成模型。為降低自注意力機(jī)制的一般二次空間復(fù)雜度，它將子尺度的概念擴(kuò)展到視頻中，將視頻切分成多個(gè)更小的視頻，對(duì)視頻切片進(jìn)行建模，并對(duì)視頻切片應(yīng)用Block-local Self-attention。

NüWA[9]是一個(gè)統(tǒng)一的多模態(tài)預(yù)訓(xùn)練模型，使用3D Transformer Encoder-decoder Frame 框架和三維鄰近注意力(3D Nearby Attention)，將局部稀疏注意力(Localwise Sparse attention)拓展到圖像和視頻領(lǐng)域，驗(yàn)證了局部稀疏注意力與軸向稀疏注意力(Axial-wise Sparse Attention)更適用于生成領(lǐng)域。模型的訓(xùn)練數(shù)據(jù)涵蓋了圖像和視頻數(shù)據(jù)，能夠適應(yīng)語言、圖像和視頻生成等多樣的下游任務(wù)。

1.2 評(píng)估圖像生成效果的指標(biāo)

1.2.1 PSNR——Peak Signal Noise Ratio

PSNR 一般用于衡量圖像經(jīng)過壓縮處理后的品質(zhì)，它的值是峰值信號(hào)的能量與噪聲的平均能量之比，值越大代表失真越少。PSNR 雖然計(jì)算復(fù)雜度較低，但由于其并未考慮到人眼的視覺特性，因而經(jīng)常出現(xiàn)評(píng)價(jià)結(jié)果與人的主觀感覺不一致的情況。

1.2.2 SSIM——Structural Similarity Index Measure

SSIM 是一種衡量兩幅圖像相似度的指標(biāo)，從亮度、對(duì)比度與結(jié)構(gòu)來對(duì)兩幅圖像的相似性進(jìn)行評(píng)估。在實(shí)現(xiàn)上，亮度用均值來表示，對(duì)比度用均值歸一化的方差表示，結(jié)構(gòu)用相關(guān)系數(shù)即統(tǒng)計(jì)意義上的協(xié)方差與方差乘積比值來表征，SSIM 的取值在[0，1]之間，值越大代表失真越少。SSIM 的優(yōu)點(diǎn)是通過感知結(jié)構(gòu)信息來評(píng)價(jià)失真，和PSNR 相比可以較好地反映人眼的主觀質(zhì)量感受，缺點(diǎn)在于當(dāng)影像出現(xiàn)非結(jié)構(gòu)性失真（例如位移、縮放、旋轉(zhuǎn)）的時(shí)候無法有效運(yùn)作。

1.2.3 IS——Inception Score

IS[10]從生成圖片的質(zhì)量和多樣性兩個(gè)方面評(píng)價(jià)一個(gè)生成模型，IS 的值越高說明該生成模型越好。（1）將生成的圖片送入Inception-Net V3（圖片分類網(wǎng)絡(luò)）中，得到一個(gè)多維向量y，y 中每個(gè)元素的值表示x 在某一類別的概率。當(dāng)生成的圖片質(zhì)量較好時(shí)，其在某一類別的概率應(yīng)該明顯區(qū)別于其他類別，也就是說，p(y|x)的熵應(yīng)該很小。這評(píng)價(jià)了生成圖片的質(zhì)量。（2）如果一個(gè)模型只能生成有限類別的高質(zhì)量圖片，那該模型也不足以成為好的生成模型。如果模型生成多樣性較強(qiáng)的圖片，那么生成的圖片在各個(gè)類別上的分布應(yīng)該是均勻的，也就是說所有類別概率的邊緣分布p(y)熵很大。這評(píng)價(jià)了生成圖片的多樣性。

1.2.4 FID——Fréchet Inception Distance

IS 的一個(gè)缺點(diǎn)是沒有將真實(shí)圖片與生成圖片進(jìn)行比較，F(xiàn)ID[11]同樣基于Inception-Net V3，IS 進(jìn)行了改進(jìn)。它將真實(shí)樣本和生成樣本送進(jìn)分類器獲得特征向量，再求該向量的均值和協(xié)方差矩陣，最終進(jìn)行FID 的計(jì)算，F(xiàn)ID 值越小，說明生成圖像與真實(shí)圖像越接近，模型生成的圖片質(zhì)量越好，如式（1）所示。

1.3 FVD

FVD——Fréchet Video Distance，是一個(gè)用于評(píng)估生成視頻質(zhì)量的指標(biāo)，它基于FID 在三維空間上進(jìn)行擴(kuò)展，利用視頻幀與幀之間的聯(lián)系，以此達(dá)到評(píng)估視頻質(zhì)量的目的。使用者通過獲取生成視頻和真實(shí)視頻的特征，由它們的均值和協(xié)方差矩陣計(jì)算FVD（Eq.1），F(xiàn)VD 值越小，說明模型生成的視頻質(zhì)量越好。

μR、ΣR：真實(shí)視頻的均值和協(xié)方差矩陣

μG、ΣG：生成視頻的均值和協(xié)方差矩陣

在實(shí)際計(jì)算FVD 的流程中，以Inflated 3D Convnet（I3D）作為分類器，在Kinetics-400 數(shù)據(jù)集上訓(xùn)練I3D；訓(xùn)練出的I3D 模型可以用于在真實(shí)的有挑戰(zhàn)的YouTube視頻中識(shí)別人體行為。使用訓(xùn)練好的I3D 模型分別對(duì)真實(shí)樣本和生成樣本進(jìn)行特征提取，取模型最后一層輸出作為特征，特征向量中的“400”代表輸入數(shù)據(jù)在400 種行為類別中的分類概率，由該特征得到均值和協(xié)方差矩陣，進(jìn)行FVD 的計(jì)算（如圖1所示）。

圖1 FVD 計(jì)算流程Fig.1 Calculation flow of FVD

2 研究方法

本文旨在研究FVD 在非可見光視頻領(lǐng)域的使用方法，為保證FVD 評(píng)估準(zhǔn)確性，需要I3D 模型提供準(zhǔn)確可靠的特征。首先使用預(yù)訓(xùn)練I3D 模型對(duì)非可見光視頻進(jìn)行特征提取并計(jì)算FVD 數(shù)值，判斷在大型可見光數(shù)據(jù)集上訓(xùn)練的I3D 模型能否為非可見光視頻的FVD 計(jì)算提供準(zhǔn)確特征；其次使用通過不同途徑得到的I3D 模型提取非可見光數(shù)據(jù)集的特征并計(jì)算FVD 數(shù)值，分析何種途徑能夠計(jì)算出較為合理的FVD 數(shù)值；最后我們針對(duì)I3D 模型不同層所提取的特征分別計(jì)算FVD 數(shù)值，根據(jù)結(jié)果優(yōu)化特征提取策略。

2.1 節(jié)描述了本篇論文中所使用的數(shù)據(jù)集、模型和實(shí)驗(yàn)的相關(guān)配置。2.2 節(jié)研究預(yù)訓(xùn)練I3D 模型是否能夠直接遷移到其他類型的數(shù)據(jù)集上。2.3 節(jié)探究不同模型對(duì)計(jì)算FVD 數(shù)值產(chǎn)生的影響。2.4 節(jié)分析模型不同層的特征如何影響FVD 值。

2.1 實(shí)驗(yàn)配置

我們選擇I3D 模型作為研究對(duì)象，在自制紫外數(shù)據(jù)集、KAIST[12]數(shù)據(jù)集上進(jìn)行所有實(shí)驗(yàn)的研究。其中，自制紫外數(shù)據(jù)集來自于對(duì)紫外目標(biāo)模擬源進(jìn)行拍攝所得，圖像中的目標(biāo)隨著時(shí)間流逝產(chǎn)生大小變化的亮斑。所有數(shù)據(jù)集中的視頻幀均被處理成224×224 大小。其中紫外數(shù)據(jù)集包含2 大類別（目標(biāo)和干擾），2544 個(gè)紫外視頻，每個(gè)視頻100 幀；KAIST 數(shù)據(jù)集包含41 個(gè)在白天和晚上捕獲的校園、街道以及鄉(xiāng)下各種常規(guī)交通場景的視頻，共95328 張圖片，每張圖片都包含RGB 彩色圖像和紅外圖像兩個(gè)版本。

本論文使用FVD 作為評(píng)估模型提取特征能力的標(biāo)準(zhǔn)。在計(jì)算FVD 時(shí)，將數(shù)據(jù)集均分成兩份，分別為S1和S2，其中S1 作為參考集不做任何處理，S2 會(huì)做以下兩類處理模擬生成視頻（如圖2所示）。

圖2 數(shù)據(jù)集處理流程Fig.2 Dataset processing flow

（1）對(duì)每個(gè)視頻幀I 加入高斯噪聲如式（2）所示：

（2）對(duì)每個(gè)視頻幀I 在隨機(jī)區(qū)域S（大小在64×64至128×128 之間）上進(jìn)行遮擋（遮擋區(qū)域像素值為I 的平均像素值）。

圖3 KAIST 可見光數(shù)據(jù)集（從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲）Fig.3 KAIST visible light dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)

Sx：被遮擋區(qū)域的寬度 Sy：被遮擋區(qū)域的高度

圖4 KAIST 紅外數(shù)據(jù)集（從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲）Fig.4 KAIST infrared dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)

(xstart，ystart)：被遮擋區(qū)域在I 中的左上角坐標(biāo)如式（3）所示：

分別從S1 和S2 中隨機(jī)選擇多段連續(xù)16 幀的視頻，送入I3D 模型進(jìn)行特征提取，重復(fù)1000 次得到1000 組FVD 值。

對(duì)實(shí)驗(yàn)使用的不同數(shù)據(jù)集計(jì)算FVD 數(shù)值時(shí)，都進(jìn)行下述三種實(shí)驗(yàn)配置：

（1）baseline：S1 和S2 都不做任何處理，使用S1和S2 計(jì)算FVD，得到的FVD 值作為實(shí)驗(yàn)的baseline。這種配置用于模擬出生成視頻的質(zhì)量等同于真實(shí)視頻的質(zhì)量的場景。

（2）遮擋：對(duì)S2 加入大小隨機(jī)、位置隨機(jī)的遮擋，使用S1 和S2 計(jì)算FVD。這種配置用于模擬出生成視頻的質(zhì)量不高、存在遮擋的場景。

（3）高斯噪聲：對(duì)S2 加入不同強(qiáng)度的高斯噪聲，使用S1 和S2 計(jì)算FVD。這種配置用于模擬出生成視頻的質(zhì)量不高、存在噪聲的場景。

2.2 I3D 預(yù)訓(xùn)練模型是否能夠直接遷移到其他類型的數(shù)據(jù)集上

在提出I3D 的原始論文中，我們知道在Kinetics-400數(shù)據(jù)集上預(yù)訓(xùn)練的I3D 模型具有較好的提取視頻特征的能力。在本實(shí)驗(yàn)中，我們希望知道將該預(yù)訓(xùn)練模型遷移到其他類型的數(shù)據(jù)集上（尤其是非可見光數(shù)據(jù)集），該模型是否仍具有較好的特征提取能力。我們?cè)贙AIST 原始數(shù)據(jù)集上計(jì)算FVD，其中輕度高斯噪聲：μ=0，σ=0.005，重度高斯噪聲：μ=0，σ=0.01，得到的FVD 值如圖6所示。

圖6 對(duì)KAIST 可見光數(shù)據(jù)集計(jì)算的FVD 值Fig.6 FVD values calculated for the KAIST visible light dataset

如圖6所示，對(duì)數(shù)據(jù)進(jìn)行不同類型的處理（遮擋和加噪），所得FVD 值整體較baseline 有所上升。同時(shí)，不同強(qiáng)度的高斯噪聲所得FVD 有明顯差異，這說明FVD 能夠在一定程度上檢測(cè)注入的噪聲。然而從整體上看，使用在Kinetics-400 上預(yù)訓(xùn)練的I3D 模型對(duì)KAIST可見光數(shù)據(jù)集進(jìn)行特征提取，計(jì)算FVD 所得的baseline值相較于原始論文對(duì)機(jī)械臂運(yùn)動(dòng)視頻評(píng)估的FVD 值[3]高出了一個(gè)數(shù)量級(jí)，這說明在可見光領(lǐng)域的不同數(shù)據(jù)集之間，預(yù)訓(xùn)練I3D 模型的遷移仍具有一定的局限性。

為研究使用可見光數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的I3D 模型是否能夠直接遷移到非可見光數(shù)據(jù)集進(jìn)行特征提取，我們還在KAIST 紅外數(shù)據(jù)集、紫外視頻等數(shù)據(jù)集上計(jì)算FVD。其中KAIST 紅外數(shù)據(jù)集的輕度高斯噪聲：μ=0，σ=0.001，重度高斯噪聲μ=0，σ=0.005，紫外數(shù)據(jù)集的輕度高斯噪聲：μ=0，σ=0.01，重度高斯噪聲μ=0，σ=0.2，得到的FVD 值如圖7所示。

根據(jù)圖7，將使用可見光數(shù)據(jù)集預(yù)訓(xùn)練的I3D 模型遷移到非可見光數(shù)據(jù)集上，對(duì)于KAIST 數(shù)據(jù)集，通過FVD 值的分布發(fā)現(xiàn)該預(yù)訓(xùn)練模型遷移到KAIST（可見光）的FVD 值反而要比遷移到KAIST（紅外）的FVD值要差。通過baseline 的箱型圖可以發(fā)現(xiàn)，對(duì)于兩份質(zhì)量相似度很高的數(shù)據(jù)，計(jì)算所得的FVD 值仍然較高。而對(duì)于紫外數(shù)據(jù)集，baseline 相對(duì)偏高，gaussian_better 的FVD 值比gaussian_worse 更高，這與主觀視覺感受不符，無法準(zhǔn)確地評(píng)估視頻質(zhì)量。因此使用可見光領(lǐng)域模型進(jìn)行非可見光數(shù)據(jù)集的特征提取目前仍具有一定挑戰(zhàn)。

圖7 KAIST 紅外數(shù)據(jù)集（上）和紫外數(shù)據(jù)集（下）的FVD 值Fig.7 FVD values for KAIST infrared dataset (top) and UV dataset (bottom)

2.3 不同模型是否會(huì)對(duì)FVD 計(jì)算產(chǎn)生影響？

為進(jìn)一步研究FVD 對(duì)非可見光視頻的評(píng)估能力，我們?cè)谧贤庖曨l數(shù)據(jù)集上進(jìn)行研究，微調(diào)和訓(xùn)練時(shí)只取每個(gè)視頻的后79 幀。

在本實(shí)驗(yàn)中，首先使用未經(jīng)訓(xùn)練的I3D 模型，將模型參數(shù)隨機(jī)初始化，用其計(jì)算紫外數(shù)據(jù)的FVD，以此作為本實(shí)驗(yàn)的參考值；其次，使用紫外數(shù)據(jù)集對(duì)在Kinetics-400上預(yù)訓(xùn)練的I3D 模型進(jìn)行微調(diào)；最后，將紫外數(shù)據(jù)集以視頻為單位，按照7:2:1 的比例劃分出訓(xùn)練集、驗(yàn)證集和測(cè)試集，重新訓(xùn)練I3D 模型。

基于以上方法，得到以下三個(gè)模型：

（1）不經(jīng)訓(xùn)練，參數(shù)隨機(jī)初始化的I3D 模型；

（2）使用紫外數(shù)據(jù)進(jìn)行微調(diào)的I3D 模型；

（3）在紫外數(shù)據(jù)集上從隨機(jī)初始化權(quán)重開始訓(xùn)練的I3D 模型。

使用上述三個(gè)模型提取紫外視頻的特征計(jì)算FVD值，其中輕度高斯噪聲：μ=0，σ=0.01，重度高斯噪聲μ=0，σ=0.2，所得實(shí)驗(yàn)結(jié)果如圖8所示。

根據(jù)圖8，發(fā)現(xiàn)使用參數(shù)隨機(jī)初始化的I3D 模型在紫外數(shù)據(jù)上進(jìn)行特征提取計(jì)算FVD，baseline 呈現(xiàn)接近于0 的數(shù)值，同時(shí)無論對(duì)視頻進(jìn)行遮擋或加噪處理，計(jì)算所得的FVD 值均接近于0。盡管baseline 的FVD 數(shù)值在理論上應(yīng)該越接近0 越好，但加上了遮擋和噪聲的視頻產(chǎn)生的FVD 值應(yīng)該越大越好。這說明了一個(gè)隨機(jī)初始化權(quán)重的I3D 模型不具備有提取可靠視頻特征的能力，因而無法呈現(xiàn)出高質(zhì)量視頻和低質(zhì)量視頻之間的差異。

圖8 使用隨機(jī)初始化模型（上）、微調(diào)模型（中）和重新訓(xùn)練模型（下）計(jì)算的FVD 值Fig.8 FVD values calculated using the random initialization model(top),fine-tuned model (middle) and re-trained model (bottom)

使用微調(diào)的I3D 模型提取特征進(jìn)行FVD 計(jì)算，baseline 呈現(xiàn)較低的值，occlusion 的FVD 值比baseline高但較為接近，從遮擋的視頻和原始視頻的視覺效果上看，兩者的FVD 值差距比預(yù)想中小，這說明微調(diào)模型區(qū)分遮擋噪聲的能力較弱。加入高斯噪聲計(jì)算得到的FVD值相比baseline 呈現(xiàn)顯著差異，隨著高斯強(qiáng)度的增加，F(xiàn)VD 值也有明顯的增加，說明微調(diào)模型能夠檢測(cè)不同強(qiáng)度的高斯噪聲。總體上看，高斯噪聲的FVD 值均比遮擋處理高，然而從視覺效果上觀察，遮擋對(duì)視頻質(zhì)量的干擾程度更大，計(jì)算所得FVD 應(yīng)更高，因此所呈現(xiàn)的FVD 值與可視化效果不符。

最后使用重新訓(xùn)練的I3D 模型，計(jì)算經(jīng)過遮擋所得出的FVD 值比baseline 和高斯噪聲高，且差值明顯，這與可視化效果一致，說明重新訓(xùn)練的I3D 模型檢測(cè)遮擋噪聲的能力較強(qiáng)。然而，高斯噪聲計(jì)算所得FVD 與baseline 呈現(xiàn)不出差異，且隨著高斯強(qiáng)度的增加，F(xiàn)VD值變化不明顯。事實(shí)上，紫外數(shù)據(jù)的一大特征在于亮斑的面積及其位置，高斯噪聲不足以對(duì)亮斑這兩個(gè)特性造成較大的干擾，因此所得FVD 值與baseline 呈現(xiàn)不出較大差異。當(dāng)高斯噪聲逐漸上升，使得肉眼難以分辨紫外亮斑邊界時(shí)（如圖9所示），F(xiàn)VD 值會(huì)有較為明顯的上升（如圖10所示）。

圖9 不同強(qiáng)度高斯噪聲下紫外圖像的可視化效果Fig.9 Visualization of UV images with different intensity Gaussian noise

圖10 不同高斯強(qiáng)度下的FVD 值Fig.10 FVD values at different Gaussian intensities

綜合上述分析，F(xiàn)VD 在非可見光領(lǐng)域具備視頻質(zhì)量評(píng)估的能力，但同時(shí)應(yīng)采用相應(yīng)領(lǐng)域的數(shù)據(jù)集重新訓(xùn)練模型，提升模型提取特征的能力。合適的模型和FVD 二者相互結(jié)合，能使視頻質(zhì)量評(píng)估的結(jié)果更為準(zhǔn)確。

2.4 模型不同層的特征是否會(huì)影響FVD 的計(jì)算

從視頻分類模型的不同層提取特征，是否會(huì)影響FVD 的計(jì)算結(jié)果，為研究這一問題，本實(shí)驗(yàn)以下述三個(gè)模型作為研究對(duì)象，分別為：

（1）在Kinetics-400 上預(yù)訓(xùn)練的I3D 模型；

（2）使用紫外數(shù)據(jù)對(duì)預(yù)訓(xùn)練I3D 模型進(jìn)行微調(diào)后得到的模型；

（3）在紫外數(shù)據(jù)集上從隨機(jī)初始化權(quán)重開始訓(xùn)練的I3D 模型。

其中預(yù)訓(xùn)練模型的分類數(shù)為400，其余兩個(gè)模型的分類數(shù)與紫外視頻類別數(shù)相等均為2（即目標(biāo)和干擾）。將紫外數(shù)據(jù)送入各個(gè)模型，根據(jù)I3D 模型特點(diǎn)，分別提取每個(gè)模型的最后兩層特征計(jì)算FVD，結(jié)果如圖11所示。

根據(jù)圖11（上）發(fā)現(xiàn)，對(duì)于預(yù)訓(xùn)練模型，無論是baseline 還是經(jīng)過遮擋和加噪的數(shù)據(jù)，在使用倒數(shù)第二層的特征計(jì)算FVD 值時(shí)均接近0，即FVD 無法評(píng)估視頻質(zhì)量，而使用倒數(shù)第一層的特征，F(xiàn)VD 值會(huì)有較為明顯的差異，但加入高斯噪聲的FVD 值比加入遮擋的FVD值更高，這與人眼感受不符，因此預(yù)訓(xùn)練模型仍無法準(zhǔn)確評(píng)估二者質(zhì)量好壞。

圖11 使用預(yù)訓(xùn)練模型（上）、微調(diào)模型（中）和重新訓(xùn)練模型（下）計(jì)算的FVD 值Fig.11 FVD values calculated using the pre-trained model (top),fine-tuned model (middle) and re-trained model (bottom)

對(duì)微調(diào)模型，取倒數(shù)第一層特征計(jì)算出的FVD 值區(qū)分度太小，不具備評(píng)估價(jià)值。這可能是因?yàn)椋琁3D 模型的最后一層輸出是輸入數(shù)據(jù)在目標(biāo)和干擾這兩個(gè)類別上的概率，已經(jīng)丟失了大部分能夠表征視頻原始特征的信息。如果取倒數(shù)第二層特征計(jì)算出的FVD 值，便能夠觀察到FVD 值明顯的差別。然而加入遮擋的FVD 值比加入高斯噪聲的FVD 值更低，這與人的視覺感受不符，因此微調(diào)模型在這種情況下也無法準(zhǔn)確判斷視頻質(zhì)量差異。

對(duì)于重新訓(xùn)練的I3D 模型，提取倒數(shù)第一層的特征計(jì)算出的FVD 值均較低，但使用其倒數(shù)第二層的特征所計(jì)算出的FVD 值能準(zhǔn)確地區(qū)分出不同視頻的質(zhì)量，其中加入遮擋的FVD 值最高，加入高斯噪聲的FVD 值與baseline 相差不大，這與視覺感受較為貼近。相比前兩個(gè)模型，使用重新訓(xùn)練的I3D 模型提取倒二層特征計(jì)算FVD，能夠得到更為準(zhǔn)確的評(píng)估結(jié)果。

3 結(jié)論

本文研究了基于I3D 模型的FVD 在非可見光領(lǐng)域的應(yīng)用表現(xiàn)，并根據(jù)對(duì)比實(shí)驗(yàn)提出了FVD 使用方法的優(yōu)化。在使用FVD 這一評(píng)估指標(biāo)分析非可見光視頻質(zhì)量時(shí)，由于在大型可見光數(shù)據(jù)集上訓(xùn)練的I3D 模型并不能很好地提取非可見光視頻的特征，應(yīng)盡量使用相關(guān)領(lǐng)域的數(shù)據(jù)集重新訓(xùn)練I3D 模型。當(dāng)數(shù)據(jù)集的視頻類別數(shù)較少時(shí)，I3D 模型最后一層的特征向量長度也較小，因此提取I3D 模型最后一層的特征所計(jì)算的FVD 并不能清晰準(zhǔn)確地區(qū)分出視頻質(zhì)量差異，而選取倒數(shù)第二層或者更接近于模型輸入端的特征能讓FVD 的評(píng)估結(jié)果更為準(zhǔn)確。