亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于預(yù)訓(xùn)練模型的FVD在非可見光視頻質(zhì)量評(píng)估的應(yīng)用與改進(jìn)*

        2022-12-05 11:36:26集美大學(xué)謝曉婷吳佳棟周俊丞黃勛黃斌
        關(guān)鍵詞:特征質(zhì)量模型

        集美大學(xué) 謝曉婷 吳佳棟 周俊丞 黃勛 黃斌

        FVD 是一種評(píng)估機(jī)器自動(dòng)生成視頻質(zhì)量的評(píng)估指標(biāo),在可見光視頻生成領(lǐng)域已經(jīng)得到了較為廣泛的應(yīng)用?,F(xiàn)有文獻(xiàn)在計(jì)算FVD 數(shù)值時(shí),需要通過一個(gè)預(yù)訓(xùn)練模型提取視頻數(shù)據(jù)的關(guān)鍵特征。然而,這個(gè)預(yù)訓(xùn)練模型是通過可見光視頻數(shù)據(jù)集訓(xùn)練得到的,目前仍缺少對(duì)其在非可見光領(lǐng)域視頻質(zhì)量評(píng)估可行性的探索。為了研究FVD對(duì)非可見光視頻生成的評(píng)估效果,本文基于I3D 模型,使用非可見光領(lǐng)域數(shù)據(jù)集分別微調(diào)預(yù)訓(xùn)練模型和重新訓(xùn)練模型,采用紅外和紫外視頻數(shù)據(jù)集模擬出不同質(zhì)量的生成視頻,剖析FVD 在非可見光視頻質(zhì)量評(píng)估的應(yīng)用表現(xiàn)。本文通過實(shí)驗(yàn)發(fā)現(xiàn):(1)將可見光領(lǐng)域預(yù)訓(xùn)練模型直接遷移到非可見光領(lǐng)域,評(píng)估效果較差,無法吻合人眼觀看感受;(2)當(dāng)使用非可見光數(shù)據(jù)集訓(xùn)練出提取特征的預(yù)訓(xùn)練模型,F(xiàn)VD 的評(píng)估結(jié)果更為準(zhǔn)確。

        隨著基于自注意力的深度生成模型的發(fā)展,人們從圖像生成領(lǐng)域逐步關(guān)注到難度更大的視頻生成領(lǐng)域,并在視頻生成領(lǐng)域取得了一定的進(jìn)展,如Video Transformer[1]模型在Kinetics-400[2]數(shù)據(jù)集上對(duì)真實(shí)人物的復(fù)雜行為實(shí)現(xiàn)了較好的預(yù)測(cè),該模型根據(jù)輸入的初始視頻幀,自動(dòng)生成未來若干幀的人物動(dòng)作,從而達(dá)到行為預(yù)測(cè)的目的。Fréchet Video Distance(FVD)[3]是一種視頻質(zhì)量評(píng)估指標(biāo),它根據(jù)模型生成的視頻與真實(shí)視頻的相似程度,以此來衡量生成視頻質(zhì)量的好壞。在理想的情況下,使用兩段真實(shí)的視頻計(jì)算出的FVD 值為0;隨著生成視頻的質(zhì)量的下降,F(xiàn)VD 的值逐步上升。與PSNR 和SSIM等指標(biāo)相比,F(xiàn)VD 考慮了整個(gè)視頻的分布,從而彌補(bǔ)了幀級(jí)指標(biāo)的缺點(diǎn),使評(píng)估結(jié)果更加符合人眼感受[3]。

        FVD 被提出時(shí)主要考慮可見光(波長在380 ~780nm)領(lǐng)域的視頻質(zhì)量評(píng)估,使用者需要從基于可見光數(shù)據(jù)訓(xùn)練的I3D 模型[4]提取能夠表征視頻質(zhì)量的特征,并用該特征計(jì)算FVD 值。因此,F(xiàn)VD 評(píng)估結(jié)果的準(zhǔn)確性依賴于預(yù)訓(xùn)練I3D 模型能否提供可靠的特征。現(xiàn)有文獻(xiàn)通常采用DeepMind 在Kinetics-400 數(shù)據(jù)集上預(yù)訓(xùn)練的I3D 模型提取視頻特征計(jì)算FVD,該預(yù)訓(xùn)練I3D 模型能夠在UCF-101[5]數(shù)據(jù)集上達(dá)到93.4%的預(yù)測(cè)準(zhǔn)確率[4]。

        隨著視頻領(lǐng)域的進(jìn)一步發(fā)展,人們對(duì)視頻生成的研究從可見光逐漸拓展到非可見光領(lǐng)域。非可見光波長與可見光波長不同,在實(shí)際應(yīng)用中紅外光和紫外光較為常見。比如,在光電探測(cè)領(lǐng)域中,紅外探測(cè)可用于遠(yuǎn)距離檢測(cè)和跟蹤空中飛行目標(biāo)等[6]。在電氣設(shè)備的放電檢測(cè)領(lǐng)域中,基于240-280nm“日盲區(qū)”波段紫外光信號(hào)的“日盲”紫外放電檢測(cè)得到了較廣泛的應(yīng)用[7]。這些應(yīng)用場景均存在著通過機(jī)器自動(dòng)生成視頻達(dá)到擴(kuò)充數(shù)據(jù)集或進(jìn)行目標(biāo)運(yùn)動(dòng)軌跡預(yù)測(cè)的需要。因此,非可見光視頻的生成和質(zhì)量評(píng)估具有重要的意義。

        然而,F(xiàn)VD 是否適用于非可見光的生成視頻質(zhì)量評(píng)估還未得到充分的研究。本文從研究基于可見光的預(yù)訓(xùn)練I3D 模型是否適用于提取非可見光視頻的特征入手,分析通過不同方法得到的I3D 模型對(duì)FVD 計(jì)算所帶來的影響,進(jìn)而研究I3D 模型提取特征的位置將在何種程度上影響FVD 值的計(jì)算,逐步剖析FVD 這一評(píng)估指標(biāo)的特性。同時(shí)提出FVD 在非可見光視頻領(lǐng)域使用方法的建議和改進(jìn),使得FVD 的評(píng)估結(jié)果更具準(zhǔn)確性。

        1 相關(guān)工作

        1.1 視頻生成領(lǐng)域的近況

        與圖像生成相比,建立視頻生成模型是一個(gè)更為復(fù)雜的任務(wù),不僅需要捕捉物體的視覺表現(xiàn),而且需要捕捉時(shí)間維度上的信息,即視頻幀與幀之間的時(shí)間動(dòng)態(tài)。自然視頻的復(fù)雜性要求在高維的輸入上,對(duì)空間和時(shí)間的相關(guān)性進(jìn)行建模,這使得高保真自然視頻生成方面的進(jìn)展無法同圖像、文本的生成達(dá)到同樣的水平。

        VideoGPT[8]是一個(gè)概念上簡單的架構(gòu),將基于似然的生成模型拓展到視頻生成領(lǐng)域。使用Vector Quantised Variational AutoEncoder(VQ-VAE)通過3D 卷積和軸向自注意力學(xué)習(xí)原始視頻的下采樣隱變量表示,同時(shí)使用類似GPT 的架構(gòu)對(duì)隱變量進(jìn)行時(shí)空上的建模。

        VideoTransformer[1]是一個(gè)基于三維自注意力機(jī)制的自回歸視頻生成模型。為降低自注意力機(jī)制的一般二次空間復(fù)雜度,它將子尺度的概念擴(kuò)展到視頻中,將視頻切分成多個(gè)更小的視頻,對(duì)視頻切片進(jìn)行建模,并對(duì)視頻切片應(yīng)用Block-local Self-attention。

        NüWA[9]是一個(gè)統(tǒng)一的多模態(tài)預(yù)訓(xùn)練模型,使用3D Transformer Encoder-decoder Frame 框架和三維鄰近注意力(3D Nearby Attention),將局部稀疏注意力(Localwise Sparse attention)拓展到圖像和視頻領(lǐng)域,驗(yàn)證了局部稀疏注意力與軸向稀疏注意力(Axial-wise Sparse Attention)更適用于生成領(lǐng)域。模型的訓(xùn)練數(shù)據(jù)涵蓋了圖像和視頻數(shù)據(jù),能夠適應(yīng)語言、圖像和視頻生成等多樣的下游任務(wù)。

        1.2 評(píng)估圖像生成效果的指標(biāo)

        1.2.1 PSNR——Peak Signal Noise Ratio

        PSNR 一般用于衡量圖像經(jīng)過壓縮處理后的品質(zhì),它的值是峰值信號(hào)的能量與噪聲的平均能量之比,值越大代表失真越少。PSNR 雖然計(jì)算復(fù)雜度較低,但由于其并未考慮到人眼的視覺特性,因而經(jīng)常出現(xiàn)評(píng)價(jià)結(jié)果與人的主觀感覺不一致的情況。

        1.2.2 SSIM——Structural Similarity Index Measure

        SSIM 是一種衡量兩幅圖像相似度的指標(biāo),從亮度、對(duì)比度與結(jié)構(gòu)來對(duì)兩幅圖像的相似性進(jìn)行評(píng)估。在實(shí)現(xiàn)上,亮度用均值來表示,對(duì)比度用均值歸一化的方差表示,結(jié)構(gòu)用相關(guān)系數(shù)即統(tǒng)計(jì)意義上的協(xié)方差與方差乘積比值來表征,SSIM 的取值在[0,1]之間,值越大代表失真越少。SSIM 的優(yōu)點(diǎn)是通過感知結(jié)構(gòu)信息來評(píng)價(jià)失真,和PSNR 相比可以較好地反映人眼的主觀質(zhì)量感受,缺點(diǎn)在于當(dāng)影像出現(xiàn)非結(jié)構(gòu)性失真(例如位移、縮放、旋轉(zhuǎn))的時(shí)候無法有效運(yùn)作。

        1.2.3 IS——Inception Score

        IS[10]從生成圖片的質(zhì)量和多樣性兩個(gè)方面評(píng)價(jià)一個(gè)生成模型,IS 的值越高說明該生成模型越好。(1)將生成的圖片送入Inception-Net V3(圖片分類網(wǎng)絡(luò))中,得到一個(gè)多維向量y,y 中每個(gè)元素的值表示x 在某一類別的概率。當(dāng)生成的圖片質(zhì)量較好時(shí),其在某一類別的概率應(yīng)該明顯區(qū)別于其他類別,也就是說,p(y|x)的熵應(yīng)該很小。這評(píng)價(jià)了生成圖片的質(zhì)量。(2)如果一個(gè)模型只能生成有限類別的高質(zhì)量圖片,那該模型也不足以成為好的生成模型。如果模型生成多樣性較強(qiáng)的圖片,那么生成的圖片在各個(gè)類別上的分布應(yīng)該是均勻的,也就是說所有類別概率的邊緣分布p(y)熵很大。這評(píng)價(jià)了生成圖片的多樣性。

        1.2.4 FID——Fréchet Inception Distance

        IS 的一個(gè)缺點(diǎn)是沒有將真實(shí)圖片與生成圖片進(jìn)行比較,F(xiàn)ID[11]同樣基于Inception-Net V3,IS 進(jìn)行了改進(jìn)。它將真實(shí)樣本和生成樣本送進(jìn)分類器獲得特征向量,再求該向量的均值和協(xié)方差矩陣,最終進(jìn)行FID 的計(jì)算,F(xiàn)ID 值越小,說明生成圖像與真實(shí)圖像越接近,模型生成的圖片質(zhì)量越好,如式(1)所示。

        1.3 FVD

        FVD——Fréchet Video Distance,是一個(gè)用于評(píng)估生成視頻質(zhì)量的指標(biāo),它基于FID 在三維空間上進(jìn)行擴(kuò)展,利用視頻幀與幀之間的聯(lián)系,以此達(dá)到評(píng)估視頻質(zhì)量的目的。使用者通過獲取生成視頻和真實(shí)視頻的特征,由它們的均值和協(xié)方差矩陣計(jì)算FVD(Eq.1),F(xiàn)VD 值越小,說明模型生成的視頻質(zhì)量越好。

        μR、ΣR:真實(shí)視頻的均值和協(xié)方差矩陣

        μG、ΣG:生成視頻的均值和協(xié)方差矩陣

        在實(shí)際計(jì)算FVD 的流程中,以Inflated 3D Convnet(I3D)作為分類器,在Kinetics-400 數(shù)據(jù)集上訓(xùn)練I3D;訓(xùn)練出的I3D 模型可以用于在真實(shí)的有挑戰(zhàn)的YouTube視頻中識(shí)別人體行為。使用訓(xùn)練好的I3D 模型分別對(duì)真實(shí)樣本和生成樣本進(jìn)行特征提取,取模型最后一層輸出作為特征,特征向量中的“400”代表輸入數(shù)據(jù)在400 種行為類別中的分類概率,由該特征得到均值和協(xié)方差矩陣,進(jìn)行FVD 的計(jì)算(如圖1所示)。

        圖1 FVD 計(jì)算流程Fig.1 Calculation flow of FVD

        2 研究方法

        本文旨在研究FVD 在非可見光視頻領(lǐng)域的使用方法,為保證FVD 評(píng)估準(zhǔn)確性,需要I3D 模型提供準(zhǔn)確可靠的特征。首先使用預(yù)訓(xùn)練I3D 模型對(duì)非可見光視頻進(jìn)行特征提取并計(jì)算FVD 數(shù)值,判斷在大型可見光數(shù)據(jù)集上訓(xùn)練的I3D 模型能否為非可見光視頻的FVD 計(jì)算提供準(zhǔn)確特征;其次使用通過不同途徑得到的I3D 模型提取非可見光數(shù)據(jù)集的特征并計(jì)算FVD 數(shù)值,分析何種途徑能夠計(jì)算出較為合理的FVD 數(shù)值;最后我們針對(duì)I3D 模型不同層所提取的特征分別計(jì)算FVD 數(shù)值,根據(jù)結(jié)果優(yōu)化特征提取策略。

        2.1 節(jié)描述了本篇論文中所使用的數(shù)據(jù)集、模型和實(shí)驗(yàn)的相關(guān)配置。2.2 節(jié)研究預(yù)訓(xùn)練I3D 模型是否能夠直接遷移到其他類型的數(shù)據(jù)集上。2.3 節(jié)探究不同模型對(duì)計(jì)算FVD 數(shù)值產(chǎn)生的影響。2.4 節(jié)分析模型不同層的特征如何影響FVD 值。

        2.1 實(shí)驗(yàn)配置

        我們選擇I3D 模型作為研究對(duì)象,在自制紫外數(shù)據(jù)集、KAIST[12]數(shù)據(jù)集上進(jìn)行所有實(shí)驗(yàn)的研究。其中,自制紫外數(shù)據(jù)集來自于對(duì)紫外目標(biāo)模擬源進(jìn)行拍攝所得,圖像中的目標(biāo)隨著時(shí)間流逝產(chǎn)生大小變化的亮斑。所有數(shù)據(jù)集中的視頻幀均被處理成224×224 大小。其中紫外數(shù)據(jù)集包含2 大類別(目標(biāo)和干擾),2544 個(gè)紫外視頻,每個(gè)視頻100 幀;KAIST 數(shù)據(jù)集包含41 個(gè)在白天和晚上捕獲的校園、街道以及鄉(xiāng)下各種常規(guī)交通場景的視頻,共95328 張圖片,每張圖片都包含RGB 彩色圖像和紅外圖像兩個(gè)版本。

        本論文使用FVD 作為評(píng)估模型提取特征能力的標(biāo)準(zhǔn)。在計(jì)算FVD 時(shí),將數(shù)據(jù)集均分成兩份,分別為S1和S2,其中S1 作為參考集不做任何處理,S2 會(huì)做以下兩類處理模擬生成視頻(如圖2所示)。

        圖2 數(shù)據(jù)集處理流程Fig.2 Dataset processing flow

        (1)對(duì)每個(gè)視頻幀I 加入高斯噪聲如式(2)所示:

        (2)對(duì)每個(gè)視頻幀I 在隨機(jī)區(qū)域S(大小在64×64至128×128 之間)上進(jìn)行遮擋(遮擋區(qū)域像素值為I 的平均像素值)。

        圖3 KAIST 可見光數(shù)據(jù)集(從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲)Fig.3 KAIST visible light dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)

        Sx:被遮擋區(qū)域的寬度 Sy:被遮擋區(qū)域的高度

        圖4 KAIST 紅外數(shù)據(jù)集(從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲)Fig.4 KAIST infrared dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)

        (xstart,ystart):被遮擋區(qū)域在I 中的左上角坐標(biāo)如式(3)所示:

        分別從S1 和S2 中隨機(jī)選擇多段連續(xù)16 幀的視頻,送入I3D 模型進(jìn)行特征提取,重復(fù)1000 次得到1000 組FVD 值。

        對(duì)實(shí)驗(yàn)使用的不同數(shù)據(jù)集計(jì)算FVD 數(shù)值時(shí),都進(jìn)行下述三種實(shí)驗(yàn)配置:

        (1)baseline:S1 和S2 都不做任何處理,使用S1和S2 計(jì)算FVD,得到的FVD 值作為實(shí)驗(yàn)的baseline。這種配置用于模擬出生成視頻的質(zhì)量等同于真實(shí)視頻的質(zhì)量的場景。

        (2)遮擋:對(duì)S2 加入大小隨機(jī)、位置隨機(jī)的遮擋,使用S1 和S2 計(jì)算FVD。這種配置用于模擬出生成視頻的質(zhì)量不高、存在遮擋的場景。

        (3)高斯噪聲:對(duì)S2 加入不同強(qiáng)度的高斯噪聲,使用S1 和S2 計(jì)算FVD。這種配置用于模擬出生成視頻的質(zhì)量不高、存在噪聲的場景。

        2.2 I3D 預(yù)訓(xùn)練模型是否能夠直接遷移到其他類型的數(shù)據(jù)集上

        在提出I3D 的原始論文中,我們知道在Kinetics-400數(shù)據(jù)集上預(yù)訓(xùn)練的I3D 模型具有較好的提取視頻特征的能力。在本實(shí)驗(yàn)中,我們希望知道將該預(yù)訓(xùn)練模型遷移到其他類型的數(shù)據(jù)集上(尤其是非可見光數(shù)據(jù)集),該模型是否仍具有較好的特征提取能力。我們?cè)贙AIST 原始數(shù)據(jù)集上計(jì)算FVD,其中輕度高斯噪聲:μ=0,σ=0.005,重度高斯噪聲:μ=0,σ=0.01,得到的FVD 值如圖6所示。

        圖6 對(duì)KAIST 可見光數(shù)據(jù)集計(jì)算的FVD 值Fig.6 FVD values calculated for the KAIST visible light dataset

        如圖6所示,對(duì)數(shù)據(jù)進(jìn)行不同類型的處理(遮擋和加噪),所得FVD 值整體較baseline 有所上升。同時(shí),不同強(qiáng)度的高斯噪聲所得FVD 有明顯差異,這說明FVD 能夠在一定程度上檢測(cè)注入的噪聲。然而從整體上看,使用在Kinetics-400 上預(yù)訓(xùn)練的I3D 模型對(duì)KAIST可見光數(shù)據(jù)集進(jìn)行特征提取,計(jì)算FVD 所得的baseline值相較于原始論文對(duì)機(jī)械臂運(yùn)動(dòng)視頻評(píng)估的FVD 值[3]高出了一個(gè)數(shù)量級(jí),這說明在可見光領(lǐng)域的不同數(shù)據(jù)集之間,預(yù)訓(xùn)練I3D 模型的遷移仍具有一定的局限性。

        為研究使用可見光數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的I3D 模型是否能夠直接遷移到非可見光數(shù)據(jù)集進(jìn)行特征提取,我們還在KAIST 紅外數(shù)據(jù)集、紫外視頻等數(shù)據(jù)集上計(jì)算FVD。其中KAIST 紅外數(shù)據(jù)集的輕度高斯噪聲:μ=0,σ=0.001,重度高斯噪聲μ=0,σ=0.005,紫外數(shù)據(jù)集的輕度高斯噪聲:μ=0,σ=0.01,重度高斯噪聲μ=0,σ=0.2,得到的FVD 值如圖7所示。

        根據(jù)圖7,將使用可見光數(shù)據(jù)集預(yù)訓(xùn)練的I3D 模型遷移到非可見光數(shù)據(jù)集上,對(duì)于KAIST 數(shù)據(jù)集,通過FVD 值的分布發(fā)現(xiàn)該預(yù)訓(xùn)練模型遷移到KAIST(可見光)的FVD 值反而要比遷移到KAIST(紅外)的FVD值要差。通過baseline 的箱型圖可以發(fā)現(xiàn),對(duì)于兩份質(zhì)量相似度很高的數(shù)據(jù),計(jì)算所得的FVD 值仍然較高。而對(duì)于紫外數(shù)據(jù)集,baseline 相對(duì)偏高,gaussian_better 的FVD 值比gaussian_worse 更高,這與主觀視覺感受不符,無法準(zhǔn)確地評(píng)估視頻質(zhì)量。因此使用可見光領(lǐng)域模型進(jìn)行非可見光數(shù)據(jù)集的特征提取目前仍具有一定挑戰(zhàn)。

        圖7 KAIST 紅外數(shù)據(jù)集(上)和紫外數(shù)據(jù)集(下)的FVD 值Fig.7 FVD values for KAIST infrared dataset (top) and UV dataset (bottom)

        2.3 不同模型是否會(huì)對(duì)FVD 計(jì)算產(chǎn)生影響?

        為進(jìn)一步研究FVD 對(duì)非可見光視頻的評(píng)估能力,我們?cè)谧贤庖曨l數(shù)據(jù)集上進(jìn)行研究,微調(diào)和訓(xùn)練時(shí)只取每個(gè)視頻的后79 幀。

        在本實(shí)驗(yàn)中,首先使用未經(jīng)訓(xùn)練的I3D 模型,將模型參數(shù)隨機(jī)初始化,用其計(jì)算紫外數(shù)據(jù)的FVD,以此作為本實(shí)驗(yàn)的參考值;其次,使用紫外數(shù)據(jù)集對(duì)在Kinetics-400上預(yù)訓(xùn)練的I3D 模型進(jìn)行微調(diào);最后,將紫外數(shù)據(jù)集以視頻為單位,按照7:2:1 的比例劃分出訓(xùn)練集、驗(yàn)證集和測(cè)試集,重新訓(xùn)練I3D 模型。

        基于以上方法,得到以下三個(gè)模型:

        (1)不經(jīng)訓(xùn)練,參數(shù)隨機(jī)初始化的I3D 模型;

        (2)使用紫外數(shù)據(jù)進(jìn)行微調(diào)的I3D 模型;

        (3)在紫外數(shù)據(jù)集上從隨機(jī)初始化權(quán)重開始訓(xùn)練的I3D 模型。

        使用上述三個(gè)模型提取紫外視頻的特征計(jì)算FVD值,其中輕度高斯噪聲:μ=0,σ=0.01,重度高斯噪聲μ=0,σ=0.2,所得實(shí)驗(yàn)結(jié)果如圖8所示。

        根據(jù)圖8,發(fā)現(xiàn)使用參數(shù)隨機(jī)初始化的I3D 模型在紫外數(shù)據(jù)上進(jìn)行特征提取計(jì)算FVD,baseline 呈現(xiàn)接近于0 的數(shù)值,同時(shí)無論對(duì)視頻進(jìn)行遮擋或加噪處理,計(jì)算所得的FVD 值均接近于0。盡管baseline 的FVD 數(shù)值在理論上應(yīng)該越接近0 越好,但加上了遮擋和噪聲的視頻產(chǎn)生的FVD 值應(yīng)該越大越好。這說明了一個(gè)隨機(jī)初始化權(quán)重的I3D 模型不具備有提取可靠視頻特征的能力,因而無法呈現(xiàn)出高質(zhì)量視頻和低質(zhì)量視頻之間的差異。

        圖8 使用隨機(jī)初始化模型(上)、微調(diào)模型(中)和重新訓(xùn)練模型(下)計(jì)算的FVD 值Fig.8 FVD values calculated using the random initialization model(top),fine-tuned model (middle) and re-trained model (bottom)

        使用微調(diào)的I3D 模型提取特征進(jìn)行FVD 計(jì)算,baseline 呈現(xiàn)較低的值,occlusion 的FVD 值比baseline高但較為接近,從遮擋的視頻和原始視頻的視覺效果上看,兩者的FVD 值差距比預(yù)想中小,這說明微調(diào)模型區(qū)分遮擋噪聲的能力較弱。加入高斯噪聲計(jì)算得到的FVD值相比baseline 呈現(xiàn)顯著差異,隨著高斯強(qiáng)度的增加,F(xiàn)VD 值也有明顯的增加,說明微調(diào)模型能夠檢測(cè)不同強(qiáng)度的高斯噪聲。總體上看,高斯噪聲的FVD 值均比遮擋處理高,然而從視覺效果上觀察,遮擋對(duì)視頻質(zhì)量的干擾程度更大,計(jì)算所得FVD 應(yīng)更高,因此所呈現(xiàn)的FVD 值與可視化效果不符。

        最后使用重新訓(xùn)練的I3D 模型,計(jì)算經(jīng)過遮擋所得出的FVD 值比baseline 和高斯噪聲高,且差值明顯,這與可視化效果一致,說明重新訓(xùn)練的I3D 模型檢測(cè)遮擋噪聲的能力較強(qiáng)。然而,高斯噪聲計(jì)算所得FVD 與baseline 呈現(xiàn)不出差異,且隨著高斯強(qiáng)度的增加,F(xiàn)VD值變化不明顯。事實(shí)上,紫外數(shù)據(jù)的一大特征在于亮斑的面積及其位置,高斯噪聲不足以對(duì)亮斑這兩個(gè)特性造成較大的干擾,因此所得FVD 值與baseline 呈現(xiàn)不出較大差異。當(dāng)高斯噪聲逐漸上升,使得肉眼難以分辨紫外亮斑邊界時(shí)(如圖9所示),F(xiàn)VD 值會(huì)有較為明顯的上升(如圖10所示)。

        圖9 不同強(qiáng)度高斯噪聲下紫外圖像的可視化效果Fig.9 Visualization of UV images with different intensity Gaussian noise

        圖10 不同高斯強(qiáng)度下的FVD 值Fig.10 FVD values at different Gaussian intensities

        綜合上述分析,F(xiàn)VD 在非可見光領(lǐng)域具備視頻質(zhì)量評(píng)估的能力,但同時(shí)應(yīng)采用相應(yīng)領(lǐng)域的數(shù)據(jù)集重新訓(xùn)練模型,提升模型提取特征的能力。合適的模型和FVD 二者相互結(jié)合,能使視頻質(zhì)量評(píng)估的結(jié)果更為準(zhǔn)確。

        2.4 模型不同層的特征是否會(huì)影響FVD 的計(jì)算

        從視頻分類模型的不同層提取特征,是否會(huì)影響FVD 的計(jì)算結(jié)果,為研究這一問題,本實(shí)驗(yàn)以下述三個(gè)模型作為研究對(duì)象,分別為:

        (1)在Kinetics-400 上預(yù)訓(xùn)練的I3D 模型;

        (2)使用紫外數(shù)據(jù)對(duì)預(yù)訓(xùn)練I3D 模型進(jìn)行微調(diào)后得到的模型;

        (3)在紫外數(shù)據(jù)集上從隨機(jī)初始化權(quán)重開始訓(xùn)練的I3D 模型。

        其中預(yù)訓(xùn)練模型的分類數(shù)為400,其余兩個(gè)模型的分類數(shù)與紫外視頻類別數(shù)相等均為2(即目標(biāo)和干擾)。將紫外數(shù)據(jù)送入各個(gè)模型,根據(jù)I3D 模型特點(diǎn),分別提取每個(gè)模型的最后兩層特征計(jì)算FVD,結(jié)果如圖11所示。

        根據(jù)圖11(上)發(fā)現(xiàn),對(duì)于預(yù)訓(xùn)練模型,無論是baseline 還是經(jīng)過遮擋和加噪的數(shù)據(jù),在使用倒數(shù)第二層的特征計(jì)算FVD 值時(shí)均接近0,即FVD 無法評(píng)估視頻質(zhì)量,而使用倒數(shù)第一層的特征,F(xiàn)VD 值會(huì)有較為明顯的差異,但加入高斯噪聲的FVD 值比加入遮擋的FVD值更高,這與人眼感受不符,因此預(yù)訓(xùn)練模型仍無法準(zhǔn)確評(píng)估二者質(zhì)量好壞。

        圖11 使用預(yù)訓(xùn)練模型(上)、微調(diào)模型(中)和重新訓(xùn)練模型(下)計(jì)算的FVD 值Fig.11 FVD values calculated using the pre-trained model (top),fine-tuned model (middle) and re-trained model (bottom)

        對(duì)微調(diào)模型,取倒數(shù)第一層特征計(jì)算出的FVD 值區(qū)分度太小,不具備評(píng)估價(jià)值。這可能是因?yàn)椋琁3D 模型的最后一層輸出是輸入數(shù)據(jù)在目標(biāo)和干擾這兩個(gè)類別上的概率,已經(jīng)丟失了大部分能夠表征視頻原始特征的信息。如果取倒數(shù)第二層特征計(jì)算出的FVD 值,便能夠觀察到FVD 值明顯的差別。然而加入遮擋的FVD 值比加入高斯噪聲的FVD 值更低,這與人的視覺感受不符,因此微調(diào)模型在這種情況下也無法準(zhǔn)確判斷視頻質(zhì)量差異。

        對(duì)于重新訓(xùn)練的I3D 模型,提取倒數(shù)第一層的特征計(jì)算出的FVD 值均較低,但使用其倒數(shù)第二層的特征所計(jì)算出的FVD 值能準(zhǔn)確地區(qū)分出不同視頻的質(zhì)量,其中加入遮擋的FVD 值最高,加入高斯噪聲的FVD 值與baseline 相差不大,這與視覺感受較為貼近。相比前兩個(gè)模型,使用重新訓(xùn)練的I3D 模型提取倒二層特征計(jì)算FVD,能夠得到更為準(zhǔn)確的評(píng)估結(jié)果。

        3 結(jié)論

        本文研究了基于I3D 模型的FVD 在非可見光領(lǐng)域的應(yīng)用表現(xiàn),并根據(jù)對(duì)比實(shí)驗(yàn)提出了FVD 使用方法的優(yōu)化。在使用FVD 這一評(píng)估指標(biāo)分析非可見光視頻質(zhì)量時(shí),由于在大型可見光數(shù)據(jù)集上訓(xùn)練的I3D 模型并不能很好地提取非可見光視頻的特征,應(yīng)盡量使用相關(guān)領(lǐng)域的數(shù)據(jù)集重新訓(xùn)練I3D 模型。當(dāng)數(shù)據(jù)集的視頻類別數(shù)較少時(shí),I3D 模型最后一層的特征向量長度也較小,因此提取I3D 模型最后一層的特征所計(jì)算的FVD 并不能清晰準(zhǔn)確地區(qū)分出視頻質(zhì)量差異,而選取倒數(shù)第二層或者更接近于模型輸入端的特征能讓FVD 的評(píng)估結(jié)果更為準(zhǔn)確。

        猜你喜歡
        特征質(zhì)量模型
        一半模型
        “質(zhì)量”知識(shí)鞏固
        質(zhì)量守恒定律考什么
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        国产精品久久久精品三级18| 97久久精品无码一区二区天美 | 久久久午夜精品福利内容| 免费成人福利视频| 日韩女同一区在线观看| 人成综合视频在线播放| 亚洲精品无amm毛片| 久久亚洲Av无码专区| 亚洲av粉嫩性色av| 成人大片免费观看视频| 成人欧美一区二区三区| 91福利视频免费| 日韩av中文字幕一卡二卡| 一道本久久综合久久鬼色 | 日本道免费一区二区三区日韩精品 | 亚洲av日韩av综合aⅴxxx| 午夜精品人妻中字字幕| 日韩 亚洲 制服 欧美 综合| 欧美 变态 另类 人妖| 国产肉体XXXX裸体784大胆| 丝袜美腿亚洲综合一区| 国产精品无码人妻在线| 中文字幕精品无码一区二区| 无码啪啪熟妇人妻区| 国产精品一区av在线| 午夜福利一区二区三区在线观看| 伊人色网站| 最新日本免费一区二区三区| 日日碰狠狠添天天爽超碰97久久| 又湿又黄裸乳漫画无遮挡网站| 午夜福利视频男同女同| 成人激情视频在线手机观看 | 最新日韩av在线不卡| 国产精品自拍午夜伦理福利| 国产精品一卡二卡三卡| 狠狠色狠狠色综合| 亚洲综合色视频在线免费观看| 国产精品亚洲а∨无码播放| 亚洲人成绝费网站色www| 无码 免费 国产在线观看91| 日本二区在线视频观看|