亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        注意力分布機制下的全景圖像質(zhì)量評價

        2021-02-24 05:11:32安平劉欣丁文欣孟春麗
        關(guān)鍵詞:全景受試者顯著性

        安平,劉欣,丁文欣,孟春麗

        (上海大學通信與信息工程學院,上海 200444)

        1 引言

        虛擬現(xiàn)實(Virtual Reality, VR)作為新興的媒體,融合了新型顯示、計算機仿真、人機交互、圖像處理、人工智能等多個領(lǐng)域技術(shù),可以創(chuàng)建一個符合現(xiàn)實世界規(guī)則的虛擬環(huán)境,也可以構(gòu)建一個與現(xiàn)實相悖的完整假設(shè)環(huán)境,給人們帶來沉浸式體驗。虛擬現(xiàn)實在教育、游戲、房地產(chǎn)、汽車、軍事等眾多領(lǐng)域都發(fā)揮著重要作用,應用前景巨大。

        頭戴式設(shè)備(Head Mount Display,HMD)用來顯示全景和立體圖像或視頻,為用戶提供模擬的沉浸式環(huán)境。全景圖像作為VR媒體內(nèi)容最主要的形式之一,可以為觀看者提供360度自由觀看的效果。自然場景的全景圖像通常有兩種拍攝方式:一種是利用全自動的全景相機拍攝得到,這種全景相機內(nèi)部安裝有多個不同方向的鏡頭,拍攝后利用相機自帶的圖像拼接算法得到全景圖像;另一種是使用單反相機配合魚眼鏡頭和云臺,將相機固定在云臺上,拍攝多張四周以及上下有部分重疊的圖像,再使用拼接算法進行拼接。

        全景圖像在拼接時可能會因為視差產(chǎn)生重影或者模糊;在編碼時會降低圖像的質(zhì)量;在進行播放時,可能會因為頭戴式設(shè)備的硬件條件不足,使得呈現(xiàn)的畫質(zhì)差或者畫面卡頓,也可能因為觀看者對于畫面或者設(shè)備不適應,產(chǎn)生眩暈感。采集、拼接、壓縮、傳輸和播放等環(huán)節(jié)都可能對全景圖像質(zhì)量造成損害,嚴重影響觀看者的體驗。準確地評價全景圖像的質(zhì)量可以有效幫助拼接、壓縮算法以及播放設(shè)備的改進。

        與普通圖像的質(zhì)量評價類似,全景圖像質(zhì)量評價也包括主觀評價和客觀評價兩個分支。主觀評價結(jié)果相對可靠,可以作為客觀評價模型的真值;而客觀評價模型具有批處理和結(jié)果可再現(xiàn)的優(yōu)點。大多數(shù)客觀評估模型都基于自然場景統(tǒng)計和模擬人類視覺系統(tǒng)的數(shù)學模型。根據(jù)其對參考圖像的依賴性,客觀評價包括三類:完全參考(full reference,FR)、半?yún)⒖?reduced reference,RR)、無參考(no reference,NR)[1]。FR評價方法充分利用參考圖像的完整信息,通常更可靠和準確;RR評估方法通過提取參考圖像的部分統(tǒng)計特征來計算圖像質(zhì)量;NR評價模型只使用測試圖像,具有很高的靈活性,最具實用價值。由于全景圖像是從球面投影到平面格式進行編碼傳輸?shù)模瑐鹘y(tǒng)的圖像質(zhì)量評價模型并不適用于全景圖像。因此,建立一個有效的客觀質(zhì)量評價模型對全景圖像的發(fā)展具有重要意義。

        現(xiàn)有的全參考全景圖像質(zhì)量評價方法大多是基于峰值信噪比(Peak Signal to Noise Ratio,PSNR)或者結(jié)構(gòu)相似性(Structural Similarity,SSIM),通過反投影、增加權(quán)重策略的方式來擴展到全景圖像質(zhì)量評價。如S-PSNR(Spherical PSNR)[2]、WS-PSNR(Weighted-to-Sphericallyuniform PSNR)[3]、CPP-PSNR(Craster Parabolic Projection PSNR)[4]、S-SSIM(Spherical SSIM)[5]、WS-SSIM(Weightedto -Spherically-uniform PSNR)[6]、USS-PSNR(Uniformly Sampled Spherical PSNR)[7]。這些方法在計算上較為方便,但未能考慮到受試者在觀看全景圖像時,對不同區(qū)域的感興趣程度和觀看時長不同,甚至有超過1/3的區(qū)域沒有被觀看[8]。無參考方法多為基于深度學習的方法,Kim等[9]提出了一種基于生成對抗網(wǎng)絡的模型,Li等[10]提出了基于視口的卷積神經(jīng)網(wǎng)絡方法,Xu等人提出了一種面向視口的圖卷積網(wǎng)絡方法[11]。深度學習的方法需要對圖像進行分塊操作,利用網(wǎng)絡對每個分塊單獨進行打分,然后使用權(quán)重分配策略對分塊的質(zhì)量進行融合。因此,這種方式十分依賴分塊的質(zhì)量分數(shù),并且無法大范圍地感知全景圖像的質(zhì)量。

        由于360°圖像的觀看范圍以及觀看方式與2D圖像完全不同,因此,在人類視覺感知方面,2D圖像和360°圖像最大的區(qū)別在于視覺注意力[12]。針對當前全景圖像質(zhì)量評價研究存在的問題,在設(shè)計客觀質(zhì)量評價方法時應考慮受試者在觀看全景圖像的注意力分布,同時從全局的角度感知全景圖像的質(zhì)量。本文重點討論兩種無參考的全景圖像質(zhì)量評價方法:(1)針對全景圖像中不同區(qū)域分塊受到編碼失真的影響不同以及受試者對不同區(qū)域分塊關(guān)注度不同的特點,提出基于顯著性檢測的無參考全景圖像質(zhì)量評價方法;(2)兼顧受試者對全景圖像的全局感知質(zhì)量和局部注意力,提出基于多特征融合的全景圖像質(zhì)量評價方法。

        2 全景圖像處理過程及顯著圖特性

        2.1 全景圖像處理過程

        一個完整的全景圖像處理過程包括圖像采集、拼接、投影變換、壓縮編碼傳輸、圖像解碼、反投影,如圖1所示。其中常用的投影格式有:等矩形投影(Equi-Rectangular Projection,ERP)、立方體投影(Cubmap Projection,CMP)、等面積投影(Equal-area Projection, EAP)、八面體投影(Octahedron Projection, OHP)、正二十面體投影(Icosahedron Projection,ISP)[13]。由于不同投影格式在壓縮比和畫質(zhì)重現(xiàn)上,有各自的優(yōu)缺點,因此面對不同的使用場景,便出現(xiàn)了不同的選擇方案。全景視頻技術(shù)發(fā)展迅速,至今仍未有統(tǒng)一的標準。

        圖1 全景圖像處理過程

        在已有的投影類型中,從球面到平面的采樣密度在每個像素位置是不均勻的。因此,直接應用傳統(tǒng)圖像質(zhì)量評價方法會使得不同像素位置對質(zhì)量分數(shù)的貢獻存在偏差。

        2.2 全景圖像顯著圖的特性

        Sitzmann 等[14]對受試者觀看全景視頻時的注視點區(qū)域做了定量分析,發(fā)現(xiàn)平均顯著圖在緯度上有一種“赤道偏差(Equator Bias, EB)”的現(xiàn)象。如圖2 所示,平均顯著圖的分布情況可以很好地用拉普拉斯分布來描述。拉普拉斯分布的概率密度函數(shù)為:

        圖2 全景圖像的平均顯著圖及其分布規(guī)律

        其中,μ 和λ 為常數(shù),分別表示位置參數(shù)和尺度參數(shù)。平均顯著圖在緯度方向上的分布具體為位置參數(shù)μ=91.3°、尺度參數(shù)λ=18.58°。

        EB 現(xiàn)象說明,受試者在赤道區(qū)域的觀測頻率遠高于其他區(qū)域,因此對赤道區(qū)域的圖像質(zhì)量也更為敏感。受試者的觀看方向從統(tǒng)計上來說更偏向赤道前方區(qū)域,但對于特定圖像內(nèi)容,觀看方向又會有所不同[15],比如強紋理的區(qū)域。

        3 顯著性檢測的全景圖像質(zhì)量評價

        人們在觀看圖像時會注意到圖像的顯著區(qū)域,尤其當觀看全景圖像時這一現(xiàn)象更加突出。此外,大尺寸的全景圖像中往往存在許多受失真影響很小的弱紋理平坦區(qū)域。考慮這些特性,我們提出一種利用全景圖像顯著性信息的質(zhì)量評價模型。

        3.1 基于顯著性檢測的全景圖像質(zhì)量評價方法框架

        圖3為方法框圖,包括顯著性預測網(wǎng)絡、顯著信息篩選模塊和質(zhì)量評價網(wǎng)絡三個部分。

        圖3 基于顯著性檢測的全景圖像質(zhì)量評價框架

        (1)全景圖像的顯著性預測網(wǎng)絡

        首先,將全景圖像輸入顯著性檢測網(wǎng)絡,得到全景圖像的顯著圖。由于受試者在觀看全景圖像時會重點觀看顯著目標及其附近區(qū)域,因此,全景圖像的主觀質(zhì)量受到顯著目標及其附近區(qū)域的影響較大。本文采用多級網(wǎng)絡結(jié)構(gòu)ML-Net[16]提取全景圖像的顯著圖,網(wǎng)絡結(jié)構(gòu)如圖4所示。其中,特征提取網(wǎng)絡是在VGG-16[17]的基礎(chǔ)上改進的,將不同卷積層的特征抽取出來并疊加得到多級特征圖,這種多級特征圖可以更好地表達圖像的顯著性特征;編碼網(wǎng)絡負責對多級特征圖進行編碼,得到顯著圖;先驗學習網(wǎng)絡結(jié)合了前述的全景圖像拉普拉斯分布平均顯著圖特性,在編碼網(wǎng)絡輸出的顯著圖的基礎(chǔ)上,進一步提高了整體網(wǎng)絡的性能,使得網(wǎng)絡最終的輸出與人類注視點圖更加接近。

        圖4 全景圖像顯著性預測網(wǎng)絡

        (2)全景圖像的顯著信息篩選模塊

        在圖像輸入到分數(shù)預測網(wǎng)絡之前,需要將圖像均勻分割成小塊,每個小塊單獨輸入到網(wǎng)絡中進行訓練。小塊的質(zhì)量分數(shù)與完整全景圖像的質(zhì)量分數(shù)相同。為了滿足所有小塊質(zhì)量一致且能代表整個圖像質(zhì)量的要求,鑒于顯著區(qū)域是受試者重點關(guān)注的區(qū)域,我們以顯著性檢測網(wǎng)絡生成的顯著圖為依據(jù),將每個小塊按照顯著性從大到小排序,選取顯著性較高的部分小塊輸入到質(zhì)量評價預測網(wǎng)絡中。

        (3)全景圖像的質(zhì)量評價分數(shù)預測網(wǎng)絡

        考慮到ResNet-50[18]在質(zhì)量評價任務上的良好性能[19],本方法用其作為質(zhì)量評估主干網(wǎng)絡。將上述篩選模塊輸出的高顯著性全景圖像小塊輸入到質(zhì)量評估網(wǎng)絡中進行訓練和質(zhì)量預測,得到小塊的質(zhì)量分數(shù)。最后計算這些小塊的平均得分作為整個全景圖像的質(zhì)量分數(shù)。

        3.2 實驗結(jié)果

        實驗在ERP格式的全景視頻上進行。對于顯著性檢測任務,使用SALION數(shù)據(jù)庫[20]訓練和測試多級特征網(wǎng)絡。兼顧可訓練圖像的數(shù)量和利于表達圖像質(zhì)量,篩選模塊中的圖像小塊尺寸為128*128,篩選出前40%的高顯著小塊。對于質(zhì)量評價預測網(wǎng)絡,采用VQA-ODV數(shù)據(jù)庫[8]進行訓練和預測;學習率設(shè)置為0.0005。質(zhì)量評價指標采用常用的斯皮爾曼秩序相關(guān)系數(shù)(Spearman Rank-order Correlation Coefficient,SROCC)、皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)和根均方誤差(Root Mean Squared Error,RMSE)。其中,SROCC、PLCC的值越接近1表示算法的效果越好,RMSE的值越接近0表示算法的效果越好。

        本方法與平面圖像評價算法SSIM 以及全景圖像質(zhì)量評價算法S-PSNR[2]、WS-PSNR[3]、CPP-PSNR[4]、WS-SSIM[6]、BP-QAVR[21]、Li[8]的比較結(jié)果如表1所示,對應的散點圖和擬合曲線如圖5所示??梢姳痉椒ň哂懈玫男阅?,預測分數(shù)的散點圖更加集中地分布在擬合曲線附近,證明了本方法對于全景圖像質(zhì)量分數(shù)的預測更加準確。

        表1 基于顯著性檢測評價方法對比實驗結(jié)果

        圖5 MOS與客觀質(zhì)量評價算法預測分數(shù)的散點圖及擬合曲線

        4 多特征融合的全景圖像質(zhì)量評價

        人們在觀看全景圖像時,一方面,注意力往往分布在赤道區(qū)域;另一方面,紋理明顯的區(qū)域也更容易獲得受試者的關(guān)注。此外,失真也會對顏色造成一定的影響,而顏色也是我們主觀感知全景圖像質(zhì)量的重要因素。為此,我們提出一種基于多特征融合的全景圖像質(zhì)量評價方法。

        4.1 方法框架

        多特征融合的全景圖像質(zhì)量評價方法框圖如圖6。主要步驟包括全景圖像預處理、特征提取、模型訓練與測試等。

        圖6 多特征融合的全景圖像質(zhì)量評價方法框圖

        (1)圖像預處理

        圖像預處理主要有兩項內(nèi)容,一項是根據(jù)平均顯著區(qū)域的范圍,對輸入圖像進行裁剪,獲取平均顯著性區(qū)域的圖像,用于后續(xù)提取紋理特征??紤]到人眼的單眼舒適區(qū)域為60°,以及ERP投影的變換方式,本文未嚴格按照圖2的平均顯著圖來截取顯著區(qū)域,而是截取南緯30°至北緯30°這一范圍作為平均顯著區(qū)域。另一項是對圖像進行多次下采樣,得到不同尺度圖像,用于后續(xù)提取自然場景統(tǒng)計(Natural Scene Statistics,NSS)特征。

        (2)特征提取

        為了從全局角度感知全景圖像的質(zhì)量,并考慮觀看者的注意力分布,本文同時提取全局特征和局部特征。

        a)全局特征提取

        我們提取顏色和多尺度NSS兩種全局特征。

        通過頭戴式設(shè)備觀看全景圖像時,2D ERP 圖像被解碼成3D 球形圖像,這是一個從低分辨率轉(zhuǎn)為高分辨率的過程,大量的插值使得顏色仿佛被“稀釋”了一樣。所以受試者在佩戴HMD 觀看全景圖像時,往往會發(fā)現(xiàn)圖像的色彩觀感不如直接在顯示屏上看到的ERP圖像。因此,我們把顏色特征作為一個基礎(chǔ)視覺特征。具體地,將圖像的RGB 顏色通道轉(zhuǎn)換成更接近于人眼視覺系統(tǒng)的HSV(Hue:色調(diào);Saturation:飽和度;Value:明度)空間,并分別計算這三個分量的平均值,作為圖像的色彩特征。

        NSS特征提取步驟參見文獻[22]。不同于原方法對輸入圖像僅做一次下采樣、最后得到一個維度為36的特征向量,本文考慮到全景圖像具有高分辨率的特性,對全景圖像進行了四次下采樣。算上原圖像,共有5 個尺度圖像,得到一個90 維的特征向量,作為最終的多尺度NSS 特征。同一全景圖像在不同的頭戴式設(shè)備上播放時,受試者主觀感知的清晰度會有所不同。不同的尺度可以用于表征不同的清晰度,大的尺度對應著較高的清晰度,小的尺度對應著較低的清晰度。因此,提取多尺度NSS特征不僅擴充了特征的維度,使得特征包含更多的信息,還能更好地表征圖像的清晰度。

        b)局部特征提取

        紋理特征通過刻畫圖像中反復出現(xiàn)的局部模式及其排列規(guī)則來反映物體表面的特性,具備旋轉(zhuǎn)不變性以及良好的抗噪聲性能。對于全景圖像,無論是從投影對紋理造成拉伸的角度,還是從受試者觀看全景圖像的注意力分布特點,在赤道附近提取全景圖像的紋理特征都比全局的紋理特征更為合理。如圖6 所示,我們在赤道區(qū)域進行紋理特征提取。

        提取紋理特征有多種方法,本文選取基于統(tǒng)計的灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)方法[23],得到80 維紋理特征。該方法易于實現(xiàn),并且能夠體現(xiàn)一幅圖像中灰度的有關(guān)方向、相鄰間隔和幅度變化的綜合信息。

        (3)模型訓練及測試

        將上面計算得到的三類特征拼接在一起,作為輸入圖像的整體特征。本文使用OIQA數(shù)據(jù)庫[24]進行模型的支持向量回歸(Support Vector Regression, SVR)訓練與測試。由于SVR 訓練和測試的結(jié)果具有隨機性,為了保證結(jié)果的可靠性,每次訓練時隨機選擇12個場景中對應的原始圖像及失真圖像,測試時選擇剩下的4個場景對應的原始圖像及失真圖像。這樣重復1000 次交叉驗證,取所有實驗中SROCC 的中位數(shù)及其對應的其他指標作為最終的實驗結(jié)果。

        4.2 實驗結(jié)果

        本文提出的方法在OIQA數(shù)據(jù)庫上得到的散點圖如圖7所示,觀察擬合曲線可以發(fā)現(xiàn),模型預測的分數(shù)和主觀分數(shù)擬合的較為完好。本方法與其他方法的對比實驗結(jié)果如表2 所示,可見本方法在SROCC、PLCC 和RMSE三個指標上均優(yōu)于現(xiàn)有的一些全景圖像質(zhì)量評價方法。

        圖7 多特征融合質(zhì)量評價方法的散點圖

        表2 多特征融合方法對比實驗結(jié)果

        5 結(jié)論

        全景圖像在采集、拼接、編碼、傳輸、播放等過程中都可能引起圖像失真,破壞觀看者的體驗。本文利用受試者注意力分布特點,提出了基于顯著性檢測的全景圖像質(zhì)量評價方法:首先將全景圖像輸入顯著性檢測網(wǎng)絡,得到全景圖像的注視點預測圖;接著通過顯著信息篩選模塊,將全景圖像均勻分割為小塊,選擇顯著性高的小塊輸入到質(zhì)量評價網(wǎng)絡中進行訓練和預測,提高了質(zhì)量評價網(wǎng)絡的性能。同時結(jié)合受試者全局質(zhì)量感知特性,提出了基于多特征融合的無參考全景圖像質(zhì)量評價方法:首先,從全局的角度,提取顏色特征和多尺度NSS特征;其次,從注意力機制的角度,提取平均顯著區(qū)域的紋理特征;最后,將多特征融合輸入到SVR中訓練并得到回歸模型,獲得了較好的質(zhì)量預測性能。

        猜你喜歡
        全景受試者顯著性
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        戴上耳機,享受全景聲 JVC EXOFIELD XP-EXT1
        基于顯著性權(quán)重融合的圖像拼接算法
        電子制作(2019年24期)2019-02-23 13:22:26
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        基于視覺顯著性的視頻差錯掩蓋算法
        全景敞視主義與偵探小說中的“看”
        一種基于顯著性邊緣的運動模糊圖像復原方法
        從5.1到全景聲就這么簡單 FOCAL SIB EVO DOLBY ATMOS
        日本加勒比精品一区二区视频| 永久免费观看国产裸体美女| 国模少妇一区二区三区| 9久久精品视香蕉蕉| 日韩精品精品一区二区三区| 国产91在线精品观看| 女同精品一区二区久久| 欧美变态另类刺激| 精品无码一区二区三区亚洲桃色| 一本大道久久东京热无码av| 久久久国产视频久久久| 亚洲国产人成综合网站| 欧美a级在线现免费观看| 亚洲av永久无码精品| 国产激情视频在线| 国产精品女同av在线观看| 91久久偷偷做嫩模影院| 久久久亚洲欧洲日产国码aⅴ| 毛片大全真人在线| 国产91对白在线观看| 大屁股流白浆一区二区| 精品国产一区二区三区性色| 在线观看的网站| 国产香蕉尹人在线观看视频| 日本加勒比东京热日韩| 日本免费三片在线播放| 亚洲一区二区三区高清在线| 青青国产揄拍视频| 亚洲中文字幕无码爆乳av| 国产精品美女久久久浪潮av| 美女被内射中出在线观看| 最美女人体内射精一区二区 | 少妇被粗大猛进进出出男女片| 亚洲av不卡无码国产| 好日子在线观看视频大全免费动漫| 91美女片黄在线观看| 日韩精品一区二区三区免费观影| 国产亚洲超级97免费视频| 国产人妻久久精品二区三区老狼| 亚洲中文字幕无码二区在线| 色婷婷av一区二区三区不卡|