虛擬現(xiàn)實中視覺誘發(fā)暈動癥時空多特征評價

2024-04-08 09:02:02董奇峰郁梅蔣志迪魯子昂蔣剛毅

光學(xué)精密工程 2024年4期

董奇峰，郁梅*，蔣志迪，魯子昂，蔣剛毅

（1.寧波大學(xué) 信息科學(xué)與工程學(xué)院，浙江寧波 315211；2.寧波大學(xué) 科學(xué)技術(shù)學(xué)院信息工程學(xué)院，浙江寧波 315212）

1 引言

虛擬現(xiàn)實（Virtual Reality，VR）技術(shù)作為數(shù)字世界元宇宙的重要基礎(chǔ)，在教育、專業(yè)培訓(xùn)、醫(yī)療和娛樂等領(lǐng)域有著廣泛應(yīng)用［1］。然而，阻礙VR 進一步發(fā)展的一個重要因素是沉浸式VR 體驗可能對用戶造成視覺誘發(fā)暈動癥（Visually Induced Motion Sickness，VIMS）［2］，也被稱為網(wǎng)絡(luò)?。–ybersickness）、模擬器?。⊿imulator Sickness）等［3］。其主要表現(xiàn)為視覺不適、迷失方向甚至惡心嘔吐等［4］。當(dāng)用戶沉浸式觀看VR 時，其視覺感知到的是虛擬運動而非物理運動，前庭系統(tǒng)無法感知沉浸式顯示器視覺誘導(dǎo)的自我運動［5］，這種視覺和前庭感官的不匹配誘發(fā)了暈動癥。讓用戶預(yù)知所要觀看的VR 內(nèi)容潛在的暈動程度有助于避免暈動癥的發(fā)生、保障用戶的健康。因此，評價VR 內(nèi)容可能誘發(fā)的暈動癥等級是一個亟待解決課題。

目前，主流的VIMS 評價方式可分為基于主觀問卷、生理信號、視覺內(nèi)容及三者之間結(jié)合的方式。主觀問卷方式，如模擬器疾病問卷（Simulator Sickness Questionnaire，SSQ）［6］等，耗時長且受限于VR 內(nèi)容數(shù)量，難以實時應(yīng)用?；谏硇盘柕脑u價方式依賴于佩戴式儀器測量結(jié)果，如腦電圖、皮膚電反應(yīng)、胃電圖、心率等［7］，對受試者易產(chǎn)生除視覺內(nèi)容外的不舒適感。因此，建立有效的不依賴于主觀或生理信號的客觀VIMS評價模型對VR 內(nèi)容生成與體驗質(zhì)量改善有十分重要意義。

基于視覺內(nèi)容的VIMS 評價研究尚不成熟，文獻［8］建立了一個包括36 個虛擬場景的VR 病數(shù)據(jù)庫，利用交互模型提出了一個VR 疾病預(yù)測器框架。文獻［9］建立了名為網(wǎng)絡(luò)病參考的數(shù)據(jù)庫，包含兩個參考場景并考慮多因素創(chuàng)建了52 個不同的VR 場景；提出了一種兩階段網(wǎng)絡(luò)架構(gòu)實現(xiàn)神經(jīng)表征和時空表征。文獻［10］為了優(yōu)化VR病與VR 沉浸感，建立了包含10 個參考虛擬現(xiàn)實場景的VR-SP 數(shù)據(jù)庫，并通過兩種運動類型和四種水平速度將參考場景拓展10 種變化。同時，設(shè)計時空旋轉(zhuǎn)幀差圖的統(tǒng)計模型預(yù)測VIMS，通過視覺活動、內(nèi)容特征捕捉VR 內(nèi)容沉浸感。文獻［4］建立了包含52 個不同內(nèi)容屬性的VR 場景，統(tǒng)計各項因素對暈動程度的重要程度。文獻［11］構(gòu)建了10 種類型兩種幀速率的VR 疾病數(shù)據(jù)庫，并提出了一種新的生理融合深度網(wǎng)絡(luò)，通過內(nèi)容刺激和生理反應(yīng)來估計個體VR 疾病。文獻［12］提出的SACA Net 分別從VR 內(nèi)容和人體生理信號中提取癥狀特征以預(yù)測暈動癥。文獻［13］重點考慮VR 內(nèi)容中的異常運動，建立的全景視頻測試數(shù)據(jù)庫包含3 種運動模式，9 個場景；所提網(wǎng)絡(luò)模型將原始視頻和生成視頻之間的差異投影至主觀評分空間來預(yù)測VIMS。文獻［14］針對視頻拍攝中相機抖動引起的VR 疾病，建立了包含20 個不同程度相機抖動的全景視頻數(shù)據(jù)庫，將VR 視頻場景方向和速度的變化作為特征預(yù)測VR 疾病。文獻［15］側(cè)重于預(yù)測VR 疾病的主要癥狀的水平，而非VR 疾病的總體程度；建立了包含20 個基準(zhǔn)視頻，4 種不同幀速率，共80個視頻的全景視頻數(shù)據(jù)庫。文獻［16］設(shè)計了內(nèi)容刺激引導(dǎo)器以模仿人類感受VR 疾病。文獻［17］考慮人類視覺來學(xué)習(xí)信息的特征，并模擬VR 內(nèi)容被接受時的學(xué)習(xí)過程，通過虛擬內(nèi)容學(xué)習(xí)重構(gòu)器和疾病評分預(yù)測器預(yù)測分?jǐn)?shù)。上述工作所涉及的虛擬現(xiàn)實中VIMS 評價的研究均為基于非立體全景視頻內(nèi)容，因而未考慮人眼立體感知特性。

文獻［18］建立了一個包含19 個場景的立體全景視頻內(nèi)容及其相應(yīng)的暈動程度評級的數(shù)據(jù)集，手工提取特征訓(xùn)練機器學(xué)習(xí)算法。文獻［19］建立了目前包含基準(zhǔn)場景最多的立體全景視頻數(shù)據(jù)庫，共包含116 個不同的立體全景視頻內(nèi)容。作者采用深度學(xué)習(xí)的方式考慮人類視覺系統(tǒng)的注意力機制和視網(wǎng)膜的多通道特性，對虛擬環(huán)境中的感官沖突以及雙目立體感知的三階段過程進行仿真建模；并在時間池化模塊利用LSTM（Long Short-Term Memory）模擬人眼的時間記憶效應(yīng)。然而，基于視覺內(nèi)容的評價方案大多考慮的要素不夠全面，對運動信息的提取較為簡單，同時少有考慮時域上的突變對暈動癥的影響。

針對上述問題，本文從人眼感知特性和視頻時空特征的角度考慮，提出了一種基于時空多特征的虛擬現(xiàn)實中視覺誘發(fā)暈動癥評價模型。實驗結(jié)果表明，該模型在立體全景視頻數(shù)據(jù)庫SPVCD 上取得了優(yōu)良的預(yù)測性能，預(yù)測結(jié)果與人眼所感知的暈動程度有較好的一致性。

2 提出的方法

本文從人眼感知特性和視頻時空特征的角度考慮，提出了一種基于時空多特征的虛擬現(xiàn)實中視覺誘發(fā)暈動癥評價模型，其框架如圖1 所示。該模型分為預(yù)處理模塊、特征提取模塊及時域聚合與回歸模塊。預(yù)處理模塊利用左、右視點的中心視口IL，IR求取光流圖F、顯著圖S和視差圖D用于特征提取。運動特征提取模塊用于前背景加權(quán)運動特征M和加速度特征U的提??；視差特征提取模塊用于視差強度特征E和視差梯度能量特征G提??；空域感知特征提取模塊包含一階色度亮度特征H1，V1，二階色度亮度特征H2，V2及空間感知信息特征SI的提取。時域突變特征提取模塊分別對所提取的前背景加權(quán)運動特征M、視差強度特征E、一階色度亮度特征H1，V1計算最大運動突變特征Cmax_M、運動突變特征和Csum_M、最大視差強度突變特征Cmax_E、視差強度突變特征和Csum_E、最大色度、亮度突變特征Cmax_H，Cmax_V，色度、亮度突變特征和Csum_H，Csum_V。最終，將提取的幀級特征進行時域聚合并對其與突變特征采用支持向量回歸（Support Vector Regression，SVR）得到VIMS 評價值。

圖1 視覺誘發(fā)暈動癥評價模型Fig.1 Assessment model of visually induced motion sickness

在立體全景視頻數(shù)據(jù)庫SPVCD 的主觀評分實驗中，為避免頭部旋轉(zhuǎn)而非視頻內(nèi)容引起暈動，受試者只對每個視頻的前中央視口進行評分。因此，本文將原始的立體全景視頻序列投影為立方體投影格式，并取正面投影面作為中央左視口、右視口。對獲取的左、右視口IL，IR通過文獻［19］中的方法計算得到顯著圖S，并通過文獻［20］中的方法計算得到視差圖D與光流圖F，用于后續(xù)的特征提取。

其中：Mk，MkB和MkO分別為第k幀的加權(quán)運動強度、背景運動強度和前景目標(biāo)運動強度。MkB和MkO分別通過二值化后的顯著圖Sbk和非顯著圖1-Sbk加權(quán)光流圖Fk得到，ωB和ωO分別為背景運動向量強度和前景目標(biāo)運動向量強度的權(quán)重，滿足條件：ωB和ωO∈［0，1］，ωB+ωO=1。

其中：NkB，Nk分別為第k幀背景部分和視口中運動強度非零的像素數(shù)，ω1表示運動密度，反映運動的空間分布。該值越大，運動分布越廣，越關(guān)心背景中所發(fā)生的運動。ω2表示背景運動強度，反映背景運動能量。該值越大，背景所包含的運動能量越高。

作為實例，圖2 給出了前背景加權(quán)運動特征提取過程，圖2 為SPVCD 中兩個不同運動類型場景其中一幀的中心視口圖，上圖為序列47（MOS：4.09）的第53 幀中心視口，下圖為序列18（MOS：1.95）的第296 幀視口，圖2（b）～圖2（e）分別為兩視口所對應(yīng)光流圖、顯著圖、背景運動強度圖、目標(biāo)運動強度圖。其中，序列47 第53 幀的背景運動強度權(quán)重ωB為0.28，前景目標(biāo)運動強度權(quán)重ωO為0.72；序列18 第296幀ωB為0.88，ωO為0.12。采用背景與前景目標(biāo)運動加權(quán)的方式，對于序列47 此類前景目標(biāo)運動而背景幾乎不運動的視頻序列，用戶會更關(guān)注其前景目標(biāo)的運動狀態(tài)。而對于序列18 此類前景目標(biāo)與背景都處于運動狀態(tài)的序列，前景目標(biāo)會受到關(guān)注，同時更需關(guān)注背景的運動狀態(tài)，因為此時背景的運動狀態(tài)與視覺誘導(dǎo)的自我運動具有更高的關(guān)聯(lián)性，是影響暈動程度的重要因素。

圖2 前背景加權(quán)運動特征提取Fig.2 Foreground-background weighted motion feature extraction

圖3 展示了本文所提出的前背景加權(quán)運動特征與SPVCD 中70 個（數(shù)據(jù)庫共包含116 個視頻序列）視頻序列平均主觀得分差異（Differential Mean Opinion Score，DMOS）之間的關(guān)系。DMOS 越大代表視頻在主觀實驗中暈動程度越嚴(yán)重，反之，暈動程度越輕。SPVCD 中采用平均主觀意見分（Mean Opinion Score，MOS），由于運動強度越大往往所對應(yīng)視頻序列的MOS 越低，因此，此處采用DMOS 用于展示本文所提前背景加權(quán)運動特征與主觀評價之間的一致性。由圖3 可知，本文所提的前背景加權(quán)運動特征與SPVCD中大部分的視頻序列的主觀評分存在較高的一致性，對暈動程度預(yù)測具有較好的表征能力。

圖3 前背景加權(quán)運動特征與SPVCD 部分視頻序列DMOS 之間的關(guān)系Fig.3 Relationship between pre-background weighted motion features and DMOS of partial videos in SPVCD

2.2.2 加速度特征

對于連續(xù)幀的視頻序列來說，若未發(fā)生加速度等異常運動，那么連續(xù)幀間的光流變化很小；反之則連續(xù)幀之間就會出現(xiàn)較明顯的光流變化［26］?；谠撍枷?，通過相鄰幀之間的速度變化差異計算序列的加速度，當(dāng)視頻場景中出現(xiàn)加速或減速時，兩幀之間會出現(xiàn)較為明顯的速度差別。對由預(yù)處理得到的光流圖像F，計算得到每一幀內(nèi)像素點對應(yīng)的水平和垂直位移，并根據(jù)水平、垂直位移矩陣和幀間間隔計算每一幀上每一個像素點的速度。通過相鄰兩幀的速度差表示加速度，得到基于幀間差的加速度特征。根據(jù)水平、垂直位移和幀間隔n計算第k幀速度Vk：

其中：Δxi_k，Δyi_k分別為每個像素點的水平與垂直位移量，N為視口中的總像素數(shù)，n為兩幀之間間隔，n取1。通過計算相鄰兩幀圖像的速度差的絕對值表示第k幀的加速度特征Uk。

2.3 雙目感知特征

雙眼視差過大是誘發(fā)視覺不適的主要原因之一，比起直接采用整張視差圖像素的均值作為視覺不適特征，DCT 系數(shù)能夠更好地表達圖像中的特征信息［27］。對分塊后的視差圖進行多尺度二維離散余弦變換，每個塊的2D-DCT 系數(shù)由DC 系數(shù)和AC 系數(shù)組成，其中DC 系數(shù)表示塊的平均強度。因此，使用位于DCT 塊左上角的DC系數(shù)代表整塊視差強度特征E。將所有塊對應(yīng)的DC 系數(shù)之和作為整個視差圖的視差強度特征E。因此，第k幀中心視口圖所對應(yīng)的視差強度特征Ek計算為：

其中，g表示DCT 塊的尺度級別，對于g=1，2，3，4 分別對應(yīng)于塊的數(shù)量M×N=1×1，4×4，8×8，16×16；IJ為分塊視差圖中第J塊，J=M×N；DC（·）表示取DC 系數(shù)。

2.3.2 視差梯度能量特征

空間方向上的快速視差變化同樣容易引起輻輳調(diào)節(jié)沖突，視差梯度能量特征是為了捕捉壓縮域中相鄰塊之間的局部視差能量變化。首先，使用整個塊的DCT 系數(shù)之和來表示每個視差塊的能量，并計算當(dāng)前DCT 塊與其上、下、左、右塊之間的能量差來獲得視差梯度能量。因此，尺度級別為g的第k幀中心視口圖所對應(yīng)特征計算為：

其中：E（m，n）表示位于空間位置（m，n）的DCT塊Amn的能量，g表示DCT 塊的尺度級別，J代表視差圖中DCT 塊的數(shù)量。

2.4.1 亮度、色度特征

人類視覺系統(tǒng)對顏色和亮度的感知非常敏感，在觀看視覺內(nèi)容時顏色分布的不均勻以及過亮或過暗的內(nèi)容都會在觀看過程中產(chǎn)生不舒適的體驗感，進而產(chǎn)生暈動。

圖像的顏色分布主要集中在低階矩中，其中，一階矩反映圖像明暗程度、二階矩描述了顏色整體分布范圍。一階矩是計算所有像素點的均值，二階矩是計算所有像素點的方差。將RGB顏色空間轉(zhuǎn)化到與人類描述彩色方式更為一致的HSV 顏色空間，并在HSV 顏色空間分別提取左右視口一、二階的亮度矩和色度矩。以色度分量為例，公式如下：

其中：Hk為第k幀HSV 顏色空間中的色度分量，H1_k為第k幀的色度一階矩，H2_k為第k幀色度二階矩，（x，y）為色度分量的坐標(biāo)，P為視口大小。亮度分量一、二階矩V1_k，V2_k由相同方式求得。

2.4.2 空間感知信息特征

空間感知信息（SI，Spatial-perceptual Information）量化了視頻序列中存在的空間細(xì)節(jié)的復(fù)雜程度，它隨著視覺畫面內(nèi)容豐富程度增加而增加。對于虛擬運動強度相似的兩個視頻序列，更高的暈動程度可能是由于更高的空間感知信息所造成的?？臻g感知信息通過計算梯度向量得到。首先，利用Sobel 算子計算得到梯度向量，對于每個視頻幀計算梯度向量幅度的標(biāo)準(zhǔn)差。第k幀的空間感知信息計算公式為：

以圖4 中兩序列為例，圖4（a）的上下圖分別為SPVCD 中序列3 和序列53 的中心視口圖，圖4（b）的上下圖分別為所對應(yīng)梯度計算結(jié)果。

圖4 SPVCD 中相似序列空間感知信息比較Fig.4 Comparison of SI of similar videos in SPVCD

序列3 的MOS 值為4.86，平均前背景加權(quán)運動特征M為4 276；序列53 的MOS 值為4.27，M為4 084。通過計算，序列3 的空間感知信息特征SIk的均值為0.04，而序列53 的空間感知信息特征SIk的均值為0.10。當(dāng)兩個視頻序列的運動強度相近且均未出現(xiàn)場景切換以及大幅度的視差變化時，空間感知信息成為影響視覺舒適度的因素之一。畫面內(nèi)容豐富的視頻序列相比于畫面內(nèi)容簡單的視頻序列往往更容易在觀看時產(chǎn)生暈動的感受，但相比于運動所造成的不舒適，空間感知信息的增大所造成的暈動程度較為有限。

上述的三類特征均為對待評價的視頻序列的每一幀進行提取所得，稱為幀級特征。通過時域聚合將幀級特征計算為用以描述視頻序列整體暈動程度的特征。對幀級的前背景加權(quán)運動特征Mk、加速度特征Uk、空間感知信息特征SIk，3 個幀級特征在時域上進行平均值、最大值、中值、方差聚合，得到對應(yīng)的12 維立體全景視頻中心視口序列特征；對4 個尺度的幀級視差強度特征Ek、視差梯度能量特征Gk，在時域上進行平均值聚合得到對應(yīng)的8 維立體全景視頻中心視口序列特征；對幀級的一階亮度、色度特征V1_k，H1_k，二階亮度、色度特征V2_k，H2_k，在時域上進行平均值聚合得到相應(yīng)的8 維立體全景視頻中心視口序列特征。最終通過時域聚合共獲得28維特征作為模型的部分特征用于評價立體全景視頻的暈動癥。將用于時域聚合的幀級特征記為Fk，在時域上實現(xiàn)平均值、最大值、中值、方差聚合的公式如下：

其中：Favg，F(xiàn)max，F(xiàn)mid和Fvar分別為幀級特征時域平均值、最大值、中值和方差聚合結(jié)果。K為視頻序列幀數(shù)，SPVCD 中序列統(tǒng)一為K=400。（·）max為取最大值，（·）median為取中值。

2.6 時域突變特征

視覺內(nèi)容的運動強度一定程度反映了視覺前庭不匹配的程度，在沉浸式的視覺環(huán)境中，運動的平滑度對VIMS 的影響也很大［28］。快速、突然的運動變化在運動強度一定的基礎(chǔ)上更容易導(dǎo)致視前庭不協(xié)調(diào)，從而引發(fā)暈動癥。為了衡量快速、突然的運動變化，并同時延伸考慮視差、亮度、色度的突然變化對觀看者可能引起的暈動程度，本文提取時域突變特征用于評價此類因素所帶來的VIMS。

對得到的幀級前背景加權(quán)運動特征Mk、視差強度特征Ek、一階色度、亮度特征H1_k，V1_k分別進行時域突變特征的提取。首先，對幀級特征在時域上做窗口W大小為16 的滑動平均處理，以減少在特征圖提取過程以及幀級特征計算過程中所帶來的誤差?；瑒悠骄蟮那氨尘凹訖?quán)運動特征值并求取幀級特征值的極值（局部最大、最小值）。圖5 展示了滑動平均處理前后SPVCD 序列32 的前背景加權(quán)運動特征值。

圖5 幀級運動特征值滑動平均處理Fig.5 Frame level motion feature value through sliding averaging processing

以運動強度突變?yōu)槔?，在一段時間內(nèi)運動強度變化越大，所造成的暈動程度越大，在統(tǒng)計上表示為相鄰的兩極值點所在直線的斜率的絕對值越大，所對應(yīng)運動強度變化越快。簡化算法默認(rèn)在兩個極值點間各點之間的斜率值保持不變。在相同斜率變化下，所持續(xù)時間越長，所造成的的運動程度也會越大，因此通過計算相鄰的兩極值點所在直線的斜率與兩極值點之間的距離的比率表示第m段運動突變值：

其中：Dm_M代表線性歸一化后第m組局部最大運動特征值max（Mm）和最小運動特征值min（Mm）之間的歐氏距離，dM與dk用于表示最大、最小特征值之間的強度差以及幀間隔。K表示兩相鄰極大極小運動特征值點之間的斜率的絕對值。Cm_M為第m組運動強度突變值，km_max，km_min分別表示局部最大運動特征值和最小運動特征值所對應(yīng)的幀數(shù)，即兩者之差dm表示一次運動強度突變所持續(xù)的時間間隔。當(dāng)一次突變所持續(xù)的時間間隔過短時（dm＜8）默認(rèn)對用戶所造成的暈動感可以忽略不計。

最終對一個視頻中得到的多段運動強度突變值求取總和Csum_M以及最大值Cmax_M，作為表示一個視頻序列中由于運動突變所造成的暈動程度的運動突變特征值。圖6（a）和圖6（b）展示了SPVCD 中序列32 和序列39 的前背景加權(quán)運動特征值與運動突變特征值結(jié)果。序列32 的MOS=1.59，屬于暈動程度較大的視頻序列；序列39 的MOS=4.00，屬于暈動程度較小的視頻序列。通過實驗結(jié)果可以發(fā)現(xiàn)，兩個序列的前背景加權(quán)運動特征平均值接近，但序列32 的運動突變總和（Csum_M=37.50）與運動突變最大值（Cmax_M=6.17）大于序列39 的運動突變總和（Csum_M=22.28）與運動突變最大值（Cmax_M=3.80）。由此證明對于整體運動強度接近的視頻序列，存在更多運動變化的視頻序列更容易造成VIMS。

圖6 運動強度相似序列運動突變特征比較Fig.6 Comparison of motion mutation feature in videos with similar Mk

利用上述相同方法求得視頻序列的視差強度突變特征值Csum_E，Csum_E，亮度突變特征值Csum_V，Csum_V，色度突變特征值Csum_H，Csum_H。最終，提取通過時域聚合的28 維特征以及8 維時域突變特征，共36 維特征用于立體全景視頻VIMS評價。

2.7 回歸模型

采用SVR 作為映射函數(shù)對特征進行回歸以得到最終的客觀評價分?jǐn)?shù)?？紤]一組訓(xùn)練數(shù)據(jù)｛（x1，y1），…，（xl，yl）｝，其中xi∈F為提取的VIMS感知特征，yi是相應(yīng)的MOS。給定參數(shù)C＞0和ε＞0，SVR 的標(biāo)準(zhǔn)形式表示為：

其中，K（xi，xj）=φTφ為核函數(shù)。本文使用核函數(shù)為K（xi，xj）=exp（-γ‖xi-xj‖2）的徑向基函數(shù)。

3 實驗結(jié)果與分析

所提出的預(yù)測模型在SPVCD 立體全景視頻數(shù)據(jù)庫上進行了測試。立體全景視頻數(shù)據(jù)庫（SPVCD）［19］共包含116 個時長為20 s 的立體全景視頻，其中既包含自然場景，也包含人工合成場景。該數(shù)據(jù)庫涵蓋豐富的場景類型、運動類型，包含各種可能造成不同程度暈動的立體全景視頻。SPCVCD 數(shù)據(jù)庫部分視頻首幀如圖7所示。

圖7 SPVCD 數(shù)據(jù)庫部分視頻示例Fig.7 Sample videos in SPVCD database

3.1 整體性能分析

為了檢驗?zāi)Ｐ偷念A(yù)測性能，本文在SPVCD立體全景視頻數(shù)據(jù)庫上進行了實驗。數(shù)據(jù)庫中的116 個視頻，80% 用于訓(xùn)練，20% 用于測試，并確保用于訓(xùn)練與測試的視頻序列互不重疊。采用皮爾遜線性相關(guān)系數(shù)（Pearson Linear Correlation Coefficient， PLCC）、斯皮爾曼相關(guān)系數(shù)（Spearman Rank-order Correlation Coefficient，SROCC）、均方根誤差（Root Mean Square Error，RMSE）三個性能指標(biāo)來衡量所提出模型的性能，計算公式如下：

其中：N表示樣本個數(shù)，Xi和Yi分別表示第i個樣本的客觀模型預(yù)測值和主觀評分值和分別表示客觀模型預(yù)測均值和主觀評分均值。PLCC是用于衡量兩個變量之間線性關(guān)系強度的指標(biāo)，其取值范圍為-1～1。當(dāng)PLCC 接近1 時，表示兩個變量之間存在強正線性關(guān)系。

其中：RXi和RYi分別表示主觀評分值和客觀模型預(yù)測值按相同順序排序后，第i個分?jǐn)?shù)在各自序列中的索引。SROCC 用于衡量兩個變量之間的單調(diào)關(guān)系強度，當(dāng)其接近1 時，表示兩個變量之間存在強正單調(diào)關(guān)系。

RMSE 是衡量預(yù)測值與實際值差異的指標(biāo)，數(shù)值越小代表預(yù)測值與實際值越接近。

同時，為了驗證本文所提出模型的性能以及各特征的有效性，表1 給出了本文所提出的VIMS 評價模型以及去除其中一個類型特征后在SPVCD 數(shù)據(jù)庫上的性能指標(biāo)，并比較了將本文所提出的加權(quán)運動特征提取方法改為僅使用簡單非加權(quán)的顯著區(qū)域光流統(tǒng)計提取運動特征后的性能指標(biāo)。為了盡量保證實驗中訓(xùn)練集與測試集的隨機性，對SPVCD 立體全景視頻數(shù)據(jù)庫共進行1 000 次8∶2 比例的訓(xùn)練-測試集劃分，并取1 000 次結(jié)果的RMSE 的中值所對應(yīng)模型的預(yù)測結(jié)果作為最終預(yù)測性能指標(biāo)。

表1 不同特征集在SPVCD 上測試的性能指標(biāo)Tab.1 Performance indicators of different feature sets when tested on SPVCD

通過表1 實驗結(jié)果可以發(fā)現(xiàn)，在去除任何一個類型的特征后模型性能均出現(xiàn)了不同程度的下降，說明在沉浸式視覺內(nèi)容觀看過程中視覺內(nèi)容的運動強度、視差、色彩類型、時域突變等都是影響暈動癥程度的要素。其中，在不包含運動特征時，模型性能出現(xiàn)了最大程度的下降，這說明在觀看VR 內(nèi)容的過程中，視覺內(nèi)容中的運動強度對暈動癥的產(chǎn)生起著主導(dǎo)作用，這也印證了產(chǎn)生暈動癥的主要原因為視覺和前庭感官感知運動的不匹配。同時，視差特征的缺失對模型性能產(chǎn)生的影響最小，一方面的原因可能是相比于立體圖像、立體視頻中備受關(guān)注的視差特征，在立體全景視頻中由于觀看方式的改變，沉浸式的觀看使得受試者更多地受到運動等更為主觀的因素的影響；另一方面，由于觀看方式的不同，立體全景視頻采用頭戴式顯示器的觀看方式，容易發(fā)生在立體圖像、視頻中的焦點調(diào)節(jié)和會聚沖突現(xiàn)象有所減少。通過對比不同的運動特征提取，相比于以往簡單的對顯著區(qū)域的光流進行統(tǒng)計以表示視覺內(nèi)容的運動強度，采用本文所提出的顯著區(qū)域內(nèi)外加權(quán)的運動特征提取方式在性能指標(biāo)上也得到了提升，由此也說明在觀看過程中觀看者的暈動程度不僅受顯著區(qū)域的運動情況所影響，也會受到顯著區(qū)域外的運動情況所引起的自我運動影響。

3.2 不同統(tǒng)計方式下模型性能對比

考慮到數(shù)據(jù)庫場景的多樣性，難以遍歷每一種訓(xùn)練-測試集劃分結(jié)果所對應(yīng)的模型性能。因此，此處以多種統(tǒng)計方式對模型性能進行驗證與對比。本文采用SVR 對特征空間進行回歸，回歸時對數(shù)據(jù)集進行1 000 次的8∶2 比例訓(xùn)練-測試集劃分，并分別取三個指標(biāo)所對應(yīng)的中值作為最終的結(jié)果。最終，進行50 次實驗分別以RMSE、SROCC 作為中值取對應(yīng)的指標(biāo)結(jié)果以及50 次實驗的指標(biāo)平均值。對比算法［19］為深度學(xué)習(xí)方法，將數(shù)據(jù)庫視頻隨機劃分為50 對訓(xùn)練集和測試集在其網(wǎng)絡(luò)模型上進行訓(xùn)練測試，并選擇50 次實驗結(jié)果中RMSE 中值所對應(yīng)的模型代表最終性能。本文統(tǒng)計了對比算法50 次實驗結(jié)果中SROCC 中值所對應(yīng)的模型性能及50 次實驗結(jié)果的均值。表2 為不同的統(tǒng)計方式得到的兩個模型的性能指標(biāo)。

表2 不同統(tǒng)計方式下性能對比Tab.2 Performance comparison under different statistical methods

實驗結(jié)果表明，在以多種統(tǒng)計方式對模型性能進行比較時，兩個模型的各項指標(biāo)均存在一定程度的波動。這與SPVCD 的特點有關(guān)，SPVCD包含了目前用于VIMS 評價中數(shù)量最多的場景類型。因此，不同的訓(xùn)練、測試場景選擇對模型預(yù)測結(jié)果的影響較大。本文所提出的方法在三種統(tǒng)計方式中PLCC 和RMSE 均優(yōu)于對比算法，SROCC 低于對比算法。這與對比算法網(wǎng)絡(luò)訓(xùn)練時以最高SROCC 值選取最優(yōu)網(wǎng)絡(luò)模型參數(shù)存在一定關(guān)聯(lián)。

3.3 跨數(shù)據(jù)庫性能對比

為驗證所提出模型的泛化性，在斯坦福大學(xué)的數(shù)據(jù)庫上進行了跨數(shù)據(jù)庫實驗［18］。Stanford 數(shù)據(jù)庫包含19 個立體全景視頻場景，每個場景持續(xù)60 s。幀速率分別為24 fps，25 fps 和30 fps，分辨率為1 K，2 K 或4 K。以SPVCD 數(shù)據(jù)庫中的116個視頻序列作為訓(xùn)練集，對Stanford 數(shù)據(jù)庫的19個視頻序列進行測試，預(yù)測得到最終的性能指標(biāo)。

值得注意的是，在SPVCD 數(shù)據(jù)庫中的主觀得分越高，暈動病的程度越低。這與Stanford 數(shù)據(jù)庫的主觀分?jǐn)?shù)相反，Stanford 數(shù)據(jù)庫的MOS 范圍為4.3～41.1，遠(yuǎn)遠(yuǎn)超過了SPVCD 庫的最大MOS（MOS 范圍：1.318 2～4.863 6）。因此，在跨數(shù)據(jù)庫實驗中，首先將Stanford 數(shù)據(jù)庫的MOS映射到SPVCD 的得分空間。將Stanford 數(shù)據(jù)庫的最大MOS 對應(yīng)SPVCD 數(shù)據(jù)庫的最小MOS，Stanford 數(shù)據(jù)庫的最小MOS 對應(yīng)SPVCD 數(shù)據(jù)庫的最大MOS。

表3 顯示了所提出的暈動病程度預(yù)測模型在Stanford 數(shù)據(jù)庫上的跨數(shù)據(jù)庫實驗結(jié)果以及與文獻［19］的對比結(jié)果。所提出模型在Stanford 數(shù)據(jù)庫上的PLCC，SROCC 和RMSE 分別為0.678，0.633 和0.672，取得了較為良好的預(yù)測性能，各項性能指標(biāo)均高于文獻［19］，原因可能是文獻［19］所提出的方法為深度學(xué)習(xí)方法，在針對規(guī)模較小數(shù)據(jù)集時，模型容易過擬合導(dǎo)致模型性能不佳。

表3 所提出模型在Stanford 數(shù)據(jù)庫上的總體及對比性能指標(biāo)Tab.3 Overall and comparative performance indicators of the proposed model on Stanford database

3.4 相關(guān)方法分析

目前對于虛擬現(xiàn)實中VIMS 評價的研究多是基于非立體內(nèi)容，而對于立體全景視頻的VIMS 評價研究還較少。表4 給出了兩個團隊各自數(shù)據(jù)庫的簡單介紹。分別為延世大學(xué)團隊和韓國科學(xué)技術(shù)院團隊。延世大學(xué)團隊和韓國科學(xué)技術(shù)院團隊均是研究非立體全景內(nèi)容的VIMS評價，其中，各團隊使用數(shù)據(jù)庫不同且多樣。截至目前，延世大學(xué)團隊建立了三個用于VR 暈動癥研究的主觀數(shù)據(jù)庫，但數(shù)據(jù)庫均尚未公開。韓國科學(xué)技術(shù)院團隊建立了四個用于VR 暈動癥研究的主觀數(shù)據(jù)庫，數(shù)據(jù)庫均包含生理信號，可以獲取基準(zhǔn)視頻，但數(shù)據(jù)庫中所包含的基準(zhǔn)視頻的變體沒有直接提供。例如，文獻［15］中的數(shù)據(jù)庫包含80 個視頻，該數(shù)據(jù)庫具有20 個基準(zhǔn)視頻，可以直接獲??；而每個基準(zhǔn)視頻又具有三種變體視頻，不可直接獲取。

表4 所提方法與其他模型的結(jié)果匯總Tab.4 Summary of results the proposed method and other model

因目前已公開的數(shù)據(jù)庫均是非立體全景視頻數(shù)據(jù)庫且不可完全獲取，與包含生理信號的方法對比不公平，致使本文所提模型未在其數(shù)據(jù)庫上進行相關(guān)實驗，暫時不能完全驗證本文所提模型的泛化性。延世大學(xué)團隊和韓國科學(xué)技術(shù)院團隊所提出的模型大多使用了生理信號，這在本文所使用的SPVCD 基準(zhǔn)數(shù)據(jù)中是不存在的，因此也無法將其所提模型在SPVCD 數(shù)據(jù)庫上進行驗證。不同的數(shù)據(jù)庫配置導(dǎo)致設(shè)計和建立VIMS評價模型的出發(fā)點不同，無法在同一數(shù)據(jù)庫上直接對比模型的性能優(yōu)劣，因此，表4 僅對已有的相關(guān)研究結(jié)果進行了匯總。由于相關(guān)數(shù)據(jù)庫不同，其結(jié)果僅用于對客觀VIMS 評價模型的分析，不能直接通過表4 中指標(biāo)值來比較判斷客觀評價模型間的優(yōu)劣。只有文獻［19］的方法與本文方法同在SPVCD 數(shù)據(jù)庫上進行了性能測試。表4中，本文所提模型得到的性能指標(biāo)采用與其相同的模型選取方式：對數(shù)據(jù)庫隨機劃分進行測試并選取RMSE 為中值所對應(yīng)的模型結(jié)果作為最終的性能指標(biāo)。對比結(jié)果發(fā)現(xiàn)本文所提出的模型在PLCC，RMSE 兩項指標(biāo)上取得了更優(yōu)異的指標(biāo)，在SROCC 上有所不足。文獻［19］采用深度學(xué)習(xí)的方法，同時考慮了雙目感知、運動特征等特征，然而對運動特征的考慮較為單一，且未考慮時域上的突變的影響。

4 結(jié)論

本文針對立體全景視頻中存在的視覺誘發(fā)暈動癥這一問題，綜合考慮可能導(dǎo)致視覺誘發(fā)暈動癥的各項因素，設(shè)計了基于時空多特征的虛擬現(xiàn)實中視覺誘發(fā)暈動癥評價模型。同時，在運動特征提取方面基于視覺感知沖突理論，設(shè)計了前背景加權(quán)運動特征提取。在時域突變信息度量方面，在時域聚合的基礎(chǔ)上，分別對運動信息、視差信息、空域感知信息等特征提取突變特征。在SPVCD 數(shù)據(jù)庫上，所提方法展現(xiàn)出了與最先進的深度學(xué)習(xí)方法相當(dāng)?shù)念A(yù)測性能。在下一階段工作中，如何將本文中提取特征方式與深度學(xué)習(xí)聯(lián)合，構(gòu)造自動進行對應(yīng)特征提取學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)將成為研究的重點。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放