石 敏,侯 明,劉亞寧,,毛天露 ,王兆其
(1.華北電力大學(xué)控制與計算機工程學(xué)院,北京 102206;2.中國科學(xué)院計算技術(shù)研究所,北京 100190)
視覺和心理學(xué)研究發(fā)現(xiàn),人類視覺系統(tǒng)通過從外界獲取圖像信息傳送入大腦,通過大腦對圖像信息進行分析和理解,然后獲得對外界信息的感知。視覺感知的敏感度不僅受到光強度、波長的影響,還與記憶與經(jīng)驗等更高層次的心理因素有關(guān)。人眼接受的信息量往往十分巨大,遠超過大腦處理信息的能力。因此,人眼視覺注意機制會主動忽略一些“無關(guān)緊要”的信息,而保留部分重點關(guān)注的信息。視覺感知過程,能夠選擇性地將注意力集中于復(fù)雜環(huán)境中的某一小部分感興趣的區(qū)域,而暫時忽視其他次重要的區(qū)域。例如,人觀察在草地上奔跑玩耍的小孩時,視線會集中在小孩的身上,而不會過多關(guān)注草地等背景。
在進行服裝運動建模時,已有的方法通常只考慮影響服裝運動的第一要素,即物理世界中各種力的作用對服裝變形的驅(qū)動,而完全忽略了人眼主觀作用對服裝變形感知逼真性的影響。事實上,受人眼分辨率以及注意度的影響,即使通過高精度建??梢允沟貌剂厦嫔细嗟募毠?jié)被模擬出來,但受視覺精度的限制,現(xiàn)實中的人眼也很難捕獲到如此多的變形細節(jié)。
綜上分析,研究人類視覺注意機制,并構(gòu)建有效的服裝顯著性模型,可在后期用于指導(dǎo)更加有效的服裝運動建模,提高模擬效率。本文通過對著裝人體運動視頻數(shù)據(jù)進行分析,構(gòu)造了種類多樣的視頻樣本,包括:真實場景和動畫場景,簡單場景和復(fù)雜場景?;谘蹌觾x采集人眼觀看服裝視頻的注視數(shù)據(jù),并采用高斯卷積生成顯著圖。在進行視頻特征提取時,結(jié)合了底層圖像特征、高層語義特征以及運動特征,共同構(gòu)造特征向量和標簽,并通過支持向量機(support vector machine,SVM)訓(xùn)練得到基于服裝視頻的顯著性預(yù)測模型。
通過實驗對比驗證,本文方法的性能在服裝視頻顯著性預(yù)測時,優(yōu)于傳統(tǒng)的顯著性預(yù)測算法,具有一定的魯棒性。本文方法的研究思路如圖所示。
圖1 服裝視覺顯著性預(yù)測模型研究思路
目前,視覺注意機制[1]在廣告、目標跟蹤、視頻分析、醫(yī)學(xué)[2]等領(lǐng)域均有重要應(yīng)用。視覺感知過程主要包括2種研究機制:底層特征驅(qū)動的自下向上的感知過程和主觀任務(wù)驅(qū)使的自上而下的感知過程。前者會受到視覺系統(tǒng)所接受到的場景中色彩、明暗亮度、紋理方向以及對比度等特征[3]的影響。后者與主體的任務(wù)、目的、知識等主觀因素息息相關(guān),所以也被稱作任務(wù)驅(qū)動的視覺感知[4]。ITTI模型[5]是最初的視覺顯著模型,將各通道特征差異圖進行跨尺度的融合,并進行歸一化處理,形成該通道上的特征顯著圖,然后將上述特征顯著圖進行線性融合得到最終的顯著圖。HOU和ZHANG[6]提出了頻譜殘差(spectral residual,SR)模型,通過分析背景是否滿足某種變換來提取背景,其余的是感興趣的區(qū)域。GUO等[7]認為圖像的視覺顯著性信息包含在圖像的相位譜中。因此,提出了僅使用傅立葉頻譜的相位譜信息來計算圖像的顯著性的想法,提出了四元數(shù)傅里葉變換的相位譜(phase spectrum of quaternion Fourier transform,PQFT)模型。GUO等[8]提出了一種基于運動感知的快速視頻顯著性檢測方法。首先分析光流場來獲得前景先驗,然后將外觀對比、緊密度度量等空間顯著性特征合并到一個多線索集成框架中,最后將不同的顯著性線索組合在一起,實現(xiàn)時間一致性。
近年來,基于Deep Learning的視覺顯著性預(yù)測模型構(gòu)建方法開始大量涌現(xiàn)。LI和 YU[9]通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)來提取圖像特征,并且根據(jù)多尺度深度特征(multiscale deep feature,MDF)構(gòu)建顯著性模型。KüMMERER等[10]以AlexNet[11]框架為基礎(chǔ),提出了Deep Gaze框架來預(yù)測視覺顯著圖。LI等[12]提出了DeepSaliency模型,其是一種將分割任務(wù)和顯著性目標檢測任務(wù)相結(jié)合的多任務(wù)網(wǎng)絡(luò)模型。ZENG等[13]根據(jù)數(shù)據(jù)集特點提出了一種針對 image-level標注的多源弱監(jiān)督顯著性預(yù)測模型。
已有工作未見針對服裝運動視頻的顯著性預(yù)測的研究。本文通過分析著裝人體運動視頻數(shù)據(jù),構(gòu)造了種類多樣的視頻樣本,并利用眼動技術(shù)采集真實人眼的注視數(shù)據(jù)。在進行視頻特征提取時,結(jié)合了底層圖像特征、高層語義特征以及運動特征,共同構(gòu)造特征向量和標簽,并通過SVM訓(xùn)練得到基于服裝視頻的顯著性預(yù)測模型,并用以指導(dǎo)服裝模擬的多精度變化。
2.1.1 實驗樣本
服裝視頻不同于其他數(shù)據(jù),具有主體突出、背景相對簡單的特點,實驗人員的注意力更容易被著裝人物所吸引。為了提高預(yù)測服裝視頻顯著性的準確性以及魯棒性,本文搜集了種類多樣的服裝視頻數(shù)據(jù)用以進行數(shù)據(jù)采集,其中包括真實場景的視頻以及虛擬場景的服裝動畫。數(shù)據(jù)樣本如圖2所示。
2.1.2 眼動實驗過程
本文采用的是60 Hz遙測式Gazepoint眼動儀。受試者在采集眼動數(shù)據(jù)前需要進行注視點的校準。而校驗準確性與校驗點持續(xù)時間以及校驗點個數(shù)密切相關(guān)。本文采用9個校驗點,每個校驗點持續(xù)1.5 s。校驗完畢后,受試者應(yīng)保持頭部相對靜止,避免晃動。在此狀態(tài)下,穩(wěn)定地采集觀看服裝視頻的注視點信息。
眼動數(shù)據(jù)是按照時間序列以文本的形式存儲,首先刪除無效的注視點數(shù)據(jù),然后將每個視頻禎的注視點疊加,產(chǎn)生焦點圖。最后根據(jù)高斯卷積對疊加后的焦點圖進行卷積操作生成平滑的視覺顯著圖,作為ground truth。視覺顯著圖如圖3所示。其中,一維高斯函數(shù)公式為
其中,x為坐標值;σ為x的方差;μ為x的平均值。在實際計算中,以中心點作為坐標原點,因此平均值μ為0,可得
二維高斯函數(shù)可由上推導(dǎo)并計算每個點的權(quán)重,即
圖2 采集樣本展示
圖3 由焦點圖產(chǎn)生視覺顯著圖
完成注視點的采集之后,需要對眼動數(shù)據(jù)預(yù)處理,即只保留落在服裝區(qū)域上的注視點信息。經(jīng)過高斯卷積生成相應(yīng)的顯著圖后,采用攝像機模型,將二維顯著圖映射到三維服裝模型上,從而獲得三維服裝模型頂點的顯著值。結(jié)果如圖所示。
圖4 二維顯著圖映射到三維服裝模型
3.1.1 亮度特征提取
計算視頻幀圖像的視覺顯著性,亮度特征是不可或缺的。r,g,b分別對應(yīng)圖像的紅、綠、藍3個顏色通道。為了得到圖像的亮度特征,求3個通道平均,使彩色圖像轉(zhuǎn)化為灰度圖像,即
然后對圖像高斯濾波以及下采樣得到ITTI模型中的高斯金字塔,分別對應(yīng)圖像不同尺度的亮度特征圖,計算出相鄰像素點亮度的差異性。在高斯金字塔中,下一層的灰度圖像大小為上一層的一半,總共具有 9個不同尺度的灰度圖像,如圖5所示。
圖5 由高斯金字塔得到的9個不同尺度圖像
得到高斯金字塔的灰度圖像后,根據(jù)ITTI模型的“center-surround”算子對金字塔中的灰度圖像跨尺度差值計算,得出2個不同尺度灰度圖像的亮度差異圖。需要注意的是進行差值運算時,需要將低分辨率的灰度圖像上采樣至與之運算的較高分辨率圖像大小,即
其中,Θ 為“center-surround”算子;I(c)為“center”的灰度圖像;I(s)為“surround”的灰度圖像;I(c,s)為差值運算得到的亮度差異圖,根據(jù)高斯金字塔將不同尺度的灰度圖采用“center-surround”算子計算多個亮度差異圖;I(σ)為高斯金字塔對應(yīng)的 9個不同尺度亮度灰度,σ= 0,1,2,…,8 。本文中表示將高斯金字塔中編號為2,3,4尺度下的灰度圖同與其相隔3,4個尺度的灰度圖進行“center-surround”運算。最終計算出的不同尺度下的多個亮度差異圖,代表跨尺度灰度圖之間的差異性。
3.1.2 顏色特征提取
圖像顏色也是能夠影響視覺注意度的重要特征,本文采取紅、綠、藍和黃(R,G,B,Y)4種廣義的顏色通道提取圖像顏色特征,具體計算為
如圖6所示,上方的6個顏色特征圖像分別為R,G,B3個顏色通道值及R,G,B通道的概率值;下方的5個圖像是采用中值濾波器濾波三維顏色直方圖后得到的概率。
3.1.3 方向特征提取
研究表明視覺皮層中某些細胞對特定方向的刺激有較強烈的反應(yīng)。為了得到不同方向特征圖像,本文使用 Gabor濾波器對亮度信息濾波,二維濾波函數(shù)包含一個余弦函數(shù)以及一個高斯核函數(shù),即
圖6 顏色特征圖像
3.1.4 紋理特征提取
紋理信息描述了圖像表面紋理特性及與周圍的差異性,是圖像的基本特征。紋理特征在視覺顯著性預(yù)測方向被廣泛采用。人眼視覺系統(tǒng)的不同通道之間具有位移不變、線性的特點??煽亟鹱炙惴╗14]能夠檢測出圖像的邊緣、奇異點以及紋理等特征,將圖像分解為不同方向和尺度的子帶特征圖,其具有方向可控性與位移不變性的優(yōu)點,因此可控金字塔算法常用于紋理特征的提取工作。如圖7所示,將圖像在4個方向以及3個尺度上分解為13個子帶特征圖。
圖7 可控金字塔得到的子帶特征
視覺注意機制因為是由自上而下和自底向上2個視覺過程共同驅(qū)動的。而且基于任務(wù)的自上而下的視覺過程會使人有意識的決定視覺注意區(qū)域。因此,高層語義特征是顯著性預(yù)測不可或缺的考慮因素。
3.2.1 中心偏向特征
JUDD等[15]通過采集人眼注視點信息,分析論證了人眼在觀察圖像信息時,注視點往往集中在中心區(qū)域范圍。將所有的視覺顯著圖融合求平均后,如圖8所示,可以看出越趨近于中心的區(qū)域顯著度越高。并且,顯著區(qū)域大約集中于圖像25%的區(qū)域范圍內(nèi)。因此,本文采用中心偏向的高層特征,表現(xiàn)越趨向于中心的區(qū)域顯著度越高的特點。
圖8 關(guān)注點
用歐式距離來衡量圖像各個像素點與中心的距離,即
其中,center_dis為圖像(x,y)坐標處像素點到圖像中心的距離;(center_x,center_y)為圖像中心位置坐標。
3.2.2 人的檢測
通過分析人眼關(guān)注點數(shù)據(jù),發(fā)現(xiàn)視覺系統(tǒng)非常關(guān)注有人出現(xiàn)的圖像區(qū)域。本文使用RAMANAN等[16]人體目標檢測算法,可以檢測出游人體所在的區(qū)域。如圖9所示,紅色方框中所包含的區(qū)域是算法檢測到的人體。本文將人體區(qū)域的顯著度設(shè)置為1,而其余非人體部分顯著度則設(shè)置為0。
圖9 人體檢測特征
視頻相較于圖像最大的區(qū)別是具有運動特征,運動特征往往更容易吸引關(guān)注。光流法、全局運動補償、塊匹配法和幀差法等是目前運動特征提取的主要方法。本文使用光流法獲取視頻禎圖像的運動特征,如圖10所示。
圖10 運動特征
為了構(gòu)造顯著性預(yù)測模型的訓(xùn)練集以及測試集,首先提取圖像的底層特征、高層語義特征以及根據(jù)幀差法提取的運動特征,得到30個特征圖。然后根據(jù)眼動實驗采集的注視點數(shù)據(jù)高斯卷積生成顯著圖,用來確定圖像各像素的顯著度大小。通過隨機選取顯著程度較高區(qū)域的N個像素點作為正樣本,顯著程度較低區(qū)域的N個像素點作為負樣本,提取樣本特征向量,并設(shè)置其對應(yīng)的正負標簽。
如圖11所示,隨機選取其顯著程度在前30%區(qū)域內(nèi)的 15個像素點作為正樣本,隨機選取顯著程度最低的30%區(qū)域內(nèi)的15個像素點作為負樣本;然后提取樣本點在各個特征圖相應(yīng)坐標位置的特征構(gòu)成該點的特征向量,并將正樣本標簽置為+1,負樣本標簽置為-1。
圖11 提取特征向量
本文選用SVM進行模型構(gòu)建。在設(shè)計的訓(xùn)練樣本空間中尋找一個超平面將顯著的正樣本點和非顯著的負樣本點分隔開,并保證劃分的正確率最高,即
其中,x為訓(xùn)練樣本點,是一個30維向量;w為x中各個特征值的權(quán)重矩陣;wT為w的轉(zhuǎn)置矩陣。
眼動采集所選取的實驗樣本種類豐富,有助于提高服裝視頻顯著性預(yù)測模型的魯棒性。在設(shè)計訓(xùn)練樣本和測試樣本時,本文將每段服裝視頻按照每秒 5幀截取視頻幀圖像。將視頻幀圖像縮放到200×200的大小,減少圖像像素數(shù)目,增加計算效率。每段視頻截取連續(xù)相同數(shù)目的訓(xùn)練視頻幀圖像和測試視頻幀圖像,并提取底層、高層以及運動特征并設(shè)置其標簽,形成模型需要的訓(xùn)練樣本集和測試樣本集。本文采用的是線性核函數(shù),運算速度快且適用于大規(guī)模數(shù)據(jù)的訓(xùn)練。訓(xùn)練完成后,SVM模型將學(xué)習(xí)到每個特征的權(quán)重,權(quán)重的大小反應(yīng)特征對預(yù)測結(jié)果的影響大小。
為了對本文方法的性能進行驗證,針對不同的視頻背景與著裝人體動畫進行實驗,將本文方法與ITTI,基于圖形的視覺顯著性(graph-based visual saliency,GBVS[17]),PQFT[7]方法進行對比,并應(yīng)用受試者工作特征曲線(receiver operating characteristic curve,ROC)、曲線下面積(area under curve,AUC)和標準化掃描路徑顯著性(normalized scan-path saliency,NSS)等評價指標進行量化分析。實驗選用的硬件環(huán)境為:CPU i5 8600K,8 G內(nèi)存。
訓(xùn)練模型時,共選取 11段服裝視頻,并且每段服裝視頻隨機選取連續(xù)的150幀圖像作為訓(xùn)練樣本,20幀圖像作為測試樣本。在每幀圖像的顯著圖中,隨機在顯著度前30%區(qū)域選取15個正樣本點,后30%區(qū)域隨機選取15個負樣本點。當繼續(xù)增加每幀圖像中樣本點的數(shù)量時,并沒有提高模型的性能。為了保證評價標準的準確性,在進行實驗方法性能對比時,在每段服裝視頻中隨機選取3段幀序列,每段幀序列包含 10張視頻幀圖像。然后應(yīng)用ITTI,GBVS,PQFT和本文方法進行顯著性預(yù)測,得到AUC和NSS,再對其求平均值。實驗結(jié)果如下:AUC,NSS評價指標的對比情況見表1,各模型方法的時間消耗對比見表2,ROC曲線如圖2所示。
由以上實驗數(shù)據(jù)可知,本文提出的服裝視頻顯著性預(yù)測模型相較于傳統(tǒng)的經(jīng)典模型,在 NSS和AUC評價指標上都優(yōu)于其他3種方法,ROC曲線中右下角所包圍區(qū)域更大,說明本文方法能夠更準確地預(yù)測服裝視頻幀圖像各區(qū)域的顯著性。雖然本文方法在預(yù)測圖像顯著度的時間消耗上略高于傳統(tǒng)方法,但運算速度依然比較快并低于1 s,并不會對模型性能產(chǎn)生較大影響。各模型預(yù)測結(jié)果如圖13所示。
表1 各模型性能對比
表2 各模型時間消耗對比
圖12 各模型ROC曲線對比
圖13 各模型算法結(jié)果圖
服裝模型顯著性可用于指導(dǎo)構(gòu)建多精度服裝模型,即對于服裝模型的高顯著性區(qū)域進行高精度建模,低顯著性區(qū)域則采用粗化操作來降低模型精度,使得服裝模擬的效果和效率達到平衡(圖14)。
圖14 服裝多精度模型
本文對著裝人體運動視頻數(shù)據(jù)進行分析,構(gòu)造了種類多樣的視頻樣本,并利用眼動技術(shù)采集真實人眼的注視數(shù)據(jù)。在進行視頻特征提取時,結(jié)合了底層圖像特征、高層語義特征以及運動特征,共同構(gòu)造特征向量和標簽,在此基礎(chǔ)上,通過訓(xùn)練得到SVM 的服裝視頻的顯著性預(yù)測模型,可用于指導(dǎo)服裝模型的多精度建模。由于本文方法面向服裝動畫任務(wù)提取的特征更為全面,并且根據(jù)真實眼動數(shù)據(jù)生成顯著圖指導(dǎo)模型訓(xùn)練,因此,與ITTI,GBVS,PQFT方法相比,有更好的顯著性預(yù)測效果。
本文主要針對服裝顯著性模型進行樣本選取,但底層特征、高層特征以及運動特征等圖像特征中具有一定的通用性,因此可以啟發(fā)其他視覺領(lǐng)域的應(yīng)用,也可以將本文獲取的樣本數(shù)據(jù)推廣用于其他的深度網(wǎng)絡(luò)模型來進行顯著性預(yù)測,但是否可以得到良好的訓(xùn)練結(jié)果,也取決于選定的網(wǎng)絡(luò)結(jié)構(gòu)以及對樣本的需求量等。此外,由于本文將實驗樣本數(shù)據(jù)集限定在單人服裝視頻數(shù)據(jù),因此會導(dǎo)致模型對多人場景下的顯著性預(yù)測任務(wù)泛化能力有限。下一步將研究深度網(wǎng)絡(luò)預(yù)測服裝顯著性問題,針對此研究,將加大樣本數(shù)據(jù)采集以及多樣化場景的樣本選取,也包括多人著裝動畫場景的構(gòu)建等。