王宜修,吳曉峰,王 斌
(1. 復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院 智慧網(wǎng)絡(luò)與系統(tǒng)研究中心,上海 200433;2. 復(fù)旦大學(xué) 電磁波信息科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200433)
?
基于中央凹圖像顯著性和掃視傾向的注視點(diǎn)轉(zhuǎn)移預(yù)測(cè)模型
王宜修1,2,吳曉峰1,王斌1,2
(1. 復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院 智慧網(wǎng)絡(luò)與系統(tǒng)研究中心,上海 200433;2. 復(fù)旦大學(xué) 電磁波信息科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200433)
注視點(diǎn)轉(zhuǎn)移預(yù)測(cè)是圖像顯著性建模中的一個(gè)重要研究領(lǐng)域.現(xiàn)有算法大多過(guò)于繁瑣,并且局限于利用單張靜態(tài)顯著圖來(lái)預(yù)測(cè),很少能考慮到注視點(diǎn)轉(zhuǎn)移是一個(gè)動(dòng)態(tài)的過(guò)程.針對(duì)以上問(wèn)題,我們提出一種具有生物依據(jù)的注視點(diǎn)轉(zhuǎn)移的預(yù)測(cè)方法,利用了3大因素: 視網(wǎng)膜中央凹在顯著目標(biāo)選取中的動(dòng)態(tài)預(yù)測(cè)作用、注視點(diǎn)移動(dòng)在距離和方向上的傾向以及短期記憶對(duì)注視點(diǎn)返回的抑制機(jī)制.通過(guò)三者得到的聯(lián)合轉(zhuǎn)移概率隨機(jī)產(chǎn)生候選點(diǎn),從而逐點(diǎn)生成掃視軌跡.相比于其他模型,所提議方法在客觀的衡量標(biāo)準(zhǔn)下,在多個(gè)數(shù)據(jù)庫(kù)中能更準(zhǔn)確、更高效地預(yù)測(cè)掃視路徑.
注意力選擇; 顯著性; 眼動(dòng); 掃視路徑
眾所周知,每秒鐘有數(shù)以億計(jì)的信息進(jìn)入人眼,一般認(rèn)為這樣海量的數(shù)據(jù)超過(guò)了人腦可以進(jìn)行實(shí)時(shí)處理的極限.人類視覺(jué)系統(tǒng)(Human Visual System)可以自動(dòng)地從大量冗余的視覺(jué)輸入中提取最重要的部分以供大腦皮層進(jìn)行高層次的處理,如記憶、目標(biāo)識(shí)別、跟蹤等.選擇性視覺(jué)注意就是人類視覺(jué)中這樣的一種機(jī)制.
人的視覺(jué)注意力轉(zhuǎn)移揭示了人對(duì)場(chǎng)景中的物體感興趣程度的變化,這些注視位置變化的記錄通常包括兩個(gè)部分: 注視點(diǎn)和掃視路徑,前者表明了場(chǎng)景中哪些部分能引起人的注意,后者則體現(xiàn)了這些使人感興趣的部分之間的順序性.視覺(jué)注意力轉(zhuǎn)移的研究不止關(guān)注場(chǎng)景中哪些區(qū)域能夠引起人的興趣,更能進(jìn)一步揭示人是如何選擇感興趣區(qū)域的.
在顯著性的可計(jì)算模型中,基于空間的模型[1]這一類別的主要研究目標(biāo)是注視點(diǎn)密度和序列.除了在生物心理學(xué)機(jī)制驗(yàn)證上能夠幫助解釋人的視覺(jué)注意行為,在廣告設(shè)計(jì)、機(jī)器人視覺(jué)等方面也有較多的應(yīng)用,在未來(lái)的圖像智能領(lǐng)域則有更深遠(yuǎn)的應(yīng)用前景.在近年的顯著性機(jī)制的研究中,已經(jīng)有較多的基于空間的可計(jì)算模型被提出.根據(jù)研究對(duì)象的不同,這些模型可以被進(jìn)一步細(xì)分為靜態(tài)的注視點(diǎn)密度估計(jì)和動(dòng)態(tài)的掃視路徑估計(jì)兩類.
Itti等[2]在特征綜合理論[3]的基礎(chǔ)上,最早提出了選擇性視覺(jué)注意的靜態(tài)模型.該模型模仿了視網(wǎng)膜感知域神經(jīng)節(jié)細(xì)胞(Ganglion cells)的處理過(guò)程,在顏色、亮度、方向3個(gè)通道上計(jì)算中心周圍差,結(jié)合勝者全取的仿生機(jī)制獲得顯著圖作為注視點(diǎn)密度估計(jì).該方法不但具有較強(qiáng)的生物依據(jù),也成為后面許多方法的基礎(chǔ)和比較標(biāo)準(zhǔn).在Itti模型的基礎(chǔ)上,一種利用圖論模型的方法[4]被提出.這種方法以每個(gè)像素點(diǎn)作為節(jié)點(diǎn),構(gòu)造全連接的圖來(lái)描述輸入圖像,利用馬爾科夫平衡分布定義顯著性.這兩個(gè)經(jīng)典模型的一個(gè)共同問(wèn)題是計(jì)算復(fù)雜度高,速度不夠快.因此,一種基于譜剩余的方法[5]被提出,該方法認(rèn)為圖像空間顯著性信息主要集中在其幅度譜的殘差中.然而后來(lái)的研究者認(rèn)為相位譜才是顯著性計(jì)算的關(guān)鍵.Guo等[6]在這一相位譜的概念上提出了基于四元數(shù)相位譜的顯著性檢測(cè)算法(Phase spectrum of Quaternion Fourier Transform, PQFT),計(jì)算速度更快,對(duì)于局部顯著性的檢測(cè)更加準(zhǔn)確.
靜態(tài)注視點(diǎn)密度估計(jì)算法通常只關(guān)注圖像各區(qū)域被注視到的概率,忽略關(guān)注區(qū)域(常用注視點(diǎn)描述)的先后順序,而對(duì)掃視路徑的估計(jì)算法則可以同時(shí)兼顧兩者.但是注視點(diǎn)轉(zhuǎn)移策略的生物學(xué)研究還不夠成熟,計(jì)算模型效果的衡量指標(biāo)也不夠完善,因此動(dòng)態(tài)掃視路徑估計(jì)還未得到很大的發(fā)展.Lee等[7]于2009年較早地提出了基于信息最大化的模型來(lái)理解掃視路徑.該模型利用互信息表示了基于長(zhǎng)期視覺(jué)的先驗(yàn)知識(shí)(視覺(jué)的長(zhǎng)期記憶)和基于短期掃視的工作記憶(視覺(jué)的短期記憶),兩者融合來(lái)引導(dǎo)注視點(diǎn)的轉(zhuǎn)移.在文獻(xiàn)[7]的基礎(chǔ)上,Renninger等[8]同時(shí)利用了局部和全局的信息,將注視點(diǎn)的轉(zhuǎn)移看成一種對(duì)形狀進(jìn)行不斷學(xué)習(xí)和匹配的過(guò)程.實(shí)驗(yàn)證明了掃視路徑是以信息最大化為導(dǎo)向的,目的是消除局部的不確定性.這兩篇文獻(xiàn)雖然都沒(méi)有給出實(shí)際的工程可計(jì)算模型,但是給注視點(diǎn)的轉(zhuǎn)移提供了不可或缺的理論基礎(chǔ).
另一方面,一些可用于實(shí)際圖像處理的注視點(diǎn)掃視路徑計(jì)算模型也漸漸出現(xiàn),這些方法從計(jì)算方式上各有特點(diǎn).基于Itti靜態(tài)模型的拓展算法(Saliency Toolbox, STB)[9]根據(jù)顯著點(diǎn)在各通道、各尺度間回溯,找到對(duì)顯著性貢獻(xiàn)最大的特征圖,并通過(guò)區(qū)域劃分的方式得到原型對(duì)象,同時(shí)結(jié)合返回抑制和勝者全取的仿生機(jī)制,確定下一個(gè)注視區(qū)域.這種方法的計(jì)算復(fù)雜度也相對(duì)較高,而且所有的注視點(diǎn)估計(jì)都是基于原始顯著圖,未能考慮顯著性隨注視點(diǎn)轉(zhuǎn)移而動(dòng)態(tài)改變的特性.隨后,文獻(xiàn)[10]提出了一種最大化殘差感知信息來(lái)估計(jì)掃視路徑和注視點(diǎn)的方法,該方法將參考感知響應(yīng)和通過(guò)視覺(jué)短期記憶修正的注視圖響應(yīng)相減,得到殘差響應(yīng),通過(guò)最大化殘差響應(yīng)信息得到下一注視點(diǎn)位置.該方法由于依賴于獨(dú)立元分析(Independent Component Analysis, ICA)濾波響應(yīng),需要大量的自然圖像塊來(lái)訓(xùn)練ICA濾波器,而濾波器尺寸的選取依賴于圖像的尺度,因此模型實(shí)際操作性較差,同時(shí)ICA多濾波器組也給計(jì)算增加了負(fù)擔(dān).最近的文獻(xiàn)[11]則提出了一種在已有的顯著圖或者人眼注視密度圖基礎(chǔ)上的掃視動(dòng)態(tài)生成模型,該方法利用高斯包,將顯著圖和返回抑制進(jìn)行結(jié)合,通過(guò)用網(wǎng)格簡(jiǎn)化圖像的方式極大地降低了計(jì)算量.該文獻(xiàn)使用了數(shù)據(jù)庫(kù)真實(shí)觀測(cè)者的注視密度圖,以驗(yàn)證人眼注視的空間統(tǒng)計(jì)規(guī)律,因此在嚴(yán)格意義上,該模型并不算一個(gè)完整的可計(jì)算模型.還有一些基于其他計(jì)算方式的模型,例如,利用獨(dú)立元分析提取超高斯分量的方法[12]、使用隱馬爾科夫模型的方法[13]等,由于實(shí)現(xiàn)機(jī)制復(fù)雜,在此不詳細(xì)介紹.
縱觀這些模型,它們對(duì)于顯著圖的計(jì)算過(guò)于繁瑣或者沒(méi)有考慮注視點(diǎn)轉(zhuǎn)移過(guò)程中顯著性的動(dòng)態(tài)變化,模型的參數(shù)依賴性也較強(qiáng),不適宜實(shí)時(shí)應(yīng)用.針對(duì)上述問(wèn)題,我們提出一種高效的具有生物依據(jù)的掃視路徑預(yù)測(cè)方法.所提議算法充分考慮到人眼觀測(cè)過(guò)程中的一些生理特性: 視覺(jué)中央凹區(qū)域?qū)D像顯著性的動(dòng)態(tài)影響、注視點(diǎn)轉(zhuǎn)移在距離和方向上的規(guī)律傾向以及具有遺忘特性的線性返回抑制機(jī)制.通過(guò)融合從這三個(gè)因素得到的結(jié)果,得到了注視點(diǎn)轉(zhuǎn)移的總概率圖,并且從概率的角度選擇下一注視點(diǎn)的候選點(diǎn).此外,實(shí)驗(yàn)部分除了沿用部分最典型的圖像顯著性指標(biāo)之外,還引入了更加客觀的注視點(diǎn)掃描路徑匹配衡量標(biāo)準(zhǔn),排除了注視序列長(zhǎng)度、分布廣度的影響.在這些評(píng)價(jià)指標(biāo)下,所提議方法相比其他現(xiàn)有模型,在多個(gè)人眼觀測(cè)數(shù)據(jù)庫(kù)上能更加高效、準(zhǔn)確地預(yù)測(cè)注視點(diǎn)轉(zhuǎn)移路徑.
生理學(xué)研究[14]表明: 人在觀察環(huán)境時(shí)注視的焦點(diǎn)往往落在視網(wǎng)膜的中央凹區(qū)域,這是視網(wǎng)膜中具有最高視覺(jué)分辨率的一小塊中心區(qū)域,而周圍視覺(jué)區(qū)的分辨率則遠(yuǎn)低于中央凹視覺(jué)區(qū),并且距離中央凹越遠(yuǎn)分辨率越低.當(dāng)注視點(diǎn)進(jìn)行轉(zhuǎn)移時(shí),應(yīng)按照上一個(gè)注視點(diǎn)在視網(wǎng)膜上成像的結(jié)果來(lái)計(jì)算顯著性.顯然,即使是在靜態(tài)顯著圖上具有很高顯著性的位置,如果它遠(yuǎn)離上一個(gè)注視點(diǎn),在視網(wǎng)膜上處于分辨率很低的區(qū)域,人很難感知到足夠的信息,那么這個(gè)位置理應(yīng)只有很小的概率被選中為下一個(gè)注視點(diǎn).很多現(xiàn)有方法僅利用單張靜態(tài)顯著圖來(lái)計(jì)算掃視路徑,忽視了注視點(diǎn)轉(zhuǎn)移中顯著性的動(dòng)態(tài)變化問(wèn)題,這種有缺陷的計(jì)算方式會(huì)造成結(jié)果的偏差.針對(duì)這個(gè)問(wèn)題,我們提出利用中央凹圖像顯著性來(lái)估計(jì)掃視路徑的方法.中央凹圖像能夠模擬人眼在注視某一位置的視網(wǎng)膜成像結(jié)果,在注視點(diǎn)位置不同的情況下由中央凹圖像得到的顯著圖是明顯不同的,這是因?yàn)轱@著的范圍受到了視網(wǎng)膜成像分辨率的限制.我們利用中央凹圖像,可以動(dòng)態(tài)地計(jì)算每個(gè)注視點(diǎn)情況下的顯著圖,和利用單一靜態(tài)顯著圖相比更加符合人的掃視過(guò)程.這是預(yù)測(cè)下一個(gè)注視點(diǎn)的第一個(gè)因素.
除此以外,研究發(fā)現(xiàn)人類長(zhǎng)期進(jìn)化過(guò)程中注視點(diǎn)的移動(dòng)距離和方向具有一定的統(tǒng)計(jì)學(xué)規(guī)律[15-16].我們?cè)趦蓚€(gè)眼動(dòng)掃視記錄數(shù)據(jù)庫(kù)上進(jìn)行了注視點(diǎn)轉(zhuǎn)移的統(tǒng)計(jì)和核密度建模,以這個(gè)概率模型為依據(jù),得到預(yù)測(cè)下一個(gè)注視點(diǎn)的第二個(gè)因素.
研究證明在注視點(diǎn)的轉(zhuǎn)移中存在短期記憶[17],即過(guò)去的注視點(diǎn)在短期內(nèi)不會(huì)被重新訪問(wèn),這就是很多已有計(jì)算模型所用到的返回抑制機(jī)制,我們把它作為預(yù)測(cè)的第三個(gè)因素.
所提出的框架將上述的3個(gè)因素用概率的方式表示,得到注視點(diǎn)轉(zhuǎn)移的概率圖,以概率為依據(jù)進(jìn)行了多點(diǎn)抽樣,在諸多樣點(diǎn)中選出顯著性最大的點(diǎn)作為對(duì)下一注視點(diǎn)的預(yù)測(cè).下面將仔細(xì)介紹每一部分的計(jì)算方法,以及模型的計(jì)算步驟和框圖.
1.1中央凹圖像的顯著圖
人眼視網(wǎng)膜的中央凹是視覺(jué)最敏銳的區(qū)域,在注視的焦點(diǎn)區(qū)具有最高的分辨率,從中心到外圍空間分辨率會(huì)急劇下降,其隨視角離心的變化呈現(xiàn)出類似于指數(shù)下降的形狀,中央凹圖像[18]正是模擬了人眼在注視時(shí)的這一生物學(xué)特性.
基于這一原理,我們利用了多分辨率金字塔的方法,以及注視點(diǎn)外圍部分的分辨率下降的函數(shù),對(duì)輸入圖像進(jìn)行處理,得到中央凹圖像.假設(shè)原圖表示為Iorigin,我們對(duì)原圖進(jìn)行不同尺度的高斯低通濾波器模糊處理,構(gòu)造L層金字塔,Gl為第l層的高斯低通卷積算子,得到不同分辨率的圖像
(1)
其中*符號(hào)表示卷積操作.假設(shè)當(dāng)前t時(shí)刻的注視點(diǎn)坐標(biāo)為xt=(xt,yt),設(shè)圖中任意坐標(biāo)(x,y)和注視點(diǎn)xt之間的距離為e,每一層的權(quán)重wl可表示為
(2)
其中σl的不同表示了每層所對(duì)應(yīng)的半徑的不同.在最終得到的中央凹圖像Ifoveal中,每個(gè)像素點(diǎn)的值由金字塔中各層Pl乘以不同的權(quán)重wl再相加得到(如圖1(a)所示),中央凹圖像每個(gè)像素點(diǎn)的值可以表示為
(3)
得到的中央凹圖像(圖1(c))充分模擬了在當(dāng)前注視點(diǎn)xt時(shí)人眼視網(wǎng)膜的真實(shí)感知,圖中標(biāo)記的點(diǎn)代表了當(dāng)前注視的位置.
理論上,計(jì)算中央凹圖像的顯著圖可以使用任何一種靜態(tài)顯著圖的計(jì)算模型,但在所提議的方法中,每張圖像的每個(gè)注視點(diǎn)的都需要計(jì)算中央凹圖像的顯著圖.為了減少其計(jì)算復(fù)雜性,使用了簡(jiǎn)單快速的PQFT方法[6].該算法認(rèn)為圖像中大部分的信息存在于頻率域的相位譜中,因此利用歸一化幅度譜的方式獲取圖像顯著性.
PQFT方法將圖像表示成四元數(shù)的形式q(x),在進(jìn)行傅里葉變換之后,在頻率域?qū)⒎茸V置為全1,即丟棄幅度譜的信息,只保留相位譜進(jìn)行傅里葉反變換.對(duì)反變換之后的結(jié)果q′(x)取模,經(jīng)過(guò)高斯模糊以及歸一化的處理,即可得到中央凹圖像的顯著圖
pBU=G(‖q′(x)‖),
(4)
其中G(·)表示高斯濾波.由于存在快速傅里葉變換,因此PQFT算法可以達(dá)到實(shí)時(shí)應(yīng)用的要求,并且對(duì)于小的、結(jié)構(gòu)性突出的顯著目標(biāo)極其有效.通過(guò)上述的計(jì)算,得到了中央凹圖像顯著性這一因素的概率分布圖pBU.
1.2掃視傾向分布
對(duì)于真實(shí)眼動(dòng)記錄數(shù)據(jù)的統(tǒng)計(jì)表明,注視點(diǎn)的轉(zhuǎn)移并不是無(wú)規(guī)律的運(yùn)動(dòng).通過(guò)對(duì)數(shù)據(jù)的分析,可以得到注視點(diǎn)移動(dòng)的距離和方向的分布特性.已有的生物學(xué)研究[15]發(fā)現(xiàn)了以下的注視點(diǎn)移動(dòng)規(guī)律:
(1) 注視點(diǎn)的短距離移動(dòng)的情況遠(yuǎn)多于長(zhǎng)距離的移動(dòng);
(2) 注視點(diǎn)水平方向移動(dòng)多于垂直方向移動(dòng);
(3) 注視點(diǎn)有很強(qiáng)的中心偏置性.
我們對(duì)于Bruce[19]和Judd[20]數(shù)據(jù)庫(kù)的多個(gè)測(cè)試者的實(shí)際注視點(diǎn)轉(zhuǎn)移數(shù)據(jù)進(jìn)行了統(tǒng)計(jì),從t時(shí)刻的注視點(diǎn)xt轉(zhuǎn)移到t+1時(shí)刻的注視點(diǎn)xt+1,以掃視向量xt+1-xt的模作為注視點(diǎn)移動(dòng)距離d(在生物上為視角變化),與水平軸正方向夾角為移動(dòng)角度φ,采用核密度估計(jì)算法工具包[21]對(duì)每個(gè)數(shù)據(jù)庫(kù)進(jìn)行了高斯核密度估計(jì),相關(guān)公式為
(5)
(6)
其中: pk(d,φ)表示d和φ的聯(lián)合概率分布;n表示一個(gè)庫(kù)中注視點(diǎn)移動(dòng)的樣本總數(shù);di和φi表示第i個(gè)樣本的移動(dòng)距離和角度;Kh表示二維高斯核;hd和hφ為二維高斯核的帶寬.極坐標(biāo)的半徑表示注視點(diǎn)移動(dòng)距離(視角),與水平方向的角度表示角度,結(jié)果如圖2所示.注意: 這里的移動(dòng)距離用人眼的視角來(lái)表示,視角越大移動(dòng)距離越遠(yuǎn),圖中越亮的地方表示移動(dòng)概率越大.可以看到,由于不同的數(shù)據(jù)庫(kù)的測(cè)試條件有所不同,其分布的形狀有所不同,但其分布都符合文獻(xiàn)[15]中得到的規(guī)律.注視點(diǎn)轉(zhuǎn)移的距離集中分布在10°以內(nèi),在5°左右有明顯的峰值;注視點(diǎn)轉(zhuǎn)移方向集中分布在水平方向,垂直方向分布相對(duì)較少,其他方向的掃視概率更低.由高斯核密度估計(jì)得到下一注視點(diǎn)基于掃視傾向信息的概率分布為:
pS(xt+1|xt)=p(amp(xt+1-xt),arg(xt+1-xt)),
(7)
其中amp(·)和arg(·)表示對(duì)向量取模和角度運(yùn)算.上述的計(jì)算給出了掃視傾向信息的概率分布pS.圖2中給出了掃視向量在Bruce和Judd數(shù)據(jù)庫(kù)上的核密度估計(jì)結(jié)果.
1.3注視點(diǎn)返回抑制
視覺(jué)注視點(diǎn)的位置并不是無(wú)記憶的.研究表明視覺(jué)短期記憶會(huì)綜合之前的眼動(dòng)信息[17],訪問(wèn)過(guò)的注視點(diǎn)會(huì)對(duì)下一注視點(diǎn)的選擇產(chǎn)生影響,阻止人眼反復(fù)訪問(wèn)同一區(qū)域,并且這種影響會(huì)隨著時(shí)間的推移而減弱,一般這種機(jī)制稱之為注視點(diǎn)的返回抑制.該機(jī)制一方面可以讓大腦對(duì)于視覺(jué)的感知具有較強(qiáng)穩(wěn)定性,另一方面,又使得視覺(jué)系統(tǒng)能夠不斷獲取新的外界信息.
基于注視點(diǎn)返回抑制的機(jī)制,我們?cè)谶x擇下一注視點(diǎn)時(shí),也將其作為一個(gè)重要的因素進(jìn)行考慮,用一種具有線性遺忘特性的轉(zhuǎn)移概率分布模擬人眼的返回抑制功能.公式(8)給出了線性遺忘特性的轉(zhuǎn)移概率實(shí)現(xiàn)的公式,它考慮了當(dāng)前注視點(diǎn)和過(guò)去的T個(gè)注視點(diǎn)的影響,并且先前注視點(diǎn)的影響會(huì)逐漸恢復(fù):
(8)
1.4候選點(diǎn)選取策略
結(jié)合上述要素可以產(chǎn)生轉(zhuǎn)移概率:
p(x,y)=pBU(x,y)×pS(x,y)×pM(x,y).
(9)
根據(jù)轉(zhuǎn)移概率來(lái)選取下一注視點(diǎn),一般來(lái)說(shuō)在選取注視點(diǎn)的時(shí)候有兩種策略.一種是直接選擇轉(zhuǎn)移概率最高的點(diǎn)作為下一注視點(diǎn);另一種則是根據(jù)轉(zhuǎn)移概率進(jìn)行隨機(jī)采樣,產(chǎn)生若干個(gè)候選點(diǎn),再?gòu)暮蜻x點(diǎn)中選擇顯著性最大的作為下一注視點(diǎn).
由于人的視覺(jué)系統(tǒng)具有隨機(jī)性,根據(jù)3個(gè)因素得到的轉(zhuǎn)移概率只能代表在多次注視點(diǎn)移動(dòng)中的趨勢(shì),而并不能決定在一次移動(dòng)中下一注視點(diǎn)的確定位置.如果使用前一種方法,計(jì)算出的掃視路徑會(huì)趨向于在某幾個(gè)具有局部顯著性極大值的點(diǎn)中進(jìn)行周期性的往返.后一種方法即考慮到了視覺(jué)系統(tǒng)的隨機(jī)性,又兼顧了顯著性在注視點(diǎn)移動(dòng)中的決定性作用.因此,我們采用后一種方法.
1.5算法步驟
通過(guò)以上的細(xì)節(jié)介紹,整個(gè)模型可以總結(jié)為3條因素(中央凹顯著性、掃視傾向、返回抑制),其實(shí)現(xiàn)步驟如下:
(1) 對(duì)于輸入圖像,選擇圖像的中心位置作為初始的注視點(diǎn);
(2) 計(jì)算中央凹圖像,由中央凹圖像生成顯著圖作為第一個(gè)因素;
(3) 將掃視路徑在距離和方向上的傾向信息作為第二個(gè)因素;
(4) 將當(dāng)前和過(guò)去的注視點(diǎn)的視覺(jué)短期記憶對(duì)注視點(diǎn)的返回抑制機(jī)制作為第三個(gè)因素;
(5) 綜合3個(gè)因素,得到當(dāng)前注視點(diǎn)到下一注視點(diǎn)的轉(zhuǎn)移概率圖;
(6) 根據(jù)轉(zhuǎn)移概率,隨機(jī)采樣若干個(gè)下一注視點(diǎn)的候選點(diǎn),并從中選取顯著性最大的位置作為下一注視點(diǎn);
(7) 以新的注視點(diǎn)為中心,重復(fù)進(jìn)行步驟(2)至步驟(6),直到得到整條掃描路徑.
圖3給出了模型框架每一步驟所對(duì)應(yīng)的概率圖,(e)為最終計(jì)算出的下一個(gè)注視點(diǎn)的轉(zhuǎn)移概率圖,并在其中標(biāo)注了當(dāng)前注視點(diǎn)(用三角形表示)、候選點(diǎn)(用方框表示)以及下一注視點(diǎn)(用圓圈表示)的位置.可以看到本文所提議方法在3種因素的協(xié)同作用下有效地選取了下一注視點(diǎn),并成功實(shí)現(xiàn)了返回抑制.
圖4給出了所提出方法的主要框架.
2.1實(shí)驗(yàn)設(shè)計(jì)與參數(shù)選擇
本節(jié)給出了一些實(shí)驗(yàn)中的具體實(shí)現(xiàn)細(xì)節(jié)和參數(shù)選擇.在計(jì)算中央凹圖像的時(shí)候,使用了4層多分辨率金字塔.層數(shù)過(guò)多會(huì)增加計(jì)算量,對(duì)于顯著圖的計(jì)算來(lái)說(shuō)也沒(méi)有太大的必要.在掃視傾向的計(jì)算中,采用了Botev等[21]提出的核密度估計(jì)算法工具包,該算法利用代入法最小化平均積分方差,從而自適應(yīng)地得到高斯核帶寬.在返回抑制機(jī)制上,所提議算法考慮了當(dāng)前注視點(diǎn)以及過(guò)去3個(gè)注視點(diǎn)的影響.返回抑制的區(qū)域大小σM參考了STB模型[9]所使用的參數(shù).最后在利用注視點(diǎn)轉(zhuǎn)移概率分布圖的時(shí)候,通過(guò)隨機(jī)抽樣的方式獲得10個(gè)候選點(diǎn),概率分布圖中值較大的點(diǎn)更有可能被抽到.候選點(diǎn)的數(shù)量對(duì)于估計(jì)的結(jié)果具有一定的影響.由于所提議方法選擇顯著性最高的候選點(diǎn)作為下一注視點(diǎn),當(dāng)候選點(diǎn)過(guò)多時(shí)總是趨向于選擇某幾個(gè)顯著點(diǎn),整體的隨機(jī)性就降低了;候選點(diǎn)較少時(shí)隨機(jī)性較大,有可能在候選點(diǎn)中沒(méi)有比較顯著的點(diǎn).經(jīng)過(guò)實(shí)驗(yàn)比較,選擇了10作為候選點(diǎn)數(shù)量比較合適.
2.2注視點(diǎn)掃視路徑的評(píng)價(jià)指標(biāo)
如上文所述,注視點(diǎn)掃視路徑的研究?jī)?nèi)容不僅包含了一般的圖像顯著性,即注視點(diǎn)在圖像中的位置分布,而且還包含了注視點(diǎn)的先后順序,因此衡量注視點(diǎn)掃視路徑的指標(biāo)僅僅沿用原有的圖像顯著性指標(biāo)是遠(yuǎn)遠(yuǎn)不夠的.為此,不考慮順序的注視點(diǎn)位置分布和考慮順序的注視點(diǎn)轉(zhuǎn)移序列都是需要比較的對(duì)象.
在實(shí)驗(yàn)中,對(duì)于每一幅輸入圖像,計(jì)算得到的掃視路徑是由8個(gè)注視點(diǎn)構(gòu)成的1條掃視序列,每個(gè)注視點(diǎn)用其在圖像中的位置(x,y)進(jìn)行表示.
如果不考慮點(diǎn)之間的順序,僅把掃視路徑視為注視點(diǎn)的集合,為了計(jì)算估計(jì)的結(jié)果和眼動(dòng)真實(shí)數(shù)據(jù)在位置上的相似程度,本文采用sAUC(shuffled Area Under roc Curve)方法[22]進(jìn)行衡量比較.曲線下面積(Area Under roc Curve, AUC)是常用的注視點(diǎn)評(píng)價(jià)指標(biāo),計(jì)算的是閾值變化得到的ROC(Receiver Operating Characteristics)曲線下面積,面積越大其結(jié)果與真實(shí)數(shù)據(jù)越相似.在當(dāng)前被考察的圖像中,將當(dāng)前注視點(diǎn)圖像中的注視點(diǎn)作為正類,圖像中沒(méi)有被注視的區(qū)域則作為負(fù)類.由于注視點(diǎn)大多處于圖像中心區(qū)域,因此負(fù)類中的點(diǎn)很有可能是周邊區(qū)域的像素.sAUC方法是AUC方法的一種改進(jìn),對(duì)于正類和負(fù)類的選取不局限于當(dāng)前圖像.以當(dāng)前圖像的注視點(diǎn)作為正類,而數(shù)據(jù)庫(kù)中所有其他圖像的注視點(diǎn)作為負(fù)類.這樣一來(lái),負(fù)類的點(diǎn)和正類的點(diǎn)都是分布在圖像的中心區(qū)域,就能夠消除中心偏置帶來(lái)的影響.
另一方面,在考慮注視點(diǎn)之間先后順序的情況下,實(shí)驗(yàn)結(jié)果是每幅圖像對(duì)應(yīng)1條掃視序列,眼動(dòng)真實(shí)數(shù)據(jù)一般為多個(gè)測(cè)試者對(duì)同一幅圖像進(jìn)行自由觀察的注視點(diǎn)記錄,對(duì)于不同測(cè)試者來(lái)說(shuō)記錄下來(lái)的眼動(dòng)數(shù)據(jù)可能會(huì)有一定的差別.在對(duì)序列進(jìn)行比較的時(shí)候,同一幅圖像中,與不同測(cè)試者的掃視序列進(jìn)行比較,對(duì)比較的結(jié)果取平均值,以代表該圖像上的評(píng)價(jià)分?jǐn)?shù).
(10)
(11)
文獻(xiàn)[23]對(duì)現(xiàn)有的掃視序列相似性衡量標(biāo)準(zhǔn)進(jìn)行了綜合分析和對(duì)比.在視覺(jué)注視的研究中,注視點(diǎn)的位置、注視點(diǎn)移動(dòng)的方向和距離、注視持續(xù)時(shí)間、掃視的順序等等方面,根據(jù)研究課題的不同,研究者可能會(huì)有不同的關(guān)注面.針對(duì)這些不同的側(cè)重方面,該文獻(xiàn)對(duì)于多種現(xiàn)有方法進(jìn)行了實(shí)驗(yàn)和比較,給出了評(píng)價(jià)指標(biāo)選擇上的建議.在本文中,我們對(duì)掃視路徑的研究更注重注視點(diǎn)的位置、注視點(diǎn)移動(dòng)的方向和距離及掃視的順序.基于這一需要與文獻(xiàn)[23]的綜合對(duì)比結(jié)果及推薦,我們采用評(píng)價(jià)方法ScanMatch[24],它是由Needleman-Wunsch算法(利用動(dòng)態(tài)規(guī)劃的原理對(duì)兩條序列進(jìn)行局部對(duì)齊和評(píng)分)改進(jìn)而來(lái)的掃視路徑比較方法.ScanMatch的評(píng)分是歸一化的,處于0到1之間,而且和序列的長(zhǎng)度是無(wú)關(guān)的.如果值越接近1,則序列的相似程度越高.由于在時(shí)間上進(jìn)行了重采樣,假設(shè)有2條路徑相同而持續(xù)時(shí)間不同的路徑,由ScanMatch方法得到的結(jié)果是完全匹配的.因此,它具有很好的魯棒性,能夠給出客觀的比較結(jié)果.更進(jìn)一步,文獻(xiàn)[24]提供了工具包,使用比較簡(jiǎn)便.
3種評(píng)價(jià)指標(biāo)關(guān)注點(diǎn)不同: sAUC評(píng)價(jià)指標(biāo)主要考察產(chǎn)生的注視點(diǎn)是否符合人眼的注視點(diǎn)密度數(shù)據(jù);Hausdorff距離和Mean Minimal距離則從子序列的角度上對(duì)兩條掃視序列進(jìn)行對(duì)比;ScanMatch評(píng)價(jià)指標(biāo)能夠在整體上衡量?jī)蓷l掃視序列的相似度.本文采用的3種指標(biāo)各有所長(zhǎng),能夠更加客觀、更加準(zhǔn)確地對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行分析和比較.
2.3實(shí)驗(yàn)數(shù)據(jù)庫(kù)
在實(shí)驗(yàn)中我們使用了公開(kāi)的眼動(dòng)追蹤數(shù)據(jù)庫(kù)Bruce[19]和Judd[20]來(lái)評(píng)價(jià)所提出方法的效果.在Bruce數(shù)據(jù)庫(kù)中,有120幅自然圖像,并且有眼動(dòng)記錄數(shù)據(jù)作為地面真實(shí).對(duì)于每張圖像,20個(gè)測(cè)試者的掃視路徑被記錄下來(lái),路徑的長(zhǎng)度為3到8個(gè)點(diǎn).在Judd數(shù)據(jù)庫(kù)中,有1003幅圖像,其中有一部分是包含人物的圖像.對(duì)于每張圖像,15個(gè)測(cè)試者的掃視路徑被記錄下來(lái),路徑的長(zhǎng)度為6到12個(gè)點(diǎn).
估計(jì)的掃視路徑與真實(shí)數(shù)據(jù)的相似程度衡量結(jié)果如表1、表2(見(jiàn)第438頁(yè))所示,Hausdorff距離和Mean Minimal距離越小、ScanMatch和sAUC結(jié)果越大,表示相似的程度越高,兩條注視點(diǎn)掃視路徑越相似.
實(shí)驗(yàn)中比較的方法有STB[9]、SHSSNI[10]、DMSG[11](采用了STB的顯著圖),在第1節(jié)中對(duì)這些方法進(jìn)行了簡(jiǎn)單的介紹.其中,由于DMSG需要在已有的顯著圖上計(jì)算掃視路徑,這里采用了STB的顯著圖.除此以外,為了驗(yàn)證框架中各環(huán)節(jié)在估計(jì)效果提升上所起的作用,還對(duì)于以下兩種情況進(jìn)行了比較: 一種是在所提議方法框架中顯著圖的部分不使用PQFT,而是采用STB計(jì)算顯著圖的方法;另一種是不使用中央凹圖像,在計(jì)算掃視路徑的時(shí)候顯著圖不隨注視點(diǎn)移動(dòng)而改變的情況.
表1 在Bruce庫(kù)上相似程度衡量結(jié)果比較
注: 每種評(píng)價(jià)指標(biāo)的最優(yōu)效果由粗體標(biāo)出.
表2 在Judd庫(kù)上相似程度衡量結(jié)果比較
注: 每種評(píng)價(jià)指標(biāo)的最優(yōu)效果由粗體標(biāo)出.
由表1、表2的數(shù)據(jù)可以看到,所提出的方法在綜合性能指標(biāo)上優(yōu)于被比較的方法,尤其在Bruce數(shù)據(jù)庫(kù)上取得了較好的效果.由于Judd數(shù)據(jù)庫(kù)中不僅包含了自然圖像,還有人物圖像以及部分心理圖像,所以記錄的眼動(dòng)追蹤數(shù)據(jù)容易受到高層次因素的影響.這可能是所提出方法在部分評(píng)價(jià)指標(biāo)略遜于其他方法的原因.
實(shí)驗(yàn)中的顯著圖計(jì)算方法采用了簡(jiǎn)單高效的PQFT算法,該算法計(jì)算得到的顯著圖本身在效果上優(yōu)于STB的靜態(tài)顯著圖.為了驗(yàn)證我們所提出的框架是否對(duì)比STB方法具有優(yōu)勢(shì),將我們的框架結(jié)合該方法的顯著圖算法進(jìn)行試驗(yàn),與其結(jié)果相比較.從數(shù)據(jù)中可以看到,不論是估計(jì)的注視點(diǎn)還是掃視路徑的評(píng)價(jià)結(jié)果都得到了有效的提升.
所提議方法使用的中央凹圖像模擬了人眼的分辨率,對(duì)于這一部分在整個(gè)框架中所起的作用,比較結(jié)果如表1、表2所示.可以明顯看到在sAUC指標(biāo)上兩者的結(jié)果相近,說(shuō)明估計(jì)的注視點(diǎn)都較為符合人的實(shí)際注視密度圖;但是在ScanMatch、Hausdorff距離和Mean Minimal距離這些針對(duì)掃視路徑的評(píng)價(jià)指標(biāo)上,使用了中央凹圖像以后效果得到了明顯的提高.
另外,部分估計(jì)的掃視路徑的結(jié)果如圖5、圖6所示.圖5中的結(jié)果具有較好的視覺(jué)效果,并且與真實(shí)的眼動(dòng)數(shù)據(jù)較為接近,數(shù)據(jù)庫(kù)中的絕大部分結(jié)果具有如圖5所示的視覺(jué)效果.圖6則是多次實(shí)驗(yàn)中有一定概率會(huì)出現(xiàn)的個(gè)例,估計(jì)效果在視覺(jué)上較為集中.圖6(a)這一類圖像中存在這樣的情況: 多個(gè)顯著區(qū)域在圖中的分布比較零散,區(qū)域之間距離比較長(zhǎng).由于候選點(diǎn)是根據(jù)轉(zhuǎn)移概率隨機(jī)抽樣得到的,而概率上人眼更傾向于短距離的移動(dòng),所以會(huì)出現(xiàn)不能跨越相距較遠(yuǎn)的顯著區(qū)域的掃視路徑估計(jì)結(jié)果.圖6(b)是在圖像中可能存在較多垂直注視點(diǎn)移動(dòng)的情況.由于實(shí)驗(yàn)采用的掃視傾向信息在統(tǒng)計(jì)上具有1.3節(jié)所述的特征,比起垂直移動(dòng),人眼對(duì)于注視點(diǎn)水平移動(dòng)具有更強(qiáng)的偏向性,所以得到的結(jié)果存在一定的偏差.總的來(lái)說(shuō),由于產(chǎn)生候選點(diǎn)機(jī)制中的隨機(jī)性,所以在多次實(shí)驗(yàn)中,有時(shí)會(huì)得到類似圖6的結(jié)果.
在掃視路徑計(jì)算這一研究領(lǐng)域,已有的方法計(jì)算過(guò)于繁瑣,或者沒(méi)有考慮注視點(diǎn)轉(zhuǎn)移過(guò)程中顯著性的變化.針對(duì)上述問(wèn)題,本文提出了一種具有生物依據(jù)的注視點(diǎn)掃視路徑估計(jì)方法.所提出方法從概率的角度出發(fā),融合了3大因素: 模仿視網(wǎng)膜成像的中央凹圖像、注視點(diǎn)移動(dòng)距離和方向的傾向、注視點(diǎn)返回抑制的機(jī)制.在綜合得到的概率圖中,隨機(jī)抽樣產(chǎn)生候選點(diǎn),再?gòu)暮蜻x點(diǎn)中根據(jù)顯著性挑選最適合的下一注視點(diǎn).實(shí)驗(yàn)結(jié)果表明: 本文提出的計(jì)算模型估計(jì)得到掃視路徑在絕大多數(shù)情況下具有較好的結(jié)果,并且符合真實(shí)數(shù)據(jù)的分布.在客觀全面的衡量標(biāo)準(zhǔn)下,對(duì)比其他現(xiàn)有方法,所提出的方法在兩個(gè)數(shù)據(jù)庫(kù)上的各種測(cè)試指標(biāo)都接近或優(yōu)于其他方法.
[1]BORJI A, ITTI L. State-of-the-art in visual attention modeling [J].IEEETransonPatternAnalysisandMachineIntelligence, 2013,35(1): 185-207.
[2]ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis [J].IEEETransonPatternAnalysisandMachineIntelligence, 1998,20(11): 1254-1259.
[3]TREISMAN A M, GELADE G. A feature-integration theory of attention [J].CognitivePsychology, 1980,12(1): 97-136.
[4]HAREL J, KOCH C, PERONA P. Graph-based visual saliency[C]∥Advances in Neural Information Processing Systems 20. Vancouver, BC, Canada: MIT Press, 2007: 545-552.
[5]HOU X, ZHANG L. Saliency detection: A spectral residual approach[C]∥Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA: IEEE Press, 2007: 1-8.
[6]GUO C, MA Q, ZHANG L. Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform[C]∥Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE Press, 2008: 1-8.
[7]LEE T S, STELLA X Y. An information-theoretic framework for understanding saccadic eye movements[C]∥Advances in Neural Information Processing Systems 12. Denver, CO, USA: MIT Press, 1999: 834-840.
[8]RENNINGER L W, VERGHESE P, COUGHLAN J. Where to look next? Eye movements reduce local uncertainty [J].JournalofVision, 2007,7(3): 6.
[9]WALTHER D, KOCH C. Modeling attention to salient proto-objects [J].NeuralNetworks, 2006,19(9): 1395-1407.
[10]WANG W, CHEN C, WANG Y,etal. Simulating human saccadic scanpaths on natural images[C]∥Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE Press, 2011: 441-448.
[11]ENGBERT R, TRUKENBROD H A, BARTHELMé S,etal. Spatial statistics and attentional dynamics in scene viewing [J].JournalofVision, 2015,15(1): 14.
[12]SUN X, YAO H, JI R,etal. Toward statistical modeling of saccadic eye-movement and visual saliency [J].IEEETransonImageProcessing, 2014,23(11): 4649-4662.
[13]LIU H, XU D, HUANG Q,etal. Semantically-based human scanpath estimation with HMMs[C]∥Proc of the IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE Press, 2013: 3232-3239.
[14]LARSON A M, LOSCHKY L C. The contributions of central versus peripheral vision to scene gist recognition [J].JournalofVision, 2009,9(10): 6.
[15]BAYS P M, HUSAIN M. Active inhibition and memory promote exploration and search of natural scenes [J].JournalofVision, 2012,12(8): 8.
[16]LEMEUR O, LIU Z. Saccadic model of eye movements for free-viewing condition[J/OL].VisionResearch, 2015.http:∥www.sciencedirect.com/science/article/pii/S0042698915000504.
[17]BLEDOWSKI C, RAHM B, ROWE J B. What “works” in working memory? Separate systems for selection and updating of critical information [J].TheJournalofNeuroscience, 2009,29(43): 13735-13741.
[18]GEISLER W S, PERRY J S. Real-time simulation of arbitrary visual fields[C]∥Proc of the 2002 symposium on Eye tracking research & applications. New Orleans, LA, USA: ACM Press, 2002: 83-87.
[19]BRUCE N, TSOTSOS J. Saliency based on information maximization[C]∥Advances in Neural Information Processing Systems 18. Vancouver, BC, Canada: MIT Press, 2005: 155-162.
[20]JUDD T, EHINGER K, DURAND F,etal. Learning to predict where humans look[C]∥Proc of the IEEE International Conference on Computer Vision. Kyoto, Japan: IEEE Press, 2009: 2106-2113.
[21]BOTEV Z I, GROTOWSKI J F, KROESE D P. Kernel density estimation via diffusion [J].TheAnnalsofStatistics, 2010,38(5): 2916-2957.
[22]BORJI A, SIHITE D N, ITTI L. Quantitative analysis of human-model agreement in visual saliency modeling: A comparative study [J].IEEETransonImageProcessing, 2013,22(1): 55-69.
[23]ANDERSON N C, AANDERSON F, KINGSTONE A,etal. A comparison of scanpath comparison methods[J/OL]. Behavior Research Methods, 2014.http:∥www.ncbi.nlm.nih.gov/pubmed/25540126.
[24]CRISTINO F, MATHT S, THEEUWES J,etal. ScanMatch: A novel method for comparing fixation sequences [J].BehaviorResearchMethods, 2010,42(3): 692-700.
Scanpath Estimation Based on Foveal Image Saliency and Saccadic Bias
WANG Yixiu1,2, WU Xiaofeng1, WANG Bin1,2
(1.ResearchCenterofSmartNetworksandSystems,SchoolofInformationScienceandTechnology,F(xiàn)udanUniversity,Shanghai200433,China; 2.KeyLaboratoryforInformationScienceofElectromagneticWaves(MinistryofEducation),F(xiàn)udanUniversity,Shanghai200433,China)
The estimation of gaze shifting has been an important research area in saliency modeling. Most of the existing methods tend to be complex in computation and are limited to estimating scanpaths within only one saliency map, while the gaze movement is a dynamic progress. To solve the above problems, a novel bio-inspired method for predicting eye movements is proposed. There are three principal factors: the effect of foveal images in finding salient regions dynamically, the saccadic bias in the distance and direction of gaze shifts, and the mechanism of IoR(Inhibition of Return) in short-term memory. Based on the probability map from the three factors, we can randomly generate candidates of the next fixation and get the final scanpath point by point. Compared to existing models, our method performs more accurately and efficiently in several datasets under the evaluation of objective comparison measures.
selective attention; saliency; eye movement; scanpath
0427-7104(2016)04-0431-11
2015-07-23
國(guó)家自然科學(xué)基金(61572133)
王宜修(1991—),女,碩士研究生;王斌,男,教授,通訊聯(lián)系人,E-mail: wangbin@fudan.edu.cn.
TN 911.73
A