亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多重注意力機制的人眼注視點預(yù)測

        2022-12-21 03:23:46孔力胡學(xué)敏汪頂劉艷芳張龑陳龍
        中國圖象圖形學(xué)報 2022年12期
        關(guān)鍵詞:注視點人眼注意力

        孔力,胡學(xué)敏*,汪頂,劉艷芳,張龑,陳龍

        1. 湖北大學(xué)計算機與信息工程學(xué)院,武漢 430062; 2. 中山大學(xué)數(shù)據(jù)科學(xué)與計算機學(xué)院,廣州 510006

        0 引 言

        人眼在觀察畫面時會傾向于關(guān)注自己感興趣的區(qū)域,自動忽略一些不重要區(qū)域,這種機制稱為視覺注意力機制(Borji,2021;Dorta等,2018)。王文冠等人(2019)提出,從人類生理機理的角度而言,人類的視覺注意力機制基于視網(wǎng)膜的特殊生理結(jié)構(gòu),即高分辨率的視網(wǎng)膜中央凹和較低分辨率的邊緣視網(wǎng)膜。視網(wǎng)膜的中央凹區(qū)域集中了絕大多數(shù)的視錐細(xì)胞,負(fù)責(zé)視力的高清成像。人們關(guān)注某一物體時,通過轉(zhuǎn)動眼球?qū)⒐饩€集中到中央凹,獲取顯著區(qū)域的更多細(xì)節(jié)而忽略其他不相關(guān)區(qū)域的信息。可見,人類視覺注意力機制引導(dǎo)視網(wǎng)膜的生理結(jié)構(gòu)完成對場景信息的選擇性收集任務(wù),該機制可將有限的腦資源用于場景中重要信息的處理,是人類視覺高效率和高精度的基礎(chǔ)。

        顯著目標(biāo)檢測的任務(wù)通常分為顯著區(qū)域檢測和人眼注視點預(yù)測兩類(Oyama和Yamanaka,2018)。早期的人眼注視點預(yù)測往往是基于人工選擇特征方法(Valenti等,2009)。Zhang和Sclaroff(2016)利用在LAB色彩空間(lab color space)中獲得的一組特征生成最終的人眼注視概率圖。這類方法通常只關(guān)注圖像的低級特征或只關(guān)注圖像的高級特征,沒有將不同層次的特征結(jié)合起來。

        隨著深度神經(jīng)網(wǎng)絡(luò)在計算機視覺任務(wù)上的廣泛應(yīng)用,人們在顯著目標(biāo)檢測上使用了深度神經(jīng)網(wǎng)絡(luò)技術(shù)。Vig等人(2014)首次使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測顯著概率圖。之后,人們開始關(guān)注如何有效增加模型深度來提高模型的表達能力。SALICON(saliency in context)(Huang等,2015)將不同分辨率的圖像輸入同一種神經(jīng)網(wǎng)絡(luò),然后組合這些分辨率圖像的高級特征進行預(yù)測。Deepfix(Kruthiventi等,2017)使用空洞卷積技術(shù)進行預(yù)測。上述一些方法直接使用主干網(wǎng)絡(luò)的高層特征預(yù)測顯著圖,或不加區(qū)分地聚合多級特征進行預(yù)測,這些方法都未考慮特征之間的冗余,容易導(dǎo)致不佳的預(yù)測效果(何偉和潘晨,2022)。

        注意力機制的發(fā)展為人眼注視點預(yù)測提供了新的方向。SAM-Res(saliency attention model)(Cornia等,2018)提出了帶有注意力機制的長短期記憶(long short-term memory,LSTM)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。DINet(dilated inception network)(Yang等,2020)將帶有空洞卷積的IncePtion網(wǎng)絡(luò)用于自下而上的人眼注視點預(yù)測。GazeGAN(gaze generative adversarial network)(Che等,2020)采用通道方向的注意力進行人眼注視點預(yù)測。盡管這些方法取得了良好的性能,但仍然沒有考慮不同層特征對顯著目標(biāo)的貢獻差異。

        現(xiàn)有基于注意力機制的人眼注視點預(yù)測研究往往集中在空間級和通道級注意力的問題上,既忽視了不同層級之間特征的重要性對預(yù)測結(jié)果的影響,也沒有分析和融合空間、通道以及層級多種注意力機制的模型。此外,現(xiàn)有方法較少考慮人眼在觀察事物時的中心偏置問題,導(dǎo)致預(yù)測精度有限。本文基于ConvLSTM(convolutional LSTM)模型,將層注意力機制與空間、通道注意力機制相融合,提出一種多重注意力機制的網(wǎng)絡(luò)(multiple attention mechanism network, MAM-Net)進行人眼注視點預(yù)測。本文主要工作有以下3點:1)提出一種層注意力機制,并與空間、通道注意力機制相融合,提出基于ConvLSTM的多重注意力模型,從層級、空間和通道多個角度增強模型的表征能力;2)提出一種高斯學(xué)習(xí)模塊,根據(jù)當(dāng)前的特征信息自動選擇合適的高斯模糊參數(shù),優(yōu)化人眼注視點預(yù)測概率圖,解決人眼視覺的中心偏置問題,提高預(yù)測效果;3)在公開數(shù)據(jù)集上進行多項綜合性測試。結(jié)果顯示,本文方法在多數(shù)人眼注視點預(yù)測指標(biāo)上超過了現(xiàn)有主流模型。

        1 多重注意力機制與人眼注視點預(yù)測

        本文提出的基于多重注意力機制的人眼注視點預(yù)測模型主要分為3部分,即圖像特征提取模塊、多重注意力模塊和高斯學(xué)習(xí)模塊,如圖1所示。

        圖1 人眼注視點預(yù)測總體流程圖Fig.1 Overview of eye fixation prediction

        1.1 圖像特征提取模塊

        本文提出的MAM-Net中的特征提取模型以ResNet-50作為主干網(wǎng)絡(luò)。在不減小圖像尺寸和增加模型參數(shù)的情況下,為緩解傳統(tǒng)ResNet-50在顯著性預(yù)測中特征信息丟失問題,在傳統(tǒng)ResNet-50的基礎(chǔ)上進行改進,設(shè)計了一種基于空洞卷積(Liu和Han,2018)的ResNet-50網(wǎng)絡(luò)??斩礆埐罹矸e網(wǎng)絡(luò)(dilated ResNet,DRN)的參數(shù)設(shè)置如表1所示。為表述方便,將第1個卷積塊記做M0,其余4個殘差卷積模塊分別記做M1、M2、M3和M4,選擇每個殘差模塊的最后一層結(jié)果作為特征圖。為兼顧模型大小與精確度,本文選取的特征圖數(shù)量為原網(wǎng)絡(luò)所提取的1/8。

        表1 基于空洞卷積的ResNet-50參數(shù)設(shè)置Table 1 Parameters in the ResNet-50 based on dilated convolution

        1.2 多重注意力模塊

        由于淺層特征對于顯著圖的細(xì)節(jié)十分重要,而深層特征提供了抽象的語義信息。所以,初始特征圖先經(jīng)過通道、空間注意力處理,再利用層注意力機制來優(yōu)化不同層之間的權(quán)重,能有效突出特征表達,最后輸入ConvLSTM中生成初步預(yù)測的特征圖Q,該過程如圖2所示。

        圖2 MAM結(jié)構(gòu)Fig.2 Architecture of the MAM

        1.2.1 通道注意力機制設(shè)計

        通道注意力的目的是表達某層卷積中不同通道之間的特征重要性(Hu等,2020),本文設(shè)計的通道注意力機制如圖3中紅色虛線框所示。

        F∈RH×W×C為提取到的特征圖,其中F可看成F=[F1,F2, …,Fc],F(xiàn)i∈RH×W表示第i個通道,C為通道的數(shù)量。對F同時使用全局最大池化操作和全局平均池化操作,得

        Favg=FC(GA(F))

        (1)

        Fmax=FC(GM(F))

        (2)

        式中,F(xiàn)C為全連接層(fully connected)函數(shù),GA和GM分別表示全局平均池化(global average pooling)和全局最大池化(global max pooling)。Favg和Fmax分別表示平均池化和最大池化后進行FC后的特征。將大小為R1×1×C的權(quán)重向量Favg和Fmax進行對應(yīng)元素加和操作,經(jīng)由激活函數(shù)生成最終的通道注意力參數(shù)Mc,即

        Mc=σ(Favg+Fmax)

        (3)

        式中,σ表示sigmoid函數(shù)。

        Fc為通道注意力處理后的特征,具體過程為

        Fc=Mc?F

        (4)

        式中,?代表元素相乘。

        圖3 通道注意力與空間注意力模塊Fig.3 Channel-spatial attention aggregation module

        1.2.2 空間注意力機制設(shè)計

        空間注意力的目的是表達同一通道圖像的不同區(qū)域像素點之間的權(quán)重關(guān)系(Woo等,2018),本文設(shè)計的空間注意力結(jié)構(gòu)如圖3綠色虛線框所示。

        將特征圖Fc在通道維度上先后進行平均池化和最大池化操作,得到Fa和Fm∈RH×W×1,具體為

        Fa=GA(Fc)

        (5)

        Fm=GM(Fc)

        (6)

        式中,F(xiàn)a和Fm分別為經(jīng)過平均池化和最大池化后的特征圖。

        為了將Fa和Fm基于通道維度融合成一個有效的特征圖,本文設(shè)計大小為7 × 7的卷積進行卷積操作,使其降維為單通道,接著通過激活函數(shù)得到空間注意力的特征參數(shù)Ms,具體為

        Ms=σ(f7×7[Fa;Fm])

        (7)

        式中,f7×7[Fa;Fm]為卷積操作。

        Fcs∈RH×W×C為通道—空間注意力處理后的特征圖,過程為

        Fcs=Ms?Fc

        (8)

        1.2.3 層注意力機制設(shè)計

        由于不同層的特征表述的信息不同,信息的重要程度也不同,若無差別地處理不同特征會影響最終的預(yù)測效果。本文提出一種層注意力機制,如圖4所示。將各個層級劃分成獨立的塊,初始每一個獨立的塊有相同的層級注意力的權(quán)重,層注意力的權(quán)重可以表達相對高效的層級特征。通過通道和空間注意力模塊后的特征記為Xt=Fcs∈RL×H×W×C,其中L為MAM-Net中提取的特征層數(shù),C為當(dāng)前特征具有的通道數(shù),W和H分別對應(yīng)特征圖的寬度和高度。層注意力機制計算為

        Wt=G*Ht-1

        (9)

        St=softmax(Wt)?L

        (10)

        (11)

        式中,Ht-1是ConvLSTM在t-1時刻生成的隱藏狀態(tài),*代表卷積操作,G為卷積模塊,利用GA和FC來改變每一層的權(quán)重,Wt∈RL×1×1×1。St為RL×H×W×C的權(quán)重圖。將Xt乘以St作為層注意力機制的輸出結(jié)果,得到輸入ConvLSTM的數(shù)據(jù)。

        1.3 高斯學(xué)習(xí)模塊

        人眼觀察圖像時傾向于圖像中心部分,這種中心偏置行為往往導(dǎo)致實際的人眼注視點與預(yù)測算法得到的結(jié)果不一致(Liang和Hu,2015;Tatler,2007)。

        圖4 層注意力機制Fig.4 Layer attention

        本文提出一種高斯學(xué)習(xí)模塊,通過設(shè)置不同的高斯濾波核來處理初步人眼注視點圖Q,生成最終的人眼注視點預(yù)測圖。高斯學(xué)習(xí)模塊由高斯濾波層和卷積層組成,如圖5所示。圖5中,n為高斯濾波核的數(shù)量,本文中n=10,為經(jīng)驗值。

        在高斯濾波層中,將特征圖Q分別經(jīng)過n個不同高斯核的模糊處理,得到一組濾波后的圖像{Q1,Q2, …,Qn}。高斯濾波核可具體表示為

        (12)

        圖5 高斯學(xué)習(xí)模塊結(jié)構(gòu)Fig.5 Gussian learning module

        圖6 不同γ取值的人眼注視點預(yù)測圖Fig.6 Saliency prediction probability in differentγ((a)original image;(b)fixation maps; (c)saliency maps;(d)γ = 0.01;(e)γ = 0.02;(f)γ = 0.04;(g)γ = 0.06;(h)γ = 0.08;(i)prediction)

        1.4 損失函數(shù)

        SAM-Res模型在人眼注視點預(yù)測中取得了較好的結(jié)果,本文損失函數(shù)系數(shù)參照該方法,采用一種組合的損失函數(shù),由3個不同的顯著性評估指標(biāo)線性組合而成,能夠有效平衡不同評估指標(biāo)。具體為

        L(y,yden,yfix)=-LNSS-2LCC+10LKLD

        (13)

        式中,LNSS、LCC和LKLD分別代表計算歸一化掃描路徑一致性(normalized scanpath saliency,NSS)、線性相關(guān)系數(shù)(linear correlation coefficient,CC)和相對熵(Kullback-Leibler divergence,KLD)3個指標(biāo)的損失函數(shù)。LNSS用來計算預(yù)測值與人眼注視點之間的損失,LCC和LKLD用來計算預(yù)測值與注視點概率圖之間的損失。yden是數(shù)據(jù)集標(biāo)注的人眼注視點概率圖標(biāo)簽,yfix是數(shù)據(jù)集標(biāo)注的人眼注視點二值圖標(biāo)簽。標(biāo)簽數(shù)據(jù)會被標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)據(jù)分布,y為預(yù)測圖。

        2 實驗與結(jié)果分析

        實驗硬件GPU為GeForce GTX 1080TI 11 GB,CPU為Intel Core i7-7700K,深度學(xué)習(xí)框架選用 PyTorch。

        采用公開數(shù)據(jù)集SALICON(Huang等,2015)和MIT300/1003(Judd等,2009)作為本文的實驗數(shù)據(jù)集。測試SALICON數(shù)據(jù)集時,先采用在ImageNet上訓(xùn)練好的分類模型的參數(shù),然后在SALICON上進行訓(xùn)練微調(diào)。測試MIT300/1003數(shù)據(jù)集時,使用從SALICON數(shù)據(jù)集上訓(xùn)練好的模型進行微調(diào)。實驗選擇Adam作為優(yōu)化器,batch size設(shè)置為8,epoch設(shè)置為29,采用SAM模型中的損失函數(shù)作為訓(xùn)練過程的損失函數(shù)。

        用于衡量人眼注視點模型預(yù)測結(jié)果的方法主要包括線性相關(guān)系數(shù)CC、相似性測度(similarity metric,SIM)、信息增益(information gain,IG)、相對熵KLD、受試者工作特性曲線下面積(area under ROC curve,AUC)及其改進版sAUC(shuffled AUC)、歸一化掃描路徑一致性NSS(Bylinskii等,2018)。其中,CC用來統(tǒng)計預(yù)測圖與真實顯著圖之間的線性相關(guān)性;SIM用來衡量預(yù)測圖與真實顯著圖的交叉分布,衡量二者分布匹配程度;IG能夠估算模型相對于使用中心偏置技巧的信息增量;KLD用來衡量顯著性預(yù)測結(jié)果與真值分布之間的距離;AUC用以將檢測顯著圖作為二值分類器與真值顯著圖進行比較;sAUC為AUC的變體,為了消除使用中心偏置技巧效應(yīng)的影響,隨機從其他顯著圖中挑選負(fù)類樣本;NSS能夠衡量人眼注視點固定位置的平均歸一化顯著性。

        CC、NSS和AUC之間具有高相關(guān)性,稱為相似度量集群。CC、NSS、AUC、sAUC、SIM和IG指標(biāo)數(shù)值越高,表明預(yù)測效果越好,KLD指標(biāo)是衡量二者顯著區(qū)域分布距離,數(shù)值越低表示越好。不同指標(biāo)在人眼注視點預(yù)測中的作用不同,本文采用這些指標(biāo)對實驗結(jié)果進行評價。

        2.1 不同注意力機制的對比實驗

        多重注意力機制是本文的核心,在主流的人眼注視點數(shù)據(jù)集SALICON上進行注意力模型的對比實驗。具體方法為分別添加不同的注意力機制,將各個模塊拆除分別進行對比實驗。將通道、空間和層注意力機制分別簡稱為CA (channel attention)、SA(spatial attention)和LA (layer attention),真值簡稱為GT(ground truth)。

        圖7為可視化實例,加入多重注意力機制后不僅能清晰地預(yù)測出目標(biāo)區(qū)域,而且能很好地抑制背景的影響。引入通道注意力機制,可以對圖像中特征的種類有所側(cè)重,更好地理解圖像中的內(nèi)容。

        表2為在不同注意力機制驗證集上的結(jié)果對比。表2中CA的CC、AUC和NSS相較于無注意力機制分別提高0.014、0.009和0.048,說明層注意力能夠更好地理解圖像中的內(nèi)容,提高預(yù)測注視點的位置以及分布精度。SA+CA方法的CC、sAUC和NSS相較于只引入通道機制分別提高0.007、0.005和0.015,顯示圖像的空間位置信息得到更好區(qū)分。在引入層注意力后,區(qū)別于傳統(tǒng)的使用深層特征作為最后預(yù)測,添加層注意力機制能后,模型能更好地提取特征,達到更好的預(yù)測效果,相較于添加通道和空間注意力,CC、sAUC和NSS指標(biāo)分別提高了0.017、0.007和0.034,表明經(jīng)過層注意力機制處理后的特征圖與真實圖存在更多的相似位置。

        2.2 消融實驗

        為測試本文提出的多重注意力機制、高斯學(xué)習(xí)和空洞卷積模塊對人眼注視點預(yù)測的影響。以ResNet-50為主干網(wǎng)絡(luò),在SALICON數(shù)據(jù)集上進行消融實驗。ResNet為原始版本ResNet-50上添加一個上采樣層,使模型獲得與標(biāo)簽圖像同樣分辨率的預(yù)測人眼注視點結(jié)果圖;DRN是加了空洞卷積的Res-Net-50;DRN + MAM結(jié)構(gòu)是加了空洞卷積的ResNet-50模型結(jié)構(gòu)后,使用MAM結(jié)構(gòu)優(yōu)化提取的特征;DRN + GL是在DRN結(jié)構(gòu)后添加一個高斯學(xué)習(xí)(Gussian learning,GL)模塊來優(yōu)化人眼注視概率圖。本文提出的MAM-Net模型是在DRN + MAM的結(jié)構(gòu)上添加高斯學(xué)習(xí)模塊來優(yōu)化預(yù)測結(jié)果。

        圖7 不同注意力機制效果圖Fig.7 Result images of different attention mechanisms((a)original image;(b)ground truth;(c)SA + CA + LA;(d)no attention;(e)CA;(f)SA + CA))

        表2 不同注意力機制在SALICON驗證集的結(jié)果對比Table 2 Comparative results of different attention mechanisms on the SALICON dataset

        圖8為消融實驗中不同模型訓(xùn)練過程的損失函數(shù)曲線圖,為使曲線更加簡潔清晰,采用epoch作為橫坐標(biāo)??梢钥闯?,在訓(xùn)練后期,本文提出的MAM-Net模型和DRN + GL模型在損失值上比較接近,從20個epoch后變化穩(wěn)定,且比其他模型的損失值明顯更小。

        圖8 訓(xùn)練過程中不同模型的損失函數(shù)曲線圖Fig.8 Loss function curves of different models in the training process

        圖9為添加不同模塊的可視化結(jié)果。

        表3為5種獨立模型的對比結(jié)果??梢钥闯?,MAM-Net結(jié)構(gòu)在SALICON驗證集上有3項評價指標(biāo)超過了其他組合,分別是AUC、NSS和sAUC,本文將MAM-Net作為人眼注視點預(yù)測的最優(yōu)選擇。表3中DRN結(jié)構(gòu)相較于普通的ResNet-50結(jié)構(gòu)得到了更好的結(jié)果,可以得知在原始ResNet-50上添加空洞卷積能提高對顯著性位置的預(yù)測精度;添加MAM模塊后,各項指標(biāo)相較于DRN模型存在一定提升,在CC指標(biāo)上達到了0.894,優(yōu)于對比方法,表明MAM模塊使用的多重注意力能更有效地提高顯著圖分布的預(yù)測;從表3第3行和第5行的對比中可知高斯學(xué)習(xí)模塊能夠提高模型預(yù)測精度。MAM-Net的AUC、sAUC和NSS的評分比只添加了MAM的結(jié)構(gòu)分別高出0.004、0.007和0.032,表明高斯學(xué)習(xí)模塊使預(yù)測結(jié)果更接近于人眼注視點的真實分布。

        圖9 不同模塊處理結(jié)果圖Fig.9 Result images with different modules((a)original image;(b)ground truth;(c)plain ResNet;(d)Dilated + ResNet;(e)DRN + MAM;(f)DRN + GL;(g)MAM-Net(ours))

        表3 MAM-Net不同模塊驗證集對比實驗Table 3 Ablation analysis of MAM-Net validation sets

        2.3 主流模型對比實驗

        為了驗證MAM-Net模型的有效性,將本文方法與目前主流人眼注視點預(yù)測模型SAM-Res(Cornia等,2018)和DINet(Yang等,2020)進行對比實驗,結(jié)果如表4所示。可以看出,在SALICON數(shù)據(jù)集上,對比相似使用ConvLSTM結(jié)構(gòu)的SAM-Res和DINet模型,本文提出的基于多重注意力機制的方法在sAUC指標(biāo)上分別高出 0.3%和0.5%,在IG指標(biāo)上分別提高了6%和192%,在KLD評價指標(biāo)上分別提高了33%和53%,在3種模型對比中均達到了最優(yōu)結(jié)果。

        表4 不同模型在SALICON測試數(shù)據(jù)集的結(jié)果對比Table 4 Comparative results of different methods on the SALICON test dataset

        為了驗證模型的泛化能力,在難度較大的MIT300/MIT1003數(shù)據(jù)集上與3種基于深度學(xué)習(xí)的模型DeepGazeI(Kümmerer等,2014)、eDN(ensemble of deep networks)(Vig等,2014)、GoogLeNetCAM(class activation map)(Mahdi和Qin,2019)和基于淺層學(xué)習(xí)的顯著性模型Judd(Judd等,2009),以及3個傳統(tǒng)的顯著性模型GBVS(graph-based visual saliency)(Harel等,2007)、LGS(local global saliency)(Borji和Itti,2012)和RC(region-based contrast)(Cheng等,2015)進行對比,對比結(jié)果如表5所示??梢钥闯觯疚奶岢龅腗AM-Net有良好表現(xiàn),CC指標(biāo)為0.58,表現(xiàn)最好,其他兩個指標(biāo)也與最好指標(biāo)相接近。

        表5 不同模型在MIT300/1003測試集上的結(jié)果對比Table 5 Comparative results of different methods on the MIT300/1003 test dataset

        使用中心偏置的方法可以提高模型在各項指標(biāo)上的評分。由于AUC指標(biāo)會受到中心偏置的影響,sAUC評價方法可有效提高AUC指標(biāo)的魯棒性。IG能夠估算模型相對于使用中心偏置技巧的信息增量。本文方法在sAUC、IG和KLD等指標(biāo)上比對比模型更好,體現(xiàn)了高斯學(xué)習(xí)模塊在預(yù)測中的作用。

        圖10和圖11為在SALICON和MIT300/1003數(shù)據(jù)集上的測試結(jié)果示例圖??梢钥闯?,MAM-Net能夠預(yù)測人、面部、物體和其他主要的強顯著性區(qū)域。特別地,當(dāng)圖像中的強顯著性區(qū)域不明顯或圖像主體比較分散時,如圖10第2、3、4行和圖11第3行,與對比方法相比較,MAM-Net能產(chǎn)生更為準(zhǔn)確的顯著性區(qū)域,與真實的人眼注視點更加接近。

        本文方法也存在一些局限性。如圖12所示,當(dāng)眾多物體集中在一幅圖像中,造成圖像中顯著性對象過于擁擠時,本文方法和對比方法均難以取得較好的預(yù)測效果。

        圖10 SALICON數(shù)據(jù)集對比測試結(jié)果示例Fig.10 Comparative testing results on the SALICON dataset((a)original images;(b)ground truth;(c)DINet;(d)SAM-Res;(e)MAM-Net)

        圖11 MIT300/1003數(shù)據(jù)集對比測試結(jié)果示例Fig.11 Comparative testing results on the MIT300/1003 dataset((a)original images;(b)ground truth;(c)Judd;(d)GBVS;(e)MAM-Net)

        圖12 SALICON上的部分效果不佳示例Fig.12 Some poor cases on the SALICON datasets((a)original images;(b)ground truth;(c)DINet;(d)SAM-Res;(e)MAM-Net)

        3 結(jié) 論

        本文提出了一種融合多重注意力機制的人眼注視點預(yù)測方法。該方法以ResNet-50為主干網(wǎng)絡(luò),一方面通過通道和空間注意力機制優(yōu)化由ResNet-50提取的特征,用以增強圖像中的通道特征和空間特征;另一方面設(shè)計層注意力機制,有選擇地融合不同層間的特征,解決沒有充分利用圖像高低層特征的問題。此外,為了解決人眼觀察圖像產(chǎn)生的中心偏置的行為,提高模型預(yù)測性能,本文提出一種高斯學(xué)習(xí)模塊,通過設(shè)置不同的高斯核來優(yōu)化和生成更符合人眼注視規(guī)律的預(yù)測圖。實驗結(jié)果表明,本文提出的基于MAM-Net的人眼注視點預(yù)測方法可以有效優(yōu)化視覺任務(wù)的特征圖,在圖像上準(zhǔn)確預(yù)測人眼的視覺區(qū)域。與SAM-Res和DINet等對比方法相比,在KLD和sAUC等多項評價指標(biāo)上取得更優(yōu)的結(jié)果。

        本文方法也存在一定的局限性。多重注意力機制可以有效提高人眼注視點的預(yù)測結(jié)果,但是在語義豐富的場景中,特別是眾多目標(biāo)集中在一起時,造成圖像中顯著性對象過于擁擠,預(yù)測效果會明顯下降。在后續(xù)工作中,如何提高語義豐富圖像的特征表達能力和預(yù)測效果是首要研究目標(biāo)。此外,將人眼注視點預(yù)測與特定視覺任務(wù)相結(jié)合,例如基于視覺的自動駕駛,是另一研究方向。

        猜你喜歡
        注視點人眼注意力
        眼動儀技術(shù)在里院建筑特色分析中的應(yīng)用
        讓注意力“飛”回來
        基于超復(fù)數(shù)小波和圖像空域的卷積網(wǎng)絡(luò)融合注視點預(yù)測算法
        人眼X光
        快樂語文(2019年9期)2019-06-22 10:00:38
        人眼為什么能看到虛像
        射擊運動員的反向眼跳研究
        體育時空(2017年6期)2017-07-14 09:24:48
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        閃瞎人眼的,還有唇
        優(yōu)雅(2016年12期)2017-02-28 21:32:58
        A Beautiful Way Of Looking At Things
        基于中央凹圖像顯著性和掃視傾向的注視點轉(zhuǎn)移預(yù)測模型
        吃奶摸下激烈床震视频试看| 亚洲五码av在线观看| 成人性生交大片免费看l| 久久精品国产熟女亚洲| 老师露出两个奶球让我吃奶头| 中文人妻无码一区二区三区在线| 亚州无线国产2021| 国产成人午夜av影院| 国产精品亚洲一区二区三区在线看 | 成美女黄网站18禁免费| 国产亚洲精品视频网站| 一二三四五区av蜜桃 | 中文字幕在线亚洲日韩6页| 亚洲AV秘 无码二区在线| 日韩精品一区二区三区四区视频| 在线观看的a站免费完整版| 日本一本免费一二区| 亚洲精品乱码久久久久久日本蜜臀| 无码人妻系列不卡免费视频| 亚洲伊人成综合人影院| 青青草激情视频在线播放| 亚洲午夜成人精品无码色欲| 午夜亚洲www湿好爽| 亚洲AV乱码毛片在线播放| 在线观看一区二区三区国产| 久久天天躁夜夜躁狠狠85麻豆| 无码免费一区二区三区| 美女一级毛片免费观看97| 精品久久一区二区av| 99久久婷婷国产亚洲终合精品| 亚洲精品无码永久在线观看你懂的 | 日韩成人大屁股内射喷水| 日本久久精品免费播放| 国产精品亚洲最新地址| 日本一区二区视频免费在线看| 又大又粗又爽18禁免费看 | 亚洲av无码男人的天堂在线| 亚洲一级无码AV毛片久久 | 国产色诱视频在线观看| 中文乱码字幕在线中文乱码| av男人的天堂亚洲综合网|