侯士江 侯英 馮希等
關(guān)鍵詞:注意力管理 眼動(dòng)跟蹤 視點(diǎn)預(yù)測(cè) 產(chǎn)品設(shè)計(jì) 深度學(xué)習(xí)
中圖分類號(hào):TB472 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-0069(2022)07-0134-03
引言
當(dāng)面對(duì)復(fù)雜場(chǎng)景、大量信息涌入時(shí),人的注意力會(huì)過(guò)濾掉過(guò)冗余信息,只關(guān)注圖像中的部分區(qū)域,人類的視覺(jué)系統(tǒng)能夠快速?gòu)膱?chǎng)景中定位到具有辨識(shí)性和吸引力的目標(biāo),這種能力被稱為視覺(jué)注意機(jī)制。設(shè)計(jì)的關(guān)鍵目標(biāo)是傳達(dá)不同設(shè)計(jì)元素的相對(duì)重要性,以便觀者知道將注意力集中在何處,以及如何解釋設(shè)計(jì),即設(shè)計(jì)應(yīng)該提供有效的注意力管理[1]。
長(zhǎng)期以來(lái),設(shè)計(jì)師和研究人員一直在研究眼動(dòng)跟蹤,以此作為理解圖像感知的線索。但是眼動(dòng)測(cè)量過(guò)程比較耗時(shí),在實(shí)際應(yīng)用中存在著諸多限制,對(duì)圖像眼動(dòng)感知的預(yù)測(cè)研究已經(jīng)成為計(jì)算機(jī)視覺(jué)中的一個(gè)經(jīng)典課題。早期的自然圖像顯著性方法依賴于手工編碼特征,最近在大數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)方法的表現(xiàn)有了實(shí)質(zhì)性提升。然而,這些方法大多專門為分析自然圖像而開(kāi)發(fā),未針對(duì)設(shè)計(jì)圖像進(jìn)行有效的訓(xùn)練。本研究關(guān)注設(shè)計(jì)領(lǐng)域的圖像重要性預(yù)測(cè),并基于所開(kāi)發(fā)的預(yù)測(cè)模型嘗試了多種設(shè)計(jì)應(yīng)用,對(duì)設(shè)計(jì)中注意力的影響因素進(jìn)行了分析和闡釋。
一、研究現(xiàn)狀
(一)設(shè)計(jì)中的注意力指向
注意是指主體的心理活動(dòng)對(duì)一定對(duì)象存在指向和集中,具體來(lái)說(shuō),就是有機(jī)體對(duì)周圍環(huán)境刺激的選擇性知覺(jué)?!白⒁狻笔窃O(shè)計(jì)中的重要概念,能夠吸引消費(fèi)者的注意實(shí)現(xiàn)促銷功能[2]。
注意指向主要包括目的指向和刺激驅(qū)動(dòng)捕獲。在目的指向設(shè)計(jì)中,設(shè)計(jì)師必須明確提供給用戶該產(chǎn)品最重要的信息,包括性能、結(jié)構(gòu)、材質(zhì)、使用方式等,提高設(shè)計(jì)說(shuō)服力。如何給予用戶一定的視覺(jué)引導(dǎo),使之關(guān)注到預(yù)設(shè)信息是一項(xiàng)重要的工作。而在刺激驅(qū)動(dòng)捕獲中,外界輸入的信息越強(qiáng)、越不穩(wěn)定、越難控制則越容易吸引人的注意。需要注意的是,長(zhǎng)時(shí)間的注意之后會(huì)引起信息超載現(xiàn)象,因此,在具體設(shè)計(jì)中要遵循適度原則。
(二)基于視覺(jué)焦點(diǎn)的設(shè)計(jì)研究
當(dāng)前在設(shè)計(jì)領(lǐng)域單純聚焦于用戶視覺(jué)注意力機(jī)制的研究相對(duì)較少,更多是以捕捉用戶眼動(dòng)的形式來(lái)呈現(xiàn),關(guān)注眼動(dòng)跟蹤在視覺(jué)傳達(dá)、仿生設(shè)計(jì)、意象設(shè)計(jì)及設(shè)計(jì)評(píng)價(jià)領(lǐng)域的應(yīng)用。
吳丹等人[3]指出用戶視覺(jué)注意力與圖像情感相結(jié)合是當(dāng)前圖像情感研究發(fā)展的重要趨勢(shì),構(gòu)建了基于視覺(jué)注意力的圖像情感研究框架;許永生等[4]通過(guò)模擬駕駛實(shí)驗(yàn)的形式,從視覺(jué)層、行為層、心理層三個(gè)維度分析駕駛員的注意力分配情況,總結(jié)界面布局設(shè)計(jì)原則,得到優(yōu)化設(shè)計(jì)方案;呂健等[5]在眼動(dòng)跟蹤實(shí)驗(yàn)的基礎(chǔ)上提出一種面向產(chǎn)品造型風(fēng)格的用戶認(rèn)知模式及量化模型;孫元等[6]研究了眼動(dòng)數(shù)據(jù)與FAHP相結(jié)合的產(chǎn)品感性認(rèn)知測(cè)量方法。
設(shè)計(jì)師和相關(guān)研究人員一直在借助設(shè)備(如眼動(dòng)儀)進(jìn)行眼動(dòng)和設(shè)計(jì)感知的研究,然而眼動(dòng)設(shè)備價(jià)格昂貴,需要苛刻的實(shí)驗(yàn)室環(huán)境,并且會(huì)耗費(fèi)大量的人力物力,所以在實(shí)際應(yīng)用中受到了限制。而人工智能為設(shè)計(jì)感知提供了新的方向。
(三)顯著性檢測(cè)
顯著圖(Saliency Map)由Koch & Ullman提出,用一個(gè)概率分?jǐn)?shù)來(lái)衡量每個(gè)像素點(diǎn)的顯著程度,通過(guò)算法模仿人類的視覺(jué)注意來(lái)查找圖像或視頻中令人最感興趣的部分。
顯著性目標(biāo)檢測(cè)就是使用計(jì)算機(jī)去模擬視覺(jué)注意力分配機(jī)制,將注意力資源盡可能地分配到最重要的區(qū)域,從而實(shí)現(xiàn)對(duì)資源有效利用。其發(fā)展主要經(jīng)歷了三個(gè)階段:① Itti & Koch等首次提出顯著性計(jì)算方法開(kāi)始,以Koch & Ullman算法為基礎(chǔ),基于圖像的顏色、紋理、方向特征的對(duì)比差異計(jì)算中心環(huán)繞差,然后通過(guò)融合多顯著性圖得到最終的預(yù)測(cè)圖;② Achanta、Cheng等認(rèn)為此類任務(wù)可以轉(zhuǎn)化為對(duì)圖像求二進(jìn)制分割的顯著性圖問(wèn)題;③ 基于神經(jīng)網(wǎng)絡(luò)的顯著性檢測(cè)算法。這類算法減少了對(duì)先驗(yàn)知識(shí)的依賴,不需要復(fù)雜的人工特征標(biāo)記,因此得到廣泛使用。基于神經(jīng)網(wǎng)絡(luò)的圖像顯著性目標(biāo)檢測(cè)的相關(guān)研究很多,其模型大多基于完全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutional Networks,F(xiàn)CN)[7]或其變形體,并逐漸關(guān)注網(wǎng)絡(luò)淺層特征和高層特征之間的差異性。
二、圖像視點(diǎn)預(yù)測(cè)模型(IVPM)
對(duì)自然圖像的顯著性預(yù)測(cè)已變得相當(dāng)有效,而對(duì)設(shè)計(jì)元素的重要性預(yù)測(cè)卻鮮見(jiàn)研究。本文提出一種圖像視點(diǎn)預(yù)測(cè)模型(ImageViewpoint Prediction Model,IVPM),IVPM使用深度學(xué)習(xí)架構(gòu),并在通用的、反映人真實(shí)視覺(jué)認(rèn)知規(guī)律的圖形設(shè)計(jì)重要性(GraphicDesign Importance,GDI)標(biāo)記數(shù)據(jù)集[8]上進(jìn)行訓(xùn)練。該眾包數(shù)據(jù)集使用“重要性”一詞來(lái)描述設(shè)計(jì)元素的相對(duì)感知權(quán)重,圖像顯著性可看作是“重要性”的一種描述形式。IVPM模型吸納了真實(shí)人工標(biāo)記數(shù)據(jù)中的一些高級(jí)趨向,能正確加權(quán)不同設(shè)計(jì)元素的相對(duì)重要性(見(jiàn)圖1)。熱點(diǎn)圖中暖色表示更高的重要性,關(guān)注程度更高。
(一)數(shù)據(jù)收集
IVPM使用GDI數(shù)據(jù)集[8]進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含F(xiàn)lickr的1 078個(gè)平面設(shè)計(jì)的真值(Ground Truth,GT)重要性標(biāo)記圖,并80%-20%分割將1 078張GDI圖像分為訓(xùn)練集(862張圖像)和測(cè)試集(216張圖像)。
(二)IVPM的損失函數(shù)及模型架構(gòu)
IVPM預(yù)測(cè)位圖圖像中每個(gè)像素位置上內(nèi)容的重要性。每個(gè)像素i輸出重要性預(yù)測(cè)Pi∈[0,1],其值越大表示重要性越高。
與在自然圖像上表現(xiàn)良好的顯著性模型類似,IVPM基于FCN架構(gòu)。給定每個(gè)像素i上的真值重要性Qi∈[0,1],在所有像素i=1,2,…,N上,優(yōu)化FCN模型參數(shù)Θ的sigmoid交叉熵?fù)p失:
式中,Pi=σ(fi(Θ))是FCN輸出fi(Θ)傳入sigmoid激活函數(shù)σ(x)=(1+exp(-x))-1所得出的重要性預(yù)測(cè)值。需要注意的是,該損失函數(shù)常用于二元分類,即Qi∈{0,1}。這里將其擴(kuò)展到實(shí)值Qi∈[0,1]。
在Caffe環(huán)境下,經(jīng)過(guò)連續(xù)池化,模型預(yù)測(cè)變?yōu)檩斎雸D像分辨率的1/32。為了提高預(yù)測(cè)的分辨率并捕獲更精細(xì)的細(xì)節(jié),按照Long等人[7]中的步驟添加來(lái)自較前層的跳躍連接以形成FCN-16s模型,實(shí)驗(yàn)發(fā)現(xiàn)FCN-16s(具有來(lái)自pool4的跳躍連接)相較FCN-32s模型捕捉到了更多細(xì)節(jié),改善了預(yù)測(cè)效果(由于樣本數(shù)有限,實(shí)驗(yàn)采用了經(jīng)過(guò)預(yù)訓(xùn)練的FCN-32s模型[9]初始化網(wǎng)絡(luò)參數(shù),并對(duì)其進(jìn)行微調(diào))。模型架構(gòu)如圖2所示。
(三)預(yù)測(cè)模型的評(píng)估
使用顯著性評(píng)估指標(biāo)Kullback-Leibler 散度(KL)和互相關(guān)(Cross Correlation,CC)來(lái)評(píng)估預(yù)測(cè)圖與GT重要性標(biāo)記圖之間的相似性。KL對(duì)錯(cuò)誤預(yù)測(cè)進(jìn)行高度懲罰,因此未能預(yù)測(cè)到GT重要位置的稀疏圖將獲得較高的KL值(低分)。給定GT重要性圖Q和所預(yù)測(cè)的重要性圖P,KL值計(jì)算如下:
高CC得分、低KL得分說(shuō)明預(yù)測(cè)效果良好。在測(cè)試圖像數(shù)據(jù)集上的實(shí)驗(yàn)中,CC平均得分為0.69,KL平均得分為0.33,顯示了不錯(cuò)的性能。
(四)IVPM的時(shí)間性能分析
模型訓(xùn)練完成后,在Intel Core i7-10510U CPU、16G RAM配置筆記本電腦上的測(cè)試顯示,針對(duì)800×640像素的圖像僅需≈12s就能夠完成顯著圖和熱點(diǎn)圖的生成。神經(jīng)網(wǎng)絡(luò)的時(shí)間性能優(yōu)勢(shì)使得將IVPM集成到其他設(shè)計(jì)工具中成為可能,設(shè)計(jì)的每次更改迭代都能夠得到即時(shí)反饋。
三、基于IVPM的設(shè)計(jì)應(yīng)用
近年來(lái)的研究表明大腦利用眼球以1/10秒的速度獲取重要信息,而這些信息將服務(wù)于正在進(jìn)行的核心任務(wù)。如何讓用戶更容易發(fā)現(xiàn)我們的產(chǎn)品?如何讓商家更有效的廣告?如何讓我們的網(wǎng)頁(yè)和軟件更容易觸動(dòng)用戶?這些都需要我們關(guān)注注意力的設(shè)計(jì)管理。
如表1所示,實(shí)驗(yàn)結(jié)果表明IVPM在自然圖像、海報(bào)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)以及包裝設(shè)計(jì)等多種應(yīng)用中均有上佳預(yù)測(cè)表現(xiàn),顯示了出色的擴(kuò)展性能。在一些特定的設(shè)計(jì)研究如意象仿生設(shè)計(jì)中,明顯可以實(shí)現(xiàn)特征要素的辨識(shí)和交互式設(shè)計(jì)反饋。
四、設(shè)計(jì)圖的注意力影響因素
注意力的影響因素較多,可將其分為低層級(jí)屬性、高層級(jí)興趣和學(xué)習(xí)關(guān)聯(lián)。其中,低層級(jí)屬性主要關(guān)注圖像中特征的差異性,這也是本文的主要研究?jī)?nèi)容之一;而高層級(jí)興趣和學(xué)習(xí)關(guān)聯(lián)顯然會(huì)影響注意力,并在IVPM智能預(yù)測(cè)中發(fā)揮作用,但其影響程度難以量化測(cè)量,故不做過(guò)多討論。
(一)低層級(jí)屬性
顯著性主要基于區(qū)域中特征密度的差異,較大的差異會(huì)產(chǎn)生更高的顯著性。因此,可以通過(guò)使用特征線索來(lái)引導(dǎo)注意:如果一個(gè)區(qū)域中存在獨(dú)特的特征,顯著性將很高,即使與其周圍的特征差異不大,仍然會(huì)被較快關(guān)注。通常,此類屬性包括:亮度(對(duì)比度)、顏色(色調(diào))、長(zhǎng)度、寬度、方向(2D)、曲率(二維)、凹凸(3D)、運(yùn)動(dòng)、閃爍等。
有趣的是,測(cè)試“小米”新舊LOGO發(fā)現(xiàn),如圖3所示,舊LOGO的視覺(jué)焦點(diǎn)更集中于中心的“mi”字樣,“mi”與外圍的方框呈分離狀態(tài),而在新LOGO中“mi”與周圍圓潤(rùn)的框線更趨向?yàn)橐曂粋€(gè)整體。
在產(chǎn)品設(shè)計(jì)中,造型設(shè)計(jì)拓展了現(xiàn)代設(shè)計(jì)形態(tài),又相對(duì)符合當(dāng)代社會(huì)人們的審美需求,同時(shí)為材料選擇、結(jié)構(gòu)造型提供了無(wú)限可能,材質(zhì)、紋理和質(zhì)感、尺度、功能特征、工程特征等通常是注意力影響因素。如表2所示,標(biāo)識(shí)、按鈕、形態(tài)轉(zhuǎn)折、強(qiáng)對(duì)比區(qū)域(亮度、色彩、材質(zhì))、柵格/開(kāi)孔、界面等經(jīng)常是引起注意力集中的重點(diǎn)部位,IVPM模型均能實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè),這為在設(shè)計(jì)過(guò)程中可實(shí)現(xiàn)交互式的視覺(jué)反饋提供了可行性。
(二)高層級(jí)興趣
注意力受被試興趣愛(ài)好的約束。如果被試對(duì)特定項(xiàng)的興趣足夠高,則這種高層級(jí)就會(huì)覆蓋低層級(jí)考慮。興趣必然涉及高級(jí)意識(shí),盡管“興趣”具有相當(dāng)明確的主觀含義,但很難對(duì)其進(jìn)行客觀表述,有時(shí)會(huì)被場(chǎng)景中出乎意料的特征所捕獲。
(三)學(xué)習(xí)關(guān)聯(lián)
學(xué)習(xí)關(guān)聯(lián)可以被視為低層級(jí)和高層級(jí)機(jī)制的混合體,關(guān)聯(lián)形成依賴于學(xué)習(xí),也可能取決于觀者的文化背景。
結(jié)論
本文提出了用于預(yù)測(cè)視覺(jué)焦點(diǎn)的IVPM模型,能夠推廣到各種設(shè)計(jì)應(yīng)用,其快速時(shí)間性能使得用于交互式設(shè)計(jì)工具成為可能。該模型為設(shè)計(jì)師和觀者了解需要將注意力集中在何處,以及如何解釋設(shè)計(jì)提供了高效的解決方案。關(guān)于注意力影響因素的討論對(duì)相關(guān)領(lǐng)域的研究者和設(shè)計(jì)人員有一定的參考價(jià)值,希望能帶來(lái)更多的思考。
基于網(wǎng)絡(luò)攝像頭的眼動(dòng)跟蹤方法的出現(xiàn),使得直接使用眼動(dòng)數(shù)據(jù)訓(xùn)練模型變得可行。本文對(duì)注意力相關(guān)問(wèn)題的討論還不全面,未來(lái)有可能會(huì)進(jìn)行更加深入的研究。