顧菘, 王力翚*, 何龍, 何先定, 王建
a Chengdu Aeronautic Polytechnic, Chengdu 610100, Chinab Department of Production Engineering, KTH Royal Institute of Technology, Stockholm 10044, Sweden
在人類交流過(guò)程中眼神有著豐富的信息量。當(dāng)在一個(gè)嘈雜的共同空間工作時(shí),人們更喜歡通過(guò)眼神和手勢(shì)等非語(yǔ)言行為來(lái)表達(dá)他們的意圖。眼神中大量的信息有助于工作的完成。人的意圖可以通過(guò)估計(jì)他(她)的視線方向有效地感知。許多學(xué)者開(kāi)展了對(duì)于眼神估計(jì)的意圖理解研究。例如,文獻(xiàn)[1]中描述了如何通過(guò)眼神控制機(jī)器人將手中相應(yīng)的物體遞給人類的方法。這個(gè)實(shí)驗(yàn)表明,眼神中攜帶的豐富信息對(duì)協(xié)作有重要的影響。眼神估計(jì)已經(jīng)被應(yīng)用于許多領(lǐng)域,如人機(jī)協(xié)作(HRC)[1,2]、虛擬現(xiàn)實(shí)(VR)[3]和移動(dòng)設(shè)備的控制器[4]。特別是在HRC中,除了手勢(shì)、語(yǔ)音指令和身體運(yùn)動(dòng)[5,6]之外,眼神估計(jì)系統(tǒng)還可以通過(guò)多模態(tài)融合來(lái)控制機(jī)器人。眼神估計(jì)將擴(kuò)大HRC的應(yīng)用范圍,有助于提高多模態(tài)機(jī)器人控制的可靠性。
在智能制造中,人類是具備智能和柔性特征的自動(dòng)化[7,8]過(guò)程系統(tǒng)回路的組成部分,在與機(jī)器人的協(xié)作中發(fā)揮著重要作用。機(jī)器人可以處理的任務(wù)范圍正在增加[9],人類更傾向于通過(guò)自然方法與機(jī)器人交流。例如,通過(guò)手勢(shì)或眼神給機(jī)器人下達(dá)指令,而不是使用遙控器。此外,人們也不愿意使用侵入式的解決方案,比如戴著估計(jì)視線方向的特殊眼鏡[10]。相反,可以在周圍位置安裝攝像頭來(lái)觀察操作員,通過(guò)分析攝像頭中的數(shù)字圖像估計(jì)操作員的視線方向。這是一種基于計(jì)算機(jī)視覺(jué)技術(shù)的常用的非侵入式方案。在對(duì)操作員的視線方向進(jìn)行估計(jì)時(shí),操作員不會(huì)感覺(jué)到設(shè)備的存在。
基于非侵入式的方案通??梢苑譃閮煞N類型:基于模型的方法和基于外觀的方法[11]。在基于模型的方法中,通過(guò)計(jì)算圖像來(lái)估計(jì)眼睛各部分的幾何模型,比如瞳孔的半徑和瞳孔的中心位置,并基于幾何模型[12,13]估計(jì)視線方向。在基于外觀的方法中,通過(guò)分析眼部圖像片直接回歸出視線方向。一方面,與基于外觀的方法相比,基于模型的方法,其視線方向估計(jì)的精度取決于采集圖像的質(zhì)量,如圖像分辨率和亮度,用以確保精確地提取某些邊緣或特征點(diǎn)。相比之下,基于外觀的方法并不需要特征點(diǎn)。文獻(xiàn)[14]對(duì)主流的視線估計(jì)方法進(jìn)行了論證,證明了基于外觀的方法比基于模型的方法更能獲得較好的性能。另一方面,采用模型的方法需要先驗(yàn)知識(shí),用來(lái)構(gòu)建更加精確的視線估計(jì)模型[15],這是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。此外,深度神經(jīng)網(wǎng)絡(luò)可以有效地獲得數(shù)據(jù)的內(nèi)在聯(lián)系。深度神經(jīng)網(wǎng)絡(luò)在基于外觀的方法中得到成功應(yīng)用,大大提高了視線估計(jì)的精度。因此,近年來(lái),基于外觀的方法引起了廣泛的關(guān)注[16-18]。文獻(xiàn)[19,20]提出了基于視頻的眼神估計(jì)系統(tǒng),這是基于模型的方法??梢酝ㄟ^(guò)深度神經(jīng)網(wǎng)絡(luò),如遞歸神經(jīng)網(wǎng)絡(luò)或長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),來(lái)增強(qiáng)系統(tǒng)的性能。然而,這類方法超出了本文的研究范圍。
使用基于外觀的方法,關(guān)鍵步驟是確定輸入圖像和視線方向之間的關(guān)系。很多學(xué)者建立了不同的模型來(lái)確定這種關(guān)系。這些模型利用從不同人員采集的數(shù)據(jù)樣本進(jìn)行訓(xùn)練和測(cè)試,即跨樣本估計(jì)方法。相應(yīng)的模型也被稱為人員無(wú)關(guān)模型。因?yàn)槿藛T無(wú)關(guān)模型并不包含被測(cè)試對(duì)象的視線信息,因此樣本個(gè)體在外觀上的差異將會(huì)影響估計(jì)的準(zhǔn)確性。如果在模型的訓(xùn)練過(guò)程中,引入了測(cè)試過(guò)程中的某些條件,如被測(cè)試人員的外觀、測(cè)試現(xiàn)場(chǎng)光照水平等,則模型系統(tǒng)的性能將得到提高。一種常用的方法是收集被測(cè)試人員的標(biāo)記數(shù)據(jù)以進(jìn)行模型訓(xùn)練。這被稱為人員相關(guān)模型。然而,學(xué)習(xí)一個(gè)人員相關(guān)模型需要大量的標(biāo)記數(shù)據(jù),它是一項(xiàng)耗時(shí)的任務(wù),限制了這種方法的適用性。雖然有些技術(shù),如文獻(xiàn)[21,22]中提出了數(shù)據(jù)收集復(fù)雜性的下降方法,但仍然需要大量的訓(xùn)練數(shù)據(jù)。受文獻(xiàn)[23-25]的啟發(fā),本文提出采用差分圖像和視線差異輸出分別代替輸入圖像和輸出的視線方向。一旦確立了兩個(gè)輸入圖像的差異和兩個(gè)視線方向差異之間的關(guān)系,就只需要新樣本的少數(shù)標(biāo)記圖像,并且這些標(biāo)記圖像可以作為測(cè)試階段的輸入之一。通過(guò)這種方法,對(duì)視線方向進(jìn)行精確的估計(jì)。
本文提出了一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架的差分眼部外觀網(wǎng)絡(luò)來(lái)估計(jì)眼神方向。該網(wǎng)絡(luò)基于孿生神經(jīng)網(wǎng)絡(luò)(SNNet)[26],包含兩個(gè)相同的分支。兩個(gè)樣本集作為兩個(gè)分支輸入到網(wǎng)絡(luò)中。每個(gè)樣本集包括一個(gè)人臉圖像中左眼和右眼的圖像片。作為多流結(jié)構(gòu)[27]的一部分,這兩個(gè)圖像片分別輸入到孿生網(wǎng)絡(luò)的一個(gè)分支中。每個(gè)分支網(wǎng)絡(luò)包含具有不同參數(shù)的VGG16網(wǎng)絡(luò)[28],從所有圖像片中提取特征。將這兩個(gè)分支的輸出與頭部位置信息拼接在一起。網(wǎng)絡(luò)的輸出是兩個(gè)樣本集的視線差異,之后進(jìn)入全連接網(wǎng)絡(luò)。在測(cè)試階段,將被測(cè)試人員已標(biāo)記的樣本集作為參考樣本集,輸入到孿生網(wǎng)絡(luò)的一個(gè)分支中。需要估計(jì)的樣本集輸入網(wǎng)絡(luò)的另一個(gè)分支,網(wǎng)絡(luò)的輸出是參考樣本集與被估計(jì)樣本集之間的視線差。由于已經(jīng)對(duì)參考樣本集的視線方向進(jìn)行標(biāo)記,因此估計(jì)的視線方向等于網(wǎng)絡(luò)輸出的視線方向與參考樣本集標(biāo)記的視線方向之和。此外,可以利用參考樣本集選擇策略來(lái)進(jìn)一步提高系統(tǒng)的性能。我們提出的方法假設(shè)人眼的外觀差異與相應(yīng)視線方向的差異有關(guān)。由于訓(xùn)練模型在測(cè)試階段中嵌入了被測(cè)試人員的信息,因此提高了估計(jì)的精度。此外,在視線估計(jì)時(shí),只需要少量的被測(cè)試者的標(biāo)記圖像。網(wǎng)絡(luò)不需要大量數(shù)據(jù)來(lái)進(jìn)行人員相關(guān)模型的訓(xùn)練。在當(dāng)前主流數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的算法的性能優(yōu)于當(dāng)前其他方法。
本文的方法主要有以下的貢獻(xiàn):
(1)提出了一個(gè)眼部圖像與歸一化頭部姿態(tài)信息相結(jié)合的新方法。多流信息輸入孿生網(wǎng)絡(luò)的不同分支中。孿生網(wǎng)絡(luò)模型框架既包含測(cè)試階段被測(cè)試人員的信息,又不需要收集大量數(shù)據(jù)來(lái)訓(xùn)練樣本相關(guān)模型。
(2)提出了一種新的參考樣本集選擇策略,提高估計(jì)精度。在視線空間中構(gòu)造了參考網(wǎng)格,并通過(guò)估計(jì)值直接選擇有效的參考樣本集,簡(jiǎn)化了系統(tǒng)的計(jì)算。
本文的內(nèi)容組織:第2節(jié)介紹了相關(guān)的研究工作;第3節(jié)詳細(xì)說(shuō)明了本文提出的方法;第4節(jié)是實(shí)驗(yàn)結(jié)果和討論內(nèi)容;最后,第5節(jié)是論文結(jié)論和未來(lái)研究計(jì)劃。
本節(jié)簡(jiǎn)要介紹基于外觀的眼神估計(jì)、樣本相關(guān)估計(jì)和孿生神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展。
大多數(shù)基于外觀的視線估計(jì)算法主要是回歸方法。估計(jì)的視線方向是輸入圖像的函數(shù)。直觀上,眼部圖像片含有豐富的視線方向(左眼和右眼)的信息,可用于估計(jì)視線方向。文獻(xiàn)[29]提出了一種基于多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的自然場(chǎng)景中眼部外觀的視線估計(jì)方法。文獻(xiàn)[30]中,Lian等提出了一個(gè)共享的CNN,估計(jì)從不同相機(jī)拍攝到的多視角眼部圖像片的視線方向。Liu等在文獻(xiàn)[23,25]中闡述了在差分CNN網(wǎng)絡(luò)上直接訓(xùn)練,估計(jì)一對(duì)眼部圖像片之間的視線差異的方法。Park等[31]提出了一種新的全卷積圖像表示框架來(lái)估計(jì)視線方向。然而,除了眼部圖像片外,許多其他因素也會(huì)影響估計(jì)的精度,如頭部位置、圖像中眼睛的比例、頭部姿勢(shì)等。Liu等[32]使用眼部圖像片和眼部網(wǎng)格構(gòu)建了一個(gè)兩步訓(xùn)練網(wǎng)絡(luò),提高了在移動(dòng)設(shè)備上的估計(jì)精度。Kyle等[4]將眼部圖像片、面部圖像片和面部網(wǎng)格作為系統(tǒng)的輸入,獲得了良好的性能。Wong等[33]構(gòu)建了一個(gè)ResNet模型,該模型結(jié)合頭部姿勢(shì)和面部網(wǎng)格特征在移動(dòng)設(shè)備上估計(jì)視線方向。文獻(xiàn)[34]根據(jù)瞳孔中心的位置將視線分為三個(gè)區(qū)域,采用無(wú)監(jiān)督學(xué)習(xí)方式構(gòu)建網(wǎng)絡(luò)來(lái)估計(jì)視線方向。Yu等[17]引入一個(gè)約束眼部基準(zhǔn)模型,通過(guò)融合眼部基準(zhǔn)位置實(shí)現(xiàn)視線估計(jì)。Funes-Mora和Odobez [35]提出了一種基于RGB-D相機(jī)的頭部姿態(tài)不變性的視線估計(jì)算法,并在低分辨率數(shù)據(jù)集[36]對(duì)其性能進(jìn)行了評(píng)估。Zhang等[16]在自己模型的基礎(chǔ)上對(duì)上述所有的影響因素進(jìn)行了分析。文獻(xiàn)[37]采用全人臉圖像作為系統(tǒng)的輸入,并采用了具有空間權(quán)重的Alex-Net [38]網(wǎng)絡(luò),其效果明顯優(yōu)于許多采用眼部圖像作為輸入的算法。這些研究表明,全臉的外觀比只有眼部圖像外觀的方法,在頭部姿勢(shì)和光照改變時(shí)穩(wěn)定性更好。但是,全臉外觀方法的輸入數(shù)據(jù)比眼部圖像外觀的數(shù)據(jù)多得多,大大增加了計(jì)算的復(fù)雜度。文獻(xiàn)[39]提出了在保持估計(jì)精度的同時(shí)有效地壓縮圖像數(shù)據(jù)量的方法。全臉的方法和眼部圖像的方法哪個(gè)性能更好,目前尚未有明確定論。
不進(jìn)行任何預(yù)處理就將原始圖像輸入系統(tǒng)會(huì)增加網(wǎng)絡(luò)回歸的復(fù)雜度。在預(yù)處理階段對(duì)一些信息進(jìn)行標(biāo)準(zhǔn)化可以降低網(wǎng)絡(luò)復(fù)雜度。Sugano [40]提出一種新的歸一化方法,在輸入網(wǎng)絡(luò)之前對(duì)圖像進(jìn)行對(duì)齊。其他數(shù)據(jù),包括圖像和視線方向,也被轉(zhuǎn)換到歸一化的空間。在網(wǎng)絡(luò)訓(xùn)練或測(cè)試時(shí),不需要考慮目標(biāo)的尺度問(wèn)題。文獻(xiàn)[40]將相機(jī)從人眼轉(zhuǎn)換到固定位置,構(gòu)建虛擬相機(jī),在虛擬相機(jī)坐標(biāo)下獲得視線方向。Zhang [41]詳細(xì)分析了歸一化方法,將歸一化方法推廣到文獻(xiàn)[37]中的全臉圖像。
很多視線估計(jì)算法的目標(biāo)是訓(xùn)練一個(gè)樣本無(wú)關(guān)的模型,達(dá)到良好的跨樣本估計(jì)性能。在輸入圖像和視線方向之間建立一個(gè)樣本無(wú)關(guān)模型描述這兩者之間的關(guān)系。但是,文獻(xiàn)[25]中提出不同樣本眼部的視覺(jué)軸和光軸之間的關(guān)系是不同的。樣本無(wú)關(guān)的模型不能準(zhǔn)確描述這種視覺(jué)軸和光軸之間的關(guān)系,而樣本相關(guān)模型可以準(zhǔn)確估計(jì)視線方向。文獻(xiàn)[16]證明了只要有足夠的訓(xùn)練樣本,就可以保證樣本相關(guān)模型的性能。
樣本搜集階段相當(dāng)耗時(shí)。近期的論文中,學(xué)者們提出了很多簡(jiǎn)化樣本收集的方法。Sugano [42]提出了一種連續(xù)更新估計(jì)參數(shù)的增量學(xué)習(xí)方法。文獻(xiàn)[43]中,不同設(shè)備端收集到的數(shù)據(jù)被輸入一個(gè)CNN網(wǎng)絡(luò)中,該網(wǎng)絡(luò)包含共享的特征提取網(wǎng)絡(luò)層,以及設(shè)備特定的編碼器/解碼器。Huang [22]建立了一個(gè)監(jiān)督自學(xué)習(xí)算法來(lái)逐步地訓(xùn)練視線模型。并且,數(shù)據(jù)驗(yàn)證的魯棒機(jī)制可以區(qū)分良好的訓(xùn)練數(shù)據(jù)和噪聲數(shù)據(jù)。Lu [21]等提出了一種自適應(yīng)線性回歸方法,自適應(yīng)地選擇一組最優(yōu)樣本進(jìn)行訓(xùn)練。在所需的訓(xùn)練樣本的數(shù)量顯著減少的同時(shí),仍然保持了較好的估計(jì)精度。雖然上述方法簡(jiǎn)化了數(shù)據(jù)收集過(guò)程,但許多方法仍然需要標(biāo)記樣本來(lái)訓(xùn)練特定的模型。Yu [44]基于少量樣本生成大量的標(biāo)記數(shù)據(jù),設(shè)計(jì)了一個(gè)視線方向二次計(jì)算框架。Liu等[23]提出了一種僅基于一個(gè)眼部圖像片的特定樣本視線估計(jì)的新方法。根據(jù)輸入的圖像,利用SNNet來(lái)估計(jì)視線方向的差異。SNNet網(wǎng)絡(luò)訓(xùn)練之后,在測(cè)試階段需要引入一定的標(biāo)記樣本。
SNNet首次在文獻(xiàn)[26]中用于驗(yàn)證平板電腦上的手寫輸入簽名。SNNet的特征之一是它包含兩個(gè)相同的分支。相對(duì)于單個(gè)輸入,SNNet網(wǎng)絡(luò)的輸入是一對(duì)具有相同類型和不同參數(shù)的輸入。因此,網(wǎng)絡(luò)的輸出是相應(yīng)輸入的差異。該方法被用在許多領(lǐng)域。Venturelli [24]提出利用SNNet框架在訓(xùn)練階段估計(jì)頭部姿態(tài)。為了提高回歸網(wǎng)絡(luò)的學(xué)習(xí)能力,在損失函數(shù)中增加了一個(gè)差異學(xué)習(xí)項(xiàng)。Varga等[45]采用孿生網(wǎng)絡(luò)架構(gòu),減小在三維人體姿態(tài)估計(jì)中對(duì)數(shù)據(jù)增強(qiáng)的需求。文獻(xiàn)[23,25]提出的方法與本文最相似。然而,在這些參考文獻(xiàn)中沒(méi)有討論雙眼和頭部姿態(tài)對(duì)網(wǎng)絡(luò)的影響。同時(shí),文獻(xiàn)的兩種算法都證明了參考樣本對(duì)估計(jì)精度的影響。但是,在參考文獻(xiàn)[23,25]中并沒(méi)有系統(tǒng)地討論參考樣本的選擇策略。由于孿生網(wǎng)絡(luò)的輸入需要一對(duì)數(shù)據(jù)集,其訓(xùn)練樣本的組合可能性使得訓(xùn)練數(shù)量極速增加。在文獻(xiàn)[46-48]中分析了訓(xùn)練樣本中訓(xùn)練子集的選擇策略。
雖然本文提出的是樣本無(wú)關(guān)模型,但在測(cè)試階段會(huì)同時(shí)考慮測(cè)試人員的樣本信息。系統(tǒng)的框架如圖1所示。整體上,系統(tǒng)的整個(gè)框架是基于一個(gè)SNNet構(gòu)建的。系統(tǒng)沒(méi)有采用單一輸入,而將是一個(gè)信息對(duì),分別輸入到網(wǎng)絡(luò)中的兩個(gè)分支。并且,這兩個(gè)分支共享相同的權(quán)重。待估計(jì)的人臉圖像和參考人臉圖像作為系統(tǒng)的原始輸入。每個(gè)圖像通過(guò)原始頭部姿態(tài)信息H~,可以被歸一化為左眼圖像片和右眼圖像片。所有的歸一化圖像片都包含在孿生網(wǎng)絡(luò)的的輸入對(duì)中,分別是參考樣本集Pf和估計(jì)樣本集Pt。每個(gè)樣本集包括一個(gè)左眼眼部圖像片Il、一個(gè)右眼眼部圖像片Ir和歸一化的頭部姿態(tài)信息H。參考樣本集對(duì)應(yīng)的視線方向被提前標(biāo)記,稱為參考視線系統(tǒng)的輸出稱為估計(jì)視
~線,是與測(cè)試樣本集對(duì)應(yīng)的視線方向。所有的圖像和Gf,都通過(guò)原始的頭部姿態(tài)信息進(jìn)行歸一化。在歸一化過(guò)程中,被估計(jì)人臉圖像和參考人臉圖像將使用不同的原始頭部姿態(tài)信息,在圖1中分別以N(H~t)和N(H~f)表示。所有通過(guò)歸一化校準(zhǔn)的圖像片都被送入DEANet。待測(cè)試的歸一化視線就是網(wǎng)絡(luò)的輸出和歸一化參考視線的和,然后進(jìn)行去歸一化N?1(H~t),去歸一化是在相同參數(shù)下的歸一化N(H~t)的反操作。
對(duì)視線方向表示方法可以分為兩類:二維和三維表示。二維的視線位置由屏幕上視線位置的坐標(biāo)來(lái)表示,多用于移動(dòng)設(shè)備的顯示裝置。三維視線方向是在三維空間中從參考點(diǎn)到目標(biāo)點(diǎn)的方向。它由相機(jī)坐標(biāo)系中的三個(gè)角度組成:偏航、俯仰和滾轉(zhuǎn)。實(shí)際操作中,三維視線方向被定義為從參考點(diǎn)到目標(biāo)點(diǎn)的單位向量。本文通過(guò)球坐標(biāo)系進(jìn)行簡(jiǎn)化,包括φ和θ,G = [φg, θg]′。同時(shí),參考點(diǎn)設(shè)為眼睛的中心。具體來(lái)說(shuō),本文主要是對(duì)三維視線方向進(jìn)行估計(jì),將三維視線方向定義為從左眼中心到目標(biāo)點(diǎn)的向量。三維視線與二維視線可以互相轉(zhuǎn)化。如果能在三維空間中得到二位的平面,就可以從三維視線方向得到二維視線的位置。同樣的,對(duì)頭部的姿態(tài)定義采用三維視線方向相同的方法,即H = [φh, θh]′。
采用文獻(xiàn)[37,40]中的方法,對(duì)原始圖像歸一化從而進(jìn)行視線估計(jì),可以減輕攝像機(jī)不同和原始頭部姿態(tài)信息的影響,從而降低網(wǎng)絡(luò)復(fù)雜性。歸一化過(guò)程是一系列的透視轉(zhuǎn)換過(guò)程,以獲得歸一化圖像片與從統(tǒng)一參考點(diǎn)的虛擬相機(jī)中拍攝的圖像的一致性。文獻(xiàn)[40,41]對(duì)歸一化步驟和性能做出了詳細(xì)的說(shuō)明。本節(jié)對(duì)關(guān)鍵步驟進(jìn)行介紹。
圖1. 文中提出的框架結(jié)構(gòu)。被測(cè)試的人臉圖像和參考的人臉圖像分別根據(jù)原始的頭部姿態(tài)信息進(jìn)行歸一化,構(gòu)建孿生圖像對(duì)Pt和Pf。每對(duì)孿生圖像包括一個(gè)左眼眼部圖像片Il、一個(gè)右眼眼部圖像片Ir和歸一化的頭部姿態(tài)信息H,其中,Pt = {Itl, Itr, Ht},Pf = {If l, Ifr, Hf}。對(duì)原始的參考視線G~f進(jìn)行標(biāo)記,歸一化得到Gf。歸一化的圖像數(shù)據(jù)輸入DEANet神經(jīng)網(wǎng)絡(luò),回歸出Pt和Pf的視線差異Gd。N(H~t)和N(H~f)是相同的歸一化操作,只是參數(shù)不同。N?1(H~t)是去歸一化操作,去歸一化是在相同參數(shù)下的歸一化N(H~t)的反操作。
首先,對(duì)單幅臉部圖像,如圖1中的測(cè)試圖像進(jìn)行處理。采用主流算法[49]對(duì)臉部關(guān)鍵點(diǎn),如眼睛和嘴巴的角點(diǎn),進(jìn)行檢測(cè)。由角點(diǎn)計(jì)算的左眼中心點(diǎn)、右眼中心點(diǎn)、嘴部中心點(diǎn)構(gòu)造平面。從右眼中心到左眼中心的連線是x軸,y軸在平面內(nèi)垂直于x軸,從眼睛指向嘴。z軸在平面內(nèi)按照右手規(guī)則獲得。三軸與左眼中心或右眼中心合并為坐標(biāo)原點(diǎn),構(gòu)成雙眼的歸一化空間。根據(jù)檢測(cè)到的面部關(guān)鍵點(diǎn)和一般面部形狀模型[16],通過(guò)EPnP算法[50]計(jì)算歸一化的頭部姿態(tài)信息。注意主流數(shù)據(jù)集中提供了原始的頭部姿態(tài)信息和相機(jī)的內(nèi)參,其性能將在第4節(jié)中進(jìn)行評(píng)估。所有輸入到網(wǎng)絡(luò)的圖像片都必須經(jīng)過(guò)歸一化,投影到歸一化空間中。為了減少圖像光照對(duì)系統(tǒng)的影響,對(duì)所有歸一化后的圖像片進(jìn)行直方圖均衡。
DEANet對(duì)于歸一化有兩個(gè)優(yōu)點(diǎn):
(1)歸一化作為一種圖像對(duì)齊的操作,降低了網(wǎng)絡(luò)的復(fù)雜性,減少了不同相機(jī)成像距離、相機(jī)內(nèi)參和原始頭部姿態(tài)信息對(duì)眼部圖像片的影響。歸一化的圖像可以同時(shí)輸入到孿生網(wǎng)絡(luò)中,孿生網(wǎng)絡(luò)中的分支共享相同的權(quán)重。
(2)歸一化簡(jiǎn)化了視線差異的計(jì)算。無(wú)論坐標(biāo)如何變換,所有的參數(shù)都在歸一化空間中,并且視線差的計(jì)算等價(jià)于對(duì)兩個(gè)視線向量的操作。參考樣本的選擇策略將在3.4節(jié)介紹。
無(wú)論照相機(jī)的內(nèi)參和圖像大小如何變化,歸一化后,所有圖像片都將在歸一化空間中對(duì)齊。歸一化圖像片作為網(wǎng)絡(luò)輸入使網(wǎng)絡(luò)學(xué)習(xí)更有效率,以提高系統(tǒng)的性能。我們假設(shè),人每個(gè)眼睛的外觀差異與相應(yīng)注視方向的差異有關(guān)。并且,這種關(guān)系通用于所有人。為此,本文提出了一種基于SNNet的外觀視線估計(jì)方法。網(wǎng)絡(luò)的結(jié)構(gòu)和配置如圖2所示。
在訓(xùn)練過(guò)程中,采用一對(duì)樣本集Pt和Pf作為DEANet神經(jīng)網(wǎng)絡(luò)的輸入。每一對(duì)樣本都包括左眼圖像片、右眼圖像片和歸一化的頭部姿態(tài)信息。兩個(gè)樣本集分別輸入到SNNet的兩個(gè)共享參數(shù)的分支中。在孿生網(wǎng)絡(luò)的分支中,所有輸入的圖像片均固定大小的36×60 RGB或灰度圖像。若輸入為灰度圖像,將把它作為三個(gè)通道中具有相同強(qiáng)度值的RGB圖像處理。歸一化的頭部姿態(tài)信息是一個(gè)長(zhǎng)度為2的向量。左眼圖像片和右眼圖像片分別輸入VGG16網(wǎng)絡(luò),提取兩個(gè)圖像片的特征,得到長(zhǎng)度為512的向量。VGG16網(wǎng)絡(luò)之后接著一個(gè)系列操作,包括大小為1024的全連接層(FC)、批處理歸一化(BN)和ReLU激活。將通過(guò)圖像片計(jì)算得到的特征圖拼接起來(lái),并連接一個(gè)尺寸為512的FC層。將歸一化的頭部姿態(tài)信息加入此特征向量中,并通過(guò)BN、ReLU激活、256的FC層和另一個(gè)ReLU激活。最后,將兩個(gè)孿生分支計(jì)算出的特征圖拼接起來(lái),依次送入尺寸為256和2的FC層。為了避免過(guò)擬合,在最后一個(gè)FC層之前添加了一個(gè)dropout層。
3.3.1. 用于訓(xùn)練的樣本集的選擇
根據(jù)本文的假設(shè),將屬于同一個(gè)人的一對(duì)已標(biāo)記的樣本集輸入網(wǎng)絡(luò)。如果數(shù)據(jù)集有N個(gè)訓(xùn)練樣本,就會(huì)有N2種可用于網(wǎng)絡(luò)訓(xùn)練的樣本對(duì)的組合。與單輸入算法[4,37]相比,由于網(wǎng)絡(luò)框架的不同,本文提出的方法會(huì)有大量的訓(xùn)練樣本。由于樣本量足夠,因此在訓(xùn)練階段采用了訓(xùn)練樣本的一個(gè)子集。文獻(xiàn)[47,48]討論了子集的選擇方法。但是由于文獻(xiàn)討論的是分類任務(wù),因此其中的子集都是由正樣本對(duì)和負(fù)樣本對(duì)組成。然而,本文提出的是一種回歸方法,不能使用具體的正樣本對(duì)和負(fù)樣本對(duì)。本文的方法中,訓(xùn)練過(guò)程采用隨機(jī)選擇K < N2對(duì)訓(xùn)練樣本。
3.3.2. 損耗函數(shù)
圖2. DEANet網(wǎng)絡(luò)結(jié)構(gòu)(從上到下)。Itl、Itr、Ifl和Ifr是大小為36×60的RGB圖像。Ht和Hf是與雙眼圖像片對(duì)應(yīng)的歸一化的頭部姿態(tài)信息。Gd是估計(jì)視線差異。它們都是長(zhǎng)度為2的向量。FC是全連接層,BN是批處理歸一化層,ReLU是ReLU激活,Dropout是Dropout層。每層網(wǎng)絡(luò)通過(guò)它們的參數(shù)命名。CAT是將兩個(gè)向量拼接到一個(gè)向量中的操作。共享相同權(quán)重的層以相同的顏色突出顯示。
圖1顯示了在測(cè)試階段如何通過(guò)一個(gè)已經(jīng)標(biāo)記的參考樣本集進(jìn)行視線估計(jì)的過(guò)程。參考樣本集的選擇將影響視線估計(jì)的精度。直觀上,一個(gè)優(yōu)良的參考樣本選擇方法選擇的參考樣本集與被測(cè)試的樣本集之間的差異不應(yīng)太大。較大的差異將導(dǎo)致在估計(jì)過(guò)程中產(chǎn)生很大的誤差。此外,在測(cè)試階段,采用多個(gè)參考樣本集進(jìn)行估計(jì),估計(jì)精度會(huì)優(yōu)于僅用單個(gè)參考樣本集的結(jié)果。這個(gè)結(jié)論將在4.3節(jié)進(jìn)行說(shuō)明。根據(jù)上述結(jié)論,在整個(gè)視線空間中構(gòu)造一個(gè)參考網(wǎng)格,包括視線方向的兩個(gè)維度分量,如圖3所示。當(dāng)輸入圖像片之間的差異很小時(shí),DEANet網(wǎng)絡(luò)的輸出也很小,反之亦然。因此,DEANet網(wǎng)絡(luò)的輸出(即視線差異)是參考圖像片和被測(cè)試圖像片之間距離的度量。如果參考數(shù)據(jù)滿足均勻分布,如圖3所示,并且網(wǎng)格的步長(zhǎng)足夠小,那么參考樣本圖像片和測(cè)試圖像片之間的差異也將足夠小,足以獲得良好的精度。例如,12個(gè)紅點(diǎn)是參考視線的候選點(diǎn),表示為Gf,j, j = 0, 1, …, 11。估計(jì)視線為一個(gè)藍(lán)色點(diǎn),表示為Gt。顯然,相較于其他參考點(diǎn),Gt是通過(guò)Gf,3、Gf,4、Gf,6和Gf,7來(lái)計(jì)算的,因?yàn)镚t和這四個(gè)參考視線點(diǎn)中任何一個(gè)之間的距離小于和其他參考視線點(diǎn)之間的距離。同時(shí),由于估計(jì)視線與參考視線在視線空間中的距離可以通過(guò)本文提出的DEANet網(wǎng)絡(luò)中的視線差值來(lái)進(jìn)行預(yù)測(cè),因此采用視線差值小于一定閾值的參考視線,來(lái)預(yù)測(cè)估計(jì)視線。為了避免經(jīng)驗(yàn)參數(shù),本文采用了4個(gè)參考視線點(diǎn),這4個(gè)參考點(diǎn)對(duì)應(yīng)的視線差異小于其他參考點(diǎn)。之后,通過(guò)將每個(gè)參考視線添加到相應(yīng)的視線差異中來(lái)預(yù)測(cè)估計(jì)視線。最終的估計(jì)值就是它們的平均值。實(shí)驗(yàn)證明,該方法對(duì)于所有測(cè)試集都取得了較好的效果。
圖3. 視線空間中的參考網(wǎng)格的示例。視線空間中分布著12個(gè)參考視線(標(biāo)記在紅色點(diǎn)上)。藍(lán)色點(diǎn)代表待估計(jì)視線。視線空間中,Gf,j和Gt之間的距離是由相應(yīng)的視線差異Gd,i來(lái)預(yù)測(cè)的。
文獻(xiàn)[25]中,平均權(quán)重是通過(guò)比較輸入圖像片中提取的兩個(gè)特征圖來(lái)確定的。根據(jù)DEANet的結(jié)構(gòu),網(wǎng)絡(luò)的輸出與兩個(gè)圖像片的差異有關(guān)。相對(duì)于文獻(xiàn)[25]中提出的特征圖,使用視線差異作為參考選擇的標(biāo)準(zhǔn)簡(jiǎn)化了計(jì)算。
本文提出的DEANet網(wǎng)絡(luò)是在pytorch平臺(tái)下搭建的。針對(duì)每個(gè)測(cè)試者隨機(jī)選擇10 000對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練。采用遷移學(xué)習(xí),通過(guò)預(yù)訓(xùn)練模型[28]初始化VGG16模型的參數(shù)。采用了動(dòng)量為0.9的隨機(jī)梯度下降(SGD)優(yōu)化方法,權(quán)重衰減為0.0001。訓(xùn)練樣本批次為512。初始學(xué)習(xí)率為0.1,每訓(xùn)練5次學(xué)習(xí)率衰減0.1。網(wǎng)絡(luò)使用了1個(gè)GTX 1080 ti的GPU,每個(gè)人訓(xùn)練20次。
本節(jié)包含三個(gè)實(shí)驗(yàn):第一個(gè)實(shí)驗(yàn)(見(jiàn)4.3節(jié))基于MPIIGaze數(shù)據(jù)集評(píng)估驗(yàn)證了DEANet網(wǎng)絡(luò),并闡述參考集的選擇策略;第二個(gè)實(shí)驗(yàn)(見(jiàn)4.4節(jié))評(píng)估了DEANet網(wǎng)絡(luò)在跨人群樣本和跨數(shù)據(jù)集的預(yù)測(cè)表現(xiàn);第三個(gè)實(shí)驗(yàn)(見(jiàn)4.5節(jié))評(píng)估了DEANet的抗噪性能。
在兩個(gè)公共數(shù)據(jù)集MPIIGaze和UT-Multiview上評(píng)估了DEANet網(wǎng)絡(luò)的性能。MPIIGaze首次出現(xiàn)在文獻(xiàn)[16]中。它包括來(lái)自15名不同年齡和性別的參與者的213 659張圖片。這些圖像在不同時(shí)間段內(nèi)收集。為了評(píng)估本文提出的DEANet網(wǎng)絡(luò)在RGB圖像中的性能,我們?nèi)詫?duì)MPIIGaze數(shù)據(jù)集中的眼部圖像片和視線方向進(jìn)行了歸一化。同時(shí),在歸一化過(guò)程中,直接使用了數(shù)據(jù)集提供的原始頭部姿態(tài)信息和目標(biāo)信息。文獻(xiàn)[40]中首次提出了UT-Multiview。它包括來(lái)自50個(gè)人的64 000 張?jiān)紙D像。這個(gè)數(shù)據(jù)集通過(guò)三維眼睛形狀模型生成了大量的眼睛圖像樣本。UT-Multiview比MPIIGaze具有更寬的視線角度分布范圍。由于本文主要基于文獻(xiàn)[40]的方法對(duì)圖像進(jìn)行歸一化處理,所以歸一化圖像片的大小與UT-Multiview中的相同。將UT-Multiview中的所有灰度圖像片作為DEANet網(wǎng)絡(luò)的訓(xùn)練樣本,用來(lái)評(píng)估網(wǎng)絡(luò)的性能。
實(shí)驗(yàn)中,MPIIGaze數(shù)據(jù)集使用了留一法(leave-oneperson-out) 標(biāo)準(zhǔn),UT-Multiview數(shù)據(jù)集使用了三折疊交叉驗(yàn)證法(three-fold cross-person) 評(píng)估標(biāo)準(zhǔn)。本節(jié)中采用的標(biāo)準(zhǔn)與其他最先進(jìn)的算法相同[4,16,18,25,37,40]。
根據(jù)上述描述,參考樣本集的性能將影響系統(tǒng)的估計(jì)精度,樣本集是DEANet網(wǎng)絡(luò)的一個(gè)關(guān)鍵因素。在本實(shí)驗(yàn)中,在MPIIGaze數(shù)據(jù)集中每個(gè)人隨機(jī)選取500個(gè)參考樣本作為參考樣本集。參考樣本集和屬于同一個(gè)人的圖像樣本組成了要進(jìn)行測(cè)試的雙眼圖像片并將其輸入到網(wǎng)絡(luò)中。圖4顯示了每個(gè)人的平均角度差異。將每個(gè)人的所有雙眼圖像片輸入DEANet網(wǎng)絡(luò)進(jìn)行視線估計(jì),每個(gè)參考樣本的平均角度差異計(jì)算公式如下:
式中,M是數(shù)據(jù)集中每個(gè)人的樣本數(shù);ω(·,·)是計(jì)算兩個(gè)向量之間角度差異的函數(shù)。公式(2)中ω函數(shù)是估計(jì)差異的另一個(gè)度量,等價(jià)于公式(1)中的l2范數(shù)。如圖4中的藍(lán)色條所示,每個(gè)人都有不同的估計(jì)精度。有些人,如0、1、2號(hào),他們的平均角度差異比其他人要小。同時(shí),其他人的平均角度誤差,如3、7、8、9號(hào),都比之前那些人的情況要差得多。例如,一些人(7號(hào))的眼部圖像中有眼鏡,而其他人則沒(méi)有。如果選用的參考樣本集中沒(méi)有眼鏡信息,而測(cè)試樣本集包含了眼鏡信息,由于眼鏡信息作為噪聲進(jìn)入到了估計(jì)中,這樣不同外觀將導(dǎo)致估計(jì)精度的嚴(yán)重下降。這一點(diǎn)在圖5(d)和(e)中體現(xiàn)。圖5(a)和(b)作為另一個(gè)例子說(shuō)明了歸一化對(duì)系統(tǒng)的影響。雖然文獻(xiàn)[16]證明了在歸一化階段,使用一般平均面部形狀模型能夠準(zhǔn)確地估計(jì)視線方向,但是如果歸一化后眼部圖像效果不佳,在估計(jì)階段將產(chǎn)生很大的誤差。具體實(shí)例如圖5所示。
圖4. 不同參考選擇策略下MPIIGaze數(shù)據(jù)集中每個(gè)參考的平均角度差異:隨機(jī)選擇策略,隨機(jī)選用500個(gè)參考樣本集;參考網(wǎng)格策略,由參考網(wǎng)格確定選用的12個(gè)參考樣本。
圖5. 導(dǎo)致較大估計(jì)誤差的歸一化圖像片。(a)、(b)不準(zhǔn)確的歸一化眼部圖像片(p03-day54-0097-left and p08-day31-0301-left);(c)眼鏡引起的噪聲(p09-day12-0158-left);(d)、(e)無(wú)眼鏡參考樣本集的圖像(p07-day24-0046-left)和眼鏡測(cè)試樣本集的圖像(p07-day25-0255-right)。每個(gè)眼部圖像片的名稱都來(lái)自于MPIIGaze數(shù)據(jù)集。
良好的參考樣本集的選擇策略有助于系統(tǒng)性能的提高。參考樣本集選擇策略的一個(gè)關(guān)鍵因素是確定哪些圖像片是參考樣本集的候選圖像片,哪些不是。這與被估計(jì)樣品的分布有關(guān)。圖6表示了0、5、7號(hào)中,在視線空間中隨機(jī)選擇的500個(gè)參考樣本集的分布。每個(gè)參考視線都可以用視線空間中的一個(gè)點(diǎn)來(lái)表示。對(duì)于參考i,當(dāng)平均角度差異At,i小于所有參考的平均值時(shí),相應(yīng)參考被認(rèn)為是“好”參考(在圖6中以紅色標(biāo)記)。相反,當(dāng)At,i大于所有參考的平均值時(shí),相應(yīng)參考被認(rèn)為是“壞”參考(在圖6中以藍(lán)色標(biāo)記)?;疑c(diǎn)代表每個(gè)人整體分布的所有樣本。圖6中可以看出,“壞”參考(如7號(hào))幾乎都位于整個(gè)分布的外圍,而“好”參考則均勻地分布在整個(gè)空間中。一些包含較大視線方向的樣本集,不能作為參考樣本集。此外,單一的參考選擇策略并不足以提供準(zhǔn)確的估計(jì)。
圖6. MPIIGaze數(shù)據(jù)集中0、5、7號(hào)視線角度分布。任何參考樣本集都可以用視線角度空間中標(biāo)注的一個(gè)點(diǎn)來(lái)表示其視線方向。紅色點(diǎn)是“好”的參考樣本集,其值A(chǔ)t小于所有參考的平均值;藍(lán)色點(diǎn)是指值大于所有參考平均值的“壞”參考樣本集?;疑c(diǎn)是每個(gè)人的所有樣本。綠色點(diǎn)是實(shí)驗(yàn)中參考網(wǎng)格確定的參考點(diǎn)。
圖6表明,參考樣本集的分布會(huì)影響系統(tǒng)的性能。此外,參考樣本集和被估計(jì)樣本集之間的差異也對(duì)系統(tǒng)的性能有影響。值得注意的是,兩個(gè)樣本集之間的真實(shí)差異可以用本文提出網(wǎng)絡(luò)的Gtgt和Gfgt之間的實(shí)際差異來(lái)表示。此外,該系統(tǒng)的估計(jì)差異還可以表示為ω(Gt, Gfgt)。這也是兩個(gè)樣本集之間的真實(shí)差異的預(yù)測(cè)值。圖7表示了兩個(gè)樣本集的差異與估計(jì)精度之間的關(guān)系。為了對(duì)圖示進(jìn)行簡(jiǎn)化,ω(Gtgt, Gfgt)被量化為100個(gè)bin,ω(Gt, Gfgt)為相應(yīng)的平均值,分別在圖7中表示為ω—(Gtgt, Gfgt)和ω—(Gt, Gfgt)。當(dāng)被估計(jì)視線與參考視線之間的差異增加時(shí),估計(jì)誤差就會(huì)增大。接近被估計(jì)視線方向的“好”的參考視線方向?qū)@得較好的估計(jì)精度。由于沒(méi)有提前獲得估計(jì)樣本的視線方向,因此將會(huì)需要更多數(shù)量的參考樣本集。這涉及在參考樣本的數(shù)量與估計(jì)精度之間的權(quán)衡。此外,雖然沒(méi)有提前獲得估計(jì)視線方向,但可以預(yù)測(cè)獲得估計(jì)視線方向的取值范圍。根據(jù)視線方向的取值范圍就可以構(gòu)建參考網(wǎng)格。為了能在所有實(shí)驗(yàn)中都取得良好的性能,本文建立了一個(gè)三行四列的參考網(wǎng)格。如圖6中綠色的圓點(diǎn)所示。在此基礎(chǔ)上,使用MPIIGaze數(shù)據(jù)集,對(duì)每個(gè)人在具有參考網(wǎng)格的DEANet網(wǎng)絡(luò)上進(jìn)行了評(píng)估;平均角度差異如圖4所示(紅色條)。結(jié)果表明,幾乎所有具有參考網(wǎng)格策略的平均角度差異都優(yōu)于隨機(jī)選擇策略的差異。對(duì)所有人的平均角度差異從隨機(jī)選擇策略的5.09下降到參考網(wǎng)格策略的4.38,因此使用參考網(wǎng)格策略使性能提高了14%。
DEANet網(wǎng)絡(luò)是一個(gè)樣本無(wú)關(guān)模型,可以估計(jì)不同人的視線方向。被測(cè)試樣本的信息在測(cè)試階段作為參考樣本集輸入網(wǎng)絡(luò)。因此,有效地避免了訓(xùn)練樣本與測(cè)試樣本不同的問(wèn)題。為了評(píng)估DEANet網(wǎng)絡(luò)在這一問(wèn)題上的性能,本文在兩個(gè)公共數(shù)據(jù)集上都進(jìn)行了跨樣本評(píng)估。表1表示了本文的算法和其他算法在MPIIGaze和UT-Multiview數(shù)據(jù)集上的平均角度差異。本文提出的算法在這兩個(gè)數(shù)據(jù)集中都取得了較好的效果。盡管文獻(xiàn)[25]和本文算法都采用了結(jié)構(gòu)相同的SNNet網(wǎng)絡(luò),但本文算法的性能優(yōu)于文獻(xiàn)[25],本文算法涉及更多的信息,包括眼睛和頭部姿態(tài)的信息。與MPIIGaze相比,UT-Multiview數(shù)據(jù)集包含了更多的人,因此在UT500 Multiview上評(píng)估的所有算法的性能都優(yōu)于在MPIIGaze上評(píng)估的算法。作為數(shù)據(jù)驅(qū)動(dòng)模型,訓(xùn)練數(shù)據(jù)的多樣性增加了預(yù)訓(xùn)練模型的性能,本文提出的DEANet網(wǎng)絡(luò)在這兩個(gè)數(shù)據(jù)集上的性能都優(yōu)于其他算法。
表1 兩個(gè)具有平均角度差異(度)的常用數(shù)據(jù)集上的視線方向結(jié)果
為了證明所提出方法的魯棒性,本文進(jìn)行了跨數(shù)據(jù)集的評(píng)估。模型在UT-Multiview數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后在MPIIGaze數(shù)據(jù)集上進(jìn)行測(cè)試。圖8表示了所有跨數(shù)據(jù)集評(píng)估算法的平均角度差異[16,29,40,51,52]。由于訓(xùn)練樣本的視線分布不同于測(cè)試樣本的分布,所有算法在跨數(shù)據(jù)集評(píng)估中的性能都弱于跨樣本評(píng)估的性能。然而,我們提出的DEANet是一個(gè)差分網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入和輸出均是差分的輸入與輸出。本文的方法比其他傳統(tǒng)方法更具有對(duì)視線分布的魯棒性。我們提出的方法的平均角度差異為7.77°,標(biāo)準(zhǔn)差為3.5°。
圖7. 0、5、7號(hào)估計(jì)差異(y軸)與兩個(gè)樣本集(x軸)之間的關(guān)系。
在之前的評(píng)估中,我們提出的DEANet網(wǎng)絡(luò)在視線估計(jì)方面取得了很好的表現(xiàn)。本節(jié)進(jìn)一步研究網(wǎng)絡(luò)在噪聲情況下的性能,如頭部姿態(tài)信息的影響和圖像分辨率的影響。為了處理DEANet網(wǎng)絡(luò)中任意的頭部姿態(tài)信息,這里采用了歸一化的頭部姿態(tài)信息。為了證明人體頭部姿態(tài)信息對(duì)DEANet的影響,我們?cè)跊](méi)有頭部姿態(tài)信息的MPIIGaze數(shù)據(jù)集中進(jìn)行了跨樣本評(píng)估。本實(shí)驗(yàn)在MPIIGaze數(shù)據(jù)集上重新訓(xùn)練了一種沒(méi)有頭部姿態(tài)信息的新網(wǎng)絡(luò)。如表2所示,評(píng)估的所有樣本的平均角度差異為4.46°,略高于具有頭部姿態(tài)信息的網(wǎng)絡(luò)(4.38°)。如果沒(méi)有頭部姿態(tài)信息,網(wǎng)絡(luò)的性能將會(huì)略有下降。對(duì)于DEANet等深度網(wǎng)絡(luò)來(lái)說(shuō),頭部姿態(tài)信息作用甚微。然而,對(duì)于一個(gè)較淺的網(wǎng)絡(luò),這些信息仍然很重要,如在文獻(xiàn)[16]中對(duì)MnistNet [53]進(jìn)行的評(píng)估。淺層網(wǎng)絡(luò)通常應(yīng)用在遠(yuǎn)程設(shè)備中,以節(jié)省計(jì)算資源。
表2 圖像分辨率的影響。在具有不同圖像分辨率的MPIIGaze和 UT-Multiview數(shù)據(jù)集上評(píng)估了平均角度差異
此外,實(shí)驗(yàn)還研究了圖像分辨率對(duì)視線估計(jì)的影響。實(shí)驗(yàn)采用了與第4.4節(jié)所述參數(shù)相同的網(wǎng)絡(luò)參數(shù),并進(jìn)行了跨樣本評(píng)估。也采用了與4.4節(jié)相同的評(píng)估標(biāo)準(zhǔn)。在視線估計(jì)中,所有圖像片的大小設(shè)置為18×30、
圖8. 對(duì)UT-Multiview數(shù)據(jù)集進(jìn)行訓(xùn)練和對(duì)MPIIGaze數(shù)據(jù)集進(jìn)行測(cè)試的跨數(shù)據(jù)集評(píng)估的平均角度差異。
9×15和5×8。同時(shí),通過(guò)插值將不同大小的圖像片恢復(fù)到原來(lái)圖像片的大?。?6×60),以適應(yīng)網(wǎng)絡(luò)的輸入。如表2所示,在不同圖像分辨率下將DEANet和GazeNet [16]網(wǎng)絡(luò)的性能,在MPIIGaze和UT-Multiview數(shù)據(jù)集上進(jìn)行了比較。實(shí)驗(yàn)顯示,DEANet的性能優(yōu)于GazeNet。
本文提出了一種基于外觀的視線估計(jì)新方法。三個(gè)數(shù)據(jù)流,包括雙眼的眼部圖像片和頭部姿態(tài)信息同時(shí)輸入神經(jīng)網(wǎng)絡(luò),并基于SNNet網(wǎng)絡(luò)框架訓(xùn)練了一個(gè)樣本無(wú)關(guān)的模型。由于采用了視線差異的方法,因此可以在測(cè)試階段使用被測(cè)試者的特定信息。同時(shí),為參考點(diǎn)建立了參考網(wǎng)格,采用參考點(diǎn)選擇策略提高了系統(tǒng)估計(jì)精度。本文的方法在兩個(gè)公共數(shù)據(jù)集上進(jìn)行了評(píng)估:MPIIGaze和UT-Multiview。實(shí)驗(yàn)結(jié)果表明,本文的方法比其他方法取得了更優(yōu)異的性能。
所有的實(shí)驗(yàn)都在公共數(shù)據(jù)集上進(jìn)行了理論分析。本文提出的方法將作為多模態(tài)融合的人機(jī)協(xié)作中的一種模態(tài)應(yīng)用于人機(jī)交互控制中,這也是我們下一步的研究方向。
致謝
本文得到了四川省科技計(jì)劃項(xiàng)目(2018SZ0357)的支持和國(guó)家留學(xué)基金管理委員會(huì)的資助。
Compliance with ethics guidelines
Song Gu, Lihui Wang, Long He, Xianding He, and Jian Wang declare that they have no conflict of interest or financial conflicts to disclose.