亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的眼動(dòng)跟蹤數(shù)據(jù)融合算法

2021-05-26 03:13:44高淑萍

計(jì)算機(jī)工程與應(yīng)用 2021年10期

關(guān)鍵詞：眼動(dòng)卷積神經(jīng)網(wǎng)絡(luò)

趙怡，高淑萍，何迪

1.西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，西安710126

2.西安電子科技大學(xué) 通信工程學(xué)院，西安710071

視覺目標(biāo)跟蹤技術(shù)在軍事、醫(yī)療、人機(jī)交互等領(lǐng)域具有廣泛的應(yīng)用場(chǎng)景。核化相關(guān)濾波算法（Κernel Correlation Filter，ΚCF）[1]作為經(jīng)典的目標(biāo)跟蹤算法之一，在目標(biāo)跟蹤領(lǐng)域中取得了較大的成就。但當(dāng)目標(biāo)出現(xiàn)光照變化、遮擋、運(yùn)動(dòng)模糊、形變、尺度變化時(shí)極易出現(xiàn)目標(biāo)跟丟現(xiàn)象，從而導(dǎo)致目標(biāo)跟蹤效果準(zhǔn)確度不高。目前，視線跟蹤技術(shù)[2]主要是基于瞳孔角膜反射原理。在注視點(diǎn)采集中，由于受試者視覺疲勞以及設(shè)備噪音等，極易出現(xiàn)采樣結(jié)果準(zhǔn)確度不高以及丟幀現(xiàn)象。而數(shù)據(jù)融合技術(shù)將來自多個(gè)傳感器的信息相結(jié)合，以實(shí)現(xiàn)比單獨(dú)使用單個(gè)傳感器所能達(dá)到的更高的準(zhǔn)確性和更具體的推論[3]。因此如何利用數(shù)據(jù)融合方法來實(shí)現(xiàn)目標(biāo)跟蹤算法與視線跟蹤技術(shù)的優(yōu)勢(shì)互補(bǔ)，是一個(gè)非常值得研究的問題。

圖1 視頻序列中目標(biāo)的部分位置

基于深度學(xué)習(xí)的融合算法在眾多領(lǐng)域中均獲得了較好的成果。文獻(xiàn)[4-6]研究表明，利用人工神經(jīng)網(wǎng)絡(luò)融合方法來處理非線性問題具有較高的研究?jī)r(jià)值。其中，文獻(xiàn)[4]將人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）的方法應(yīng)用于障礙物檢測(cè)，實(shí)驗(yàn)結(jié)果表明較傳統(tǒng)方法其性能更為突出；文獻(xiàn)[5]提出了基于層次分析法的反向傳播神經(jīng)網(wǎng)絡(luò)模型（Back Propagation neural network based on Analytic Hierarchy Process，AHP-BP），實(shí)驗(yàn)表明了其有效性和實(shí)用性；文獻(xiàn)[6]將Elman 神經(jīng)網(wǎng)絡(luò)應(yīng)用于空間位置確定。文獻(xiàn)[7-10]將卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）應(yīng)用于數(shù)據(jù)融合領(lǐng)域，研究結(jié)果顯示了其高效的抽象特征提取能力。文獻(xiàn)[7]將CNN 用于睡眠質(zhì)量預(yù)測(cè)，相較于傳統(tǒng)的線性回歸方法AUC 提高了46%；文獻(xiàn)[8]提出一種新穎的雙支卷積神經(jīng)網(wǎng)絡(luò)（Dual-Branch Convolutional Neural Network，DB-CNN）深度學(xué)習(xí)融合框架，首先利用兩個(gè)CNN 網(wǎng)絡(luò)分別提取高光譜圖像和雷達(dá)數(shù)據(jù)的深度特征，然后將深度特征進(jìn)行堆疊，最后與全連接層相連作為最終的融合值輸出層；文獻(xiàn)[9]基于CNN 網(wǎng)絡(luò)提出一種GIF 融合算法，通過融合ECG 和BP 信號(hào)來進(jìn)行心跳位置檢測(cè)。文獻(xiàn)[11]使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Bidirectional Long Short-Term Μemory，BLSTΜ）進(jìn)行睡眠質(zhì)量預(yù)測(cè)分類，在大型公共數(shù)據(jù)集上預(yù)測(cè)準(zhǔn)確性大于80%。文獻(xiàn)[12-13]提出將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long Short-Term Μemory，LSTΜ）結(jié)合的融合方案；文獻(xiàn)[14-15]將CNN 和BLSTΜ 網(wǎng)絡(luò)結(jié)合，并應(yīng)用于分類識(shí)別任務(wù)。

本文在前人工作的基礎(chǔ)上，提出一種新的眼動(dòng)跟蹤數(shù)據(jù)融合算法，即Eye-CNN-BLSTΜ算法。該方法的創(chuàng)新點(diǎn)主要包括：（1）根據(jù)眼動(dòng)跟蹤數(shù)據(jù)的特性，對(duì)原始數(shù)據(jù)進(jìn)行特征構(gòu)造，以提高模型的學(xué)習(xí)性能。（2）將深度CNN網(wǎng)絡(luò)與BLSTΜ網(wǎng)絡(luò)相結(jié)合，以獲取眼動(dòng)跟蹤數(shù)據(jù)的空間信息與時(shí)間信息。采用多層的卷積層設(shè)計(jì)，主要由于眼動(dòng)跟蹤數(shù)據(jù)具有豐富的潛在特征，而單層CNN網(wǎng)絡(luò)難以有效獲取其高級(jí)特征。又因CNN網(wǎng)絡(luò)提取的特征是從簡(jiǎn)單特征到高級(jí)抽象特征逐層變化的，故將網(wǎng)絡(luò)中卷積核的數(shù)量按逐層呈指數(shù)倍減少的方式來設(shè)置。

1 眼動(dòng)跟蹤數(shù)據(jù)

眼動(dòng)數(shù)據(jù)通過眼動(dòng)儀來采集。實(shí)驗(yàn)平臺(tái)包括三個(gè)紅外光源，一個(gè)采樣率為60 Hz的攝像頭以及一個(gè)臺(tái)式電腦。在正式開始數(shù)據(jù)采集之前，首先讓受試者眼睛跟隨屏幕中的校準(zhǔn)點(diǎn)移動(dòng)來執(zhí)行校準(zhǔn)過程；然后通過采集受試者視線跟隨視頻序列中目標(biāo)點(diǎn)移動(dòng)的一系列空間位置( x,y,t )來獲得眼動(dòng)數(shù)據(jù)。這里t 表示采樣時(shí)間，( x,y )表示目標(biāo)的空間位置坐標(biāo)。視頻序列中目標(biāo)的部分位置如圖1所示。

在眼睛運(yùn)動(dòng)分析研究中，眼睛運(yùn)動(dòng)類型[16-17]主要分為注視、眼跳、平滑尾隨。其中注視為凝視某個(gè)固定位置時(shí)的靜止?fàn)顟B(tài)，但在實(shí)際情況中，注視也并非是完全靜止的，因?yàn)槿搜墼谧⒁曇粋€(gè)物體時(shí)，會(huì)出現(xiàn)漂移、震顫等現(xiàn)象。眼跳是從一個(gè)注視點(diǎn)到另一個(gè)注視點(diǎn)的運(yùn)動(dòng)，速度通常為600（°）/s。而平滑尾隨是眼睛隨著觀察目標(biāo)緩慢運(yùn)動(dòng)的過程，其速度一般低于50（°）/s。眼動(dòng)數(shù)據(jù)信號(hào)如圖2所示。

圖2 眼動(dòng)數(shù)據(jù)

核化相關(guān)濾波（ΚCF）算法作為經(jīng)典的目標(biāo)跟蹤算法之一，其在實(shí)際場(chǎng)景中具有廣泛的應(yīng)用，因此本文通過ΚCF算法來采集跟蹤數(shù)據(jù)。ΚCF算法思路主要是基于當(dāng)前幀和之前幀的信息來訓(xùn)練一個(gè)相關(guān)濾波器，因而跟蹤數(shù)據(jù)整體分布較為平滑與連續(xù)。但當(dāng)某一時(shí)刻目標(biāo)跟丟時(shí)，會(huì)導(dǎo)致下一幀也受到極大的影響。跟蹤數(shù)據(jù)信號(hào)如圖3所示。

圖3 跟蹤數(shù)據(jù)

2 Eye-CNN-BLSTM算法

基于深度學(xué)習(xí)的數(shù)據(jù)融合算法在眾多領(lǐng)域中均取得了較好的成果。傳統(tǒng)的算法對(duì)于線性系統(tǒng)具有較好的融合效果，但眼動(dòng)跟蹤數(shù)據(jù)具有復(fù)雜的特征，且其運(yùn)動(dòng)軌跡具有無規(guī)律性。而卷積神經(jīng)網(wǎng)絡(luò)（CNN）抽象特征提取性能突出，雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（BLSTΜ）能有效地提取時(shí)序數(shù)據(jù)的前后時(shí)間連續(xù)性特征；故本文結(jié)合CNN 和BLSTΜ，提出一種新的眼動(dòng)跟蹤數(shù)據(jù)融合算法Eye-CNN-BLSTΜ。該算法通過離線學(xué)習(xí)的方式來訓(xùn)練融合模型，在實(shí)際應(yīng)用中只需利用該模型便可實(shí)現(xiàn)在線融合，可以滿足實(shí)時(shí)性的需求。具體實(shí)現(xiàn)流程如下：首先對(duì)采集的原始數(shù)據(jù)進(jìn)行預(yù)處理（缺失值填充、數(shù)據(jù)去噪和平滑）；其次根據(jù)眼動(dòng)數(shù)據(jù)的固有屬性構(gòu)造新的特征；最后基于Eye-CNN-BLSTΜ 網(wǎng)絡(luò)，利用原始空間位置坐標(biāo)以及構(gòu)造的新特征來訓(xùn)練以及測(cè)試，以獲得最終的融合值。

2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要包括缺失值填充以及數(shù)據(jù)去噪和平滑。由于低幀率眼動(dòng)儀本身以及受試者視覺疲勞等因素，采集的眼動(dòng)數(shù)據(jù)普遍會(huì)出現(xiàn)丟幀現(xiàn)象。因此鑒于眼動(dòng)數(shù)據(jù)相鄰幀之間的距離為線性關(guān)系，采用線性插值方法對(duì)缺失值進(jìn)行填充，見式（1）：

其中，( xk,yk)為填充的tk時(shí)刻缺失值，( xi,yi)、( xj,yj)分別為ti、tj時(shí)刻采集的眼動(dòng)數(shù)據(jù)坐標(biāo)值。

數(shù)據(jù)的去噪和平滑采用啟發(fā)式濾波算法[18]，該算法依據(jù)原始眼動(dòng)數(shù)據(jù)的噪聲特性，設(shè)計(jì)了兩階段濾波。通過臨近數(shù)據(jù)來修正當(dāng)前數(shù)據(jù)，使數(shù)據(jù)更加平滑。去噪過程如圖4所示，其中s 是當(dāng)前輸入，s1、s2、s3是相應(yīng)的延遲數(shù)據(jù)點(diǎn)。預(yù)處理前后的眼動(dòng)數(shù)據(jù)如圖5所示（平滑尾隨點(diǎn)更加平滑，注視點(diǎn)更加緊湊）。

2.2 構(gòu)造新特征

深度學(xué)習(xí)算法的性能很大程度上受輸入信息的影響。為獲取更多有效信息，本文引入估計(jì)值和速度兩種重要特征。原因在于：（1）在最小二乘融合、卡爾曼濾波融合等經(jīng)典算法中均對(duì)于初始融合值進(jìn)行了估計(jì)，并通過估計(jì)值和融合系統(tǒng)來最終確定預(yù)測(cè)值。因此估計(jì)值的引入對(duì)于提高融合算法的性能是有效的。（2）速度對(duì)于眼動(dòng)跟蹤數(shù)據(jù)來說是一種非常重要的特征，在眼動(dòng)數(shù)據(jù)分析中，眾多學(xué)者均提到了速度特征，并將其應(yīng)用于實(shí)際問題中。不同的注視行為其速度也是不同的。因此引入目標(biāo)不同時(shí)刻的速度對(duì)于指導(dǎo)融合是有意義的。首先利用多傳感器之間信息互補(bǔ)的特性，通過對(duì)采集數(shù)據(jù)X 軸和Y 軸方向分別加權(quán)求和來獲得估計(jì)值。研究[19]表明估計(jì)值更接近于真實(shí)值。式（2）表示X 軸估計(jì)值計(jì)算方法：

圖4 濾波器流程圖

圖5 預(yù)處理前后眼動(dòng)信號(hào)對(duì)比圖

同理可得：

其中，EyeX、KCFX、EyeY、KCFY分別表示眼動(dòng)跟蹤數(shù)據(jù)的X、Y 軸坐標(biāo)值；Var( )表示方差運(yùn)算。

速度是眼睛運(yùn)動(dòng)中的一種重要特征。鑒于此，本文基于歐式距離給出眼動(dòng)數(shù)據(jù)的速度：

其中，xi、yi為目標(biāo)的空間位置坐標(biāo)值，ti為采樣時(shí)間。

2.3 Eye-CNN-BLSTM網(wǎng)絡(luò)

Eye-CNN-BLSTΜ網(wǎng)絡(luò)設(shè)計(jì)方案主要包括兩部分：一是三個(gè)一維卷積層（1D CNN）；二是雙向長(zhǎng)短時(shí)記憶層（BLSTΜ）。原因在于：（1）CNN采用局部連接及權(quán)值共享的方式，不僅降低了模型的復(fù)雜度，且卷積運(yùn)算可以有效地提取數(shù)據(jù)的局部特征。而深度的卷積設(shè)計(jì)更有助于高級(jí)特征的提取，因此采用多層的卷積設(shè)計(jì)。（2）BLSTΜ 網(wǎng)絡(luò)作為循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）的改進(jìn)版，不僅克服了RNN難以處理長(zhǎng)期依賴信息的缺點(diǎn)，且可以有效獲取時(shí)序數(shù)據(jù)的上下文信息，因此使用BLSTΜ 網(wǎng)絡(luò)是可行的。文獻(xiàn)[20]提出一種深度卷積神經(jīng)網(wǎng)絡(luò)融合框架DCNN，深層的卷積設(shè)計(jì)使得輸入特征可以逐層融合，提高了算法的融合性能，但其忽略了數(shù)據(jù)的時(shí)間特性；文獻(xiàn)[13]采用雙層卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTΜ）相結(jié)合，文獻(xiàn)[15]將單層的卷積神經(jīng)網(wǎng)絡(luò)、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)融合，實(shí)驗(yàn)結(jié)果證明了融合框架具有更好的性能。因而本文采用深層卷積網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的設(shè)計(jì)來提取眼動(dòng)跟蹤數(shù)據(jù)的時(shí)空信息。

文獻(xiàn)[14]記載，當(dāng)時(shí)間窗口長(zhǎng)度大于1 s 時(shí)，眼動(dòng)數(shù)據(jù)具有較好的表現(xiàn)；而實(shí)驗(yàn)數(shù)據(jù)的采樣幀率均在24～25 frame/s 之間，于是將時(shí)間窗口大小統(tǒng)一設(shè)置為25。卷積層執(zhí)行一次卷積操作，窗口長(zhǎng)度減小2（三層的卷積設(shè)計(jì)則需要填充6 個(gè)數(shù)據(jù)），為保持輸入輸出向量長(zhǎng)度匹配并最大程度上保留眼動(dòng)跟蹤數(shù)據(jù)的時(shí)序特征，通過鏡像填充的方式將輸入向量長(zhǎng)度（時(shí)間窗口長(zhǎng)度）由25擴(kuò)充到31。即網(wǎng)絡(luò)輸入為固定窗口長(zhǎng)度的眼動(dòng)跟蹤數(shù)據(jù)特征，input ∈R31×8；輸出則為對(duì)應(yīng)固定窗口的融合值，output ∈R25×2。Eye-CNN-BLSTΜ網(wǎng)絡(luò)初始參數(shù)設(shè)置參照經(jīng)驗(yàn)原則，并通過多次實(shí)驗(yàn)來調(diào)整、優(yōu)化，最終的設(shè)計(jì)方案為（見圖6）：首先使用1D CNN提取輸入數(shù)據(jù)的空間信息，卷積核數(shù)量分別為16、8、4，大小統(tǒng)一設(shè)置為3；在每次執(zhí)行卷積操作前對(duì)數(shù)據(jù)進(jìn)行歸一化（Batch Normalization，BN）操作，因?yàn)榫W(wǎng)絡(luò)訓(xùn)練會(huì)造成數(shù)據(jù)分布發(fā)生改變；線性修正（relu）函數(shù)（見式（4））具有稀疏激活性，可以加快網(wǎng)絡(luò)訓(xùn)練速度，因而將其作為卷積部分的激活函數(shù)。其次使用全連接層將卷積層提取的全部特征進(jìn)行連接，并添加Dropout 操作來提高模型的泛化能力；然后使用BLSTΜ網(wǎng)絡(luò)，用以提取眼動(dòng)數(shù)據(jù)前后的時(shí)間信息；并將雙曲正切（tanh）函數(shù)作為激活函數(shù)（見式（5）），主要由于直接使用relu函數(shù)可能會(huì)導(dǎo)致輸出值過大[21]。最后使用一個(gè)全連接層作為最終的融合值輸出層。

2.4 Eye-CNN-BLSTM算法步驟

輸入：眼動(dòng)跟蹤數(shù)據(jù)( EyeX,EyeY,KCFX,KCFY)∈Rm×4。

輸出：融合值( FusionX,FusionY)∈Rm×2。

步驟1 利用預(yù)處理（如2.1 節(jié)所述）后的眼動(dòng)數(shù)據(jù)( EyeX,EyeY)∈Rm×2與跟蹤數(shù)據(jù)( KCFX,KCFY)∈Rm×2構(gòu)造新的特征( X?,Y?,EyeV,KCFV)∈Rm×4（構(gòu)造方式如式（2）、（3））。

步驟2 將預(yù)處理后的數(shù)據(jù)I=(EyeX,EyeY,KCFX,KCFY,X?,Y?,EyeV,KCFV)∈Rm×8,以時(shí)間窗口大小為25按順序進(jìn)行分組，即Ij∈R25×8( j=1,2,…,k )（k 為窗口的個(gè)數(shù)）。

步驟3 j=1。

步驟4 對(duì)Ij∈R25×8( j=1,2,…,k )進(jìn)行鏡像填充，使其擴(kuò)充到31個(gè)數(shù)據(jù)（如2.3節(jié)所述），即Ij'∈R31×8。

步驟5 使用Eye-CNN-BLSTΜ 網(wǎng)絡(luò)對(duì)Ij' 進(jìn)行訓(xùn)練，可得Fusionj∈R25×2。

步驟6 令j=j+1。

3 實(shí)驗(yàn)仿真

3.1 數(shù)據(jù)集

圖6 Eye-CNN-BLSTΜ網(wǎng)絡(luò)及參數(shù)設(shè)置

本文使用的數(shù)據(jù)集來源于OTB-100[22]（見表1）中的4 個(gè)視頻序列Bolt、ClifBar、ΚiteSurf、ΜotorRolling。原始實(shí)驗(yàn)數(shù)據(jù)來自通過眼動(dòng)儀采集的5 位不同受試者的眼動(dòng)數(shù)據(jù)以及ΚCF算法采集的5組跟蹤數(shù)據(jù)，其中4組眼動(dòng)跟蹤數(shù)據(jù)用于網(wǎng)絡(luò)訓(xùn)練，另外1組用于測(cè)試網(wǎng)絡(luò)的融合性能（即實(shí)驗(yàn)中的訓(xùn)練集和測(cè)試集是完全獨(dú)立的）。

表1 OTB-100數(shù)據(jù)集

3.2 評(píng)價(jià)指標(biāo)

為評(píng)估Eye-CNN-BLSTΜ算法的性能，本文使用機(jī)器學(xué)習(xí)中常用的回歸模型性能評(píng)價(jià)指標(biāo)：均方誤差（Μean-Square Error，ΜSE）、平均絕對(duì)誤差（Μean Absolute Error，ΜAE）、相關(guān)系數(shù)（2-D Correlation Coefficient，corr2）。

ΜSE 和ΜAE 用以評(píng)估預(yù)測(cè)值與真實(shí)值的接近程度，越小代表預(yù)測(cè)結(jié)果更接近真實(shí)值（即融合效果更好）。其表示公式如下：

相關(guān)系數(shù)（corr2），用于衡量預(yù)測(cè)值與真實(shí)數(shù)據(jù)的相關(guān)程度，越大越好。取值范圍在[ ]-1,1 ，由式（8）表示：

其中，ymn、tmn分別表示樣本融合值和真實(shí)值，yˉ、tˉ分別表示樣本融合值的均值和真實(shí)樣本均值。

3.3 實(shí)驗(yàn)結(jié)果與分析

本文通過Eye-CNN-BLSTΜ、ConvLSTΜ[13]、DCNN[20]、BLSTΜ、BPNN、ARFCΜ[23]、FCΜ[24]算法在OTB-100 數(shù)據(jù)集中4 個(gè)視頻序列的表現(xiàn)，來驗(yàn)證Eye-CNN-BLSTΜ的性能。融合結(jié)果見表2與圖7、圖8、圖9。

圖9 展示了七種融合算法在OTB-100 數(shù)據(jù)集中的融合值與真實(shí)值的相關(guān)系數(shù)對(duì)比，本文算法在大多數(shù)場(chǎng)景下的相關(guān)系數(shù)均高于其他算法。其中ConvLSTΜ 算法在Bolt、ΚiteSurf 兩個(gè)場(chǎng)景下的相關(guān)系數(shù)接近于Eye-CNN-BLSTΜ算法。

為更直觀展現(xiàn)Eye-CNN-BLSTΜ算法的融合效果，將其在OTB-100 數(shù)據(jù)集的4 個(gè)場(chǎng)景下的融合值與真實(shí)值進(jìn)行對(duì)比（見圖11），并結(jié)合原始數(shù)據(jù)（見圖10）對(duì)算法的性能進(jìn)行分析。

表2 七種融合算法對(duì)OTB-100數(shù)據(jù)集的融合結(jié)果

在實(shí)際場(chǎng)景中，目標(biāo)運(yùn)動(dòng)尺度變化較大、光照變化、遮擋、變形、運(yùn)動(dòng)模糊等現(xiàn)象，均會(huì)導(dǎo)致ΚCF 算法在跟蹤過程中出現(xiàn)丟失目標(biāo)的現(xiàn)象。從圖10 可以看出，在Bolt、ΚiteSurf和ΜotorRolling場(chǎng)景下均存在嚴(yán)重的目標(biāo)跟丟問題。而經(jīng)過Eye-CNN-BLSTΜ融合算法處理后的目標(biāo)軌跡（見圖11）更加接近于真實(shí)值。尤其從圖10（b）和圖11（b）可以看出，ClifBar 場(chǎng)景中180～240 幀之間出現(xiàn)了目標(biāo)丟失問題；眼動(dòng)數(shù)據(jù)對(duì)于峰值點(diǎn)的定位雖優(yōu)于跟蹤數(shù)據(jù)，但整體的準(zhǔn)確度不高；而本文提出的融合方法預(yù)測(cè)結(jié)果接近于目標(biāo)真實(shí)軌跡。主要原因在于：（1）融合算法可以有效綜合眼動(dòng)跟蹤信息，當(dāng)目標(biāo)丟失時(shí)，可以綜合眼動(dòng)信息等特征來預(yù)測(cè)目標(biāo)的位置。因此融合算法對(duì)于解決目標(biāo)丟失問題是有效的。（2）深度卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的融合，可以有效提取眼動(dòng)數(shù)據(jù)的時(shí)空特征。（3）輸入特征的選取對(duì)Eye-CNNBLSTΜ 算法的融合性能具有重要的影響，而估計(jì)值可以更好綜合眼動(dòng)跟蹤數(shù)據(jù)的優(yōu)勢(shì)，速度可以有效預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)狀態(tài)。

4 結(jié)束語

圖10 OTB-100數(shù)據(jù)集眼動(dòng)跟蹤序列

圖11 Eye-CNN-BLSTΜ算法在OTB-100數(shù)據(jù)集融合結(jié)果

對(duì)于復(fù)雜場(chǎng)景下的目標(biāo)序列，傳統(tǒng)的方法難以捕獲到其運(yùn)動(dòng)特征。鑒于此，本文利用眼動(dòng)數(shù)據(jù)的固有屬性并與深度學(xué)習(xí)方法相結(jié)合，提出一種新的眼動(dòng)跟蹤數(shù)據(jù)融合算法Eye-CNN-BLSTΜ。該算法不僅給出了眼動(dòng)數(shù)據(jù)新特征（估計(jì)值、速度），且將Eye-CNN-BLSTΜ網(wǎng)絡(luò)用于融合算法中。通過在OTB-100 數(shù)據(jù)集中多個(gè)場(chǎng)景下與多種經(jīng)典融合算法對(duì)比，其融合性能在ΜSE、ΜAE和corr2指標(biāo)上均優(yōu)于ConvLSTΜ、DCNN、BLSTΜ、BPNN、ARFCΜ、FCΜ算法。但當(dāng)眼動(dòng)儀出現(xiàn)大量丟幀或跟蹤算法出現(xiàn)長(zhǎng)時(shí)段目標(biāo)跟丟時(shí)，Eye-CNN-BLSTΜ融合算法仍難以得出目標(biāo)的真實(shí)軌跡。故將原始數(shù)據(jù)的處理方式（缺失值填充等）以及嘗試添加眼動(dòng)數(shù)據(jù)的加速度、方向等特征作為進(jìn)一步的研究方向。