亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LSTM的眼動行為識別及人機交互應用①

        2020-03-18 07:55:20黃君浩
        計算機系統(tǒng)應用 2020年3期
        關鍵詞:眼動

        黃君浩,賀 輝

        (北京師范大學珠海分校 信息技術學院,珠海 519087)

        引言

        眼球追蹤技術[1]可實時捕獲人眼的運動并獲取注視點,由于人的眼球運動行為與大腦的活動密切相關[2],因此這種技術可輔助用戶在計算機等相關設備上完成簡單的交互工作[3-5],并廣泛應用于網(wǎng)頁測試、廣告評估、人機交互、布局評價等諸多領域[6,2].近年來有學者提出將眼動交互應用于多通道交互[7],為眼動人機交互技術開發(fā)了更廣闊的應用前景.利用眼動實現(xiàn)人機交互的方式[1]主要有駐留,平滑跟蹤及眼勢[8](凝視、眼睛上、下、左、右的運動、眨眼等).目前大多數(shù)眼動交互的工作都使用眼動儀輔助完成,其工作原理為使用紅外攝像頭拍攝高清的瞳孔圖像,采用基于瞳孔和角膜反射的視頻記錄法[9]以準確定位人眼注視點.多數(shù)研究眼動交互的學者一般也會使用紅外攝像頭作為采集設備,但在日常生活中,紅外攝像頭不易獲得,眼動儀大多造價昂貴且需要預先進行復雜的校準工作,都不適合作為日常眼動交互的采集設備.有部分學者針對普通的網(wǎng)絡攝像頭,提出了雙攝像頭估計視線的辦法[10],但易受到頭部姿態(tài)和外界環(huán)境的影響,無法替代傳統(tǒng)使用紅外光源輔助的視線跟蹤系統(tǒng).也有學者提出識別眼動行為的方法,但只是估計幾種不同使用情景下的眼動行為,并未提出將識別出的眼動行為應用在人機交互中的解決方案[11,12].在眼動交互中基于駐留和平滑跟蹤的眼動交互方式存在米斯達(Midas)接觸問題[4]且需要較高的定位精度,有研究認為將眼動行為應用在人機交互中需要使用額外的高清攝像機[8,13].

        針對以上結論,本文利用前置網(wǎng)絡攝像頭作為采集設備,提出一種使用方向梯度直方圖(HOG)特征+SVM 和LSTM 神經(jīng)網(wǎng)絡的方法,實現(xiàn)眼勢識別并應用于人機交互中.相較于駐留和平滑跟蹤的眼動交互方式,基于眼勢的交互方式對精度和米斯達接觸問題更具魯棒性.并且隨著計算機的普及,越來越多的家庭或公司職員都擁有筆記本電腦.大多數(shù)筆記本電腦自帶前置網(wǎng)絡攝像頭,為低成本的基于視覺的人機交互技術提供了環(huán)境.

        1 關鍵算法

        1.1 人眼定位跟蹤及預處理

        1.1.1 人眼定位跟蹤及預處理

        在視頻流的第一幀,使用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征檢測人臉位置,若檢測人臉成功,采用文獻[14]所提出的基于回歸樹方法的人臉對齊進行人臉關鍵點定位.人臉部分關鍵點的標注如圖1 所示.

        依據(jù)定位的臉部關鍵點,計算雙眼區(qū)域,如圖2 所示,具體計算方法如下:

        4 個眼角坐標點對應的編號為37、40、43、46.假設4 個眼角坐標點的坐標從左到右分別是(x1,y1),(x2,y2),(x3,y3),(x4,y4),首先由式(1)~式(2)計算出雙眼的平均寬度w和雙眼之間的間隔eyelen.

        假設含有雙眼的矩形區(qū)域的左上角坐標和右下角坐標分別為(X1,Y1),(X2,Y2)計算X1,Y1,X2,Y2 的公式如式(3)~式(6):

        圖1 人臉關鍵點編號

        圖2 雙眼模板計算過程

        1.1.2 人眼區(qū)域匹配跟蹤

        使用計算所得的雙眼區(qū)域作為模板,在視頻流的第二幀及隨后的幀中使用模板匹配的辦法來跟蹤人眼.

        模板匹配成功后,利用人臉三庭五眼的規(guī)律擴展出包含整個人臉的矩形區(qū)域,具體計算方法為:假設模板的寬W、高H.以模板為中心向上擴寬H個像素,向下擴寬H×7/2 個像素,寬度不變,即可得到包含人臉區(qū)域的圖像.重復進行人臉對齊關鍵點檢測,以更新跟蹤的雙眼模板.

        1.1.3 人眼區(qū)域處理

        (1)基于人臉關鍵點定位到的4 個眼角坐標,按如下計算方法得出單只眼睛的矩形區(qū)域.

        以左眼為例,首先計算眼睛的寬度w,兩個眼角坐標的中心坐標(x,y),以該坐標為中心,左右擴展w×3/4的像素區(qū)域,上下擴展w×1/2 的像素區(qū)域,即可計算出只包含單個眼睛的圖像,如圖3 所示.

        圖3 眼部區(qū)域裁剪過程

        (2)調(diào)整大小:分別裁剪出雙眼的圖像后,使用插值法調(diào)整成36×36 像素大小.

        (3)對雙眼圖像進行圖像處理:使用邊緣保留濾波去除噪聲,使用冪次變換提升區(qū)域整體對比度,消除部分陰影,結果如圖4 所示.

        圖4 眼部圖像處理結果

        (4)瞳孔光斑修復算法:使用自適應閾值將眼睛圖像分割成二值化圖像,瞳孔上的光斑與附近的對比度較高而形成一個孤立的區(qū)域,其他大部分區(qū)域會聯(lián)通.下一步標記聯(lián)通區(qū)域,將像素點總數(shù)在14~30 的區(qū)域的像素點,替換成該區(qū)域附近的像素值.瞳孔光斑修復結果如圖5 所示.

        圖5 瞳孔光斑修復

        1.2 眼動信息獲取和行為識別

        1.2.1 眨眼判斷

        (1)粗略判斷方法,使用定位的人臉關鍵點計算人眼長寬比,區(qū)分睜閉眼狀態(tài),計算方法:在人臉關鍵點定位的基礎上選取特征點編號為37~48 的12 個點.按編號順序設單眼周圍的6 個特征為P1,P2,P3,P4,P5,P6,如圖6 所示.

        圖6 左眼特征點編號

        使用式(7)可求出一只眼睛的長寬比,其中分子表示眼睛的特征點在垂直方向上的距離,分母表示眼睛的特征點在水平方向上的距離.

        經(jīng)過不同使用者測試實驗,當眼睛為完全睜開狀態(tài)時,長寬比平均在0.30 左右,眼睛完全閉合時,長寬比平均在0.19 左右.因此以0.25 為閾值,當小于0.25 時,認為眼睛處于閉眼或半閉眼狀態(tài),大于0.25 時認為是睜眼狀態(tài).

        (2)精確判斷方法,使用HOG+SVM 模型,區(qū)分有意眨眼和無意眨眼:判斷為閉眼或半閉眼狀態(tài),觸發(fā)精確的動態(tài)眨眼判斷.

        具體判斷方法為:當連續(xù)15 幀中,有10 幀的眼睛圖像在提取完HOG 特征,并被SVM 分類兩只眼睛的狀態(tài)分別為一睜一閉,就判定其做出了一個單眨眼動作.

        1.2.2 眼動軌跡獲取

        本文采用文獻[15]的方法來定位眼球的中心,以實時獲取眼球的位置.接下來計算眼動軌跡:使用式(8)和式(9)計眼球中心坐標(Xc,Yc)與眼睛圖像長寬36 像素的比值tx,ty:

        計算出比值后,比值作為縱坐標,幀數(shù)作為橫坐標,可得到在發(fā)生眼動的50 幀以內(nèi),普通閱讀掃視、向左眼動和向右眼動的完整軌跡,如圖7 所示.

        1.2.3 眼動行為識別

        在獲得左右眼動時瞳孔眼球中心的軌跡基礎上,根據(jù)在縱坐標上是否出現(xiàn)峰值來判斷眼球是否可能正在進行一個眼勢動作:

        (1)當眼球中心位置比值tx小于T1,我們判斷眼球做出了向左移動的眼勢;

        (2)當眼球中心位置比值tx大于T2,我們判斷眼球做出了向右移動的眼勢;

        (3)當眼球中心位置比值ty大于T3,則判斷眼球做出了向上移動的眼勢.

        圖7 眼球的橫向運動軌跡

        本文中T1,T2,T3需根據(jù)實際不同的屏幕的大小,推斷出正常瀏覽時眼球的運動范圍的范圍,調(diào)整出最佳的參數(shù).由圖7 可得,本文在27.2 英寸的屏幕正常瀏覽時的tx,ty的值集中在0.45~0.55,再經(jīng)過實際體驗,本文選取的參數(shù)最佳為T1=0.32,T2=0.7,T3=0.62.

        通過了以上3 種判斷的任一種,說明在判斷發(fā)生時眼球做出了一次眼動行為,經(jīng)過測試,眼動行為的完成時間多在1.5 秒以內(nèi),因此將這1.5 秒內(nèi)的眼動視頻截取并作為下一步輸入.本文在30 幀/s 的攝像頭采樣速率下,截取的眼動視頻總幀數(shù)為50 幀.

        1.2.4 LSTM 行為識別

        長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)的提出是為了解決循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)的長依賴問題.LSTM 使用獨特的輸入門、輸出門和遺忘門結構,可以充分保留有效信息并丟棄不相關的信息,將CNN(Convolutional Neural Networks)與LSTM 結合起來,可以應用于視頻分類和視頻描述[16].應用在行為識別時,為了去除背景光照等冗余信息,可以提取原視頻幀類似光流數(shù)據(jù)的運動信息作為輸入[17].本文將對原眼動視頻幀進行幀間差分處理,以提取眼動行為的運動特征,消除由于人眼形狀與光照不同而造成的誤差.考慮到識別的穩(wěn)定性,應當將兩只眼睛的眼動視頻序列一起作為輸入.識別的簡要過程如圖8 所示.

        本文將采取LSTM 和CNN 結合的網(wǎng)絡模型來完成眼動行為的分類任務.在CNN 部分使用一個卷積層和一個池化層,卷積層使用兩個卷積核,尺寸為4×4,步長為1,池化層的尺寸為2×2,步長為2,還需在每個卷積層之后添加一個非線性激活函數(shù)Relu.在LSTM 部分,隱藏神經(jīng)元個數(shù)與輸入的幀長度相等,為50 個.

        圖8 基于LSTM 的眼動行為識別流程

        將兩個眼動幀間差分視頻同時作為輸入,在經(jīng)過卷積層后,將兩張眼動視頻提取的特征圖通過Concat 層進行特征融合操作,特征維度是一個立方體,使用Flatten 層矢量化并輸入進LSTM,最后經(jīng)過Softmax 分類器預測出每個眼動行為的概率.

        本文采取的LSTM 網(wǎng)絡結構如圖9 所示.

        2 實驗及結果分析

        2.1 數(shù)據(jù)采集和樣本制作

        數(shù)據(jù)采集環(huán)境如圖10 所示,實驗環(huán)境如下:

        (1)攝像頭:羅技C270i,1280×720 像素 30 幀.

        (2)顯示器:冠捷 AOC2701 Q27P1B(27.2 英寸).

        (3)處理器:英特爾 Core i7-8700 @ 3.20 GHz 六核.

        (4)內(nèi)存:16 GB(金士頓 DDR4 2400 MHz).

        (5)顯卡:Nvidia GeForce GTX 1060 6 GB(6 GB/微星).

        (6)操作系統(tǒng):Windows 10 專業(yè)版 64 位(DirectX 12).

        圖9 LSTM 網(wǎng)絡結構圖

        圖10 實驗環(huán)境

        使用Python 語言并利用深度學習庫OpenCV,Keras,DLIB 進行實驗.被采集者距離屏幕的位置沒有太多限制,但應正對電腦屏幕,并且攝像頭能夠拍攝到完整的人臉圖像.在正常均勻光照條件下,使用上文提到的預處理方法采集訓練數(shù)據(jù).

        2.2 眨眼數(shù)據(jù)集的訓練

        本文使用的訓練數(shù)據(jù)集樣本為長寬36 像素的眼睛灰度圖像.采集總計16 000 張單幀左右眼睜閉圖片.其中睜閉眼圖片分別有8000 張,而8000 張眼睛圖像中左右眼各占4000 張.訓練數(shù)據(jù)中的閉眼數(shù)據(jù)集包含半睜狀態(tài)的人眼圖片.測試數(shù)據(jù)額外采集,總計4000 張單幀眼部圖像.

        2.3 眼勢數(shù)據(jù)集的訓練

        單個樣本為50 幀長寬36 像素的灰度視頻,采集10 個不同的使用者總計2000 張6 分類的眼勢視頻,加上雙眼眨眼視頻,眼睛靜止視頻兩種負樣本各100 張,共有2200 張8 分類的訓練數(shù)據(jù).額外錄制300 張6 分類的眼動視頻作為測試集.

        由于采集到的樣本數(shù)量有限,本文使用如下方法擴充訓練數(shù)據(jù):

        (1)調(diào)整幀長:將一個完整的眼動視頻幀序列,增加或減少幀的長度.

        (2)滑動窗口填充:在數(shù)據(jù)幀的前或后加上長度為10 以內(nèi)的0 填充幀,填充后所有幀的長度一致.

        (3)左右眼調(diào)換:翻轉左右眼,運動方向也隨之相反,改變標簽.

        (4)加入隨機噪聲:在圖像中給不為零的像素點隨機增減5 以內(nèi)的像素值.

        經(jīng)過上述步驟,訓練樣本數(shù)量理論上可以擴充至10 倍以上,隨后挑選正確率最高的組合訓練模型來測試預測的準確率.

        2.4 實驗處理流程

        本文定義了6 種眼動行為,分別是向左看、向右看、向上看、眨眼向左看、眨眼向右看和眨眼向上看.并規(guī)定2 種負樣本,分別是眼睛輕微眼跳或靜止和普通無意眨眼.

        實驗總體技術流程如圖11 所示.

        圖11 眼動行為識別總體技術流程

        其中眨眼判斷時當識別到當前人眼狀態(tài)為閉眼或半閉眼,不管是有意眨眼還是無意眨眼,都不會進入下一步眼動行為的判斷,結束本幀的處理,并讀取下一幀.對于眼動語義預測,由于存在米斯達接觸問題,因此眼球在向上、左和右運動的過程中,視線都應盡量遠離屏幕,以區(qū)分有意眼動和無意眼動.接下來將基于瞳孔中心軌跡的眼動行為識別到一個疑似的眼動行為的操作,截取前后總計50 幀的眼動視頻序列,輸入到LSTM 網(wǎng)絡中進行最終的眼動行為語義判斷.需要說明的是在輸入到LSTM 網(wǎng)絡前,需要對截取的50 幀眼動視頻序列進行幀間差分處理,以消除光照和人眼形狀的影響.

        2.5 實驗結果及分析

        在眨眼判斷中,訓練時,實際將圖像調(diào)整成24×24 像素,一個12 像素組成一個cell,一個cell 構成一個block,其他參數(shù)設為默認,使用線性核函數(shù)的SVM 做分類.將全體數(shù)據(jù)集樣本訓練一個輪次.單張靜態(tài)睜閉眼圖片的分類在測試集中達到了96.23%的準確率.在正常環(huán)境下當做出單眨眼行為,單眨眼狀態(tài)保持0.3 s 以上,動態(tài)識別準確率達到95%.

        在眼動語義判斷中,本文使用使用Kreas 提供的接口,除了上文提到的模型細節(jié)外其他參數(shù)都為默認.訓練時,使用adam 作為優(yōu)化器,categorical_crossentropy作為損失函數(shù),將150 個樣本作為一個批處理,循環(huán)將所有樣本訓練12 次.經(jīng)過各種擴充方法的組合訓練,最高在50 幀的眼動視頻在LSTM 中的預測準確率達到99.3%.其中主要誤差原因是基于瞳孔的移動軌跡來預測眼動行為會發(fā)生誤報的情況,因為眼中心定位有時會出錯,如圖12 所示.

        經(jīng)過判斷,識別錯誤的情況大多為無意眨眼時的半閉眼狀態(tài)瞳孔中心定位錯誤,向右或向左眼動過程中心定位到眼角從而做出了完全相反的預測.

        圖12 瞳孔中心定位錯誤情況

        在為識別出的眼動行為的基礎上我們分別添加滾動和翻頁的命令,應用于電腦閱讀,使得用戶無需用手操作鼠標和鍵盤,并且擁有良好的閱讀體驗.

        以下選取了一些相似研究的文獻與本文進行對比,如表1 所示.

        表1 各種眼動識別方法比較

        從表1 可以看出,本文提出的基于LSTM 的眼動行為識別方法兼顧識別數(shù)量、準確率與設備方便上的優(yōu)勢,并擁有完整的眼動交互解決方案.

        2.6 實際應用

        本文一共嘗試并實現(xiàn)了兩種應用,分別是網(wǎng)頁閱讀,以及在PC 上使用手機模擬器來模擬APP 的使用.

        2.6.1 網(wǎng)頁閱讀

        如圖13 所示,測試者正對電腦,使用4 種眼勢(向上、眨眼向上、向左、向右),分別對應控制向下滾動、向上滾動、向左翻頁和向右翻頁.測試表明:在測試者雙手占用的情況下,可以使用眼勢代替滾動和翻頁等簡單的操作,并且在掃視瀏覽文字的過程中極少發(fā)生誤觸,能夠正常地閱讀.

        2.6.2 模擬的APP 的使用

        如圖14 所示,使用者在電腦上運行手機模擬器,模擬手機上的使用.所有眼勢均可對應一種操作.分別為:

        1)左運動對應左翻頁.

        2)右運動對應右翻頁.

        3)上運動對應向下滾動.

        圖13 網(wǎng)頁閱讀應用

        圖14 模擬手機APP 應用

        4)左眨眼運動實現(xiàn)返回鍵.

        5)右眨眼運動則向下滾動.

        6)上眨眼運動觸發(fā)大幅度向上滾動.

        7)左眨眼為模擬鼠標點擊屏幕中央.

        8)右眨眼可輪流選擇下方菜單模塊.

        手機上運行一款普通的新聞APP,經(jīng)測試,除在選擇點擊新聞時略不方便,以及無法完成點擊某個特定位置的需求,大部分操作已可通過眼勢完成.

        2.7 使用體驗

        在上文提到的實驗環(huán)境中測試,程序運行時CPU 占用率峰值不超過10%,內(nèi)存占用5%.每秒幀數(shù)在30,目前的幀數(shù)處理上限由攝像頭的采樣頻率的決定,不會造成其他軟件使用卡頓的情況.此外,使用MacBook Air(2015 年初,1.6 GHz 雙核i5)筆記本搭建同樣的環(huán)境運行,每秒幀數(shù)也可以穩(wěn)定在25 左右,可以達到實時性.

        本文在錄制不同測試者的數(shù)據(jù)集的同時,收到了不同的用戶反饋.部分用戶在初使用時,存在眼勢使用不熟練的情況.經(jīng)過訓練,如:用某個物品模擬注視焦點,讓測試者的眼睛通過跟隨焦點和移動焦點完成眼勢,最終都能達到比較良好的效果.

        3 結論與討論

        為實現(xiàn)簡便實惠的眼動人機交互應用,本文利用筆記本前置攝像頭獲取眼動信息,提出一種使用人工提取特征分類+深度學習模型LSTM 眼勢預測的眼動行為識別方法,并實現(xiàn)了基本人機交互操作.

        其中人工提取特征分類的方法用來識別眼睛的靜幀圖像,并將多個相鄰幀之間的識別結果組合分析,實現(xiàn)動態(tài)的眨眼識別過程;采用LSTM 網(wǎng)絡的深度學習方法,將50 幀的眼動差分序列作為輸入,實現(xiàn)識別眼球向左右上運動等眼動行為.將以上識別的結果分別觸發(fā)相應的計算機命令,實際應用在人機交互中.實驗結果驗證在筆記本中基于前置攝像頭視頻源圖像的眼動行為識別的可行性.但本文方法雖然在測試集和訓練集上都有良好的表現(xiàn),在實際應用時還要考慮存在部分遮擋、眼睛鏡片反光、抖動模糊及眼球中心定位錯誤等情況下算法的完善和優(yōu)化.同時下一步將考慮加上視線追蹤,以期完成更為復雜的交互任務.

        猜你喜歡
        眼動
        基于眼動追蹤與聯(lián)合分析的高端意象感知研究
        包裝工程(2023年18期)2023-09-27 09:17:36
        內(nèi)隱和外顯道德評價的比較研究——來自眼動的證據(jù)
        心理學探新(2022年1期)2022-06-07 09:15:34
        基于眼動的駕駛員危險認知
        基于ssVEP與眼動追蹤的混合型并行腦機接口研究
        載人航天(2021年5期)2021-11-20 06:04:32
        海豹的睡眠:只有一半大腦在睡覺
        大自然探索(2019年7期)2019-12-13 07:24:27
        基于眼動信號的便攜式無線智能交互系統(tǒng)設計
        靜止眼動和動作表現(xiàn)關系的心理學機制
        “鬼壓床”究竟是怎么回事
        基于眼動追蹤的老年人信息服務終端圖標設計研究
        國外翻譯過程實證研究中的眼動跟蹤方法述評
        外語學刊(2016年4期)2016-01-23 02:34:15
        少妇高潮一区二区三区99| 亚洲一区二区三区av色婷婷| 国产成人av区一区二区三| 嫩草伊人久久精品少妇av| 女人被狂躁到高潮视频免费网站| 六月丁香久久| 中国少妇和黑人做爰视频| 国产激情自拍在线视频| 亚洲人成人无码www影院| 娇妻玩4p被三个男人伺候电影| 亚洲高清国产品国语在线观看 | 无码一区二区三区中文字幕| 亚洲最大av资源站无码av网址| 亚洲av乱码专区国产乱码| 综合成人亚洲网友偷自拍| 搡女人真爽免费视频大全| 亚洲五月天综合| 美女超薄透明丝袜美腿| 国产一区二区不卡av| 永久免费a∨片在线观看 | 少妇邻居内射在线| aⅴ色综合久久天堂av色综合| 国产人妖在线视频网站| 国产日韩av在线播放| 亚洲欧美日韩一区在线观看| 日韩精品有码在线视频| 精品视频在线观看日韩| 日本免费a级毛一片| 欧美视频九九一区二区| 国产精品久久久看三级| 久久精品国产亚洲夜色av网站| 永久免费看啪啪网址入口| 91产精品无码无套在线 | 免费av在线 国产精品| 日本a级片免费网站观看| 亚洲精品无码成人a片| 亚洲VA中文字幕欧美VA丝袜| 日韩国产一区二区三区在线观看 | 亚洲精品中文字幕免费专区| 欧美性受xxxx白人性爽| 亚洲日本va99在线|