張慧子,陸心竹,劉佳麗,趙小敏,韓剛慶,王晗
(南通大學(xué)交通與土木工程學(xué)院,南通226019)
航空娛樂系統(tǒng)出現(xiàn)于十九世紀(jì)六十年代,在航空運(yùn)輸業(yè)競(jìng)爭(zhēng)異常激烈的今天,為給旅客提供更舒適、更全面的服務(wù),航空娛樂系統(tǒng)正日益受到航空公司和旅客的重視?,F(xiàn)有的設(shè)備交互方式主要有遙控器近距離控制、遠(yuǎn)程無線控制、移動(dòng)端控制、語音控制等[1]。如果能不需要復(fù)雜的操作,利用新型的人機(jī)交互技術(shù)[2],提前在系統(tǒng)中設(shè)計(jì)好手勢(shì)動(dòng)作,在不觸碰到屏幕的情況下,利用系統(tǒng)的攝像頭捕捉手勢(shì)畫面,直接對(duì)多媒體系統(tǒng)進(jìn)行控制[3],將能使旅客的旅程體驗(yàn)達(dá)到最佳。為了減少旅客疲勞的同時(shí)增強(qiáng)操作興趣,本文設(shè)計(jì)開發(fā)了一種基于手勢(shì)、五官狀態(tài)識(shí)別的航空多媒體人機(jī)交互控制系統(tǒng),能夠?qū)崿F(xiàn)完全脫離鍵盤或手柄的控制。
系統(tǒng)由基于手勢(shì)識(shí)別的多媒體控制模塊、基于手型識(shí)別的游戲操作模塊和基于五官狀態(tài)識(shí)別的游戲模塊這三部分組成。通過隱形馬爾科夫鏈HMM描述自然手勢(shì)軌跡控制多媒體菜單選擇;利用Haar-like特征結(jié)合AdaBoost[4]級(jí)聯(lián)分類器實(shí)現(xiàn)人臉檢測(cè)與五官狀態(tài)識(shí)別控制化妝游戲;采用皮膚檢測(cè)與區(qū)域分割識(shí)別手型控制游戲人物的運(yùn)動(dòng)。相對(duì)傳統(tǒng)的控制手柄或者鍵盤操作,本文設(shè)計(jì)開發(fā)的人機(jī)交互控制系統(tǒng)更具有趣味性,能夠明顯提高用戶的操作興趣。
手勢(shì)軌跡識(shí)別流程包括四個(gè)步驟:攝像頭畫面讀取、手指檢測(cè)、手勢(shì)特征提取、手勢(shì)識(shí)別。首先,利用顏色檢測(cè)確定手指的位置。其次,對(duì)連續(xù)圖像間的手勢(shì)軌跡提取特征向量,并進(jìn)行量化。然后,當(dāng)手勢(shì)結(jié)束的信號(hào)觸發(fā)后,獲取完整的手勢(shì)特征序列并且與已知的手勢(shì)模型匹配。最后,從匹配獲取的手勢(shì)結(jié)果轉(zhuǎn)化為控制指令,完整的手勢(shì)軌跡識(shí)別過程如圖1所示。
圖1 手勢(shì)識(shí)別系統(tǒng)流程圖
圖2 觸發(fā)信號(hào)設(shè)計(jì)與實(shí)例
為了準(zhǔn)確獲取手勢(shì)的完整軌跡,觸發(fā)信號(hào)設(shè)計(jì)如下:當(dāng)觸發(fā)區(qū)域方框內(nèi)連續(xù)捕獲到超過20個(gè)在顏色閾值內(nèi)的像素點(diǎn)時(shí),方框隱藏。同時(shí),手指中心的點(diǎn)顯示在圖像上,接下來開始記錄手勢(shì)軌跡。復(fù)位信號(hào)設(shè)計(jì)如下:利用了手指軌跡移動(dòng)的速度來設(shè)計(jì),如果兩幀圖像間檢測(cè)的手指中心距離小于限定值時(shí),停止記錄并復(fù)位,重新顯示綠色方框。觸發(fā)信號(hào)的設(shè)計(jì)過程如圖2所示。
本系統(tǒng)利用特殊顏色的指套(藍(lán)色)對(duì)手指區(qū)域進(jìn)行檢測(cè),并利用顏色檢測(cè)的二值圖像重心作為手指定位的結(jié)果如圖2(a)所示。利用連續(xù)圖像之間手指定位結(jié)果之間的運(yùn)動(dòng)矢量的方向角度變化作為手勢(shì)特征。然而,在運(yùn)行時(shí)由于手指抖動(dòng)可能產(chǎn)生的較大誤差,導(dǎo)致手勢(shì)軌跡中總會(huì)出現(xiàn)無效點(diǎn)。為了增強(qiáng)特征的有效性,本文t幀圖像軌跡點(diǎn)與第一個(gè)軌跡點(diǎn)進(jìn)行角度變化的計(jì)算:
式中,yt代表t幀手指中心的y坐標(biāo),y1代表第一幀手指中心的y坐標(biāo),xt代表t幀手指中心的x坐標(biāo),x1代表1幀手指中心的x坐標(biāo)。
為了使用離散型HMM對(duì)手勢(shì)進(jìn)行數(shù)學(xué)建模,將角度值量化,其過程如下:將軌跡點(diǎn)運(yùn)動(dòng)角度的二維空間平面劃分為8個(gè)維度,從而對(duì)角度信號(hào)進(jìn)行分類,將連續(xù)的軌跡點(diǎn)轉(zhuǎn)變?yōu)楹?jiǎn)易的數(shù)字信息,具體量化關(guān)系如表1。
表1 角度量化映射關(guān)系
本文采用隱形馬爾可夫鏈HMM[5]對(duì)量化后的手勢(shì)軌跡進(jìn)行數(shù)學(xué)建模:在收集了不同人的手勢(shì)樣本后,利用Baum-Welch算法訓(xùn)練獲取各個(gè)手勢(shì)對(duì)應(yīng)的HMM模型的最佳參數(shù)λi*=(πi,Ai,Bi)。其中,πi代表了訓(xùn)練后獲取的第i個(gè)HMM模型初始概率;Ai代表了訓(xùn)練后獲取的第i個(gè)HMM模型的狀態(tài)轉(zhuǎn)移矩陣;Bi代表了訓(xùn)練后獲取的第i個(gè)HMM模型的觀測(cè)狀態(tài)矩陣。在獲取了訓(xùn)練完畢的各個(gè)手勢(shì)的HMM模型之后,利用最大似然函數(shù)發(fā)對(duì)測(cè)試樣本特征進(jìn)行識(shí)別。即,最大后驗(yàn)概率對(duì)應(yīng)的第i個(gè)HMM模型所對(duì)應(yīng)的手勢(shì)確定為識(shí)別的結(jié)果。具體手勢(shì)與控制信號(hào)對(duì)應(yīng)關(guān)系見表2。
表2 手勢(shì)控制信號(hào)
本文提出的手部姿態(tài)識(shí)別主要分為四個(gè)階段:①攝像頭畫面讀?、谑植繖z測(cè)③手型特征提?、苁中妥R(shí)別。首先,對(duì)攝像頭捕捉到的視頻圖像進(jìn)行皮膚檢測(cè),確定質(zhì)心坐標(biāo),測(cè)量手部邊緣到質(zhì)心的距離。其次,以質(zhì)心坐標(biāo)為圓心在極坐標(biāo)系下畫同心圓,取倒數(shù)第二遠(yuǎn)的圓環(huán)為連通區(qū)域,計(jì)算手指數(shù)目。最后,識(shí)別手部姿態(tài)并控制游戲人物的動(dòng)作??偭鞒虉D如圖3所示。
圖3 手型識(shí)別系統(tǒng)流程圖
本系統(tǒng)采用了基于YCbCr色彩空間進(jìn)行膚色分割獲取手部區(qū)域,當(dāng)Y、Cb、Cr分別滿足膚色范圍,判定該區(qū)域?yàn)槟w色區(qū)域。然后,計(jì)算手部區(qū)域的所有像素點(diǎn)坐標(biāo)的平均值獲取手部質(zhì)心坐標(biāo)。為了準(zhǔn)確識(shí)別手型,通過計(jì)算出每一個(gè)手勢(shì)圖像的質(zhì)心與手勢(shì)輪廓的最大距離。以最大距離做圓并且五等分為等距的環(huán)型區(qū)域,利用次外層圓環(huán)統(tǒng)計(jì)手指的數(shù)目進(jìn)而識(shí)別出手型的含義,計(jì)數(shù)時(shí)去掉手腕對(duì)應(yīng)的最大連通區(qū)域,其完整流程如圖4所示。
圖4 手型識(shí)別系統(tǒng)流程圖
圖5 給出了通過手型控制“馬里奧游戲”的實(shí)例效果。用戶根據(jù)手型的不同控制馬里奧的動(dòng)作,當(dāng)不同手型出現(xiàn)時(shí)檢測(cè)手部區(qū)域的窗體變成不同的顏色。
圖5 手型控制“馬里奧”游戲?qū)嵗?/p>
本文提出的五官狀態(tài)識(shí)別主要分為四個(gè)階段:①攝像頭畫面讀取②五官檢測(cè)③五官特征提?、芪骞贍顟B(tài)識(shí)別。首先,通過Haar-like算法來提取五官特征。然后,使用AdaBoost級(jí)聯(lián)分類器檢測(cè)人臉和眼睛位置。進(jìn)而基于瞳孔比例識(shí)別左右眼睛的狀態(tài)。最后,通過其狀態(tài)觸發(fā)對(duì)應(yīng)化妝效果??偭鞒倘鐖D6所示。
圖6 五官狀態(tài)識(shí)別流程圖
本文利用人眼瞳孔的像素點(diǎn)占眼睛的比例對(duì)眼睛狀態(tài)(睜開、閉合)進(jìn)行建模:首先,經(jīng)過RGB三個(gè)通道的閾值分割出瞳孔像素點(diǎn);然后,統(tǒng)計(jì)出瞳孔的像素點(diǎn)占眼睛的比例大??;最后,當(dāng)待測(cè)瞳孔的比例小于給定閾值時(shí)判斷為閉合狀態(tài),否則為睜眼。
式中,k代表瞳孔像素點(diǎn)占眼睛部分的比例,Nt代表瞳孔像素點(diǎn)個(gè)數(shù),Ne代表單只眼睛的像素點(diǎn)個(gè)數(shù)。
為了識(shí)別出嘴巴的狀態(tài)(張嘴、閉嘴),本文利用梯度方向直方圖特征(HoG)對(duì)張嘴、閉嘴的狀態(tài)進(jìn)行建模,然后利用KNN算法對(duì)樣本進(jìn)行聚類,判斷嘴巴的狀態(tài)。
圖7 給出了基于手勢(shì)和五官狀態(tài)識(shí)別的娛樂控制系統(tǒng)實(shí)時(shí)演示的實(shí)例。其中,圖7左上、右上為利用手勢(shì)識(shí)別控制多媒體的選擇。圖7左下、右下分別為五官控制化妝游戲和手型控制馬里奧游戲。
為了證明本文設(shè)計(jì)系統(tǒng)的有效性,共10名同學(xué)收集圖像數(shù)據(jù)。其中,手勢(shì)、手型及五官狀態(tài)各3000張圖像;70%作為訓(xùn)練數(shù)據(jù),30%作為測(cè)試數(shù)據(jù)。表3~表5分別給出了手勢(shì)識(shí)別、手型識(shí)別及五官狀態(tài)識(shí)別的性能指標(biāo)??梢郧宄乜闯?,系統(tǒng)識(shí)別準(zhǔn)確率在97%以上,運(yùn)行時(shí)間在0.019秒/幀,可以滿足用戶實(shí)時(shí)控制的需求。
圖7 系統(tǒng)演示實(shí)例
表3 手勢(shì)識(shí)別性能
表4 手型識(shí)別性能
表5 五官狀態(tài)識(shí)別性能
本文設(shè)計(jì)開發(fā)了一種航空娛樂多媒體人機(jī)交互控制系統(tǒng),通過自然手勢(shì)、手型及五官狀態(tài)識(shí)別實(shí)現(xiàn)多媒體控制、化妝游戲以及游戲人物運(yùn)動(dòng)控制等功能。相對(duì)于傳統(tǒng)的手柄、鼠標(biāo)或者鍵盤操作,手勢(shì)、五官控制更具有趣味性。經(jīng)實(shí)驗(yàn)表明本系統(tǒng)相關(guān)的識(shí)別準(zhǔn)確率和處理時(shí)間均表現(xiàn)出較高的性能,對(duì)于面向長(zhǎng)途旅途中娛樂控制系統(tǒng)的發(fā)展具有一定的啟示作用。