亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SIFT的說話人唇動識別

2017-11-15 06:12:29馬新軍吳晨晨仲乾元李園園

計算機應(yīng)用 2017年9期

關(guān)鍵詞：關(guān)鍵點特征提取特征

馬新軍，吳晨晨，仲乾元，李園園

(哈爾濱工業(yè)大學(xué)(深圳) 機電工程與自動化學(xué)院，廣東深圳 518055)(*通信作者電子郵箱870715761@qq.com)

基于SIFT的說話人唇動識別

馬新軍，吳晨晨*，仲乾元，李園園

(哈爾濱工業(yè)大學(xué)(深圳) 機電工程與自動化學(xué)院，廣東深圳 518055)(*通信作者電子郵箱870715761@qq.com)

針對唇部特征提取維度過高以及對尺度空間敏感的問題，提出了一種基于尺度不變特征變換(SIFT)算法作特征提取來進行說話人身份認證的技術(shù)。首先，提出了一種簡單的視頻幀圖片規(guī)整算法，將不同長度的唇動視頻規(guī)整到同一的長度，提取出具有代表性的唇動圖片；然后，提出一種在SIFT關(guān)鍵點的基礎(chǔ)上，進行紋理和運動特征的提取算法，并經(jīng)過主成分分析(PCA)算法的整合，最終得到具有代表性的唇動特征進行認證；最后，根據(jù)所得到的特征，提出了一種簡單的分類算法。實驗結(jié)果顯示，和常見的局部二元模式(LBP)特征和方向梯度直方圖(HOG)特征相比較，該特征提取算法的錯誤接受率(FAR)和錯誤拒絕率(FRR)表現(xiàn)更佳。說明整個說話人唇動特征識別算法是有效的，能夠得到較為理想的結(jié)果。

唇部特征；尺度不變特征變換；特征提??；說話人識別

0 引言

近年來越來越多的研究表明生物認證技術(shù)比傳統(tǒng)的身份認證具有更好的安全性與簡便性。唇動身份認證原來作為語音認證的輔助信息，現(xiàn)在已經(jīng)獨立出來成為一種新的認證手段，唯一性和準確性都得到了研究的證明[1-2]。唇動身份認證系統(tǒng)主要由四部分組成：在已建立的數(shù)據(jù)庫的基礎(chǔ)上，首先對獲取的圖像進行人臉的定位，進而作唇部定位；然后對得到的圖片進行預(yù)處理；再進行特征提取；最后根據(jù)所得到的特征分類得出結(jié)果，即完成整個說話人唇動識別研究。

人臉檢測方面Yang等[3]提出了基于馬賽克圖進行人臉檢測的方法。Kouzani等[4]利用人工神經(jīng)網(wǎng)絡(luò)分別對人臉的眼睛、鼻子和嘴等器官進行檢測。Sirohey[5]通過使用人臉邊緣信息和橢圓擬合的方法，從復(fù)雜的背景中分割定位出人臉區(qū)域。Miao等[6]從輸入圖像中提取面部器官水平方向的馬賽克邊緣,將各段邊緣的“重心”與“重心”模板進行匹配,再通過灰度和邊緣特征進行驗證以實現(xiàn)人臉的檢測。梁路宏等[7]給出了一種基于多關(guān)聯(lián)模板匹配的人臉檢測方法。自Viola和Jones首次將Adaboost算法用于人臉檢測以來，由于其性能和速度優(yōu)勢，成為一種主流的人臉檢測算法。由于其應(yīng)用的廣泛性和實用性，本文采用Adaboost算法作為人臉定位的算法。

人臉的定位完成后，常見的唇部定位方法主要為對圖像灰度投影的峰值進行分析，進而通過顏色空間變換，對唇部區(qū)域進行加強，再經(jīng)過閾值的分割得到所需的唇部區(qū)域[8]。本文提出根據(jù)人臉各部分的大致比例關(guān)系給出一種唇部的粗定位算法，該算法計算簡單，同時可以保證唇部邊緣的一些運動與紋理特征不會被忽略。

圖片的預(yù)處理工作，是在前期對圖片進行處理，減少噪聲、遮擋、光照不均等影響，使得特征提取能夠得到更加穩(wěn)定準確的特征向量。本文在尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)算法[9-11]的基礎(chǔ)上，進行算法的改進與調(diào)整。由于算法本身已包含高斯去噪功能，并且實驗的光照條件變化不大，因此對于圖像的預(yù)處理算法不作過多的討論。

完成唇部定位與預(yù)處理之后，特征提取是關(guān)乎到整個認證系統(tǒng)穩(wěn)定性與準確率的重要部分。目前的唇部特征提取主要分為三類：1)唇部的紋理特征；2)唇部的幾何特征；3)唇部的運動特征。紋理特征方法主要有：經(jīng)典的PCA算法、推廣的核主成分分析算法(Kernel-based Principal Component Analysis, KPCA)、二維主元素分析算法，核心都是提取高維特征空間中的線性鑒別特征，即原始輸入空間中的非線性鑒別特征，但PCA存在著面對非線性特質(zhì)無能為力，以及可能會忽略重要的投影方向等缺點。Ahonen等[12]使用局部二元模式(Local Binary Pattern, LBP)來提取臉部圖像的紋理特征，對臉部區(qū)域進行分塊計算各分塊LBP直方圖，并將它們連接起來作為表情識別的特征。LBP特征具有較好的光照魯棒性，但是作為一種靜態(tài)特征，無法具有代表性地來表征動態(tài)的特征。幾何特征主要有唇部的長寬高等人工提取的特征，對于唇部的輪廓Kass等[13]在第一屆國際視覺會議上提出了Snake模型。關(guān)于運動特征：光流法作為常用的運動圖像處理方法，利用圖像序列中像素在時間域上的變化以及相鄰幀圖片間的相關(guān)性來找到上一幀圖片與當前幀的對應(yīng)關(guān)系，從而得到物體的運動信息，但存在著運算量大的問題。Singh等[14]提出三正交平面窗口，唇動的運動特征能夠在一個時空體積內(nèi)進行表征。本文給出了一種在SFIT基礎(chǔ)上的特征提取算法，既有運動的表述，又有紋理的描述，同時對于旋轉(zhuǎn)變化具有一定的魯棒性。

對所提取的特征進行分類的算法目前也有很多研究成果。高斯混合模型(Gaussian Mixture Model, GMM)[15]是唇動識別和認證領(lǐng)域的一種常用的分類算法，算法簡單，但在數(shù)據(jù)較多的情況下分類結(jié)果不是很理想；Adaboost和PCA-LDA(Principal Component Analysis and Linear Discriminant Analysis)，支持向量機(Support Vector Manhine, SVM)算法在唇動認證中也是較為常用的分類算法；Yang等[16]提出了自調(diào)節(jié)分類面支持向量機(Self-adjusting Classification-plane SVM, SCSVM)方法，通過學(xué)習(xí)過完備的稀疏特征，可以在高維特征空間提高特征的線性可分性，大大降低了訓(xùn)練分類器的時間和空間消耗?；谏疃葘W(xué)習(xí)的特征提取和分類算法是目前最為先進的算法，主流的深度學(xué)習(xí)模型包括自動編碼器、受限波爾茲曼機、深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。Krizhevsky等[17]通過這種方式，成功將其應(yīng)用于手寫數(shù)字識別、語音識別、基于內(nèi)容檢索等領(lǐng)域。本文在之前所得到的唇動特征基礎(chǔ)上，提出一種簡單的分類算法，既滿足了分類的精確性，同時計算量小，實時性較好，在數(shù)據(jù)庫較大時也可以和神經(jīng)網(wǎng)絡(luò)的分類算法相結(jié)合。

1 幀圖片提取

在唇動視頻中，錄像的幀率一般為30 frame/s，如果直接將視頻產(chǎn)生的所有幀圖片都作為下一步特征提取的數(shù)據(jù)庫，不僅會有大量的噪聲干擾在其中，還會有大量的數(shù)據(jù)冗余，從而會加大系統(tǒng)的計算量并影響其魯棒性與運算的實時性，最終降低系統(tǒng)認證的準確率與效率。文獻[18]分析了動態(tài)時間規(guī)整算法(Dynamic Time Warping, DTW)，本文給出了一種基于時間序列的動態(tài)圖片提取算法，在相鄰的時間段里找到幀間灰度變化最大的圖片作為代表性圖片。該算法不僅可以減少計算量，同時可以增強整個系統(tǒng)對于說話人語速變化的魯棒性。具體實行過程如下。

1)令唇動視頻所產(chǎn)生的幀圖片的數(shù)量為X。

2)如果X的數(shù)量小于20，說明說話者說話的時間小于1 s，作為認證而言，說話長度明顯過短，提示唇動視頻所提供的幀圖片數(shù)量過少，無法進行認證。

3)如果 20≤X≤60，選取第3張圖片作為所提取的第1張幀圖片，選取倒數(shù)第3張圖片作為第12張幀圖片。A=?(X-10)/10」和B=「(X-10)/10?將依次作為選取圖片的數(shù)量間隔，每一幅幀圖片的大小為M*N，在每個間隔中，用式(1)選取所要的幀圖片：

(1)

其中:It(i,j)表示第t幀圖片I在點(i,j)處的灰度值；Pic表示在間隔內(nèi)，和相鄰幀圖片比較，灰度值變化最大的圖片。

4)如果 60

5)如果480

通過上述的算法，可以從唇動視頻所產(chǎn)生的大量幀圖片中提取12張代表圖片。

在被測試者的兩段視頻幀圖片中用上述算法提取的代表圖片如下，第一遍段視頻用正常語速說“你好”，第二遍張大嘴巴放慢語速復(fù)述。

從圖1中可以看出在語速和不同口型的情況下，所提取的12張圖片其對應(yīng)的序列及口型都有很強的相似性與代表性。該算法對于說話者語速的變化和口型大小的改變都有很強的魯棒性，并能夠為后面特征的提取打下良好的基礎(chǔ)。

圖1 視頻代表圖片

2 基于SIFT算法的特征提取和匹配模型

SIFT算法第一次由Lowe[19]提出，是一種廣泛應(yīng)用于圖像處理的算法，具有良好的尺度不變性和對旋轉(zhuǎn)的抵抗性。Bakshi等[20]曾將SIFT算法用在唇印的認證與對比中，并取得了很好的效果。

SIFT算法所提出的關(guān)鍵點的描述方式，作為一種局部特征，對于光照、旋轉(zhuǎn)、噪聲與尺度的變化都不敏感，因此在這基礎(chǔ)上進行物體的認證和識別，都具有很強的抗干擾性和針對性。這種局部特征檢測算法概括地講，就是通過在不同的尺度空間中得到關(guān)鍵點描述子，再對關(guān)鍵點進行匹配的方法，SIFT算法的流程如圖2所示。

圖2 SIFT算法流程

2.1 基于SIFT的目標匹配與認證

從圖3、4中可以看出，經(jīng)過參數(shù)的調(diào)整后，SIFT算法所提取的關(guān)鍵點個數(shù)明顯變多,但是在唇部輪廓變化較大的情況下，誤匹配點的個數(shù)也有所增加。因此在后面的特征提取中增加了消除重復(fù)關(guān)鍵點和PCA降維的步驟。圖5展現(xiàn)的是不同人不同尺寸的圖片的SIFT匹配結(jié)果，可以看到兩幅圖片的匹配點數(shù)明顯減少且明顯存在匹配錯誤點。

圖3 測試者未經(jīng)參數(shù)調(diào)整的SIFT匹配示例圖

圖4 測試者經(jīng)參數(shù)調(diào)整后的SIFT匹配示例圖

圖5 經(jīng)參數(shù)調(diào)整后的不同人唇部圖片SIFT匹配示例圖

綜合實驗結(jié)果可以看出不同的人的唇部無論出于何種口型，能夠匹配的關(guān)鍵點個數(shù)遠少于同一個人的唇部所能匹配的關(guān)鍵點的個數(shù)。因此，將采用測試樣本與數(shù)據(jù)庫樣本的關(guān)鍵點匹配個數(shù)的比值作為判斷是否為同一個人的有效依據(jù)。

如圖6所示，用已提到過的幀圖片提取算法將數(shù)據(jù)庫中所存放的同一個人所說同一句話(比如說了3遍)的12幅幀圖片一一進行SIFT匹配，共可以匹配3次，將匹配點的個數(shù)求平均值得到A1，A2，…，A12，將其存儲起來。然后將測試樣本與數(shù)據(jù)庫中的任意樣本進行SIFT匹配，得到匹配點的個數(shù)B1，B2，…，B12。設(shè)置閾值θ=0.4，i=1, 2，…，12。如果Bi/Ai<θ,則計數(shù)標志flag+1,為了防止系統(tǒng)的誤判斷并降低噪聲圖片帶來的干擾，設(shè)置當flag的值大于2時，判定為不是用戶本人。通過調(diào)節(jié)閾值θ的大小，可以調(diào)整錯誤拒絕率和錯誤接受率的大小。θ值越大錯誤接受率越小但錯誤拒絕率越大，θ值越小錯誤接受率越大但錯誤拒絕率越小。

圖6 目標匹配原理

2.2 基于SIFT的新的特征提取算法

如圖7所示，首先對數(shù)據(jù)庫中的樣本(即12幅幀圖片)相鄰的圖片進行SIFT匹配，得到匹配的關(guān)鍵點。提出的特征提取算法就是在這些關(guān)鍵點的基礎(chǔ)上得到的。

圖7 相鄰序列間匹配關(guān)鍵點

具體的特征提取算法如下。

1)對于任意兩幀圖片之間匹配得到的關(guān)鍵點P1，P2：

用式(2)來計算關(guān)鍵點P1，P2的運動矢量幅值：

(2)

其中：(ip1,jp1)為關(guān)鍵點P1的坐標位置；(ip2,jp2)為關(guān)鍵點P2的位置坐標。

用式(3)來計算關(guān)鍵點P1，P2的運動矢量的方向：

f2=tan-1[(jp1-jp2)/(ip1-ip2)]

(3)

對于每一對匹配的關(guān)鍵點，通過這種方式可以得到二維的特征向量F=(f1,f2)。

2)對于圖像中每一個關(guān)鍵點，選取4×4的窗口，如圖8所示。圖8中每一個小方格代表著一個像素點，圓點代表所得到的關(guān)鍵點的位置，其周圍4×4的像素點的運動特征矢量方向由箭頭所表示，該矢量幅值的大小表示其矢量的大小。最后將計算所得到16個矢量歸類統(tǒng)計到8個主要的方向上去，作為最后得到的8維特征向量。具體的計算方法由式(4)和(5)給出：

梯度幅值：

m(x,y)=

(4)

其中L(x,y)表示在點(x,y)處的灰度值。

梯度方向：

(5)

通過上述的算法，可以得到8維的特征向量R。

圖8 關(guān)鍵點周圍運動矢量特征圖

3) 對于圖像中每對匹配的關(guān)鍵點，選取4×4的窗口，對4×4窗口中對應(yīng)位置的灰度值做差取絕對值，然后將這16個值求和，如圖9所示。

即：

(6)

其中I1和I2分別代表相鄰的兩幅幀圖片中對應(yīng)點的灰度值。

圖9 對應(yīng)位置的灰度差絕對值

4)綜上所述，對于每一個匹配的關(guān)鍵點，可以得到一個11維的特征向量T={F,R,G}。這11維向量中包含了唇部的運動信息F，唇部周圍的紋理信息R，以及灰度的變化信息G。假設(shè)最終得到的匹配點個數(shù)為n，對最終得到的特征矩陣M采用PCA降維到11維，得到11維特征向量Z。Z特征比LBP等常見的紋理信息具有更強的針對性和規(guī)律性，比Snake算法所提取的輪廓特征具有更少的模型依賴性和更強的魯棒性。

圖10所展示的是兩名測試者說同一段話所提取的特征矢量的曲線圖?；叶茸兓塾嬛档闹递^大，為了能看出其變化趨勢，在曲線圖中只畫出特征F和特征R。

從圖10中可以看出，本文所提出的這種特征提取方法能夠很好地表征說話人的說話特征，具有很強個人特征以及區(qū)別性，可以很容易地進行分類。

2.3 基于所提取特征的分類算法

以往的分類方法，由于得到的圖像特征并不明顯，因此常用SVM、神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型等算法對其進行分類，這些算法需要較大的數(shù)據(jù)庫來訓(xùn)練，同時運算量大，計算起來十分復(fù)雜。根據(jù)前面所得到的特征，本文通過簡單的比較方法進行二分類，也能得到很好的實驗效果。具體的實現(xiàn)方法如下：

1)通過式(7)得到數(shù)據(jù)庫中唇動視頻中所提取的唇動特征的平均值：

(7)

2)再用相同的方法將測試樣本的唇動特征Z提取出來；

3)設(shè)置閾值θ1,θ2，其中θ2=1/θ1。θ1的值越大越大錯誤接受率越小但錯誤拒絕率越大。本文中θ1取0.7，θ2取1.42。

令t=z/zmean如果t<θ1或者t>θ2，則令計數(shù)標志flag+1，為了防止誤判斷，flag的值大于2時，則判斷該用戶所說的不是這段話。

圖10 不同測試者說同一段話的特征值曲線

2.4 說話者唇部特征識別流程

進行說話者唇部特征識別的流程如圖11所示。首先對數(shù)據(jù)庫樣本進行人臉定位與唇部定位，然后進行幀圖片的選取，對選取的幀圖片進行SIFT匹配，在此基礎(chǔ)上，提取特征并記錄匹配結(jié)果。對測試樣本采用同樣的步驟，最終根據(jù)本文提出的驗證與分類方法，將輸出結(jié)果與數(shù)據(jù)庫中的結(jié)果比較，得出判定結(jié)果。

圖11 說話者唇動識別示意圖

3 說話者唇部特征識別實驗結(jié)果

3.1 數(shù)據(jù)庫的搭建

1) 視頻數(shù)據(jù)庫的基本參數(shù)如下：視頻格式為AVI；顏色空間為YUY2；輸出大小為640×480；視頻輸出幀率為30 frame/s。

2) 視頻數(shù)據(jù)庫的搭建如下。

采樣人數(shù)：50人；采樣環(huán)境：正常的日光燈照明，人臉位置相對固定，無遮掩，無大角度旋轉(zhuǎn)，無模糊、胡須，光照角度變化等復(fù)雜條件設(shè)置；采樣過程：接受采樣的樣本，分別以正常語速重復(fù)短句“你好”，以及數(shù)字1～9等不同的長短句各4遍，再分別以較慢語速張大口型的情況重復(fù)各4遍。

3.2 實驗結(jié)果

表1展示了本實驗在不同唇動視頻中獲得的Z特征的錯誤接受率(False Acceptance Rate, FAR)和錯誤拒絕率(False Rejection Rate, FRR)，以及在相同條件下LBP和HOG特征的FAR和FRR值。圖12展示本文算法在不同的θ和θ1值時，F(xiàn)AR和FRR值的變化情況。

表1 三種特征得到的FAR和FRR

4 結(jié)語

本文介紹了一種針對動態(tài)視頻所產(chǎn)生的幀圖片的提取算法。這種算法可以增強對于語速變化、口型大小變化以及照明變化的魯棒性。SIFT算法被引進到了說話者唇動識別中，在參數(shù)調(diào)整后有很好的表現(xiàn)。在SIFT算法的基礎(chǔ)上提出了一種新的唇動特征提取方法，這種方法既包含紋理特征又包含運動特征，可以準確地描述說話人唇動的一系列特征。最后，在匹配點與所提取的特征的基礎(chǔ)上，分別提出了一種驗證與分類的算法，方法簡單，計算量小，與常用的LBP和HOG特征相比較可以得到更為準確和有效的結(jié)果，實現(xiàn)說話人的唇部特征識別。在后面的實驗中可以添加圖像預(yù)處理的算法，將多種特征提取方法相結(jié)合以及引入神經(jīng)網(wǎng)絡(luò)來增強系統(tǒng)的穩(wěn)定性和適應(yīng)性。

圖12 本文算法不同θ和θ1值時的FAR和FRR曲線

References)

[1] KANAK A, ERZIN E, YEMEZ Y, et al. Joint audio-video processing for biometric speaker identification [C]// Proceedings of the 2003 IEEE International Conference on Multimedia and Expo. Washington, DC: IEEE Computer Society, 2003, 3: 561-564.

[2] CETINGUL H E, YEMEZ Y, ERZIN E, et al. Discriminative analysis of lip motion features for speaker identification and speech-reading [J]. IEEE Transactions on Image Processing, 2006, 15(10): 2879-2891.

[3] YANG G, HUANG T S. Human face detection in complex background [J]. Pattern Recognition, 1994, 27(1): 53-63.

[4] KOUZANI A Z, HE F, SAMMUT K. Commonsense knowledge-based face detection [C]// Proceedings of the 1997 IEEE International Conference on Intelligent Engineering Systems. Piscataway, NJ: IEEE, 2002: 215-220.

[5] SIROHEY S A. Human face segmentation and identification [EB/OL]. [2017- 01- 09]. https://www.researchgate.net/publication/2698964_Human_Face_Segmentation_and_Identification.

[6] MIAO J, YIN B, WANG K, et al. A hierachical multiscale and multiangle system for human face detection in a complex background using gravity-center template [J]. Pattern Recognition, 1999, 32(10): 1237-1248.

[7] 梁路宏,艾海舟,何克忠,等.基于多關(guān)聯(lián)模板匹配的人臉檢測[J].軟件學(xué)報,2001,12(1):94-102.(LIANG L H, AI H Z, HE K Z, et al. Face detection based on multi-association template matching [J]. Journal of Software, 2001, 12(1): 94-102.)

[8] GRITZMAN A D, RUBIN D M, PANTANOWITZ A, et al. Comparison of colour transforms used in lip segmentation algorithms [J]. Signal, Image and Video Processing, 2015, 9(4): 947-957.

[9] NEERU N, KAUR L. Modified SIFT descriptors for face recognition under different emotions [EB/OL]. [2016- 12- 09]. https://www.researchgate.net/publication/294279428_Modified_SIFT_Descriptors_for_Face_Recognition_under_Different_Emotions.

[10] KIRCHNER M R. Automatic thresholding of SIFT descriptors [C]// Proceedings of the 2016 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2016: 291-295.

[11] 許佳佳,張葉,張赫.基于改進Harris-SIFT算子的快速圖像配準算法[J].電子測量與儀器學(xué)報,2015,29(1):48-54.(XU J J, ZHANG Y, ZHANG H. Fast image registration algorithm based on improved Harris-SIFT descriptor [J]. Journal of Electronic Measurement and Instrumentation, 2015, 29(1): 48-54.

[12] AHONEN T, HADID A, PIETIKAINEN M. Face recognition with local binary patterns [C]// European Conference on Computer Vision, LNCS 3021. Berlin: Springer, 2004: 469-481.

[13] KASS M, WITKIN A, TERZOPOULOS D. Snakes: active contour model [EB/OL]. [2016- 12- 06]. http://webdocs.cs.ualberta.ca/～nray1/CMPUT617/Snake/kass_snake.pdf.

[14] SINGH P, LAXMI V, GAUR M S. Speaker identification using optimal lip biometrics [C]// Proceedings of the 2012 5th IAPR International Conference on Biometrics. Piscataway, NJ: IEEE, 2012: 472-477.

[15] SAEED U. Person identification using behavioral features from lip motion [C]// IEEE International Conference on Automatic Face & Gesture Recognition & Workshops. Piscataway, NJ: IEEE, 2011: 155-160.

[16] YANG J, YU K, GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1794-1801.

[17] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [2016- 11- 27]. http://www.cs.toronto.edu/～hinton/absps/imagenet.pdf?WT.mc_id=Blog_MachLearn_General_DI.

[18] 楊潔,康寧.動態(tài)時間規(guī)整DTW算法的研究[J].科技與創(chuàng)新,2016(4):11-12.(YANG J, KANG N. Research on dynamic time regular DTW algorithm [J]. Science and Technology & Innovation, 2016(4): 11-12.)

[19] LOWE D G. Distinctive image features from scale-invarient keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[20] BAKSHI S, RAMAN R, SA P K. Lip pattern recognition based on local feature extraction [C]// Proceedings of the 2011 Annual IEEE India Conference. Piscataway, NJ: IEEE, 2012: 1-4.

LipmotionrecognitionofspeakerbasedonSIFT

MA Xinjun, WU Chenchen*, ZHONG Qianyuan, LI Yuanyuan

(CollegeofMechanicalEngineeringandAutomation,HarbinInstituteofTechnology(Shenzhen),ShenzhenGuangdong518055,China)

Aiming at the problem that the lip feature dimension is too high and sensitive to the scale space, a technique based on the Scale-Invariant Feature Transform (SIFT) algorithm was proposed to carry out the speaker authentication. Firstly, a simple video frame image neat algorithm was proposed to adjust the length of the lip video to the same length, and the representative lip motion pictures were extracted. Then, a new algorithm based on key points of SIFT was proposed to extract the texture and motion features. After the integration of Principal Component Analysis (PCA) algorithm, the typical lip motion features were obtained for authentication. Finally, a simple classification algorithm was presented according to the obtained features. The experimental results show that compared to the common Local Binary Pattern (LBP) feature and the Histogram of Oriental Gradient (HOG) feature, the False Acceptance Rate (FAR) and False Rejection Rate (FRR) of the proposed feature extraction algorithm are better, which proves that the whole speaker lip motion recognition algorithm is effective and can get the ideal results.

lip feature; Scale-Invariant Feature Transform (SIFT); feature extraction; speaker authentication

2017- 03- 09;

2017- 05- 24。

國家自然科學(xué)基金資助項目(51677035)；深圳市基礎(chǔ)研究項目(JCYJ20150513151706580)；深圳市科技計劃項目(GRCK2016082611021550)。

馬新軍(1972—)，男，新疆石河子人，副教授，博士，主要研究方向：圖像處理及模式識別、智能汽車及智能駕駛、生物識別；吳晨晨(1993—)，女，河南濮陽人，碩士研究生，主要研究方向：模式識別；仲乾元(1990—)，男，江蘇徐州人，碩士研究生，主要研究方向：模式識別；李園園(1993—)，女，河南許昌人，碩士研究生，主要研究方向：模式識別。

1001- 9081(2017)09- 2694- 06

10.11772/j.issn.1001- 9081.2017.09.2694

TP391.41

This work is partially supported by the National Natural Science Foundation of China (51677035), the Fundamental Research Project of Shenzhen (JCYJ20150513151706580), the Science and Technology Plan Project of Shenzhen (GRCK2016082611021550).

MAXinjun, born in 1972, Ph. D., associate professor. His research interests include image processing and pattern recognition, intelligent vehicle and intelligent driving, biological identification.

WUChenchen, born in 1993, M. S. candidate. Her research interests include pattern recognition.

ZHONGQianyuan, born in 1990, M. S. candidate. His research interests include pattern recognition.

LIYuanyuan, born in 1993, M. S. candidate. Her research interests include pattern recognition.