亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SIFT的說話人唇動(dòng)識(shí)別

        2017-11-15 06:12:29馬新軍吳晨晨仲乾元李園園
        計(jì)算機(jī)應(yīng)用 2017年9期
        關(guān)鍵詞:唇部關(guān)鍵點(diǎn)人臉

        馬新軍,吳晨晨,仲乾元,李園園

        (哈爾濱工業(yè)大學(xué)(深圳) 機(jī)電工程與自動(dòng)化學(xué)院,廣東 深圳 518055)(*通信作者電子郵箱870715761@qq.com)

        基于SIFT的說話人唇動(dòng)識(shí)別

        馬新軍,吳晨晨*,仲乾元,李園園

        (哈爾濱工業(yè)大學(xué)(深圳) 機(jī)電工程與自動(dòng)化學(xué)院,廣東 深圳 518055)(*通信作者電子郵箱870715761@qq.com)

        針對唇部特征提取維度過高以及對尺度空間敏感的問題,提出了一種基于尺度不變特征變換(SIFT)算法作特征提取來進(jìn)行說話人身份認(rèn)證的技術(shù)。首先,提出了一種簡單的視頻幀圖片規(guī)整算法,將不同長度的唇動(dòng)視頻規(guī)整到同一的長度,提取出具有代表性的唇動(dòng)圖片;然后,提出一種在SIFT關(guān)鍵點(diǎn)的基礎(chǔ)上,進(jìn)行紋理和運(yùn)動(dòng)特征的提取算法,并經(jīng)過主成分分析(PCA)算法的整合,最終得到具有代表性的唇動(dòng)特征進(jìn)行認(rèn)證;最后,根據(jù)所得到的特征,提出了一種簡單的分類算法。實(shí)驗(yàn)結(jié)果顯示,和常見的局部二元模式(LBP)特征和方向梯度直方圖(HOG)特征相比較,該特征提取算法的錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)表現(xiàn)更佳。說明整個(gè)說話人唇動(dòng)特征識(shí)別算法是有效的,能夠得到較為理想的結(jié)果。

        唇部特征;尺度不變特征變換;特征提?。徽f話人識(shí)別

        0 引言

        近年來越來越多的研究表明生物認(rèn)證技術(shù)比傳統(tǒng)的身份認(rèn)證具有更好的安全性與簡便性。唇動(dòng)身份認(rèn)證原來作為語音認(rèn)證的輔助信息,現(xiàn)在已經(jīng)獨(dú)立出來成為一種新的認(rèn)證手段,唯一性和準(zhǔn)確性都得到了研究的證明[1-2]。唇動(dòng)身份認(rèn)證系統(tǒng)主要由四部分組成:在已建立的數(shù)據(jù)庫的基礎(chǔ)上,首先對獲取的圖像進(jìn)行人臉的定位,進(jìn)而作唇部定位;然后對得到的圖片進(jìn)行預(yù)處理;再進(jìn)行特征提??;最后根據(jù)所得到的特征分類得出結(jié)果,即完成整個(gè)說話人唇動(dòng)識(shí)別研究。

        人臉檢測方面Yang等[3]提出了基于馬賽克圖進(jìn)行人臉檢測的方法。Kouzani等[4]利用人工神經(jīng)網(wǎng)絡(luò)分別對人臉的眼睛、鼻子和嘴等器官進(jìn)行檢測。Sirohey[5]通過使用人臉邊緣信息和橢圓擬合的方法,從復(fù)雜的背景中分割定位出人臉區(qū)域。Miao等[6]從輸入圖像中提取面部器官水平方向的馬賽克邊緣,將各段邊緣的“重心”與“重心”模板進(jìn)行匹配,再通過灰度和邊緣特征進(jìn)行驗(yàn)證以實(shí)現(xiàn)人臉的檢測。梁路宏等[7]給出了一種基于多關(guān)聯(lián)模板匹配的人臉檢測方法。自Viola和Jones首次將Adaboost算法用于人臉檢測以來,由于其性能和速度優(yōu)勢,成為一種主流的人臉檢測算法。由于其應(yīng)用的廣泛性和實(shí)用性,本文采用Adaboost算法作為人臉定位的算法。

        人臉的定位完成后,常見的唇部定位方法主要為對圖像灰度投影的峰值進(jìn)行分析,進(jìn)而通過顏色空間變換,對唇部區(qū)域進(jìn)行加強(qiáng),再經(jīng)過閾值的分割得到所需的唇部區(qū)域[8]。本文提出根據(jù)人臉各部分的大致比例關(guān)系給出一種唇部的粗定位算法,該算法計(jì)算簡單,同時(shí)可以保證唇部邊緣的一些運(yùn)動(dòng)與紋理特征不會(huì)被忽略。

        圖片的預(yù)處理工作,是在前期對圖片進(jìn)行處理,減少噪聲、遮擋、光照不均等影響,使得特征提取能夠得到更加穩(wěn)定準(zhǔn)確的特征向量。本文在尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)算法[9-11]的基礎(chǔ)上,進(jìn)行算法的改進(jìn)與調(diào)整。由于算法本身已包含高斯去噪功能,并且實(shí)驗(yàn)的光照條件變化不大,因此對于圖像的預(yù)處理算法不作過多的討論。

        完成唇部定位與預(yù)處理之后,特征提取是關(guān)乎到整個(gè)認(rèn)證系統(tǒng)穩(wěn)定性與準(zhǔn)確率的重要部分。目前的唇部特征提取主要分為三類:1)唇部的紋理特征;2)唇部的幾何特征;3)唇部的運(yùn)動(dòng)特征。紋理特征方法主要有:經(jīng)典的PCA算法、推廣的核主成分分析算法(Kernel-based Principal Component Analysis, KPCA)、二維主元素分析算法,核心都是提取高維特征空間中的線性鑒別特征,即原始輸入空間中的非線性鑒別特征,但PCA存在著面對非線性特質(zhì)無能為力,以及可能會(huì)忽略重要的投影方向等缺點(diǎn)。Ahonen等[12]使用局部二元模式(Local Binary Pattern, LBP)來提取臉部圖像的紋理特征,對臉部區(qū)域進(jìn)行分塊計(jì)算各分塊LBP直方圖,并將它們連接起來作為表情識(shí)別的特征。LBP特征具有較好的光照魯棒性,但是作為一種靜態(tài)特征,無法具有代表性地來表征動(dòng)態(tài)的特征。幾何特征主要有唇部的長寬高等人工提取的特征,對于唇部的輪廓Kass等[13]在第一屆國際視覺會(huì)議上提出了Snake模型。關(guān)于運(yùn)動(dòng)特征:光流法作為常用的運(yùn)動(dòng)圖像處理方法,利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀圖片間的相關(guān)性來找到上一幀圖片與當(dāng)前幀的對應(yīng)關(guān)系,從而得到物體的運(yùn)動(dòng)信息,但存在著運(yùn)算量大的問題。Singh等[14]提出三正交平面窗口,唇動(dòng)的運(yùn)動(dòng)特征能夠在一個(gè)時(shí)空體積內(nèi)進(jìn)行表征。本文給出了一種在SFIT基礎(chǔ)上的特征提取算法,既有運(yùn)動(dòng)的表述,又有紋理的描述,同時(shí)對于旋轉(zhuǎn)變化具有一定的魯棒性。

        對所提取的特征進(jìn)行分類的算法目前也有很多研究成果。高斯混合模型(Gaussian Mixture Model, GMM)[15]是唇動(dòng)識(shí)別和認(rèn)證領(lǐng)域的一種常用的分類算法,算法簡單,但在數(shù)據(jù)較多的情況下分類結(jié)果不是很理想;Adaboost和PCA-LDA(Principal Component Analysis and Linear Discriminant Analysis),支持向量機(jī)(Support Vector Manhine, SVM)算法在唇動(dòng)認(rèn)證中也是較為常用的分類算法;Yang等[16]提出了自調(diào)節(jié)分類面支持向量機(jī)(Self-adjusting Classification-plane SVM, SCSVM)方法,通過學(xué)習(xí)過完備的稀疏特征,可以在高維特征空間提高特征的線性可分性,大大降低了訓(xùn)練分類器的時(shí)間和空間消耗?;谏疃葘W(xué)習(xí)的特征提取和分類算法是目前最為先進(jìn)的算法,主流的深度學(xué)習(xí)模型包括自動(dòng)編碼器、受限波爾茲曼機(jī)、深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。Krizhevsky等[17]通過這種方式,成功將其應(yīng)用于手寫數(shù)字識(shí)別、語音識(shí)別、基于內(nèi)容檢索等領(lǐng)域。本文在之前所得到的唇動(dòng)特征基礎(chǔ)上,提出一種簡單的分類算法,既滿足了分類的精確性,同時(shí)計(jì)算量小,實(shí)時(shí)性較好,在數(shù)據(jù)庫較大時(shí)也可以和神經(jīng)網(wǎng)絡(luò)的分類算法相結(jié)合。

        1 幀圖片提取

        在唇動(dòng)視頻中,錄像的幀率一般為30 frame/s,如果直接將視頻產(chǎn)生的所有幀圖片都作為下一步特征提取的數(shù)據(jù)庫,不僅會(huì)有大量的噪聲干擾在其中,還會(huì)有大量的數(shù)據(jù)冗余,從而會(huì)加大系統(tǒng)的計(jì)算量并影響其魯棒性與運(yùn)算的實(shí)時(shí)性,最終降低系統(tǒng)認(rèn)證的準(zhǔn)確率與效率。文獻(xiàn)[18]分析了動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping, DTW),本文給出了一種基于時(shí)間序列的動(dòng)態(tài)圖片提取算法,在相鄰的時(shí)間段里找到幀間灰度變化最大的圖片作為代表性圖片。該算法不僅可以減少計(jì)算量,同時(shí)可以增強(qiáng)整個(gè)系統(tǒng)對于說話人語速變化的魯棒性。具體實(shí)行過程如下。

        1)令唇動(dòng)視頻所產(chǎn)生的幀圖片的數(shù)量為X。

        2)如果X的數(shù)量小于20,說明說話者說話的時(shí)間小于1 s,作為認(rèn)證而言,說話長度明顯過短,提示唇動(dòng)視頻所提供的幀圖片數(shù)量過少,無法進(jìn)行認(rèn)證。

        3)如果 20≤X≤60,選取第3張圖片作為所提取的第1張幀圖片,選取倒數(shù)第3張圖片作為第12張幀圖片。A=?(X-10)/10」和B=「(X-10)/10?將依次作為選取圖片的數(shù)量間隔,每一幅幀圖片的大小為M*N,在每個(gè)間隔中,用式(1)選取所要的幀圖片:

        (1)

        其中:It(i,j)表示第t幀圖片I在點(diǎn)(i,j)處的灰度值;Pic表示在間隔內(nèi),和相鄰幀圖片比較,灰度值變化最大的圖片。

        4)如果 60

        5)如果480

        通過上述的算法,可以從唇動(dòng)視頻所產(chǎn)生的大量幀圖片中提取12張代表圖片。

        在被測試者的兩段視頻幀圖片中用上述算法提取的代表圖片如下,第一遍段視頻用正常語速說“你好”,第二遍張大嘴巴放慢語速復(fù)述。

        從圖1中可以看出在語速和不同口型的情況下,所提取的12張圖片其對應(yīng)的序列及口型都有很強(qiáng)的相似性與代表性。該算法對于說話者語速的變化和口型大小的改變都有很強(qiáng)的魯棒性,并能夠?yàn)楹竺嫣卣鞯奶崛〈蛳铝己玫幕A(chǔ)。

        圖1 視頻代表圖片

        2 基于SIFT算法的特征提取和匹配模型

        SIFT算法第一次由Lowe[19]提出,是一種廣泛應(yīng)用于圖像處理的算法,具有良好的尺度不變性和對旋轉(zhuǎn)的抵抗性。Bakshi等[20]曾將SIFT算法用在唇印的認(rèn)證與對比中,并取得了很好的效果。

        SIFT算法所提出的關(guān)鍵點(diǎn)的描述方式,作為一種局部特征,對于光照、旋轉(zhuǎn)、噪聲與尺度的變化都不敏感,因此在這基礎(chǔ)上進(jìn)行物體的認(rèn)證和識(shí)別,都具有很強(qiáng)的抗干擾性和針對性。這種局部特征檢測算法概括地講,就是通過在不同的尺度空間中得到關(guān)鍵點(diǎn)描述子,再對關(guān)鍵點(diǎn)進(jìn)行匹配的方法,SIFT算法的流程如圖2所示。

        圖2 SIFT算法流程

        2.1 基于SIFT的目標(biāo)匹配與認(rèn)證

        從圖3、4中可以看出,經(jīng)過參數(shù)的調(diào)整后,SIFT算法所提取的關(guān)鍵點(diǎn)個(gè)數(shù)明顯變多,但是在唇部輪廓變化較大的情況下,誤匹配點(diǎn)的個(gè)數(shù)也有所增加。因此在后面的特征提取中增加了消除重復(fù)關(guān)鍵點(diǎn)和PCA降維的步驟。圖5展現(xiàn)的是不同人不同尺寸的圖片的SIFT匹配結(jié)果,可以看到兩幅圖片的匹配點(diǎn)數(shù)明顯減少且明顯存在匹配錯(cuò)誤點(diǎn)。

        圖3 測試者未經(jīng)參數(shù)調(diào)整的SIFT匹配示例圖

        圖4 測試者經(jīng)參數(shù)調(diào)整后的SIFT匹配示例圖

        圖5 經(jīng)參數(shù)調(diào)整后的不同人唇部圖片SIFT匹配示例圖

        綜合實(shí)驗(yàn)結(jié)果可以看出不同的人的唇部無論出于何種口型,能夠匹配的關(guān)鍵點(diǎn)個(gè)數(shù)遠(yuǎn)少于同一個(gè)人的唇部所能匹配的關(guān)鍵點(diǎn)的個(gè)數(shù)。因此,將采用測試樣本與數(shù)據(jù)庫樣本的關(guān)鍵點(diǎn)匹配個(gè)數(shù)的比值作為判斷是否為同一個(gè)人的有效依據(jù)。

        如圖6所示,用已提到過的幀圖片提取算法將數(shù)據(jù)庫中所存放的同一個(gè)人所說同一句話(比如說了3遍)的12幅幀圖片一一進(jìn)行SIFT匹配,共可以匹配3次,將匹配點(diǎn)的個(gè)數(shù)求平均值得到A1,A2,…,A12,將其存儲(chǔ)起來。然后將測試樣本與數(shù)據(jù)庫中的任意樣本進(jìn)行SIFT匹配,得到匹配點(diǎn)的個(gè)數(shù)B1,B2,…,B12。設(shè)置閾值θ=0.4,i=1, 2,…,12。如果Bi/Ai<θ,則計(jì)數(shù)標(biāo)志flag+1,為了防止系統(tǒng)的誤判斷并降低噪聲圖片帶來的干擾,設(shè)置當(dāng)flag的值大于2時(shí),判定為不是用戶本人。通過調(diào)節(jié)閾值θ的大小,可以調(diào)整錯(cuò)誤拒絕率和錯(cuò)誤接受率的大小。θ值越大錯(cuò)誤接受率越小但錯(cuò)誤拒絕率越大,θ值越小錯(cuò)誤接受率越大但錯(cuò)誤拒絕率越小。

        圖6 目標(biāo)匹配原理

        2.2 基于SIFT的新的特征提取算法

        如圖7所示,首先對數(shù)據(jù)庫中的樣本(即12幅幀圖片)相鄰的圖片進(jìn)行SIFT匹配,得到匹配的關(guān)鍵點(diǎn)。提出的特征提取算法就是在這些關(guān)鍵點(diǎn)的基礎(chǔ)上得到的。

        圖7 相鄰序列間匹配關(guān)鍵點(diǎn)

        具體的特征提取算法如下。

        1)對于任意兩幀圖片之間匹配得到的關(guān)鍵點(diǎn)P1,P2:

        用式(2)來計(jì)算關(guān)鍵點(diǎn)P1,P2的運(yùn)動(dòng)矢量幅值:

        (2)

        其中:(ip1,jp1)為關(guān)鍵點(diǎn)P1的坐標(biāo)位置;(ip2,jp2)為關(guān)鍵點(diǎn)P2的位置坐標(biāo)。

        用式(3)來計(jì)算關(guān)鍵點(diǎn)P1,P2的運(yùn)動(dòng)矢量的方向:

        f2=tan-1[(jp1-jp2)/(ip1-ip2)]

        (3)

        對于每一對匹配的關(guān)鍵點(diǎn),通過這種方式可以得到二維的特征向量F=(f1,f2)。

        2)對于圖像中每一個(gè)關(guān)鍵點(diǎn),選取4×4的窗口,如圖8所示。圖8中每一個(gè)小方格代表著一個(gè)像素點(diǎn),圓點(diǎn)代表所得到的關(guān)鍵點(diǎn)的位置,其周圍4×4的像素點(diǎn)的運(yùn)動(dòng)特征矢量方向由箭頭所表示,該矢量幅值的大小表示其矢量的大小。最后將計(jì)算所得到16個(gè)矢量歸類統(tǒng)計(jì)到8個(gè)主要的方向上去,作為最后得到的8維特征向量。具體的計(jì)算方法由式(4)和(5)給出:

        梯度幅值:

        m(x,y)=

        (4)

        其中L(x,y)表示在點(diǎn)(x,y)處的灰度值。

        梯度方向:

        (5)

        通過上述的算法,可以得到8維的特征向量R。

        圖8 關(guān)鍵點(diǎn)周圍運(yùn)動(dòng)矢量特征圖

        3) 對于圖像中每對匹配的關(guān)鍵點(diǎn),選取4×4的窗口,對4×4窗口中對應(yīng)位置的灰度值做差取絕對值,然后將這16個(gè)值求和,如圖9所示。

        即:

        (6)

        其中I1和I2分別代表相鄰的兩幅幀圖片中對應(yīng)點(diǎn)的灰度值。

        圖9 對應(yīng)位置的灰度差絕對值

        4)綜上所述,對于每一個(gè)匹配的關(guān)鍵點(diǎn),可以得到一個(gè)11維的特征向量T={F,R,G}。這11維向量中包含了唇部的運(yùn)動(dòng)信息F,唇部周圍的紋理信息R,以及灰度的變化信息G。假設(shè)最終得到的匹配點(diǎn)個(gè)數(shù)為n,對最終得到的特征矩陣M采用PCA降維到11維,得到11維特征向量Z。Z特征比LBP等常見的紋理信息具有更強(qiáng)的針對性和規(guī)律性,比Snake算法所提取的輪廓特征具有更少的模型依賴性和更強(qiáng)的魯棒性。

        圖10所展示的是兩名測試者說同一段話所提取的特征矢量的曲線圖。灰度變化累計(jì)值的值較大,為了能看出其變化趨勢,在曲線圖中只畫出特征F和特征R。

        從圖10中可以看出,本文所提出的這種特征提取方法能夠很好地表征說話人的說話特征,具有很強(qiáng)個(gè)人特征以及區(qū)別性,可以很容易地進(jìn)行分類。

        2.3 基于所提取特征的分類算法

        以往的分類方法,由于得到的圖像特征并不明顯,因此常用SVM、神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型等算法對其進(jìn)行分類,這些算法需要較大的數(shù)據(jù)庫來訓(xùn)練,同時(shí)運(yùn)算量大,計(jì)算起來十分復(fù)雜。根據(jù)前面所得到的特征,本文通過簡單的比較方法進(jìn)行二分類,也能得到很好的實(shí)驗(yàn)效果。具體的實(shí)現(xiàn)方法如下:

        1)通過式(7)得到數(shù)據(jù)庫中唇動(dòng)視頻中所提取的唇動(dòng)特征的平均值:

        (7)

        2)再用相同的方法將測試樣本的唇動(dòng)特征Z提取出來;

        3)設(shè)置閾值θ1,θ2,其中θ2=1/θ1。θ1的值越大越大錯(cuò)誤接受率越小但錯(cuò)誤拒絕率越大。本文中θ1取0.7,θ2取1.42。

        令t=z/zmean如果t<θ1或者t>θ2,則令計(jì)數(shù)標(biāo)志flag+1,為了防止誤判斷,flag的值大于2時(shí),則判斷該用戶所說的不是這段話。

        圖10 不同測試者說同一段話的特征值曲線

        2.4 說話者唇部特征識(shí)別流程

        進(jìn)行說話者唇部特征識(shí)別的流程如圖11所示。首先對數(shù)據(jù)庫樣本進(jìn)行人臉定位與唇部定位,然后進(jìn)行幀圖片的選取,對選取的幀圖片進(jìn)行SIFT匹配,在此基礎(chǔ)上,提取特征并記錄匹配結(jié)果。對測試樣本采用同樣的步驟,最終根據(jù)本文提出的驗(yàn)證與分類方法,將輸出結(jié)果與數(shù)據(jù)庫中的結(jié)果比較,得出判定結(jié)果。

        圖11 說話者唇動(dòng)識(shí)別示意圖

        3 說話者唇部特征識(shí)別實(shí)驗(yàn)結(jié)果

        3.1 數(shù)據(jù)庫的搭建

        1) 視頻數(shù)據(jù)庫的基本參數(shù)如下:視頻格式為AVI;顏色空間為YUY2;輸出大小為640×480;視頻輸出幀率為30 frame/s。

        2) 視頻數(shù)據(jù)庫的搭建如下。

        采樣人數(shù):50人; 采樣環(huán)境:正常的日光燈照明,人臉位置相對固定,無遮掩,無大角度旋轉(zhuǎn),無模糊、胡須,光照角度變化等復(fù)雜條件設(shè)置;采樣過程:接受采樣的樣本,分別以正常語速重復(fù)短句“你好”,以及數(shù)字1~9等不同的長短句各4遍,再分別以較慢語速張大口型的情況重復(fù)各4遍。

        3.2 實(shí)驗(yàn)結(jié)果

        表1展示了本實(shí)驗(yàn)在不同唇動(dòng)視頻中獲得的Z特征的錯(cuò)誤接受率(False Acceptance Rate, FAR)和錯(cuò)誤拒絕率(False Rejection Rate, FRR),以及在相同條件下LBP和HOG特征的FAR和FRR值。圖12展示本文算法在不同的θ和θ1值時(shí),F(xiàn)AR和FRR值的變化情況。

        表1 三種特征得到的FAR和FRR

        4 結(jié)語

        本文介紹了一種針對動(dòng)態(tài)視頻所產(chǎn)生的幀圖片的提取算法。這種算法可以增強(qiáng)對于語速變化、口型大小變化以及照明變化的魯棒性。SIFT算法被引進(jìn)到了說話者唇動(dòng)識(shí)別中,在參數(shù)調(diào)整后有很好的表現(xiàn)。在SIFT算法的基礎(chǔ)上提出了一種新的唇動(dòng)特征提取方法,這種方法既包含紋理特征又包含運(yùn)動(dòng)特征,可以準(zhǔn)確地描述說話人唇動(dòng)的一系列特征。最后,在匹配點(diǎn)與所提取的特征的基礎(chǔ)上,分別提出了一種驗(yàn)證與分類的算法,方法簡單,計(jì)算量小,與常用的LBP和HOG特征相比較可以得到更為準(zhǔn)確和有效的結(jié)果,實(shí)現(xiàn)說話人的唇部特征識(shí)別。在后面的實(shí)驗(yàn)中可以添加圖像預(yù)處理的算法,將多種特征提取方法相結(jié)合以及引入神經(jīng)網(wǎng)絡(luò)來增強(qiáng)系統(tǒng)的穩(wěn)定性和適應(yīng)性。

        圖12 本文算法不同θ和θ1值時(shí)的FAR和FRR曲線

        References)

        [1] KANAK A, ERZIN E, YEMEZ Y, et al. Joint audio-video processing for biometric speaker identification [C]// Proceedings of the 2003 IEEE International Conference on Multimedia and Expo. Washington, DC: IEEE Computer Society, 2003, 3: 561-564.

        [2] CETINGUL H E, YEMEZ Y, ERZIN E, et al. Discriminative analysis of lip motion features for speaker identification and speech-reading [J]. IEEE Transactions on Image Processing, 2006, 15(10): 2879-2891.

        [3] YANG G, HUANG T S. Human face detection in complex background [J]. Pattern Recognition, 1994, 27(1): 53-63.

        [4] KOUZANI A Z, HE F, SAMMUT K. Commonsense knowledge-based face detection [C]// Proceedings of the 1997 IEEE International Conference on Intelligent Engineering Systems. Piscataway, NJ: IEEE, 2002: 215-220.

        [5] SIROHEY S A. Human face segmentation and identification [EB/OL]. [2017- 01- 09]. https://www.researchgate.net/publication/2698964_Human_Face_Segmentation_and_Identification.

        [6] MIAO J, YIN B, WANG K, et al. A hierachical multiscale and multiangle system for human face detection in a complex background using gravity-center template [J]. Pattern Recognition, 1999, 32(10): 1237-1248.

        [7] 梁路宏,艾海舟,何克忠,等.基于多關(guān)聯(lián)模板匹配的人臉檢測[J].軟件學(xué)報(bào),2001,12(1):94-102.(LIANG L H, AI H Z, HE K Z, et al. Face detection based on multi-association template matching [J]. Journal of Software, 2001, 12(1): 94-102.)

        [8] GRITZMAN A D, RUBIN D M, PANTANOWITZ A, et al. Comparison of colour transforms used in lip segmentation algorithms [J]. Signal, Image and Video Processing, 2015, 9(4): 947-957.

        [9] NEERU N, KAUR L. Modified SIFT descriptors for face recognition under different emotions [EB/OL]. [2016- 12- 09]. https://www.researchgate.net/publication/294279428_Modified_SIFT_Descriptors_for_Face_Recognition_under_Different_Emotions.

        [10] KIRCHNER M R. Automatic thresholding of SIFT descriptors [C]// Proceedings of the 2016 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2016: 291-295.

        [11] 許佳佳,張葉,張赫.基于改進(jìn)Harris-SIFT算子的快速圖像配準(zhǔn)算法[J].電子測量與儀器學(xué)報(bào),2015,29(1):48-54.(XU J J, ZHANG Y, ZHANG H. Fast image registration algorithm based on improved Harris-SIFT descriptor [J]. Journal of Electronic Measurement and Instrumentation, 2015, 29(1): 48-54.

        [12] AHONEN T, HADID A, PIETIKAINEN M. Face recognition with local binary patterns [C]// European Conference on Computer Vision, LNCS 3021. Berlin: Springer, 2004: 469-481.

        [13] KASS M, WITKIN A, TERZOPOULOS D. Snakes: active contour model [EB/OL]. [2016- 12- 06]. http://webdocs.cs.ualberta.ca/~nray1/CMPUT617/Snake/kass_snake.pdf.

        [14] SINGH P, LAXMI V, GAUR M S. Speaker identification using optimal lip biometrics [C]// Proceedings of the 2012 5th IAPR International Conference on Biometrics. Piscataway, NJ: IEEE, 2012: 472-477.

        [15] SAEED U. Person identification using behavioral features from lip motion [C]// IEEE International Conference on Automatic Face & Gesture Recognition & Workshops. Piscataway, NJ: IEEE, 2011: 155-160.

        [16] YANG J, YU K, GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1794-1801.

        [17] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [2016- 11- 27]. http://www.cs.toronto.edu/~hinton/absps/imagenet.pdf?WT.mc_id=Blog_MachLearn_General_DI.

        [18] 楊潔,康寧.動(dòng)態(tài)時(shí)間規(guī)整DTW算法的研究[J].科技與創(chuàng)新,2016(4):11-12.(YANG J, KANG N. Research on dynamic time regular DTW algorithm [J]. Science and Technology & Innovation, 2016(4): 11-12.)

        [19] LOWE D G. Distinctive image features from scale-invarient keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

        [20] BAKSHI S, RAMAN R, SA P K. Lip pattern recognition based on local feature extraction [C]// Proceedings of the 2011 Annual IEEE India Conference. Piscataway, NJ: IEEE, 2012: 1-4.

        LipmotionrecognitionofspeakerbasedonSIFT

        MA Xinjun, WU Chenchen*, ZHONG Qianyuan, LI Yuanyuan

        (CollegeofMechanicalEngineeringandAutomation,HarbinInstituteofTechnology(Shenzhen),ShenzhenGuangdong518055,China)

        Aiming at the problem that the lip feature dimension is too high and sensitive to the scale space, a technique based on the Scale-Invariant Feature Transform (SIFT) algorithm was proposed to carry out the speaker authentication. Firstly, a simple video frame image neat algorithm was proposed to adjust the length of the lip video to the same length, and the representative lip motion pictures were extracted. Then, a new algorithm based on key points of SIFT was proposed to extract the texture and motion features. After the integration of Principal Component Analysis (PCA) algorithm, the typical lip motion features were obtained for authentication. Finally, a simple classification algorithm was presented according to the obtained features. The experimental results show that compared to the common Local Binary Pattern (LBP) feature and the Histogram of Oriental Gradient (HOG) feature, the False Acceptance Rate (FAR) and False Rejection Rate (FRR) of the proposed feature extraction algorithm are better, which proves that the whole speaker lip motion recognition algorithm is effective and can get the ideal results.

        lip feature; Scale-Invariant Feature Transform (SIFT); feature extraction; speaker authentication

        2017- 03- 09;

        2017- 05- 24。

        國家自然科學(xué)基金資助項(xiàng)目(51677035);深圳市基礎(chǔ)研究項(xiàng)目(JCYJ20150513151706580);深圳市科技計(jì)劃項(xiàng)目(GRCK2016082611021550)。

        馬新軍(1972—),男,新疆石河子人,副教授,博士,主要研究方向:圖像處理及模式識(shí)別、智能汽車及智能駕駛、生物識(shí)別; 吳晨晨(1993—),女,河南濮陽人,碩士研究生,主要研究方向:模式識(shí)別; 仲乾元(1990—),男,江蘇徐州人,碩士研究生,主要研究方向:模式識(shí)別; 李園園(1993—),女,河南許昌人,碩士研究生,主要研究方向:模式識(shí)別。

        1001- 9081(2017)09- 2694- 06

        10.11772/j.issn.1001- 9081.2017.09.2694

        TP391.41

        A

        This work is partially supported by the National Natural Science Foundation of China (51677035), the Fundamental Research Project of Shenzhen (JCYJ20150513151706580), the Science and Technology Plan Project of Shenzhen (GRCK2016082611021550).

        MAXinjun, born in 1972, Ph. D., associate professor. His research interests include image processing and pattern recognition, intelligent vehicle and intelligent driving, biological identification.

        WUChenchen, born in 1993, M. S. candidate. Her research interests include pattern recognition.

        ZHONGQianyuan, born in 1990, M. S. candidate. His research interests include pattern recognition.

        LIYuanyuan, born in 1993, M. S. candidate. Her research interests include pattern recognition.

        猜你喜歡
        唇部關(guān)鍵點(diǎn)人臉
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        有特點(diǎn)的人臉
        唇部美人計(jì)
        三國漫——人臉解鎖
        嬰幼兒唇部血管瘤的臨床分型和治療探討
        馬面部與人臉相似度驚人
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        長得象人臉的十種動(dòng)物
        奇聞怪事(2014年5期)2014-05-13 21:43:01
        鎖定兩個(gè)關(guān)鍵點(diǎn)——我這樣教《送考》
        无码a级毛片免费视频内谢| 中文字幕无线码| 日本三级欧美三级人妇视频| 一区二区视频观看在线| 少妇性l交大片免费1一少| 狠狠色噜噜狠狠狠狠97首创麻豆| 四虎国产精品免费久久| 无码日韩人妻AV一区免费| 女同久久精品国产99国产精| 变态另类人妖一区二区三区 | 国产亚洲视频在线播放| 国内露脸少妇精品视频| 国产精品嫩草影院午夜| av在线网站一区二区| 老熟女的中文字幕欲望 | av人摸人人人澡人人超碰下载| 久久综合精品国产二区无码| 日韩欧美国产自由二区| 国产偷国产偷亚洲高清| 少妇高潮惨叫久久久久电影69| 欧美人与动人物姣配xxxx| 日韩免费高清视频网站| 91精品人妻一区二区三区水蜜桃| 97碰碰碰人妻无码视频| 99re6热在线精品视频播放6| 亚洲中文字幕有综合久久| 三级黄色片免费久久久| 免费观看又色又爽又黄的| 日韩精品成人无码AV片| 五月婷婷开心五月播五月| 户外精品一区二区三区| 亚洲看片lutube在线观看| 国产乱子伦一区二区三区| 99亚洲乱人伦精品| 国内精品国产三级国产| 国产人妻鲁鲁一区二区| 久久无码人妻精品一区二区三区| 国产性一交一乱一伦一色一情 | 亚洲无码观看a| 91视色国内揄拍国内精品人妻 | 两个黑人大战嫩白金发美女|