魯遠(yuǎn)耀,周騰鶴,閆 捷
(北方工業(yè)大學(xué)電子信息工程學(xué)院 北京 石景山區(qū) 100144)
唇語(yǔ)識(shí)別(lip reading)是近年來(lái)模式識(shí)別和人工智能領(lǐng)域的熱門(mén)研究問(wèn)題,是聲學(xué)和圖像圖形學(xué)的交叉學(xué)科。該技術(shù)涉及嘴唇區(qū)域定位、跟蹤、特征提取、音素建模和目標(biāo)識(shí)別等關(guān)鍵技術(shù)。由于圖像序列中嘴唇區(qū)域相對(duì)位置不固定,現(xiàn)有的技術(shù)方法尚不能同時(shí)在嘴唇區(qū)域的精確分割和實(shí)時(shí)性方面同時(shí)獲得滿意結(jié)果。在唇語(yǔ)識(shí)別系統(tǒng)中,最為基礎(chǔ)和關(guān)鍵的步驟是實(shí)現(xiàn)嘴唇區(qū)域分割,即利用精確的圖像分割技術(shù)界定變化的嘴唇輪廓,進(jìn)而挖掘人在說(shuō)話時(shí)的唇動(dòng)(lip movement)特征,實(shí)現(xiàn)利用視覺(jué)信息實(shí)現(xiàn)話語(yǔ)內(nèi)容的識(shí)別。
文獻(xiàn)中現(xiàn)有的嘴唇區(qū)域分割算法可以大致分為3類(lèi):基于像素的方法、基于模型的方法和基于統(tǒng)計(jì)的方法?;谙袼氐姆椒ɡ米齑絽^(qū)域的灰度圖像來(lái)獲得特征向量,或?qū)D像轉(zhuǎn)換為其他顏色空間并采用PCA(principal component analysis)、LDA (linear discriminant analysis)等實(shí)現(xiàn)特征提取[1-4]?;谀P偷姆椒ń栌靡欢ǖ膸缀文P蛠?lái)確定嘴唇的內(nèi)外輪廓,并借用少量參數(shù)來(lái)表征該輪廓[5-7]。基于統(tǒng)計(jì)的方法發(fā)掘特征空間中的數(shù)據(jù)分布特征和相鄰像素之間的空間相互作用關(guān)系來(lái)進(jìn)行圖像分割,為嘴唇分割提供了一種新穎方法[8],如利用空間限制的馬爾可夫隨機(jī)場(chǎng)圖像分割技術(shù)[9-10]。
早期嘴唇區(qū)域分割通常通過(guò)相機(jī)來(lái)直接捕獲嘴部區(qū)域或手動(dòng)標(biāo)定唇部區(qū)域來(lái)實(shí)現(xiàn)[11]。然而,這并不是理想的分割方法,本文研究的最終目標(biāo)是要在變化的條件下(例如變化的光照,不同的膚色或非特定人的說(shuō)話者等)自動(dòng)地定位和追蹤嘴唇。到目前為止,已經(jīng)有許多研究者從事研究相關(guān)工作。文獻(xiàn)[12]通過(guò)使用紅色排除法在一系列圖像上識(shí)別嘴唇來(lái)找到嘴角,得到了較準(zhǔn)確的結(jié)果。文獻(xiàn)[13-14]利用基于模糊聚類(lèi)的算法在有胡須的情況下分割嘴唇區(qū)域。文獻(xiàn)[15]采用自上而下主動(dòng)形狀模型來(lái)發(fā)現(xiàn)并跟蹤內(nèi)外唇輪廓。然而以上的分割方法在實(shí)際的分割過(guò)程中會(huì)出現(xiàn)一塊塊的、彼此不相互連通的小區(qū)域被分割出來(lái),在顏色對(duì)比度較低的情況下,嘴唇邊緣輪廓并不十分明顯,此時(shí)分割的準(zhǔn)確率和魯棒性有待提高。
本文提出一種新的基于局部模型校準(zhǔn)的馬爾科夫隨機(jī)場(chǎng)的嘴唇分割方法,考慮了局部空間的約束,使得分割在各自局部模型中獨(dú)立進(jìn)行。采用Kullback-Leiller距離來(lái)評(píng)估相鄰局部模型的一致性,提出了有助于校準(zhǔn)其參數(shù)的模型校正標(biāo)準(zhǔn)。通過(guò)實(shí)驗(yàn)與現(xiàn)有的MCM算法比較,證明該方法擁有良好的分割準(zhǔn)確性。
馬爾科夫隨機(jī)場(chǎng)理論提供了一種方便且穩(wěn)健的方法來(lái)建模諸如圖像像素或相關(guān)特征的環(huán)境實(shí)體。該模型的應(yīng)用主要是基于馬爾科夫隨機(jī)場(chǎng)和吉布斯分布之間的等價(jià)性定理,該定理在1971年被提出并于1974年進(jìn)一步發(fā)展而來(lái)。如今馬爾科夫隨機(jī)場(chǎng)已被廣泛用于解決各個(gè)層面的視覺(jué)問(wèn)題。
目前已有許多研究人員提出了幾種估計(jì)標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)馬爾科夫隨機(jī)場(chǎng)模型的最佳估計(jì)。其中,最大后驗(yàn)估計(jì)(maximum a posterior, MAP)是最常用的最佳分割標(biāo)準(zhǔn),并且表現(xiàn)出較高性能。結(jié)合標(biāo)記場(chǎng)的先驗(yàn)分布和觀察隨機(jī)場(chǎng)的條件分布的知識(shí)可知,最大后驗(yàn)估計(jì)的本質(zhì)是找到最大后驗(yàn)概率的解f?,可表示為:
對(duì)于一幅擁有常規(guī)點(diǎn)陣的圖像,它的坐標(biāo)集由S=[1,2,…,s]表示,鄰域系統(tǒng)表示為N,根據(jù)Hammersley-Clifford定理,如果作用在S上的隨機(jī)場(chǎng)X服從吉布斯分布,則它一定也是一個(gè)馬爾科夫隨機(jī)場(chǎng)。該理論將馬爾科夫隨機(jī)場(chǎng)與吉布斯分布(Gibbs distribution)結(jié)合在一起。先驗(yàn)概率 ()P f被定義為:
式中,Z為歸一化常數(shù);U(f)是先驗(yàn)?zāi)芰亢瘮?shù)(energy function),是基團(tuán)勢(shì)能Vc(f)之和,可表示為:
式中,C是在S范圍內(nèi)的所有基團(tuán)的集合。
對(duì)于給定的分割標(biāo)簽,觀察值應(yīng)是獨(dú)立且隨機(jī)的。類(lèi)似地,本文如式(2)一樣定義條件概率P(x|f):
式中,U(x|f)是反映觀察值與標(biāo)簽值之間相干關(guān)系的條件能量函數(shù)。在大多數(shù)情況下,假設(shè)觀測(cè)數(shù)據(jù)的條件概率分布服從高斯分布是合理的,因此U(x|f)可以表示為:
式中,μl和σl2分別表示每個(gè)標(biāo)記觀察變量的均值和方差。
系統(tǒng)能量函數(shù)定義如下:
分割結(jié)果為可使能量函數(shù)最小化的標(biāo)記結(jié)果f?:
圖1 馬爾科夫隨機(jī)場(chǎng)模型流程圖
根據(jù)馬爾科夫隨機(jī)場(chǎng)理論,像素之間的相互作用通常被限制在鄰域系統(tǒng)中,并且遠(yuǎn)離輪廓線的像素是不相關(guān)的,這可能導(dǎo)致錯(cuò)誤的分割。從這個(gè)觀點(diǎn)來(lái)看,本文使用局部化的方法實(shí)現(xiàn)分割,有助于避免圖像噪聲或其他干擾因素的干擾。比如陰影下的鼻孔。因此,本文建議使用馬爾科夫隨機(jī)場(chǎng)模型來(lái)實(shí)現(xiàn)特定局部區(qū)域內(nèi)的分割,并且沿著初始輪廓定義該局部區(qū)域的質(zhì)心。
使用馬爾科夫隨機(jī)場(chǎng)模型的嘴唇輪廓分割的整個(gè)過(guò)程如圖1所示。第一步是將包含嘴的圖像即感興趣的區(qū)域變換到指定的色彩空間;然后初始化橢圓輪廓和局部半徑;再指定分割總類(lèi)數(shù)以及最大迭代次數(shù)。為了使局部分割結(jié)果平滑地結(jié)合在一起,后面的兩步是為了進(jìn)行模型檢驗(yàn)和模型校準(zhǔn),此時(shí)迭代將繼續(xù),直到收斂。最后,在局部結(jié)果穩(wěn)定之后,本文結(jié)合局部馬爾科夫隨機(jī)場(chǎng)模型以形成全局分割結(jié)果。
為了驗(yàn)證不同光照條件下的魯棒性,本文提出將嘴唇區(qū)域圖像從RGB色彩空間轉(zhuǎn)換為L(zhǎng)UX(對(duì)數(shù)色調(diào)擴(kuò)展)色彩空間。如文獻(xiàn)[16]證明的,LUX空間中的對(duì)數(shù)化色彩分量U能夠?yàn)榇讲繀^(qū)域提供足夠的對(duì)比度,區(qū)分唇部和周?chē)つw之間的像素。變換方程如下:
式中,M為圖像的最大灰度值,即M=256。
完成色彩空間轉(zhuǎn)換之后,該模型需要一個(gè)圍繞嘴唇輪廓初始化的封閉曲線。根據(jù)觀察和研究,嘴唇是包含在一個(gè)橢圓框架內(nèi)的。因此,基于嘴唇的特殊結(jié)構(gòu),本文采用橢圓輪廓模型來(lái)逼近嘴唇輪廓。
橢圓輪廓的參數(shù)的中心坐標(biāo)(xc, yc)、長(zhǎng)軸和短軸對(duì)輪廓初始化至關(guān)重要。這些參數(shù)的確定直接影響分割過(guò)程的效率。本文使用對(duì)數(shù)化顏色分量U用于定位唇部區(qū)域在上、下、左、右4個(gè)方向的端點(diǎn)。
假設(shè)圖像像素有m行n列。每行的平均值和標(biāo)準(zhǔn)差分別為meani和stdi,每列的平均值和標(biāo)準(zhǔn)差分別為meanj和stdj,計(jì)算如下:
式中,U(i,j)表示圖像在坐標(biāo)(i,j)處的觀測(cè)值。設(shè)(xc,yc)為橢圓的中心,A為橢圓的長(zhǎng)軸值,B為短軸值,可通過(guò)如下等式計(jì)算:
式中,yU和yD分別表示標(biāo)準(zhǔn)差stdi在頂部和底部變化最顯著的位置;Lx和Rx分別表示標(biāo)準(zhǔn)差stdi在左邊和右邊變化最顯著的位置。
橢圓可以表示為:
獲得橢圓輪廓后,沿著曲線定義局部區(qū)域。在局部模型中,引入窗口函數(shù)β(x1,x2)定義馬爾科夫隨機(jī)場(chǎng)的局部區(qū)域范圍。由半徑參數(shù)r約束的窗口函數(shù)的表達(dá)式為:
式中,x1,x2是模型中的像素。局部馬爾科夫隨機(jī)場(chǎng)模型如圖2所示,局部區(qū)域即位于虛線以內(nèi)。
圖2 局部馬爾科夫隨機(jī)場(chǎng)模型
MRF方法是基于此局部區(qū)域進(jìn)行的分割。假設(shè)局部區(qū)域坐標(biāo)集合為SL,CL是SL范圍內(nèi)的所有基團(tuán)的集合,則局部區(qū)域的先驗(yàn)?zāi)芰亢瘮?shù)與基團(tuán)勢(shì)能可分別表示為:
式中,是局部區(qū)域內(nèi)的先驗(yàn)?zāi)芰亢瘮?shù);是局部區(qū)域的基團(tuán)勢(shì)能表示條件能量函數(shù);μ和σ2是局部區(qū)域內(nèi)每個(gè)標(biāo)記觀察變量的均值和方差;表示可以使能量函數(shù)最小化的最終分割結(jié)果,這里
為了使局部MRF模型與其鄰域的分割結(jié)果相協(xié)調(diào),本文提出了一種可實(shí)現(xiàn)模型檢驗(yàn)和模型校準(zhǔn)的算法。首先需要為局部MRF定義鄰域系統(tǒng),將此鄰域系統(tǒng)表示為NS(M),M是局部MRF模型,通過(guò)下式計(jì)算出相對(duì)應(yīng)k的平均值及方差:
式中,;t表示類(lèi)數(shù);c和c'是局部模型與其鄰區(qū)的中心;d(c,c′)表示c和c'之間的歐氏距離;對(duì)應(yīng)相應(yīng)的均值和方差。
其次,KL距離Dk用來(lái)衡量第k類(lèi)分割的兩個(gè)局部MRF模型之間的差異,有:
經(jīng)校準(zhǔn)后的平均值標(biāo)記為,根據(jù)下式計(jì)算:
式中,κ∈ [ 0,1]。定義兩個(gè)閾值Tk與Tr(Tk<Tr)用于模型校準(zhǔn),如下所示:
如果Dk≤Tk,局部模型的參數(shù)不需要調(diào)整,因此κ=0。
如果Dk>Tk,局部模型需要調(diào)整,使參數(shù)κ=1。
如果Tk<Dk<Tr,κ= (Dk-Tk)/(Tr-Tk)。
為了驗(yàn)證該方法的有效性,本文使用了的公開(kāi)可用的CUAVE數(shù)據(jù)庫(kù)[17],該數(shù)據(jù)庫(kù)由克萊姆森大學(xué)提供使用。人臉區(qū)域的位置可由OpenCV技術(shù)檢測(cè)。
OpenCV是一種基于開(kāi)源協(xié)議BSD((Berkeley software distribution)許可發(fā)行的跨平臺(tái)計(jì)算機(jī)視覺(jué)庫(kù)。它提供了很多分類(lèi)、聚類(lèi)的算法,在人臉檢測(cè)的問(wèn)題中主要是利用它的機(jī)器學(xué)習(xí)模塊(ml)中關(guān)于Boosting算法中的一個(gè)應(yīng)用,即Haar分類(lèi)器進(jìn)行人臉特征的檢測(cè)。
人臉區(qū)域的檢測(cè)和定位的具體步驟如下:
1) 選取OpenCV中“haarcsacade-frontface-alt.xml”,將檢測(cè)目標(biāo)的分類(lèi)信息用該文件保存,之后使用cvLoad函數(shù)將該文件加載,再對(duì)圖片格式的類(lèi)型進(jìn)行轉(zhuǎn)換;
2) 選取OpenCV中專門(mén)用來(lái)檢測(cè)圖像中是否包含目標(biāo)的cvHaarDetectObjects函數(shù),調(diào)用該函數(shù),可將人臉區(qū)域位置由矩形標(biāo)定出;
3) 選取cvHect變量,將步驟2)中標(biāo)定的人臉區(qū)域返回并保存至cvHect變量中,完成人臉檢測(cè)。
包含嘴唇的區(qū)域可由人臉比例計(jì)算出來(lái),實(shí)驗(yàn)中,本文認(rèn)定嘴唇區(qū)域位于的人臉區(qū)域內(nèi),其中Wface代表人臉的寬度,Hface代表人臉的高度,這兩個(gè)參數(shù)可由OpenCV技術(shù)直接檢測(cè)得到。從圖3中可看出,只要在人臉能夠準(zhǔn)確定位的前提下,該方法在定位嘴唇方面切實(shí)可行。
圖3 嘴唇區(qū)域
在此基礎(chǔ)上,選取了同一個(gè)人說(shuō)話時(shí)的4種不同口型,運(yùn)用本文提出的方法進(jìn)行嘴唇分割,得到的結(jié)果如圖4所示。
從圖4中可以觀察到,局部MRF模型分割結(jié)果明顯優(yōu)于傳統(tǒng)的MRF模型,特別是最后一種情況,傳統(tǒng)MRF模型幾乎不能對(duì)唇部形成有效的分割,而本文提出的模型則表現(xiàn)出了優(yōu)良性能。
圖4 分割結(jié)果
為了定量研究本文算法的分割性能,本文采用廣泛使用的重疊(overlap,OL)率和分割誤差(segmentation error, SE)率[18]來(lái)評(píng)測(cè)分割效果,OL和SE分別為:
式中,OL為測(cè)算本文算法所得嘴唇區(qū)域A1與真實(shí)的嘴唇區(qū)域A2之間的重疊率;SE為測(cè)算誤分割百分比;OLE表示唇外分割錯(cuò)誤;ILE表示唇內(nèi)分割錯(cuò)誤。真實(shí)的嘴唇區(qū)域則由人工手工分割所得,可認(rèn)為是理想的嘴唇區(qū)域。
常規(guī)MRF分割方法應(yīng)用于嘴唇分割的效果不佳,如圖4d所示。將本文分割方法與近年提出且性能較佳的混合輪廓模型分割方法(mixed contour model,MCM)進(jìn)行比較[19],得到如表1所示的結(jié)果,其中MCM算法得到的OL平均值為87.8%,SE平均值為10.9%,本文算法得到的OL平均值為91.0%,SE平均值為7.9%??梢?jiàn)本文提出的算法在OL和SE性能指標(biāo)上均優(yōu)于MCM算法。
表1 性能比較
本文實(shí)驗(yàn)均在MATLAB上進(jìn)行,系統(tǒng)環(huán)境為英特爾酷睿i5-4200H 2.8Ghz,4GB RAM。
本文提出了一種基于局部MRF模型LUX顏色空間中的嘴唇分割方法。通過(guò)在一個(gè)橢圓輪廓的基礎(chǔ)之上,結(jié)合初始化窗口函數(shù)來(lái)指定MRF模型的局部范圍,實(shí)現(xiàn)嘴唇區(qū)域的分割。最后,提出了MRF模型的參數(shù)模型檢查和校準(zhǔn)方法。實(shí)驗(yàn)表明該方法可對(duì)唇部進(jìn)行有效的分割。
[1]LEE K D, LEE K, LEE S Y. Extraction of frame-difference features based on PCA and ICA for lip-reading[C]//IEEE International Joint Conference on Neural Networks. [S.l.]:[s.n.], 2005.
[2]NATH R, RAHMAN F S, NATH S, et al. Lip contour extraction scheme using morphological reconstruction based segmentation[C]//International Conference on Electrical Engineering and Information and Communication Technology. [S.l.]: IEEE, 2014: 1-4.
[3]YAN Li, YE Hang, WANG Yi-kai, et al. A lip localization method based on HSV transformation in smart phone environment[C]//International Conference on Signal Processing. [S.l.]: IEEE, 2014: 1285-1290.
[4]GRITZMAN A D, RUBIN D M, PANTANOWITZ A.Comparison of colour transforms used in lip segmentation algorithms[J]. Signal, Image and Video Processing, 2015,9(4): 1-11.
[5]KASS M, WITKIN A, TERZOPOULOS D. Snakes: Active contour models[J]. International Journal of Computer Vision,1988, 1(4): 321-331.
[6]NASUHA A, SARDJONO T A, PURNOMO M H. Lip Segmentation and tracking based on Chan-Vese model[C]//International Conference on Information Technology and Electrical Engineering: "Intelligent and Green Technologies for Sustainable Development". [S.l.]:ICITEE, 2013: 155-158.
[7]SUN Chen-yang, LU Hong, ZHANG Wen-qiang, et al. Lip segmentation based on facial complexion template[C]//Advances in Multimedia Information Processing. [S.l.]:Springer International Publishing, 2014.
[8]FU Jian-wen, WANG Shi-lin, LIN Xiang. Robust lip region segmentation based on competitive FCM clustering[C]//International Conference on Digital Image Computing:Techniques and Applications. [S.l.]: IEEE, 2016.
[9]YANG F, JIANG T. Pixon-based image segmentation with Markov random fields[J]. IEEE Transactions on Image Processing, 2003, 12(12): 1552-1559.
[10]CHEUNG Y M, LI M, CAO X. Lip segmentation and tracking under MAP-MRF framework with unknown segment number[J]. Neurocomputing, 2013, 104: 155-169.
[11]榮傳振, 岳振軍, 賈永興, 等. 模糊語(yǔ)言模型在唇讀系統(tǒng)中的應(yīng)用[J]. 數(shù)據(jù)采集與處理, 2012, 27(s2): 277-283.RONG Chuan-zhen, YUE Zhen-jun, JIA Yong-xing, et al.Research advances in key technology of lip-reading[J].Joumal of Data Acquisition & Processing, 2012, 27(s2):277-283.
[12]LEWIS T, POWERS D. Lip feature extraction using red exclusion[C]//Selected Papers from Pan-Sydney Workshop on Visualization. [S.l.]: [s.n.], 2002.
[13]WANG S L, LAU W H, LEUNG S H, et al. Lip segmentation with the presence of beards[C]//International Conference on Acoustics, Speech, & Signal Processing.[S.l.]: IEEE, 2004.
[14]LEUNG S, WANG S, LAU W. Lip image segmentation using fuzzy clustering incorporating an elliptic shape function[J]. IEEE Transactions on Image Processing, 2004,13(1): 51-62.
[15]MATTHEWS I, COOTES T F, BANGHAM J A.Extraction of visual features for lipreading[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002, 24(2): 198-213.
[16]LIéVIN M, LUTHON F. Nonlinear color space and spatiotemporal MRF for hierarchical segmentation of face features in video[J]. IEEE Transactions on Image Processing, 2004, 13(1): 63-71.
[17]PATTERSON E K, GURBUZ S, TUFEKCI Z, et al.CUAVE: a new audio-visual database for multimodal human-computer interface research[C]//IEEE International Conference on Acoustics, Speech & Signal Processing.[S.l.]: IEEE, 2002.
[18]LIEW W C, LEUNG S H, LAU W H. Segmentation of color lip images by spatial fuzzy clustering[J]. IEEE Transactions on Fuzzy Systems, 2003, 11(4): 542-549.
[19]STILLITTANO S, GIRONDEL V, CAPLIER A. Lip contour segmentation and tracking compliant with lip-reading application constraints[J]. Machine Vision &Applications, 2013, 24(24): 1-18.