朱錚宇 邱華愉 楊春玲 王泳?
(1.華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640;2.廣東技術(shù)師范大學(xué) 電子與信息學(xué)院,廣東 廣州 510665)
語(yǔ)音唇動(dòng)一致性判決是通過(guò)發(fā)音過(guò)程中唇部運(yùn)動(dòng)與音頻變化之間的聯(lián)系來(lái)判斷音視頻是否同時(shí)錄制、是否出自同一人、是否為同一句話。這是多模態(tài)信號(hào)處理領(lǐng)域的研究熱點(diǎn),在多說(shuō)話人視頻中的當(dāng)前說(shuō)話人定位[1]、身份認(rèn)證中的活體檢測(cè)[2]、人眼注意機(jī)制中的顯著性區(qū)域檢測(cè)[3]等方面有著廣泛的應(yīng)用。
當(dāng)前,音唇一致性判決的方法主要有4類(lèi):互信息法(Mutual Information,MI)[4]、多元統(tǒng)計(jì)分析法(Multivariate Statistical Analysis,MSA)[5- 6]、相關(guān)系數(shù)法[7- 8]、雙模態(tài)稀疏表示法[9- 10]。其中,前兩類(lèi)方法通過(guò)對(duì)句中的音視頻對(duì)應(yīng)幀特征建立不同的統(tǒng)計(jì)模型來(lái)分析音唇間的關(guān)聯(lián)度,并以此判斷兩者的一致性;而相關(guān)系數(shù)法是分析句中各幀音視頻特征各維間的相關(guān)系數(shù),并以此為新特征結(jié)合分類(lèi)模型等方式進(jìn)行一致性判決。由于語(yǔ)言由音節(jié)組成,各音節(jié)的音頻及口型序列會(huì)在不同語(yǔ)句中反復(fù)出現(xiàn),稀疏表示類(lèi)方法將移不變稀疏表示中原子的概念引入到表征發(fā)相同音時(shí)音唇變化存在的共性及對(duì)應(yīng)關(guān)系中,通過(guò)聯(lián)合字典學(xué)習(xí)無(wú)監(jiān)督地訓(xùn)練出時(shí)空移不變的雙模態(tài)字典,作為表征不同音節(jié)音唇同步變化關(guān)系的模板進(jìn)行一致性判決。但現(xiàn)有判決方法主要對(duì)整句(段)話進(jìn)行分析,并無(wú)對(duì)分析內(nèi)容加以篩選或限制。如稀疏類(lèi)方法對(duì)字典學(xué)習(xí)內(nèi)容缺乏限制,使得原子表征范圍過(guò)大且數(shù)量龐大,并出現(xiàn)無(wú)意義原子(如噪聲、靜音),導(dǎo)致字典學(xué)習(xí)及一致性分析過(guò)程繁瑣。實(shí)際上,句子各部分的重要性有所不同,由統(tǒng)計(jì)類(lèi)算法求音唇相關(guān)度,會(huì)發(fā)現(xiàn)靜音、噪音及部分輔音等嘴型變化不明顯的片段,由于音頻幅度和唇寬高的正比關(guān)聯(lián)性[11],其音唇關(guān)聯(lián)度并不顯著,為弱相關(guān)片段,這類(lèi)似于噪聲成分會(huì)給一致性分析帶來(lái)一定影響。漢語(yǔ)由聲母、韻母加聲調(diào)構(gòu)成。其中,韻母發(fā)音時(shí)長(zhǎng)最長(zhǎng),音頻能量高于聲母,即使搭配不同聲母,韻母的唇動(dòng)規(guī)律也非常穩(wěn)定[12],是句中具有代表性的成分。但漢語(yǔ)39個(gè)韻母的音唇相關(guān)度是否也具有一定差異性,它們之中是否存在更有代表性的發(fā)音單元,卻少有文獻(xiàn)報(bào)道。同時(shí),現(xiàn)有一致性評(píng)分機(jī)制往往忽略了兩者在自然時(shí)延上的差異,而時(shí)延在一致性分析中的重要性逐漸受到關(guān)注[13]。
因此,本研究以漢語(yǔ)韻母為研究重心,尋求以更具代表性的特定韻母單元為分析對(duì)象,代替整句分析實(shí)現(xiàn)一致性判決,提出基于特定韻母發(fā)音事件分析的音唇一致性判決方法。先根據(jù)多幀口型序列特征對(duì)韻母進(jìn)行聚類(lèi),再對(duì)各類(lèi)韻母的音唇相關(guān)度進(jìn)行分析,選出更具代表性的韻母發(fā)音單元。在一致性判決時(shí),先分割并識(shí)別出選定的韻母單元,求出這些韻母事件的音唇相關(guān)度,并對(duì)各韻母出現(xiàn)位置的時(shí)延分布進(jìn)行評(píng)分,提出特定韻母發(fā)音事件音唇相關(guān)度得分與位置時(shí)延分析評(píng)分相融合的一致性評(píng)分機(jī)制,由融合后的最終得分判斷一致性。
不同韻母雖在發(fā)音機(jī)理和聽(tīng)覺(jué)上會(huì)有所差異,但部分韻母發(fā)音時(shí)口型的變化過(guò)程相似,因此分析音唇關(guān)聯(lián)度前先根據(jù)口型對(duì)韻母進(jìn)行歸類(lèi)?,F(xiàn)有的發(fā)音口型聚類(lèi)多數(shù)是以唇形關(guān)鍵幀的靜態(tài)視位為特征,但口型變化是連貫的動(dòng)態(tài)過(guò)程,單幀靜態(tài)視位所能提供的信息量有限,為此引入動(dòng)態(tài)視位的概念,利用多幀特征組合而成的超向量,通過(guò)凝聚法的層次聚類(lèi)方式[14]對(duì)口型序列進(jìn)行聚類(lèi)分析。聚類(lèi)過(guò)程中利用類(lèi)間距離最小的原則將各類(lèi)兩兩合并,而類(lèi)間距離以歐氏距離衡量。設(shè)某一唇部特征的樣本矩陣G∈RM×F包含F(xiàn)個(gè)待分類(lèi)動(dòng)態(tài)口型序列樣本,每個(gè)樣本gn(n=1,2,…,F(xiàn))為M維的唇部特征超向量,唇形層次聚類(lèi)的步驟如下。
(1)將待分類(lèi)樣本集G的每行視為一類(lèi),則共有F類(lèi),計(jì)算F類(lèi)中兩兩之間的歐式距離并組成距離矩陣O,矩陣各元素為
(1)
(3)重新計(jì)算新類(lèi)與各舊類(lèi)之間的歐氏距離,即通過(guò)式(1)更新矩陣O中對(duì)應(yīng)位置的元素,將矩陣O中之前與k和j相關(guān)的行列刪除,加入與新類(lèi)相關(guān)的行和列。
(4)重復(fù)步驟(1)-(3)直到所有對(duì)象合并為一類(lèi)停止。
逐次合并項(xiàng)的索引可得描述聚類(lèi)過(guò)程的聚類(lèi)樹(shù),最終分類(lèi)數(shù)量可根據(jù)樹(shù)結(jié)構(gòu)從枝葉節(jié)點(diǎn)向根節(jié)點(diǎn)方向回溯,并由XiE-Beni指標(biāo)確定最有效的聚類(lèi)結(jié)果[15]。唇型數(shù)據(jù)取自公開(kāi)數(shù)據(jù)庫(kù)——漢語(yǔ)聽(tīng)覺(jué)視覺(jué)雙模態(tài)語(yǔ)料庫(kù),提取各人(共20人)各韻母發(fā)音序列的單幀口型特征參數(shù)。唇型特征的選取如圖1所示,Ld(d=1,2,…,8)為各對(duì)應(yīng)點(diǎn)間的連線距離,加上唇面積可得9維的唇部幾何特征。對(duì)選取的韻母視頻序列進(jìn)行尺寸和時(shí)間歸一化,使得各韻母幀數(shù)統(tǒng)一為10幀,再拼接成90維的長(zhǎng)時(shí)特征。為減少個(gè)體發(fā)音差異的影響,通過(guò)統(tǒng)計(jì)各人各韻母的數(shù)據(jù),得到所有人同一韻母口型特征參數(shù)的均值,并以此進(jìn)行聚類(lèi),聚類(lèi)結(jié)果如表1所示。
圖1 唇部形狀特征參數(shù)
表1 韻母聚類(lèi)結(jié)果
Table 1 Vowel clustering result
類(lèi)別索引韻母1 ai,an,a,ang,ao2e,en,eng,er,ei3o,ou,ong,ü,u,uo4-i(知韻),-i(資韻),i,in,ing5iu類(lèi)別索引韻母6ua,uai,uan,uang7iou,iong8ia,iang,iao9un,ui,ün,üan,üe10ian,ie
由于韻母的音視頻數(shù)據(jù)時(shí)長(zhǎng)較短,采用小樣本數(shù)據(jù)分析效果較優(yōu)的CoIA(Co-inertia Analysis)算法[6],對(duì)表1各組韻母進(jìn)行相關(guān)度分析。設(shè)音頻和視頻多元隨機(jī)向量a=[a1a2…ap]T∈Rp和v=[v1v2…vq]T∈Rr各有N個(gè)樣本,分別組成矩陣A∈Rp×N與V∈Rr×N,CoIA算法從兩類(lèi)多維異構(gòu)特征中求出使兩者協(xié)方差最大的一對(duì)映射向量。一對(duì)正交映射向量為ui∈Rp×1和zi∈Rr×1(i=1,2,…,R;R=rank(CAV),rank(·)為秩函數(shù)),分別為映射矩陣U、Z的列向量,則有:
(2)
式中,CAV=E{AVT}=cov(A,V)為協(xié)方差矩陣(CAV∈Rp×r)。求解得映射矩陣U和Z后,將待分析數(shù)據(jù)分別投影到映射向量上以獲得兩者的相關(guān)度,這里分別采用皮爾遜相關(guān)系數(shù)(pci)和RV系數(shù)[16]作為度量:
(3)
(4)
由表2可知,部分組別如第8、9、10組的兩種相關(guān)系數(shù)均值明顯高于其他組別,而且以復(fù)合韻為驗(yàn)證表3韻母單元的代表性,將包含表中韻母的分段與整句(共110句,包含聲母)的相關(guān)度進(jìn)行比較。整句統(tǒng)計(jì)的pcave平均為0.48,RV平均為 0.24,表3中韻母段統(tǒng)計(jì)的pcave平均為0.53,RV平均為0.27。分析以上數(shù)據(jù)可知,特定韻母發(fā)音段的相關(guān)度很多時(shí)候均大于或等于整句的相關(guān)度,有時(shí)甚至比整句的相關(guān)系數(shù)高出0.15以上。CoIA是統(tǒng)計(jì)類(lèi)分析方法,可見(jiàn)這些韻母在發(fā)音過(guò)程中音頻與唇部變化之間呈現(xiàn)更強(qiáng)的關(guān)聯(lián)性,更能體現(xiàn)兩者同步變化的關(guān)系,包含了更為突出和豐富的音唇關(guān)聯(lián)性信息,因此選以上5組韻母為特定發(fā)音單元。
表2 各類(lèi)韻母相關(guān)度分析結(jié)果
母類(lèi)居多。表2中所有類(lèi)別的pcave和RV系數(shù)的均值分別為0.54和0.29,從表中選取相關(guān)度大于以上均值的組別作為特定發(fā)音單元類(lèi)別作進(jìn)一步分析,共5組,如表3所示。
表3 特定韻母發(fā)音單元選取結(jié)果
在句子中檢測(cè)并切分出包含表3中特定發(fā)音單元的韻母片段,通過(guò)分析這些片段代替分析整句話判斷一致性。這里以音頻為參考模態(tài)進(jìn)行韻母切分與識(shí)別。傳統(tǒng)聽(tīng)覺(jué)事件韻母切分法直接在0~400 Hz內(nèi)區(qū)分清濁音,在401~4 000 Hz內(nèi)檢測(cè)濁音段內(nèi)的濁輔音,切分結(jié)果易受復(fù)合韻母韻腹或韻尾的音變(如變調(diào)、兒化等)影響。因此本研究采用先檢測(cè)濁音段,再在其段前段后進(jìn)行聽(tīng)覺(jué)事件檢測(cè)的方法切分韻母并進(jìn)行識(shí)別,具體步驟如下。
(1)清濁音分類(lèi) 先通過(guò)幅度壓縮基音估計(jì)濾波法(Pitch Estimation Filter with Amplitude Compression,PEFAC)削弱語(yǔ)音中的低頻噪聲并提取基音諧波,然后采用基于對(duì)稱平均幅度和函數(shù)的脈沖序列加權(quán)算法確定諧波數(shù)量,再由3元素特征建立高斯混合模型對(duì)清濁音進(jìn)行分類(lèi)[17]。預(yù)處理后第t幀語(yǔ)音信號(hào)的對(duì)數(shù)頻域功率譜密度為st(q),包含純凈語(yǔ)音xt(q)和噪聲成分wt(q):
st(q)=xt(q)+wt(q)=
(5)
式中,f0為基音頻率,ak為第k(k=1,2,…,K)個(gè)諧波的功率,δ為單位沖激函數(shù),歸一化可得:
(6)
(7)
在60~1 250 Hz頻域內(nèi),對(duì)φt(q)的幅值從大到小排序,選前3中頻率最大者為基音諧波。最后,以各語(yǔ)音幀的3元素——?dú)w一化后的對(duì)數(shù)平均功率譜LPt、φt(q)前3個(gè)幅值之和與平均功率譜的比值βt、顯著峰值點(diǎn)寬度的對(duì)數(shù)Vt,構(gòu)成特征矢量[LPtEtβt],以此分別建立清音和濁音的高斯混合模型(Gaussian Mixture Model,GMM)進(jìn)行分類(lèi),各GMM均采用6個(gè)單高斯模型。由于短非濁音幀不可能出現(xiàn)在連續(xù)的濁音段中[18],可依此對(duì)分類(lèi)中因誤判而出現(xiàn)的孤立幀進(jìn)行修正,如判決結(jié)果為“…VVVVUVVVV…”(“V”為濁音幀,“U”為清音幀),其中的“U”應(yīng)修正為“V”。
(2)韻母分割 檢測(cè)出連續(xù)濁音段后,在當(dāng)前濁音段的段前段后,以文獻(xiàn)[19]的檢測(cè)策略結(jié)合聽(tīng)覺(jué)事件檢測(cè)法進(jìn)行韻母切分。設(shè)索引為c的頻段內(nèi)第t幀語(yǔ)音信號(hào)St(n)的正突變聽(tīng)覺(jué)事件eon定義為
(8)
若eon=1,表示出現(xiàn)正突變聽(tīng)覺(jué)事件,閾值θon(c)由下式確定:
θon(c)=μ(c)+para×σ(c)
(9)
其中,para為待定系數(shù),μ(c)和σ(c)分別為第t幀差分信號(hào)St(n+1)-St(n)各采樣點(diǎn)幅值的均值和方差。
(3)韻母識(shí)別 對(duì)切分后的各段韻母提取音頻特征,并由矢量量化器根據(jù)訓(xùn)練生成的碼書(shū)進(jìn)行量化,使得每個(gè)韻母信號(hào)對(duì)應(yīng)一個(gè)代碼序列。經(jīng)過(guò)預(yù)識(shí)別后,比較該代碼序列由各個(gè)HMM模型產(chǎn)生的概率分布參數(shù),從而根據(jù)最大后驗(yàn)概率原則作出識(shí)別決策。韻母識(shí)別流程如圖2所示。對(duì)[ê]音以外的38個(gè)韻母分別訓(xùn)練HMM模型,模型狀態(tài)數(shù)為3,每個(gè)狀態(tài)8個(gè)高斯分量。
圖2 韻母識(shí)別流程
(10)
(11)
式中:Tv為視頻幀間間隔,ms。
X個(gè)特定韻母發(fā)音事件的時(shí)延分布得分α2定義為
(12)
(13)
式(12)合理時(shí)延范圍δLeft和δRight均取50 ms。最后,通過(guò)基于GMM的貝葉斯融合方法融合兩類(lèi)得分以獲得最終的判決得分。設(shè)語(yǔ)音唇動(dòng)事件的狀態(tài)為Λy(y=0,1),其中Λ0表示音唇不一致,Λ1表示一致,而α=(α1,α2)為包含兩種得分的得分向量,由條件概率P{α|Λ0}和P{α|Λ1}結(jié)合貝葉斯準(zhǔn)則可得一致性評(píng)判標(biāo)準(zhǔn):
P{α|Λ1}/P{α|Λ0}≥θ, 判為Λ1
(14)
P{α|Λ1}/P{α|Λ0}<θ, 判為Λ0
(15)
分別采用兩個(gè)高斯模型描述上述兩個(gè)條件分布:
(16)
文中一致性判決方法的流程如圖3所示。
圖3 基于特定韻母發(fā)音事件分析的音唇一致性判決流程圖
Fig.3 Schematic diagram of lip motion and voice consistency recognition method based on specific vowel pronunciation events analysis
其中,時(shí)延估計(jì)部分以DCT系數(shù)和圖1的9維唇部幾何特征為視覺(jué)特征,取Dleft=Dright=100 ms。對(duì)定位出的唇部區(qū)域(56*32)進(jìn)行分塊二維DCT變換,各塊Zig-Zag排序后取最大的系數(shù)并拼接上其一二階差分組成DCT特征。音頻幀長(zhǎng)為20 ms,幀間重疊為10 ms。每幀提取對(duì)數(shù)能量及13維 MFCC系數(shù)也同樣拼接其一二階差分組成42維特征,韻母識(shí)別過(guò)程也采用相同的音頻特征。
實(shí)驗(yàn)使用的漢語(yǔ)聽(tīng)覺(jué)視覺(jué)雙模態(tài)語(yǔ)料庫(kù),共包含20人的數(shù)據(jù),每人取15句,每句錄音3次。將一致數(shù)據(jù)分為測(cè)試集600句和訓(xùn)練集300句,訓(xùn)練集主要用于字典和映射矩陣的訓(xùn)練。通過(guò)集內(nèi)數(shù)據(jù)中不同句子的音頻和視頻交叉組合合成出4類(lèi)不一致數(shù)據(jù)(見(jiàn)表4所示),各類(lèi)樣本均為1 200句。其中,第三類(lèi)數(shù)據(jù)由不同錄制者同一語(yǔ)句的音視頻數(shù)據(jù)交叉組合得到;第四類(lèi)數(shù)據(jù)則由同一錄制者不同次錄制的同一語(yǔ)句的音視頻數(shù)據(jù)交叉組合得到。
表4 語(yǔ)音唇動(dòng)不一致數(shù)據(jù)類(lèi)別
對(duì)文中方法的結(jié)果、文中方法融合位置時(shí)延分析前的結(jié)果、文獻(xiàn)[6]方法(CoIA+ST訓(xùn)練方式整句分析)的結(jié)果,以及文獻(xiàn)[6]方法增加文獻(xiàn)[20]整句時(shí)延評(píng)分機(jī)制后的結(jié)果進(jìn)行對(duì)比,以比較采用不同時(shí)延分析方法的識(shí)別性能,并驗(yàn)證特定韻母單元代替整句分析的可行性。同時(shí),也與其他整句分析的方法進(jìn)行了比較:相關(guān)法中的NCC+SVM[7]和BLPM[8]法,MI類(lèi)算法中的QMI[4],另一種多元統(tǒng)計(jì)分析法CCA[5]結(jié)合時(shí)空視覺(jué)特征(CCA+STF),還有聯(lián)合字典法[9](原子數(shù)為225)。實(shí)驗(yàn)以等誤識(shí)率(Equal Error Rate,EER)作為算法的性能評(píng)價(jià)指標(biāo)。
文中方法及各種比較方法的總體錯(cuò)誤接受率(FRA)和錯(cuò)誤拒絕率(FRR)的變化曲線如圖4所示,通過(guò)原點(diǎn)的45度斜線與各曲線相交處FAR=FRR,此時(shí)的FAR或FRR就是EER,不同方法對(duì)各類(lèi)不一致數(shù)據(jù)的總體和獨(dú)立統(tǒng)計(jì)EER見(jiàn)表5。
圖4 不同算法的FRA和FRR變化曲線
由圖4和表5可知,MSA類(lèi)和稀疏表示類(lèi)方法總體上優(yōu)于MI類(lèi)和相關(guān)系數(shù)類(lèi)算法,文中方法與聯(lián)合字典算法性能較為接近,稍優(yōu)于后者,總體上優(yōu)于其他比較算法。聯(lián)合字典法對(duì)音節(jié)較少的語(yǔ)料有很好的識(shí)別性能,但音節(jié)數(shù)量增加時(shí)需以增加原子數(shù)量為代價(jià),對(duì)大詞匯量數(shù)據(jù)集字典的規(guī)模會(huì)很大;同時(shí),實(shí)驗(yàn)發(fā)現(xiàn)不同音節(jié)的出現(xiàn)頻率難以一致,部分音節(jié)可能在訓(xùn)練集中出現(xiàn)過(guò)少,沒(méi)在原子中得以表達(dá)而影響識(shí)別性能。文中方法在融合韻母位置時(shí)延分布得分前的總體EER為20.7%,與整句分析(CoIA+ST)的性能接近,其中對(duì)一到三類(lèi)不一致數(shù)據(jù)的分析結(jié)果略優(yōu)于采用整句分析的方法,EER分別下降了1.2、0.9、和0.4個(gè)百分點(diǎn)。
表5 不同算法各類(lèi)數(shù)據(jù)EER結(jié)果比較
這表明從韻母中選取特定發(fā)音單元代替整句話進(jìn)行一致性分析的可行性和有效性。雖然文中方法融合韻母位置時(shí)延分布得分前對(duì)第四類(lèi)數(shù)據(jù)的性能稍低于CoIA+ST方法,但融合后對(duì)各類(lèi)不一致數(shù)據(jù)的總體EER較融合前下降了4.8個(gè)百分點(diǎn),其中對(duì)第三和第四類(lèi)數(shù)據(jù)的性能提升較為明顯,分別較融合前下降了4.9個(gè)百分點(diǎn)和10.6個(gè)百分點(diǎn)。一致性判決方法其總體運(yùn)算時(shí)間受樣本幀數(shù)及圖像尺寸等因素影響,文中算法人臉定位及唇部感興趣區(qū)域提取部分的耗時(shí)約為60 ms一幀,與其他主流算法接近。但由于文中方法只分析特定韻母部分的音視頻數(shù)據(jù),而這部分?jǐn)?shù)據(jù)平均只占整句時(shí)長(zhǎng)的34%,因此不像整句分析方法那樣須事先對(duì)每幀視頻進(jìn)行唇部定位等預(yù)處理,一定程度上降低了系統(tǒng)的運(yùn)算量。實(shí)驗(yàn)中文中算法的平均速率約為23幀/s左右,接近實(shí)時(shí)性的要求。文中方法和表5中第二種方法均考慮了時(shí)延的差異,但文中方法通過(guò)結(jié)合多個(gè)韻母位置的時(shí)延分布進(jìn)行分析稍優(yōu)于采用整句時(shí)延進(jìn)行相關(guān)度得分修訂的方式。本研究中對(duì)特定韻母識(shí)別的準(zhǔn)確率約為84%,雖然會(huì)有集外信息的引入,但與整句分析相比這類(lèi)影響會(huì)相對(duì)較小。
通過(guò)多幀口型序列特征對(duì)韻母進(jìn)行聚類(lèi),并深入分析各類(lèi)韻母的音唇關(guān)聯(lián)度,選出更具代表性的韻母發(fā)音單元為分析對(duì)象,結(jié)合韻母出現(xiàn)位置的時(shí)延分布分析,提出基于特定韻母發(fā)音事件分析的音唇一致性判決方法。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)不同類(lèi)型不一致數(shù)據(jù)的識(shí)別性能與常用的多種整句分析方法相比均有一定提升。同時(shí),融合特定韻母位置時(shí)延分析后一定程度上提升了總體識(shí)別性能,其中對(duì)第三和第四類(lèi)數(shù)據(jù)的性能提升最為明顯。