王 頗,白 靜,薛珮蕓
(太原理工大學(xué) 信息與計算機(jī)學(xué)院,山西 晉中 030600)
聽障患者普遍存在構(gòu)音障礙問題,由于聽功能損失,患者缺乏聽覺對發(fā)聲的反饋?zhàn)饔茫瑢?dǎo)致其發(fā)音部位不準(zhǔn)確,發(fā)音動作不協(xié)調(diào),進(jìn)而出現(xiàn)異常發(fā)音[1]。對于聽障患者病理語音的檢測,語音信號處理技術(shù)提供了一種非入侵性的方法,通過提取語音的特征參數(shù)并進(jìn)行模式識別,可以高效地對正常語音和病理語音進(jìn)行分類,能夠輔助醫(yī)生對病理語音患者進(jìn)行診斷和治療[2]。
目前,根據(jù)病理語音特征實(shí)現(xiàn)計算機(jī)自動診斷仍然是醫(yī)學(xué)工作者和語音研究工作者努力的方向。Fang Shih-Hau等[3]采用美國的MEEI數(shù)據(jù)庫,結(jié)合梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行病理語音檢測。由于語音信號具有非平穩(wěn)性和突變性,李海峰等[4]提出一種基于S變換的病理語音特征MSCC,使用荷蘭的NSNC病理數(shù)據(jù)庫驗證了所提方法的有效性。關(guān)于漢語病理語音的研究,龐宇峰等[5]采集臨床聲帶息肉患者和正常人的語音數(shù)據(jù),分析基頻微擾、振幅微擾等特征差異。許遠(yuǎn)靜等[6]使用自建庫,提取熵、Hurst參數(shù)、吸引子等非線性特征,結(jié)合隨機(jī)森林算法(random forest,RF)識別不同程度病態(tài)嗓音。以上研究表明病理語音檢測的特征比較豐富,但是這些特征集中于語音聲學(xué)特性的研究,忽略了語音產(chǎn)生過程中發(fā)音器官的運(yùn)動特性。
近年來,三維電磁發(fā)音儀(electromagnetic articulograph,EMA)[7]在語音研究領(lǐng)的應(yīng)用增多,Zhang Yan等[8]采集舌、唇、頜部的運(yùn)動數(shù)據(jù),分別以鼻梁和上唇為參考點(diǎn),計算下唇、舌尖、舌中的相對位置作為發(fā)音動作特征(articulatory movement features,AMF),進(jìn)行短時文本的說話人識別。蔡明琦等[9]指出相比聲學(xué)特征,語音的發(fā)音動作特征描述了發(fā)音過程中唇、舌等發(fā)音器官的位置變化,它們不受外界噪音和環(huán)境的影響,具有更高的魯棒性。因此本文分析病理語音的發(fā)音動作特征,提取發(fā)音動作特征以及聲學(xué)特征進(jìn)行融合,使用核主成分分析法進(jìn)行降維,在支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林、多層感知機(jī)(multilayer perceptron,MLP)分類模型中,驗證發(fā)音動作特征和融合特征的有效性。
文中發(fā)音器官的運(yùn)動數(shù)據(jù)使用三維電磁發(fā)音儀采集,該設(shè)備可以捕獲高精度的運(yùn)動信號,并且不損害人體,是采集發(fā)音器官微小動作的專用設(shè)備。在EMA系統(tǒng)中,每個傳感器對應(yīng)一個通道,數(shù)據(jù)采集前,對傳感器進(jìn)行預(yù)熱、校準(zhǔn),然后將傳感器黏貼在受試者的唇部(上唇、下唇、左嘴角、右嘴角)、舌部(舌尖、舌中、舌后)、頜部進(jìn)行數(shù)據(jù)采集,同時在鼻骨、左耳骨、右耳骨、下齒槽分別黏貼傳感器作為參考傳感器,用來消除發(fā)音過程中頭部轉(zhuǎn)動影響。發(fā)音動作數(shù)據(jù)采樣頻率為250 Hz,語音數(shù)據(jù)與發(fā)音動作數(shù)據(jù)同步采集,采樣頻率為16 KHz。EMA記錄了每個傳感器三維空間(X軸、Y軸、Z軸)坐標(biāo),X表示前后方向,Y表示左右方向,Z表示上下方向。發(fā)音器官的左右方向的運(yùn)動幅度較小,因此使用X軸、Z軸的數(shù)據(jù)進(jìn)行分析。
研究表明,聽障患者發(fā)音時舌部運(yùn)動不到位是影響其發(fā)音的重要因素,王晴等[10]研究聽障患者的鼻韻母發(fā)音時,發(fā)現(xiàn)部分發(fā)音的舌位偏高或者偏低,與正常人發(fā)音的舌部運(yùn)動存在差異。本文畫出正常人和聽障患者分別發(fā)單元音/a/時,舌尖和舌中在X軸、Z軸上的運(yùn)動軌跡,如圖1和圖2所示。
圖1 正常人發(fā)元音/a/的舌部運(yùn)動軌跡
圖2 聽障患者發(fā)元音/a/的舌部運(yùn)動軌跡
圖中可以看出聽障患者發(fā)音時舌尖、舌中的運(yùn)動幅度比正常人較小,這和之前的研究相符合。因此提取舌尖、舌中部位的運(yùn)動位移和速度作為特征,位移特征指相對于初始位置,傳感器的最大位移,計算公式如下
sX=max|x(t)-x(0)|
(1)
sZ=max|z(t)-z(0)|
(2)
式中:sX表示X軸最大位移,x(t)表示t時刻傳感器的X軸坐標(biāo)值,x(0)表示初始時刻傳感器的X軸坐標(biāo)值,sZ表示Z軸最大位移,z(t)表示t時刻傳感器的Z軸坐標(biāo),z(0)表示初始時刻傳感器的Z軸坐標(biāo)。
速度指發(fā)音器官在每一時刻位移變化量,通過式(3)、式(4)進(jìn)行計算,將最大速度、最小速度、平均速度和速度的方差作為特征
(3)
(4)
式中:vX表示X軸瞬時速度,x(t+Δt)表示t+Δt時刻的X軸坐標(biāo)值,x(t)表示t時刻的X軸坐標(biāo)值。vZ表示Z軸瞬時速度,z(t+Δt)表示t+Δt時刻的Z軸坐標(biāo)值,z(t)表示t時刻的Z軸坐標(biāo)值。
梅爾倒譜系數(shù)是語音識別領(lǐng)域常用的特征,它基于人耳的聽覺特性,在梅爾刻度下,人耳對聲音頻率的感知度成線性關(guān)系,它與頻率的關(guān)系可表示為
Mel(f)=2595lg(1+f/700)
(5)
式中:f表示實(shí)際的語音頻率,單位是Hz。
如果把聲道看作理想的諧振腔體,舌頭的運(yùn)動會改變聲道的形狀,進(jìn)而影響諧振頻率,即共振峰。在語音學(xué)中,第一共振峰與舌位高低呈負(fù)相關(guān)關(guān)系,第二共振峰與舌位前后呈正相關(guān)關(guān)系。由聽障患者發(fā)音動作特征可知患者發(fā)音時舌部運(yùn)動不到位,這必然會影響語音的共振峰,因此本文提取共振峰特征進(jìn)行病理語音檢測。
基頻反映了發(fā)音者音調(diào)的大小和音質(zhì)的好壞,基頻的大小與聲帶的長度、厚度、張力有關(guān),并且受到聲門上下之間的氣壓差效應(yīng)的影響,是病理語音研究中的重要特征。聽障患者由于發(fā)音部位不準(zhǔn)確、發(fā)音動作不協(xié)調(diào),基頻特征與正常人存在差異。
發(fā)音動作特征描述發(fā)音器官的運(yùn)動特性,聲學(xué)特征描述語音的頻譜特性,兩種類型的特征表達(dá)的物理意義不同,將他們進(jìn)行歸一化處理構(gòu)成融合特征,即SVMFP特征。融合特征可以表示為
(6)
由于上述的融合特征可能包含冗余信息,本文使用核主成分分析法(kernel principal component analysis,KPCA)對其進(jìn)行降維,降維后的特征表示為KSVMFP。KPCA是在PCA的基礎(chǔ)上提出,相比PCA,KPCA在處理非線性數(shù)據(jù)方面效果更好。它的基本原理是通過非線性函數(shù)將原始數(shù)據(jù)映射到高維空間,從而對高維空間的數(shù)據(jù)進(jìn)行相應(yīng)的線性分類。本文采用徑向基高斯核方法進(jìn)行降維,核函數(shù)公式如下
(7)
σ取常數(shù),在降維過程中需要對σ進(jìn)行調(diào)節(jié)。
在降維過程中,將訓(xùn)練樣本的n維特征表示成n個列向量的特征矩陣α,通過非線性映射Φ將其映射到高維空間中
Φ(α)=[Φ(α1),Φ(α2),…,Φ(αn)]
(8)
在高維空間進(jìn)行降維變換
X=WTΦ(α)
(9)
求解Φ(α)之后得出非線性降維后的特征矩陣X。
聽障患者病理語音檢測的MLP拓?fù)淙鐖D3所示。MLP的層次結(jié)構(gòu)為5層,隱含層為3層,每層包括64個神經(jīng)元。
圖3 MLP拓?fù)?/p>
隱含層中神經(jīng)元的輸入和輸出如下所示
al=σ(zl)
(10)
zl=Wlal-1+bl
(11)
式中:al表示第l層神經(jīng)元輸出,σ表示激活函數(shù),zl表示第l層神經(jīng)元的輸入,W表示第l-1層神經(jīng)元與第l層神經(jīng)元之間權(quán)值組成的向量,bl表示第l層偏置組成的向量。
本文使用的激活函數(shù)為Leaky ReLU,如式(12)所示
(12)
相比ReLU[11],Leaky ReLU函數(shù)對負(fù)值輸入有很小的坡度,可以減少靜默神經(jīng)元的出現(xiàn),允許神經(jīng)元緩慢學(xué)習(xí);在正半?yún)^(qū)和ReLU具有相同的特性,當(dāng)輸入信號超過閾值時,神經(jīng)元進(jìn)入激活狀態(tài),可以選擇性響應(yīng)部分輸入信號,屏蔽不相關(guān)信號,提取出重要的稀疏特征。
通常在模型的訓(xùn)練過程中,使用交叉熵形式的代價函數(shù)描述模型的分類精度,形式如下
(13)
式中:y為預(yù)測概率值,y′為真實(shí)概率值。H(y)越小,模型的輸出值與真實(shí)值差距越小,分類越準(zhǔn)確。通過訓(xùn)練,H(y)逐漸減小,最終達(dá)到全局最優(yōu)或局部最優(yōu)。在神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練方法中,隨機(jī)梯度下降(stochastic gradient descent,SGD)是最常見的優(yōu)化方法,但是它對所有的參數(shù)更新使用同樣的學(xué)習(xí)率,因此選擇合適的學(xué)習(xí)率比較困難,設(shè)置不同的學(xué)習(xí)率,可能產(chǎn)生差異較大的結(jié)果。本文使用Adagrad算法[12]自適應(yīng)地訓(xùn)練參數(shù)。
病理語音檢測流程如圖4所示,對病理語音數(shù)據(jù)庫中的數(shù)據(jù)預(yù)處理后,提取位移、速度兩種發(fā)音動作特征以及MFCC、基頻、共振峰3種聲學(xué)特征,然后將提取的特征歸一化,使用KPCA降維,結(jié)合MLP完成病理語音和正常語音的分類。
圖4 病理語音檢測流程
實(shí)驗數(shù)據(jù)庫為實(shí)驗室自建庫,其中包括聽障學(xué)生和正常學(xué)生的數(shù)據(jù),聽障學(xué)生在太原市聾啞學(xué)校隨機(jī)選取,男、女各5名,共10名,除聽力受損外,全身無其它畸變,能自主發(fā)音。正常學(xué)生為在校大學(xué)生,男、女各5名,共10名,普通話水平均為二級甲等及以上,測試期間均無呼吸道感染。數(shù)據(jù)庫語料為普通話水平測試用表的常規(guī)發(fā)音,本文對采集的數(shù)據(jù)進(jìn)行篩選,結(jié)果見表1。
表1 病理語音檢測語料
當(dāng)測試語料為漢語字母和漢語單音節(jié)時,將發(fā)音動作特征和不同聲學(xué)特征輸入不同分類模型,測試不同特征和分類模型組合的分類性能。分類模型的參數(shù)設(shè)置如下:SVM的核函數(shù)為RBF核,使用鳥群算法[13]優(yōu)化參數(shù);MLP激活函數(shù)為Leaky ReLU,使用Adagrad優(yōu)化網(wǎng)絡(luò)參數(shù);RF中子樹的數(shù)量為100。實(shí)驗中字母的樣本總數(shù)為520,單音節(jié)的樣本總數(shù)為780。使用五折交叉驗證得出最后的實(shí)驗結(jié)果,采用靈敏度(sensitivity)、特異度(specificity)、識別率(accuracy)3個指標(biāo)對分類結(jié)果進(jìn)行評價。
4.2.1 單一特征的實(shí)驗結(jié)果
當(dāng)測試語料為漢語字母和漢語單音節(jié)時,單一特征的檢測效果分別見表2和表3。
由表2可知,①在MLP中,MFCC的特異度比發(fā)音動作特征低,靈敏度和識別率比其它特征高;在SVM和RF中,MFCC的靈敏度、特異度、識別率比其它特征高;從整體上看,MFCC的檢測效果最佳。②在SVM中,發(fā)音動作特征的靈敏度、特異度、識別率比基頻和共振峰高;在RF中,發(fā)音動作特征的靈敏度比共振峰低,特異度比基頻低,識別率比基頻和共振峰高;在MLP中,發(fā)音動作特征的靈敏度比共振峰低,特異度和識別率比基頻和共振峰高;從整體上看,發(fā)音動作特征的檢測效果優(yōu)于基頻和共振峰。③在SVM中,共振峰的靈敏度、特異度、識別率比基頻高,共振峰優(yōu)于基頻;在RF中,基頻的靈敏度比共振峰低,特異度、識別率比共振峰高,基頻優(yōu)于共振峰;在MLP中,共振峰的特異度比基頻低,靈敏度、識別率比基頻高,共振峰優(yōu)于基頻。
表2 漢語字母的單一特征檢測效果對比/%
表3 漢語單音節(jié)的單一特征檢測效果對比/%
由表3可知,①在RF中,MFCC的靈敏度比基頻低,MFCC的特異度和識別率比其它特征高;在SVM和MLP中,MFCC的靈敏度、特異度、識別率比其它特征高;從整體上看,MFCC的檢測效果最佳。②在SVM中,發(fā)音動作特征的靈敏度、特異度、識別率比基頻和共振峰高;在RF中,發(fā)音動作特征的靈敏度比基頻低,特異度、識別率比基頻和共振峰高;在MLP中,發(fā)音動作特征的特異度比基頻低,靈敏度和識別率比基頻和共振峰高;從整體上看,發(fā)音動作特征的檢測效果優(yōu)于基頻和共振峰。③在SVM中,共振峰的特異度比基頻低,靈敏度、識別率比基頻高,共振峰優(yōu)于基頻;在RF中,基頻的特異度比共振峰低,靈敏度、識別率比共振峰高,基頻優(yōu)于共振峰;在MLP中,共振峰的特異度比基頻低,靈敏度、識別率比基頻高,共振峰優(yōu)于基頻。
表2和表3的結(jié)果表明,相比其它單一特征,MFCC在病理語音檢測中效果最佳,發(fā)音動作特征比MFCC的檢測效果差,但是比基頻和共振峰的檢測效果好,說明發(fā)音動作特征和聲學(xué)特征同樣有效。聲學(xué)特征表示語音不同方面的聲學(xué)特性,而發(fā)音動作特征能夠有效地表示發(fā)音器官在發(fā)音過程中的運(yùn)動信息,兩類特征表達(dá)的物理意義不同,互為補(bǔ)充特征。此外,基頻和共振峰的檢測效果比較結(jié)果不固定,在RF中,基頻的檢測效果優(yōu)于共振峰,在SVM和MLP中,共振峰的檢測效果優(yōu)于基頻,說明單一特征對語音的表達(dá)不充分、魯棒性較差。
4.2.2 融合特征的實(shí)驗結(jié)果
為彌補(bǔ)單一特征表示語音特性的不足,本文將發(fā)音動作特征和聲學(xué)特征歸一化融合,并使用KPCA進(jìn)行降維,特征歸一化和KPCA降維的檢測效果分別見表4和表5。
表4 漢語字母的融合特征檢測效果/%
表5 漢語單音節(jié)的融合特征檢測效果/%
對比表2和表4、表3和表5的結(jié)果,可以得出無論測試語料是漢語字母還是漢語單音節(jié),在SVM、RF和MLP中,融合特征的靈敏度、特異度、識別率比單一特征高,說明融合特征的檢測效果優(yōu)于單一特征,可以更充分地表示語音的特性。對比特征歸一化和KPCA降維的檢測效果得出,特征KPCA降維后檢測效果更佳,說明特征的歸一化融合存在信息冗余,經(jīng)過非線性降維能夠消除冗余達(dá)到最佳的檢測效果。
此外,在表2、表3、表4、表5中,不同特征作為輸入時,對比SVM、RF、MLP的檢測結(jié)果,可以得出MLP的檢測效果最佳,說明MLP將特征進(jìn)行抽象的轉(zhuǎn)換,具有更強(qiáng)的擬合能力,提高了病理語音的檢測效果。文中漢語字母的最佳識別率達(dá)到94.5%,漢語單音節(jié)的最佳識別率達(dá)到95.2%。
病理語音自動檢測技術(shù)的研究日益重要,它可以有效地減少病理語音診斷過程中人力物力的投入。目前,雖然聲學(xué)特征的研究成果豐富,但仍不能滿足臨床要求,并且單一特征對病理語音和正常語音的差異表示不足,因此,本文提出一種融合發(fā)音動作特征和聲學(xué)特征的方法用于聽障患者病理語音的檢測。實(shí)驗結(jié)果表明發(fā)音動作特征和聲學(xué)特征同樣有效,融合特征彌補(bǔ)了單一特征的不足,使用KPCA降維消除了特征之間的冗余信息,提高了檢測效果,本文的方法為醫(yī)學(xué)臨床的自動診斷技術(shù)提供了參考。