段淑斐,王俊芹,DINGAM Camille,張雪英,孫 穎
(1.太原理工大學 信息與計算機學院,山西 太原 030024;2.天津大學 電氣自動化與信息工程學院,天津 300072)
構(gòu)音障礙(Dysarthria)是指由于中樞神經(jīng)系統(tǒng)的損傷,致使患者言語運動不協(xié)調(diào),從而導致言語障礙的現(xiàn)象[1].運動性構(gòu)音障礙屬于構(gòu)音障礙中的一種,它是由于神經(jīng)和肌肉的器質(zhì)性病變,造成與構(gòu)音相關(guān)的肌肉收縮力減弱及運動不精確或不協(xié)調(diào)[2],進而出現(xiàn)呼吸、喉發(fā)音、共鳴、構(gòu)音和韻律等異常[3].因此對于構(gòu)音障礙的正確診斷、評價是患者康復治療中必備的一項內(nèi)容,對于構(gòu)音障礙病情嚴重程度的評估或病情分級在言語治療中也起著至關(guān)重要的作用[4].目前在對構(gòu)音障礙的分析評估上,病情分級的方法通常是主觀分析為主,客觀分析為輔[5],在針對病患的診斷和治療中主要依賴于評估者的主觀感受,且需要評估者具有較高的專業(yè)技能水平,這樣會限制診斷的準確率,且結(jié)果不具有廣泛性.隨著機器學習、人工智能技術(shù)的發(fā)展,對構(gòu)音障礙的研究也已不限于醫(yī)學領(lǐng)域,例如研究者可以將病理語音及發(fā)音特征提取出來,利用計算機進行數(shù)據(jù)分析與病情分級,為構(gòu)音障礙患者的診斷評估提供較為準確客觀的方法,并且研究結(jié)果能推動醫(yī)學上自動分級檢測技術(shù)的發(fā)展.
在現(xiàn)有的對構(gòu)音障礙識別的研究中,研究者大多通過提取音頻特征,如音頻的能量特征與基音周期[6]、共振峰集中率[7]、韻律特征與倒譜系數(shù)的融合特征[8]等進行分析,用以區(qū)別構(gòu)音障礙患者與正常人.上述研究雖然增強了構(gòu)音障礙識別的客觀性,但對于運動性構(gòu)音障礙而言,了解構(gòu)音器官的運動模式,獲得動態(tài)發(fā)音空間的位置信息,才是幫助構(gòu)音障礙患者的有效方法[9].因此為了探究構(gòu)音障礙患者的動態(tài)發(fā)音空間及位置信息,張丞然[6]通過計算每個目標因素的發(fā)音位置點的分布,發(fā)現(xiàn)構(gòu)音障礙患者的發(fā)音區(qū)域比正常說話人的區(qū)域要小,且更靠近口腔前部.然而,患者在語音的連接中發(fā)生構(gòu)音障礙的可能性比在單音素水平上更高[10-11],在日常交流中,詞匯和句子是基本、有效的語言,短語發(fā)音除了可以很好地檢驗說話人表達單個單詞的能力[12],還可以檢驗連續(xù)發(fā)音時語音連接的流暢性.對構(gòu)音障礙患者的發(fā)音空間進行的探索不僅可以用來尋找構(gòu)音障礙患者與正常人發(fā)音特征之間的差異,還可以用于對構(gòu)音障礙患者進行病情分級.2015年的Interspeech計算機輔助語言學大賽[4]就關(guān)注了帕金森患者的病情分級,如Willamson等[13]提出了基于通道延遲相關(guān)和協(xié)方差矩陣的帕金森病理分級系統(tǒng).然而該挑戰(zhàn)任務主要集中在提取語音的頻譜和韻律特征方面,缺乏發(fā)音特征.
本文基于多倫多大學開發(fā)的TORGO數(shù)據(jù)庫[15],首先對連續(xù)發(fā)音時不同說話者舌部的發(fā)音運動軌跡以及空間位移進行對比,探究構(gòu)音障礙與發(fā)音空間的關(guān)系.隨后利用K-means算法計算出空間的質(zhì)心,在SPSS軟件[14]中對此質(zhì)心數(shù)據(jù)進行單變量方差分析、箱線圖分析,進一步對構(gòu)音障礙者與正常人、不同病情程度的構(gòu)音障礙患者之間的差異進行分析.最后選取質(zhì)心和位移中值兩個發(fā)音空間特征,分別采用J48決策樹以及隨機森林(Random Forest,RF)分類器對正常人、輕度、中度、重度構(gòu)音障礙患者進行病情分級,最后對4種不同人群的正確分類率進行比較.
TORGO數(shù)據(jù)庫是由加拿大多倫多大學計算機科學與語音語言病理學系聯(lián)合Holland-Bloorview兒童康復醫(yī)院共同開發(fā)的包含了近23 h的英文語音數(shù)據(jù),以及與聲音數(shù)據(jù)同步的發(fā)音運動數(shù)據(jù).受試者包括8名構(gòu)音障礙患者(3女5男)、7名正常說話者(3女4男).其中構(gòu)音障礙患者為腦癱和肌萎縮性側(cè)索硬化患者,這兩種病因也是最常見的導致患者語音殘疾的原因.數(shù)據(jù)庫中所有數(shù)據(jù)集合都包含4種閱讀文本,語料分別由非詞短語(Non-words)、短語(Short words)、限制句子(Restricted sentences)和非限制句(Non-restricted sentences)構(gòu)成.
鑒于舌部在發(fā)音中的重要作用,我們只選擇在舌部上的3個傳感器位置點作為研究對象,這3個位置點分別在舌面上的Sensor 3舌尖(Tongue Tip,TT——舌尖后的1 cm處),Sensor 2舌中(Tongue Middle,TM——舌尖線圈后面的3 cm處)和Sensor 1舌根(Tongue Back,TB——舌中線圈后面2 cm處),如圖1所示.
為了探究不同病情嚴重程度的構(gòu)音障礙患者其發(fā)音空間的異同,并進行病情分級研究,因此選擇了兩名輕度患者DS01、DS02;一名中度患者DS03;一名重度患者DS04作為研究對象.此外,另選兩名正常說話人NS01、NS02作為對照.所有說話者發(fā)音的文本內(nèi)容均選擇為短語,再對短語內(nèi)容進行進一步篩選,使得每位說話者所說的文本內(nèi)容均相同.數(shù)據(jù)庫篩選的情況如表1所示,表1中DS(Dysarthria speaker)表示有構(gòu)音障礙的說話者,NS(Normal speaker)表示正常說話者.
圖1 傳感器位置點Fig.1 Sensor position point
表1 數(shù)據(jù)庫篩選情況Tab.1 Database filtering
利用統(tǒng)計分析軟件SPSS繪制出說話者在講短語時舌部運動軌跡的3維散點圖,對比不同說話者的發(fā)音空間以及位置分布.此處以短語“yes”為例,列出DS01(輕度)、DS03(中度)、DS04(重度)患者與NS01(正常人)舌尖處運動的3維散點圖,如圖2所示.
圖2 講短語“yes”時舌尖處的3維散點圖對比Fig.2 Comparison of three-dimensional scatter diagram of tongue tip when speaking the phrase ‘yes’
通過對比觀察說話者講話時舌部固定發(fā)音位置點的3維運動散點圖(運動軌跡),可以對構(gòu)音障礙患者的病情嚴重程度進行簡單地判斷.從圖2中即可初步判斷DS01輕度至DS04重度患者病情程度呈遞增趨勢,因為他們的發(fā)音軌跡較NS01的相似性逐漸減小,NS01在講“yes”時舌尖呈現(xiàn)“Y”字形的運動軌跡,DS01輕度患者的舌尖呈現(xiàn)“V”字形的運動軌跡,而DS03中度患者的舌尖呈現(xiàn)一條類似“V”字形右半部分的軌跡且較為雜亂,DS04重度患者舌尖的運動軌跡則與NS01無任何相似之處.
說話者在講第i條短語(例如“yes”)時,在固定發(fā)音位置點(例如舌尖)的某一方向上(例如X方向)的發(fā)音位置數(shù)據(jù)用向量Xi表示,表示錄制第i條發(fā)音短語的位置數(shù)據(jù),1≤i≤n,n為所講短語的條數(shù).則在講“yes”時舌尖處X方向上的最大及最小位移分別是
Xmax,i=max(Xi)i=1,2,…,n,
(1)
Xmin,i=min(Xi)i=1,2,…,n.
(2)
那么在該方向上的位移中值為
(3)
如圖3所示,列出不同說話者在講短語“yes”時舌尖分別在前后(X方向)、左右(Y方向)、上下(Z方向)上最大位移Xmax,i與最小位移Xmin,i的對比,以及位移中值Xmed,i.
圖3 講短語“yes”時舌尖位移的對比Fig.3 Comparison of displacement of tongue tip when speaking the phrase ‘yes’
在圖3中,3名患者在X,Y,Z3方向上舌尖的位移均比正常人的位移小,由此可以發(fā)現(xiàn)相比于正常人,構(gòu)音障礙患者舌部在口腔中發(fā)音時位置更偏后、偏左、偏下(向前為X的正方向、向右為Y的正方向、向上為Z的正方向);只觀察上下(Z)方向上的位移數(shù)據(jù),可以發(fā)現(xiàn)重度患者的舌尖位移最低、輕度患者的舌尖位移最高,說明病情越嚴重,其舌尖位移的位置越低,舌部越無力抬起.此外,在前后(X)與左右(Y)方向上,均為輕度患者與正?;颊叩奈灰撇钭畲?
2.2.1 K-means聚類算法
K-means算法的基本思想是:先確定常數(shù)K,該常數(shù)代表聚類類別數(shù),首先隨機選定初始點為質(zhì)心,并通過計算每一個樣本與質(zhì)心之間的相似度(這里為歐氏距離),將樣本點歸到最相似的類中.再重新計算每個類的質(zhì)心(即為類中心),重復此過程直至質(zhì)心不再改變,最終就確定了每個樣本所屬的類別以及每個類的質(zhì)心.
當以歐氏距離作為衡量樣本與質(zhì)心之間的相似度時,K-means算法的目標函數(shù)為
(4)
其中:N是數(shù)據(jù)數(shù)目;C是劃分簇的數(shù)目;rc是一個0到1之間的變量,當數(shù)據(jù)點xn被歸類到C簇時為1,否則為0.K-means算法的目標就是最小化這個目標函數(shù).
由于此處每條短語的發(fā)音軌跡只有一個,即只有一個聚類類別,因此常數(shù)K為1,聚類中心μ是距離每一個樣本點xn的歐氏距離均最小的點,將其作為該發(fā)音運動軌跡的質(zhì)心,該質(zhì)心可以表示如下:
μ=min{‖xn-μ‖2|n=1,2,…,N}.
(5)
為進一步探究不同病情程度的構(gòu)音障礙患者之間的差異性,我們利用K-means聚類算法求出各說話者在講每一條短語時發(fā)音運動軌跡的質(zhì)心.
以DS03患者的質(zhì)心數(shù)據(jù)為因變量,分別以DS01患者和DS04患者的質(zhì)心數(shù)據(jù)為協(xié)變量進行單變量方差分析,其顯著性結(jié)果如表2(見 第292頁)所示.若結(jié)果中p<0.05,則說明兩個變量之間存在顯著性差異,反之說明兩個變量之間不存在顯著性差異,且p越接近于1,兩變量間的差異性越小(由于DS04患者沒有舌根處的發(fā)音運動數(shù)據(jù),因此只進行了舌中、舌尖處質(zhì)心數(shù)據(jù)的顯著性對比分析).
在表2中,可以看到無論在舌中還是舌尖處,在上下(Z)方向上3種病情程度的患者之間的p值均小于0.200,平均值為0.078;而在前后(X)、左右(Y)方向上的顯著性均大于在上下(Z)方向,其中前后方向上不同病情患者間p值均值為0.538,左右方向不同病情患者間p值均值為0.861.說明不同病情嚴重程度的構(gòu)音障礙患者之間的發(fā)音運動主要差異在上下方向上.
表2 DS03中度與DS01輕度、DS04重度患者之間的顯著性分析結(jié)果Tab.2 Significant results among DS01 mild,DS03 moderate and DS04 severe patients
2.2.3 箱線圖分析
在箱線圖的數(shù)據(jù)統(tǒng)計描述中,5個統(tǒng)計量分別是最小值、第一四分位數(shù)Q1(下四分位數(shù))、中位數(shù)Q2、第三四分位數(shù)Q3(上四分位數(shù))與最大值,四分位距dIQR=Q3-Q1.在Q3+1.5dIQR和Q3-1.5dIQR處為內(nèi)限,內(nèi)限之外的點用圓圈標注為異常值;在Q3+3dIQR和Q3-3dIQR處為外限,外限之外的點用星型標注為極端值,此處將異常值與極端值統(tǒng)稱為偏離值.
式(5)是發(fā)出某一短語時固定發(fā)音位置點的3維質(zhì)心,那么在n條短語的發(fā)音中在Y(左右)方向上的最大值、最小值分別為
μy,max=max(μyj)j=1,2,…,n,
(6)
μy,min=min(μyj)j=1,2,…,n.
(7)
將n條短語發(fā)音的Y方向的質(zhì)心數(shù)據(jù)從小到大排序為{μy1<μy2<…<μyj<…<μyn},j=1,2,…,n.那么下四分位數(shù)、中位數(shù)、上四分位數(shù)分別為
μyQ11≤Q1=(n+1)×0.25≤j≤n,
(8)
μyQ21≤Q2=(n+1)×0.5≤j≤n,
(9)
μyQ31≤j≤Q3=(n+1)×0.75≤n.
(10)
圖4所示為DS01(輕度)、DS03(中度)與NS01(正常人)舌尖(TT)處質(zhì)心數(shù)據(jù)在Y方向上的箱線圖對比,由此圖可以得到如下結(jié)論:
南昌大學教授彭迪云提出,鄉(xiāng)村振興首先要做好鄉(xiāng)村脫貧,鄉(xiāng)村脫貧要借助金融的力量,金融是現(xiàn)代經(jīng)濟的核心,金融扶貧是打贏脫貧攻堅戰(zhàn)的重大舉措和關(guān)鍵支撐。金融助推國家精準扶貧,不但是金融相關(guān)部門的責任與使命,更是整個金融行業(yè)潛力的再發(fā)掘的重要機遇。他在論文中以江西為例專門就農(nóng)村金融精準扶貧的成效進行了評價,并提出了應對的政策建議。
圖4 舌尖處左右方向的質(zhì)心數(shù)據(jù)箱線圖Fig.4 Boxplot of phonological centroid data for the left and right of the tongue tip
(1)構(gòu)音障礙患者在左右(Y)方向上的發(fā)音位置質(zhì)心偏離值分布與正常人的相反.即正常人在左右方向上的發(fā)音位置質(zhì)心偏離值分布偏左,而構(gòu)音障礙患者在左右方向上的發(fā)音位置質(zhì)心偏離值分布偏向右邊.
(2)對比構(gòu)音障礙患者與正常人,發(fā)現(xiàn)構(gòu)音障礙患者的偏離值分布較為分散且范圍較大,而正常人的偏離值分布較為集中且范圍小.
(3)在構(gòu)音障礙患者之間進行比較,可以發(fā)現(xiàn)患者的病情較嚴重時,其發(fā)音運動的質(zhì)心箱圖中四分位距更大,且中位數(shù)位置也更偏.
本節(jié)選取發(fā)音運動軌跡的質(zhì)心與位移中值兩個發(fā)音空間特征,分別輸入到J48決策樹和隨機森林分類器中,進行對正常人、輕度構(gòu)音障礙患者、中度構(gòu)音障礙患者、重度構(gòu)音障礙患者的分類識別,共有4種組合方式.J48決策樹的置信因子設(shè)置為0.25,每個葉的最小實例數(shù)量設(shè)置為2.然后,從篩選后的數(shù)據(jù)中,選取65%作為訓練集,35%作為測試集,并采用5折交叉驗證法來檢驗特征以及識別網(wǎng)絡(luò)的性能.
圖5 兩種分類器對短語發(fā)音空間特征的識別率Fig.5 Recognition rate of two classifiers for phrase pronunciation space features
采用兩種分類器對兩種發(fā)音空間特征進行分類的識別率見圖5,可以發(fā)現(xiàn)用隨機森林分類器對不同病情程度的構(gòu)音障礙患者和正常人識別的識別率均比用J48決策樹的要高.另外,在說話者的發(fā)音空間特征方面,對位移中值的識別率總是大于對質(zhì)心的識別率.
上述4種組合方式得出的混淆矩陣見表3~表6.其中對輕度DS的誤判共有6次、對中度DS的誤判共有1次、對重度DS和NS的誤判均共有4次,說明4種情況的分類器均對中度DS的預測效果最好.此外,在表4和表6中,兩種分類器對位移中心的分類識別中,對中度DS和重度DS均不存在誤判,說明對位移中值進行分類,可以很好地區(qū)分中度和重度構(gòu)音障礙患者.
表3 J48決策樹對質(zhì)心的分類Tab.3 Classification of centers of mass by J48 decision tree
表4 J48決策樹對位移中心的分類Tab.4 Classification of displacement centers by J48 decision tree
表5 隨機森林對質(zhì)心的分類Tab.5 Classification of centers of mass by random forest
表6 隨機森林對位移中心的分類Tab.6 Classification of displacement centers by random forests
為進一步直觀地對比構(gòu)音障礙患者病情分級的準確率,計算正確分類率來進行分析.正確分類率通過靈敏度(True positive rate)λTP來表示,計算方式如下:
(11)
其中:kTP表示預測類別為正,真實類別為正的樣本數(shù),即某一真實類別被正確預測的個數(shù);kFN表示預測類別為負,真實類別為正的樣本數(shù),即某一真實類別被錯誤預測的個數(shù).圖6為發(fā)音空間特征是質(zhì)心的正確分類對比圖.圖7為發(fā)音空間特征是位移中值的正確分類對比圖.
圖6中,對于輕度DS,隨機森林進行分類時的正確率為98.39%,比J48決策樹提高了1.62%;對于中度DS,隨機森林進行分類時的正確率為100%,比J48決策樹提高了3.23%;對于重度DS,隨機森林進行分類時的正確率為96.77%,比J48決策樹提高了6.45%.對于正常人,隨機森林與J48決策樹的分類正確率相同.
圖7中,對于輕度DS,隨機森林進行分類時的正確率為98.39%,比J48決策樹提高了1.62%.對于中度DS、重度DS、正常人,隨機森林與J48決策樹的分類正確率相同.
圖6 發(fā)音特征為質(zhì)心的正確分類率Fig.6 Correct classification rate of the centroid as the articulatory feature
綜上所述,采用隨機森林分類器對受試者的舌部位移中值這一發(fā)音運動特征進行分類識別時,可以得到最優(yōu)識別性能,同時也說明了隨機森林在對質(zhì)心與位移中值兩個發(fā)音運動特征的選擇性方面具有一定的優(yōu)越性.
對于構(gòu)音障礙患者的評估與治療的研究越來越多,此前的研究大多是基于聲學特征的.對發(fā)音運動過程中發(fā)音器官的發(fā)音位置進行直接測量,得出發(fā)音運動特征并對其進行分析研究,更有利于分析構(gòu)音障礙的特征,尋找構(gòu)音障礙患者與正常人、構(gòu)音障礙患者之間的差異.首先,本文基于發(fā)音空間特征,分析了構(gòu)音障礙患者與正常人在講話時發(fā)音位置在空間中的分布,通過對比構(gòu)音障礙患者與正常人發(fā)音運動的3維散點運動軌跡,發(fā)現(xiàn)了構(gòu)音障礙患者發(fā)音時舌部較正常人偏后、偏左、偏下的結(jié)論,以及正常人與構(gòu)音障礙患者之間、不同病情程度的構(gòu)音障礙患者之間的差異主要在上下運動方向,且病情越嚴重,患者舌部越無力,運動位置越靠下.其次,對使用K-means聚類算法找出的質(zhì)心與位移中值兩個發(fā)音空間特征,分別采用J48決策樹以及隨機森林分類器對正常人,輕度、中度、重度構(gòu)音障礙患者進行分類識別,發(fā)現(xiàn)采用隨機森林分類器對受試者的舌部位移中值發(fā)音運動特征進行分類識別時可達到最優(yōu)識別性能.在今后的研究中,可以尋找更準確的發(fā)音空間特征或是發(fā)音運動特征,進行構(gòu)音障礙患者的病情分級研究.本文采用公開數(shù)據(jù)庫進行試驗,但是數(shù)據(jù)庫中的被試構(gòu)音障礙患者人數(shù)較少,且存在被測點發(fā)音位置數(shù)據(jù)缺失的情況,而且在實驗中,本文所用數(shù)據(jù)庫中的數(shù)據(jù)是經(jīng)過同一文本內(nèi)容的篩選后得到的,進一步減少了數(shù)據(jù)量,因此在算法的普適性方面有待后續(xù)研究進行完善.