王振宇,解焱陸,張勁松
(北京語言大學(xué) 語言資源高精尖創(chuàng)新中心,北京 100083)
漢語二語學(xué)習(xí)者難以習(xí)得標(biāo)準(zhǔn)發(fā)音,即使有很多對話經(jīng)驗的高級漢語學(xué)習(xí)者也難以掌握正確的漢語發(fā)音和聲調(diào)。計算機輔助發(fā)音教學(xué)作為有限傳統(tǒng)教育資源的有力補充,能給予二語學(xué)習(xí)者及時有效的幫助和反饋。計算機輔助發(fā)音訓(xùn)練作為計算機輔助發(fā)音教學(xué)系統(tǒng)的重要組成部分,在系統(tǒng)構(gòu)建過程則發(fā)揮著重要作用。
在以往研究中,自動語音識別系統(tǒng)被應(yīng)用于在音段層級的發(fā)音偏誤檢測任務(wù)中來評估學(xué)習(xí)者發(fā)音的正確與否,以音素為單位計算對數(shù)后驗概率分?jǐn)?shù)來檢測發(fā)音偏誤[1]。Witt和Young[2]引入基于概率的發(fā)音良好度方法,此方法給出的是一個歸一化的對數(shù)似然比分?jǐn)?shù)并在文獻[3-5]中用于句子確認(rèn)。后來出現(xiàn)了一些發(fā)音良好度的變體[6-8],也都是基于每一個音素相對于母語者置信分?jǐn)?shù)均值來設(shè)置閾值從而判斷偏誤。以上系統(tǒng)提供的音段層級的反饋是比較有指導(dǎo)性和直觀的評價結(jié)果。
由于基于發(fā)音良好度方法的一個重要組成部分是依賴于大量人工標(biāo)注的自動語音識別系統(tǒng)。因此,我們想探究使用弱監(jiān)督的方法去獲得一個有區(qū)分性的特征表示,此方法也較適合于一些資源稀缺的情況[9-10]。之前的部分研究使用了一種叫孿生網(wǎng)絡(luò)[11]的結(jié)構(gòu)。此網(wǎng)絡(luò)將一對標(biāo)明相同與否的詞對輸入到兩個權(quán)值共享的深度神經(jīng)網(wǎng)絡(luò),從而得到話者和音段信息[12]。Synnaeve 等根據(jù)所給數(shù)據(jù)標(biāo)簽類型改進了損失函數(shù),在音素錯誤率上得到了和全監(jiān)督方法近乎相等的結(jié)果[13]。使用聲學(xué)詞向量的詞區(qū)分任務(wù)也已經(jīng)在幾個其他的研究中得以應(yīng)用[14-16],通過比較詞向量的距離計算平均錯誤率,來衡量系統(tǒng)準(zhǔn)確性。Herman等比較了幾種用于詞區(qū)分任務(wù)的方法,使用卷積孿生網(wǎng)絡(luò)使系統(tǒng)得到了進一步的提升[17]。
我們的方法引入聲學(xué)音素向量來確認(rèn)二語學(xué)習(xí)者的發(fā)音偏誤,并給出了有指導(dǎo)性且具體的反饋。基于前人的聲學(xué)詞向量想法,我們使用帶有配對信息的音素,基于弱監(jiān)督的方法來做音素區(qū)分任務(wù)。以定長的語音特征向量作為孿生網(wǎng)絡(luò)的輸入,判斷生成的音素向量是否來源于同一音素并依此修正生成向量間的距離。結(jié)果顯示,使用余弦最大間隔距離損失函數(shù)的卷積孿生網(wǎng)絡(luò)得到了最好的音素確認(rèn)結(jié)果?;诖私Y(jié)論,我們使用實驗得到的最好模型進行二語者的發(fā)音質(zhì)量評價,在不添加標(biāo)注的二語發(fā)音偏誤數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的情況下,得到了優(yōu)于基于發(fā)音良好度的方法的結(jié)果,并且模型的魯棒性也更好。
本文中,第一部分概要描述了經(jīng)典的發(fā)音良好度、DNN-HMM方法,以及基于聲學(xué)音素向量和孿生網(wǎng)絡(luò)的音素確認(rèn)的方法;第二部分對實驗配置和實驗過程進行具體說明,第三部分根據(jù)實驗結(jié)果進行分析討論,第四部分為總括性的結(jié)論。
本節(jié)介紹了傳統(tǒng)的發(fā)音評價方法—發(fā)音良好度,和經(jīng)典的基于DNN-HMM語音識別框架的發(fā)音偏誤檢測的基本原理。基于對傳統(tǒng)方法原理的思考,我們提出了用基于音素結(jié)合孿生網(wǎng)絡(luò)的方法進行發(fā)音偏誤確認(rèn)。
在發(fā)音評分中,發(fā)音良好度GOP(Goodness of Pronunciation)是最廣泛使用的方法之一。此方法為句子中的每個音素都給出一個置信分?jǐn)?shù)。音素p的發(fā)音良好度分?jǐn)?shù),如式(1)所示。
(1)
給定聲學(xué)模型和正則文本,p是標(biāo)準(zhǔn)單元,q是對比單元,Op是NF(number of frames)幀音素p的輸入特征。邊界信息來源于強制對其結(jié)果,Q是可能音素的集合。設(shè)置一個閾值以確認(rèn)當(dāng)前單元是否是一個正確發(fā)音,高于此閾值即為正確反之錯誤,此閾值根據(jù)任務(wù)和訓(xùn)練數(shù)據(jù)不同可做相應(yīng)調(diào)整??梢岳檬?1)計算任何給定的音素的對數(shù)后驗概率,并稱之為亞音段分?jǐn)?shù)。我們在音素發(fā)音錯誤確認(rèn)任務(wù)中,使用的基線系統(tǒng)是發(fā)音良好度評價系統(tǒng),該系統(tǒng)由在大規(guī)模母語者語料庫[18]訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)三因子聲學(xué)模型構(gòu)成。
深度神經(jīng)網(wǎng)絡(luò)結(jié)合隱馬爾科夫模型的聲學(xué)模型建模框架式是現(xiàn)今在自動語音識別領(lǐng)域比較通用和流行的框架,其在大規(guī)模的連續(xù)語音識別任務(wù)中的性能也遠(yuǎn)超傳統(tǒng)混合高斯模型GMM-HMM混合模型。因此,本文將DNN-HMM模型引入發(fā)音偏誤檢測的聲學(xué)模型建模階段,以期獲得更好地系統(tǒng)檢測性能。高迎明等在文獻[19]中將使用DNN-HMM混合模型訓(xùn)練得到的聲學(xué)模型應(yīng)用到發(fā)音偏誤檢測任務(wù)中,并得到88.6%的診斷正確率。DNN深度神經(jīng)網(wǎng)絡(luò)是前饋人工神經(jīng)網(wǎng)絡(luò),在它的輸入和輸出之間有多個隱藏層。每一層由多個用來保存參數(shù)的節(jié)點構(gòu)成,用輸入數(shù)據(jù)對一個多層的生成性模型—深層置信網(wǎng)絡(luò)(deep belief network, DBN)進行擬合得到參數(shù)初值[20]。DNN的輸出層一般為softmax輸出,從該層得到每一幀音頻數(shù)據(jù)所對應(yīng)的三音子音素的綁定狀態(tài)的后驗概率。已知從訓(xùn)練集估計得到的各綁定狀態(tài)的先驗概率,利用貝葉斯公式將先驗概率轉(zhuǎn)化為各狀態(tài)的后驗概率并輸出,某狀態(tài)s的輸出概率,如式(2)所示。
(2)
其中,o指每一幀的聲學(xué)特征,P(s)就是綁定狀態(tài)的先驗概率,P(s|o)是經(jīng)過DNN得到的狀態(tài)s的后驗概率,const(s)是與綁定狀態(tài)s無關(guān)的常量。得到各綁定狀態(tài)的輸出概率后,經(jīng)過HMM[21]算法得到相應(yīng)的識別結(jié)果。整體框架如圖1所示。
圖1 DNN-HMM框架
由于傳統(tǒng)發(fā)音良好度的方法的檢測效果有限,而基于DNN-HMM語音識別框架的發(fā)音偏誤檢測系統(tǒng)需要大量標(biāo)注了二語者發(fā)音偏誤的數(shù)據(jù),本文提出了音素向量的方法,期望通過得到音段層級聲學(xué)特征的高層表示來區(qū)分各音素種類,從而區(qū)分二語者偏誤發(fā)音和母語者標(biāo)準(zhǔn)發(fā)音。
音素區(qū)分任務(wù)將變長的語音段特征輸入神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)最后一層的輸出向量作為輸入特征的高維表示,在這個向量空間中相同語音段的映射距離近,不同的類別互相遠(yuǎn)離。關(guān)鍵詞搜索[23]和無監(jiān)督條目搜索[24]已經(jīng)使用過了類似的表示向量。在漢語中共有60個音素類型,21個聲母39個韻母,每個漢字帶一個聲調(diào)(包括輕聲共五類),并且聲調(diào)由韻母,也就是元音來區(qū)分。在訓(xùn)練集中理論上,應(yīng)有216類音素類型(21+39*5)。由于在漢語中部分元音不對應(yīng)某些聲調(diào),其中204類在漢語中較為常見。所以,訓(xùn)練集中共包括204類音素類型。這個分類方法期望在一個音素區(qū)分任務(wù)中同時解決確認(rèn)聲調(diào)和發(fā)音偏誤確認(rèn)兩個問題。最終,不同的音素特征向量應(yīng)該被映射為能有效區(qū)分音素類型的高維表示向量。
這種基于配對信息的監(jiān)督學(xué)習(xí)已經(jīng)在一些領(lǐng)域中得到應(yīng)用,包括語義詞向量[25-27]和圖像方面的應(yīng)用[28]。這些研究同樣引入了孿生網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)于19世紀(jì)90年代被首次提出[11]。我們的發(fā)音偏誤確認(rèn)任務(wù)通過判定標(biāo)準(zhǔn)發(fā)音人和二語者的發(fā)音相似性來達(dá)到評價二語者發(fā)音良好度的目的,這和孿生網(wǎng)絡(luò)用來區(qū)分語義或者圖像的方式有相似之處。孿生網(wǎng)絡(luò)由兩個權(quán)值共享的神經(jīng)網(wǎng)絡(luò)構(gòu)成,先輸入兩段語音特征矩陣,再將其映射到由最后一層全連接層產(chǎn)生的高維向量的空間。在訓(xùn)練過程中,依據(jù)高維特征表示空間中的因素向量是否來自于同一類音素來調(diào)整優(yōu)化他們之間的距離。在訓(xùn)練集中的數(shù)據(jù)標(biāo)簽只是配對信息而不是具體的音素標(biāo)注,即每對輸入特征都帶有一個標(biāo)簽來說明他們是不是一類數(shù)據(jù)。這種輔助信息在缺乏資源或者數(shù)據(jù)稀疏的場合更容易獲得,之前有研究使用無監(jiān)督的條目發(fā)現(xiàn)系統(tǒng)來找未定義的匹配詞對[29-30]。
在我們的實驗中,語料依據(jù)強監(jiān)督的音素識別系統(tǒng)給出強制對齊結(jié)果切分成音素段,且音素邊界準(zhǔn)確率在96.26%誤差在50毫秒。因所有語音數(shù)據(jù)都是文本已知的朗讀語料,故依據(jù)強制對齊結(jié)果得到每個音素的邊界。然后,再結(jié)合文本中音素序列給每一個音段打上對應(yīng)的標(biāo)簽。最后,根據(jù)音素類別標(biāo)簽生成配對信息。由于訓(xùn)練語料[18]中均為發(fā)音狀況良好的母語者,我們默認(rèn)將母語者發(fā)音作為標(biāo)準(zhǔn)音來訓(xùn)練模型。所以在數(shù)據(jù)標(biāo)簽獲取過程中無需人工標(biāo)注數(shù)據(jù)。圖2描述了我們的網(wǎng)絡(luò)結(jié)構(gòu)。
圖2 孿生網(wǎng)絡(luò)結(jié)構(gòu)(雙生/三生)
圖2是以兩個輸入和以三個輸入開始的孿生網(wǎng)絡(luò)結(jié)構(gòu),兩種輸入模式對應(yīng)不同的損失函數(shù)?;跉W式距離[28](式(3))的損失函數(shù)更易于理解也符合網(wǎng)絡(luò)的設(shè)計初衷,它更傾向于解決區(qū)分不同配對的問題,對于相同的配對效果不佳。然而,余弦距離相似性[13](式(4))的損失函數(shù)可以計算向量間的夾角而不再是空間距離。余弦距離相似性損失函數(shù)的最好情況是相同的向量夾角趨近于0,不同的向量夾角趨近于正交,如式(3)、式(4)所示。
我們希望將訓(xùn)練集中每一類和其他類區(qū)分開,且對多個不同類的相似程度也不同,相對距離更適合作為損失函數(shù)中的距離衡量,并假設(shè)沒有在訓(xùn)練集中出現(xiàn)的配對為不同的對。由此我們引入了余弦最大間隔距離損失[26](式(5))這個損失函數(shù)。
Losscoshinge=max{0,m+dcos(x1,x2)-d(x1,x3)}
(5)
本節(jié)介紹了所有實驗用到的實驗數(shù)據(jù),給出了基于計算音素后驗概率的發(fā)音良好度方法的實驗配置和部分實現(xiàn)細(xì)節(jié),以及基于音素向量的孿生網(wǎng)絡(luò)的網(wǎng)絡(luò)配置和實驗過程。
863語音識別語音語料庫[18]用作訓(xùn)練數(shù)據(jù),其中10%的數(shù)據(jù)用作開發(fā)集數(shù)據(jù)。測試數(shù)據(jù)分兩部分,不同實驗?zāi)康南率褂貌煌瑴y試語料。用母語者數(shù)據(jù)測試模型的性能,用二語者數(shù)據(jù)來做發(fā)音偏誤確認(rèn)實驗。所有測試語料來自北京語言大學(xué)中介語語音語料庫[31]。數(shù)據(jù)描述如表1、表2所示。
表1 測試集數(shù)據(jù)
表2 訓(xùn)練集數(shù)據(jù)
我們使用kaldi語音識別工具箱[32]實現(xiàn)發(fā)音良好度評價系統(tǒng),訓(xùn)練出一個上下文相關(guān)的HMM-DNN聲學(xué)模型,基于聲學(xué)模型輸出的后驗概率為每個音素給定一個音段層級的發(fā)音分?jǐn)?shù)。使用48維聲學(xué)特征,包括13維MFCC和3維音高還有各自的一階和二階差分系數(shù)。深度神經(jīng)網(wǎng)絡(luò)包括六個全連接層,每一層有1 024個單元。輸出層使用softmax函數(shù)產(chǎn)生2 943個幀級別音素概率狀態(tài)類型。輸入為11幀向量,由當(dāng)前幀和前后五幀拼接而成。給定強制對齊結(jié)果,使用發(fā)音良好度評價系統(tǒng)得到的幀級別的對數(shù)后驗概率分?jǐn)?shù),通過式(1)計算發(fā)音良好度分?jǐn)?shù),設(shè)置閾值為0.5來給出一個這個音是否發(fā)對的二擇一判斷。結(jié)果表明,發(fā)音良好度系統(tǒng)在母語者數(shù)據(jù)上的測試結(jié)果能達(dá)到86.32%準(zhǔn)確率。
提取特征階段以10ms為幀移20ms為窗長提取MFCC特征和音高以及各自的一階和二階差分系數(shù),共48維聲學(xué)特征。聲學(xué)音素向量的方法要求將定長的語音特征向量映射到定長的特征表示空間中。由此我們將幀數(shù)較長的音素段利用動態(tài)時間規(guī)整[33]方法,將幀數(shù)較短的音素段使用補零的方法,統(tǒng)一歸整18幀,即0.018秒。動態(tài)時間規(guī)整的方法的缺點之一就是需要計算大量的對齊距離,且不管是動態(tài)時間規(guī)整還是補零對原始信息都有一定程度的損失和扭曲,結(jié)合兩個方法的目的也是為了最大程度上緩解原始信息的扭曲。同時,對每句話做全局均值方差歸一化[34]以盡量消除話者或者其他方面信息的干擾。
本文使用了大約100小時的母語者數(shù)據(jù)來做音素對,整個訓(xùn)練數(shù)據(jù)包括開發(fā)集產(chǎn)生235萬個音素段,這些數(shù)據(jù)被分批加入到孿生網(wǎng)絡(luò)中訓(xùn)練。每批數(shù)據(jù)有512個條目,可產(chǎn)生6萬個音素對,我們隨機挑選其中3萬對,并且相同對和不相同對各半,以保證訓(xùn)練數(shù)據(jù)平衡。測試分兩步,先用母語者數(shù)據(jù)測試以檢測模型的性能,然后使用二語者數(shù)據(jù)在性能最好的模型上做音素區(qū)分實驗,并與發(fā)音良好度評價系統(tǒng)結(jié)果進行比較,所有測試數(shù)據(jù)文本來源一致。
本文使用利用tensorflow作為后臺的keras工具包實現(xiàn)孿生網(wǎng)絡(luò)。使用ADADELTA[35]作為隨機優(yōu)化方法,ADADELTA的優(yōu)點是依照過去梯度的積累來調(diào)整學(xué)習(xí)率。網(wǎng)絡(luò)結(jié)構(gòu)描述如下:
DNN SIA: 2 048個節(jié)點的全連接層,激活函數(shù)RELU;1 024個節(jié)點的全連接層,激活函數(shù)RELU;256個節(jié)點的全連接層,激活函數(shù)為線性激活函數(shù)。
CNN SIA: 96個過濾器的一維卷積層對每9幀進行過濾,激活函數(shù)RELU最大池化層,步長為3;96個過濾器的一維卷積層對每8幀進行過濾,激活函數(shù)RELU最大池化層,步長為3;1 024個節(jié)點的全連接層,激活函數(shù)為RELU;256節(jié)點的全連接層,線性激活函數(shù),損失函數(shù)是基于歐氏距離的損失函數(shù)或者是基于余弦相似性的損失函數(shù)。
CNN TRI: 和CNN SIA的結(jié)構(gòu)相同,只是網(wǎng)絡(luò)被復(fù)制成了三份,接受三個輸入,損失函數(shù)余弦最大間隔損失函數(shù)。
我們比較了不同類型的損失函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu),最后使用余弦最大間隔距離損失函數(shù)的三輸入孿生網(wǎng)絡(luò)達(dá)到了最好的效果,邊界參數(shù)m為0.15。
對于母語者數(shù)據(jù)我們以預(yù)測結(jié)果是否和根據(jù)標(biāo)注文本得到的配對信息相對應(yīng)來衡量模型的精度。對于二語者數(shù)據(jù),基于實驗中的四種情況: 接受率,拒絕率,錯誤接受率,錯誤拒絕率。最后該實驗包括三個指標(biāo)來評價偏誤確認(rèn)系統(tǒng)的性能,分別是:
False Rejection Rate(FRR): 正確的發(fā)音被診斷為錯誤發(fā)音的數(shù)量占全部正確發(fā)音的比例。
False Acceptance Rate(FAR): 錯誤的發(fā)音被診斷為正確的數(shù)量占全部錯誤發(fā)音的數(shù)量占全部的比例。
Diagnostic Accuracy: 預(yù)測結(jié)果和標(biāo)簽一致的比例,即正確的被診斷為正確的,偏誤發(fā)音被預(yù)測為偏誤的比例。
表3描述了在母語測試數(shù)據(jù)上的模型準(zhǔn)確率結(jié)果。每個模型的閾值都是0.5,設(shè)置成0.5的原因是,針對根據(jù)聲韻母標(biāo)注而來的配對標(biāo)簽,每次預(yù)測的過程其實都是二分類問題,因為隨機的概率是0.5,所以每個模型給出的預(yù)測概率必須大于0.5才算預(yù)測正確。
表3 在母語者數(shù)據(jù)集上的測試結(jié)果
分析以上結(jié)果我們發(fā)現(xiàn),使用余弦最大間隔損失的三輸入的孿生網(wǎng)絡(luò)達(dá)到最好的效果。高迎明等結(jié)合了一些詞典擴展和特征融合的技巧[19]使用二語者數(shù)據(jù)訓(xùn)練基于DNN-HMM框架的語音識別系統(tǒng),來進行發(fā)音偏誤監(jiān)測任務(wù)。本文在相同的測試數(shù)據(jù)集上,用表3中所有的方法訓(xùn)練得到的模型來進行音素發(fā)音偏誤確認(rèn)的實驗,并與發(fā)音良好度模型和文獻[19]中的DNN-HMM模型進行對比,DNN-HMM的結(jié)果來自于高迎明的實驗結(jié)果[19]。結(jié)果如表4所示。
表4 在二語者數(shù)據(jù)集上的測試結(jié)果
從結(jié)果中我們發(fā)現(xiàn),發(fā)音良好度方法的效果下降非常明顯。原因是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的不匹配造成的。訓(xùn)練數(shù)據(jù)為母語者,而測試數(shù)據(jù)為二語者,則二語者產(chǎn)生的非標(biāo)準(zhǔn)音素發(fā)音被當(dāng)作未知音素,其識別結(jié)果無法估計,由此造成了較大損失。而DNN-HMM模型效果較好的原因是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)匹配程度較高, 且基于強監(jiān)督學(xué)習(xí)方法依賴音段層級的人工標(biāo)注。相比之下,孿生網(wǎng)絡(luò)的方法就有較好的魯棒性和可實踐性,原因是結(jié)合孿生網(wǎng)絡(luò)的區(qū)分原則。如果是在訓(xùn)練過程中沒有出現(xiàn)的配對就視為是不同的。那么,恰好二語者發(fā)音的非標(biāo)準(zhǔn)音素發(fā)音就被視為了和標(biāo)準(zhǔn)音不同的類型。我們知道相比母語者數(shù)據(jù),二語者數(shù)據(jù)更難以收集,所以孿生網(wǎng)絡(luò)訓(xùn)練音素向量的方法也有更好地可行性。這里我們還嘗試了調(diào)整孿生網(wǎng)絡(luò)最后一層生成的向量的維度,結(jié)果表明最后一層維度是128維的情況下,音素區(qū)分正確率最高(圖3)。
圖4展示了我們的方法應(yīng)用在音素發(fā)音偏誤確認(rèn)任務(wù)的一個例子,發(fā)音偏誤確認(rèn)系統(tǒng)給出了該句中每個音素與標(biāo)準(zhǔn)音的相似度分?jǐn)?shù),該條數(shù)據(jù)來自于二語者數(shù)據(jù)。該句是一個日本女性發(fā)音人的音頻數(shù)據(jù),內(nèi)容為“很忙,你呢”。通過人工聽辨發(fā)現(xiàn),其中“很”和“呢”的發(fā)音有較明顯的聲調(diào)錯誤。
圖3 調(diào)參結(jié)果
圖4 確認(rèn)樣例
發(fā)音評估是二語教學(xué)中比較重要的環(huán)節(jié)。傳統(tǒng)教學(xué)方法難以及時和有針對性的給出二語學(xué)習(xí)者有效的幫助和反饋,故我們希望用計算機輔助發(fā)音教學(xué)來彌補傳統(tǒng)教學(xué)方法的不足。其中計算機輔助發(fā)音訓(xùn)練是影響計算機輔助發(fā)音教學(xué)系統(tǒng)性能的重要部分。二語者的數(shù)據(jù)和母語標(biāo)準(zhǔn)模板數(shù)據(jù)在聽覺感知上有較明顯差異,結(jié)合音素向量可以作為輸入特征的高層特征表示和孿生網(wǎng)絡(luò)能夠區(qū)分輸入特征向量的相似性的特點。本文提出了一種基于聲學(xué)音素向量和孿生網(wǎng)絡(luò)的方法來訓(xùn)練音素區(qū)分模型,之后依據(jù)系統(tǒng)給出的二語者和母語者的發(fā)音相似程度來給二語者的發(fā)音提供一個音素層級的評估打分。二語者可以根據(jù)該有指導(dǎo)性意義的打分來提高自己的發(fā)音水平。對比發(fā)音良好度基線系統(tǒng)和基于DNN-HMM框架的偏誤檢測系統(tǒng),本文方法訓(xùn)練得到的模型的魯棒性更優(yōu),而且訓(xùn)練數(shù)據(jù)及相應(yīng)標(biāo)簽也更易獲得,并在音素診斷診斷正確率上達(dá)到89.19%的效果。