亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征組合的構(gòu)音障礙語音識別

        2022-03-01 13:13:12梁正友黎雨星
        計算機工程與設計 2022年2期
        關(guān)鍵詞:數(shù)據(jù)庫特征實驗

        梁正友,黎雨星,孫 宇,姚 強

        (1.廣西大學 計算機與電子信息學院,廣西 南寧 530004; 2.廣西大學 廣西多媒體通信與網(wǎng)絡技術(shù)重點實驗室,廣西 南寧 530004)

        0 引 言

        構(gòu)音障礙是大腦性麻痹、中風等疾病患者的語言癥狀[1]。依托計算機進行構(gòu)音障礙的自動識別研究具有十分重要的社會意義和臨床應用價值,已經(jīng)吸引了眾多的學者進行了相關(guān)的研究。Takaya Taguchi等[2]使用多元回歸分析得出聲學特征中MFCC的第2階特征是區(qū)分健康說話人和重度抑郁癥患者語音的顯著特征。Vyas G等[3]從語音信號中提取出基頻、共振峰、振幅等傳統(tǒng)韻律特征和MFCC進行組合用來表征構(gòu)音障礙語音;李東等[4]使用語速、基頻、共振峰等韻律特征和MFCC的統(tǒng)計值進行融合,使用融合后的特征向量進行構(gòu)音障礙識別。Ali Z等[5]通過計算改進的語音輪廓(MVC)下的區(qū)域面積來度量一段語音的聲音強度,并使用SVM進行識別;Spangler T等[6]使用構(gòu)音障礙語音的分形特征,采用XGBoost分類算法來實現(xiàn)構(gòu)音障礙的自動檢測。Mucha J等[7]從不準確發(fā)音、言語聲律障礙、語言流暢性缺失和言語質(zhì)量惡化4個方面提取出了相應的聲學特征,并使用隨機森林分類器進行分類。Amara F等[8]使用GMM和SVM共同建立分類模型;Galaz Z等[9]使用順序浮動特征選擇算法和隨機森林分類器對構(gòu)音障礙進行識別。Kadi K L等[10]使用兩個公開數(shù)據(jù)庫來進行3個等級的構(gòu)音障礙嚴重程度評估,為了使評估方式同樣適合兩個數(shù)據(jù)庫,他們提出了一種改進的FDA分數(shù)計算方法,并選用GMM作為分類器。

        本文提出了一種基于多特征組合的構(gòu)音障礙語音識別方法,該方法總體的流程如圖1所示。首先,預處理后分別從語音中按韻律、頻譜、嗓音質(zhì)量、人耳聽覺和聲道模型等5特征類型提取相應的聲學特征并組成多特征組合,以保留語音的多種語音特征信息,克服韻律特征、MFCC等部分特征無法全面表征構(gòu)音障礙語音所具有的特點;其次,以遺傳算法搜索、SVM分類評價的特征選擇策略,對多特征組合進行特征選擇,選擇出分類準確率最高的特征子集,降低多特征組合中噪聲數(shù)據(jù)和冗余數(shù)據(jù),以降低計算復雜度和提高分類準確度;最后用SVM分類器進行分類。在Torgo聲學和發(fā)音數(shù)據(jù)庫[11]進行了模擬實驗,實驗結(jié)果表明,本文提出的方法對Torgo數(shù)據(jù)庫的3種語音刺激類型的平均準確率為97.52%,優(yōu)于現(xiàn)有的識別方法。

        圖1 方法整體流程

        1 多特征組合參數(shù)提取

        構(gòu)音障礙患者在發(fā)音時,有發(fā)音不準、鼻音過強、聲音過大變化以及聲音質(zhì)量、可理解性下降等臨床特點。要充分反應構(gòu)音障礙患者語音的信息,在特征抽取時要盡可能抽象各類特征。主要的語音特征有以下幾種:

        (1)韻律特征:韻律特征反映了語音信號的時域分布、語調(diào)和重音的特點。構(gòu)音障礙患者由于發(fā)音器官和相關(guān)肌肉的運動機能的減弱,導致聲音強度和音調(diào)等韻律特征發(fā)生異樣的變化。韻律特征可以較好區(qū)分構(gòu)音障礙患者和健康說話人。韻律特征包括3個共振峰(F1,F(xiàn)2,F(xiàn)3)[3]、基頻(F0)[3]、最大峰值(PQ)、短時能量(E)、短時平均過零率(ZCR)、偏度(ske)和峰度(kur)等9個特征,記為F={F0,F1,F2,F3,PQ,E,ZCR,ske,kur}。

        (2)基于頻譜的特征:基于頻譜的特征主要反映了語音信號能量與頻率分布的特點,在聲學上反映聲道形狀和發(fā)聲器官運動之間的關(guān)聯(lián)。構(gòu)音障礙患者在發(fā)聲器官上的病變會導致肌肉運動的異常,某些音調(diào)無法發(fā)出導致語音斷續(xù),或無法正常控制音調(diào)導致聲音起伏變化過大。基于頻譜的特征包括頻譜質(zhì)心(SC)、頻譜通量(SF)、頻譜衰減點(SR)、能量熵(Ent)等4個特征,記為S={SC,SF,SR,Ent}。

        (3)嗓音質(zhì)量特征:嗓音質(zhì)量特征是反映嗓音強弱及規(guī)律性的重要聲學參數(shù)。當構(gòu)音障礙患者聲帶出現(xiàn)病變時,嗓音往往也有質(zhì)量上的下降。嗓音質(zhì)量特征包括兩個基頻微擾(Jit1,Jit2)和兩個振幅微擾(Shim1,Shim2)等4個特征,記為JS={Jit1,Jit2,Shim1,Shim2}。 它們共同反映了聲帶振動的穩(wěn)定性,因此在病理語音的醫(yī)學研究中,也常將這些特征作為判斷嗓音病變嚴重程度和恢復程度的重要參數(shù),作為基于頻譜的特征和韻律特征的補充特征。

        (4)基于人耳聽覺的特征:梅爾頻率倒譜系數(shù)(MFCC)[12]是一種基于人耳聽覺特性的語音特征,廣泛應用在語音自動識別上,具有識別能力和魯棒性較強的優(yōu)點[13,14]。本文提取了MFCC作為特征參數(shù),MFCC階數(shù)選取為12階,記為MFCC={MF0,MF1,…,MF12}。

        (5)基于聲道模型的特征:聲道模型參數(shù)可以準確地描述語音信號的時域和頻域特性。聲道模型目前有聲管模型和共振峰模型兩種,線性預測(linear prediction)模型的本質(zhì)即探究聲管模型的性質(zhì),是一種常用的聲道模型參數(shù)估計方法。主要思想是使用過去若干語音采樣值的線性組合來逼近一個語音的取樣,確定一組唯一的預測系數(shù)。這些參數(shù)可以準確描述語音信號的時域和頻域特性。線性預測模型常用于語音信號處理,不僅有預測功能,而且提供了一個好的聲道模型。本文使用了基于線性預測的線譜頻率(LSF)[15]、線性預測倒譜系數(shù)(LPCC)[16]等兩種聲道模型參數(shù)。分別提取了LSF和LPCC各10個特征參數(shù),分別記為LSF={LS1,LS2,…,LS10},LPCC={LP1,LP2,…,LP10}。

        已有研究,如文獻[2-4],它們基于上述部分特征進行識別。為了獲取比較全面的語音信息,本文把上述5類特征組合成多特征向量V,其中V={F,S,JS,MFCC,LSF,LPCC}, 共包含有49個特征參數(shù),再使用遺傳算法從中選擇出對構(gòu)音障礙語音識別有效的特征。

        2 結(jié)合遺傳算法搜索和SVM分類器評價的特征選擇

        從語音中提取到的多特征組合包含有冗余信息和噪聲信息。這些冗余信息和噪聲信息將直接影響構(gòu)音障礙分類的準確性;因此,需要對多特征組合進行選擇優(yōu)化,選擇出最優(yōu)的特征子集。本文以遺傳算法為搜索算法、SVM分類器為評價方法構(gòu)造特征選擇策略,從多特征組合中選擇出分類準確率最高的特征子集。方法流程如圖2所示。

        圖2 結(jié)合遺傳算法搜索和SVM分類器評價的 特征選擇方法流程

        其中,遺傳算法包括了選擇、交叉和變異等過程,最終產(chǎn)生出更適應環(huán)境的個體;而根據(jù)輸入的多特征組合的特征向量對構(gòu)音障礙進行分類,其分類的準確率用作遺傳算法的適應度評價標準。其主要操作如下:

        (1)個體編碼和初始化種群。首先需要將實際問題的求解形式轉(zhuǎn)換成基因組合的形式,這個過程就是編碼。由于待解決的問題是離散優(yōu)化問題,因此本文采用二進制編碼方式。設特征向量為F={f1,f2,…,fn}, 其二進制編碼表示見表1;其中,個體基因為{0,1}取值,當基因值為0時代表該位置的特征不被選擇,當基因值為1時則代表該位置的特征被選擇。

        表1 Torgo數(shù)據(jù)庫各類型語音數(shù)目

        (2)適應度函數(shù)。適應度函數(shù)即用來考量個體在群體中的相對適應性,個體適應度的大小決定了該個體的遺傳機會。本算法是以尋找最優(yōu)準確率為優(yōu)化目標,所以我們將由個體編碼決定的特征子集所得分類器的預測準確率作為每個個體的適應度值,適應度值越高,遺傳機會越大。本文使用的分類器為參數(shù)調(diào)優(yōu)后的SVM分類器。

        (3)遺傳操作:選擇操作、交叉操作和變異操作。

        選擇操作是由個體適應度值決定其是否存活到下一代的過程。本文選擇操作的策略采用輪盤選擇方法,個體存活到下一代的概率與其適應度值成正比。

        交叉操作模仿自然界基因傳遞的過程,被選擇的兩個個體通過交換部分基因而重組,從而形成兩個新個體。交叉操作使種群多樣性得到擴展,從而有更大的可能向全局最優(yōu)解收斂。二進制編碼常用的交叉操作有單點交叉、多點交叉和均勻交叉,多點交叉和均勻交叉雖然有較好的基因重組能力,但是容易對好的基因模式造成破壞,因此本文采用單點交叉法進行交叉操作。

        變異操作是模擬遺傳過程中可能的基因突變,以非常小的概率決定當前個體是否發(fā)生突變,在二進制中突變則取反操作,即0變成1或相反。根據(jù)設定的變異概率對每個個體進行一定概率的基因突變。

        (4)終止條件設定。遺傳算法的迭代停止條件一般有兩種設定,一種是運行到最大代數(shù)停止,一種是設置迭代誤差閾值,當誤差達到這個值時說明種群無法再進化了,算法停止。本文選用設置最大迭代次數(shù)作為算法終止條件。

        3 實 驗

        實驗在配置為CPU i7-7700Hq 2.80 GHZ、內(nèi)存為8 G的筆記本上進行,操作系統(tǒng)為 Windows10,以MatlabR2016b編寫程序進行實驗。

        3.1 實驗數(shù)據(jù)庫及評價指標

        3.1.1 Torgo數(shù)據(jù)庫

        本文在公開的Torgo聲學和發(fā)音數(shù)據(jù)庫[11]上進行實驗。該數(shù)據(jù)庫的音頻樣本來源于8位大腦性麻痹或肌萎縮性脊髓側(cè)索硬化癥引發(fā)的構(gòu)音障礙的患者,其中5位男性和3位女性。此外,還有7位年齡性別相匹配的健康對照人,包括4位男性和3位女性。并且由專業(yè)的語言病理學家對每一位構(gòu)音障礙患者的語音動力功能按照標準的Frenchay Dysarthria進行了評估。Torgo構(gòu)音障礙數(shù)據(jù)庫基本信息見表2。

        表2 Torgo構(gòu)音障礙數(shù)據(jù)庫的相關(guān)信息

        3.1.2 數(shù)據(jù)預處理

        根據(jù)已有數(shù)據(jù)庫所含數(shù)據(jù)類型,為了便于實驗對比分析,本文從Torgo數(shù)據(jù)庫中分別選擇了非詞、短語和限制句3種類型作為實驗數(shù)據(jù)來源。其中,Torgo數(shù)據(jù)庫中的非詞類型,是擇取持續(xù)元音發(fā)音作為非詞語音刺激類型的組成部分。在Torgo的原始數(shù)據(jù)中,有一小部分語音數(shù)據(jù)存在聲音過小、環(huán)境噪音異常等問題,為避免這類數(shù)據(jù)對實驗結(jié)果的影響,在進行實驗前,對所有數(shù)據(jù)進行了進一步的人工篩選,最終選出的語音數(shù)目見表3。對整理后的語音數(shù)據(jù)進行預處理,使用譜減法進行去噪,目的是去除錄制語音時背景中的穩(wěn)定噪聲成分。隨后對去噪后的語音信號進行預加重、分幀加窗的預處理,本文中選取每幀長度為400個采樣點,即25 ms;每幀的重疊部分為160個采樣點,即10 ms;窗函數(shù)使用漢明窗。

        表3 Torgo數(shù)據(jù)庫各類型語音數(shù)目

        3.1.3 評價指標

        為了客觀評價算法的分類性能,本文根據(jù)混淆矩陣選用了4個評價指標,分別是準確率(Accuracy,Acc)、靈敏性(Sensitivity,Sen)、特異性(Specificity,Spe)和AUC值(Area under Curve)。從機器學習的角度看,準確率是最為常用的評價指標,但準確率在數(shù)據(jù)不平衡的情況下會非常敏感,而AUC值對于不平衡數(shù)據(jù)相對更不敏感,因此AUC值能很好描述分類模型整體性能的穩(wěn)健性,并且AUC值越高代表分類器整體性能越好。從醫(yī)學角度看,在疾病分類中靈敏性越高代表了漏診率越低,特異性越高則代表誤診率越低,因此同時引入了靈敏性和特異性作為構(gòu)音障礙識別的評價指標。

        3.2 實驗結(jié)果與分析

        3.2.1 構(gòu)音障礙語音識別結(jié)果的對比

        為了比較本文方法的識別效果,對本文方法與文獻[3]、文獻[4]的方法進行對比實驗,在Torgo數(shù)據(jù)庫上進行構(gòu)音障礙語音與正常語音的分類實驗。文獻[4]使用MFCC和韻律特征所提取的統(tǒng)計特征進行組合形成融合特征FFPM,并使用隨機森林(RF)進行分類;文獻[3]使用MFCC和韻律特征作為特征向量,并使用經(jīng)典遺傳實現(xiàn)了構(gòu)音障礙分類。實驗結(jié)果見表4,實驗結(jié)果表明本文提出的識別方法在3種語音刺激類型的平均準確率、平均靈敏性、平均特異性和平均AUC值等指標上都優(yōu)于文獻[4]和文獻[3]的方法;在單項語音刺激類型方面,本文方法只在詞語刺激類型的敏感性上低于文獻[4],在限制句刺激類型的靈敏度上略低于文獻[4],其它指標都優(yōu)于其它方法。這是由于本文方法使用了更為全面的語音特征;并用性能穩(wěn)健的遺傳算法進行特征優(yōu)化選擇,消除了冗余信息和噪聲,從而具有更優(yōu)越的性能。

        表4 與文獻[4]、文獻[3]的對比實驗結(jié)果

        3.2.2 不同語音刺激類型的實驗結(jié)果與分析

        為了探討不同語音刺激類型分類的差異性,本文使用了Torgo的所有數(shù)據(jù),按照3種語音刺激類型分別進行了3組實驗。本文遺傳算法的各項參數(shù)設置見表5,其中交叉概率和變異概率至今沒有統(tǒng)一的設定標準,一般是靠經(jīng)驗進行調(diào)整。交叉概率一般設置范圍為0.4~1.0且一般不設置為1,因為容易造成優(yōu)秀基因的流失。但在本文的實驗數(shù)據(jù)下進行多次實驗,分別設置交叉概率為0.95~1,測試后設置1為交叉概率所得的結(jié)果最好。變異概率的設置范圍一般在0.1以下,原理是允許極少數(shù)個體變異,從而跳出局部最優(yōu)解的情況,在本文的實驗數(shù)據(jù)下進行了0.04~0.09的測試實驗,最終選擇設置0.07。對每組實驗數(shù)據(jù),使用留出交叉驗證法隨機選擇80%的數(shù)據(jù)作為訓練數(shù)據(jù),20%的數(shù)據(jù)作為測試數(shù)據(jù),并重復10次該操作進行實驗。

        表5 遺傳算法參數(shù)設置

        表6為使用本文方法在Torgo數(shù)據(jù)庫上的實驗結(jié)果,結(jié)果顯示:①本文方法對非詞數(shù)據(jù)類型的識別準確率上最高,達到100%識別率; 平均準確率達到97.52%;②3種語音刺激類型的AUC值處在比較高的水平;③從敏感性和特異性看,該算法在3組實驗數(shù)據(jù)上都保持了一個相對較高的值,這說明該算法對構(gòu)音障礙患者和正常說話人的正確識別都有一個較高的水平,這對于構(gòu)音障礙識別的實際應用中,不會出現(xiàn)過高的漏診率和誤診率。

        表6 不同語音刺激類型的分類結(jié)果

        3.2.3 特征選擇分析

        本節(jié)通過實驗分析本文所提出的特征選擇方法是否能提高構(gòu)音障礙語音的識別率。分別使用本文提取的5個種類的語音特征、全部特征以及基于統(tǒng)計的特征子集對構(gòu)音障礙進行實驗,其中基于統(tǒng)計的特征子集是10次重復實驗選擇出的特征子集統(tǒng)計得到的。統(tǒng)計方法為,對10次重復實驗所選擇的特征按照選取次數(shù)進行從高到低的排序,并計算10次實驗選取的特征子集的平均特征數(shù)n,提取出排序后前n個特征視為被選擇的特征子集。

        表7展示的是在6個數(shù)據(jù)子集上使用不同特征進行的構(gòu)音障礙識別實驗,使用的分類器為SVM。使用的不同特征分別為:5個單方面的語音特征(韻律特征、頻譜特征、人耳聽覺特征、嗓音質(zhì)量特征和聲道模型特征)、全部特征、基于統(tǒng)計的特征子集。

        表7 使用不同特征的構(gòu)音障礙識別準確率/%

        根據(jù)表7展示的實驗結(jié)果,我們進行如下分析:①單獨使用某類特征的情況下,在多數(shù)數(shù)據(jù)子集上可以展現(xiàn)出其具備一定的構(gòu)音障礙識別能力;②使用全部特征進行實驗得到的識別率要高過單獨使用某類特征的識別率,說明包含的特征種類越多,其中有用信息也越多;③使用基于統(tǒng)計的特征子集進行實驗在多數(shù)情況可以獲得比全部特征更高識別準確率,這說明通過遺傳算法特征選擇后,經(jīng)過統(tǒng)計得到的特征子集可以有效提取全部特征中大部分的分類信息;同時相比于全部特征,基于統(tǒng)計的特征子集有較少的特征維數(shù),減少了冗余信息和噪聲信息;從而提高了識別正確率。

        4 結(jié)束語

        本文提出了一種多特征組合的構(gòu)音障礙識別方法。首先,從構(gòu)音障礙的語音特點出發(fā),從語音信號中分別提取了5類聲學特征并組合成一個多特征組合;隨后使用結(jié)合遺傳算法搜索和SVM分類器評價的特征選擇策略進行特征選擇,最后用SVM進行構(gòu)音障礙識別。本文按照語音刺激類型設計了3組實驗,深入研究了不同語音刺激類型給識別帶來的差異性。通過分析實驗結(jié)果可以得出,本文所提出的方法可以有效地識別構(gòu)音障礙語音和正常語音。通過與文獻[3,4]進行實驗對比,實驗結(jié)果表明本文提出的方法比它們具有更好的性能。另外,根據(jù)本文實驗可以觀察得出:不同語音刺激類型之間構(gòu)音障礙識別效果也有差別。其中限制句和非詞類型的數(shù)據(jù)可以更好地用于構(gòu)音障礙識別問題,而詞語類型的數(shù)據(jù)在識別問題上則表現(xiàn)出更好的穩(wěn)定性,這個結(jié)論為構(gòu)音障礙語音自動識別在實際臨床應用和進一步的研究上提供了可靠的參考作用。

        猜你喜歡
        數(shù)據(jù)庫特征實驗
        記一次有趣的實驗
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        午夜亚洲www湿好爽| 免费高清日本中文| 999精品全免费观看视频| 日本久久久久| 一区二区三区夜夜久久| 国产三级视频不卡在线观看| 成人免费a级毛片| 国产美女遭强高潮网站| 国产高潮精品久久AV无码| 亚洲免费成年女性毛视频| 国产成人自拍视频播放| 67194熟妇人妻欧美日韩| 国产欧美日韩视频一区二区三区 | 在线看无码的免费网站| 麻豆精品国产精华精华液好用吗 | 美女被插到高潮嗷嗷叫| 亚洲高清一区二区三区在线播放| 久久久大少妇免费高潮特黄| 国产人妖在线观看一区二区三区| 婷婷久久亚洲中文字幕| 国产一品二品精品在线| 亚洲日韩国产一区二区三区| 在线观看国产精品日韩av| 欧洲乱码伦视频免费| 日韩美腿丝袜三区四区| 黄桃av无码免费一区二区三区| 午夜成人鲁丝片午夜精品| 亚洲A∨无码国产精品久久网| 大伊香蕉精品视频一区| 午夜视频一区二区三区四区| 国产强被迫伦姧在线观看无码| 国产精品视频免费播放| 国产精品-区区久久久狼| 中文字幕乱码亚洲无线| 国产情侣自拍在线视频| 伊人久久精品久久亚洲一区| 产国语一级特黄aa大片| 亚洲综合久久久中文字幕| 女同精品一区二区久久| 日本特黄特色特爽大片| 最好看的最新高清中文视频|