郭樂(lè)樂(lè),曹輝,李濤
有效特征參數(shù)分類正常與病理語(yǔ)音
郭樂(lè)樂(lè),曹輝,李濤
(陜西師范大學(xué)物理學(xué)與信息技術(shù)學(xué)院,陜西西安 710100)
采用殘差信號(hào)的特征參數(shù)——基音幅值(Pitch Amplitude, PA)和頻譜平坦度(Spectral Flatness of the Residue Signal, SFR)與語(yǔ)音信號(hào)倒譜域特征參數(shù)——倒譜峰值突出(Cepstral Peak Prominence, CPP)來(lái)區(qū)分正常與病理語(yǔ)音,在薩爾布呂肯語(yǔ)音數(shù)據(jù)庫(kù)中選擇自然音調(diào)的正常與病理語(yǔ)音/a/進(jìn)行仿真實(shí)驗(yàn)。統(tǒng)計(jì)結(jié)果表明,與正常語(yǔ)音相比,病理語(yǔ)音的PA較小,SFR更接近零,CPP也較小。結(jié)合其他傳統(tǒng)特征參數(shù)分析對(duì)比,證明SFR、PA和CPP更能有效分類正常與病理語(yǔ)音。通過(guò)不同分類算法比較,得出支持向量機(jī)的分類準(zhǔn)確率相對(duì)更高。
殘差信號(hào);基音幅值;頻譜平坦度;倒譜峰值突出;支持向量機(jī)
導(dǎo)致語(yǔ)音異常的因素有很多種,其中不同聲帶病理類型造成的嗓音疾病是語(yǔ)音異常最主要的因素。嗓音疾病影響聲帶的形態(tài)和振動(dòng)模式,使得發(fā)聲過(guò)程中聲帶異常閉合或者左右不對(duì)稱振動(dòng),造成嗓音的聲學(xué)特征和空氣動(dòng)力學(xué)特征等均發(fā)生改變,導(dǎo)致嗓音嘶啞、無(wú)力等,嚴(yán)重影響了人們的生活質(zhì)量和社會(huì)交流[1]。常見(jiàn)的嗓音疾病主要有聲帶麻痹、聲帶水腫、聲帶息肉、聲帶小結(jié)等,這些嗓音疾病患者發(fā)出的聲音統(tǒng)稱為病理語(yǔ)音。所有病理語(yǔ)音的形成大多和聲帶振動(dòng)異常有關(guān),這導(dǎo)致病理語(yǔ)音中包含更多無(wú)聲或不規(guī)則有聲成分,病理嚴(yán)重時(shí)語(yǔ)音波形特征類似噪聲。
病理嗓音檢測(cè)難度與病理的嚴(yán)重程度密切相關(guān),病理語(yǔ)音的特征選擇在病理語(yǔ)音識(shí)別中具有重要地位。2014年,張滿彩[2]直接從原始語(yǔ)音中提取傳統(tǒng)聲學(xué)特征對(duì)病理聲音進(jìn)行了分析,結(jié)果表明傳統(tǒng)聲學(xué)特征不能很好地表征語(yǔ)音信號(hào)的動(dòng)態(tài)特征問(wèn)題。除了直接從語(yǔ)音信號(hào)中提取特征分析,人們還常用聲門(mén)波相關(guān)特征參數(shù)來(lái)量化語(yǔ)音,2016年,BURROWS等[3]提取了聲門(mén)波的時(shí)域和頻域特征參數(shù)用來(lái)辨別聲帶小結(jié)、聲帶麻痹與正常說(shuō)話者,結(jié)果表明與傳統(tǒng)聲學(xué)特征相比,聲門(mén)波特征的分類效果更好。之后FORERO等[4]又將聲門(mén)波特征與梅爾倒譜系數(shù)結(jié)合在一起,對(duì)正常語(yǔ)音與病理語(yǔ)音進(jìn)行分類,分類率得到了提高。
常見(jiàn)的提取聲門(mén)波的方法主要有兩種,分別為最小二乘法和基音迭代自適應(yīng)法,二者都是基于線性預(yù)測(cè)(Linear Prediction, LP)逆濾波實(shí)現(xiàn)的。但是最小二乘法對(duì)被測(cè)語(yǔ)音要求較高,只有當(dāng)被測(cè)語(yǔ)音具有足夠長(zhǎng)的閉合相且這些閉合相位置被準(zhǔn)確測(cè)出時(shí),求得的聲門(mén)波才可靠[5]。大部分病理說(shuō)話人發(fā)聲時(shí)聲帶不能正常閉合,發(fā)出長(zhǎng)時(shí)閉合相的語(yǔ)音相對(duì)困難,因此,最小二乘法不太適合病理語(yǔ)音聲門(mén)波的提取,局限性較大。考慮到實(shí)際操作,一般采用基音迭代自適應(yīng)法提取正常與病理語(yǔ)音聲門(mén)波[6]。首先通過(guò)一階LP分析初步估計(jì)聲門(mén)波對(duì)語(yǔ)音信號(hào)的影響,然后逆濾波消除這種影響,再通過(guò)更高階的LP分析得到聲道的首次估計(jì),最后進(jìn)行逆濾波和積分依次消除聲道和唇輻射的影響,至此完成第一次迭代過(guò)程,得到初始聲門(mén)波。將第一次迭代的輸出作為第二次迭代的輸入,重復(fù)第一次迭代過(guò)程,得到最終的聲門(mén)波。該方法對(duì)聲門(mén)波和聲道傳輸函數(shù)重復(fù)兩次迭代,有效避開(kāi)了閉合相測(cè)量,魯棒性高,但需要對(duì)語(yǔ)音信號(hào)進(jìn)行多次線性預(yù)測(cè),過(guò)程相對(duì)復(fù)雜。
目前定量分析聲門(mén)波使用的時(shí)域特征參數(shù)有開(kāi)放商(開(kāi)放相與基音周期的比值)、閉合商(閉合相與基音周期的比值)和速度商(漸開(kāi)相與漸閉相的比值)等,這些參數(shù)需要準(zhǔn)確判定聲門(mén)的開(kāi)放和閉合時(shí)刻,而聲帶逐漸開(kāi)放或不完全閉合等會(huì)導(dǎo)致這些關(guān)鍵時(shí)間點(diǎn)求解出錯(cuò),共振峰波紋和噪聲也會(huì)使量化的準(zhǔn)確度下降。聲門(mén)波的頻域特征參數(shù)諧波差(一次諧波與二次諧波的幅值差)和諧波豐富因子(其它諧波的幅值總和與一次諧波幅值的比值)的求解雖不需要確定具體時(shí)間點(diǎn),但它們不能有效捕捉時(shí)間細(xì)節(jié)的快速變化,所以合理量化聲門(mén)波也比較困難[5]。除此之外,逆濾波得到的聲門(mén)波本身主要包含低頻信息,因而用此類特征參數(shù)來(lái)判斷正常語(yǔ)音與病理語(yǔ)音相對(duì)不易[7]。故本文主要從分析嗓音障礙的殘差信號(hào)入手,求其特征參數(shù)對(duì)正常語(yǔ)音與病理語(yǔ)音進(jìn)行分類。通過(guò)線性預(yù)測(cè)分析得到殘差信號(hào)來(lái)量化語(yǔ)音,分析殘差信號(hào)的相關(guān)特征,用統(tǒng)計(jì)學(xué)方法對(duì)正常語(yǔ)音與病理語(yǔ)音的殘差特征進(jìn)行比較分析,并采用支持向量機(jī)二分類處理,充分證明殘差信號(hào)特征判別正常語(yǔ)音與病理語(yǔ)音的有效性和優(yōu)越性。
利用語(yǔ)音信號(hào)過(guò)去若干個(gè)采樣值的線性組合預(yù)測(cè)或估計(jì)其當(dāng)前采樣值,可以得到語(yǔ)音的線性預(yù)測(cè)值,實(shí)際值與預(yù)測(cè)值之差稱為殘差信號(hào)。
圖1(a)、1(b)分別為正常語(yǔ)音和病理語(yǔ)音的一幀信號(hào)及其對(duì)應(yīng)的殘差信號(hào)的波形圖。正常語(yǔ)音的殘差信號(hào)在聲門(mén)閉合處通常包含明顯尖峰,兩尖峰之間的距離代表一個(gè)基音周期長(zhǎng)度,病理語(yǔ)音由于聲帶異常振動(dòng)或聲門(mén)閉合不全導(dǎo)致殘差信號(hào)的周期性不太明顯,波形雜亂無(wú)規(guī)律。
(a) 正常語(yǔ)音及殘差信號(hào)
殘差信號(hào)提取簡(jiǎn)單,只需進(jìn)行一次線性預(yù)測(cè)分析就可得到,它比聲門(mén)波包含更多的高頻信息,消除了聲道的影響,能夠提供聲帶振動(dòng)的定時(shí)信息。其特征參數(shù)的量化也比較客觀,不需要實(shí)驗(yàn)者主觀干預(yù)和運(yùn)用經(jīng)驗(yàn)知識(shí)。因此,用它來(lái)判斷正常語(yǔ)音與病理語(yǔ)音更加合適。
從殘差信號(hào)中提取出兩個(gè)特征參數(shù),分別是基音幅值(Pitch Amplitude, PA)和頻譜平坦度(spectral flatness of the residue signal, SFR)[8],二者統(tǒng)稱為殘差特征。另外還提取了語(yǔ)音的倒譜域特征參數(shù)倒譜峰值突出(Cepstral Peak Prominence, CPP)[9],用這3個(gè)特征參數(shù)來(lái)分析語(yǔ)音,診斷語(yǔ)音的正常與病理。
基音幅值PA是指殘差信號(hào)求歸一化自相關(guān)后,出現(xiàn)在初始位置之后的最大幅值,通常對(duì)應(yīng)于波形圖中的第二個(gè)峰值,第一個(gè)峰值是出現(xiàn)在初始位置的單位幅值1。語(yǔ)音信號(hào)的自相關(guān)函數(shù)在基頻F0的周期倍數(shù)處出現(xiàn)峰值,經(jīng)常用這個(gè)特征來(lái)檢測(cè)信號(hào)的周期性,故PA可以用來(lái)表示信號(hào)周期性的強(qiáng)度,信號(hào)周期性越強(qiáng),PA值越大,PA的理論范圍在0~1之間。
在2012年全省建成的34個(gè)縣區(qū)非工程措施,共提前向暴雨洪水影響區(qū)的184個(gè)鄉(xiāng)鎮(zhèn)、856個(gè)村組發(fā)布預(yù)警短信13.6萬(wàn)余條,啟動(dòng)預(yù)警廣播3 486次。
圖2描述的是圖1中正常語(yǔ)音和病理語(yǔ)音殘差信號(hào)的歸一化自相關(guān)波形。從圖2中可看出,正常語(yǔ)音的殘差信號(hào)自相關(guān)最大值很容易辨別,測(cè)得的PA值為0.758 7,病理語(yǔ)音的殘差信號(hào)周期性差,自相關(guān)最大值被噪聲淹沒(méi),測(cè)得的PA值為0.134 5,明顯小于正常語(yǔ)音的PA值。
(a) 正常語(yǔ)音殘差信號(hào)的歸一化自相關(guān)
(b) 病理語(yǔ)音殘差信號(hào)的歸一化自相關(guān)
圖2 正常語(yǔ)音與病理語(yǔ)音殘差信號(hào)歸一化自相關(guān)波形
Fig.2 The normalized autocorrelation waveforms of the residure signals of normal and pathological speeches
語(yǔ)音信號(hào)頻譜主要由基頻和諧波組成,這些頻率的分布提供了頻譜平坦度SFR,它定義為殘差信號(hào)幅度譜的幾何平均值與算術(shù)平均值之比的對(duì)數(shù),單位為分貝(dB)。由于幾何平均值≤算術(shù)平均值,所以SFR的理論范圍在負(fù)無(wú)窮與0之間。當(dāng)信號(hào)嘈雜,類似噪聲類型分布時(shí),頻譜趨于平坦,幅度譜的幾何平均與算術(shù)平均值相差不大,則SFR接近0;當(dāng)頻譜由明顯的波峰和波谷構(gòu)成時(shí),SFR遠(yuǎn)離0。喉部病變會(huì)造成聲帶異常振動(dòng),聲門(mén)處湍流氣流增加,因此影響SFR變大(接近0)。因?yàn)轭l譜是對(duì)稱的,所以只顯示其頻譜的一半,如圖3所示。正常語(yǔ)音殘差信號(hào)的幅度譜中諧波分量豐富明顯,得到的SFR為-6.840 6 dB,而病理語(yǔ)音殘差信號(hào)的幅度譜中諧波結(jié)構(gòu)受影響惡化,不能輕易判斷出諧波成分,得到的SFR為-2.103 4 dB,比正常殘差信號(hào)的SFR值大。
(a) 正常殘差信號(hào)的幅度譜
(b) 病理殘差信號(hào)的幅度譜
圖3 正常與病理語(yǔ)音殘差信號(hào)幅度譜
Fig.3 The amplitude spectra of the residure signals of normal and pathological speeches
正常說(shuō)話人的語(yǔ)音信號(hào)具有良好的周期性,在頻域上可以觀察到信號(hào)有較強(qiáng)的諧波結(jié)構(gòu);在倒譜域上則表現(xiàn)為諧波規(guī)律性相關(guān)的能量波動(dòng)[10]。所謂的倒譜,是對(duì)信號(hào)傅里葉變換取對(duì)數(shù)運(yùn)算后再進(jìn)行傅里葉反變換得到的,是對(duì)信號(hào)進(jìn)行兩次分析的結(jié)果,相當(dāng)于對(duì)信號(hào)求對(duì)數(shù)功率譜后再求一次對(duì)數(shù)功率譜,第一次求的功率譜顯示了信號(hào)能量的頻率分布,第二次的功率譜說(shuō)明了頻譜中諧波分量的周期性。倒譜的峰值和基頻有關(guān),具有良好的規(guī)律性諧波結(jié)構(gòu)的聲音信號(hào)的倒譜峰值會(huì)比較突出,由此得到特征倒譜峰值突出CPP,它定義為倒譜上第一個(gè)峰值的幅度和其對(duì)應(yīng)線性回歸線上的幅度之差,單位為dB。它代表倒譜峰值與倒譜背景噪聲之間的距離,距離越大,說(shuō)明離背景噪聲越遠(yuǎn),聲音信號(hào)越清晰。CPP同樣可以反映語(yǔ)音信號(hào)的諧波結(jié)構(gòu)水平和噪聲分量,信號(hào)中噪聲成分越多,諧波結(jié)構(gòu)越差,CPP值越小。正常語(yǔ)音周期性成分較多,發(fā)音時(shí)平緩,CPP值較大,而病理語(yǔ)音由于喉部病變導(dǎo)致語(yǔ)音中噪聲成分增加,諧波結(jié)構(gòu)惡化,故其CPP值下降。
正常語(yǔ)音和病理語(yǔ)音信號(hào)的倒譜峰值如圖4所示,圖4(c)、4(d)是圖4(a)、4(b)平滑后的結(jié)果,平滑后可以更清楚地觀察到倒譜峰值。從圖4(c)、4(d)可知,正常語(yǔ)音信號(hào)在基頻周期處會(huì)有一個(gè)突出的峰值,而病理語(yǔ)音的周期性較弱,倒譜峰值不夠突出。未平滑之前測(cè)得該正常語(yǔ)音的CPP值是34.744 6 dB,病理語(yǔ)音CPP值是17.630 8 dB,平滑后正常語(yǔ)音CPP值是20.563 9 dB,而病理語(yǔ)音CPP值為8.418 2 dB,可以看出無(wú)論是平滑前還是平滑后,病理語(yǔ)音的CPP值都小于正常語(yǔ)音信號(hào)的CPP值。
(a) 正常語(yǔ)音的倒譜峰值 (b) 病理語(yǔ)音的倒譜峰值
(c) 平滑后正常語(yǔ)音的倒譜峰值 (d) 平滑后病理語(yǔ)音的倒譜峰值
圖4 語(yǔ)音信號(hào)倒譜峰值圖
Fig.4 The cepstral peak diagrams of speech signals
實(shí)驗(yàn)數(shù)據(jù)來(lái)自德國(guó)的薩爾布呂肯語(yǔ)音數(shù)據(jù)庫(kù)(Saarbruecken Voice Database),數(shù)據(jù)庫(kù)中有健康和病理說(shuō)話者共超過(guò)2 000人,分別以自然音調(diào)、高音調(diào)、低音調(diào)產(chǎn)生三元音/i/、/a/、/u/的錄音文件,文件時(shí)長(zhǎng)為1~3 s,所有記錄都是以50 kHz采樣頻率進(jìn)行采樣,分辨率為16 bit[11]。其語(yǔ)音信號(hào)和電聲門(mén)圖(Electroglottography, EGG)信號(hào)存儲(chǔ)在獨(dú)立的WAV文件中,任何關(guān)于錄音的評(píng)論都包含在相關(guān)的文本文件中。
因?yàn)?a/是低元音,發(fā)/a/音時(shí)喉位低而自然,有利于降低聲帶和聲道之間的耦合作用,可以避開(kāi)由于鼻音導(dǎo)致逆濾波不精確的問(wèn)題,故本文實(shí)驗(yàn)隨機(jī)選取了正常和病理共432個(gè)人,以自然音調(diào)發(fā)元音/a/的錄音文件,其中正常錄音和病理錄音各216例。對(duì)選好的聲音樣本進(jìn)行聲學(xué)分析,提取所需的聲學(xué)特征參數(shù),然后進(jìn)行正常語(yǔ)音與病理語(yǔ)音二分類的研究。
計(jì)算殘差特征開(kāi)始前,首先把語(yǔ)音信號(hào)采樣頻率降到11 kHz,然后對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理,幀長(zhǎng)為1 600個(gè)采樣點(diǎn),這個(gè)長(zhǎng)度可以提供正常語(yǔ)音和病理語(yǔ)音的最佳分離[8]。然后通過(guò)一個(gè)14階線性預(yù)測(cè)分析濾波器得到每一幀的殘差信號(hào),再分別做自相關(guān)分析得到時(shí)域特征參數(shù)PA,做傅里葉變換得到頻域特征參數(shù)SFR。計(jì)算出每一幀的PA和SFR后再求其平均值以得到整個(gè)語(yǔ)音的殘差特征PA和SFR,作為最終的研究參數(shù)。而CPP是將原始語(yǔ)音信號(hào)分幀加窗處理后,提取倒譜峰值求得。
盒圖主要由五個(gè)數(shù)值點(diǎn)組成,從下到上依次為:最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)、最大值。其中下四分位數(shù)和上四分位數(shù)組成一個(gè)空盒子,中位數(shù)把盒子一分為二。上四分位數(shù)到最大值之間和下四分位數(shù)到最小值之間各用一條延伸線連接。盒子里的“×”代表數(shù)據(jù)平均值,圖中的“+”代表離群點(diǎn),離群點(diǎn)單獨(dú)繪出的目的是保證整體特征的穩(wěn)定性,數(shù)據(jù)不會(huì)因此偏移,而盒圖中延伸線的兩級(jí)修改成最小(大)觀測(cè)值,最小(大)觀測(cè)值按經(jīng)驗(yàn)設(shè)置為下(上)四分位數(shù)減(加)1.5倍四分位數(shù)間距離。分析數(shù)據(jù)時(shí)盒圖不僅能夠幫助我們直觀地識(shí)別樣本數(shù)據(jù)中的異常值(離群點(diǎn)),而且通過(guò)觀察盒子的長(zhǎng)度、上下間隔的形狀以及延伸線的長(zhǎng)度可以有效判斷樣本數(shù)據(jù)的離散程度和偏向。
為了與其他傳統(tǒng)特征參數(shù)比較,采用相同的錄音文件分別計(jì)算元音的諧噪比(Harmonic to Noise Ratio, HNR)、基頻微擾Jitter、振幅微擾Shimmer參數(shù)。其中,HNR代表信號(hào)中諧波能量與噪聲能量之比,用來(lái)量化聲門(mén)噪聲,可以反映聲音質(zhì)量。信號(hào)諧波能量強(qiáng),HNR大;噪聲增加,HNR降低。Jitter指信號(hào)相鄰周期之間基頻的微小變化,Shimmer指相鄰周期之間信號(hào)幅度的變化,主要反映聲帶振動(dòng)的不規(guī)律性。發(fā)聲越穩(wěn)定,發(fā)聲過(guò)程中聲音信號(hào)出現(xiàn)的變化越小,Jitter和Shimmer值越??;當(dāng)聲帶出現(xiàn)病變后,發(fā)聲波動(dòng)程度變大,發(fā)音穩(wěn)定性下降,Jitter和Shimmer值增大,HNR值減小。得到的實(shí)驗(yàn)數(shù)據(jù)如圖5所示。
從圖5可以看出,正常與病理語(yǔ)音的特征參數(shù)之間存在明顯差異,由于聲帶疾病導(dǎo)致病理說(shuō)話人的聲帶振動(dòng)異常,發(fā)聲不穩(wěn)定,語(yǔ)音周期性下降,諧波結(jié)構(gòu)惡化,故病理語(yǔ)音的SFR更接近0,PA值更低,CPP值更??;正常語(yǔ)音的基頻擾動(dòng)和振幅擾動(dòng)較小,信號(hào)中諧噪比大,而病理語(yǔ)音的基頻擾動(dòng)和振幅擾動(dòng)中有更多的離群點(diǎn),Jitter和Shimmer值增大,HNR值變小。
支持向量機(jī)(Support Vector Machine, SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法,是一種非常有潛力的分類算法,常用于處理二分類問(wèn)題[12]。SVM主要是找到分類超平面把兩類樣本正確地分開(kāi),即所有相同類別的樣本都落在分類超平面的同一側(cè),不同類別的樣本點(diǎn)之間間隔盡量大,算法的目的是在無(wú)數(shù)個(gè)分類超平面中選擇樣本集到分類超平面的距離最大的平面即最優(yōu)分類面,也稱最大間隔超平面。兩類樣本中離分類平面最近且平行于最優(yōu)超平面的分類面上的點(diǎn)就是支持向量,只要找到所有支持向量即可找到最優(yōu)超平面,如果能夠找到這個(gè)面,那么這個(gè)分類器就稱為最大間隔分類器。在進(jìn)行線性分類時(shí),將分類面取在離兩類樣本距離較大的地方;進(jìn)行線性不可分時(shí)通過(guò)高維空間變換轉(zhuǎn)化成高維空間的線性分類問(wèn)題[13]。相比于神經(jīng)網(wǎng)絡(luò)算法,支持向量機(jī)采用了核函數(shù),降低了計(jì)算復(fù)雜度,在解決小樣本、非線性識(shí)別中有其獨(dú)特的優(yōu)勢(shì)。
本文利用支持向量機(jī)算法建立正常與病理二分類診斷模型,經(jīng)過(guò)不同核函數(shù)預(yù)測(cè)正確率對(duì)比后,最終采用默認(rèn)的徑向基(Radial Basis Function, RBF)核函數(shù)進(jìn)行建模。為不失一般性,訓(xùn)練模型前采用randperm函數(shù)隨機(jī)打亂輸入的正常和病理語(yǔ)音序列,設(shè)置訓(xùn)練集和測(cè)試集之比為2:1,故選擇語(yǔ)音序列的前144個(gè)樣本作為訓(xùn)練集,后72個(gè)樣本作為測(cè)試集。由于訓(xùn)練集和測(cè)試集是隨機(jī)產(chǎn)生的,所以程序每次運(yùn)行的結(jié)果有所不同,為了客觀分析,取程序運(yùn)行10次得到的平均分類準(zhǔn)確率作為最終實(shí)驗(yàn)結(jié)果。根據(jù)測(cè)試結(jié)果分析評(píng)價(jià)不同特征參數(shù)下診斷模型分類的性能,分類診斷的大體流程如圖6所示。
圖6 SVM二分類診斷模型流程
為了證明PA、SFR和CPP參數(shù)分類識(shí)別的優(yōu)越性,進(jìn)一步判斷參數(shù)的有效性,客觀地區(qū)分正常語(yǔ)音與病理語(yǔ)音,分別對(duì)以上6個(gè)特征用支持向量機(jī)進(jìn)行二分類處理,得到每個(gè)特征參數(shù)的分類效果。分類處理后得到的結(jié)果如表1所示。
分類結(jié)果表明,殘差信號(hào)特征PA和SFR的整體分類準(zhǔn)確率可以達(dá)到96%以上,尤其SFR的分類準(zhǔn)確率更是高達(dá)99%,這充分說(shuō)明了用二者區(qū)分正常語(yǔ)音和病理語(yǔ)音的杰出性,而CPP的整體分類準(zhǔn)確率高于90%,同樣可以較好地分類正常語(yǔ)音與病理語(yǔ)音,但效果比PA和SFR稍差一些,對(duì)病理語(yǔ)音的分類準(zhǔn)確率為86%,可能是由于原始語(yǔ)音信號(hào)的周期性特征沒(méi)有殘差信號(hào)顯著,另外病理語(yǔ)音在時(shí)域變化沒(méi)有在頻域變化顯著,這可能同樣是SFR分類效果較好的原因。
表1 不同特征參數(shù)的分類準(zhǔn)確率
HNR、Jitter、Shimmer對(duì)正常語(yǔ)音與病理語(yǔ)音同樣有一定的判別能力,但三者的病理分類準(zhǔn)確率普遍偏低,整體分類準(zhǔn)確率明顯低于PA、SFR和CPP,說(shuō)明HNR、Jitter、Shimmer的分類識(shí)別效果沒(méi)有PA和SFR、CPP好,進(jìn)一步證明了PA、SFR和CPP特征參數(shù)分類正常與病理語(yǔ)音的優(yōu)勢(shì)。
另外,與原始語(yǔ)音和基音迭代自適應(yīng)法求得的聲門(mén)波的分類效果相比較,結(jié)果如表2所示,本文殘差信號(hào)的PA和SFR的分類準(zhǔn)確率更高,可以更準(zhǔn)確地診斷出正常語(yǔ)音與病理語(yǔ)音,這與殘差信號(hào)自身的波形結(jié)構(gòu)特點(diǎn)有關(guān),故殘差信號(hào)的PA和SFR在臨床評(píng)估病理聲音方面具有更大的潛在價(jià)值;與文獻(xiàn)[8]中所用的分類方法相比,本文選擇支持向量機(jī)分類,預(yù)測(cè)準(zhǔn)確率可以高達(dá)99%,為了增加說(shuō)服力,同時(shí)與學(xué)習(xí)向量量化(Learning Vector Quantization, LVQ)神經(jīng)網(wǎng)絡(luò)相比[14],根據(jù)經(jīng)驗(yàn)知識(shí)設(shè)置LVQ的競(jìng)爭(zhēng)層神經(jīng)元個(gè)數(shù)[15],訓(xùn)練集和測(cè)試集也是2:1隨機(jī)生成,運(yùn)行10次后取平均分類率,結(jié)果如表3所示,說(shuō)明在本文正常語(yǔ)音與病理語(yǔ)音二分類問(wèn)題處理中,選用支持向量機(jī)的效果相對(duì)更優(yōu)。
表2 不同信號(hào)的SFR和PA的分類準(zhǔn)確率
表3 不同分類方法的分類準(zhǔn)確率
本文在殘差信號(hào)的基礎(chǔ)上討論了基音幅值PA與頻譜平坦度SFR和語(yǔ)音倒譜峰值突出CPP 3個(gè)特征參數(shù)。其中,SFR和PA都是基于線性預(yù)測(cè)模型計(jì)算的,二者的測(cè)量均不受基頻0的影響,而F0估計(jì)過(guò)程中的任何誤差都會(huì)導(dǎo)致聲帶噪聲測(cè)量偏差,所以獨(dú)立于基頻的殘差信號(hào)的PA和SFR的分類效果明顯優(yōu)于依賴0測(cè)量的特征參數(shù)。其中SFR能夠很好地捕捉聲音的噪聲特性,幾乎可以無(wú)重疊地分離正常語(yǔ)音和病理語(yǔ)音,這可以作為語(yǔ)音病理學(xué)的有效指標(biāo)。
相比表征語(yǔ)音信號(hào)的其他傳統(tǒng)特征參數(shù)而言,殘差信號(hào)的PA、SFR和原始語(yǔ)音CPP在正常語(yǔ)音與病理語(yǔ)音二分類中效果更好,這充分說(shuō)明本文選用這3個(gè)特征參數(shù)的有效性和優(yōu)越性。本文采用SVM分類器比其它兩個(gè)分類器得到的分類準(zhǔn)確率更高,說(shuō)明在分類正常語(yǔ)音與病理語(yǔ)音時(shí),選用支持向量機(jī)效果相對(duì)更好。本文的研究結(jié)果對(duì)于臨床嗓音學(xué)具有重要的指導(dǎo)意義,下一步的工作是病理語(yǔ)音類型的區(qū)分,這將對(duì)臨床實(shí)踐具有重要價(jià)值。
[1] 常靜雅. 小波域多重分形和能量譜參數(shù)的病理嗓音識(shí)別研究[D]. 蘇州: 蘇州大學(xué), 2016.
CHANG Jingya. Pathological voice recognition study by wavelet domain multifractal and energy spectrum parameters[D]. Suzhou: Soochow University, 2016.
[2] 張滿彩. 病理語(yǔ)音的特征提取與分類研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014.
ZHANG Mancai. Research on feature extraction and classification of pathological speech[D]. Harbin: Harbin Institute of Technology, 2014.
[3] KOHLER M, MENDOZA L A F, LAZO J G, et al. Classification of voice pathologies using glottal signal parameters[C]//10. Congresso Brasileiro de Inteligência Computacional. 2016: 1-8.
[4] FORERO A M, KOHLER M, VELLASCO M M, et al. Analysis and classification of voice pathologies using glottal signal parameters[J]. Journal of Voice, 2016, 30(5): 549-556.
[5] ALKU P. Glottal inverse filtering analysis of human voice production-A review of estimation and parameterization methods of the glottal excitation and their applications[J]. Sadhana, 2011, 36(5): 623-650.
[6] 張凱晗. 基于逆濾波提取聲門(mén)波方法的研究與實(shí)現(xiàn)[D]. 廣州: 暨南大學(xué), 2015.
ZHANG Kaihan. Research and implementation on the methods of extracting glottal wave based on inverse filtering[D]. Guangzhou: Jinan University, 2015.
[7] KREIMAN J, GERRATT B R, Anto?anzas-Barroso N. Measures of the glottal source spectrum[J]. Journal of Speech Language & Hearing Research Jslhr, 2007, 50(3): 595-610.
[8] PARSA V, JAMIESON D G. Identification of pathological voices using glottal noise measures[J]. J Speech Lang Hear Res, 2000, 43(2): 469-485.
[9] CASTELLANA A, CARULLO A, CORBELLINI S, et al. Discriminating Pathological Voice From Healthy Voice Using Cepstral Peak Prominence Smoothed Distribution in Sustained Vowel[J]. IEEE Transactions on Instrumentation & Measurement, 2018, 67(3): 646-654.
[10] 李寧. 基于聲學(xué)參數(shù)和支持向量機(jī)的病理嗓音分類研究[D]. 上海: 華東師范大學(xué), 2013.
LI Ning. Automatic Classification for Pathological Voice based on Acoustic Parameters and SVM[D]. Shanghai: East China Normal University, 2013.
[11] ALNASHERI A, MUHAMMAD G, ALSULAIMAN M, et al. Investigation of voice pathology detection and classification on different frequency regions using correlation functions[J]. Journal of Voice Official Journal of the Voice Foundation, 2016, 31(1): 3.
[12] SRINIVASAN V, RAMALINGAM V, SELLAM V. Classification of normal and pathological voice using GA and SVM[J]. International Journal of Computer Applications, 2012, 5(1): 1-7.
[13] 史峰. MATLAB智能算法30個(gè)案例分析[M]. 北京: 北京航空航天大學(xué)出版社, 2011.
SHI Feng. Analysis of 30 cases analysis of MATLAB intelligent algorithm[M]. Beijing: Beihang University Press, 2011.
[14] WEI Y H, LIU W, YANG Y J, et al. A model of gear fault diagnosis based on manifold learning and LVQ[J]. Modular Machine Tool & Automatic Manufacturing Technique, 2018.
[15] 王小川, 史峰, 郁磊, 等. MATLAB神經(jīng)網(wǎng)絡(luò)43個(gè)案例分析[M]. 北京: 北京航空航天大學(xué)出版社, 2013.
WANG Xiaochuan, SHI Feng, YU Lei, et al. Analysis of 43 cases analysis of MATLAB neural network [M]. Beijing: Beihang University Press, 2013.
Classification of normal and pathological speech by effective feature parameters
GUO Le-le, CAO Hui, LI Tao
(School of Physics and Information Technology, Shaanxi Normal University, Xi’an 710100, Shaanxi, China)
The feature parameters PA (pitch amplitude) and SFR (spectral flatness of the residue signal) and the vowel cepstrum domain feature parameter CPP (cepstral peak prominence) are used to distinguish between normal and pathological speeches. In the Saarbruecken Voice Database, 216 normal and 216 pathological natural tones /a/ are selected for experiments. The statistical results show that compared with normal speech, the PA value of pathological speech is smaller, the SFR value is close to zero, and the CPP value is also smaller. Combined with other features analysis and comparison, it is proved that SFR, PA, and CPP are excellent and stable feature parameters for normal and pathological speech classification. The classification accuracy obtained by support vector machine is relatively higher by the comparison of different classification algorithms.
residue signal; pitch amplitude (PA); spectral flatness of the residue signal (SFR); cepstral peak prominence (CPP); support vector machine
H107
A
1000-3630(2019)-05-0554-06
10.16300/j.cnki.1000-3630.2019.05.012
2018-05-07;
2018-07-18
國(guó)家自然科學(xué)基金資助項(xiàng)目(11074159、11374199)
郭樂(lè)樂(lè)(1994-), 女, 山西臨汾人, 碩士研究生, 研究方向?yàn)樾盘?hào)與信息處理。
曹輝, E-mail: caohui@snnu.edu.cn