浙江醫(yī)藥高等專科學(xué)校醫(yī)療器械學(xué)院 鄒 鋒 趙祥欣
本文選用SVD嗓音數(shù)據(jù)庫(kù)中的元音/a/音和連續(xù)語(yǔ)段,提取其的Mel頻域倒譜系數(shù)(MFCC),支持向量機(jī)SVM的核函數(shù)采用高斯核函數(shù),分別對(duì)各600例的正常者和病理嗓音患者的元音/a/音和連續(xù)語(yǔ)段進(jìn)行訓(xùn)練和識(shí)別。識(shí)別分類結(jié)果表明,連續(xù)語(yǔ)段的結(jié)果優(yōu)于元音/a/音,因此在病理嗓音自動(dòng)分類研究中可以采用連續(xù)語(yǔ)段作為聲學(xué)分析樣本。
隨著社會(huì)交往日益頻繁和生活習(xí)慣的改變,嗓音疾病的發(fā)病率也逐年增高,嗓音疾病是喉科臨床上的常見病、多發(fā)病,約占耳鼻喉科疾病的5%-10%。嗓音疾病會(huì)導(dǎo)致患者嗓音嘶啞、發(fā)聲困難、嚴(yán)重可導(dǎo)致完全失聲。更有甚者,聲帶小結(jié)和聲帶息肉若不及時(shí)治療,可易造成突發(fā)癌變。
嗓音疾病診斷通過(guò)發(fā)音質(zhì)量的主觀、客觀評(píng)估、電子頻閃喉鏡、氣流動(dòng)力學(xué)喉部功能評(píng)估、喉神經(jīng)肌肉電功能評(píng)估等方面進(jìn)行檢查。其中的儀器檢查都為診斷喉部病變情況、喉部肌肉和聲帶病變情況,屬于侵入性的檢查方式,對(duì)患者有一定的痛苦及損傷。正常和病理嗓音的聲學(xué)參數(shù)是會(huì)有一定的區(qū)別,通過(guò)嗓音的聲學(xué)參數(shù)分析,形成客觀自動(dòng)評(píng)估技術(shù),為嗓音病理診斷提供了一種明確的、量化的分級(jí)方式,是一種快速、非侵入性的自動(dòng)檢測(cè)方法。該方法可去除傳統(tǒng)方法在時(shí)間、空間上的限制,能夠在病理早期就能做出診斷該評(píng)估方法降低了主觀評(píng)估的偶然性,而且方便易用實(shí)現(xiàn),降低了醫(yī)生的負(fù)擔(dān)。基于聲學(xué)分析技術(shù)已成為人工智能醫(yī)療的一個(gè)熱點(diǎn)方向。
病理嗓音的客觀自動(dòng)評(píng)估技術(shù)是提取病理嗓音聲學(xué)客觀參數(shù),采用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行分類。提取方面,傳統(tǒng)的擾動(dòng)參數(shù)和頻譜參數(shù)已廣泛應(yīng)用于分析病理嗓音的改變和描述嗓音質(zhì)量在聲學(xué)分析是嗓音客觀評(píng)估中的重要部分,目前嗓音聲學(xué)評(píng)估的聲學(xué)信號(hào)樣本包括持續(xù)元音和連貫言語(yǔ)。元音能較好地反映聲帶振動(dòng)的實(shí)質(zhì),因此大多數(shù)的研究都專注于持續(xù)元音,而不是連續(xù)語(yǔ)段,實(shí)際上連續(xù)語(yǔ)段更能反映出病理特性。語(yǔ)音信號(hào)包含了靜止的持續(xù)的元音,但它是隨著連續(xù)時(shí)間變化的,許多嗓音問(wèn)題在持續(xù)元音中不能完全展現(xiàn)。本研究擬將對(duì)持續(xù)元音和連續(xù)語(yǔ)段為聲學(xué)樣本的識(shí)別進(jìn)行比較,從而進(jìn)行嗓音客觀評(píng)估中的聲學(xué)樣本的探索研究。
本實(shí)驗(yàn)數(shù)據(jù)來(lái)源于SVD庫(kù),SVD庫(kù)(Saarbruecken Voice Database,德國(guó)薩爾布呂肯公開數(shù)據(jù)庫(kù)),它是由德國(guó)薩爾大學(xué)語(yǔ)音學(xué)院負(fù)責(zé)錄制可自由下載的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含1-3s持續(xù)的元音[i,a,u]和連續(xù)語(yǔ)段(德語(yǔ))“Guten Morgen,wie geht es Ihnen?”。數(shù)據(jù)庫(kù)中所有錄制的聲音均以50KHz采樣,采用16位分辨率。本實(shí)驗(yàn)從SVD庫(kù)挑選正常和病理嗓音的元音/a/音和連續(xù)語(yǔ)段,提取12維Mel頻域倒譜系數(shù)(MFCC)的聲學(xué)參數(shù),采用支持向量機(jī)(support vector machine,SVM)對(duì)正常和病理組進(jìn)行分類識(shí)別。
由于本研究只是比較持續(xù)元音和連貫言語(yǔ)為聲學(xué)樣本的識(shí)別,本研究采用語(yǔ)音識(shí)別中非常重要的音頻特征MFCC作為單一聲學(xué)特征參數(shù)。
圖1 MFCC的計(jì)算過(guò)程
MFCC在一定程度上模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn),應(yīng)用了人耳聽覺感知方面的研究成果,在有信道噪聲和頻譜失真的情況下具有較好的魯棒。它是Mel標(biāo)度頻率域提取出來(lái)的倒譜參數(shù),在語(yǔ)音識(shí)別中有很好的性能,還被用來(lái)檢測(cè)發(fā)音器官(嘴唇、舌頭)等在運(yùn)動(dòng)中微小的變化。
MFCC和實(shí)際頻率的轉(zhuǎn)換關(guān)系如下:
MFCC的計(jì)算過(guò)程如圖1所示。
由于支持向量機(jī)(SVM)模型在小樣本分類上方便可靠,病理嗓音患者的醫(yī)學(xué)樣本屬于小樣本,因此本研究采用支持向量作為分類器。
SVM是主要用于解決模式識(shí)別領(lǐng)域中的數(shù)據(jù)分類問(wèn)題,屬于有監(jiān)督學(xué)習(xí)算法的一種。是一種典型的二分類模型,其主要思想是通過(guò)在特征空間中尋找最大區(qū)間來(lái)實(shí)現(xiàn)線性分類。當(dāng)為線性不可分時(shí),核函數(shù)將輸入空間映射到高維特征空間。典型的核函數(shù)有多項(xiàng)式、RBF和Sigmoid。SVM為處理分類問(wèn)題提供了強(qiáng)有力的機(jī)器,而其更好的泛化性能是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(SRM)。SVM對(duì)二分類問(wèn)題可以得到很好的結(jié)果,病理嗓音客觀識(shí)別的研究中,不少研究者都采SVM來(lái)區(qū)分正常與病理嗓音者。
本實(shí)驗(yàn)聲音樣本為元音/a/音和連續(xù)語(yǔ)段,其中連續(xù)語(yǔ)段為德語(yǔ)句子“Guten Morgen,wie geht es Ihnen?”。從SVD庫(kù)挑選600例正常和600例病理嗓音作為實(shí)驗(yàn)樣本,其中80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。
為了解決樣本長(zhǎng)度不一致,采用補(bǔ)零法對(duì)齊法使得每個(gè)樣本時(shí)長(zhǎng)一致,其中元音/a/音的每個(gè)樣本都為86幀數(shù)據(jù),連續(xù)語(yǔ)段的每個(gè)樣本都為117幀數(shù)據(jù)。提取聲學(xué)樣本的12維Mel頻域倒譜系數(shù)(MFCC)為聲學(xué)特征參數(shù)。支持向量機(jī)SVM的核函數(shù)選擇高斯核函數(shù),分別對(duì)元音/a/音和連續(xù)語(yǔ)段進(jìn)行訓(xùn)練和識(shí)別。
從準(zhǔn)確率(AC)、準(zhǔn)確率(PR)、召回率(RE)和F1分?jǐn)?shù)四個(gè)方面評(píng)價(jià)分類效果。準(zhǔn)確率、精密度和召回率可以直接反映分類的表現(xiàn),F(xiàn)1分?jǐn)?shù)是精密度和召回率整合在一起的判斷標(biāo)準(zhǔn)。元音/a/音和連續(xù)語(yǔ)段分類性能結(jié)果如表1所示。如表所示,連續(xù)語(yǔ)段較元音/a/音有較好的識(shí)別效果。
表1 元音/a/音和連續(xù)語(yǔ)段分類結(jié)果
連續(xù)語(yǔ)段是符合正常會(huì)話的模式,其比持續(xù)元音包含更多的嗓音信息,從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)其識(shí)別效果是較高的。然而,連續(xù)語(yǔ)段中間存在聲音開始、結(jié)束、存在聲帶的振動(dòng)頻率的改變,意味要處理更復(fù)雜的聲學(xué)參數(shù),這是無(wú)意是個(gè)挑戰(zhàn)。因此,基于連續(xù)語(yǔ)段的嗓音分類評(píng)估是一項(xiàng)在實(shí)踐領(lǐng)域更有意義的工作。