牟新剛,陶佳昕,陳 龍
( 武漢理工大學(xué) 機(jī)電工程學(xué)院,湖北 武漢 430070)
帕金森病(PD, parkinson′s disease)是一種神經(jīng)退行性疾病,分為運(yùn)動(dòng)特征和非運(yùn)動(dòng)特征,包括震顫、強(qiáng)直、運(yùn)動(dòng)遲緩、認(rèn)知障礙、睡眠障礙和抑郁等[1],該病主要影響中樞神經(jīng)系統(tǒng),導(dǎo)致帕金森患者的功能障礙[2],據(jù)統(tǒng)計(jì)全世界大約有4%的帕金森患者年齡在50歲以下,呈年輕化的趨勢(shì)。因此,探討帕金森的早期診斷對(duì)控制患者的疾病和延長(zhǎng)其壽命具有重要意義。
研究發(fā)現(xiàn),90%的患者在其早期癥狀中有聲帶損傷。構(gòu)音障礙作為非運(yùn)動(dòng)癥狀之一,是指產(chǎn)生語(yǔ)言的肌肉的運(yùn)動(dòng)減少,構(gòu)音障礙會(huì)影響患者的呼吸、發(fā)聲、共鳴和發(fā)音,呼吸問(wèn)題會(huì)干擾患者的聲音響度,發(fā)聲期間的聲帶振動(dòng)會(huì)在語(yǔ)音中產(chǎn)生周期性模式,因此研究人員研究了語(yǔ)音特征來(lái)診斷帕金森病。
Sakar等[3]使用流行的機(jī)器學(xué)習(xí)技術(shù)研究了帕金森數(shù)據(jù)集,采用多種錄音的聲學(xué)特征的平均值以及標(biāo)準(zhǔn)偏差。Chethan等[4]從MDVR-KCL(mobile device voice recording at king′s college London)[5]語(yǔ)音數(shù)據(jù)集中提取了13個(gè)聲學(xué)特征(其包括基頻微擾、振幅微擾、音調(diào)和諧波噪聲比),并使用KNN(k-nearest neighbor)分類(lèi)器來(lái)預(yù)測(cè)PD,其精度達(dá)到85%。Berus等[6]使用這些特征以及一些附加的聲學(xué)特征對(duì)來(lái)自UCI(university of california Irvine)機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)的帕金森數(shù)據(jù)集采用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),得到了86.47%的準(zhǔn)確性。Jeancolas等[7]提出使用梅爾頻率倒譜系數(shù)結(jié)合高斯混合模型來(lái)檢測(cè)PD,獲得的分辨率為79.5%。由于大多數(shù)研究都基于UCI數(shù)據(jù)庫(kù)提供的已經(jīng)處理好的聲學(xué)特征信息,針對(duì)實(shí)際應(yīng)用過(guò)程中的原始語(yǔ)音信號(hào),受到外部因素如環(huán)境、口音的影響,往往分類(lèi)效果表現(xiàn)不佳。
近年來(lái),由卷積神經(jīng)網(wǎng)路和遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合的卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN, convolutional recurrent neural network)[8]在語(yǔ)音識(shí)別領(lǐng)域很受歡迎,并在相關(guān)領(lǐng)域達(dá)到了最新水平。但是,CRNN上的大多數(shù)工作僅利用簡(jiǎn)單的光譜信息。因此,筆者提出基于語(yǔ)譜圖和聲學(xué)特征的語(yǔ)音識(shí)別模型,旨在從語(yǔ)音中獲取更豐富的信息,通過(guò)傅里葉變換轉(zhuǎn)換成語(yǔ)譜圖,結(jié)合手工提取的聲學(xué)特征,更好地捕捉語(yǔ)音的動(dòng)態(tài)病理特征,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)行PD檢測(cè),為了評(píng)估所提方法的性能,使用來(lái)自PC-GITA數(shù)據(jù)集的帕金森病語(yǔ)音記錄,與UCI數(shù)據(jù)庫(kù)中提取好的特征信息數(shù)據(jù)不同,該數(shù)據(jù)集提供完整的原始語(yǔ)音信號(hào),結(jié)果表明,得到了84.1%的分類(lèi)準(zhǔn)確率。
模型總體結(jié)構(gòu)如圖1所示。所提出的模型融合了手工提取的聲學(xué)特征和語(yǔ)譜圖深度特征。語(yǔ)譜圖深度特征由門(mén)限循環(huán)單元GRU(gated recurrent unit)進(jìn)行編碼。最后將得到的特征進(jìn)行拼接,輸入到全連接層進(jìn)行帕金森疾病診斷。
圖1 算法模型圖
筆者提出了一種新的聲學(xué)特征融合模型,該模型采用雙通道來(lái)實(shí)現(xiàn)語(yǔ)音特征的聯(lián)合學(xué)習(xí),其中語(yǔ)譜圖特征是由原始語(yǔ)音信號(hào)分幀加窗后經(jīng)過(guò)短時(shí)傅里葉變換得到,對(duì)于語(yǔ)譜圖,在經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征后,輸入RNN(recurrent neural network)中進(jìn)行遞歸編碼。 對(duì)于手工提取的聲學(xué)特征,輸入到一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后將處理過(guò)后的語(yǔ)譜圖特征與聲學(xué)特征拼接后使用全連接層進(jìn)行預(yù)測(cè)。
使用門(mén)限循環(huán)單元GRU[9]進(jìn)行遞歸,用于捕捉語(yǔ)音信號(hào)的時(shí)間序列特征,相比于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM),GRU結(jié)構(gòu)更為簡(jiǎn)單,能在更少計(jì)算的基礎(chǔ)上獲得不亞于LSTM的結(jié)果。
通過(guò)卷積模塊進(jìn)行深度特征提取,利用卷積層中卷積核進(jìn)行特征提取和映射,在池化層中進(jìn)行下采樣,對(duì)特征圖進(jìn)行稀疏處理,減少運(yùn)算量,使用歸一化層使數(shù)據(jù)盡量接近標(biāo)準(zhǔn)分布,上述各層堆疊構(gòu)成最小單元進(jìn)行雙層堆疊,最后介入展平層將多維輸入轉(zhuǎn)換成一維,再連接dropout層,訓(xùn)練時(shí)使部分神經(jīng)元失活,有效避免過(guò)擬合的發(fā)生。最后通過(guò)GRU獲取語(yǔ)音信號(hào)的時(shí)序特征,對(duì)特征作進(jìn)一步提取,提取后的特征作為全連接層的輸入,經(jīng)過(guò)Softmax計(jì)算類(lèi)別概率,完成帕金森語(yǔ)音識(shí)別。
所提出的帕金森語(yǔ)譜圖和聲學(xué)特征框架用于特征提取,在這兩種特征提取方法之前,為了將數(shù)據(jù)輸入分類(lèi)器,首先要進(jìn)行信號(hào)預(yù)處理,也就是通過(guò)語(yǔ)音信號(hào)得到所需的語(yǔ)譜圖和手工聲學(xué)特征。
將語(yǔ)音信號(hào)轉(zhuǎn)換成語(yǔ)譜圖,語(yǔ)譜圖是隨時(shí)間變化的信號(hào)頻譜的可視化表示,由于語(yǔ)音信號(hào)是一維時(shí)域信號(hào),雖然目前針對(duì)帕金森語(yǔ)音障礙的特征提取方式有很多但無(wú)法確定提取的特征是否能夠真正用于帕金森診斷,故而引入語(yǔ)譜圖的方式,將語(yǔ)音一維信號(hào)轉(zhuǎn)化成二維的時(shí)頻圖來(lái)進(jìn)行深度特征提取,即同時(shí)在時(shí)域和頻域中進(jìn)行特征提取已充分描述它們的性質(zhì)。為此,需要對(duì)原始的語(yǔ)音信號(hào)分幀操作并使用漢寧窗進(jìn)行加窗,逐幀進(jìn)行短時(shí)傅里葉變換(STFT, short-time fourier transform),STFT通過(guò)在短重疊窗口上計(jì)算離散傅里葉變換來(lái)表示時(shí)頻域中的信號(hào)。函數(shù)中FFT(fast fourier transform)窗口大小為2 048個(gè)樣本點(diǎn),對(duì)應(yīng)16 000 Hz采樣率下2.5 s的持續(xù)時(shí)間。帕金森患者的語(yǔ)音信號(hào)時(shí)域波形和頻譜圖如圖2所示。
圖2 帕金森患者的語(yǔ)音信號(hào)時(shí)域波形和頻域圖
從語(yǔ)音信號(hào)得到的語(yǔ)譜圖大小被縮放到240×240,采用的模型有兩層Conv2D,其中第一層的卷積核大小為55,激活函數(shù)為ReLU,卷積層后面有一個(gè)內(nèi)核大小為33的最大池化層,第二層的卷積核大小為33,激活函數(shù)為ReLU,卷積層后面同樣有一個(gè)內(nèi)核大小為33的最大池化層。另外,在每一層中引入批量歸一化層,進(jìn)行歸一化處理,提高網(wǎng)絡(luò)的泛化能力,最后從這些獲得的三維矩陣通過(guò)展平層轉(zhuǎn)換為一維向量矩陣,用于接下來(lái)的特征拼接。
帕金森已被證明即使在早期也會(huì)影響言語(yǔ),因此,言語(yǔ)特征已成功地用于評(píng)估帕金森并監(jiān)測(cè)其在醫(yī)療后的演變。 基于Jitter和Shimmer的特征、基頻參數(shù)、諧波參數(shù)、循環(huán)周期密度熵(recurrence period density entropy, RPDE)、去趨勢(shì)波動(dòng)分析(detrended fluctuation analysis, DFA)和窗口周期熵(pitch period entropy, PPE)是PD研究中常用的語(yǔ)音特征。梅爾頻率倒譜系數(shù)(mel-scale frequency cepstral coefficients, MFCC)能模仿人耳的特性,在自動(dòng)語(yǔ)音識(shí)別、生物醫(yī)學(xué)語(yǔ)音識(shí)別和帕金森診斷等不同任務(wù)中被稱(chēng)為穩(wěn)健的特征提取器,能檢測(cè)到帕金森語(yǔ)音的失真部分。小波變換(wavelet transform, WT)是檢測(cè)長(zhǎng)時(shí)元音全周期區(qū)域尺度波動(dòng)的重要工具??烧{(diào)Q因子小波變換(tunable Q-factor wavelet transform, TQWT)是另一種特征提取方法[10],應(yīng)用上述信號(hào)處理技術(shù),依靠Praat聲學(xué)分析軟件提取,每個(gè)特征的詳細(xì)信息和特征個(gè)數(shù)如表1所示。
由基頻特征、時(shí)頻特征、梅爾頻率倒譜系數(shù)、小波變換特征、聲帶特征和可調(diào)Q因子小波變換特征組成的手工特征集,先歸一化以將數(shù)據(jù)集中的每個(gè)特征向量的值改變?yōu)楣渤叨?而不扭曲值范圍的差異。然后,引入一維CNN(convolutional neural network)模型訓(xùn)練。所提出的模型中有兩個(gè)模塊,其中每一塊都有卷積層,最大池化層和防止過(guò)擬合的dropout層。輸入被傳遞到這兩個(gè)模塊之后,第二個(gè)模塊的輸出全連接層即可進(jìn)行后續(xù)特征拼接。進(jìn)行訓(xùn)練和測(cè)試以驗(yàn)證模型,訓(xùn)練階段將數(shù)據(jù)分為兩組,訓(xùn)練集和測(cè)試集,其中20%的總數(shù)據(jù)被分割以用于測(cè)試模型,其余80%的數(shù)據(jù)用于訓(xùn)練網(wǎng)絡(luò)模型,以提高分類(lèi)精度。
PC-GITA數(shù)據(jù)庫(kù)[11]用于評(píng)估所提出的模型。該語(yǔ)料庫(kù)包括50名帕金森患者和50名健康受試者的錄音,在這項(xiàng)研究中考慮了兩個(gè)錄音任務(wù),參與者被要求在一次呼吸中發(fā)出盡可能長(zhǎng)的元音/a/。所有參與者都簽署了事先獲得哥倫比亞麥德林諾埃爾診所倫理委員會(huì)批準(zhǔn)的知情同意書(shū)。語(yǔ)音信號(hào)是使用舒爾SM63L麥克風(fēng)和專(zhuān)業(yè)聲卡在隔音室中記錄的。音頻以44.1 kHz的頻率錄制,分辨率為16位。每組參與者包含25名男性和25名女性演講者。語(yǔ)料庫(kù)在年齡上也是平衡的(獨(dú)立樣本的t檢驗(yàn),p=0.77)。所有患者均由神經(jīng)科醫(yī)生診斷。數(shù)據(jù)集詳細(xì)數(shù)據(jù)如表2所示,UPDRS為帕金森綜合評(píng)分。
表2 數(shù)據(jù)集詳細(xì)數(shù)據(jù)
為了驗(yàn)證所提方法的有效性,將提出的算法與以下4種方法比較:
(1)單一語(yǔ)譜圖(single-spectrum),將輸入的語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖后,輸入卷積神經(jīng)網(wǎng)絡(luò),最后使用全連接層進(jìn)行帕金森診斷。
(2)單一語(yǔ)譜圖配合循環(huán)神經(jīng)網(wǎng)絡(luò)(spectrum with GRU),將語(yǔ)譜圖輸入卷積神經(jīng)網(wǎng)絡(luò)后,再輸入到GRU門(mén)限循環(huán)單元進(jìn)行編碼,最后使用全連接層進(jìn)行帕金森診斷。
(3)單一聲學(xué)特征(single-acoustic),從語(yǔ)音信號(hào)提取出多維手工特征后,輸入一維卷積神經(jīng)網(wǎng)絡(luò),最后使用全連接層進(jìn)行帕金森診斷。
(4)單一聲學(xué)特征配合循環(huán)神經(jīng)網(wǎng)絡(luò)(acoustic with GRU),將手工特征輸入到一維卷積神經(jīng)網(wǎng)絡(luò),再輸入到GRU門(mén)限循環(huán)單元進(jìn)行編碼,最后使用全連接層進(jìn)行帕金森診斷。
對(duì)上述4種方法進(jìn)行測(cè)試,表3為引入門(mén)控循環(huán)網(wǎng)絡(luò)GRU實(shí)驗(yàn)的對(duì)比結(jié)果。
表3 引入GRU前后的對(duì)比實(shí)驗(yàn)結(jié)果
相較于普通CNN模型,單一語(yǔ)譜圖特征在引入GRU后的模型識(shí)別率在數(shù)據(jù)庫(kù)上有了2.56%的提升,證明GRU能夠有效地提取語(yǔ)譜圖特征中的動(dòng)態(tài)病態(tài)信息,提升帕金森疾病的識(shí)別性能。單一聲學(xué)特征在引入GRU模型后識(shí)別率反而降低了10.05%,因?yàn)槁晫W(xué)特征直接不存在時(shí)序關(guān)系或先后順序,無(wú)需引入GRU循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間或者序列依賴(lài)性的特征。
為了驗(yàn)證不同特征融合的最佳結(jié)果,將引入GRU前后的單一聲學(xué)和語(yǔ)譜圖特征兩兩融合,對(duì)比實(shí)驗(yàn)結(jié)果如表4所示。
表4 融合方式對(duì)比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,單語(yǔ)譜圖與聲學(xué)特征融合的分類(lèi)準(zhǔn)確率為83.52%,引入GRU模型后的語(yǔ)譜圖再與聲學(xué)特征融合的分類(lèi)結(jié)果可達(dá)84.19%,而引入GRU模型后的聲學(xué)特征與語(yǔ)譜圖特征拼接后準(zhǔn)確率有所下降,這是由于聲學(xué)特征不存在時(shí)序關(guān)系或先后順序,因此所提出的由CNN和GRU提取語(yǔ)譜圖特征融合CNN提取的聲學(xué)特征的模型更能捕捉語(yǔ)音信號(hào)的深層信息,所得的分類(lèi)準(zhǔn)確率和馬修斯相關(guān)系數(shù)都是最高的。
另外,為了進(jìn)一步說(shuō)明所提出的模型在帕金森疾病診斷時(shí)的分類(lèi)精度,實(shí)驗(yàn)比較了3種之前常用于帕金森語(yǔ)音檢測(cè)的機(jī)器學(xué)習(xí)模型[12]。得到的分類(lèi)結(jié)果如表5所示。
表5 機(jī)器學(xué)習(xí)分類(lèi)實(shí)驗(yàn)結(jié)果
表5中展現(xiàn)了不同機(jī)器學(xué)習(xí)方法的對(duì)比,包含了SVM(support vector machine),KNN以及MLP(multilayer percetron),雖然處理時(shí)間降低,但分類(lèi)效果不如所提出的門(mén)控卷積循環(huán)網(wǎng)絡(luò)好。
在語(yǔ)音PD檢測(cè)任務(wù)中,基于機(jī)器學(xué)習(xí)方法的性能主要受語(yǔ)音特征和機(jī)器學(xué)習(xí)模型架構(gòu)的影響。目前在UCI帕金森公開(kāi)語(yǔ)音數(shù)據(jù)集中,采用機(jī)器學(xué)習(xí)的方法能獲得90%以上的分類(lèi)準(zhǔn)確率。但當(dāng)使用原始語(yǔ)音信號(hào)進(jìn)行分類(lèi)時(shí),結(jié)果降低了一定的準(zhǔn)確率。筆者基于門(mén)控卷積神經(jīng)網(wǎng)絡(luò),融合語(yǔ)譜圖與聲學(xué)特征,在持續(xù)元音輸入下獲得了更高的分類(lèi)精度,結(jié)果表明,帕金森檢測(cè)系統(tǒng)得益于這兩種方法的結(jié)合(基于動(dòng)態(tài)語(yǔ)音特征的GRU模型和CNN模型)。在實(shí)際檢測(cè)環(huán)境下輸入信號(hào)為原始語(yǔ)音信號(hào),而UCI數(shù)據(jù)集所提供的為提取好的特征值,本文提出的模型在實(shí)際診斷環(huán)節(jié)展現(xiàn)更好的魯棒性。由于更復(fù)雜的網(wǎng)絡(luò)架構(gòu)(如具有更多層的深度混合模型或深度強(qiáng)化學(xué)習(xí)模型)尚未在本研究中進(jìn)行實(shí)驗(yàn),因此可以看到進(jìn)一步改進(jìn)模型架構(gòu)的空間。
筆者研究了使用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下的帕金森疾病檢測(cè)任務(wù),提出了雙通道卷積門(mén)控循環(huán)網(wǎng)絡(luò)以充分利用聲學(xué)特征以及來(lái)自語(yǔ)音頻譜的深度信息,分析了50名PD患者和50名健康對(duì)照者的錄音,參與者以恒定的音調(diào)進(jìn)行元音/a/的持續(xù)發(fā)聲。從錄音中提取語(yǔ)音特征。結(jié)果表明,融合聲學(xué)特征和CRNN學(xué)習(xí)的語(yǔ)譜圖特征能為帕金森疾病識(shí)別提供更豐富的病例信息,對(duì)于持續(xù)元音,最高準(zhǔn)確率可達(dá)到84.19%。