亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測方法

2023-11-18 09:10:18楊茗淇鄭慧芬

電子與信息學(xué)報(bào) 2023年10期

關(guān)鍵詞：語譜帕金森病特征提取

季薇楊茗淇李云鄭慧芬

①(南京郵電大學(xué)通信與信息工程學(xué)院南京 210003)

②(南京郵電大學(xué)計(jì)算機(jī)學(xué)院南京 210023)

③(南京醫(yī)科大學(xué)附屬老年醫(yī)院南京 210024)

1 引言

帕金森病(Parkinson's Disease,PD)是一種常見的慢性神經(jīng)系統(tǒng)疾病[1]。研究表明，帕金森病與語言障礙[2–4]之間存在一定的病理關(guān)系。超過90%的帕金森病患者報(bào)告了至少一種最常見的聲學(xué)相關(guān)癥狀，包括聲音衰減、發(fā)音不準(zhǔn)確等[5]。

近年來，一些學(xué)者基于語音進(jìn)行了帕金森病診斷方面的研究，并取得了一些進(jìn)展。其中，帕金森病患者的語音特征學(xué)習(xí)是帕金森病診斷方案的重要組成部分，主要包括特征選擇和特征提取。Little等人[6]從采集的持續(xù)元音語音/a/中提取了包括頻率微擾(Jitter)和振幅微擾(Shimmer)在內(nèi)的17種聲學(xué)特征，分析了利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行帕金森病診斷的可行性。Tsanas等人[7]在此基礎(chǔ)上使用了多種語音信號(hào)處理算法得到了相關(guān)病理特征，用于區(qū)分帕金森病患者和健康人。M oro-Velazquez等人[8]介紹了利用小波變換等方法提取帕金森病語音特征并用于帕金森病診斷和評(píng)估的方法。在語音特征提取方面，近年來出現(xiàn)了深度特征學(xué)習(xí)方法，通過對(duì)原始特征進(jìn)行多層非線性變換，可獲得具有更好判別能力的新特征。國內(nèi)外學(xué)者嘗試在語音數(shù)據(jù)中應(yīng)用有監(jiān)督的深度學(xué)習(xí)實(shí)現(xiàn)帕金森病的診斷，并取得了積極的成果[9–13]。

與有監(jiān)督的方法相比，自監(jiān)督方法可以從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)的底層結(jié)構(gòu)表示，從而有助于提高下游任務(wù)的性能和收斂速度[14]。目前，自監(jiān)督的特征提取方法已經(jīng)在語音信號(hào)處理領(lǐng)域取得了很好的效果。對(duì)比預(yù)測編碼(Contrastive Predictive Coding,CPC)使用多層卷積神經(jīng)網(wǎng)絡(luò)編碼過去的語音表示序列，可在對(duì)比二進(jìn)制分類任務(wù)下預(yù)測潛在的語音表示序列[15]。自回歸預(yù)測編碼(Autoregressive Predictive Coding,APC)則使用自回歸模型對(duì)過去語音表示序列的時(shí)間信息進(jìn)行編碼[16]。CPC和APC都屬于未來預(yù)測編碼，這類方法的一個(gè)顯著不足在于它們只能按照語音的前向順序進(jìn)行單向分解。然而，對(duì)模型架構(gòu)的單向性約束將使模型無法很好地預(yù)測潛在的語音表示序列，限制了語音表示學(xué)習(xí)的潛力。與前兩種方法不同的是，掩蔽預(yù)測編碼(M asked Predictive Coding,MPC)從原始語音序列中提取部分語音表示進(jìn)行掩蔽，根據(jù)剩余的語音表示重構(gòu)出被掩蔽的語音表示；MPC模型使用了同自然語言處理中BERT算法的掩蔽語言模型(M asked Language M odel,M LM)相類似的結(jié)構(gòu)，本質(zhì)是對(duì)基于T ransform er的模型進(jìn)行預(yù)測編碼[17]。通過T ransformer編碼器的使用，MPC可以對(duì)語音序列從前后兩個(gè)方向進(jìn)行表示學(xué)習(xí)，從而克服了CPC和APC方法的單向性約束，實(shí)現(xiàn)了語音的深度雙向預(yù)測編碼[18]。此外，掩蔽自監(jiān)督模型還擁有更快的訓(xùn)練速度，能夠更好地利用相關(guān)語音序列信息[17]。在許多語音識(shí)別基準(zhǔn)測試中，掩蔽自監(jiān)督模型的性能明顯優(yōu)于單向自監(jiān)督學(xué)習(xí)模型[19,20]。

本文將掩蔽自監(jiān)督模型用于帕金森病患者語音特征的提取，來實(shí)現(xiàn)基于語音的帕金森病檢測。首先，從帕金森病患者的原始語音中提取出富含病理信息的M el語譜圖特征，對(duì)患者語音進(jìn)行全局時(shí)序化表示；然后，利用掩蔽自監(jiān)督模型來掩蔽部分Mel語譜圖特征并對(duì)其進(jìn)行重構(gòu)，從而學(xué)習(xí)到帕金森病患者語音的更高級(jí)特征表示，并利用后續(xù)的帕金森病檢測結(jié)果來評(píng)估所提的掩蔽自監(jiān)督模型的性能。其中，為解決帕金森病語音數(shù)據(jù)稀缺的問題，先在LibriSpeech公開數(shù)據(jù)集上對(duì)掩蔽自監(jiān)督模型進(jìn)行預(yù)訓(xùn)練，然后基于遷移學(xué)習(xí)的思想，利用帕金森病語音數(shù)據(jù)對(duì)預(yù)訓(xùn)練好的掩蔽自監(jiān)督模型進(jìn)行微調(diào)和加權(quán)求和，以提升該模型特征表示學(xué)習(xí)的性能。結(jié)果表明，與傳統(tǒng)的M el語譜圖特征檢測方法相比，所提方法在準(zhǔn)確率、敏感度、特異度性能上分別提高了3.8%,14.5%,3%以上；與其他經(jīng)典自監(jiān)督特征提取方法相比，所提方法的檢測準(zhǔn)確率、敏感度、特異度性能分別提高了4.3%,4%,4.4%以上。

2 相關(guān)工作

2.1 語音的時(shí)頻化表示

時(shí)域分析和頻域分析是語音信號(hào)的常規(guī)分析方法。然而，單一的時(shí)域波形和頻域頻譜都有局限性，無法綜合展現(xiàn)語音信號(hào)的時(shí)頻域變化關(guān)系。因此，人們常使用短時(shí)傅里葉變換，將語音的時(shí)域信息和頻域信息同時(shí)轉(zhuǎn)化到時(shí)頻域，實(shí)現(xiàn)語音的時(shí)頻化表示[21]。

持續(xù)元音可以評(píng)估發(fā)音困難的程度，與其他持續(xù)元音相比，元音/a/發(fā)音更簡單，且攜帶更多的臨床有用信息，因而使用持續(xù)元音/a/進(jìn)行帕金森病診斷可以取得更好的效果[6]。健康人(Healthy Controls,HC)和帕金森病患者的語音信號(hào)在時(shí)域波形和頻域頻譜圖上均存在明顯的差異。在時(shí)域上，二者語音信號(hào)振幅的相對(duì)變化不同，帕金森病患者的波形常伴有異常的波動(dòng)；在頻域上，二者的頻譜能量在高頻和低頻處的分布也存在差異，帕金森病患者的高頻能量明顯增加；在時(shí)頻域的語譜圖上，健康人語音信號(hào)的能量分布的范圍更加集中，在低頻處分布更加均勻，在高頻處能量更低[22]。

2.2 語譜圖特征[21]

語音特征的選取對(duì)基于語音的帕金森病檢測有重要影響。語譜圖能夠綜合展現(xiàn)語音信號(hào)的時(shí)頻域變化關(guān)系，因此常被用作語音分析的有效工具。本文中使用了常見的3種與語譜圖相關(guān)的特征，分別為M el語譜圖、Fbank和MFCC。其中，M el語譜圖可通過對(duì)原始語音信號(hào)進(jìn)行預(yù)加重、分幀、加窗、短時(shí)傅里葉變換、M el濾波等步驟獲得。對(duì)M el語譜圖特征取對(duì)數(shù)即可獲得Fbank特征，對(duì)Fbank特征做離散余弦變換可以得到MFCC特征。

需要指出的是，離散余弦變換可以消除與音素判別關(guān)系不大的諧波，保留包絡(luò)信息。但是，作為一種線性變換，離散余弦變換會(huì)丟失語音信號(hào)中的一些非線性信息。為最大限度地保留帕金森病語音中的信息，本文后續(xù)將以M el語譜圖作為特征提取模塊的輸入。

2.3 CPC模型[15]和APC模型[16]

對(duì)比預(yù)測編碼(CPC)由Van den Oord等人[15]提出，該方法通過在對(duì)比二進(jìn)制分類任務(wù)下對(duì)未來語音幀進(jìn)行預(yù)測，實(shí)現(xiàn)了從高維語音信號(hào)中學(xué)習(xí)潛在語音表示的目的。CPC模型的主要結(jié)構(gòu)包括非線性編碼器ge和自回歸模型ga。首先，ge將輸入語音序列xt(t=1, 2, ···, n)映射為隱藏語音表示r t=ge(x t)，然后將r t饋送到ga以產(chǎn)生潛在表示w t=ga(r≤t)。為了預(yù)測語音序列的未來值x t+k，構(gòu)造概率密度函數(shù)f k(x t+k,w t)，用于保留x t+k和w t之間的互信息。為了優(yōu)化編碼器ge和自回歸模型ga，將對(duì)比損失最小化

其中，N表示X={x1,x2,···,x N}中樣本個(gè)數(shù)，其中一個(gè)來自分布p(x t+k|w t)的正樣本，其余為來自分布p(x t+k)的負(fù)樣本。

和對(duì)比預(yù)測編碼一樣，自回歸預(yù)測編碼(APC)[16]也屬于預(yù)測編碼模型。但與前者不同的是，自回歸預(yù)測編碼使用自回歸模型對(duì)未來語音幀進(jìn)行預(yù)測，并且直接優(yōu)化輸入語音序列和輸出語音序列之間的L 1損失。在輸入序列x t(t=1,2,···,n)和輸出序列y t(t=1,2,···,n)的情況下，L 1損失定義為

3 基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測方法

為更好地提取帕金森病患者語音中的病理信息，提升評(píng)估和檢測的準(zhǔn)確率，本文提出一種基于掩蔽自監(jiān)督表示學(xué)習(xí)的帕金森病檢測方法。圖1展示了所提的基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測模型及其訓(xùn)練過程。其中，掩蔽自監(jiān)督語音特征提取模型的訓(xùn)練包括源域預(yù)訓(xùn)練和目標(biāo)域微調(diào)兩個(gè)部分。首先，對(duì)LibriSpeech公開語音數(shù)據(jù)集[23]進(jìn)行預(yù)處理和語譜圖特征提取，將結(jié)果輸入掩蔽自監(jiān)督模型進(jìn)行預(yù)訓(xùn)練；然后，基于遷移學(xué)習(xí)的思想將預(yù)訓(xùn)練好的掩蔽自監(jiān)督模型參數(shù)遷移至目標(biāo)域，利用帕金森病數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)，在目標(biāo)域?qū)δＰ瓦M(jìn)行微調(diào)和加權(quán)求和，并更新模型參數(shù)；最終，得到用于帕金森病檢測的語音特征表示。后續(xù)，可將提取出的語音特征表示送入分類器，完成下游的帕金森病檢測任務(wù)。

3.1 掩蔽自監(jiān)督語音特征提取模型結(jié)構(gòu)

本文將文獻(xiàn)[18]的掩蔽預(yù)測編碼思想引入帕金森病語音特征的表示學(xué)習(xí)，提出基于掩蔽自監(jiān)督的語音特征提取模型，該模型使用T ransform er編碼器[17]實(shí)現(xiàn)了雙向編碼[24]，具體結(jié)構(gòu)如圖2所示。

將從原始語音信號(hào)中提取出的M el語譜圖特征x t(t=1,2,···,n)作為掩蔽自監(jiān)督語音特征提取模型的輸入。根據(jù)文獻(xiàn)[17]附錄C.2節(jié)中的實(shí)驗(yàn)結(jié)果選取最優(yōu)掩蔽策略，即選擇每個(gè)輸入序列中15%的幀進(jìn)行掩蔽，被選擇的幀在80%的時(shí)間內(nèi)將被零向量替換，10%的時(shí)間內(nèi)替換為隨機(jī)位置的其他幀，剩余10%的時(shí)間內(nèi)保持不變，掩蔽規(guī)則如圖3所示。

圖3 以M el語譜圖為例的隨機(jī)掩蔽規(guī)則

原始語音信號(hào)的語音幀數(shù)據(jù)量大，需要降低輸入序列維度。在本文所提的掩蔽自監(jiān)督語音特征模型中，對(duì)掩蔽后的輸入序列進(jìn)行3倍下采樣，將長度為n的輸入序列變?yōu)殚L度為n/3的序列。由于T ransform er編碼器不包含遞歸和卷積，所以使用位置編碼來使模型了解輸入序列的順序[25]。由于聲學(xué)特征可以為任意長度且具有高方差[26]，因此在模型中引入正余弦位置編碼

其中，pos表示語音序列中的位置，i表示語音幀的位置，dmodel表示語音幀的維度。在位置編碼中引入正余弦函數(shù)，使得對(duì)于任意間距長度k的語音幀，其位置編碼PE(pos+k)可以由PE(pos)經(jīng)過線性函數(shù)計(jì)算得到。

將經(jīng)過3倍下采樣后的輸入序列與位置編碼相加，作為T ransform er編碼層的輸入。通過3層的T ransformer編碼器提取到帕金森病患者的語音表示c t(t=1,2,···,n/3)，其中，每個(gè)編碼器層有兩個(gè)子層，分別為多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層，模型中的所有編碼器層以及其子層輸出維度均為n/3。

最后，經(jīng)過全連接層得到重構(gòu)后的M el語譜圖z t(t=1,2,···,n/3)，并通過上采樣重新映射成長度為n的序列。在輸入的M el語譜圖特征與重構(gòu)后的Mel語譜圖特征之間計(jì)算L1損失，其計(jì)算可參考式(2)。

3.2 基于遷移學(xué)習(xí)的掩蔽自監(jiān)督模型訓(xùn)練過程

深度學(xué)習(xí)模型的性能很大程度上依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模。由于帕金森病語音數(shù)據(jù)的稀缺性，直接將帕金森病語音數(shù)據(jù)用于掩蔽自監(jiān)督模型的預(yù)訓(xùn)練，將難以得到很好的模型性能，且容易過擬合。

本文采用遷移學(xué)習(xí)，將說話人識(shí)別領(lǐng)域中的LibriSpeech語音數(shù)據(jù)集中100 h子集的語音作為源域數(shù)據(jù)集，通過學(xué)習(xí)不同的語音來進(jìn)行說話人分類檢測任務(wù)，訓(xùn)練過程如圖1橘色虛線框所示。將帕金森病語音檢測為目標(biāo)域檢測任務(wù)，帕金森病語音數(shù)據(jù)集作為目標(biāo)域的訓(xùn)練樣本，訓(xùn)練過程如圖1綠色虛線框所示。將上述預(yù)訓(xùn)練模型中的參數(shù)作為目標(biāo)域模型的初始化參數(shù)。

基于遷移學(xué)習(xí)的掩蔽自監(jiān)督模型訓(xùn)練過程通過在源域數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，再將模型遷移到目標(biāo)域數(shù)據(jù)集上進(jìn)行微調(diào)，從而大幅提升掩蔽自監(jiān)督模型的泛化性能。

3.3 結(jié)合帕金森病檢測任務(wù)的微調(diào)

利用掩蔽自監(jiān)督模型提取語音特征本質(zhì)上是提取T ransformer編碼器的輸出。本文采用了3種提取編碼器輸出的方法：直接從T ransform er編碼器的最后一層提取、微調(diào)后提取、經(jīng)過加權(quán)求和后提取。

微調(diào)后提取的方法是將預(yù)訓(xùn)練后的掩蔽自監(jiān)督模型在帕金森病語音數(shù)據(jù)集上微調(diào)2個(gè)epoch，更新了掩蔽自監(jiān)督模型的參數(shù)后，再從T ransform er編碼器的最后一層提取輸出。

經(jīng)過加權(quán)求和后提取的方法則是采用來自3層T ransform er編碼器輸出的混合表示，通過softmax函數(shù)進(jìn)行權(quán)重計(jì)算，其公式可以表示為

其中，以第j層編碼器輸出為例，h j為第j層編碼器輸出值，L為編碼層總層數(shù)，S(h j)則為第j層編碼器輸出的權(quán)重。將3個(gè)編碼層的輸出進(jìn)行權(quán)重分配并求和來整合所有層的輸出，其計(jì)算公式為

其中，f為經(jīng)過加權(quán)求和后的輸出特征，l為當(dāng)前計(jì)算層數(shù)，L為編碼層總層數(shù)，s l為第l層的歸一化權(quán)重，h l為第l層編碼器輸出值。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

本文使用了3個(gè)語音數(shù)據(jù)集，包括LibriSpeech公開語音數(shù)據(jù)集[23]、M ax Little帕金森病語音數(shù)據(jù)集[27]和本課題組自采的帕金森病中文語音數(shù)據(jù)集。

LibriSpeech數(shù)據(jù)集是由Vassil Panayotov發(fā)布的一個(gè)包含約1000 h英語語音的大型數(shù)據(jù)集[23]。本文從中選取總計(jì)100 h的語音數(shù)據(jù)子集(train-clean-100)作為自監(jiān)督模型的預(yù)訓(xùn)練數(shù)據(jù)集，預(yù)訓(xùn)練數(shù)據(jù)集包含251名說話人的音頻數(shù)據(jù)。經(jīng)剪輯整理成每條10 s左右的音頻文件，形成采樣率為16 kHz的WAV格式音頻文件集合。

M axLittle數(shù)據(jù)集是由牛津大學(xué)的Max Little與科羅拉多州丹佛的國家語音中心合作創(chuàng)建的帕金森病檢測數(shù)據(jù)集[27]，數(shù)據(jù)采集均在安靜的室內(nèi)環(huán)境進(jìn)行，采集內(nèi)容為持續(xù)元音/a/，受試者包括23名帕金森病患者和8名健康人，每人重復(fù)發(fā)聲6次。經(jīng)剪輯整理后，生成41條健康人語音數(shù)據(jù)和46條帕金森病患者語音數(shù)據(jù)，共計(jì)87條語音實(shí)驗(yàn)數(shù)據(jù)。

自采帕金森病語音數(shù)據(jù)集是由本課題組與南京醫(yī)科大學(xué)附屬老年醫(yī)院的帕金森病診療中心合作采集的。受試者包含56位帕金森病患者(PD)和22位健康人(HC)。數(shù)據(jù)采集均在安靜的室內(nèi)環(huán)境進(jìn)行。采集內(nèi)容為持續(xù)元音/a/，每人重復(fù)發(fā)聲2～3次。經(jīng)剪輯整理后，生成59條健康人語音數(shù)據(jù)和56條帕金森病患者語音數(shù)據(jù)，共計(jì)115條語音實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集的統(tǒng)計(jì)信息見表1，其中，HY(Hoeh & Yahr)分期對(duì)帕金森病變程度的評(píng)估，3期以前屬于輕中度，3期以后癥狀越來越嚴(yán)重。括號(hào)內(nèi)為數(shù)據(jù)標(biāo)準(zhǔn)差。

表1 自采帕金森病語音數(shù)據(jù)集信息統(tǒng)計(jì)

4.2 實(shí)驗(yàn)條件及過程

實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)所有算法。對(duì)所有的語音數(shù)據(jù)集提取[361,140]維的M el特征，采用幀長為25ms和幀移為10ms的滑動(dòng)窗口對(duì)語音信號(hào)進(jìn)行分幀，同時(shí)使用Librosa音頻處理庫去除語音首尾的靜音幀。

自監(jiān)督模型在LibriSpeech數(shù)據(jù)集的train-clean-100子集上進(jìn)行了預(yù)訓(xùn)練，并使用帕金森病患者語音數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)。具體地，預(yù)訓(xùn)練在4個(gè)GPU上進(jìn)行，總批大小為256，步數(shù)為500k。使用Adam優(yōu)化器[28]改變學(xué)習(xí)率，其中學(xué)習(xí)率在500k總訓(xùn)練步驟的前7%上升至峰值4e–4，然后線性衰減。

對(duì)所提取的語音特征，使用不同的分類器進(jìn)行分類，通過10折交叉驗(yàn)證完成下游的帕金森病檢測任務(wù)。為驗(yàn)證算法的有效性，本文使用準(zhǔn)確率(Accuracy,ACC)、敏感度(T rue Positive Rate,TPR)、特異度(T rue Negative Rate,TNR)作為實(shí)驗(yàn)結(jié)果的評(píng)估準(zhǔn)則。準(zhǔn)確率表示準(zhǔn)確區(qū)分帕金森病患者和健康人的概率，敏感度代表正確檢測出帕金森病患者的概率，而特異度表示正確識(shí)別健康人的概率。其計(jì)算公式為

其中，TP表示分類正確的帕金森病樣本，TN表示分類正確的健康人樣本，F(xiàn)P表示將健康人樣本誤分類成帕金森病樣本，F(xiàn)N表示將帕金森病樣本誤分類成健康人樣本。

4.3 實(shí)驗(yàn)結(jié)果

4.3.1輸入特征比較

為驗(yàn)證M el特征在帕金森病檢測中的有效性，本文在自采數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表2和表3所示。其中，M el,Fbank,MFCC所對(duì)應(yīng)的方案表示直接將Mel,Fbank,MFCC特征作為后續(xù)分類器的輸入。Mel-unsupervised,Fbank-unsu-pervised,M FCC-unsupervised所對(duì)應(yīng)的方案則是分別將M el,Fbank,MFCC特征作為本文所提掩蔽自監(jiān)督模型的輸入，將自監(jiān)督特征提取后得到的用于帕金森病檢測的語音特征表示作為后續(xù)分類器的輸入。表2是使用支持向量機(jī)作為分類器時(shí)的帕金森病檢測實(shí)驗(yàn)結(jié)果，表3則是使用隨機(jī)森林作為分類器時(shí)的帕金森病檢測實(shí)驗(yàn)結(jié)果。為了進(jìn)行更細(xì)致的分析，表2和表3還針對(duì)男性測試數(shù)據(jù)(Male)以及女性測試數(shù)據(jù)(Female)進(jìn)行了進(jìn)一步的細(xì)分。

表2 結(jié)合支持向量機(jī)分類器進(jìn)行帕金森病檢測的實(shí)驗(yàn)結(jié)果(%)

表3 結(jié)合隨機(jī)森林分類器進(jìn)行帕金森病檢測的實(shí)驗(yàn)結(jié)果(%)

比較表2和表3的結(jié)果可以發(fā)現(xiàn)，使用支持向量機(jī)作為分類器能獲得更好的帕金森病檢測性能；在不同性別以及全體數(shù)據(jù)上，基于M el語譜圖特征的帕金森病檢測性能要高于基于Fbank特征和基于MFCC特征的情況，基于M el-unsupervised的帕金森病檢測性能通常要高于基于Fbank-unsupervised和基于MFCC-unsupervised的情況。

4.3.2自監(jiān)督模型間比較

為檢驗(yàn)本文提出的掩蔽自監(jiān)督語音特征提取模型的性能，本文首次將在說話人識(shí)別領(lǐng)域有良好表現(xiàn)的CPC模型[15]和APC模型[16]引入基于語音的帕金森病檢測領(lǐng)域，對(duì)不同自監(jiān)督模型在帕金森病檢測領(lǐng)域的表現(xiàn)進(jìn)行比較。根據(jù)4.3.1節(jié)實(shí)驗(yàn)結(jié)果，本實(shí)驗(yàn)使用支持向量機(jī)作為分類器，以獲得更好的帕金森病檢測性能。

為證明自監(jiān)督模型在不同語言的數(shù)據(jù)集上均具有良好的可遷移性，將自監(jiān)督模型分別在MaxLittle數(shù)據(jù)集和自采數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比，實(shí)驗(yàn)結(jié)果如表4和表5所示。其中，M el+SVM對(duì)應(yīng)的是直接將M el特征作為后續(xù)SVM分類器的輸入進(jìn)行帕金森病的檢測的方案；本文-ft2和本文-w s分別為微調(diào)兩個(gè)epoch的模型和經(jīng)過加權(quán)求和后的模型。從表中可以觀察到，在不同數(shù)據(jù)集上，基于自監(jiān)督語音特征提取的帕金森病檢測方法性能總體上要優(yōu)于M el+SVM方案的情況；而基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測方法性能要優(yōu)于基于APC模型和基于CPC模型的情況，對(duì)掩蔽自監(jiān)督模型進(jìn)行微調(diào)和加權(quán)求和可以提高模型的帕金森病檢測性能。

表4 MaxLittle數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果(%)

表5 自采數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果(%)

為了驗(yàn)證帕金森病檢測結(jié)果的有效性，在自采數(shù)據(jù)集中將基于M el語譜圖特征和基于掩蔽自監(jiān)督語音特征的帕金森病檢測結(jié)果的混淆矩陣進(jìn)行了對(duì)比。其中，真正例為將樣本正確識(shí)別為帕金森病患者的次數(shù)，真反例為將樣本正確識(shí)別為健康人的次數(shù)，假正例為將樣本錯(cuò)誤識(shí)別為帕金森病患者的次數(shù)，假反例為將樣本錯(cuò)誤識(shí)別為健康人的次數(shù)?；贛 el語譜圖特征的帕金森病檢測結(jié)果的混淆矩陣中有45個(gè)真正例、47個(gè)真反例、12個(gè)假正例、11個(gè)假反例。而基于掩蔽自監(jiān)督語音特征的帕金森病檢測結(jié)果的混淆矩陣中則有51個(gè)真正例、54個(gè)真反例、5個(gè)假正例、5個(gè)假反例。從結(jié)果可以看出，基于自監(jiān)督語音特征提取的帕金森病檢測方法不僅對(duì)受試者的患病情況實(shí)現(xiàn)了較好的預(yù)測，而且對(duì)健康人也有較少的誤判。

5 結(jié)束語

本文提出了一種基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測方法，該方法利用掩蔽自監(jiān)督模型來掩蔽部分M el語譜圖特征并對(duì)其進(jìn)行重構(gòu)，從而學(xué)習(xí)到帕金森病患者語音的更高級(jí)特征表示。本文采用遷移學(xué)習(xí)解決帕金森病語音數(shù)據(jù)稀缺的問題，并且在帕金森病檢測任務(wù)上通過對(duì)掩蔽自監(jiān)督模型進(jìn)行微調(diào)和加權(quán)求和來提升模型的帕金森病檢測性能。自采數(shù)據(jù)集和M axLittle數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。未來的研究工作將集中在利用掩蔽自監(jiān)督模型對(duì)帕金森病患者進(jìn)行不同病情嚴(yán)重程度的分類。