張小恒,張馨月,李勇明,王 品,劉玉川
(1.重慶大學(xué)微電子與通信工程學(xué)院,重慶 400030;2.重慶廣播電視大學(xué),重慶 400052)
帕金森?。≒arkinson’s Disease,PD)是全球第二大退行性神經(jīng)疾病,危害嚴(yán)重[1].語音障礙作為PD 的顯著癥狀又叫作PD 構(gòu)音障礙[2].基于語音數(shù)據(jù)的PD 診斷方法具有簡易、高效、非接觸等特點,因此深入研究PD 語音診斷具有重要的科學(xué)意義及實用價值.近年來已有大量PD 語音診斷算法出現(xiàn),但其預(yù)測精度仍有較大提升空間.
常用的PD 語音特征分為基音相關(guān)類、能量相關(guān)類、語速相關(guān)類及內(nèi)容相關(guān)類[3,4].特征選擇/變換方法主要可分為基于神經(jīng)網(wǎng)絡(luò)方法[5~7]、基于主成分分析方法[8]、基于串行搜索方法[3,8]、基于進(jìn)化計算方法[7],還有P 值[4]、線性判別分析(Linear Discriminant Analysis,LDA)[9]等方法.常用分類器主要有支持向量機(jī)(Support Vector Machines,SVM)[3~5]和K 近 鄰(K-Nearest-Neighbor,KNN)[3,4,10],還有隨機(jī)森林(Random Forest,RF)[3]、貝葉斯網(wǎng)絡(luò)[11]、概率神經(jīng)網(wǎng)絡(luò)[12,13]和決策樹[13]等.
值得注意的是,上述算法均僅基于本地PD 語音數(shù)據(jù)集.如前所述,本地PD 語音數(shù)據(jù)集存在小樣本問題,限制了準(zhǔn)確性的提高.研究表明,遷移學(xué)習(xí)方法可以有效解決這類難題[5].相關(guān)研究[3,5]已證實了遷移學(xué)習(xí)在PD 診斷中的有效性,但這些診斷方法都不是基于語音數(shù)據(jù)的.此外,這些文獻(xiàn)中的遷移學(xué)習(xí)方法都只涉及從源域到目標(biāo)域的一步遷移,且未考慮本地PD 語音集中訓(xùn)練集和測試集的不同受試者數(shù)據(jù)之間的分布差異.雖然已有學(xué)者將訓(xùn)練集和測試集看作不同域進(jìn)行了遷移學(xué)習(xí)研究[14],但都未涉及PD語音分類領(lǐng)域.總之,現(xiàn)有的PD 語音診斷算法研究,既未考慮利用遷移學(xué)習(xí)來解決小樣本問題,也沒有考慮通過域適應(yīng)方法減少訓(xùn)練集與測試集的數(shù)據(jù)分布差異.上述問題亟待解決.
近年來,圖像處理研究領(lǐng)域出現(xiàn)一種新穎的稀疏學(xué)習(xí)算法——卷積稀疏編碼(Convolutional Sparse Coding,CSC)算法.該算法具有很強(qiáng)的稀疏學(xué)習(xí)能力,能夠有效地獲取數(shù)據(jù)中隱含的結(jié)構(gòu)與模式[15],適合于提取PD語音數(shù)據(jù)中的隱藏信息.此外,基于relief算法[16],本文構(gòu)造了語音段特征同時優(yōu)選算法,挖掘了更有效的信息,擬與CSC 結(jié)合,設(shè)計第一步遷移學(xué)習(xí)算法(First Step Transfer Learning Algorithm,F(xiàn)T).域適應(yīng)的目的是在不同但相關(guān)的任務(wù)或領(lǐng)域之間轉(zhuǎn)移共享知識[17].非監(jiān)督域適應(yīng)(Unsupervised Domain Adaptation,UDA)的常見做法是盡量減少域之間的差異,以保持域不變特征[18]或在執(zhí)行域?qū)R時學(xué)習(xí)更多有差異的特征.因此,本文考慮將其用于PD 語音數(shù)據(jù)域適應(yīng),保持訓(xùn)練集(源域)和測試集(目標(biāo)域)各自局部結(jié)構(gòu)特性不變的同時,減小領(lǐng)域之間的分布差異.基于此,本文提出了一種新的域適應(yīng)方法——聯(lián)合局部結(jié)構(gòu)信息分布對齊(Joint Local Structure Distribution Alignment,JLSDA)算法,從而在分類之前降低了訓(xùn)練集與測試集之間的分布差異,有助于提高分類準(zhǔn)確率.結(jié)合上述兩步遷移學(xué)習(xí)算法,本文提出了一種新的PD 語音診斷方法——非監(jiān)督兩步式卷積稀疏遷移學(xué)習(xí)(Unsupervised Two-Step Convolutional Sparse Transfer Leaning,TSTL)算法.
本文的主要貢獻(xiàn)和創(chuàng)新點如下.
(1)為了解決PD 語音診斷中小樣本和訓(xùn)練集測試集間分布差異這兩大問題,本文提出了非監(jiān)督兩步式卷積稀疏遷移學(xué)習(xí)算法(TSTL).該算法同時將不同數(shù)據(jù)集之間的遷移學(xué)習(xí)與同一數(shù)據(jù)集中訓(xùn)練集與測試集之間的遷移學(xué)習(xí)相結(jié)合.
(2)為了提高遷移源數(shù)據(jù)集效率,將CSC 算法與語音段特征同時優(yōu)選算法相結(jié)合,基于傅里葉域并交換迭代次序的交替方向乘子法提出了第一步遷移學(xué)習(xí)算法——語音段特征同時優(yōu)選的快速卷積稀疏編碼(Fast Convolutional Sparse Coding with Coordinate Selection of Samples and Seatures,F(xiàn)CSC&SF)算法.
(3)本文針對PD 語音集中訓(xùn)練集和測試集的分布差異問題,首次提出了聯(lián)合局部結(jié)構(gòu)信息分布對齊(JLSDA)算法.
(4)本文將受試者多個語音段樣本合并轉(zhuǎn)化為二維數(shù)據(jù)樣本,用于遷移學(xué)習(xí)算法的建模和驗證,并充分考慮了語音段和特征之間的協(xié)同關(guān)系.
本文提出的面向帕金森語音診斷的非監(jiān)督兩步式卷積稀疏遷移學(xué)習(xí)(TSTL)算法主要包括兩部分:第一步遷移學(xué)習(xí)算法為語音段特征同時優(yōu)選的快速卷積稀疏編碼(FCSC&SF)算法,第二步遷移學(xué)習(xí)算法為聯(lián)合局部結(jié)構(gòu)信息分布對齊(JLSDA)算法.第一步遷移學(xué)習(xí)算法的目的是學(xué)習(xí)公共語音集(源域)中的有用信息并將其遷移到目標(biāo)域.第二步遷移(JLSDA)的目的是對齊數(shù)據(jù)分布同時保持原始結(jié)構(gòu)不變,降低訓(xùn)練集和測試集之間的分布差異.
2.3.1 快速卷積稀疏編碼
其中,xg=是G0×N分塊矩陣,eg,k是G0×N特征映射矩陣,與對應(yīng)的卷積核dk進(jìn)行卷積運算逼近xg,符號*表示二維卷積運算,η是大于0的正則化因子.式(1)可進(jìn)一步簡潔表達(dá)如下:
上述優(yōu)化問題可基于經(jīng)典的交替方向乘子法(Alternating Direction Multiplier Method,ADMM)實現(xiàn)[19].由于源數(shù)據(jù)集規(guī)模較大,訓(xùn)練時間較長不利于實際應(yīng)用,為實現(xiàn)高效運算,本文基于文獻(xiàn)[20]的傅里葉域快速運算并結(jié)合文獻(xiàn)[21]的交換迭代次序法加以解決.其特征映射部分訓(xùn)練部分如下:
其中,F(xiàn)supp(d)是一個蒙板函數(shù),支撐集SUPP(d)上為1否則為0,γ是松弛因子.
式(3)、式(4)中step1 的時間復(fù)雜度等同于文獻(xiàn)[20],但由于step2的時間復(fù)雜度極低,因此本文提出的快速卷積稀疏編碼(FCSC)算法整體迭代效率遠(yuǎn)高于文獻(xiàn)[20].
目標(biāo)域F的特征映射變換如下:替換x,用訓(xùn)練好的卷積核替換D,基于式(3)通過有限次迭代可將目標(biāo)域特征矩陣可轉(zhuǎn)換為特征映射矩陣e=可以選擇固定的ek作為映射,從而構(gòu)建轉(zhuǎn)換后的目標(biāo)域特征矩陣
2.3.2 語音段特征同時優(yōu)選
FCSC&SF算法偽代碼描述如算法1所示.
本文提出一種新的通過映射源域(訓(xùn)練集)和目標(biāo)域(測試集)公共流行空間以適配分布及保持樣本間結(jié)構(gòu)的方法.公式如下:
根據(jù)多數(shù)非監(jiān)督域適應(yīng)方法的關(guān)鍵假設(shè),不同域的邊緣分布不同,即P≠Q(mào),但預(yù)測分布卻相同,即XT)[17].式(5)中第一個范數(shù)即源域和目標(biāo)域之間的最大均值差異(MMD),余下的范數(shù)累加求和表示同一域中樣本之間的結(jié)構(gòu)關(guān)系[22].
2.4.1 聯(lián)合優(yōu)化
根據(jù)式(5),JLSDA算法可重新表示如下:
根據(jù)矩陣跡運算相關(guān)特性及之前的相關(guān)定義,式(6)可簡化為
式(6)中第一部分與TCA域適應(yīng)目標(biāo)式類似[17].式(7)中是核矩陣是MMD矩陣,都可以通過第一步遷移學(xué)習(xí)得到.記作且記作分別是源域和目標(biāo)域的拉普拉斯矩陣,其中,和為源域和目標(biāo)域的度矩陣和為源域和目標(biāo)域的鄰接矩陣.源域及目標(biāo)域度矩陣對角線上元素分別為和分別為源域及目標(biāo)域鄰接矩陣的行列元素.為方便推導(dǎo),式(7)可簡化為
基于拉格朗日乘子法,問題(9)可重新表達(dá)為
其中,Z是包含拉格朗日乘子的對角陣.式(10)對W取導(dǎo)后并置0,可得
JLSDA算法的偽代碼如算法2所示.
基于JLSDA算法得到變換矩陣W,進(jìn)一步得到變換后的源域和目標(biāo)域數(shù)據(jù)集,即變換后的源域為前n1個列向量構(gòu)成,變換后的目標(biāo)域為后n2個列向量構(gòu)成.
3.1.1 數(shù)據(jù)集
本文使用了3 個語音數(shù)據(jù)集,有一定代表性.它們分別是TIMIT 公共語音數(shù)據(jù)集、Sakar數(shù)據(jù)集[4]和DNSH數(shù)據(jù)集.
第一個語音數(shù)據(jù)集作為第一步遷移學(xué)習(xí)的源域數(shù)據(jù)集.TIMIT 集總共包含6300 個句子,由630 個朗讀者每人提供10 個句子,但目前只有240 個語音樣本可用,40 名男性和40 名女性每人提供3 段語音.數(shù)據(jù)集擴(kuò)展使用的噪聲來源于NOISEX-9標(biāo)準(zhǔn)噪聲集.
Sakar 數(shù)據(jù)集是PD 語音公開數(shù)據(jù)集,由Sakar 等人[7]提供,作為第一步遷移學(xué)習(xí)的目標(biāo)域數(shù)據(jù)集.總共包含40 名受試者,其中20 名PD 患者(6 名女性,14 男性),20 名健康人(10 名女性,10 名男性),每人提供26個語音樣本段,且每個語音樣本段包含不同的發(fā)音內(nèi)容,具體有連續(xù)的元音字母發(fā)音,數(shù)字發(fā)音,單詞發(fā)音及短句發(fā)音.每個語音段都提取了26 個特征組成一個特征向量,包括頻率類、振幅類、諧波類、基音頻率等.
第3個數(shù)據(jù)集由本文作者自采,且受試者來自陸軍軍醫(yī)大學(xué)第一附屬醫(yī)院.數(shù)據(jù)包含了未接受治療的36名PD患者,其中16名女性(年齡的均值±標(biāo)準(zhǔn)差(mean±std):57.9±9.0),20 名男性(mean±std:60.8±10.6)(患病時間的均值和標(biāo)準(zhǔn)差分別是7.38年和3.58年);54名已接受治療的PD 患者,其中27 名女性(mean±std:59.7±8.1),27 名男性(mean±std:63.2±10.8))(患病時間的均值和標(biāo)準(zhǔn)差分別是6.82年和3.50年).每人提供13個語音段,每個語音段提取26個特征.
3.1.2 評價準(zhǔn)則
為驗證算法的有效性,本文使用分類準(zhǔn)確率、靈敏度和特異度作為實驗結(jié)果的評估準(zhǔn)則.
根據(jù)數(shù)據(jù)集中一個受試者對應(yīng)多個語音樣本的特性,本文所提出算法使用LOSO(Leave-One-Subject-Out)交叉驗證方法.分類器采用線性SVM,預(yù)測分類準(zhǔn)確率累加再算數(shù)平均即得最終準(zhǔn)確率.
3.1.3 實驗平臺
本文實驗使用的計算機(jī)硬件配置為CPU(intel i3-4170M),6 GB memory,操作系統(tǒng)為64-bit Windows 7,實驗運行在Matlab R2018b 版本上.論文參數(shù)設(shè)置如下.重復(fù)實驗次數(shù)設(shè)置為10次,在第一步遷移學(xué)習(xí)中,主訓(xùn)練迭代次數(shù)、特征映射訓(xùn)練迭代次數(shù)及卷積核訓(xùn)練迭代次數(shù)分別為100,10和10,ADDM 縮放因子λ=1,松弛因子γ=1,卷積核數(shù)量從2 增加到8,尺寸為8*8.在第二步遷移學(xué)習(xí)中,正則化因子μ=0.01,核類型為‘rbf’,‘rbf’核寬度gamma 為100,關(guān)聯(lián)矩陣模式為“simple”模式且最小鄰居樣本數(shù)為1.
3.2.1 第一步遷移學(xué)習(xí)的有效性驗證
以Sakar 數(shù)據(jù)集為例.在第一步遷移學(xué)習(xí)(FT)中,本文主要使用CSC 將TIMIT 的知識遷移到Sakar 數(shù)據(jù)集.本文嘗試處理第一步遷移前后的數(shù)據(jù),比較準(zhǔn)確率差異.這里分類器選擇KNN和SVM,分類結(jié)果見表1.
表1 基于Sakar集的第一步遷移學(xué)習(xí)分類準(zhǔn)確率(LOSO)
如表1 所示,KNN 分類器的準(zhǔn)確率為52.5%,優(yōu)于SVM 分類器的50.0%.但是,經(jīng)過第一步遷移學(xué)習(xí)之后分類準(zhǔn)確率得到顯著改善,F(xiàn)T&KNN 準(zhǔn)確率為90%,F(xiàn)T&SVM 準(zhǔn)確率為92.5%,靈敏度和特異度也明顯提升.實驗結(jié)果表明,F(xiàn)T 從公共語音集遷移到目標(biāo)域的新增信息有助于目標(biāo)域分類,其是有效的.
3.2.2 第二步遷移學(xué)習(xí)的有效性驗證
以Sakar 數(shù)據(jù)集為例.在第二步遷移學(xué)習(xí)(ST)中,JLSDA 算法使訓(xùn)練集和測試集的分布差異減小,并保持原始結(jié)構(gòu)信息.參照3.2.1 節(jié),本文可通過比較遷移前后數(shù)據(jù)的分類準(zhǔn)確率,來驗證ST的有效性.請見表2分類結(jié)果.
如表2 所示,根據(jù)第二步遷移學(xué)習(xí)(ST)的實驗結(jié)果,盡管性能提升程度不如第一步遷移學(xué)習(xí)(FT),但仍然有效.經(jīng)過第二步遷移學(xué)習(xí),基于KNN 準(zhǔn)確率增加了15%,基于SVM準(zhǔn)確率增加了12.5%.
表2 基于Sakar數(shù)據(jù)集的第二步遷移學(xué)習(xí)分類準(zhǔn)確率(LOSO)
基于Sakar 數(shù)據(jù)集,本文選取了基于不同智能算法的代表性PD 語音診斷算法進(jìn)行比較.文獻(xiàn)[23]手動選擇特征;文獻(xiàn)[24]采用樣本選擇法,文獻(xiàn)[25]是樣本特征混合選擇的代表;文獻(xiàn)[26,27]均使用了倒譜系數(shù);而文獻(xiàn)[28]結(jié)合利用語音段選擇,特征選擇及神經(jīng)網(wǎng)絡(luò)等多種手段,且取得了相對更好的性能.此外,深度學(xué)習(xí)方法近年十分流行,因此本文選取了深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、自動編碼器(Autoencoder)算法,及SVM 和KNN 相結(jié)合的算法進(jìn)行了比較.為驗證遷移學(xué)習(xí)的效果,本文還選取了卷積稀疏編碼遷移學(xué)習(xí)(Convolutional Sparse Coding Transfer Leaning,CSCTL)算法、經(jīng)典域適應(yīng)方法——遷移成分分析(Transfer Component Analysis,TCA)[27]結(jié)合SVM 分類器等一步式遷移學(xué)習(xí)算法,這些方法只單一考慮基于源域結(jié)構(gòu)對目標(biāo)域進(jìn)行更有效表達(dá)或源域和目標(biāo)域分布一致問題,通過比較證明,本文的兩步式遷移學(xué)習(xí)在同時考慮上述兩個問題后更有效.
表3顯示了準(zhǔn)確率比較結(jié)果.
表3 基于Sakar數(shù)據(jù)集的相關(guān)算法性能比較(LOSO)
如表3 所示,僅有小部分算法能達(dá)到90%的準(zhǔn)確率.從方法論的角度看,深度學(xué)習(xí)并不比傳統(tǒng)機(jī)器學(xué)習(xí)的效果更好,這也印證了深度學(xué)習(xí)依賴大樣本量訓(xùn)練特性,并不適合PD 語音數(shù)據(jù)集這類小樣本數(shù)據(jù)集.以上實驗結(jié)果基于LOSO交叉驗證.
如表4 所示,本文提出的算法在DNSH 數(shù)據(jù)集上也達(dá)到了較好的效果.與直接使用SVM 和KNN 分類器相比,本文提出的算法達(dá)到了90.63%的平均分類準(zhǔn)確率,證明本文算法在中國人的PD 語音數(shù)據(jù)集上也十分有效.
表4 基于DNSH數(shù)據(jù)集的相關(guān)算法比較(LOSO)
雖然遷移學(xué)習(xí)可以解決PD 語音小樣本問題,但面臨不同數(shù)據(jù)集之間和訓(xùn)練集測試集之間的差異.為了解決這個問題,本文提出了一種新的解決方法——非監(jiān)督兩步式卷積稀疏遷移學(xué)習(xí)(TSTL)算法.實驗結(jié)果表明,本文所提出算法的主要創(chuàng)新部分是有效的,在準(zhǔn)確率、靈敏度及特異度上都較現(xiàn)有算法顯著更好.
盡管本文算法被驗證是有效的,但仍存在較大改進(jìn)空間.下一步工作擬考慮結(jié)合不同大小和類型的公共語音數(shù)據(jù)集和各種代表性域適應(yīng)方法,探索進(jìn)一步提升本文算法性能的可能途徑.