劉 峰,季 薇,李 云
(1.南京郵電大學(xué) 通信與信息工程學(xué)院,南京 210003; 2.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023)(*通信作者電子郵箱873216019@qq.com)
帕金森癥(Parkinson’s Disease,PD)是繼阿爾茨海默氏病后第二大常見(jiàn)的神經(jīng)退行性疾病,僅中國(guó)大陸就有超過(guò)300萬(wàn)人受到該病的影響[1-2]。它的主要癥狀是肌肉僵硬、運(yùn)動(dòng)過(guò)緩、靜止性震顫以及其他一些運(yùn)動(dòng)障礙[3-4]。臨床實(shí)踐中,醫(yī)生大多采用統(tǒng)一帕金森定量表(Unified Parkinson’s Disease Rating Scale, UPDRS)[5-6]來(lái)衡量患者帕金森癥癥狀的嚴(yán)重性。已有研究表明,60%~90%的帕金森患者會(huì)出現(xiàn)語(yǔ)言障礙,患有某種程度上的語(yǔ)音損傷,語(yǔ)音損傷也可能是帕金森最早的征兆之一[7], 因此,可以通過(guò)語(yǔ)音分析來(lái)對(duì)患者的病情進(jìn)行早期診斷。
近幾年研究中,Goetz等[8]強(qiáng)調(diào)了利用語(yǔ)音信號(hào)預(yù)測(cè)UPDRS 的重要性;Tsanas[9]在此基礎(chǔ)上使用了各種語(yǔ)音信號(hào)處理算法得到了相關(guān)病特征,并利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法(如最小二乘(Least Squares, LS)、決策回歸樹(shù)等)預(yù)測(cè)帕金森癥患者的 motor-UPDRS(motor Unified Parkinson’s Disease Rating Scale) 評(píng)分和 total-UPDRS(total Unified Parkinson’s Disease Rating Scale)評(píng)分;文獻(xiàn)[10-11]在此基礎(chǔ)上介紹了基于參數(shù)優(yōu)化的支持向量機(jī)的帕金森病診斷方法,證明了經(jīng)參數(shù)優(yōu)化的支持向量機(jī)可以提高帕金森病診斷的準(zhǔn)確率;Athansios等[12]則通過(guò)語(yǔ)音測(cè)試來(lái)證明UPDRS評(píng)估具有臨床上有用的準(zhǔn)確性,同時(shí)指出motor-UPDRS和total-UPDRS受不同語(yǔ)音特征影響,其在預(yù)測(cè)motor-UPDRS和total-UPDRS時(shí),貢獻(xiàn)度并不相同。然而,Tsanas只考慮了在單任務(wù)條件下利用各種語(yǔ)音特征預(yù)測(cè)motor-UPDRS 和total-UPDRS分析病情,但是并沒(méi)考慮到在多任務(wù)學(xué)習(xí)過(guò)程時(shí),子任務(wù)語(yǔ)音特征對(duì)motor-UPDRS和total-UPDRS的貢獻(xiàn)度的不同,各子任務(wù)的共享特征也會(huì)影響到其他子任務(wù)的預(yù)測(cè)效果。較之于單獨(dú)的學(xué)習(xí)各個(gè)子任務(wù),對(duì)于多個(gè)相關(guān)的子任務(wù)同時(shí)學(xué)習(xí)能有效地提升預(yù)測(cè)性能[13], 并且,一致性原理[14]又對(duì)此給出了理論保障,即若最大化各相關(guān)子學(xué)習(xí)機(jī)的一致性,則能使各子學(xué)習(xí)機(jī)的性能得到改善。Evgeniou等[15]提出了正則化多任務(wù)學(xué)習(xí)(regularized multi-task learning)方法,其思想是在保持各個(gè)自學(xué)機(jī)局部?jī)?yōu)化的同時(shí),使得多個(gè)學(xué)習(xí)機(jī)之間的全局差異最小化。正則化多任務(wù)學(xué)習(xí)以其模型的簡(jiǎn)潔性從而成為多任務(wù)學(xué)習(xí)理論研究基礎(chǔ)。
本文考慮到了在預(yù)測(cè)motor-UDPRS和total-UPDRS時(shí),子任務(wù)語(yǔ)音特征之間相互影響,通過(guò)特征選擇,合理利用子任務(wù)之間的共享特征,使得模型可解釋性更強(qiáng),模型更為稀疏。同時(shí)在考慮不同對(duì)象分布域不同的基礎(chǔ)上,添加了過(guò)濾機(jī)制,提出了基于模型過(guò)濾的多任務(wù)回歸算法來(lái)解決帕金森UPDRS多任務(wù)預(yù)測(cè)問(wèn)題。
本文采用UCI遠(yuǎn)程帕金森數(shù)據(jù)集,數(shù)據(jù)集詳見(jiàn)文獻(xiàn)[8]。數(shù)據(jù)集包含了42位原發(fā)性帕金森患者的采集信息,其中男性共有28位,女性占了14位,每一位患者都有5年的患病歷史。采集數(shù)據(jù)期間,病人每周完成醫(yī)生制定的一系列測(cè)試,并記錄該病人的6條語(yǔ)音,持續(xù)6個(gè)月,由此一共采集了5 875條語(yǔ)音音頻,其中男性占4 010條,女性占1 865條。
1.2.1 帕金森語(yǔ)音特征提取
利用錄制到的語(yǔ)音音頻對(duì)帕金森癥患者UPDRS進(jìn)行預(yù)測(cè)時(shí),首先需要經(jīng)過(guò)去噪算法以及各種語(yǔ)音信號(hào)處理算法處理得到相關(guān)語(yǔ)音特征, 例如諧波噪聲比(Harmonic to Noise Ratio,HNR)、噪聲諧波比(Noise to Harmonic Ratio,NHR)、趨勢(shì)波動(dòng)分析(Detrended Fluctuation Analysis,DFA)、循環(huán)周期密度熵(Recurrence Period Density Entropy, RPDE)和基因周期熵(Pitch Period Entroy, PPE)等; 然后,將帕金森病理特征向量作為輸入向量,通過(guò)構(gòu)建的模型,得到患者UPDRS。本文采用文獻(xiàn)[5,8,11]中介紹的語(yǔ)音信號(hào)處理算法進(jìn)行帕金森語(yǔ)音處理,詳見(jiàn)表1。
表1 語(yǔ)音信號(hào)處理方法
通過(guò)上述線性和非線性語(yǔ)音信號(hào)處理方法,能夠?qū)?條語(yǔ)音處理成一個(gè)16維的語(yǔ)音特征向量,每一維表示一個(gè)提取的語(yǔ)音信號(hào)特征值。經(jīng)過(guò)語(yǔ)音特征的提取,得到一個(gè)5 875*16的數(shù)據(jù)集。
1.2.2 帕金森語(yǔ)音特征選擇
基于L1正則化的學(xué)習(xí)方法則是一種嵌入式特征選擇方法,其特征選擇過(guò)程和學(xué)習(xí)器訓(xùn)練過(guò)程融為一體,同時(shí)完成[16]。本文在構(gòu)建模型時(shí)引入L1正則化項(xiàng),進(jìn)行帕金森語(yǔ)音特征選擇,從而合理利用子任務(wù)之間共享的帕金森語(yǔ)音特征,使得各子任務(wù)差異性更小,提高預(yù)測(cè)模型的稀疏性和泛化能力。
在數(shù)據(jù)集預(yù)處理階段,本文隨機(jī)選取了5個(gè)對(duì)象,畫(huà)出motor-UPDRS隨時(shí)間變化的曲線,如圖1所示。本文發(fā)現(xiàn),不同對(duì)象之間的帕金森病情進(jìn)展有顯著的不同。其中,如對(duì)象1和對(duì)象2,兩者之間變化規(guī)律的差異性很大;相反,對(duì)象1和對(duì)象5曲線變化規(guī)律卻非常相似。很顯然在進(jìn)行對(duì)象1的UPDRS預(yù)測(cè)時(shí),本文須考慮帕金森對(duì)象分布在不同的域?qū)︻A(yù)測(cè)模型的影響,否則模型的精確度將會(huì)大幅降低。因此本文添加過(guò)濾機(jī)制,來(lái)區(qū)分不同帕金森對(duì)象,提高預(yù)測(cè)精確度。
圖1 對(duì)象motor-UPDRS值隨時(shí)間變化規(guī)律
在本實(shí)驗(yàn)中UPDRS的預(yù)測(cè)作為一個(gè)多任務(wù)回歸問(wèn)題,結(jié)合帕金森對(duì)象病情之間的差異性這一事實(shí),提出了基于模型過(guò)濾的多任務(wù)回歸方法(Multi-Task Regression Model Filtering, MTRMF)。該模型算法包含三部分:多任務(wù)回歸算法構(gòu)建模型并進(jìn)行特征選擇、添加過(guò)濾機(jī)制進(jìn)行模型融合。多任務(wù)回歸構(gòu)建模型部分,則將N-1個(gè)已知對(duì)象數(shù)據(jù)構(gòu)建N-1個(gè)多任務(wù)回歸模型;添加過(guò)濾機(jī)制部分,則利用驗(yàn)證集數(shù)據(jù)對(duì)N-1個(gè)回歸模型進(jìn)行過(guò)濾,具體步驟詳見(jiàn)實(shí)驗(yàn);模型融合部分,則將過(guò)濾之后的剩余模型進(jìn)行融合,獲取待測(cè)對(duì)象的最終預(yù)測(cè)模型,從而提高算法的泛化能力。
設(shè)訓(xùn)練數(shù)據(jù)集中包含N個(gè)對(duì)象,共n條語(yǔ)音記錄,X∈Rn×d為輸入語(yǔ)音特征矩陣;Y∈Rn×t為UPDRS值矩陣,即帕金森病人motor-UPDRS值和total-UPDRS值;W∈Rd×t為模型參數(shù)矩陣。其中:d為帕金森語(yǔ)音特征向量維度,n為語(yǔ)音數(shù)據(jù)記錄數(shù),t為任務(wù)數(shù)。λ1為L(zhǎng)1正則化參數(shù),λ2為L(zhǎng)2正則化參數(shù)。
建立模型如下:
(1)
在求解模型之前引入如下定理:
定理1 假設(shè)F1和F2是兩個(gè)下半連續(xù)的凸函數(shù),F(xiàn)2在Rn×m中可微且對(duì)某個(gè)β∈(0,+∞)滿足β-Lipschitz連續(xù),即為:
‖▽F2(U)-▽F1(V)‖F(xiàn)≤β‖U-V‖F(xiàn)
(2)
則對(duì)于凸優(yōu)化問(wèn)題:
(3)
有如下性質(zhì):
1)如果F1+F2是強(qiáng)制的,即為:
(4)
則問(wèn)題2)至少有一個(gè)解。
2)如果F1+F2是嚴(yán)格凸的,則問(wèn)題2)至多存在一個(gè)解。
3)如果F1和F2同時(shí)滿足條件1)和條件2),則問(wèn)題2)存在唯一解,且對(duì)任意的初始值X0及0<δ<2/β,用如下方法生成的迭代序列Xk+1收斂到問(wèn)題2)的唯一解:
Xk+1=proxδF1(Xk-δ▽F2(Xk))=
(5)
其中,k為迭代次數(shù),且性質(zhì)(3)所描述的求解算法通常稱之為近鄰前向后向分裂(Proximal Forward Backward Splitting,PFBS)算法。證明詳見(jiàn)文獻(xiàn)[17]。
定理2 對(duì)任意的τ>0,Y∈Rn×m,矩陣收縮算子ζτ(Y)滿足
sign(Y)·max(0,|Y|-τ)
(6)
其中sign(·)為符號(hào)函數(shù)。證明詳見(jiàn)文獻(xiàn)[18]。則MTRMF模型問(wèn)題求解轉(zhuǎn)化為:
Wk+1=
(7)
MTRMF算法偽代碼如下:
算法 基于模型過(guò)濾的多任務(wù)回歸算法(MTRMF)。
輸入Xn×d,Yn×t,λ1,λ2,δ;
fori=1,2,…,N
1) 進(jìn)行預(yù)處理Xn×d
2) 設(shè)定迭代次數(shù)k,和正則化參數(shù)λ1,λ2
3) forj=1,2,…,N-1
form=1,2,…,k
end
end
5) 添加過(guò)濾機(jī)制,獲得剩余符合條件的M個(gè)模型
end
將數(shù)據(jù)集中任一對(duì)象作為待預(yù)測(cè)對(duì)象,其他N-1對(duì)象作為已知對(duì)象建立模型進(jìn)行對(duì)比實(shí)驗(yàn);同時(shí)將待測(cè)對(duì)象的數(shù)據(jù)平均分為3部分,前1/3作為驗(yàn)證集,使用N-1個(gè)訓(xùn)練出的回歸模型對(duì)其進(jìn)行預(yù)測(cè),并計(jì)算出平均絕對(duì)誤差(Mean Absolute Error, MAE)值來(lái)衡量N-1個(gè)模型對(duì)待測(cè)對(duì)象的表現(xiàn)性能。其中,將MAE值大于閾值σ的模型進(jìn)行過(guò)濾,并選出剩余較好的M個(gè)模型進(jìn)行融合。后2/3作為測(cè)試集進(jìn)行模型預(yù)測(cè),同樣使用MAE來(lái)衡量融合后模型的性能。
實(shí)驗(yàn)分別比較了單任務(wù)條件下最小二乘(Least Squares, LS)法[6]、加權(quán)迭代的最小二乘法(Iteratively Reweighted Least Squares, IRLS)[9]、決策回歸樹(shù)(Classification and Regression Tree, CART_rg)[4]以及多任務(wù)回歸模型(MTRMF)的預(yù)測(cè)效果。在實(shí)驗(yàn)訓(xùn)練階段,IRLS設(shè)置迭代次數(shù)為100,迭代次數(shù)采用文獻(xiàn)[9]設(shè)置的迭代次數(shù)。MTRMF模型迭代次數(shù)設(shè)置為100,delta設(shè)置為0.000 01,lmada2設(shè)置為0.2。根據(jù)文獻(xiàn)[11]得出的結(jié)論,帕金森選擇的特征數(shù)達(dá)到13時(shí), F-Measure趨于穩(wěn)定,并且錯(cuò)誤率達(dá)到最低。由此可以得出當(dāng)帕金森病理特征選擇數(shù)目達(dá)到13時(shí),模型的泛化能力,可解釋性達(dá)到最佳。經(jīng)過(guò)實(shí)驗(yàn),本文設(shè)置lmada1為12.5,預(yù)測(cè)效果達(dá)到最佳; 同時(shí),在進(jìn)行模型過(guò)濾時(shí),閾值σ設(shè)置為8。最終motor-UPDRS對(duì)比實(shí)驗(yàn)結(jié)果如圖2所示,total-UPDRS對(duì)比實(shí)驗(yàn)結(jié)果如圖3所示。
由圖3可知,在大部分對(duì)象預(yù)測(cè)的表現(xiàn)上,MTRMF比單任務(wù)條件下LS,IRLS和CART_rg預(yù)測(cè)的誤差更小。為了精確描述MTRMF性能,本文采用MAE的方差來(lái)衡量算法穩(wěn)定性。實(shí)驗(yàn)結(jié)果如表2所示。
表2 各回歸算法預(yù)測(cè)MAE結(jié)果的方差
由表2可知,基于模型過(guò)濾的多任務(wù)回歸模型在預(yù)測(cè)UPDRS時(shí),比單任務(wù)條件下LS模型預(yù)測(cè)motor值準(zhǔn)確度提高了67.2%;預(yù)測(cè)total值則提高了83.3%。相比單任務(wù)條件下CART_rg預(yù)測(cè)motor值提高了64%;預(yù)測(cè)total值則提高了78.4%。同時(shí)在實(shí)驗(yàn)時(shí)利用L1正則化項(xiàng)進(jìn)行特征選擇發(fā)現(xiàn),模型對(duì)于振幅擾動(dòng)類特征、HNR、RPDE和DFA等特征更為偏好,預(yù)測(cè)效果相較于單任務(wù)回歸算法得到極大提升。為了驗(yàn)證挑選出的13種特征是否有效,本文將挑選出的特征在單任務(wù)下用最小二乘法(LS)進(jìn)行訓(xùn)練,發(fā)現(xiàn)當(dāng)剔除Jitter(Abs)、Jitter(RAP)、Jitter(PPQ5)這三種特征后,最小二乘法(LS)預(yù)測(cè)模型效果基本不變,如表3所示。結(jié)果表明,本文方法在進(jìn)行特征選擇時(shí),并沒(méi)有漏除重要語(yǔ)音特征,相反回歸模型變得更為稀疏,預(yù)測(cè)性能更好。實(shí)驗(yàn)表明在多任務(wù)回歸模型中添加L1正則化項(xiàng)進(jìn)行特征選擇有助于模型稀疏化,也提高了模型的泛化能力和模型的可解釋性。進(jìn)一步表明,在預(yù)測(cè)病人UPDRS時(shí),一定要注意采集語(yǔ)音期間病人連續(xù)穩(wěn)定發(fā)聲,實(shí)驗(yàn)時(shí)應(yīng)該多關(guān)注HNR、RPDF、Shimmer類特征的變化。
圖2 在帕金森數(shù)據(jù)集各對(duì)象上預(yù)測(cè)motor-UPDRS的MAE比較
預(yù)測(cè)結(jié)果方差特征選擇前LS_MAE特征選擇后LS_MAEmotor-UPDRS15.1214.52total-UPDRS37.1635.16
本文將多任務(wù)回歸模型應(yīng)用到遠(yuǎn)程帕金森數(shù)據(jù)集中,實(shí)現(xiàn)了對(duì)motor-UPDRS和total-UPDRS的聯(lián)合預(yù)測(cè), 并且與單任務(wù)條件下最小二乘法、決策樹(shù)回歸等傳統(tǒng)回歸方法比較。實(shí)驗(yàn)表明,在帕金森UPDRS預(yù)測(cè)過(guò)程中,對(duì)于多變量預(yù)測(cè)、多任務(wù)回歸模型比單任務(wù)模型更加有效。該方法在建模過(guò)程中利用L1正則化項(xiàng)進(jìn)行特征選擇,使得模型更為稀疏,模型可解釋性更強(qiáng),模型的泛化能力與傳統(tǒng)單任務(wù)模型相比,得到了極大的提升。同時(shí)本模型考慮到了帕金森對(duì)象的差異性,使用已有的驗(yàn)證數(shù)據(jù)在模型融合前進(jìn)行過(guò)濾,使得預(yù)測(cè)效果變得更好的前提下,模型的穩(wěn)定性得到增強(qiáng)。當(dāng)然,本文只考慮了不同對(duì)象分布在不同的域中,但是如何取測(cè)量不同時(shí)間維度下的帕金森UPRDS數(shù)據(jù)的發(fā)展以及病情程度的相似度問(wèn)題,將是下一步工作的重點(diǎn)。
圖3 在帕金森數(shù)據(jù)集各對(duì)象上預(yù)測(cè)total-UPDRS的MAE比較