吳 璽,張 永,陳 緒,許勝強,王 訓
WU Xi1,ZHANG Yong2,CHEN Xu2,XU Shengqiang3,WANG Xun4
1.合肥工業(yè)大學 計算機與信息學院,合肥 230009
2.合肥工業(yè)大學 工業(yè)與裝備技術(shù)研究院,合肥 230009
3.中國科學院 合肥智能機械研究所,合肥 230031
4.安徽中醫(yī)藥大學 神經(jīng)病學研究所附屬醫(yī)院,合肥 230061
1.School of Computer and Information,Hefei University of Technology,Hefei 230009,China
2.Institute of Industry&Equipment Technology,Hefei University of Technology,Hefei 230009,China
3.Institute of Intelligent Machines,ChineseAcademy of Sciences,Hefei 230031,China
4.HospitalAffiliated to Institute of Neurology,Anhui University of Chinese Medicine,Hefei 230061,China
帕金森病(PD)是一種錐體外系疾病,也稱為運動障礙疾病,主要癥狀表現(xiàn)為運動遲緩、肌僵直、靜止性震顫和姿勢不穩(wěn)。帕金森病造成的運動障礙往往會呈現(xiàn)一種特殊的步態(tài)特征,如拖步、慌張步態(tài)和步態(tài)凍結(jié)等[1-2]。臨床診斷中,醫(yī)生通常利用上述步態(tài)特征作為帕金森病的診斷線索,因此對帕金森病患者的步態(tài)信號特征進行分析可以為疾病前期診斷和康復治療提供有力的依據(jù)。
早期帕金森病診斷通常采用量表形式,如帕金森病統(tǒng)一評分量表(UPDRS)和Weber’s分級量表[3],這種量表通過設(shè)計針對性的動作和問題對患者的步態(tài)等特征進行直接觀察,并對各項指標進行主觀評分。這種診斷方式主觀性強,依賴于醫(yī)生經(jīng)驗,診斷的準確性和穩(wěn)定性不高[4]。
近年來機器學習技術(shù)的發(fā)展,為步態(tài)信號定性和定量的分析提供了重要的手段[5-6]。如Begg等人[7]采用支持向量機自動識別年齡與步態(tài)特征之間的變化規(guī)律,其使用了三種類型的步態(tài)變量:基本時空參數(shù)、運動屬性和動力學屬性。當人正常行走時,使用一種同步PEAK運動分析系統(tǒng)和一個平臺記錄并分析12位年輕人和12位老年人的步態(tài)信息。Klucken等人[8]運用一種基于可移動的、嵌入生物傳感器的人工智能步態(tài)分析(eGaIT)系統(tǒng)對帕金森病患者的患病階段和運動狀態(tài)進行自動識別。上述研究中分別選擇帕金森病患者和老年人組與具有相似物理特征的對照組作為訓練集,并且所選擇的正、反兩類樣本大小基本相同,屬于平衡樣本數(shù)據(jù)分析。但是在帕金森病的監(jiān)測中,帕金森病患者的數(shù)量遠少于健康人群,因此實際中獲得的樣本為非平衡數(shù)據(jù)樣本,并且將帕金森病患者判別為健康人的代價和將健康人判別為帕金森病患者的代價不同,前者導致延誤治療的最佳時機甚至危害生命,而后者以再次檢查或藥物副作用為代價,顯然將帕金森病患者判定為健康人群的代價更大,因此使用平衡樣本學習到的模型不能解決實際問題。
本文的研究目的是針對由帕金森病患者和正常人群組成的非平衡步態(tài)數(shù)據(jù)集,應(yīng)用機器學習的方法構(gòu)建識別模型,然后應(yīng)用該識別模型來區(qū)分帕金森病患者和正常人群,從而為臨床醫(yī)生診斷疾病提供客觀依據(jù)。研究過程是首先由U型電子步道提取出真實的帕金森病患者和健康人群的各種步態(tài)時空參數(shù),并將上述步態(tài)時空參數(shù)和受試者的物理特征構(gòu)建出非平衡特征數(shù)據(jù)樣本,然后采用一種代價敏感支持向量機(CS-SVM)的方法來處理非平衡樣本數(shù)據(jù),建立自動識別帕金森病患者的分類模型。同時利用受試者的身高對相應(yīng)樣本的步態(tài)信號時空屬性進行去量綱處理來消除身高差異對步態(tài)信號時空屬性的影響,從而達到進一步提高預測模型識別性能的目的。研究結(jié)果表明,本文構(gòu)建的模型可以對帕金森病進行自動診斷,可以作為臨床醫(yī)生對帕金森病患者診斷的有效輔助工具。
本文使用一套由中國科學院合肥智能機械研究所運動與健康信息技術(shù)研究中心自主設(shè)計研發(fā)的電子步道,該電子步道由基于柔性陣列力敏傳感器的14塊壓力墊(大小60 cm×60 cm,4壓力點/cm2,采樣頻率100 Hz)、5塊壓力臺(大小 60 cm×60 cm,采樣頻率500 Hz)以及1塊平衡測試儀組成,如圖1所示。圖1(a)是該U型電子步道的結(jié)構(gòu)模擬圖,圖1(b)是U型電子步道的實物圖。
圖1 (a) U型電子步道模擬圖
圖1 (b) U型電子步道實物圖
所有受試的帕金森病患者是來自安徽中醫(yī)藥大學神經(jīng)病學研究所附屬醫(yī)院的志愿者。對照測試人員沒有未知的影響步態(tài)的損傷或異常,受試者24 h內(nèi)未服用藥物。所有受試者簽訂了知情同意書。35位患者和119位正常人被要求以正常步速行走在電子步道上,同時所有受試者的測試均在兩位醫(yī)生的監(jiān)督下完成。受試者的物理特征如表1所示。依據(jù)由美國加利福尼亞州Rancho LosAmigos(RLA)醫(yī)學中心提出的步態(tài)量化參數(shù)以及量表UPDRS-Ⅲ,利用U型電子步道系統(tǒng)提取直行部分的步態(tài)特征數(shù)據(jù),如表2所示。
表1 測試者物理特征(均值±標準差)
表2 提取的特征變量
對步態(tài)特征數(shù)據(jù)的預處理過程主要分為兩步:消除身高差異對時空參數(shù)的影響和特征數(shù)據(jù)的標準化。
(1)消除身高差異對時空參數(shù)的影響
通常人行走時的步長、步幅、步速、周期等步態(tài)信號特征和身高都有一定關(guān)聯(lián)。例如身高比較矮的人,其步長和步幅會相對比較短,而其步頻會相對比較高。因此為了消除受試者身高差異對于步態(tài)時空參數(shù)的影響,本文利用下列公式消除身高差異對時空參數(shù)的影響。
公式(1)~(4)中,l表示步長和步幅;t表示時間特征,包括站立時間、擺動時間、擺動前期、周期、雙支撐時間;f表示步頻;v表示步速;l0表示每位受試者的身高;同時引入一個重力加速度常量g=9.81 m/s2來消除身高差異對步速、步頻以及時間屬性的影響。
(2)標準化
在應(yīng)用分類器前,將步驟(1)處理后的特征和物理特征利用式(5)將每一特征轉(zhuǎn)化為相同的統(tǒng)計分布。
式(5)中,x表示步驟(1)獲得的特征變量和物理特征,μ和σ分別表示每個特征變量的均值和標準差。
支持向量機(SVM)是由Vapnik提出的一種基于統(tǒng)計學理論的用于解決分類和回歸問題的機器學習方法[9]。對于二分類問題,SVM分類算法的主要目標是尋找一個最優(yōu)分類超平面。SVM是通過最大化兩類之間的邊界距離來尋找最優(yōu)超平面。假設(shè)存在一個兩類的訓練樣本空間Rn,其中包含樣例xi∈Rn,i=1,2,…,n,和一個與樣例xi一一對應(yīng)的向量yi∈Rn,yi∈{1,-1}。SVM解決分類問題需要優(yōu)化下式[10-11]:
式(6)中C是誤差的懲罰參數(shù),其取值大于0。此外,還需要選擇一個核函數(shù),將原樣本中線性不可分的低維空間特征向量映射到一個高維空間中,使樣本線性可分。本文選擇普遍使用的徑向基核函數(shù)(RBF):
公式(7)中γ是核函數(shù)參數(shù)。
上述傳統(tǒng)的SVM算法是以分類精度為優(yōu)化目標,假定每類樣本的大小基本相同。但是,在實際中,數(shù)據(jù)集通常是非平衡數(shù)據(jù)。例如帕金森病患者的數(shù)量是遠少于正常人群。例如在100人的測試樣本中有99位正常人,僅有1位為帕金森病患者。若分類器把所有樣本都劃分為正常人,此分類器能夠獲得99%的分類精度[12]。雖然分類精度很高,但是使用這種分類模型來識別帕金森病患者是沒有意義的。在診斷過程中,將帕金森患病者誤診為正常人的代價和將正常人誤診為帕金森病患者的代價是不同的。前者使帕金森病患者失去治療機會,造成病情惡化甚至危及生命,而后者以再次診斷或藥物的副作用為代價。顯然,將帕金森病患者判定為正常人的誤分類代價要遠大于將正常人判定為帕金病患者。因此,傳統(tǒng)的SVM算法不適合處理這種非平衡數(shù)據(jù)。
本文中采集的受試者步態(tài)數(shù)據(jù)集為非平衡數(shù)據(jù)集。傳統(tǒng)SVM對此類非平衡數(shù)據(jù)集學習的邊界會更接近于正例(樣本量較少的類),從而導致分類精度傾向于樣本量較大的類,因而需要使用一種有偏的支持向量機對步態(tài)數(shù)據(jù)集進行分類,將分類邊界“拖離”正例。為了準確區(qū)分帕金森病患者和正常人群,本文使用CS-SVM來構(gòu)建帕金森病患者和正常人群的步態(tài)分類模型。采用的CS-SVM算法原理是對傳統(tǒng)的SVM的目標函數(shù)做出修改,即正例和反例設(shè)置不同的懲罰參數(shù),分別表示為C+和C-。CS-SVM的目標函數(shù)如下[13-14]:
CS-SVM算法對正例和反例設(shè)置不同的懲罰參數(shù)來處理非平衡數(shù)據(jù)集,這樣就可以將分類超平面“拖離”正例,然后調(diào)整兩類的懲罰參數(shù)和核函數(shù)參數(shù)來優(yōu)化公式(8)從而獲得最優(yōu)的分類超平面。
在二分類問題中,分類器標簽分為正例和反例。分類器的結(jié)果可以表示為混淆矩陣或一致性表[15],用于評價像支持向量機(SVM)、代價敏感支持向量機(CS-SVM)和k階近鄰(KNN)這樣的監(jiān)督學習算法的性能。表3給出的是帕金森病患者預測的混淆矩陣,其中TP表示真實為帕金森病患者,預測也為帕金森病患者的樣例個數(shù);FP表示真實為健康人群,而預測為帕金森病患者的樣例個數(shù);FN表示真實為帕金森病患者,而預測為健康人群的樣例個數(shù);TN表示真實為健康人群,預測也為健康人群的樣例個數(shù)。
表3 帕金森病預測的混淆矩陣
為了評估構(gòu)建的帕金森病預測模型的性能,本文使用下列指標。
(1)準確率(Accuracy):
公式(9)為準確率的計算公式,表示正確分類的整體準確率。由此式本文計算的是正確分類的帕金森病患者和健康人群的樣例個數(shù)與總樣例個數(shù)的比值。
(2)召回率(Recall):
式(10)為召回率的計算公式,表示被正確判定的正例占總體正例的比例。由此式本文計算的是正確分類的帕金森病患者樣例個數(shù)與總的帕金森病患者樣例個數(shù)的比值。
(3)精確度(Precision):
公式(11)為精確度的計算公式,表示被分類器判定的正例中真正的正例樣本所占的比例。由此式本文計算的是正確分類的帕金森病患者樣例個數(shù)與全部預測為帕金森病患者樣例個數(shù)的比值。
(4)F-measure值:
式(12)為F-measure值的計算公式,表示召回率和精確度的加權(quán)調(diào)和平均數(shù)。F-measure值表示召回率和精確度的綜合評價指標,當F-measure值越高,則說明分類實驗方法更加有效。
本研究實驗設(shè)置為兩部分:步態(tài)特征差異性檢驗和分類實驗。在3.2節(jié)給出利用T-test檢驗帕金森病患者和正常人群之間步態(tài)特征的差異性及分析;3.3節(jié)給出分類實驗結(jié)果及評價。在分類實驗中分為兩組實驗,實驗1:未采用2.2節(jié)步驟(1)介紹的方法消除身高差異對時空參數(shù)的影響;實驗2:采用2.2節(jié)步驟(1)介紹的方法來消除身高差異對時空參數(shù)影響。對于每組實驗使用三折交叉驗證來對比驗證SVM和CS-SVM兩種方法的識別性能,同時對比兩組實驗的分類效果。步態(tài)數(shù)據(jù)集被分為大小相同的三個子集。其中一個子集用于評估模型,其余子集用于分類器模型的訓練和參數(shù)優(yōu)化。然后計算2.4節(jié)給出的準確率、召回率、精確度和F-measure四種評估指標的均值和標準差來評價構(gòu)建的預測模型。
在2.3節(jié)分類方法中介紹到本文使用的算法SVM算法需要設(shè)置懲罰參數(shù)C和核函數(shù)參數(shù)g,而CS-SVM算法需要設(shè)置懲罰參數(shù)C+、C-和核函數(shù)g。本文中SVM算法的參數(shù)為:C=4,g=0.031 3;CS-SVM算法的參數(shù)為:C+=13.6、C-=3.4、g=0.25。
表4給出帕金森病患者和正常人群的步態(tài)參數(shù)之間的統(tǒng)計及差異性檢驗,圖2給出比較兩組步態(tài)參數(shù)均值的對比。
表4 步態(tài)特征統(tǒng)計(均值±標準差)
圖2 (a) PD和NP組的時間參數(shù)均值對比
圖2 (b) PD和NP組的長度參數(shù)均值對比
從表4中發(fā)現(xiàn)帕金森病患者的步態(tài)參數(shù):步長、步幅、步速、左腳擺動時間、擺動前期時間以及雙支撐時間與正常人群的相應(yīng)步態(tài)時空參數(shù)具有顯著的差異(pvalue<0.01),并且步頻、站立時間、右腳擺動時間、周期也具有顯著差異(p-value<0.05)。從圖2中也可以看出提取的PD和NP組的長度和時間參數(shù)均值均具有明顯的差異。因此實驗中使用U型電子步道系統(tǒng)采集的帕金森病患者和正常人群的步態(tài)特征具有顯著性差異,所以提取的步態(tài)特征是合理的,能夠用于區(qū)分帕金森病患者和正常人群。圖2(a)中LTST、LTSW、LTPS、RTST、RTSW、RTPS、TGC、TDS分別表示左腳站立時間、左腳擺動時間、左腳擺動前期、右腳擺動時間、右腳站立時間、右腳擺動前期、周期、雙支撐時間;圖2(b)中LSL、LSTL、RSL、RSTL分別表示左腳步長、左腳步幅、右腳步長、右腳步幅。
表5 對未消除身高差異影響的樣本,使用SVM和CS-SVM的預測結(jié)果(均值±標準差)%
表6 對消除身高差異影響的樣本,使用SVM和CS-SVM的預測結(jié)果(均值±標準差) %
表5和表6給出實驗1和實驗2的分類結(jié)果。
實驗1結(jié)果分析:從表5中可以看出,針對未消除身高差異對步態(tài)特征影響的樣本進行識別時,SVM和CSSVM分類器的識別準確率分別達到91.55%和94.16%,相比SVM模型,使用CS-SVM構(gòu)建分類器的識別準確率更高,提高了約2.61%;召回率也更高,達到85.86%,提高了約17.17%,因此CS-SVM分類器對帕金森病患者的步態(tài)特征的識別效果更好。
實驗2結(jié)果分析:從表6中可以看出,對消除身高差異對步態(tài)特征影響的樣本,SVM和CS-SVM分類器的識別準確率分別達到92.85%、94.81%。CS-SVM分類器的識別準確率相比于SVM分類器提高了約1.96%;CSSVM的召回率達到了88.89%,比SVM分類器提高了約17.18%,因此相比SVM算法,CS-SVM算法構(gòu)建的步態(tài)模型對帕金森病患者的誤分類率降低了17.18%,對帕金森病患者的誤判風險降低;同時CS-SVM分類器的F-measure值達到88.66%,明顯高于SVM分類器,約提高6.76%。因此,綜合考慮識別準確率、召回率和F-measure值,相比于SVM分類算法,CS-SVM分類器對帕金森病患者的步態(tài)特征識別性能更好。
對比表5和表6可以看出,當消除受試者身高差異對步態(tài)時空特征影響時,SVM和CS-SVM分類器的識別準確率分別為92.85%和94.81%,相比于未消除身高差異對時空屬性影響時,SVM和CS-SVM算法對帕金森病患者和正常人群的步態(tài)分類準確率分別提高了約1.3%和0.65%;而且相比于未消除身高差異對步態(tài)特征影響時,針對消除受試者身高對步態(tài)特征影響的樣本,SVM算法的召回率達到71.71%,提高了約3.02%,SVM算法對帕金森病患者的誤分類率降低了3.02%,SVM分類器對帕金森病患者的誤判風險降低;同時F-measure值達到81.90%,提高了約2.92%。CS-SVM算法的召回率達到88.89%,提高了約3.03%,CS-SVM算法對帕金病患者步態(tài)特征的誤分類率降低了3.03%,CS-SVM分類器對帕金病患者的誤判風險降低,而且CS-SVM分類器的F-measure值達到88.66%,提高了約1.58%。因此綜合考慮識別準確率、召回率和F-measure值,相比于未消除身高差異對步態(tài)特征影響的樣本實驗,通過消除身高差異對步態(tài)特征的影響可以大幅提高帕金森病患者的識別性能。
本文采用自主研發(fā)的U型電子步道系統(tǒng)提取帕金森病患者和健康人群的步態(tài)信號時空特征,同時結(jié)合受試者的物理特征組成非平衡步態(tài)數(shù)據(jù)集,并利用T檢驗驗證PD患者和健康人群步態(tài)特征的差異性和合理性,然后采用代價敏感支持向量機(CS-SVM)和傳統(tǒng)支持向量機(SVM)分別來構(gòu)建帕金森病患者和健康人群的步態(tài)特征分類模型,最后通過受試者的身高對步態(tài)特征進行去量綱處理,來消除身高差異對步態(tài)特征的影響,達到了提高預測模型識別性能的目的。實驗結(jié)果表明,相比于SVM算法,CS-SVM算法對于帕金森病患者的步態(tài)特征的識別性能更優(yōu)且能達到94.16%的全局預測準確率,有效地降低了帕金森病的誤判風險。并且消除了身高的差異性對步態(tài)特征的影響后,CS-SVM預測模型的全局識別準確率達到94.81%,相比不去量綱的預測模型,預測準確率提高了約0.65%。因此本文基于U型電子步道系統(tǒng)提取的非平衡步態(tài)信號數(shù)據(jù)并采用CS-SVM算法構(gòu)建的預測模型可以為臨床醫(yī)生診斷帕金森病提供一個可靠的輔助決策工具。
參考文獻:
[1]Taktak A F G.Clinical engineering:A handbook for clinical and biomedical engineers[M].[S.l.]:Academic Press,2014.
[2]Santens P,Boon P,Van Roost D,et al.The pathophysiology of motors symptoms in Parkinson’s disease[J].Acta Neurologica Belgica,2003,103(3):129-134.
[3]Morris T R,Cho C,Dilda V,et al.Clinical assessment of freezing of gait in Parkinson’s disease from computergenerated animation[J].Gait&Posture,2013,38(2):326-329.
[4]顧磊,吳慧中,肖亮.一種基于人體輪廓寬度特征的步態(tài)識別方法[J].計算機工程與應(yīng)用,2007,43(24):4-6.
[5]Sosnoff J J ,Klaren R E ,Pilutti L A,et al.Reliability of gait in multiple sclerosis over 6 months[J].Gait&Posture,2015,41(3):860-862.
[6]Bae J,Kong K,Byl N,et al.A mobile gait monitoring system for gait analysis[C]//IEEE International Conference on Rehabilitation Robotics,2009:73-79.
[7]Begg R,Kamruzzaman J.A machine learning approach for automated recognition of movement patterns using basic,kinetic and kinematic gait data[J].Journal of Biomechanics,2005,38(3):401-408.
[8]Klucken J,Barth J,Kugler P,et al.Unbiased and mobile gait analysis detects motor impairment in Parkinson’s disease[J].PloS One,2013,8(2):e56956.
[9]Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems&Technology,2011,2(3).
[10]Vapnik V.The nature of statistical learning theory[M].[S.l.]:Springer Science&Business Media,2013.
[11]張學工.關(guān)于統(tǒng)計學習理論與向量機[J].自動化學報,2000,26(1):32-42.
[12]鄭恩輝,李平,宋執(zhí)環(huán).代價敏感支持向量機[J].控制與決策,2006,21(4):473-476.
[13]Cao P,Zhao D,Zaiane O.An optimized cost-sensitive SVM for imbalanced data learning[M]//Advances in Knowledge Discovery and Data Mining.Berlin Heidelberg:Springer,2013:280-292.
[14]M’hamed Abidine B,F(xiàn)ergani B,Oussalah M,et al.A new classification strategy for human activity recognition using cost sensitive support vector machines for imbalanced data[J].Kybernetes,2014,43(8):1150-1164.
[15]Wang A G,An N,Chen G,et al.Predicting hypertension without measurement:A non-invasive,questionnaire-based approach[J].Expert Systems with Applications,2015,42(21):7601-7609.