王 玥 沈瀟童 王蘇弘 陳芋圻 鄒 凌*
1(常州大學信息科學與工程學院 江蘇 常州 213164) 2(常州市生物醫(yī)學信息技術重點實驗室 江蘇 常州 213164) 3(蘇州大學附屬第三醫(yī)院 江蘇 常州 213164)
抑郁癥是一種精神疾病,患者會表現出失去興趣、自卑感和注意力不集中等相關的精神癥狀,甚至會出現自殺傾向[1]。根據世界衛(wèi)生組織報告,預計在2030年,抑郁癥將成為世界疾病負擔的首位。目前,臨床對抑郁癥的診斷主要是通過臨床訪談和量表對癥狀進行評估,如果根據大腦生理機制的情況監(jiān)測到抑郁癥的出現,不僅能夠使治療更加有效,也更利于醫(yī)生改善患者的心理健康狀態(tài)[2]。而腦電(EEG)被公認為是一種廉價、安全且無創(chuàng)性地評估腦功能的方法,更加適合于常規(guī)使用[3]。
此前,腦功能連接已被廣泛應用于識別有無抑郁癥的差異,并根據這些差異進行分類。Peng等[4]使用相位滯后指數研究抑郁癥患者的腦功能連接,并將上三角矩陣的連接值提取作為特征進行分類。Zhong等[5]通過計算全腦功能連接,使用矩陣的連接值作為特征對抑郁癥和健康對照進行分類,結果表明分類精度達到90%以上。Liu等[6]將腦功能計算后的連接值作為進一步分析的特征并進行分類。
由于特征維數較大,為提高學習算法效率,特征選擇顯得尤為重要。Sayed等[7]提出混沌烏鴉搜索算法(CCSA),并將其運用于優(yōu)化20個基準數據集的特征選擇問題,結果表明該算法能夠找到最佳特征子集從而達到最大的分類性能。Majdi等[8]提出將鯨魚優(yōu)化算法(WOA)與模擬退火算法(SA)相結合,使用18個標準數據集對該方法進行評估,發(fā)現其能使用更少的特征而獲得更高的準確性。Shen等[9]為解決高維特征選擇問題,提出了競爭群優(yōu)化器算法(CSO),并與標準的蟻群算法(PSO)和最新PSO變體算法相比,其選擇的數量不僅最少,還能獲得更好的分類性能。本文選擇了二次規(guī)劃特征選擇(QPFS)和費舍爾分數,QPFS是依據互信息方法獲取同類之間的相關性,且對于大型數據集有著較高的效率,而費舍爾分數排序是基于相似性方法,根據同一樣本中特征值相似,而不同樣本中的特征值不同來進行排序。
機器學習在分類模型訓練和建立中有著廣泛的應用。Schnyer等[10]通過腦白質MRI指標,使用機器學習中的SVM進行分類預測,發(fā)現僅使用大腦右半球的分類精度更高。Sharma等[11]將所采集的腦電信號分解為七個小波子帶(WSB),六個詳細的WSB和一個近似WSB的L2范數的對數作為特征,通過最小二層支持向量機進行分類,模型分類精度高達99.58%。Li等[12]采取了抑郁癥患者和健康人的任務態(tài)數據,將功率譜密度、近似熵等18種腦電特征提取出來,利用差分進化的全局優(yōu)化性能獲得最佳特征值,再使用K近鄰進行分類,精度最高可達98.33%。
本文采用了EGI公司的64導腦電采集系統(tǒng),結合Net station軟件,實時采集了抑郁癥患者和健康人在面對flanker范式下的腦電信號,對其預處理分段,采用相位鎖定值構建腦功能網絡,求得連接矩陣,將兩組被試者具有顯著性差異的連接值作為分類特征進行提取,然后使用二次規(guī)劃特征選擇方法(QPFS)和費舍爾分數分別對特征進行選擇排序,結合二者優(yōu)點,根據文獻[13]研究結果和排序結果,選擇排序后的前100個特征集,取二者交集和并集。進一步使用遺傳算法(GA)選擇出最佳子集,因為GA是一種簡單的算法,且已自1970年以來被廣泛使用,被證明在減少特征維度和提高分類精度方面十分有用。最后采用支持向量機(SVM)、K近鄰(KNN)和邏輯回歸(LG)分類器,為了盡可能地利用數據,分類器采用留一交叉驗證法,結果表明,采用混合算法的交集聯合遺傳算法,特征數目從1 317降維至12,且分類精度也達到最高值96.8%。
本次共16名健康青少年(對照組)與15名患有中度抑郁癥(抑郁組)的青少年參加實驗,其年齡范圍為(16.31±1.25),兩組之間的年齡無統(tǒng)計意義。所有被試者均無精神病史、吸毒史和酗酒等情況,且皆為右利手,其在常州市第一人民醫(yī)院經過臨床確診,通過漢密爾頓抑郁量表檢測,結果顯示,抑郁組的分數高于對照組。
該實驗已經常州市第一人民醫(yī)院倫理委員會批準,所有受試者與其監(jiān)護人均簽署了知情同意書,自愿參加本實驗。
該實驗使用E-prime軟件進行。首先,屏幕上將會出現形如“+”的注視點,持續(xù)時間為200~700 ms,隨即出現一幅由5個箭頭組成的圖形,目標刺激為中間箭頭,如下所示,“<<<<<”(一致方向)、“>>>>>”(一致方向)、“<<><<”(不一致方向)、“>><>>”(不一致方向),該刺激持續(xù)時間為200 ms。最后,屏幕將會出現全黑圖片,被試者需要在1 700 ms內根據目標刺激與兩翼箭頭的方向按下按鈕,其中,目標刺激與兩翼箭頭一致時按下“1”鍵,目標刺激與兩翼箭頭不一致時按下“4”鍵。在正式實驗開始前,將會有一個訓練部分,該部分有32試次。正式實驗階段有11部分,每部分同樣有32試次。一致和不一致圖片以偽隨機的方式呈現,出現概率相同,具體如圖1所示。
圖1 flanker范式流程示意圖
本次實驗使用軟件Net Station與EGI公司的64導聯腦電采集系統(tǒng)實時采集,電極位置分布符合10-10國際標準,且以Cz為參考電極,采樣頻率為500 Hz,電極阻抗均設定在50 kΩ以下,進行0.5~45 Hz的帶通濾波。
原始腦電信號的預處理使用EEGLAB(版本號:v14.1.2)工具箱[14],其經過0.5~45 Hz高低通濾波,并針對所有導聯進行獨立成分分析(ICA),用以消除眨眼、頭動等偽跡[15-16]。對于信號漂移的壞導,使用相鄰導聯數據疊加平均替換,且參考點重新轉換為平均參考?;€重新校正為刺激前200 ms,并根據刺激前200 ms至刺激后800 ms對數據進行分段。
相位鎖定值是檢測兩個信號在具體頻率范圍內與幅度無關的瞬時鎖相值,以此量化信號間的相互作用[17]。給定信號x,在進行帶通濾波后,其相位瞬時相位可以通過計算希爾伯特變換獲得[18-19]:
(1)
式中:φ的取值范圍為-π到π。z(t)根據x(t)經過下式計算得到:
z(t)=x(t)+i·HT{x(t)}=A(t)·ei·φ(t)
(2)
在t時刻的相位鎖定值定義如下:
(3)
式中:N代表的試次的數量;θ(t,n)代表兩個信號的瞬時相位差,即φ1(t,n)-φ2(t,n)。在此,PLV的取值介于0~1范圍內,當兩信號在該試次的相位完美同步時,PLV的取值為1,反之,取值則為0。
根據式(3),本文研究了在五個頻段下被試者的腦功能連接,分別為delta(1~3 Hz)、theta(4~8 Hz)、alpha(8~13 Hz)、beta(13~30 Hz)和gamma(30~45 Hz)[20]。并使用t檢驗尋找對照組和抑郁組在面對兩種情況下腦功能連接的顯著差異,將差異顯著的連接值作為原始特征。
特征選擇是一種必不可少的處理步驟,它能有效地消除機器學習樣本中不相關或者冗余的特征,進而提高計算效率。本文特征選擇方法流程圖如圖2所示。
圖2 所提出的混合特征選擇算法流程
基于互信息的方法則在數據挖掘中的重要特征選擇有著重要地位。為了避免做出次優(yōu)選擇,可將基于互信息(MI)的特征選擇作為全局優(yōu)化問題,同時,考慮所有特征之間的相互作用來做出全局決策。假設有m個樣本n個特征,QPFS公式如下所示:
(4)
在本研究中,除了基于二次規(guī)劃特征選擇將特征進行排序,還選擇使用費舍爾分數對特征進行選擇。費舍爾分數根據Fisher準則對每個特征進行評分,第j個特征的費舍爾分數可通過以下公式計算得出:
(5)
設原特征集為f={f1,f2,…,fn}m×n,代表著有m個樣本,n個特征。經過QPFS按照權重進行排序后,得到fQPFS={fQ1,fQ2,…,fQn},此外,根據費舍爾分數進行排序,得到ffisher={fF1,fF2,…,fFn},為了聯合兩種算法,盡可能的結合二者優(yōu)點,分別對fQPFS和ffisher特征集中,前100個特征取交集或并集:
f交集={fQ1,fQ2,…,fQ100}∩{fF1,fF2,…,fF100}
(6)
f并集={fQ1,fQ2,…,fQ100}∪{fF1,fF2,…,fF100}
(7)
使用混合特征算法以后,再使用遺傳算法進一步選擇合適的特征子集,如圖2所示。遺傳算法是基于達爾文的自然進化和選擇過程的隨機過程搜索算法。通過模擬生物學中的繁殖、交叉和突變現象,在不斷的迭代中選擇出更好的個體[21]。首先,隨機初始化種群,即父本,計算適應度函數以后,當滿足目標條件時,該算法結束,否則將會根據適應度選擇父本,根據父本的染色體,進行交叉產生新的子代,子代進行變異,根據交叉和變異生成了新的種群,計算該種群的適應度函數,直至其滿足目標條件。考慮到操作的快捷和計算效率,且由于特征值均在0~1之間,編碼采用二進制編碼,設置特征值小于0.5為0,大于0.5為1。另外,考慮到分類性能,選取了較為廣泛使用的基于近鄰法分類的適應度函數,用以計算預期的適應度,進一步評估染色體的準確性。
機器學習中包含著多種分類器,SVM、KNN和LG將會被使用來支持算法結果。為了分類精度更加可靠和最大化利用數據,此次分類采用留一交叉驗證法,將平均后的分類精度(ACC)作為分類結果,其參數計算如下:
(8)
式中:TP代表正確將抑郁組識別為抑郁組的數量;TN表示正確地將對照組識別為對照組的數量;FP代表錯誤地將抑郁組識別為對照組的數量;FN表示錯誤地將對照組識別為抑郁組的情況。
根據PLV方法計算所得,抑郁組與對照組的在五個頻段下的功能連接矩陣圖(64×64,代表導聯×導聯)如圖3所示。該連接矩陣的連接值介于0到1,連接值越大,代表兩信號間的同步性越強。從圖中可以看出,抑郁組的連接強度在五個頻段下都較低于對照組,然而對比在五個頻段下,抑郁組和對照組在面對兩種情況時,抑郁癥患者在對角線處的連接強度高于對照組,而除對角線以外,抑郁癥患者的連接強度低于對照組。
圖3 五個頻段下受試者的腦功能連接圖
為了尋找抑郁組與對照組在面對一致刺激和不一致刺激的顯著差異,將抑郁組與對照組進行t檢驗,提取p<0.05的連接值,如圖4所示。通過抑郁組與對照組的連接強度差異來看,相對于面對箭頭一致的刺激,面對不一致刺激時,抑郁組與對照組的差異更為顯著,且在五個頻段下,均有較多差異顯著的連接值。
圖4 五個頻段下抑郁組與對照組的顯著差異圖
在提取五個頻段和兩種情況下的連接強度的顯著性差異作為原始特征,特征數共1 317個,分別根據QPFS和費舍爾分數進行特征排序,QPFS排序后結果如圖5所示。前100個特征權重已達整體權重的99.99%,因此,分別取QPFS和費舍爾分數排序后的前100個特征進行交集和并集,生成新的特征集。
圖5 QPFS排序后的特征權重
在分別對QPFS和費舍爾分數排序過后的前100特征,分別對兩個新特征集進行并集和交集,再使用GA算法,進一步確定最優(yōu)的分類特征集。同時,為了顯示該操作的優(yōu)越性,分別在QPFS和費舍爾分數排序后的前100特征進行GA算法生成新子集,并采用SVM、KNN和LG進行分類,其特征數和分類結果如表1所示。
表1 不同算法下所使用的特征數和分類精度
當采用SVM和KNN分類器時,其分類精度都能達到最高,但是,選擇QPFS和費舍爾分數的交集結合GA,其特征數目最少,在僅有12個特征的情況下,精度都能達到96.8%。
為了進一步突出所提算法的優(yōu)越性,將其與經典的特征降維算法進行比較分析,其中包括主成分分析(PCA)、線性判別式分析(LDA)、等距特征映射(ISOMAP)和局部線性嵌入(LLE)。其中,LDA、ISOMAP和LLE使用了drtoolbox工具箱,先對1 317個特征使用最大似然估計(EKM)做本質維度估計,再調用不同函數進行降維;而PCA降維采用MATLAB中的princomp函數直接對1317個特征降維。將所有降維后的特征值分別進行分類,結果如表2所示。
表2 經典算法下所使用的特征數和分類精度
與傳統(tǒng)經典算法相比,多算法交集聯合GA所提取出的特征子集,不僅分類精度更高,特征數目也更少。
本研究采用了flanker任務態(tài)范式來研究抑郁組與對照組之間的差異,在分析面對一致性刺激和不一致刺激時的腦功能連接狀態(tài)時,運用了相位鎖定指數構建腦功能連接網絡。研究發(fā)現,在對角線區(qū)域,抑郁組的腦功能強度大于對照組,但是在其他區(qū)域,抑郁組的腦功能強度低于對照組。另外,在面對一致性刺激和不一致刺激時,將兩組差異顯著的連接值作為特征進行分類,但是特征數量較大,如果直接進行分類則計算耗時較長,效率較低。
本文著重于在保證分類精度的情況下,如何選出特征數目更少的分類特征子集。首先,使用基于互信息的QPFS對所有特征根據其權重進行排序,取其前100個特征作為新特征集,另外,對原始特征集使用費舍爾分數同樣進行排序,也取前100個特征作為新特征集。QPFS能夠有效地根據互信息選擇出特征間相關性較大的特征,從而篩選出有效特征,而費舍爾分數根據同類樣本間的相似度和不同樣本間的差異度選擇出分類特征。對于兩個特征集,分別取其并集和交集,取交集或并集的目的是為了滿足所選子集具有兩種算法的優(yōu)點。然后使用GA進一步優(yōu)化特征子集,作為最終的分類特征集。最后在分類時,分別采用SVM、KNN和LG多種分類器,結果表明,多算法交集聯合GA在特征精度同樣的情況下,擁有更少的特征數;與廣泛使用的傳統(tǒng)PCA、LDA、ISOPMAP和LLE相比,其不管在分類精度,還是特征數目方面,都顯示出了更優(yōu)越的性能。
本文方法偏重于特征選擇和降維,作為計算機輔助診斷技術來說是可行的,大大降低了臨床診斷時間。同時,對于高維特征選擇的問題,本文研究也提供了一定的思路,從1 317個高維特征數降到僅12個特征。
后續(xù)將進一步劃分腦區(qū)作繼續(xù)研究,由腦功能連接矩陣圖可以看出,兩組都有較為明顯的腦區(qū),單獨從腦區(qū)進行分析,提取特征參數,將進一步提高計算機輔助診斷的可行性。