崔宇佳,張一迪,王培志,林海靜,陸起涌,2
(1.復旦大學 信息科學與工程學院 電子工程系,上海 200433; 2.復旦大學 信息科學與工程學院 智慧網(wǎng)絡與系統(tǒng)研究中心,上海 200433)
目前醫(yī)療領域面臨的一個巨大挑戰(zhàn)是醫(yī)生可以獲得海量的醫(yī)療數(shù)據(jù),但是缺少時間和有效的工具進行挖掘.因此將數(shù)據(jù)挖掘和機器學習方法應用于醫(yī)療領域,輔助醫(yī)生診療決策已成為醫(yī)學與計算機學交叉領域研究的熱點,這不僅可以降低醫(yī)療服務成本而且可以改善服務質(zhì)量和臨床表現(xiàn)[1].在其中實現(xiàn)疾病預測這塊,特別是對某些病因復雜且影響嚴重的疾病,如: 系統(tǒng)性紅斑狼瘡并發(fā)狼瘡性腎炎[2],可以提早對患者進行干預,提供更有效的治療策略[3],從而減輕患者的痛苦.
由于醫(yī)療數(shù)據(jù)大部分以電子醫(yī)療病歷(Electronic Medical Records, EMR)的形式記錄,其中包含診斷、癥狀、檢查、化驗、用藥等信息,具有維度高、稀疏的特點,并且包含大量不相關和冗余特征.如果不對數(shù)據(jù)進行有效篩選,直接用于疾病預測,可能會帶來以下幾方面的問題: 1) 引發(fā)維數(shù)災難和過擬合現(xiàn)象[4],導致預測表現(xiàn)不佳;2) 由于特征維數(shù)過多,使得預測模型計算量過大,從而影響預測效率;3) 收集過多的特征會大大增加醫(yī)療成本,降低臨床實用性.如何從海量醫(yī)療數(shù)據(jù)中選擇出有效的特征成為實現(xiàn)診療決策的關鍵環(huán)節(jié),特征選擇不僅可以解決以上問題,而且可以幫助醫(yī)生或研究人員對疾病的影響因素有更深入的了解.
現(xiàn)有的特征選擇方法主要可以分為過濾型方法(Filters Technique)[5]和封裝型方法(Wrappers Technique)[6].過濾型方法,是根據(jù)數(shù)據(jù)的固有屬性來評價特征與類別的相關性,在多數(shù)情況下會計算出一個相關性評分,并刪除得分低的特征,之后將這些特征子集作為預測模型的輸入,如: 卡方檢驗[7]、信息增益[7]等方法,其優(yōu)點是易處理高維數(shù)據(jù),計算簡單,且獨立于分類算法,缺點是忽略了和分類器之間的聯(lián)系,并且大部分方法是單變量型,忽略了特征之間的相關性;封裝型方法,是在分類模型的構建過程中選擇了最優(yōu)的特征子集,可以看作是在特征子集和假設的組合空間中進行選擇,如: 基于決策樹權重(Absolute Weight of Decision Tree, AW-DT)[8]、基于SVM權重(Absolute Weight of Support Vector Machine, AW-SVM)[9]等特征選擇方法,其優(yōu)點是它與分類模型進行了交互,缺點是特定分類器的評價表現(xiàn)在不同數(shù)據(jù)集中差異較大.
以上方法均采用單一評價標準進行特征選擇,對于不同數(shù)據(jù)集評價表現(xiàn)具有一定的互補性.鑒于在機器學習方法中,集成多個不相關的弱分類器可以提升分類表現(xiàn)[10-11],本文提出基于多評價標準融合的遞歸特征消除(Multi-criterion Fusion-based Recursive Feature Elimination, MCF-RFE)算法.該算法應用過濾型特征評價標準進行初步篩選,然后基于特征序列的方法將3種不同封裝型特征評價標準的結果進行集成,并結合特征搜索方法實現(xiàn)特征選擇,以獲得預測表現(xiàn)好的特征子集,旨在從特征選擇的角度提升疾病預測表現(xiàn).在此基礎上,構建疾病預測模型,以實現(xiàn)疾病預測.
下面分別介紹MCF-RFE算法融合的多種特征評價標準以及采用的融合和搜索算法.
特征評價標準的選取必須滿足差異性,因為具有差異性的特征評價標準產(chǎn)生的結果往往具有互補性,并且可以避免集成的結果被產(chǎn)生相似結果的評價標準所主導.此外,由于醫(yī)療數(shù)據(jù)具有高維、稀疏等特點,綜合考慮計算的簡便性和高效性,本文首先采用在文本分類中具有較好表現(xiàn)的過濾型特征評價標準卡方檢驗對特征進行初步篩選,然后融合3種嵌入型特征評價標準: AW-SVM標準、AW-DT標準、基于線性回歸權重(Absolute Weight of Linear Regression, AW-LR)標準對特征進行再次篩選.
卡方檢驗適用于高維數(shù)據(jù),計算簡單,可用于評價兩個事件是否獨立,例如在特征選擇中用于評價類別和特征是否相互獨立.可以應用式(1)計算卡方檢驗.
CHI2(t,c)=∑t∈{0,1}∑c∈{0,1}(Nt,c-Et,c)2/Et,c,
(1)
其中:t代表特征;c代表類別;N代表實際的特征t和類別c同時出現(xiàn)的頻次;E代表當兩者獨立時期望的同時出現(xiàn)頻次.卡方檢驗衡量期望值E和實際觀察值N之間的偏離程度.卡方值越大,說明相關性越強,特征需要保留;卡方值越小,說明越不相關,特征需要去除.
ωTx+B=0,
(2)
其中:ω為最優(yōu)超平面的權值向量;B為閾值.SVM的核心思想是使兩個類別具有最大間隔,從而使得分隔具有更高的可信度和泛化能力,將問題轉化為式(3)的優(yōu)化問題:
(3)
式(3)中:ζi為松弛變量;C>0為懲罰參數(shù),控制對誤分類的懲罰程度.通過引入拉格朗日乘子,得到如下式所示的特征權重:
(4)
其中αi是拉格朗日乘子.
AW-DT是根據(jù)決策樹(Decision Tree, DT)[13]得到的按特征權重ω絕對值大小對特征進行排序.決策樹的構造過程不依賴領域知識,其基本流程遵循“分而治之”的策略.本文采用ID3算法[14],該算法的核心思想是以信息增益度量屬性選擇,選擇分裂后信息增益最大的屬性進行分裂.設D為用類別對訓練元組進行的劃分,則D的熵(entropy)表示式如下:
(5)
其中pi表示第i個類別在整個訓練元組中出現(xiàn)的概率.假設將訓練元組D按屬性A進行劃分,則A對D劃分的期望信息為
(6)
信息增益即為兩者的差值:
gain(A)=info(D)-infoA(D).
(7)
AW-LR是根據(jù)線性回歸(Linear Regression)[13]得到的按特征權重ω絕對值大小對特征進行排序.線性回歸模型是對于一個樣本xi,它的輸出值是其特征的線性組合,即
(8)
其中ωm是特征權重.線性回歸的目標是預測結果盡可能地擬合目標類別,其損失函數(shù)
(9)
其中:y是類別標簽;X是樣本特征.應用梯度下降法進行求解,得到ω的表達式為
(10)
本文采用基于特征序列方法將以上多種特征評價標準的結果進行融合.該方法首先基于每個特征評價標準分別得到1個特征序列,每個特征都有一個序列號;然后運用序列結合方法得到最終的特征序列,其流程如圖1所示.
圖1 基于特征序列的多評價標準融合方法Fig.1 Feature ranking-based multi-criterion fusion
現(xiàn)有的序列結合方法中,Borda Count[15]方法是一種簡單、有效的基于特征序列的投票方法.假設有m個投票者(特征選擇方法),f個候選者(特征),在Borda Count算法中,每個投票者首先給每個候選者生成一個得分Vij,其中排在第1位的候選者給予f分,排在第2位的候選者給予f-1分,以此類推.每個候選者的最終得分是m個投票者給分之和,如下式所示:
(11)
按照降序?qū)ij進行排列,得到融合后的特征排名.
好的特征不一定構成好的特征子集,因此為了獲得一個有好的預測表現(xiàn)的特征子集,需要將特征評價標準與特征搜索方法相結合[14].Guyon等基于AW-SVM特征評價標準與遞歸特征消除(Recursive Feature Elimination, RFE)搜索方法[16],提出了SVM-RFE特征選擇方法[16],其中RFE搜索過程(見圖2)如下:
(1) 初始化特征集F0,設置i=0;
圖2 MCF-RFE流程圖Fig.2 The procedure of MCF-RFE
(2) 計算在特征集Fi中每個特征的重要性;
(3) 從特征集Fi中去掉最不重要的特征,得到特征集Fi+1;
(4) 令i=i+1,回到步驟(2),直到滿足停止條件.
RFE搜索過程產(chǎn)生一系列嵌套的特征集,例如:F0?F1?F2….
本文將多特征評價標準融合方法與RFE搜索方法結合提出MCF-RFE算法,該算法首先應用過濾型特征評價標準卡方檢驗對特征進行初篩;然后,應用特征序列方法對3個嵌入型特征評價標準AW-SVM、AW-LR、AW-DT的結果進行集成;最后,結合遞歸特征消除搜索方法進行特征選擇,得到特征子集.MCF-RFE算法流程如圖2所示.
本研究的數(shù)據(jù)集由國內(nèi)13家三甲醫(yī)院風濕免疫科提供,包含10627例患有系統(tǒng)性紅斑狼瘡(Systemic Lupus Erythematosus, SLE)[2]患者的EMR數(shù)據(jù),其中5033例為SLE并發(fā)狼瘡性腎炎患者,5594例為SLE未并發(fā)狼瘡性腎炎[2]患者.以上EMR數(shù)據(jù)集共有2204項特征包含: 癥狀、診斷、化驗、用藥特征,并且每項信息包含相應的時間戳.實驗中以風濕免疫科臨床醫(yī)生診斷結果作為金標準,考慮SLE并發(fā)狼瘡性腎炎診斷之前出現(xiàn)的信息,實現(xiàn)SLE并發(fā)狼瘡性腎炎疾病的預測.
為了驗證不同特征選擇方法選出的特征子集對提升預測狼瘡性腎炎表現(xiàn)的有效性,本文將疾病預測問題抽象為一個二分類問題,分別調(diào)用Scikit-learn工具包[17]中的邏輯回歸(Logistic Regression, LR)方法[13]和SVM方法進行疾病預測模型的訓練和測試.實驗中采用十折交叉驗證方法,對于每一次驗證,只使用訓練數(shù)據(jù)進行特征選擇,采用各特征選擇方法選出的特征構建分類器,然后用測試數(shù)據(jù)進行評價,最終結果是10次結果的平均值.實驗評價指標采用受試者工作特性曲線(Receiver Operating Characteristic, ROC)下的面積(Area Under the Curve, AUC)、精確率(precision,P)、召回率(recall,R)、F1值、準確率(accuracy,A),計算公式定義如下:
(12)
其中:TP,F(xiàn)P分別指預測模型將是狼瘡腎炎的患者正確預測和錯誤預測的人數(shù);TN,F(xiàn)N分別指預測模型將不是狼瘡腎炎的患者正確預測和錯誤預測的人數(shù).
為了更直觀地了解本文算法對提升狼瘡性腎炎預測表現(xiàn)的有效性,分別對比應用AW-SVM、AW-LR、AW-DT、SVM-RFE方法以及本文提出的MCF-RFE方法篩選出的前400個特征,在LR與SVM模型下進行疾病預測,其AUC值的對比結果如圖3,圖4所示.
圖3 LR分類器中5種算法AUC值對比Fig.3 AUC comparisons among 5 algorithms using LR classification
圖4 SVM分類器中5種算法AUC值對比Fig.4 AUC comparisons among 5 algorithms using SVM classification
通過圖3、圖4可以發(fā)現(xiàn),MCF-RFE方法在2個分類器中表現(xiàn)均優(yōu)于其他4種方法,其中SVM-RFE方法表現(xiàn)優(yōu)于AW-SVM方法.例如,在LR分類器中(圖3),當選擇50個特征時,MCF-RFE方法得到的AUC值為0.884,AW-DT方法的AUC值為0.852,SVM-RFE方法的AUC值為0.822,AW-SVM方法的AUC值為0.747,AW-LR方法的AUC值為0.708.隨著特征數(shù)增加,本文選擇集成的AW-SVM、AW-DT、AW-LR 3種評價標準的預測結果具有互補性,并且逐漸趨向穩(wěn)定.由于以上特征選擇方法是在卡方檢驗篩選出的500個特征的基礎上再次進行篩選,因此隨著特征數(shù)增加,各特征選擇方法篩出的特征子集包含越來越多的共同特征,使得各方法的AUC值差距逐漸減小.
下面對比5種特征選擇方法分別在LR、SVM預測模型下,選擇閾值為0.5,特征數(shù)為100時,進行十折交叉驗證后精確率、召回率、F1、準確率的平均值,結果如表1所示.
通過表1可以發(fā)現(xiàn),在2種分類器下,MCF-RFE方法在P、R、F1、A的綜合表現(xiàn)均優(yōu)于其他4種方法,其中在LR預測模型采用MCF-RFE特征選擇方法時預測表現(xiàn)最佳,其中精確率為0.79,召回率為0.80,F(xiàn)1值為0.79,準確率為0.80.
綜合以上實驗結果,表明MCF-RFE方法相比于只選用一種評價標準的特征選擇方法能夠有效提升疾病預測表現(xiàn).原因在于不同特征選擇方法的篩選結果具有互補性,并且結合RFE搜索策略可以更好地處理特征選擇的過程,從而提升預測表現(xiàn)能力.
本文結合疾病預測的實際應用,提出一種集成多種評價標準的醫(yī)療數(shù)據(jù)特征選擇算法.該算法首先應用過濾型特征評價標準對特征進行初步篩選;然后,采用特征序列方法對多個特征評價標準的結果進行集成;最后,結合遞歸特征消除方法進行特征選擇.將篩選出的特征子集作為預測模型的輸入,實現(xiàn)疾病預測.實驗在LR與SVM預測模型下,將本文的MCF-RFE方法與AW-SVM、AW-DT、AW-LR、SVM-RFE方法進行對比,結果表明本文的預測表現(xiàn)最優(yōu).驗證了本文的提出觀點: 與采用一種特征評價標準相比,集成之后可以有效提升疾病預測表現(xiàn).將數(shù)據(jù)挖掘應用于醫(yī)療領域,輔助醫(yī)生診療決策具有深遠的意義,如何從海量的醫(yī)療數(shù)據(jù)中篩選出關鍵信息起著至關重要的作用.本文提出的方法僅在一個疾病的醫(yī)療數(shù)據(jù)中進行了疾病預測研究,對于該方法在其他領域的擴展有待進一步研究.
致謝:感謝上海翼依信息技術有限公司提供相關醫(yī)療數(shù)據(jù),并聯(lián)系風濕病領域?qū)I(yè)醫(yī)生與技術人員對醫(yī)療數(shù)據(jù)處理提供相關的醫(yī)學指導和技術幫助.