徐開琨,韓明飛,黃傳璽,常乘,朱云平
基于質譜的蛋白質生物標志物發(fā)現(xiàn)中的特征選擇與機器學習方法研究進展
徐開琨1,2,韓明飛1,2,黃傳璽1,3,常乘1,2,朱云平1,2
1 軍事科學院軍事醫(yī)學研究院 生命組學研究所,北京 102206 2 國家蛋白質科學中心(北京) 北京蛋白質組研究中心蛋白質組學國家重點實驗室,北京 102206 3 河北大學 生命科學學院,河北 保定 071002
隨著質譜技術的進步以及生物信息學與統(tǒng)計學算法的發(fā)展,以疾病研究為主要目的之一的人類蛋白質組計劃正快速推進。蛋白質生物標志物在疾病早期診斷和臨床治療等方面有著非常重要的意義,其發(fā)現(xiàn)策略和方法的研究已成為一個重要的熱點領域。特征選擇與機器學習對于解決蛋白質組數(shù)據(jù)“高維度”及“稀疏性”問題有較好的效果,因而逐漸被廣泛地應用于發(fā)現(xiàn)蛋白質生物標志物的研究中。文中主要闡述蛋白質生物標志物的發(fā)現(xiàn)策略以及其中特征選擇與機器學習方法的原理、應用實例和適用范圍,并討論深度學習方法在本領域的應用前景及局限性,以期為相關研究提供參考。
質譜,蛋白質組學,生物標志物,機器學習,特征選擇,深度學習
生物標志物 (Biomarker) 是指“一種可客觀檢測和評價的指標,可作為正常生物學過程、病理過程或治療干預藥理學反應的指示因子”[1],對于篩查、診斷或監(jiān)測疾病,指導分子靶向治療以及評估治療效果等具有重要的意義[2-4]。作為中心法則末端承擔生命活動的載體,由于存在可變剪切、單核苷酸多態(tài)性及翻譯后修飾,蛋白質的狀態(tài)包含更多維度的信息,與生命活動的各個方面息息相關,更加適合作為生物標志物[5]。目前美國國家癌癥研究所 (National cancer institute) 發(fā)布的EDRN數(shù)據(jù)庫 (Early detection research network, https://edrn.nci.nih.gov) 針對十種器官共收錄了583種蛋白質生物標志物,占收錄的全部生物標志物的57%。此外,幾乎所有被FDA批準應用于臨床的標志物如甲胎蛋白 (Alpha-fetoprotein, AFP) 等都是蛋白質。與此同時,質譜技術憑借其高通量、高靈敏性等優(yōu)點已經(jīng)成為了蛋白質組研究的主流技術[6]。將質譜方法用于蛋白質生物標志物發(fā)現(xiàn)已成為蛋白質組的研究熱點之一,近年來相關文獻數(shù)目增長迅速 (圖1)。
圖1 PubMed數(shù)據(jù)庫中蛋白質生物標志物相關文獻數(shù)目統(tǒng)計
目前蛋白質生物標志物的發(fā)現(xiàn)多基于實驗組與對照組之間的蛋白質豐度差異,呈現(xiàn)出兩種策略:經(jīng)典的生物標志物發(fā)現(xiàn)策略可分為蛋白質生物標志物發(fā)現(xiàn)、確認和驗證三個階段,由于其各階段所需的樣本數(shù)目及候選蛋白質數(shù)目按照數(shù)量級變化 (圖2),之后的研究中常稱其為“三角”發(fā)現(xiàn)策略;另一種策略類似于全基因組關聯(lián)分析(Genome-wide association study,GWAS),通過進行大隊列非靶向的蛋白質組數(shù)據(jù)分析,發(fā)現(xiàn)蛋白質表達量、修飾狀態(tài)的改變和疾病狀態(tài)的相關性[7-10],又被稱為“矩形”發(fā)現(xiàn)策略[11]。兩種策略中研究人員均通過鳥槍法蛋白質組定量結果進行分析,尋找在實驗組與對照組之間的差異表達蛋白質,繼而確定可能的蛋白質生物標志物。如何從高維蛋白質組數(shù)據(jù)中尋找出能更具區(qū)分能力的標志物,如何評價所選的生物標志物的分類效果是方法學研究中最為關注的兩個問題。前者可以抽象為特征選擇;后者則可等效為分類器的效能評估[12]。
在傳統(tǒng)的差異表達蛋白質篩選方法中,研究人員根據(jù)實驗設計類型以及數(shù)據(jù)的正態(tài)性與方差齊性,選擇采用參數(shù)檢驗 (如檢驗、檢驗、方差分析ANOVA等) 或非參數(shù)檢驗 (如Mann-WhitneyU檢驗、Wilcoxon秩和檢驗、Kruskal-Wallis H檢驗等) 判斷樣本均數(shù)是否具有統(tǒng)計學差異,而后采用多元線性回歸、邏輯回歸等回歸模型評判蛋白質生物標志物的分類效果。這些方法存在以下問題:1) 盡管假設檢驗方法具有豐富的理論支持及應用實例,但其本質上都是單變量的分析手段。由于協(xié)同或者拮抗作用的存在,同一條通路上的蛋白質常呈現(xiàn)出相同或相反的變化趨勢,傳統(tǒng)的分析方法不能反映蛋白質之間的相關性。2) 生物標志物能夠被用于區(qū)分疾病和正常組,在數(shù)學上可以看成一個分類問題。傳統(tǒng)的回歸模型更適用于處理單一邊界線性可分的分類問題,而以蛋白質組數(shù)據(jù)為例的組學數(shù)據(jù)往往是非線性可分的,只應用線性回歸模型可能導致分類效果不佳。3) 很難通過圖像表示出高維空間中的線性超平面,傳統(tǒng)回歸分析缺乏直觀的可視化手段。
圖2 蛋白質生物標志物發(fā)現(xiàn)的經(jīng)典策略(改編自文獻[11, 13])
這些問題來源于蛋白質組數(shù)據(jù)的“高維度”與“稀疏性”,需要通過對數(shù)據(jù)進行簡化來解決。特征選擇與機器學習方法在其中有廣泛的應用。依據(jù)訓練數(shù)據(jù)是否擁有標記信息,機器學習方法可分為“無監(jiān)督學習方法”與“監(jiān)督學習方法”兩類。本文將詳細描述蛋白質生物標志物發(fā)現(xiàn)中特征選擇方法及這兩類機器學習方法的具體應用。
特征選擇 (Feature selection, FS) 被定義為“從給定的特征集合中選擇出相關特征集的過程[14]”,可以看作是機器學習方法的“預處理”階段,目的是選擇重要的特征并去除不相關的特征。特征選擇的通用做法是首先生成一個特征子集并評價其好壞,依據(jù)評價結果產(chǎn)生下一個特征子集,如此循環(huán)迭代至找不到更好的特征子集為止,這一過程涉及到子集搜索 (Subset search) 與子集評價 (Subset evaluation) 兩個環(huán)節(jié)。
在特征選擇之前需要對數(shù)據(jù)進行缺失值插補及標準化等操作,已有一些綜述對其進行了總結[15-16],此處不作展開敘述。
常見的特征選擇方法分為過濾式 (Filters)、包裹式 (Wrappers) 及嵌入式 (Embedded methods)三種類型。
過濾式方法首先對數(shù)據(jù)集進行特征選擇,而后訓練機器學習模型,特征選擇的過程與后續(xù)的模型無關。過濾式方法需要構建用以衡量特征的重要性的統(tǒng)計量。
單變量的過濾方法 (信息增益[17]、Relief[18]、統(tǒng)計學檢驗等) 僅對單個特征進行評估,此類選擇方法往往計算成本較低且具有較強的魯棒性,但是容易保留冗余特征。
為了解決此類問題,多變量的過濾方法 (最小冗余最大相關mRMR[19]等) 會分析整個特征子集,基于相關性減少冗余特征。Shen 等[20]在研究中使用mRMR方法對胰腺癌轉錄組數(shù)據(jù)進行特征選擇。
包裹式方法直接把機器學習模型的性能作為子集的評價準則,為分析模型選擇最有利于其性能的特征子集。這類選擇方法往往考慮了特征間的相關性,在每次迭代中生成并測試多個特征子集,較為典型的過濾式方法是LVM (Las vegas wrapper)。
此類方法的效能往往要好于過濾式方法,但是在樣本數(shù)量有限的條件下容易出現(xiàn)過擬合,且有顯著的計算成本提升。
在前兩種方法中,特征選擇過程與機器學習模型有著明顯的區(qū)分,嵌入式選擇將二者融為一體,將特征選擇集成到分類模型的構造中,主要目的是為了結合過濾式與包裹式方法的優(yōu)點。決策樹 (Decision tree,DT) 與隨機森林 (Random forest,RF)、支持向量機 (Support vector machine,SVM) 等監(jiān)督學習算法都屬于此類,算法與應用將在本文第四節(jié)詳細介紹,這些算法在使用時首先過濾式地對特征空間進行降維,而后采用包裹式方法選取最佳的特征子集。
無監(jiān)督學習方法的目的在于發(fā)現(xiàn)隱藏的數(shù)據(jù)結構或變量之間的關聯(lián)。在這種情況下,訓練數(shù)據(jù)不需要任何手工標注的標簽,其中的代表方法包括主成分分析 (Principal component analysis,PCA) 及層次聚類 (Hierarchical clustering)。
PCA是蛋白質組學中使用較早的機器學習方法,其核心思想是通過對協(xié)方差矩陣進行特征分解,以得出數(shù)據(jù)的主成分與它們的權值。經(jīng)過這種操作可以將原始數(shù)據(jù)的維特征映射到(<) 維上形成全新的正交特征,即主成分 (Principal components,PCs),是將原始的特征線性組合所重新構造出來的新特征,而非簡單地從維特征中去除其余?維特征。PCA中評估結果好壞有兩個主要指標:成分載荷 (Component loadings) 指主成分與原始特征之間的關聯(lián)系數(shù),成分得分 (Component scores) 指樣本在各主成分維度上的值,這二者與輸入矩陣之間滿足如圖3A所示的關系。由于主成分是由原始特征加權求和計算而來,是一種破壞性的操作,很難將主成分的重要性排序反推到原始特征之上,導致單一使用PCA在原始特征貢獻度注釋方面并無優(yōu)勢。PCA結果的可視化通常使用散點圖來表示 (圖3B),其坐標軸對應于兩個不同的主成分,且二者對總體方差的貢獻并不要求最大。
R語言有兩種PCA的計算函數(shù),prcomp和princomp,前者使用奇異值分解 (Singular value decomposition,SVD) 實現(xiàn),后者采用實對稱矩陣對角化方式實現(xiàn)。此外,Python語言的scikit-learn機器學習模塊的decomposition類中也集成了PCA的相關功能。PCA的主要應用包括:1) 對原始特征的異常值進行檢驗,如Blanchet等[21]對自身免疫性腦脊髓炎的研究工作。2) 在相關主成分空間中為不同類別實現(xiàn)的分離結果的可視化,且由于成分載荷及成分得分提供了部分候選生物標志物的信息以及在實驗條件中的上調或下調,故而在某些早期研究中使用PCA作為所選蛋白質生物標志物分類性能的評判標準,如Zhang 等[22]在乳腺癌非侵襲性檢測中篩選蛋白質生物標志物的工作。3) 部分研究中將PCA用作評估生物標志物研究中測量重現(xiàn)性的工具,如Govorukhina等[23]關于宮頸癌血清樣本的研究及Liggett等[24]分析SELDI-TOF對于蛋白質組測量重復性的研究。
聚類分析試圖通過“距離度量 (Distance measure)”將數(shù)據(jù)集中的樣本劃分為若干個不相交的“簇”,每個簇對應于一些潛在的相似性概念。層次聚類是標志物篩選中使用頻率較高的聚類方法,它試圖在不同層次上對數(shù)據(jù)集進行劃分從而最終形成樹形的聚類結構。需要注意的是,聚類算法僅能自動形成簇結構,但簇對應的概念語義不存在通用的客觀標準,往往需要使用者自行把握和命名。
圖3 蛋白質生物標志物發(fā)現(xiàn)中的無監(jiān)督學習方法
在蛋白質組研究中,在蛋白質與樣本兩個維度同時進行層次聚類分析已經(jīng)成為了一種通用的方法,可以同時獲得樣本聚類以及不同聚類中蛋白質豐度變化等信息。層次聚類的輸出結果常常使用熱圖的方式給出 (圖3C),熱圖顏色表示相關指標的高低,兩軸上樹狀圖距離越遠的兩個樣本之間相似性越低。在樹狀圖的不同層次上進行分割,可以得到不同的簇劃分結果。R語言中hclust函數(shù)可用于繪制層次聚類的樹狀圖,heatmap、heatmap.2及pheatmap函數(shù)可用于熱圖繪制。
在蛋白質生物標志物研究中層次聚類多一個可視化的評價手段,一方面可用作評估數(shù)據(jù)集的整體情況,Wit等[25]在發(fā)現(xiàn)結直腸癌生物標志物的工作中,對4例結直腸癌患者與4例正常對照患者的含2 703個分泌蛋白質的組學數(shù)據(jù)進行評估,分析顯示形成3個簇,所有癌癥患者形成1個簇,而正常對照分成2個簇,說明分泌蛋白質組在患者之中更為接近;層次聚類另一方面也用于評估方法參數(shù)性能,Griffin 等[26]的工作中為了驗證新的譜圖定量方法SIN的特異性,對于10組分別來自腎臟和心臟分離的內(nèi)皮細胞質膜進行蛋白質組分析,最后對SIN值進行無監(jiān)督學習的雙向層次聚類,發(fā)現(xiàn)可成功將兩種樣本完全分離。
除了編程語言的功能函數(shù)外,還有許多分析工具或插件可以實現(xiàn)PCA及層次聚類的數(shù)據(jù)分析與圖形繪制,我們在表1中列出了常用分析工具及相關屬性。
在監(jiān)督學習方法中,系統(tǒng)必須首先“學習”一個用以描述數(shù)據(jù)的模型的目標函數(shù),然后再將目標函數(shù)用于從一組輸入變量中預測輸出變量的值或所屬分類。模型一般需要將輸出變量與事先標記的人工標簽 (疾病分型、是否患病等) 進行比對,通過最小化輸出值與人工標簽的差異提升模型的預測性能。生物標志物篩選過程中可用監(jiān)督學習方法來充當分類器模型評估所選生物標志物的分類效果,常用方法主要有決策樹與隨機森林、支持向量機及正交偏最小二乘判別分析 (Orthogonal partial least squares discriminant analysis,OPLS-DA) 等。需要注意的是,并非所有的監(jiān)督學習方法都具有特征選擇的功能,這些方法需要與現(xiàn)有的特征選擇方法聯(lián)用才能用于標志物的發(fā)現(xiàn)[29-30]。
表1 主成分分析及層次聚類算法的實現(xiàn)工具
為了使分類器模型在訓練及預測階段能夠高效利用數(shù)據(jù),一般會將數(shù)據(jù)集分為3個部分:訓練集、驗證集和測試集。模型在訓練集上學習樣本數(shù)據(jù),通過給定算法優(yōu)化損失函數(shù)在訓練集上得到較好的分類性能;之后通過驗證集進一步微調模型中的參數(shù)或結構;最后在測試集進行分類預測以評估泛化能力。當樣本量較少時可以不設定專門的驗證集,采用十折交叉驗證[31]等方式劃分訓練集與測試集,進行模型的訓練及效能評估。
在研究之中,二元分類器應用最為廣泛,其分類結果分為4類:真陽性 (True positive,TP)、假陽性 (False positive,F(xiàn)P)、真陰性 (True negative,TN)、假陰性 (False negative,F(xiàn)N)。
通常使用靈敏度 (Sensitivity,Sn)、特異度 (Specificity,Sp)、準確率 (Accuracy,Ac)、受試者工作特征曲線下面積 (Area under the receiver operating characteristic curve,AUC)[32-33]四個通用指標評價分類器的分類效果。靈敏度衡量被正確識別的陽性比例;特異度衡量被正確識別的陰性比例;準確率衡量被正確識別的樣本比例。
分類器模型預測過程中,樣本通過計算產(chǎn)生一系列實數(shù)參數(shù),通過參數(shù)與分類閾值的大小比較將各樣本劃分至不同的類,若改變閾值的取值,分類器模型可以獲得不同的分類結果。不同閾值下可獲得一系列“FPR-TPR”點,將這些點連接繪制成的曲線即為ROC曲線 (Receiver operating characteristic curve),其中橫坐標代表假陽性率 (False positive rate),接近左上角的點對應著該分類器分類效果較好的閾值。ROC曲線與橫軸構成的面積即為AUC,該值越接近于1,分類器的分類性能越好 (圖4A)。
決策樹是應用最為廣泛的歸納推理算法之一,這種樹形結構的每個葉節(jié)點都對應一種決策結果,其他的內(nèi)部節(jié)點對應于一種屬性測試,根節(jié)點包含樣本全集 (圖4B);每個節(jié)點包含的樣本集合根據(jù)屬性測試的結果被劃分到子節(jié)點之中,我們希望隨著模型劃分過程的不斷進行,決策樹的分支節(jié)點包含的樣品盡可能地處于同一類別。根據(jù)屬性測試的評判標準,常見的決策樹包括C4.5樹 (信息增益率)[34]及CART樹 (基尼系數(shù))[35]。決策樹形成的邊界有一個明顯的特點,即分類邊界由若干個與軸平行的分段所構成。這種邊界構成使得判斷標準有極強的可解釋性,因為每一段劃分邊界直接對應了某種屬性取值,故而決策樹除了充當分類器以外,也能用于進行特征選擇。
單一決策樹分類易產(chǎn)生過擬合,將決策樹作為基學習器進行集成學習,即構建隨機森林可以彌補這一缺點。隨機森林的具體思想是對于訓練數(shù)據(jù)的不同子集并行化地建立許多不同的決策樹進行學習及分類,采用簡單投票法作出最終的分類判斷[36]。與決策樹一樣,隨機森林可以進行具有極高可解釋性的特征選擇并對選出的特征進行結果評價。由于訓練過程中同時考慮了樣本擾動與屬性擾動,相對于單一決策樹,隨機森林具有更強的泛化性能。隨機森林分類器的分類誤差主要來自于各個決策樹的性能以及隨機森林中樹與樹之間的相關性。目前隨機森林已經(jīng)在生物標志物發(fā)現(xiàn)中得到了廣泛的應用,CRAN社區(qū)已推出R語言包randomForest用于隨機森林預測及回歸,同時支持C4.5樹及CART樹,并且提供變量的重要性排序及分類性能預測等核心功能。
Gao 等[37]對于肝病生物標志物的研究之中,對69組正常對照 (NC)、49組乙肝 (HBV)、52組肝硬化 (LC) 及39組肝細胞癌患者 (HCC) 的血漿樣品數(shù)據(jù)按照病程的發(fā)展進行了隨機森林的二元分析,訓練階段在NC vs HBV、HBV vs LC、LC vs HCC三個階段中均能達到100%的分類準確率,測試階段三組的準確率分別為100%、100%及96.77%。依據(jù)對于分類性能的貢獻度,分別提取前30組變量進行后續(xù)的二元邏輯回歸以發(fā)現(xiàn)候選標志物的最佳組合,最終組合在測試集上的AUC分別能達到1.00、0.984、0.906。
Ostroff等[38]在惡性胸膜間皮瘤早期診斷的研究中,使用隨機森林模型對117組病例及142組高危人群的血清蛋白質組數(shù)據(jù)進行了隨機森林分類,篩選出13種炎癥和增殖相關蛋白質作為生物標志物,訓練、驗證及測試階段AUC分別可以達到0.99±0.01、0.98±0.04及0.95±0.04。
支持向量機的應用基礎是不同類別的樣本之間線性可分,其算法核心是試圖尋找最優(yōu)的超平面,使得離這條線最近的異類點 (即支持向量) 到超平面的距離之和最大[39]。核函數(shù)、軟間隔等概念的引入使得SVM拓展應用于非線性可分問題。
支持向量機被廣泛用于蛋白質組數(shù)據(jù)分析且多與PCA、隨機森林等其他多變量分析方法聯(lián)用,在其中起到分類器的功能。SVM已有很多成熟的實現(xiàn)方法,在Python語言scikit-learn機器學習模塊中的svm類集成了SVM分析常用的各種函數(shù),R語言e1071包集成了LIBSVM[40]的算法。
Ahn等[41]在對胃腺癌診斷血清生物標志物的研究中,首先使用隨機森林方法從對29個蛋白質進行測試的陣列平臺數(shù)據(jù)中選擇出重要性排序前13的蛋白質作為變量,分別以抽取不同的變量使用隨機森林以及SVM的方法對患病及對照均為70組的驗證集進行十次分析,二者的最高準確率分別為88.3%及89.7%;這兩種算法進一步在由95個胃腺癌組和51個對照組構成的測試集上進行盲法測試,分別獲得89.2%及85.6%的準確率。
Htun等[42]使用基于SVM的數(shù)據(jù)分析軟件MosaCluster對急性冠狀動脈綜合癥組及對照組的蛋白質生物標志物進行存活分析 (蛋白質生物標志物由傳統(tǒng)假設檢驗獲得),在只使用標志物組合ACSP75時預測評價指標AUC為0.644,與Framingham Risk Score的預測結果類似 (AUC=0.664);而將生物標志物組合ACSP75與先前建立的以冠狀動脈疾病為特征的尿蛋白質生物標志物組合CAD238以及年齡等相關因素組合作為原始特征后,相同分類器的分類效果大大提升 (AUC=0.751)。
支持向量機遞歸特征消除法 (Support vector machine-recursive feature elimination,SVM-RFE) 是一種將支持向量機與后向搜索策略相結合的包裹式特征選擇方法,通過對超平面上每個特征進行排序,不斷刪除排名的特征并在剩余特征上進行評估,直至得到最優(yōu)特征子集[43],類似的方法還包括R-SVM[44]等。但有研究表明,SVM-RFE方法選擇的特征在分類過程中表現(xiàn)不夠穩(wěn)定[45-46]。
最小二乘判別分析 (PLS-DA) 是PCA的回歸版本,此方法的目的不在于尋找響應和獨立變量之間最小方差的超平面,而是通過投影預測變量和觀測變量到一個新空間通過協(xié)方差來尋找一個線性回歸模型,但PLS-DA在高維度數(shù)據(jù)上傾向于構建過于復雜的模型[47],導致結果的解釋性相對較差。OPLS-DA是PLS-DA的改進方法,通過引入正交信號校正 (Orthogonal signal correction,OSC) 濾除隨機噪聲,能更好地區(qū)分組間差異,具有更高的解析能力[48-49]。OPLS-DA的主要輸出結果為2與2,其中2衡量擬合優(yōu)度,2衡量模型的預測能力,越接近1效果越好[50]。R語言包“ropls”內(nèi)部集成了OPLS-DA功能。
Jin等[51]在對138組膀胱癌及121組對照組成員的尿代謝組數(shù)據(jù)進行分析時,使用OPLS-DA方法進行了樣本評估,包括正常組、尿血組與膀胱癌組 (2=0.878,2=0.662),肌肉浸潤性膀胱癌組與非肌肉浸潤性膀胱癌組的評估 (2=0.875,2=0.355);而后使用OPLS-DA方法對人工篩選的12種高相關性、靈敏度的分子在測試集 (46組膀胱癌及40組對照組) 上進行評估,95%置信區(qū)間上分別達到91.3%的靈敏性及92.5%的特異性,AUC為0.937。該方法還被用于年齡體重等對尿代謝組的影響效果研究[52]、血清分化胰腺癌與慢性胰腺炎的比較蛋白質組學分析[53]等工作中。
PLS-DA方法本身不具備任何的特征選擇能力,需要與現(xiàn)有的特征選擇方法聯(lián)用構成完整的標志物發(fā)現(xiàn)流程,如Christin等[45]的工作中將PLS-DA與Rank-Product[54]方法聯(lián)用,與多種標志物發(fā)現(xiàn)流程進行比較;Wang等[55]采用SVM-RFE類似的方法構建PLS-RFE用以微陣列數(shù)據(jù)中差異基因的篩選;Lê Cao等[31]通過在計算中引入約束項構建稀疏的偏最小二乘分析模型 (Sparse PLS discriminant analysis,sPLS-DA) 進行特征選擇。
蛋白質組學是一個相對年輕、蓬勃發(fā)展和不斷擴大的領域,基于蛋白質組數(shù)據(jù)進行生物標志物發(fā)現(xiàn)尚未形成公認的通用數(shù)據(jù)分析流程,理解方法的使用條件顯得尤其重要。基于文獻調研[12,46,56-58]與使用經(jīng)驗,本文從缺失值容忍、分類能力、(對離群值的) 魯棒性、避免過擬合、降維、可解釋性及可視化7個方面對3種分類器進行特性比較 (表2)。
隨機森林在分類可解釋性及缺失值容忍程度上具有無可比擬的優(yōu)勢,而SVM和OPLS-DA在可視化等方面更加優(yōu)秀,數(shù)據(jù)分析時往往需要綜合考慮數(shù)據(jù)維度及數(shù)據(jù)量等因素之后選用合理的分類器。將多種分類器作為基學習器進行集成學習亦是一種可行的研究策略,相較于使用單一分類器往往能夠獲得更佳的泛化性能[59-60]。
我們在表3中列出了實現(xiàn)RF、SVM及PLS-DA三類監(jiān)督學習算法的常用分析工具及相關屬性。
表2 三種監(jiān)督學習分類器特性比較a
a: +++ means the best performance, + means the worst performance; b: the classification ability of SVM is affected by the kernel function used. There are multiple kernel functions, such as linear, nonlinear, polynomial, radial basis function (RBF), and sigmoid.
表3 最小二乘判別分析、支持向量機及隨機森林算法的實現(xiàn)工具
深度學習 (Deep learning) 是近年來隨著硬件及算法的進步興起的一類機器學習方法,模型的計算結構由多個處理層組成的 (圖5)。在每一層中,它通過簡單但是非線性的模塊將原始數(shù)據(jù)轉換為更高層次、更抽象的表達,這種多層結構賦予了模型更強的抽象化及特征表示的能力[62]。這是一個快速發(fā)展的研究領域,大量新的深度學習模型與框架不斷被提出,這為深度學習在生物學領域的應用提供了契機。
在深度學習方法用于鳥槍法篩選候選生物標志物方面,目前未見到相關文獻報道,但稀疏自編碼器[63]等深度學習模型在降噪方面的應用已有報道,可以為蛋白質生物標志物的發(fā)現(xiàn)提供借鑒。通過文獻檢索發(fā)現(xiàn)已有少數(shù)工作在使用生物標志物評價分類器分類效果,Putin 等[58]在研究衰老生物標志物的工作中,采用62 419組健康人的血液生化分析記錄 (內(nèi)含對應的年齡、性別及46種標準化的血液標記) 作為數(shù)據(jù)集,按照訓練集56 177組與測試集6 242組的比例分開,年齡、性別分別作為標簽,46條標記記錄作為輸入值,分別在深層神經(jīng)網(wǎng)絡、決策樹、隨機森林、線性回歸、K最近鄰分類及支持向量機多種模型上進行分類性能評估,在兩標簽的預測中深層神經(jīng)網(wǎng)絡均取得最好的分類效果。
圖5 深度學習模型示意圖
雖然深度學習算法在復雜和噪聲數(shù)據(jù)的識別、分類和特征提取方面表現(xiàn)出一定優(yōu)勢,但也存在一些局限性。主要包括4個方面[64]:1)“黑箱”問題。多數(shù)的深度學習模型通過中間層學習高維度特征以實現(xiàn)分類或者預測功能,這些抽象特征需要進行額外的質量控制和解釋。2) 訓練集規(guī)模不足時易過擬合。深度學習模型的優(yōu)勢往往在大數(shù)據(jù)量的情況下才會體現(xiàn)出來。數(shù)據(jù)量較小時,模型面臨過擬合風險,將在訓練集上訓練的模型應用到新的數(shù)據(jù)上時易有較大誤差。盡管目前已經(jīng)提出L2約束項及dropout等正則化方法應對過擬合,增大訓練集數(shù)據(jù)量依舊是解決此問題的根本途徑。3) 深度學習模型的選擇。由于可供選擇的深度學習模型眾多,再加上數(shù)據(jù)類型和數(shù)據(jù)量等要求,對于特定任務選擇哪類模型進行訓練并不像選擇傳統(tǒng)機器學習算法那么直觀。4) 計算成本。盡管訓練深度學習模型所需的計算資源并沒有想象中的那么大,但訓練過程通常涉及密集又耗時的計算,因此常需要使用圖形處理單元 (GPU)進行并行加速。
目前,基于蛋白質組數(shù)據(jù)進行蛋白質生物標志物的發(fā)現(xiàn)已經(jīng)取得了長足的進步。本文全面闡述了蛋白質生物標志物的發(fā)現(xiàn)策略,常用特征選擇及機器學習方法的原理及適用范圍,并討論了深度學習在本領域的應用合理性及局限性。具體內(nèi)容總結為以下5點:1) 蛋白質生物標志物篩選本質上是特征選擇與分類器效能評估問題。傳統(tǒng)的假設檢驗及回歸分析受到變量相關性、分類邊界等問題的限制,不適用于現(xiàn)有的標志物發(fā)現(xiàn)策略;不過,已有一些機器學習方法可以解決上述問題。2) 無監(jiān)督學習方法在標志物發(fā)現(xiàn)中可用于數(shù)據(jù)異常值檢驗、數(shù)據(jù)重復性分析、結果可視化呈現(xiàn)及標志物分離結果的檢驗;監(jiān)督學習方法主要作為分類器用以評估蛋白質生物標志物組合的分類效果,一些不具備特征選擇功能的方法需要與現(xiàn)有特征選擇方法聯(lián)用才能進行完整的生物標志物發(fā)現(xiàn)。3) 監(jiān)督學習分類器使用時需將數(shù)據(jù)集劃分為訓練集、驗證集及測試集,常使用靈敏度、特異度、準確率及AUC評判分類效果。4) 不同的分類器適用條件不同,選擇過程需要綜合考慮數(shù)據(jù)維度及數(shù)據(jù)量等因素。將多種分類器作為基學習器進行集成學習也是一種可行的研究策略,相較于單一分類方法往往能夠獲得更佳的泛化性能。5) 深度學習作為新興起的一門技術,在標志物分類效果評估方面已有初步應用。雖有“黑箱”、過擬合、模型選擇及計算成本等問題需要解決,但隨著相關技術的進步,深度學習在生物標志物篩選方面仍有著很好的應用前景。
雖然早期蛋白質生物標志物篩選工作中,研究者傾向于獲得一種特定的蛋白質作為生物標志物,但最近有研究表明將多個現(xiàn)有標志物進行組合形成新的評判指標能有效提升預測準確性[65-66]。目前已有Child-Pugh score[67]、Framingham Risk Score[68]、OVA1 test[69]等多種組合標志物應用于臨床診斷,將多種標志物定量結果組合形成綜合性的評判指標已成為研究的主流趨勢。此外,將多組學數(shù)據(jù)綜合分析尋找標志物也逐漸成為研究熱點,Cohen等[70]將ctDNA與8種已知的血漿生物標志物共同分析進行的早期癌癥檢測 (該方法稱為CancerSEEK),在生物標志物發(fā)現(xiàn)領域引起了極大反響;Sinha等[71]通過對前列腺癌蛋白質、mRNA、甲基化、組蛋白修飾及拷貝數(shù)變異等諸多因素的綜合分析,認為組學間無法相互取代,多組學來源的生物標志物的組合相較單一來源的生物標志物更為準確。這些都對從事生物標志物篩選的人員提出了更高的要求,一方面應嘗試更多特征選擇和分類方法的組合,嘗試多種分析手段集成分析,以獲得更好的分類效果;另一方面,在標志物發(fā)現(xiàn)領域數(shù)據(jù)分析的工作量依舊非常大,目前仍缺少更為方便的一體化數(shù)據(jù)分析平臺。
[1] Biomarkers Definitions Working Group. Biomarkers and surrogate endpoints: preferred definitions and conceptual framework. Clin Pharmacol Ther, 2001, 69(3): 89–95.
[2] Etzioni R, Urban N, Ramsey S, et al. The case for early detection. Nat Rev Cancer, 2003, 3(4): 243–252.
[3] FDA-NIH Biomarker Working Group. BEST (Biomarkers, EndpointS, and other Tools) Resource. Silver Spring: Food and Drug Administration (US), 2016: 48.
[4] Mischak H, Allmaier G, Apweiler R, et al. Recommendations for biomarker identification and qualification in clinical proteomics. Sci Transl Med, 2010, 2(46): 46ps42.
[5] Ludwig JA, Weinstein JN. Biomarkers in cancer staging, prognosis and treatment selection. Nat Rev Cancer, 2005, 5(11): 845–856.
[6] Kuster B, Schirle M, Mallick P, et al. Scoring proteomes with proteotypic peptide probes. Nat Rev Mol Cell Biol, 2005, 6(7): 577–583.
[7] Bekker-Jensen DB, Kelstrup CD, Batth TS, et al. An optimized shotgun strategy for the rapid generation of comprehensive human proteomes. Cell Syst, 2017, 4(6): 587–599.e4.
[8] Mann M, Kulak NA, Nagaraj N, et al. The coming age of complete, accurate, and ubiquitous proteomes. Mol Cell, 2013, 49(4): 583–590.
[9] Sharma K, Schmitt S, Bergner CG, et al. Cell type- and brain region-resolved mouse brain proteome. Nat Neurosci, 2015, 18(12): 1819–1831.
[10] Richards AL, Merrill AE, Coon JJ. Proteome sequencing goes deep. Curr Opin Chem Biol, 2015, 24: 11–17.
[11] Geyer PE, Holdt LM, Teupser D, et al. Revisiting biomarker discovery by plasma proteomics. Mol Syst Biol, 2017, 13(9): 942.
[12] Swan AL, Mobasheri A, Allaway D, et al. Application of machine learning to proteomics data: classification and biomarker identification in postgenomics biology. OMICS, 2013, 17(12): 595–610.
[13] Rifai N, Gillette MA, Carr SA. Protein biomarker discovery and validation: the long and uncertain path to clinical utility. Nat Biotechnol, 2006, 24(8): 971–983.
[14] Guyon I, Elisseeff A. An introduction to variable and feature selection. J Mach Learn Res, 2003, 3: 1157–1182.
[15] Suppers A, Van Gool AJ, Wessels HJCT. Integrated chemometrics and statistics to drive successful proteomics biomarker discovery. Proteomes, 2018, 6(2): 20.
[16] Maes E, Kelchtermans P, Bittremieux W, et al. Designing biomedical proteomics experiments: state-of-the-art and future perspectives. Expert Rev Proteomics, 2016, 13(5): 495–511.
[17] Hoque N, Bhattacharyya DK, Kalita JK. MIFS-ND: a mutual information-based feature selection method. Expert Syst Appl, 2014, 41(14): 6371–6385.
[18] Robnik-?ikonja M, Kononenko I. Theoretical and empirical analysis of ReliefF and RReliefF. Mach Learn, 2003, 53(1/2): 23–69.
[19] Radovic M, Ghalwash M, Filipovic N, et al. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics, 2017, 18: 9.
[20] Shen SH, Gui TT, Ma CC. Identification of molecular biomarkers for pancreatic cancer with mRMR shortest path method. Oncotarget, 2017, 8(25): 41432–41439.
[21] Blanchet L, Smolinska A, Attali A, et al. Fusion of metabolomics and proteomics data for biomarkers discovery: case study on the experimental autoimmune encephalomyelitis. BMC Bioinformatics, 2011, 12: 254.
[22] Zhang L, Xiao H, Karlan S, et al. Discovery and preclinical validation of salivary transcriptomic and proteomic biomarkers for the non-invasive detection of breast cancer. PLoS ONE, 2010, 5(12): e15573.
[23] Govorukhina NI, Reijmers TH, Nyangoma SO, et al. Analysis of human serum by liquid chromatography-mass spectrometry: improved sample preparation and data analysis. J Chromatogr A, 2006, 1120(1/2): 142–150.
[24] Liggett WS, Barker PE, Semmes OJ, et al. Measurement reproducibility in the early stages of biomarker development. Dis Markers, 2004, 20(6): 295–307.
[25] de Wit M, Kant H, Piersma SR, et al. Colorectal cancer candidate biomarkers identified by tissue secretome proteome profiling. J Proteomics, 2014, 99: 26–39.
[26] Griffin NM, Yu JY, Long F, et al. Label-free, normalized quantification of complex mass spectrometry data for proteomic analysis. Nat Biotechnol, 2010, 28(1): 83–89.
[27] Metsalu T, Vilo J. ClustVis: a web tool for visualizing clustering of multivariate data using principal component analysis and heatmap. Nucleic Acids Res, 2015, 43(Web Server issue): W566–W570.
[28] Frank E, Hall M, Trigg L, et al. Data mining in bioinformatics using Weka. Bioinformatics, 2004, 20(15): 2479–2481.
[29] Smit S, van Breemen MJ, Hoefsloot HCJ, et al. Assessing the statistical validity of proteomics based biomarkers. Anal Chim Acta, 2007, 592(2): 210–217.
[30] Smit S, Hoefsloot HCJ, Smilde AK. Statistical data processing in clinical proteomics. J Chromatogr B Analyt Technol Biomed Life Sci, 2008, 866(1/2): 77–88.
[31] Lê Cao KA, Boitard S, Besse P. Sparse PLS discriminant analysis: biologically relevant feature selection and graphical displays for multiclass problems. BMC Bioinformatics, 2011, 12: 253.
[32] Lobo JM, Jiménez-Valverde A, Real R. AUC: a misleading measure of the performance of predictive distribution models. Glob Ecol Biogeogr, 2008, 17(2): 145–151.
[33] Austin PC, Steyerberg EW. Interpreting the concordance statistic of a logistic regression model: relation to the variance and odds ratio of a continuous explanatory variable. BMC Med Res Methodol, 2012, 12: 82.
[34] Quinlan JR. C4.5: Programs for Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1993.
[35] Breiman L, Friedman JH, Olshen RA, et al. Classification and Regression Trees. New York: Chapman & Hall, 1984: 582–588.
[36] Yang PY, Yang YH, Zhou BB, et al. A review of ensemble methods in bioinformatics. Curr Bioinf, 2010, 5(4): 296–308.
[37] Gao R, Cheng JH, Fan CL, et al. Serum metabolomics to identify the liver disease-specific biomarkers for the progression of hepatitis to hepatocellular carcinoma. Sci Rep, 2015, 5: 18175.
[38] Ostroff RM, Mehan MR, Stewart A, et al. Early detection of malignant pleural mesothelioma in asbestos-exposed individuals with a noninvasive proteomics-based surveillance tool. PLoS ONE, 2012, 7(10): e46091.
[39] Cortes C, Vapnik V. Support-vector networks. Mach Learn, 1995, 20(3): 273–297.
[40] Chang CC, Lin CJ. LIBSVM: a library for support vector machines. ACM Trans Intell Syst Technol, 2011, 2(3): Article No.27.
[41] Ahn HS, Shin YS, Park PJ, et al. Serum biomarker panels for the diagnosis of gastric adenocarcinoma. Br J Cancer, 2012, 106(4): 733–739.
[42] Htun NM, Magliano DJ, Zhang ZY, et al. Prediction of acute coronary syndromes by urinary proteome analysis. PLoS ONE, 2017, 12(3): e0172036.
[43] Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines. Mach Learn, 2002, 46(1/3): 389–422.
[44] Zhang XG, Lu X, Shi Q, et al. Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data. BMC Bioinformatics, 2006, 7: 197.
[45] Christin C, Hoefsloot HCJ, Smilde AK, et al. A critical assessment of feature selection methods for biomarker discovery in clinical proteomics. Mol Cell Proteomics, 2013, 12(1): 263–276.
[46] Swan AL, Stekel DJ, Hodgman C, et al. A machine learning heuristic to identify biologically relevant and minimal biomarker panels from omics data. BMC Genomics, 2015, 16(Suppl 1): S2.
[47] Bylesj? M, Rantalainen M, Cloarec O, et al. OPLS discriminant analysis: combining the strengths of PLS‐DA and SIMCA classification. J Chemom, 2006, 20(8/10): 341–351.
[48] Worley B, Powers R. Multivariate analysis in metabolomics. Curr Metabolomics, 2013, 1(1): 92–107.
[49] Pinto RC, Trygg J, Gottfries J. Advantages of orthogonal inspection in chemometrics. J Chemom, 2012, 26(6): 231–235.
[50] Triba MN, Le Moyec L, Amathieu R, et al. PLS/OPLS models in metabolomics: the impact of permutation of dataset rows on the K-fold cross-validation quality parameters. Mol BioSyst, 2015, 11(1): 13–19.
[51] Jin X, Yun SJ, Jeong P, et al. Diagnosis of bladder cancer and prediction of survival by urinary metabolomics. Oncotarget, 2014, 5(6): 1635–1645.
[52] Thevenot EA, Roux A, Xu Y, et al. Analysis of the human adult urinary metabolome variations with age, body mass index, and gender by implementing a comprehensive workflow for univariate and OPLS statistical analyses. J Proteome Res, 2015, 14(8): 3322–3335.
[53] Saraswat M, Joenv??r? S, Sepp?nen H, et al. Comparative proteomic profiling of the serum differentiates pancreatic cancer from chronic pancreatitis. Cancer Med, 2017, 6(7): 1738–1751.
[54] Breitling R, Armengaud P, Amtmann A, et al. Rank products: a simple, yet powerful, new method to detect differentially regulated genes in replicated microarray experiments. FEBS Lett, 2004, 573(1/3): 83–92.
[55] Wang AG, An N, Chen GL, et al. Improving PLS–RFE based gene selection for microarray data classification. Comput Biol Med, 2015, 62: 14–24.
[56] Gromski PS, Muhamadali H, Ellis DI, et al. A tutorial review: metabolomics and partial least squares-discriminant analysis-a marriage of convenience or a shotgun wedding. Anal Chim Acta, 2015, 879: 10–23.
[57] Sampson DL, Parker TJ, Upton Z, et al. A comparison of methods for classifying clinical samples based on proteomics data: a case study for statistical and machine learning approaches. PLoS ONE, 2011, 6(9): e24973.
[58] Putin E, Mamoshina P, Aliper A, et al. Deep biomarkers of human aging: application of deep neural networks to biomarker development. Aging (Albany NY), 2016, 8(5): 1021–1033.
[59] Ge GT, Wong GW. Classification of premalignant pancreatic cancer mass-spectrometry data using decision tree ensembles. BMC Bioinformatics, 2008, 9: 275.
[60] He S, Chen HH, Zhu ZX, et al. Robust twin boosting for feature selection from high-dimensional omics data with label noise. Inf Sci (NY), 2015, 291: 1–18.
[61] Collobert R, Bengio S. SVMTorch: support vector machines for large-scale regression problems. J Mach Learn Res, 2001, 1(2): 143–160.
[62] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436–444.
[63] Vincent P, Larochelle H, Bengio Y, et al. Extracting and Composing Robust Features with Denoising Autoencoders//Proceedings of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008.
[64] Mamoshina P, Vieira A, Putin E, et al. Applications of deep learning in biomedicine. Mol Pharm, 2016, 13(5): 1445–1454.
[65] Mazzara S, Rossi RL, Grifantini R, et al. CombiROC: an interactive web tool for selecting accurate marker combinations of omics data. Sci Rep, 2017, 7: 45477.
[66] Kulasingam V, Diamandis EP. Strategies for discovering novel cancer biomarkers through utilization of emerging technologies. Nat Clin Pract Oncol, 2008, 5(10): 588–599.
[67] Cholongitas E, Papatheodoridis GV, Vangeli M, et al. Systematic review: the model for end-stage liver disease--should it replace Child-Pugh's classification for assessing prognosis in cirrhosis? Aliment Pharmacol Ther, 2005, 22(11/12): 1079–1089.
[68] D’Agostino RB Sr, Vasan RS, Pencina MJ, et al. General cardiovascular risk profile for use in primary care: the framingham heart study. Circulation, 2008, 117(6): 743–753.
[69] Fung ET. A recipe for proteomics diagnostic test development: the OVA1 test, from biomarker discovery to FDA clearance. Clin Chem, 2010, 56(2): 327–329.
[70] Cohen JD, Li L, Wang YX, et al. Detection and localization of surgically resectable cancers with a multi-analyte blood test. Science, 2018, 359(6378): 926–930.
[71] Sinha A, Huang V, Livingstone J, et al. The proteogenomic landscape of curable prostate cancer. Cancer Cell, 2019, 35(3): 414–427.e6.
Research progress of feature selection and machine learning methods for mass spectrometry-based protein biomarker discovery
Kaikun Xu1,2, Mingfei Han1,2, Chuanxi Huang1,3, Cheng Chang1,2, and Yunping Zhu1,2
1 Beijing Institute of Lifeomics, Beijing 102206, China 2 State Key Laboratory of Proteomics, Beijing Proteome Research Center, National Center for Protein Sciences (Beijing), Beijing 102206, China 3 College of Life Sciences, Hebei University, Baoding 071002, Hebei, China
With the development of mass spectrometry technologies and bioinformatics analysis algorithms, disease research-driven human proteome project (HPP) is advancing rapidly. Protein biomarkers play critical roles in clinical applications and the biomarker discovery strategies and methods have become one of research hotspots. Feature selection and machine learning methods have good effects on solving the "dimensionality" and "sparsity" problems of proteomics data, which have been widely used in the discovery of protein biomarkers. Here, we systematically review the strategy of protein biomarker discovery and the frequently-used machine learning methods. Also, the review illustrates the prospects and limitations of deep learning in this field. It is aimed at providing a valuable reference for corresponding researchers.
mass spectrometry, proteomics, biomarkers, machine learning, feature selection, deep learning
February 14, 2019;
May 5, 2019
National Natural Science Foundation of China (No. 21605159).
s:Cheng Chang. Tel: +86-10-61777053; E-mail: changchengbio@163.com
Yunping Zhu. Tel: +86-10-61777058; E-mail: zhuyunping@gmail.com
國家自然科學基金 (No. 21605159) 資助。
2019-05-13
http://kns.cnki.net/kcms/detail/11.1998.Q.20190509.1455.001.html
徐開琨, 韓明飛, 黃傳璽, 等. 基于質譜的蛋白質生物標志物發(fā)現(xiàn)中的特征選擇與機器學習方法研究進展. 生物工程學報, 2019, 35(9): 1619–1632.
Xu KK, Han MF, Huang CX, et al. Research progress of feature selection and machine learning methods for mass spectrometry-based protein biomarker discovery. Chin J Biotech, 2019, 35(9): 1619–1632.
(本文責編 郝麗芳)