高維組學數(shù)據(jù)的變量篩選方法及其應(yīng)用*

2016-12-26 05:38:40謝宏宇張曉鳳

中國衛(wèi)生統(tǒng)計 2016年3期

侯艷謝宏宇張曉鳳李康△

·方法介紹·

侯艷1，2謝宏宇1張曉鳳1李康1△

隨著生物檢測技術(shù)的不斷發(fā)展，實際中可以獲得基因組、蛋白質(zhì)組和代謝組等各種來源的高維組學數(shù)據(jù)，如何從海量數(shù)據(jù)中準確選擇與疾病有關(guān)的特征變量，從而構(gòu)建準確的預測模型一直是國內(nèi)外的研究熱點。變量篩選問題可歸結(jié)為從一組檢測數(shù)據(jù)Χ＝（Χ1，Χ2，…，Χm）中篩選出對分類/預測有區(qū)分作用的“最優(yōu)”子集Χsub。目前高維組學變量篩選方法主要有傳統(tǒng)的統(tǒng)計學方法和機器學習方法，前者主要分為參數(shù)和非參數(shù)方法兩類，這部分主要是基于概率分布的統(tǒng)計推斷；后者主要包括有監(jiān)督學習（supervised learning）和無監(jiān)督學習（unsupervised learning）算法，其主要差別為在訓練集中是否用到分組信息。本文主要針對常見的單變量篩選方法和多變量有監(jiān)督學習的變量篩選方法做一介紹。

過濾式變量篩選方法

過濾式變量篩選方法（filtermethods）是指通過觀察到的原始數(shù)據(jù)，計算變量與疾病之間的相關(guān)性指標（如t值，P值等），并通過設(shè)定閾值選擇特征變量，去除相關(guān)性較弱或組間差異不大的變量，從而直接得出與疾病具有一定關(guān)聯(lián)性的特征變量的一類方法。由于這類篩選方法獨立于判別模型（分類器），因此通過這類方法選擇出來的特征變量可以用于評價不同判別（預測）模型的效果。過濾式方法的優(yōu)點是計算簡單、能夠快速地降維，并且不依賴特定的判別模型；缺點主要是忽略了特征變量之間可能存在的相關(guān)關(guān)系，因此在與其他類型變量選擇方法相比較時，分類效果并不理想。同時變量篩選的結(jié)果很大程度上受到閾值影響，如何確定閾值也是需要考慮的問題之一［1］。

1.單變量過濾方法

單變量過濾方法由于其計算簡單直接，而成為目前較為常用的一類變量篩選方法。常用的單變量過濾式篩選方法包括Satterthwaite近似t檢驗、Wilcoxon秩和檢驗、ROC曲線下面積、置換檢驗（permutation test）、互信息（mutual information）、welch t檢驗、χ2檢驗、SAM（significance analysis of microarrays）、SAMROC（significance analysis of ROC indices）等［2］，其中χ2檢驗主要用于結(jié)構(gòu)基因組的 SNP分析［3］，SAM和SAMROC方法主要用于基因表達數(shù)據(jù)分析［4］，其他方法則可以應(yīng)用于各種組學數(shù)據(jù)的特征變量篩選。

圖1 過濾式變量篩選方法過程

SAM法的基本原理是在傳統(tǒng)t檢驗公式的分母中加上一個較小的正數(shù)s0（取值通過樣本數(shù)據(jù)計算），從而避免將表達水平和變異程度均較低的無生物學意義的基因識別為差異表達基因［5］。SAMROC方法則是按照另一種原則計算SAM法中的修正參數(shù)s0，其基本思想是選擇一個合適的s0，使篩選出的“差異基因”能夠保證具有最小的假陽性率和假陰性率［6］。置換檢驗則是通過不斷打亂分類標簽，形成原假設(shè)的分布，在此基礎(chǔ)上進行檢驗。以上方法均首先需要對變量的重要性排序，在此基礎(chǔ)上通過選擇合適的閾值給出篩選的結(jié)果。實際上，閾值的選擇主要根據(jù)檢驗的P值確定，例如Bonferroni校正P值或FDR（false discovery rate）。在高維組學數(shù)據(jù)中，Bonferroni校正 P值的方法篩選變量過于嚴格，因此更多使用的是FDR校正后的P值，其代表該變量為假陽性的概率估計值。需要注意的是，使用FDR校正后的P值需要基于變量間獨立的假設(shè)，而實際數(shù)據(jù)常常并不能滿足這一條件，因此得到的P值是一個“近似值”［7］。

2.多變量過濾方法

由于單變量過濾方法假定變量間相互獨立，并沒有考慮到變量之間的相互關(guān)系，因此提出了多變量過濾方法，意在去除信息重疊的自變量以及篩選具有簡單交互作用的變量。

（1）基于關(guān)聯(lián)的特征選擇方法

基于關(guān)聯(lián)的特征選擇方法（correlation-based feature selection，CFS）是一種基于相關(guān)性實現(xiàn)變量篩選的方法，主要思想是通過計算各子集中每個變量與類別的關(guān)聯(lián)度及變量之間的冗余度來實現(xiàn)最終變量的篩選過程，其中關(guān)聯(lián)度越大、冗余度越小則效果越高［8］。在CFS算法中，利用信息增量計算變量之間的關(guān)聯(lián)大小，根據(jù)基于相關(guān)性的啟發(fā)式評價函數(shù)max｛H（Rij）｝選擇變量組合，其中Rij為所有變量的關(guān)聯(lián)矩陣。評價函數(shù)的特點是自變量與因變量高度相關(guān)，而自變量之間盡量不相關(guān)。

（2）基于馬爾科夫毯的特征變量篩選方法

馬爾科夫毯（Markov blanket）是指在一個網(wǎng)絡(luò)中，目標結(jié)點的父結(jié)點、子結(jié)點和配偶結(jié)點。實際中可以把標簽變量作為目標結(jié)點，通過尋找其馬爾科夫毯屏蔽網(wǎng)絡(luò)中其他變量對該變量的影響，即選擇與標簽變量具有直接關(guān)系的變量［9］。貝葉斯網(wǎng)絡(luò)，給定了目標變量的馬爾科夫毯，就可以求出該變量的條件概率分布，網(wǎng)絡(luò)中的其他變量就可以看作是冗余的，因此尋找目標變量的馬爾科夫毯實質(zhì)就是變量篩選的過程。目前常用的基于馬爾科夫毯的變量篩選方法，主要包括基于回歸分析的馬爾科夫毯學習算法和基于貝葉斯網(wǎng)絡(luò)的馬爾科夫毯學習算法［10－11］。

（3）Boost方法

這是專門用于GWAS數(shù)據(jù)分析兩變量交互作用的一種方法，其基本思想是通過使用兩個對數(shù)線性模型，即含交互作用項的飽和模型與不含交互作用項的關(guān)聯(lián)模型似然值之差，得到兩個位點的交互作用［12］。這種算法的核心是使用了一種被稱為KSA的算法，可以替代極大似然估計來計算兩變量不同水平組合概率的估計值。由于KSA不需要迭代過程，從而能夠在短時間內(nèi)快速窮舉所有的SNP交互組合。但是使用這種方法只能篩選具有一階交互作用的變量，并且只適合離散變量交互作用的篩選。

除上述方法外，還有最小冗余-最大相關(guān)（minimum redundancy-maximum relevance，MRMR）［13－14］和不相關(guān)縮減重心（uncorrelated shrunken centroid，USC）算法［15］等其他方法。

封裝式特征篩選方法

封裝法（wrappermethod）是從所有變量組合中盡量選擇“最優(yōu)”變量組合，它將變量的選擇看作是一個搜索尋優(yōu)的問題，即根據(jù)一定的算法和目標函數(shù)給出“最優(yōu)”的變量組合［16］。封裝法與過濾法變量選擇的不同在于變量選擇過程中是否引入了分類模型和算法。通常其評價函數(shù)以優(yōu)化分類準確性為目的（圖2）。因此，這種方法實際就是把分類或預測與變量篩選封裝到一起，每次評價一個變量組合。封裝式方法的優(yōu)點主要表現(xiàn)在將變量組合的搜尋與分類模型的選擇結(jié)合在一起，既考慮到了模型內(nèi)變量間的相關(guān)關(guān)系，同時又不受模型外部無關(guān)變量的影響。封裝法選擇“最優(yōu)”變量組合通常采用的策略是啟發(fā)式搜索，即利用啟發(fā)函數(shù)隨時調(diào)整搜索的先后順序，具體包括確定性和隨機性兩種搜索策略。這種方法的缺點表現(xiàn)在與過濾式方法相比有更高的過擬合風險，由于需要不斷迭代搜索使計算量明顯增大［17］。

圖2 基于封裝式的變量篩選過程

1.確定性搜索算法

確定性搜索算法是指在確定的初始狀態(tài)下，利用一定的規(guī)則使問題得到全局或者局部最優(yōu)解，其中主要有全局最優(yōu)搜索和序列搜索兩種算法，這種方法的特點是得到的結(jié)果完全確定。由于全局最優(yōu)搜索算法需要在2m－1（m為變量的數(shù)目）種組合中尋優(yōu)，極為耗時，因此實際中使用最多的是序列搜索方法，即按照一種規(guī)則，不斷將問題簡化為一個規(guī)模更小的類似子集問題，直接達到最終狀態(tài)。

（1）序列前進選擇法

序列前進篩選法（sequential forward selection，SFS）是將變量逐步加入模型。初始狀態(tài)可以是單變量分析中最顯著的變量，每次都計算評價函數(shù)以決定是否加入一個新的變量。例如可以使用模型前后兩次的預測效果變化作為評價函數(shù)，預測能力的計算可以使用交叉驗證的方法進行評價。這種方法的主要缺點是對于進入模型變量的評價未充分考慮變量的組合作用［18］。

（2）序列后退剔除法

序列后退剔除法（sequential selection elimination，SSE）可以克服序列前進方法的缺點。這種方法的初始狀態(tài)是納入全部變量，每次計算評價函數(shù)決定是否剔除模型中的一個變量。相比之下，這種方法能夠更充分考慮變量間的組合作用，因此更為合理，也是目前使用比較多的一種方法。這種方法的主要問題是，在高維數(shù)據(jù)情況下，計算量比較大，例如有2萬個變量，需要擬合約2萬個模型，如采用5折交叉驗證，則需要擬合10萬個模型。

（3）序列浮動選擇法

序列浮動選擇法（sequential floating selection）與前面兩種方法不同的是，在計算過程中變量并非逐個進入或者剔除，而是以變量的子集形式進入模型，在選擇方法方面可以采用前進和后退兩種方式。例如可以通過對變量先行排序，然后使用0.618黃金分割比例的方法，選擇一定數(shù)量的變量組合擬合模型，并與之前的模型進行比較，通過比較決定下一步分割的方向，在這個過程中，退出和進入模型的變量數(shù)目可以不斷變化［19］。

需要注意:三種序列選擇方法都屬于貪心算法，即在對問題求解時，做出在當前看來是最好的選擇，導致篩選出的變量可能是局部最優(yōu)。

2.隨機性搜索算法

隨機算法是利用概率機制而非確定性的點描述迭代過程。隨機性封裝算法的優(yōu)點是可以避免局部最優(yōu)，可與分類器結(jié)合進行篩選；缺點是計算量大，變量選擇依賴于分類器，與確定性學習算法相比具有更高的過擬合風險。目前，隨機性搜索方法主要有模擬退火算法（simulated annealing）［20］、遺傳算法（genetic algorithm）［21－22］和免疫遺傳算法（immune genetic algorithm，IGA）［23］等。

（1）模擬退火算法

模擬退火算法是基于蒙特卡洛（Monte-Carlo）迭代求解的一種隨機尋優(yōu)算法，其出發(fā)點是基于物理中固體物質(zhì)的退火過程與一般組合優(yōu)化問題之間的相似性，即從某一較高初溫（粒子無序狀態(tài)）出發(fā)，隨溫度參數(shù)的不斷下降，結(jié)合粒子趨于平衡的變化概率，隨機尋找目標函數(shù)的全局最優(yōu)解。這種算法的本質(zhì)是在貪心搜索算法的基礎(chǔ)上引入隨機因素，即以一定的概率來接受一個比當前解要好的解，因此可以有效地避免局部的最優(yōu)解。這種方法的主要問題是溫度管理（計算過程）參數(shù)難以控制。

（2）遺傳算法

遺傳算法（GA）是一種模擬生物的進化過程而提出的啟發(fā)式搜索方法，即通過模擬生物界“適者生存”的遺傳進化策略，不斷對染色體上的基因（變量）進行篩選和重組，實現(xiàn)對高維數(shù)據(jù)進行“最優(yōu)”變量組合的搜索。遺傳算法的特點是采用簡單編碼技術(shù)表示復雜結(jié)構(gòu)，并通對編碼的遺傳操作（復制、交叉和變異）產(chǎn)生備選的變量組合解，通過優(yōu)勝劣汰的選擇機制進行導向性搜索。遺傳算法的主要優(yōu)點:能夠回避局部解的問題，對變量的數(shù)目無限制，可以在大范圍內(nèi)進行搜索；主要問題表現(xiàn)為GA存在模式收斂性質(zhì)，由于局部強勢的染色體（變量組合）不斷復制，難以維持模式的多樣性，容易出現(xiàn)“早熟”或者“退化”的現(xiàn)象，影響變量篩選的優(yōu)化結(jié)果。

（3）免疫遺傳算法

免疫遺傳算法是將免疫算法和遺傳算法的優(yōu)點結(jié)合起來的優(yōu)化算法。為了使遺傳算法在染色體（變量組合）多樣化和群體收斂之間取得平衡，并克服遺傳算法的缺點，在遺傳算法中加入了免疫的思想，即在遺傳算法中加入免疫算子，使遺傳算法變成具有免疫功能的新算法。免疫算子在實現(xiàn)快速優(yōu)化的同時，通過不斷調(diào)節(jié)抗體（備選的變量組合）濃度維持多種抗體的并存（變量組合的多樣性），從而能夠根據(jù)抗原（需要解決的問題）給出“最優(yōu)”的變量組合結(jié)果?？贵w濃度需要根據(jù)抗原-抗體、抗體-抗體的親和力計算，抗原-抗體親和力評價實際就是目標函數(shù)值，抗體-抗體的親和力評價為抗體之間的相似度。這種算法的主要任務(wù)是設(shè)定特定的增強群體多樣性的免疫算子與遺傳算法相結(jié)合，避免出現(xiàn)“早熟”或者“退化”的現(xiàn)象。基于抗體濃度的群體更新、保持模式多樣性是免疫算法的重要任務(wù)，也是這種算法的重要特征。另外，這種方法更適合多目標的變量篩選。

嵌入式變量篩選方法

嵌入式變量篩選方法（embedded method）是針對特定的模型和算法，篩選出對模型有重要意義的變量組合，即在建立模型的同時，可以給出各變量重要性的得分值，從而用于分類或預測［17］（圖3）。這種方法可以通過結(jié)合不同分類算法來改善整體預測準確性，主要有偏最小二乘回歸（partial least squares regression，PLSR）［24］、支持向量機（support vector machine，SVM）［25］、隨機森林（random forest，RF）［26］和懲罰回歸（penalized regression）［27］等方法。嵌入式變量篩選方法的特點是，變量篩選通常只需要擬合一個模型，與封裝式變量篩選相比需要的計算量更小。

圖3 基于嵌入式的變量篩選方法過程

1.偏最小二乘回歸

偏最小二乘回歸（PLSR）是一種將主成分分析和回歸分析結(jié)合在一起的方法［24］。這種方法與主成分回歸十分相似，即在自變量信息不變的條件下對其進行主成分提取，但需要同時保證主成分提取時自變量的主成分與因變量之間的相關(guān)性最大化，在此基礎(chǔ)上間接擬合自變量與因變量數(shù)據(jù)之間的線性關(guān)系:

這里，E（Y）表示因變量Y的期望值，Zk為選定的PLS主成分，m為變量的個數(shù)，p（p＝1，2，…，m）為所取的PLS成分數(shù)，為可視化通常取p≤3。變量篩選的依據(jù)是計算各變量的投影重要性評分統(tǒng)計量:

其中SSk為第k個PLS主成分的平方和，wkj為自變量Xj（j＝1，2，…，m）在第 k個主成分上載荷系數(shù)，說明該自變量在第k個PLS成分中對因變量Y的影響，Y∈｛－1，1｝，wk＝（wk1，wk2，…，wkm）。

上式中的VIPj反映了某個自變量對于因變量和整個模型的貢獻大小。Wold建議，如果VIPj＞0.8則認為變量的貢獻較大，實際中通常取VIPj≥1作為選擇變量的閾值。這一指標的主要缺點是其值大小是相對的，只能說明哪些自變量的作用更大一些，因此也有學者建議同時考慮回歸系數(shù)估計值和VIP值大小來進行變量篩選。

需要注意:PLSR方法同樣可以用作過濾式和封裝式變量篩選。究竟屬于哪種方法，關(guān)鍵是看其是否最后要用PLSR作為分類模型和是否具有迭代過程，如果主要目的僅是作為變量初篩選，則屬于過濾法；如果在變量組合尋優(yōu)的過程中使用PLSR模型作為分類評價的標準，則屬于封裝式變量篩選方法。

2.支持向量機

支持向量機（SVM）是一種非常有效的分類模型或機器學習方法［25］。這種方法首先構(gòu)造一個線性判別函數(shù) g（X）:

其中，X＝（X1，X2，…，Xm），φ（X）＝｛φ1（X），φ2（X），…，φd（X）｝T表示采用線性或非線性變換的方法將X映射到另一特征空間（通常d＞m），wj是需要估計的權(quán)重系數(shù)，W＝（w1，w2，…，wd）T，b0是與判別閾值有關(guān)的一個常量。對于每個樣品 Xi（i＝1，2，…，n）都屬于兩類中的一類，相應(yīng)的標記為yi＝±1。

為了能夠?qū)嶋H應(yīng)用，在新的特征空間φ（X）中尋找能將類別很好分開的兩個平行的標準超平面，并使其間隔最大，落在標準超平面上的數(shù)據(jù)點稱作支持向量，此時，式中 SV是所有的支持向量，αj是滿足一定條件并且符號為正的系數(shù)。將樣品數(shù)據(jù)代入下式，根據(jù)得出的符號即可完成對樣品的分類:

其中K（Xj，X）為核函數(shù)。由此看到，這里將變換后空間向量的內(nèi)積表示為原始變量空間對應(yīng)向量的內(nèi)積函數(shù)，即不需要明確知道φ的具體形式，而是通過計算核函數(shù)K（Xj，X）的值來計算內(nèi)積。SVM篩選變量的思想是，在選擇線性核函數(shù)情況下，根據(jù)SVM的權(quán)重向量確定各變量對于判別模型的重要程度。

需要注意的是，在高維情況下直接使用SVM嵌入式變量篩選方法，很難獲得理想的結(jié)果，通常需要結(jié)合封裝式算法。例如目前使用比較多的SVM-RFE使用的就是序列后退剔除法。

3.隨機森林

隨機森林（random forest，RF）是一種基于分類樹算法的組合分類模型［26］。RF的基本思想是，通過自助法（bootstrap）重抽樣技術(shù)從原始數(shù)據(jù)中有放回地隨機抽取Ntree個自助樣本，對每個樣本都建立一個二元遞歸分類樹。按照這種做法，每個自助樣本平均不包含37%的原始數(shù)據(jù)，將這些數(shù)據(jù)稱為袋外數(shù)據(jù)（OOB數(shù)據(jù)），并作為RF的測試樣本；最后，由訓練樣本生成b個分類樹組成隨機森林，根據(jù)分類樹投票形成的分數(shù)確定測試數(shù)據(jù)的分類結(jié)果。RF具有很高的預測準確率，對異常值和噪聲有很強的容忍度，能夠處理高維數(shù)據(jù)（變量個數(shù)遠大于觀測個數(shù)），有效地分析非線性和交互作用的數(shù)據(jù)，并能夠在建立RF模型的同時給出變量重要性評分（variable importance measures，VIM）。變量的篩選可以依據(jù)不同的統(tǒng)計量和篩選過程，各變量 Xj（j＝1，2，…，m）VIMj值的計算方法有多種，但都是通過比較原始變量值和隨機打亂變量值后對RF預測的影響進行估計，兩者差別越大說明該變量越重要，VIMj值越大。

4.bagging方法

bagging是英文 bootstrap aggregating的縮寫，該學習算法可以進行多輪預測，每輪的訓練集由從初始的樣本中重復抽取一定數(shù)量的訓練樣本，從而得到對應(yīng)的預測函數(shù)，最終的預測函數(shù)為多輪預測函數(shù)分類結(jié)果的綜合投票或計算平均值進行排序，從而確定特征變量的重要性。例如變量捕獲（variable hunting）方法使用的就是bagging策略，其基本思想是利用重抽樣方法不斷抽取一定比例的樣本，同時在所有變量中抽取一定數(shù)量的變量進行建模，然后利用檢驗統(tǒng)計量的概率分布確定閾值，在此基礎(chǔ)上進行變量篩選。上述過程重復多次，計算平均篩選變量的個數(shù)，再根據(jù)各變量被篩選出來的頻率進行排序，選擇排列在前面的變量作為最終篩選出的重要變量。改變篩選變量過程的不同參數(shù)，可以獲得不同數(shù)量的“差異變量”。這里，用于篩選變量的預測模型可以使用任何一種基礎(chǔ)分類模型（如PLSR、SVM和RF等）。理論上，這種方法可以應(yīng)用于任意高維變量的組學數(shù)據(jù)中，篩選變量的穩(wěn)定性非常好，而且使用其篩選出的變量進行預測效果較優(yōu)，拓寬了各種分類模型的應(yīng)用范圍［27］。

5.boosting方法

boosting方法是一種基于一系列弱基礎(chǔ)分類器的組合分類模型，這種方法需要不斷在內(nèi)部進行迭代，在訓練開始時先為每一個樣品賦予一個相等的權(quán)值，接下來進行N次迭代訓練。每次訓練中，根據(jù)每個樣品現(xiàn)有的權(quán)重，尋找一個最優(yōu)分類模型，如果此分類模型導致樣品被錯分，則根據(jù)錯分的情況重新計算樣品的權(quán)重，即在下次迭代中為其賦予更大的權(quán)重值。N次訓練結(jié)束，每個單獨的分類模型亦根據(jù)其對樣本的預測效果，賦予不同權(quán)重，預測效果越好，給予的權(quán)重越大，最后將所有分類模型組合在一起。因此，這種算法使用的是一系列反映數(shù)據(jù)不同方面的加權(quán)分類模型，最終產(chǎn)生一個分類準確度更高的組合分類模型。變量篩選則可以通過對單個基礎(chǔ)分類模型中變量重要性得分進行平均實現(xiàn)。理論上，這種方法能夠獲得最優(yōu)的變量篩選和預測結(jié)果。

6.正則化回歸方法

正則化（regularization）是指對最小化經(jīng)驗誤差函數(shù)加約束，即對其附加先驗知識。典型的兩種正則化回歸是嶺回歸（ridge regression）和 lasso回歸［28］。兩種方法都是針對多元線性模型的問題提出的，嶺回歸是在最小化殘差平方和上加一個正則化的L2范數(shù)項λ‖β收縮懲罰項，即對如下?lián)p失函數(shù)極小化:

通過使殘差平方和最小化的原則，求出各變量的回歸系數(shù)。使用嶺回歸主要解決自變量的共線問題。lasso回歸則對回歸系數(shù)進行了L1懲罰，即加入L1范數(shù)項

lasso回歸主要解決變量篩選問題，通過調(diào)整正則化參數(shù)λ，能夠自動將與分類無關(guān)變量的回歸系數(shù)置接近于0，實現(xiàn)變量的自動篩選。

從統(tǒng)計學角度，使用L2范數(shù)不僅可以避免共線以及在變量數(shù)目大于樣本量時出現(xiàn)病態(tài)矩陣求逆的問題，同時能夠避免模型過擬合、防止算法陷入局部最小化，提高模型的外部預測能力。使用L1范數(shù)的好處是可以自動實現(xiàn)變量選擇，同時保證模型具有可解釋性。正因如此，目前已根據(jù)這一原理提出了使用L1＋L2懲罰建立的各種算法，如彈性網(wǎng)算法、分組lasso算法、稀疏分組lasso算法等，以適應(yīng)更復雜的多組學高維數(shù)據(jù)分析。同理，上述原理也適用于logistic模型、偏最小二乘回歸（PLSR）和支持向量機（SVM）等模型。

總結(jié)和展望

本文對目前高維組學變量篩選的方法做了簡單的描述和評述?；谧兞窟x擇的方式可以分成三類:過濾式方法、封裝式方法和嵌入式方法。過濾式方法是簡單地根據(jù)重要性原則將變量排序，同時按照閾值來選擇特征變量。過濾式方法的主要缺點:為了選擇變量子集需要設(shè)定閾值，因此變量篩選依賴閾值，并且沒有適合的交叉驗證調(diào)整方法，很難得出較為可靠的結(jié)果。使用交叉驗證方法能夠快速選擇閾值，將過濾式方法轉(zhuǎn)變?yōu)榉庋b式方法，這種方法將變量選擇封裝在模型中；為了提高模型的解釋性，篩選有意義的變量，這些方法需要反復對模型的預測準確性進行評價。封裝式方法的主要問題是計算量大，并且需要調(diào)整大量復雜的參數(shù)。嵌入式方法以一種很好的結(jié)構(gòu)形式進行變量篩選，將變量篩選與建模整合在一起。然而，很多的嵌入式方法通過內(nèi)部交叉驗證選擇變量，這不可避免地在一定程度上減慢了計算的速度。

目前，很多研究者試圖比較各種變量選擇方法，通常是為了表明新的方法性能的提高，并未對大范圍的數(shù)據(jù)集進行客觀的比較，給出最終的參考意見。因為方法和數(shù)據(jù)性質(zhì)之間存在相互作用，在實際中，并沒有一種適合所有數(shù)據(jù)的最優(yōu)變量選擇方法。通過本文的綜述，希望讀者更好地了解文獻中報道方法之間的相似性和不同，能夠根據(jù)實際需要進行選擇。

本文觀點，有三種方法特別值得關(guān)注，即bagging、boosting和正則化方法。前兩種方法屬于組合分類器方法，主要是算法問題。bagging方法的特點是對數(shù)據(jù)的維數(shù)完全沒有限制（如m＞300000），篩選變量的結(jié)果較其他方法更為穩(wěn)定；boosting方法在針對生物異質(zhì)性和亞組分析時，更顯現(xiàn)出其作用。正則化方法則在理論上相對更為完善，使用靈活，根據(jù)研究目的通過調(diào)整懲罰項和正則參數(shù)選擇合適的變量，其最大的特點是對變量的維數(shù)沒有限制，模型結(jié)構(gòu)性強、具有可解釋性。更深入地，上述三種方法結(jié)合調(diào)控網(wǎng)絡(luò)與生物實質(zhì)問題相融合，有待進一步發(fā)展。

［1］Hira ZM，Gillies DF.A Review of Feature Selection and Feature Extraction Methods Applied on M icroarray Data.Advances in bioinformatics，2015，2015:198363.

［2］Saeys Y，Inza I，Larranaga P.A review of feature selection techniques in bioinformatics.Bioinformatics，2007，23（19）:2507-2517.

［3］Bo TH，Jonassen I.New feature subset selection procedures for classification of expression profiles.Genome Biol，2002，3（4）:RESEARCH0017.

［4］Liu XX，Krishnan A，Mondry A.An Entropy-based gene selection method for cancer classification usingm icroarray data.BMC bioinformatics，2005；6:76.

［5］Tusher VG，TibshiraniR，Chu G.Significance analysis ofm icroarrays applied to the ionizing radiation response.Proceedings of the National Academy of Sciences of the United States of America，2001，98（9）:5116-5121.

［6］Tsai CA，Chen JJ.Significance analysis of ROC indices for comparing diagnosticmarkers:applications to genemicroarray data.Journal of biopharmaceutical statistics，2004，14（4）:985-1003.

［7］Hong WJ，Tibshirani R，Chu G.Local false discovery rate facilitates comparison of different m icroarray experiments.Nucleic acids research，2009，37（22）:7483-7497.

［8］Ooi CH，Chetty M，Teng SW.Differential prioritization between relevance and redundancy in correlation-based feature selection techniques for multiclass gene expression data.BMC bioinformatics，2006，7:320.

［9］Tan Y，Liu ZF.Feature selection and prediction with a Markov blanketstructure learning algorithm.BMC bioinformatics，2013，14（Suppl 17）:A3

［10］Borchani H，Bielza C，Martinez-Martin P，et al.Markov blanketbased approach for learningmulti-dimensional Bayesian network classifiers:An application to predict the European Quality of Life-5 Dimensions（EQ-5D）from the 39-item Parkinson′s Disease Questionnaire（PDQ-39）.Journal of biomedical informatics，2012，45（6）:1175-1184.

［11］Bui AT，Jun CH.Learning Bayesian network structure using Markov blanket decomposition.Pattern Recogn Lett，2012，33（16）:2134-2140.

［12］Xu M，Zhang AD.Boost feature subset selection:A new gene selection algorithm for m icroarray dataset.Lect Notes Comput Sc，2006，3992:670-677.

［13］Sakar CO，Kursun O，Gurgen F.A feature selection method based on kernel canonical correlation analysis and the m inimum Redundancy-Maximum Relevance filtermethod.Expert Syst Appl，2012，39:3432-3427.

［14］Peng HC，Ding C，Long FH.M inimum redundancy-Maximum relevance feature selection.Ieee Intell Syst，2005，20:70-71.

［15］Christin C，Hoefsloot HC，Sm ilde AK，et al.A critical assessment of feature selection methods for biomarker discovery in clinical proteom ics.Molecular＆cellular proteom ics:MCP，2013，12（1）:263-276.

［16］Liu B，Cui Q，Jiang T，et al.A combinational feature selection and ensemble neural networkmethod for classification of gene expression data.BMC bioinformatics，2004，5:136.

［17］Semmar N，Canlet C，Delplanque B，et al.Review and research on feature selectionmethods from NMR data in biological fluids.Presentation of an originalensemblemethod applied to atherosclerosis field.Current drug metabolism，2014，15（5）:544-556.

［18］Hatamikia S，Maghooli K，Nasrabadi AM.The emotion recognition system based on autoregressive model and sequential forward feature selection of electroencephalogram signals.Journal of medical signals and sensors，2014，4（3）:194-201.

［19］Reneker J，Shyu CR.Applying sequential forward floating selection to protein structure prediction with a study of HIV-1 PR.AM IA Annual Symposium proceedings/AM IA Symposium AM IA Symposium，2006:1072.

［20］Ghosh P，Bagchi MC.QSAR modeling for quinoxaline derivatives using genetic algorithm and simulated annealing based feature selection.Current medicinal chem istry，2009，16（3）:4032-4048.

［21］Cho HW，Kim SB，Jeong MK，et al.Genetic algorithm-based feature selection in high-resolution NMR spectra.Expert Syst Appl，2008，35（3）:967-975.

［22］Sahiner B，Chan HP，WeiD，etal.Image feature selection by a genetic algorithm:application to classification of mass and normal breast tissue.Medical physics，1996，23（10）:1671-1684.

［23］Luo JW，Wang T.Motif discovery using an immune genetic algorithm.Journal of theoretical biology，2010，64（2）:319-325.

［24］Lee D，Lee Y，Paw itan Y，etal.Sparse partial least-squares regression for high-throughput survival data analysis.Statistics in medicine，2013，32（30）:5340-5352.

［25］Jiang Z，Yamauchi K，Yoshioka K，et al.Support vector machinebased feature selection for classification of liver fibrosis grade in chronic hepatitis C.Journal of medical systems，2006，30（5）:389-394.

［26］Saraswat M，Arya KV.Feature selection and classification of leukocytes using random forest.Medical＆biological engineering＆computing，2014，52（12）:1041-1052.

［27］Dettling M.Bag Boosting for tumor classification with gene expression data.Bioinformatics，2004，20（18）:3583-93.

［28］Breheny P，Huang J.Coordinate Descent Algorithms for Nonconvex Penalized Regression，with Applications To Biological Feature Selection.The annals of applied statistics，2011，5（1）:232-253.

國家自然科學基金資助（81573256，81473072），中國博士后基金面上項目（2015M 571445）

1.哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室（150081）

2.心血管醫(yī)學研究教育部重點實驗室（哈爾濱醫(yī)科大學）

△通信作者:李康，E-mail:likang@ems.hrbmu.edu.cn

（責任編輯:郭海強）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高維組學數(shù)據(jù)的變量篩選方法及其應(yīng)用*

過濾式變量篩選方法

1.單變量過濾方法

2.多變量過濾方法

封裝式特征篩選方法

1.確定性搜索算法

2.隨機性搜索算法

嵌入式變量篩選方法

1.偏最小二乘回歸

2.支持向量機

3.隨機森林

4.bagging方法

5.boosting方法

6.正則化回歸方法

總結(jié)和展望