伍亞舟 綜述,易 東 審校
(第三軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室,重慶 400038)
基因芯片能為基因組學研究提供海量的基因表達譜數(shù)據(jù),這些數(shù)據(jù)反映了基因在不同組織細胞的不同生長發(fā)育階段或不同生理狀態(tài)下表達水平的變化[1-2]。但是,由于基因表達譜的海量性、復雜性、噪聲性和高維性特點,特別是缺失數(shù)據(jù)值的大量存在[3-5],給后續(xù)的數(shù)據(jù)分析帶來了較大困難,也產生了一些問題:觀察到的數(shù)據(jù)與缺失數(shù)據(jù)間的差異所產生的偏倚,嚴重影響后續(xù)分析結果的客觀性和正確性,從而導致后續(xù)分析質量的可靠性和穩(wěn)健性降低,使得整個分析效率降低;另外,由于缺失數(shù)據(jù)的存在,經常得出難以解釋的結果。因此,如何根據(jù)基因表達譜數(shù)據(jù)信息的特性進行有效的缺失值估計與填補是生物數(shù)據(jù)分析中重難點,并對后續(xù)基因表達譜的不同分析目的(如差異表達基因篩選、基因功能聚類、腫瘤組織分類)將產生重要的生物學影響[6-9]。本文針對基因表達譜缺失數(shù)據(jù)的特性,就當前國內外基因表達譜缺失數(shù)據(jù)的處理方法進行簡要概述,在分析其各自優(yōu)缺點基礎上,提出并探討一種新的填補估計方法。
微陣列數(shù)據(jù)通常以大規(guī)模矩陣的形式存在,該矩陣表示某個基因在不同試驗條件(列)下的基因表達水平(行),但在實際情況中,實驗獲得的數(shù)據(jù)陣列通常是不完整的,即含有缺失值。缺失數(shù)據(jù)產生原因有多種,包括:不充分的實驗方案,圖像損壞,芯片上的灰塵或劃痕等;另外,用來制造芯片的機械也可能系統(tǒng)地產生缺失數(shù)據(jù)。
事實上,基因表達譜缺失數(shù)據(jù)的缺失產生機制(完全隨機缺失、隨機缺失和非隨機缺失)、缺失模式(單調缺失和任意缺失)、數(shù)據(jù)集序列類型(時間序列型、非時間序列型和混合序列型)、缺失率大小等特性,以及后續(xù)不同分析目的及其填補分析方法的要求,都會對缺失值填補與估計的準度產生較大影響。
缺失數(shù)據(jù)的估計與填補是在不增加實驗次數(shù)情況下降低缺失數(shù)據(jù)對后續(xù)分析影響的有效方法。近年國內外學者在缺失數(shù)據(jù)的估計方面進行了有益的探索:(1)將存在缺失數(shù)據(jù)的行(基因)或實驗條件(列)簡單地從矩陣中剔除,以得到一個完備的數(shù)據(jù)集,稱之為列表式刪除;(2)直接在缺失數(shù)據(jù)集上進行數(shù)據(jù)挖掘,或利用一個特定的缺省值來填補;(3)利用統(tǒng)計學方法進行填補估計[3-5,9-16]:行均值,K近鄰法(KNN),奇異值分解(SVD),貝葉斯PCA(BPCA),高斯混合聚類(GMC),最小二乘(LLS),支持向量回歸,加權回歸估計,極大似然估計(MLE),多重填補(MI)等。
2.1 常用填補估計方法
2.1.1 行均值法 實驗表明,具有相似功能的基因在相同的微陣列雜交實驗中會產生相似的表達模式。因此,依實驗序列,同類中的基因表達模式極為相似,某個基因在某些條件下的缺失值,用缺失數(shù)據(jù)所在行的其他條件下的數(shù)據(jù)的平均值進行填補估計,即為行均值法。該方法簡單易行,但并沒有考慮數(shù)據(jù)間的關聯(lián)性,其估計的準確度大大受影響。
2.1.2 K鄰近法 K近鄰法基本思路:首先計算每一個含有缺失值的基因和所有其他基因的歐式距離;在計算過程中,如果在同一個實驗條件下兩個基因有一個具有缺失值,則這個實驗條件就不參與歐式距離的計算;再根據(jù)所計算得到的具有缺失值的基因和其他基因的歐式距離,選取和它最近的K個基因,Brettingham-Moore等[1]分析發(fā)現(xiàn) K選取10~20比較合理。通過如下公式計算得到待補的缺失值:
Di表示基因G與第i個近鄰基因的歐式距離,Wi表示為第i個近鄰基因的權重,Gi表示第i個近鄰基因的表達值。G通過KNN法計算得到的填補的缺失數(shù)據(jù)值。
2.1.3 馬氏距離法 馬氏距離方法是在KNN法基礎上,通過基因之間的馬氏距離來選擇最近鄰居基因,并將已得到的估計值應用到后續(xù)的估計過程中,然后采用信息論中熵值的概念計算最近鄰居的加權系數(shù),其相應位置的加權平均值即為缺失數(shù)據(jù)的估計值。該方法不僅考慮了觀測變量之間的相關性,而且也考慮到了各個觀測指標取值的差異程度,能更好地描述基因之間的相似程度。
2.1.4 隨機回歸填補法 隨機回歸填補是由單元的缺失項對觀測項的回歸,用預測值代替缺失值。通常由觀測變量及缺失變量都有觀測的單元進行回歸計算。填補中還可以給填補值增加一個隨機成分。它是用回歸填補值加上一個隨機項,預測出一個缺失值的替代值,該隨機項反映所預測的值的不確定性影響。該方法能夠較好的利用數(shù)據(jù)提供的信息,解決因預測變量高度相關引起的共線性問題。
2.1.5 極大似然估計法 極大似然估計法是在總體分布類型已知情況下的一種參數(shù)估計方法。在模型假定正確的情況下,若缺失機制為隨機缺失,通過已觀測數(shù)據(jù)的邊際分布可以對未知參數(shù)進行極大似然估計,得到未知參數(shù)的準確估計值。該方法需要有足夠大的樣本保證得到似然估計值是無偏的;另外,似然函數(shù)是基于完整數(shù)據(jù)某個假定的參數(shù)模型。實際應用中,如果模型假定錯誤,基于似然法的估計可能穩(wěn)定也可能不穩(wěn)定。
2.1.6 多重填補法 多重填補法由Stekhoven等[17]首先提出,該方法已被越來越多地應用于生物醫(yī)學、統(tǒng)計學和機器學習等領域[18-20]。與單一填補(SI)的不同之處在于,MI方法對每一個缺失值用某一可能值的集合進行填補,重復p次,故叫多重填補,從而產生若干個完整數(shù)據(jù)集;然后,用針對完整數(shù)據(jù)集的統(tǒng)計方法對每一個填補數(shù)據(jù)集分別進行統(tǒng)計分析,把得到的結果進行綜合,進而產生最終的統(tǒng)計推斷。
MI方法的推斷原理及主要步驟:首先,采用適當?shù)奶钛a方法模型,為每個缺失數(shù)據(jù)值產生一套可能的填補估計值,這些值反映了缺失值的不確性;每一個值都被用來填補數(shù)據(jù)集中的缺失值,產生若干個完整數(shù)據(jù)集(p次);其次,用針對完整數(shù)據(jù)集的統(tǒng)計方法對每一個填補數(shù)據(jù)集進行統(tǒng)計分析,得到每個缺失數(shù)據(jù)的均值和方差;最后,對來自于各個填補數(shù)據(jù)集的結果(缺失數(shù)據(jù)的均值和方差)以某種方法進行綜合,從而產生最終的統(tǒng)計推斷結果。
在MI出現(xiàn)以前,列表式刪除和SI法是處理缺失值的主要方法,但是它們沒有考慮到缺失數(shù)據(jù)的不確定性以及缺失數(shù)據(jù)與觀察到的數(shù)據(jù)間可能存在的系統(tǒng)性差異,所以難以提供關于總體參數(shù)的準確估計。MI彌補了單一填補和列表式刪除等方法的缺陷,該方法能夠反映出由于數(shù)據(jù)缺失造成的統(tǒng)計推斷結果的不確定性,優(yōu)化了多重填補方法的置信區(qū)間和相對效率。
2.2 常用填補估計方法的不足 基因表達譜缺失數(shù)據(jù)估計方法進展較快,但還存在許多難點和問題:(1)目前,很多估計方法多是SI,即用一個可行的估計值對缺失數(shù)據(jù)進行一次填補,其優(yōu)點是簡單、速度快,適合于缺失率較低的表達譜數(shù)據(jù),缺點是導致標準誤降低和P值減小,使得犯Ⅰ類錯誤的概率升高,容易引起系統(tǒng)偏倚,且不能反映缺失數(shù)據(jù)值的不確定性,因此,用SI法計算出的治療效應置信區(qū)間會失去它本來的真實性;(2)一些填補方法的應用條件相對較苛刻(如KNN法受變量類型限制,通常只適用于連續(xù)型變量)[2];(3)零或行均值法等沒有考慮到數(shù)據(jù)本身的屬性和數(shù)據(jù)間的相互聯(lián)系;(4)直接刪除會消除大量有效基因信息或使某個類消失,嚴重影響到后續(xù)分析結果的客觀性和正確性。
MI方法雖然有無法替代的優(yōu)點,但也有其缺陷。一方面,MI在應用時,假設缺失機制是隨機缺失,這種假設可以很方便地避開一些復雜的概率模型;另一方面,目前的具體多重填補模型參數(shù)方法都是要求數(shù)據(jù)集的分布已知,且對數(shù)據(jù)集的要求更為嚴格,如完整性、正態(tài)性和方差齊性等,實際上,由于在真實基因表達譜數(shù)據(jù)集中往往具有復雜數(shù)據(jù)結構,很難也幾乎不可能精確地預測出缺失數(shù)據(jù)和可觀測數(shù)據(jù)的關系,而且對將要處理的數(shù)據(jù)集沒有任何先驗知識。參數(shù)填補模型方法對此就束手無策或效果并不理想,而非參數(shù)模型方法在對數(shù)據(jù)分布未知的情況下卻能取得很好的效果,比如基于核函數(shù)選擇的支持向量機方法并結合回歸分析的技術。因此,作者提出一種基于核函數(shù)的支持向量回歸的非參多重填補(SVR-NPMI)的新融合方法,對基因表達譜缺失數(shù)據(jù)進行填補。
SVR-NPMI方法將支持向量機和回歸分析融合于多重填補的過程中,對缺失數(shù)據(jù)集進行多次填補(p次),最后利用參數(shù)和非參數(shù)統(tǒng)計方法進行綜合估計,以達到填補缺失數(shù)據(jù)的目的。該方法中有兩個問題需要注意:(1)填補次數(shù)p的確定要根據(jù)γ(γ為對總體參數(shù)缺失的部分信息的估計)來確定;(2)具體多重填補模型方法的確定,對于單調缺失模式,如針對連續(xù)型變量的預測均數(shù)匹配法和趨勢得分法,針對離散型變量的判別分析和Logistic回歸;對于復雜的缺失模式,可以采用馬爾科夫鏈蒙特卡羅方法方法。
簡要介紹基于SVR的非參多重填補融合方法的基本原理:
設某個非線性可分的基因表達譜數(shù)據(jù)集:
這里xi(i=1,2,…,m,m為基因個數(shù))為第i個基因的表達輸入值,zi為第i個基因的對應的目標輸出值。
引入核函數(shù)K,
常用的核函數(shù)有線性核、多項式核、高斯核、徑向基核和sigmoid核等,核函數(shù)可以根據(jù)數(shù)據(jù)集的分布進行選擇,從而達到最佳的效果。
于是ε-支持向量回歸可以表示為如下最優(yōu)化問題:
其中C表示正則化參數(shù),用來對模型復雜度和訓練誤差進行折中。引入拉格朗日乘子α和α*,將支持向量回歸的原始問題轉化為它的對偶形式:
在上述每個原始數(shù)據(jù)集G中,在不包含缺失數(shù)據(jù)的基因中,以隨機化原則抽取不同的基因數(shù)k(k≤m)構建訓練數(shù)據(jù)集Gtrain(p個)進行訓練,從而對包含缺失數(shù)據(jù)的基因構成的測試數(shù)據(jù)集Gtest進行測試,得到最后的填補數(shù)據(jù)的估計值f(x),從而實現(xiàn)了缺失數(shù)據(jù)的預測。
本文針對基因表達譜缺失數(shù)據(jù)的特性,就當前國內外基因表達譜缺失數(shù)據(jù)的處理方法進行簡要綜述,在分析其各自優(yōu)缺點基礎上,提出并探討一種新的填補估計方法——SVRNPMI。該方法將多重填補、基于核函數(shù)選擇的SVM和回歸分析有機地融合在一起,具有明顯優(yōu)點:(1)彌補了SI的缺陷,該法能夠反映出由于數(shù)據(jù)缺失造成的統(tǒng)計推斷結果的不確定性,優(yōu)化了MI的置信區(qū)間和相對效率;(2)將SI與MI綜合運用、參數(shù)與非參數(shù)統(tǒng)計方法相結合,使得新的融合方法受到數(shù)據(jù)分布的限制性更小、應用性更為廣泛,可以解決表達譜數(shù)據(jù)本身的缺陷等問題;(3)該方法以與目標基因具有較高相似性的完全基因子集為訓練集使用SVR算法(該算法具有非線性和魯棒性,適于求解這種非線性的估計值問題)建立回歸模型對缺失值進行估計,提高估計的準確性和穩(wěn)定性,為基因表達譜缺失數(shù)據(jù)值的有效填補提供一種全新的思路方法。
在后續(xù)研究中,將利用基因表達譜公共數(shù)據(jù)集和自實驗室數(shù)據(jù)集,證實基于SVR-NPM法對基因表達譜缺失數(shù)據(jù)進行估計的可靠性和有效性,建立一種基于不同序列數(shù)據(jù)集、不同分析目的、不同缺失率等情況下的缺失填補策略,并進一步闡明缺失填補方法對基因表達譜后續(xù)不同分析目的的生物學影響。
[1]Brettingham-Moore KH,Duong CP,Heriot AG,et al.U-sing gene expression profiling to predict response and prognosis in gastrointestinal cancers-the promise and the perils[J].Ann Surg Oncol,2011,18(5):1484-1491.
[2]Lee WP,Tzou WS.Computational methods for discovering gene networks from expression data[J].Brief Bioinform,2009,10(4):408-423.
[3]Troyanskaya O,Cantor M,Sherlock G,et al.Missing value estimation methods for DNA microarrays[J].Bioinformatics,2001,17(6):520-525.
[4]Dorri F,Azmi P,Dorri F.Missing value imputation in DNA microarrays based on conjugate gradient method[J].Comput Biol Med,2012,42(2):222-227.
[5]Little R,Rubin D.Statistical analysis with missing data[M].New York:John Wiley and Sons Inc,1987.
[6]Oh S,Kang DD,Brock GN,et al.Biological impact of missing-value imputation on downstream analyses of gene expression profiles[J].Bioinformatics,2011,27(1):78-86.
[7]Celton M,Malpertuy A,Lelandais G,et al.Comparative analysis of missing value imputation methods to improve clustering and interpretation of microarray experiments[J].BMC Genomics,2010,11(1):15-30.
[8]Sun Y,Braga-Neto U,Dougherty ER.Impact of missing value imputation on classification for DNA microarray gene expression data--a model-based study[J].EURASIP J Bioinform Syst Biol,2009,2009:504069.
[9]Oba S,Sato MA,Takemasa I,et al.A bayesian missing value estimation method for gene expression profile data[J].Bioinformatics,2003,19(16):2088-2096.
[10]Ouyang M,Welsh WJ,Georgopoulos P.Gaussian mixture clustering and imputation of microarray data[J].Bioinformatics,2004,20(6):917-923.
[11]Kim H,Golub GH,Park H.Missing value estimation for DNA microarray gene expression data:local least squares imputation[J].Bioinformatics,2005,21(2):187-198.
[12]Wang X,Li A,Jiang Z,et al.Missing value estimation for DNA microarray gene expression data by Support Vector Regression imputation and orthogonal coding scheme[J].BMC Bioinformatics,2006,7(1):32-35.
[13]Berthoumieux S,Brilli M,de Jong H,et al.Identification of metabolic network models from incomplete highthroughput datasets[J].Bioinformatics,2011,27(13):i186-i195.
[14]Tuikkala J,Elo L,Nevalainen OS,et al.Improving missing value estimation in microarray data with gene ontology[J].Bioinformatics,2006,22(5):566-572.
[15]邱浪波,王廣云,王正志.基因表達缺失值的加權回歸估計算法[J].國防科技大學學報,2007,29(1):111-115,125.
[16]楊濤,駱嘉偉,王艷,等.基于馬氏距離的缺失值填充算法[J].計算機應用,2005,25(12):2868-2871.
[17]Stekhoven DJ,Bühlmann P.MissForest--non-parametric missing value imputation for mixed-type data[J].Bioinformatics,2012,28(1):112-118.
[18]Ryan R,Vernon S,Lawrence G,et al.Use of Name recognition software,census data and multiple imputation to predict missing data on ethnicity:application to Cancer registry records[J].BMC Med Inform Decis Mak,2012,12(1):1-8.
[19]Habbous S,Chu KP,Qiu X,et al.The changing incidence of human papillomavirus-associated oropharyngeal Cancer using multiple imputation from 2000to 2010at a Comprehensive Cancer Centre[J].Cancer Epidemiol,2013,37(6):820-829.
[20]Fong DY,Rai SN,Lam KS.Estimating the effect of multiple imputation on incomplete longitudinal data with application to a randomized clinical study[J].J Biopharm Stat,2013,23(5):1004-1022.