王碩楊 陳銳峰
山東大學
基因與壽命關(guān)系的統(tǒng)計分析
王碩楊 陳銳峰
山東大學
在人體眾多基因當中,人類的壽命只與某些特定的基因高度相關(guān)。本文以兩組獨立的基因組,每組200個基因作為研究對象,通過線性回歸模型的方法,對眾多基因進行篩選,找到與人體壽命高度相關(guān)的基因。額外的,本文還應(yīng)用了廣義相關(guān)性測量的方法對基因進行篩選,通過結(jié)果的對比比較找到最佳的結(jié)果。
基因;制藥;線性回歸;一般相關(guān)性測量
本文首先檢驗所用數(shù)據(jù)的正態(tài)性,即所用數(shù)據(jù)是否滿足正態(tài)假設(shè)。篩選自變量是本文研究的重中之重,首先本文采用了線性回歸的思想和方法篩選自變量。在第一部分中,本文采取了前進法、后退法以及逐步回歸的方法,結(jié)合AIC、BIC作為基本準則,對自變量進行篩選。進而,本文采用交叉驗證的方法對得到的多個結(jié)果進行優(yōu)化。
線性回歸過程:
1.1boxcox變換
1.2數(shù)據(jù)清理:本文采用R語言中的函數(shù)OutlierTest() 與cook's distance的理論來檢驗異常值,最終遵循保守的做法,保留下了除去因變量缺失或為0以外的所有數(shù)據(jù)。
1.3多重共線性的檢測:研究發(fā)現(xiàn),一些自變量具有非常大的VIF值,進而本文發(fā)現(xiàn)多重共線性普遍存在于自變量之間,進而本文需做進一步的改善來消除多重共線性。
1.4自變量篩選:自變量的篩選是線性模型中最重要的一部分。本文采用了前進法、后退法以及逐步回歸法的方法篩選自變量,并且均分別結(jié)合了AIC、BIC作為篩選準則。對于以上提及的兩種準則,試驗分別產(chǎn)生了3個線性回歸模型。然后,本文通過交叉驗證的方法,將兩組數(shù)據(jù)組分別分成10個片段,找到使得CV值達到最小的模型作為本文該部分的最佳模型。
1.5線性回歸模型結(jié)論
剩余壽命作為因變量:基于交叉驗證的模型:就第一組數(shù)據(jù)組而言,基于AIC準則并采用前進法的模型被認為是自變量選擇的最佳模型。就第二組數(shù)據(jù)組而言,基于AIC準則并采用后退法的模型被認為是自變量選擇的最佳模型。篩選模型之后,明顯發(fā)現(xiàn)多重共線性得到了顯著的改善,VIF圖也證實了這一說法?;趌asso回歸的模型:就第一組數(shù)據(jù)組而言,最終保留下了4個高度相關(guān)的自變量(基因):PYY, FLJ20323, FNDC4, CELP;就第二組數(shù)據(jù)組而言,最終保留下了6個與因變量高度相關(guān)的基因:BRP44L, PYY,F(xiàn)NDC4, SLC38A3, CASKIN2, SPIN。
2.1函數(shù)選擇
2.2GMC過程
選擇一個函數(shù)。 設(shè)定λ1和λ2的值,或者設(shè)定單個λ的值。 然后預先規(guī)定一個參考值,選取跑完數(shù)據(jù)之后自變量系數(shù)大于該規(guī)定的參考值的自變量,記錄下篩選出來的自變量的指數(shù),將其余的自變量的系數(shù)設(shè)定為0. 隨后通過篩選出的自變量的系數(shù)計算出廣義相關(guān)性測量的值。改變λ1和λ2的值,或者改變單個λ的值, 重復第二至第四三個步驟。 通過循環(huán)改變λ1和λ2的值(或者是改變單個λ的值)100次,找到結(jié)果最大的廣義相關(guān)性測量的值并找到相應(yīng)的自變量,即本文得到的最終的模型。這些得到的自變量便是與因變量高度相關(guān)的基因組?;诓煌念A定的模型,重復步驟1至步驟6的過程,對每個模型找到使得廣義相關(guān)性測量達到最大值的自變量及廣義相關(guān)性測量的值,進而進行比較。
2.3GMC 模型結(jié)論
剩余壽命作為因變量:方法1:當采用函數(shù)g3(x)= x3時,兩個數(shù)據(jù)組的廣義相關(guān)性測量達最大值,并且值比其他四個函數(shù)均大恨多。因此最終本文選擇模型函數(shù)g3(x)= x3。方法2: 對于第一個數(shù)據(jù)組,當采用函數(shù)g4(x)= ex時,廣義相關(guān)性測量達最大值。此時函數(shù)g3(x)= x3同樣可以得到非常大的結(jié)果。對于第二個數(shù)據(jù)組,當采用函數(shù)g3(x)= x3時,廣義相關(guān)性測量達最大值。因此總的而言,函數(shù)g3(x)= x3最穩(wěn)定,即為本文的最佳選擇。
函數(shù)的選取在GMC的運用中是至關(guān)重要的,不同的函數(shù)可能會得到迥異的廣義相關(guān)性測量的值。從最終的結(jié)果我可以知道,當本文選取二次或三次函數(shù)時,得到的結(jié)果要優(yōu)于其他函數(shù)得到的結(jié)果,尤其是三次函數(shù)表現(xiàn)最佳。這也就是說,因變量和擬合值之間很有可能是存在二次方或者三次方的關(guān)系的。同時本文注意到,因變量與自變量之間的相關(guān)關(guān)系也有可能因為R優(yōu)化的局限性而被隱藏。舉個例子說明,廣義相關(guān)性測量的值在第二種方法中采用指數(shù)函數(shù)關(guān)系時突然變得很大,當出現(xiàn)這樣的情況時,我還需要做進一步的檢測。額外地,當本文對beta的值進行兩次優(yōu)化時,結(jié)果會變得更高效,即廣義相關(guān)性測量的值會變得更大,然而這樣得到的結(jié)果非常接近于1,即失去了方法存在的意義。最后,本文還直接對總體自變量進行了抽樣選取,但結(jié)果發(fā)現(xiàn)這樣得到的結(jié)果不能覆蓋所有可能得到的結(jié)果,甚至不到其十分之一。
[1]Carroll, R. J. and Cline, D. B. H. (1988). An asymptotic theory for weighted least- squares with weights estimated by replication. Biometrika,75, 35-43.
[2]Carroll, R. J. and Ruppert, D. (1984). Power transformations when ftting theoret- ical models to data. J. Am. Stat. Assoc, 79, 321-328.
王碩楊(1994-),男,漢族,山東省青島市人,數(shù)學學士,單位:山東大學,研究方向:數(shù)理統(tǒng)計。
陳銳峰(1994-),男,漢族,重慶市人,學生,統(tǒng)計學士,單位:山東大學,研究方向:數(shù)理統(tǒng)計。