鄒 楊,陳 忠
(長江大學(xué)信息與數(shù)學(xué)學(xué)院,湖北荊州434023)
謝俊宇
(洪湖賀龍高級中學(xué),湖北洪湖433200)
利用基因芯片技術(shù)測定的基因表達(dá)值是一組多變量的高維數(shù)據(jù)。這些數(shù)據(jù)可以用于對組織細(xì)胞進(jìn)行分類,也可以用于挖掘?qū)膊∮需b別意義的特征基因,進(jìn)而為醫(yī)學(xué)診斷和治療提供參考。目前,對于此類基因表達(dá)數(shù)據(jù)分類問題有很多研究方法,如線性判別分析法和支持向量機(jī)等,線性判別分析比復(fù)雜的預(yù)測方法效果要好[1]。
在進(jìn)行判別分類時,不同基因的表達(dá)值對于分類結(jié)果影響不同。因此,變量 (基因表達(dá)值)的選擇是一個決定判別效果的關(guān)鍵問題。下面,筆者利用多元統(tǒng)計分析中的逐步判別分析法對基因表達(dá)水平數(shù)據(jù)進(jìn)行分析。首先,用逐步判別法篩選出了能夠區(qū)分2個總體的特征基因。然后,基于這些特征基因的表達(dá)值數(shù)據(jù),利用Bayes判別法建立判別函數(shù),對未知類型的基因表達(dá)值數(shù)據(jù)進(jìn)行分類。
逐步判別是一種篩選變量的方法。篩選的過程其實(shí)就是作假設(shè)檢驗(yàn)的過程,通過檢驗(yàn)找出顯著性變量,剔除不顯著變量[2,3]。所建立的判別函數(shù)中僅保留了對分類判別能力顯著的變量。
1)總體均值的檢驗(yàn) 假設(shè)2總體Gi~N(μi,∑i)(i=1,2),為檢驗(yàn)2總體的均值是否有顯著性差異(H 0:μ(1)=μ(2)),可以構(gòu)造F 統(tǒng)計量[4]:
式中,d2(1,2)=(ˉX(1)-ˉX(2))′S-1(ˉX(1)-ˉX(2));ni是第i個總體的樣品個數(shù)(i=1,2)。
計算F統(tǒng)計量的值f,得p=P{F≥f}。若p小于給定的顯著性水平a(常取a=0.05),則否定2總體均值相等的假設(shè),即對這2個總體討論判別問題是有意義的。
2)錯判率的估計 利用舍一法 (或稱交叉確認(rèn)法)對錯判率進(jìn)行估計。
以2001年北京大學(xué)校內(nèi)數(shù)學(xué)建模競賽試題 (B題)為實(shí)例進(jìn)行分析。原始數(shù)據(jù)共60行114列,分別代表60個人和114條基因。其中,有4條基因的表達(dá)值完全相同 (分別為原始數(shù)據(jù)的第37、38、39和40列),這里僅保留其中的一列,故有效檢測基因應(yīng)為111條(記為向量x1~x111)。
數(shù)據(jù)中,前20行是20個癌癥病人的基因表達(dá)水平的樣本 (記為第0~19組),為分析需要,記其為第1類樣本;其后的20行是20個正常人的基因表達(dá)信息樣本,對應(yīng)于第20~39組,記為第2類樣本;剩余的第40~59組表達(dá)值為20個待檢測的樣本 (未知它們是否正常)。假設(shè)原問題所提供的2類樣本均來自于正態(tài)分布的總體。
1)特征基因的選取 利用SAS中逐步判別法的命令 “proc stepdisc”完成變量篩選的工作[5]。設(shè)定引入變量到判別式的顯著性水平為0.10,剔除變量的顯著性水平為0.15。通過逐步篩選,最終選出了 32 個 變量, 其序號 為:x1、x5、x8、x12、x18、x20、x24、x25、x27、x36、x37、x39、x57、x58、x60、x67、x69、x71、x72、
x75、x76、x79、x 92、x93、x95、x97、x99、x102、x104、x105、x109和 x111。它們就是能夠區(qū)分 2 類樣本的特征基因。
2)判別過程的實(shí)現(xiàn) 在建立判別函數(shù)之前,要先對2總體協(xié)方差矩陣是否相等進(jìn)行檢驗(yàn)(H0:∑1=∑2)。其中,∑i表示第i個總體Gi~N(μi,∑i)(i=1,2)的協(xié)方差矩陣。
利用SAS中的命令 “pool=test”實(shí)現(xiàn)對2總體協(xié)方差矩陣是否相等進(jìn)行檢驗(yàn)。結(jié)果表明,在顯著性水平α=0.10時接受了原假設(shè)??梢岳煤喜f(xié)方差陣建立判別函數(shù)。
依據(jù)篩選出的特征基因構(gòu)成2個新的總體 (其中每一組表達(dá)值僅有32個變量)。利用Bayes判別法建立判別函數(shù),對未分類的表達(dá)值 (第40~59組)進(jìn)行判別分類。利用SAS中判別分析的命令 “proc discrim”實(shí)現(xiàn)這一過程。該程序輸出了Bayes判別函數(shù)的系數(shù),則隸屬第1(2)類總體的判別函數(shù)y1(y 2)分別為:
依據(jù)上述判別函數(shù),計算后驗(yàn)概率,對未知類別的基因表達(dá)值數(shù)據(jù)分類。經(jīng)計算可知,在未知類別的第40~59組基因表達(dá)值中,屬于第1類總體 (癌癥病人)的共有13個,其序號為 {40,42,45,46,47,48,49,51,52,53,54,57,58};屬于第2類總體 (正常人)的共有7個,其序號為 {41,43,44,50,55,56,59}。
2個新總體之間的平方距離為385783,其F統(tǒng)計量為22208,相應(yīng)的p小于0.0001(<0.01)。這說明利用特征基因構(gòu)造的2個新的總體,其基因的表達(dá)值有顯著性差異,討論判別分類問題是有意義的。利用SAS程序中的 “crosslist”命令對判別分類的結(jié)果進(jìn)行交叉驗(yàn)證 (舍一法),用以估計錯判造成的損失。輸出結(jié)果顯示,其錯判率為0。
作為對比,利用所有基因的表達(dá)值數(shù)據(jù)構(gòu)造判別函數(shù),觀察其對原訓(xùn)練樣本交叉驗(yàn)證的錯誤率。結(jié)果顯示,其錯誤率為20%。
[1]Dodoit S,Fridlyand J,Speed T P.Comparison of discrimination methods for the classification of tumor susing gene expression data[J].Am Stat Assoc,2002,457(97):77-87.
[2]高惠璇.應(yīng)用多元統(tǒng)計分析[M].北京:北京大學(xué)出版社,2005:205-211.
[3]賈云青,侯木舟.Bayes判別分析在醫(yī)療數(shù)據(jù)處理中的應(yīng)用[J].數(shù)學(xué)理論與實(shí)踐,2009,29(2):117-119.
[4]高惠璇.實(shí)用統(tǒng)計方法與SAS系統(tǒng) [M].北京:北京大學(xué)出版社,2001:176-178.
[5]何寧,吳黎兵.統(tǒng)計分析系統(tǒng)SAS[M].武漢:武漢大學(xué)出版社,2005:261-271.