摘 要:變點是在模式中某個或某幾個點突然發(fā)生較大的變化,這種具有突然變化的變點有可能在該模型中起到特殊的作用。變點問題在醫(yī)學腫瘤分析、金融、氣候分析等諸多領域都有著許多應用,通常用來檢測在數(shù)據(jù)生成過程中的結構突變,成為統(tǒng)計推斷的中心問題之一。變點理論知識應用到基因表達譜數(shù)據(jù)分析中,對變點理論的實踐應用及差異表達基因檢測的研究都提出了新的挑戰(zhàn)。
關鍵詞:變點 統(tǒng)計方法 差異表達基因檢測
中圖分類號:G64 文獻標識碼:A 文章編號:1672-3791(2013)02(c)-0241-01
變點理論把估計和假設檢驗理論、統(tǒng)計控制理論、非貝葉斯方法和貝葉斯方法結合起來,所研究的統(tǒng)計推斷問題能夠對估計量的性質進行統(tǒng)計分。變點問題在醫(yī)學腫瘤分析、金融、氣候分析等諸多領域都有著許多應用,通常用來檢測在數(shù)據(jù)生成過程中的結構突變,成為統(tǒng)計推斷的中心問題之一[1]。
1 變點
變點是在模式中某個或某幾個點突然發(fā)生較大的變化,這種具有突然變化的變點有可能有著在該模型中起到特殊的作用。在國外涉及較早的變點研究是突變點,對于漸變式變點的研究也有一些結論,對于位置參數(shù)模型提出了變點的最小二乘法的估計。已故中科院院士陳希孺教授認為,變點分析屬于數(shù)理統(tǒng)計和非線性時間序列范疇,通過對變點問題的統(tǒng)計推斷能夠統(tǒng)計分析估計量的性質[2]。
2 檢測變點的常用方法
變點問題是統(tǒng)計推斷的中心問題之一,處理變點問題的方法有:最小二乘法、極大似然法、非參數(shù)方法和貝葉斯方法等。最小二乘法就是以觀察值和理論值之差的平方和作為目標函數(shù),以其達到極小值之點作為有關參數(shù)的點估計;貝葉斯方法是包括變點在內的模型中的參數(shù)為隨機變量;非參數(shù)方法不要求樣本有分布背景[2]。
用Matlab工具軟件仿真基于貝葉斯原理的差異表達基因檢測突變點檢測分析模型,可以突變點位置。用圖形可視化技術確定在癌癥樣本中發(fā)生差異表達基因樣本強度變點的情況,包括位置、個數(shù)、躍度。給出變點的檢測和估計(點估計和區(qū)間估計)以及估計量的漸近分布和收斂速度[3]。CUSUM累積和能夠分析獨立正態(tài)隨機變量序列均值變點的問題,通過假設方差不變,證明了CUSUM型均值變點的強弱相合性,從而分析變點估計強弱收斂速度的情況[1]。變點檢測方法的統(tǒng)計性能分析方法和參數(shù)優(yōu)化方法性能,可以通過ROC曲線和FDR曲線分析[4]。
3 變點方法的應用
變點問題在金融、氣候、礦難分析等許多方面有著廣泛的應用,用來檢測在數(shù)據(jù)生成過程中的結構突變。在醫(yī)學上,差異表達基因在基因芯片上的基因信號強度數(shù)值時在表達上具有差異性和相關性的,因此差異表達基因的表達強度值可以看作是基因表達譜數(shù)據(jù)中的變點異常值[5]。
3.1 變點的統(tǒng)計推斷問題研究
根據(jù)貝葉斯原理可以提出的突變點檢測分析模型,并用Matlab工具軟件對該模型進行仿真,在實證分析中應用該模型對基因表達譜數(shù)據(jù)中的變點真實數(shù)據(jù)進行分析,這樣能夠比較準確的確定基因表達譜中真實數(shù)據(jù)的樣本突變點位置,以及相應的后驗概率分布,并解釋突變點形成的生物學背景[5]。
3.2 采用貝葉斯法檢測多個變點的基因表達譜數(shù)據(jù)
計算后驗概率時,要涉及很復雜的函數(shù)的高維積分,處理難度較大,通過考慮先用累計次數(shù)法檢驗有無變點,對于涉及的多個變點,點估計采用極大似然法或最小二乘法,應用分位點回歸模型的變點檢測,檢驗變點值的存在性[7]。
4 結論
根據(jù)基因變點理論的非參數(shù)法檢測差異表達基因的檢測方法,把癌癥異常點樣本能夠看成是比所有正常樣本來自更高平均表達密度的分布,檢測在癌癥組中的基因表達強度的一個改變點,根據(jù)分布變點的非參數(shù)統(tǒng)計算法思想,對于一個獨立的基因表達譜隨機變量,尋找估計的變點。通過建立目標函數(shù),求導得到參數(shù)的最小二乘估計,最后判斷變點值是否存在及估計其位置,而且還可以對存在差異的樣本數(shù)進行估計。
參考文獻
[1]沈燕,胡舒合.正態(tài)分布均值變點估計的收斂速度研究,合肥工業(yè)大學學報:自然科學版[J].2008,13(12):2062-2065.
[2]陳希孺.變點統(tǒng)計分析簡介[J].數(shù)據(jù)統(tǒng)計與管理,1991,3(2):55-58.
[3]譚智平,繆柏其.關于分布變點問題的非參數(shù)統(tǒng)計推斷[J].中國科學技術大學學報,2000,30(3):270-277.
[4] Benjamini Y,Hochberg Y.Controlling the 1 discovery rate:a practical and powerful approach to multiple testing[J].Journal of the Royal Statistical Society,1995,57(1):289-300.
[5] Hu JH. Cancer outlier detection based on likelihood ratio test[J].Bioinf ormatics,2008,24(19):2193-2199.
[6] Krishnaiah P R,Miao Boqi.Review about estimates of change2point[M]. Handbook of Statistics7:Quality Control and Reliability.Elsevier,1988:375-402.
[7]王黎明.變點統(tǒng)計分析的研究進展[J].統(tǒng)計研究,2003(1):50-51.