吳岳芬
(湖南理工學(xué)院 信息科學(xué)與工程學(xué)院,湖南 岳陽 414006)
人體的每條染色體攜帶一個DNA 分子.DNA 是由帶有A、T、C、G 四種堿基的脫氧核苷酸鏈接組成的雙螺旋長鏈分子.在這條雙螺旋的長鏈中,共有約30 億個堿基對,而基因則是DNA 長鏈中有遺傳效應(yīng)的一些片段.在組成DNA 的堿基對中,一些特定位置的單個核苷酸經(jīng)常會發(fā)生變異引起DNA 的多態(tài)性,我們稱之為位點(diǎn).大量研究表明,人體的許多表型性狀差異以及對藥物和疾病的易感性等都可能與某些位點(diǎn)相關(guān)聯(lián)[1],或和包含有多個位點(diǎn)的基因相關(guān)聯(lián).因此,定位與性狀或疾病相關(guān)聯(lián)的位點(diǎn)在染色體或基因中的位置,能幫助研究人員了解性狀和一些疾病的遺傳機(jī)理,也能使人們對致病位點(diǎn)加以干預(yù),防止一些遺傳病的發(fā)生.
近年來,研究人員大都采用全基因組的方法來確定致病位點(diǎn)或致病基因[2~6].具體做法是:招募大量志愿者(樣本),包括具有某種遺傳病的人和健康的人,通常用1 表示病人,0 表示健康者.對每個樣本,采用堿基(A、T、C、G)的編碼方式來獲取每個位點(diǎn)的信息.因?yàn)槿旧w具有雙螺旋結(jié)構(gòu),所以用兩個堿基的組合表示一個位點(diǎn)的信息.不同樣本的編碼都是T 和C 的組合,因此有三種不同編碼方式TT、TC 和CC.研究人員可以通過對樣本的健康狀況和位點(diǎn)編碼進(jìn)行對比分析來確定致病位點(diǎn),從而發(fā)現(xiàn)遺傳病或性狀的遺傳機(jī)理.
本文針對某種遺傳疾病提供的1000 個樣本數(shù)據(jù),通過位點(diǎn)信息編碼、差異性測度,分析位點(diǎn)與疾病的關(guān)聯(lián)性,尋找最有可能的致病位點(diǎn).再利用卡方檢驗(yàn),驗(yàn)證所提方法的有效性.
基因型是指生物的遺傳型,即控制性狀的基因組合類型.等位基因是位于同源染色體上的一對基因,它控制某一性狀的不同形態(tài).可用A和a分別表示控制顯性和隱性性狀的基因.因此個體的基因型只有三種類型:AA、Aa和aa.
本文按照顯性等位基因A出現(xiàn)的次數(shù)進(jìn)行數(shù)值編碼.例如,AA中顯性等位基因A出現(xiàn)2 次,編碼為2.用mij表示樣本i在位點(diǎn)j的堿基對cij的數(shù)值編碼:
用R表示位點(diǎn)集合,NR表示位點(diǎn)數(shù).對所有位點(diǎn)從序號1 到NR進(jìn)行編碼.表1顯示了位點(diǎn)rs1000151出現(xiàn)的部分堿基的數(shù)值編碼.
表1 堿基對編碼
S表示樣本集,NS表示樣本數(shù),nAA、nAa、naa分別表示某位點(diǎn)樣本中AA、Aa和aa基因型的出現(xiàn)次數(shù).將健康人樣本作為對照組(用0 表示),病人樣本作為病例組(用1 表示).表2顯示位點(diǎn)rs3094315 三種基因型TT、TC、CC 在病例組和對照組樣本中的統(tǒng)計(jì)情況.
表2 樣本S 中某位點(diǎn)三種基因型數(shù)量統(tǒng)計(jì)
如果某位點(diǎn)樣本中等位基因在對照組和病例組中發(fā)生明顯變化,則可認(rèn)為該位點(diǎn)與疾病性狀相關(guān).因此可以通過統(tǒng)計(jì)樣本中等位基因的數(shù)量,來分析位點(diǎn)與疾病的相關(guān)性.用nA表示等位基因A在某位點(diǎn)樣本中的出現(xiàn)次數(shù),na表示等位基因a在某位點(diǎn)樣本中的出現(xiàn)次數(shù),則nA和na滿足
表3為位點(diǎn)rs3094315 樣本中等位基因T 和C 的統(tǒng)計(jì)情況.
表3 樣本S 中某位點(diǎn)等位基因統(tǒng)計(jì)
將對照組中A和a出現(xiàn)的次數(shù)記為nA0和na0,病例組中A和a出現(xiàn)的次數(shù)記為nA1和na1.下面通過歐式距離度量位點(diǎn)等位基因在對照組和病例組中的差異.將(n A1,na1)和(n A0,na0)看作兩點(diǎn)的坐標(biāo),則兩點(diǎn)間的距離為
運(yùn)用歐式距離度量,對樣本數(shù)據(jù)進(jìn)行差異性統(tǒng)計(jì),得到所有位點(diǎn)等位基因在病例組和對照組中的數(shù)量變化情況.所有位點(diǎn)的距離測度如圖1所示,距離測度值的比例見表4.
圖1 所有位點(diǎn)的距離測度值
表4 距離測度值的比例分布
可以看出,在基于距離的測度中,絕大部分位點(diǎn)對照組和病例組的距離差異值在40 以內(nèi),占比為86.09%.距離差異值在10 以內(nèi)的也占31.2%,說明差異性很小的位點(diǎn)占到近.距離在80 以上的位點(diǎn)數(shù)量急劇減少,僅占0.51%.統(tǒng)計(jì)得到,歐式距離測度值的平均值為21.7885.取出位點(diǎn)差異測度值最大的10個位點(diǎn)作為可能致病的位點(diǎn),見表5.
表5 距離測度值最大的10 個位點(diǎn)
卡方檢驗(yàn)是以χ2分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,該檢驗(yàn)的基本思想是:首先假設(shè)H0成立,基于此計(jì)算出χ2值,它表示觀察值與理論值之間的偏離程度.根據(jù)χ2分布及自由度可以確定在H0成立的情況下獲得當(dāng)前統(tǒng)計(jì)量及更極端情況的概率p.如果p值很小,說明觀察值與理論值偏離程度太大,應(yīng)當(dāng)拒絕原假設(shè),表示比較資料之間有顯著差異;否則就不能拒絕原假設(shè),即不能認(rèn)為樣本所代表的實(shí)際情況和理論假設(shè)有差別.
用χ2表示病人與健康人之間的偏離程度.設(shè)A表示某個類別病人的頻數(shù),E表示基于H0計(jì)算出的期望頻數(shù),A與E之差稱為殘差.將殘差平方除以期望頻數(shù)再求和,以估計(jì)觀察頻數(shù)與期望頻數(shù)的差別.χ2的計(jì)算公式為
其中Ai為i水平的觀察頻數(shù),Ei為i水平的期望頻數(shù).當(dāng)總頻數(shù)比較大時,χ2統(tǒng)計(jì)量近似服從自由度為k- 1(計(jì)算Ei時用到的參數(shù)個數(shù))的卡方分布.由式(5)可知,當(dāng)觀察頻數(shù)與期望頻數(shù)完全一致時,χ2值為0;觀察頻數(shù)與期望頻數(shù)越接近,兩者之間的差異越小,χ2值越小;反之,觀察頻數(shù)與期望頻數(shù)差別越大,兩者之間的差異越大,χ2值越大.
等位基因在病例組和對照組的期望頻數(shù)計(jì)算公式為
因此,
運(yùn)用上述公式,計(jì)算得到所有位點(diǎn)的χ2值.如圖2所示.令自由度df= 1,查卡方臨界值表,當(dāng)χ2> 6.635時,p<0.01,有616 個位點(diǎn);當(dāng)χ2< 3.84時,p>0.05,有7906 個位點(diǎn);當(dāng) 3.84 <χ2< 6.635時,0.01 <p< 0.05,有923 個位點(diǎn).以0.01 和0.05 為分割值,位點(diǎn)的顯著性水平值分布情況如圖3所示.
圖2 所有位點(diǎn)的χ2 值
圖3 顯著性水平值分布情況
差異測度值最大的10 個位點(diǎn)的χ2值見表6,可看出χ2值均大于6.635,即p<0.01,說明這些位點(diǎn)與病例性狀存在顯著關(guān)聯(lián).
表6 差異測度值最大的10 個位點(diǎn)χ2 值
另外,差異測度值最大的10 個位點(diǎn)均有統(tǒng)計(jì)學(xué)意義(p<0.05),其中2938 位點(diǎn)的置信區(qū)間最窄.綜合差異量度和顯著性水平分析可知,位點(diǎn)rs2273298 是該遺傳疾病最有可能的致病位點(diǎn).
本文運(yùn)用數(shù)值編碼、差異性測度等方法,建立了位點(diǎn)和遺傳性狀之間的關(guān)聯(lián)模型,并通過適當(dāng)?shù)慕y(tǒng)計(jì)分析和檢驗(yàn),檢驗(yàn)位點(diǎn)與疾病或性狀相關(guān)聯(lián)的置信度,對定位和識別與疾病相關(guān)聯(lián)的位點(diǎn)位置具有一定參考意義.