甘秋云
?
擬南芥突變基因位置的Linux大數(shù)據(jù)分析
甘秋云
(福州理工學(xué)院 文理學(xué)院,福建 福州 350014)
以擬南芥為實(shí)例,通過野生型和突變型雜交,對(duì)二代群體DNA進(jìn)行深度測(cè)序,獲取海量DNA數(shù)據(jù)。以SNP為分子標(biāo)記,利用生物信息學(xué)方法對(duì)測(cè)序數(shù)據(jù)進(jìn)行單核苷酸多態(tài)性(SNP)檢測(cè)。通過置換測(cè)驗(yàn)對(duì)基因組區(qū)段內(nèi)的等位基因頻率進(jìn)行差異顯著分析,并利用生物統(tǒng)計(jì)學(xué)方法對(duì)具有顯著性差異的數(shù)據(jù)進(jìn)行顯著性檢驗(yàn),預(yù)估擬南芥的突變位點(diǎn)的位置在1號(hào)染色體的末端位置,范圍為2 853 000~2 898 000。
基因突變;基因定位;等位基因;高通量測(cè)序
突變是發(fā)生于DNA水平上的一種永久性變化,可能發(fā)生堿基對(duì)組成或排列順序的改變。對(duì)突變的研究不僅為育種工作提供必要的實(shí)驗(yàn)材料,對(duì)科學(xué)研究和生產(chǎn)也有重要意義[1,2,3]。本文結(jié)合計(jì)算機(jī)算法,生物統(tǒng)計(jì)學(xué)和數(shù)學(xué)的計(jì)算方法,對(duì)測(cè)序數(shù)據(jù)進(jìn)行分析、處理,預(yù)測(cè)突變基因在染色體上的位置。
以擬南芥為研究對(duì)象,將群體野生型和突變型進(jìn)行雜交,對(duì)二代群體DNA進(jìn)行深度測(cè)序,獲得29 264 012條序列讀段,長(zhǎng)度為76 bp。過濾、篩選后獲得27 215 530條,平均長(zhǎng)度為76 bp的序列讀段。由擬南芥數(shù)據(jù)庫TAIR[4]下載擬南芥參考基因序列,利用SOAPaligner軟件,將上述讀段與參考基因組序列進(jìn)行對(duì)比,檢測(cè)單核苷酸多態(tài)性(SNP),最終獲得全基因組范圍內(nèi)SNP位點(diǎn)[4]。上述全基因組序列讀段作為定位突變基因的分析對(duì)象。
采用不同的移動(dòng)窗口,固定步長(zhǎng),分別在野生型和突變型兩個(gè)DNA池中,計(jì)算出相應(yīng)窗口下的SNP位點(diǎn)的堿基個(gè)數(shù)y1與參考?jí)A基一致的讀段的個(gè)數(shù)2,SNP位點(diǎn)的測(cè)序深度1和2。然后,通過公式(1)計(jì)算相應(yīng)的基因頻率(野生型標(biāo)記為“1”,突變型標(biāo)記為“2”)。
針對(duì)某些樣本容量較小的區(qū)間,在容量基礎(chǔ)加上一個(gè)常數(shù)(=50)。
基因頻率相應(yīng)寫為
兩個(gè)樣本基因頻率的差值為
通過△值的變化曲線圖,預(yù)測(cè)突變位點(diǎn)的位置。
對(duì)野生型和突變型的2個(gè)DNA池的樣品進(jìn)行1 000次隨機(jī)分組,得到1 000組隨機(jī)的樣本文件。利用計(jì)算機(jī)算法計(jì)算1 000次隨機(jī)實(shí)驗(yàn)中位于同一區(qū)間下的最大值,作為差異顯著性分析的數(shù)據(jù)來源。
采用Aspin-Welch方法對(duì)預(yù)估的顯著區(qū)間數(shù)據(jù)進(jìn)行顯著性檢驗(yàn),求出在總體顯著水平為5%時(shí)的的閾值P。若P值小于0.05,則認(rèn)為當(dāng)前數(shù)據(jù)差異是顯著的,找到差異顯著的區(qū)間在染色體上的位置,可初步判斷該位置可能存在一個(gè)突變位點(diǎn)或目標(biāo)基因[4]。
該檢驗(yàn)中的臨界值由t表查出,自由度由
確定。其中,
以10 kb為移動(dòng)步長(zhǎng),分別設(shè)置100 kb、200 kb、300 kb、400 kb的移動(dòng)窗口,利用公式(2)分別計(jì)算野生型和突變型兩個(gè)樣本在不同染色體對(duì)應(yīng)位點(diǎn)的基因頻率。根據(jù)計(jì)算結(jié)果,以染色體位置為橫坐標(biāo),△值大小為縱坐標(biāo),繪制全基因組范圍內(nèi)的△值變化圖。
圖1是1號(hào)染色體在移動(dòng)窗口為400 kb時(shí)的值曲線圖。從圖中明顯看到,在1號(hào)染色體末端出現(xiàn)了高峰區(qū)間。
圖1 擬南芥野生型與突變型1號(hào)染色體在移動(dòng)窗口400 kb下△d值曲線圖
圖2分別是2、3、4、5號(hào)染色體在移動(dòng)窗口為400 kb時(shí)值曲線圖。從圖中可見,2至5號(hào)染色體的值變化較小,曲線整體走勢(shì)較平緩。
根據(jù)1 000組隨機(jī)實(shí)驗(yàn)得到的值,繪制出對(duì)應(yīng)的分布圖,發(fā)現(xiàn)其分布情況滿足正態(tài)分布特點(diǎn)。
表1 野生型和突變型顯著性分析數(shù)據(jù)
抽取1號(hào)染色體末端位置上的100個(gè)△數(shù)據(jù)樣本,分析結(jié)果見表1。
方差齊性檢驗(yàn)結(jié)果為
H0:σ1=σ2;HA:σ1≠σ2;α=0.05
在顯著水平0.05的前提下,
F=75.923,F(xiàn)0.05=1.25,F(xiàn)≠F0.05,
方差不具齊性。
Aspin-Welch檢驗(yàn)結(jié)果為
H0:μ1=μ2;HA:μ1≠μ2;α=0.05
將數(shù)據(jù)帶入公式(4)、(6),得到的值為101.61,t值為3.03。利用=101.61時(shí)的t臨界值使用線性內(nèi)插法求出t=1.984。
由于t>t0.05,即p<0.05,所以在野生型和突變型兩個(gè)DNA池樣本在1號(hào)染色體末端位置出現(xiàn)的高峰區(qū)間具有顯著性差異,可以初步預(yù)測(cè)當(dāng)前位置突變位點(diǎn)的位置。
圖3是1號(hào)染色體的值曲線圖。
(a)100 kb;(b)200 kb;(c)300 kb
從圖3可以發(fā)現(xiàn),1號(hào)染色體在不同的移動(dòng)窗口下都出現(xiàn)了高峰區(qū)間。隨著移動(dòng)窗口的不同,樣本高峰值不同,在移動(dòng)窗口為100 kb達(dá)到最大,為0.188 953。在200 kb、300 kb、400 kb的移動(dòng)窗口下高峰值平均為0.17。但1號(hào)染色體的高峰區(qū)間均位于染色體末端。
表2 1 000組隨機(jī)顯著實(shí)驗(yàn)統(tǒng)計(jì)擬南芥染色體顯著區(qū)間(顯著水平=0.05)
通過4次不同移動(dòng)窗口的1 000組隨機(jī)實(shí)驗(yàn),得到如表2所示的位于1號(hào)染色體上的顯著區(qū)間的分布情況。從表2可以判斷,突變位點(diǎn)位于1號(hào)染色體的位置區(qū)間范圍為2 853 000 ~ 2 898 000。
利用深度測(cè)序獲取擬南芥野生型和突變型雜交二代群體DNA數(shù)據(jù)。以SNP為分子標(biāo)記,綜合運(yùn)用計(jì)算機(jī)、數(shù)學(xué)、生物統(tǒng)計(jì)學(xué)等方法對(duì)SNP位點(diǎn)進(jìn)行處理、分析,計(jì)算等位基因頻率并進(jìn)行差異顯著分析。預(yù)測(cè)出了目標(biāo)基因或突變位點(diǎn)的位置在1號(hào)染色體的末端,突變位點(diǎn)出現(xiàn)的區(qū)間位置范圍為2 853 000~2 898 000。
[1] 張玲.基于全基因組測(cè)序及外顯子組測(cè)序的食管癌相關(guān)基因篩選及功能鑒定[D].太原:山西醫(yī)科大學(xué),2015:1.
[2] 李維,劉若余,馮艷青,李思,杜雪琴,謝海強(qiáng),肖超能,林家棟.家兔UCP3基因SNP多態(tài)性及生物信息學(xué)分析[J].基因組學(xué)與應(yīng)用生物學(xué),2015,(10):2127-2133.
[3] 王媛,韓如意,蘇玉貞,孫麗,張連民,王晨.人CITED4基因及蛋白的生物信息學(xué)分析[J].生物技術(shù),2016,26(6): 566-573.
[4] 甘秋云.利用深度測(cè)序定位擬南芥突變基因[D].福州:福建農(nóng)林大學(xué),2011:14-18.
Mapping of Arabidopsis Mutant Gene Based on Large Data Analysis of Linux
GAN Qiu-yun
(School of Arts and Sciences, Fuzhou Institute of Technology, Fuzhou 350014, China)
In this paper, Arabidopsis thaliana is taken as an example to obtain massive DNA data by deep sequencing of DNA from the second generation population through wild-type and mutant hybridization. Single nucleotide polymorphism (SNP) detection of sequencing data was conducted by using bioinformatics methods and using SNP as a molecular marker. Significant differences in the frequency of alleles within the genome segment were analyzed by a displacement test. The data of significant differences were statistically tested by biostatistical methods to estimate the location of the mutation site of Arabidopsis thaliana.
gene mutation; gene mapping; allele; high throughput sequencing
TP399
A
1009-9115(2019)03-0060-04
10.3969/j.issn.1009-9115.2019.03.017
2017-09-27
2019-03-04
甘秋云(1986-),女,福建寧德人,碩士,講師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用,數(shù)據(jù)挖掘,生物信息學(xué)。
(責(zé)任編輯、校對(duì):李春香)