夏云,顏淵
(武漢輕工大學(xué)生物與制藥工程學(xué)院,湖北 武漢 430030)
?
正選擇位點及其計算軟件研究進(jìn)展
夏云,顏淵
(武漢輕工大學(xué)生物與制藥工程學(xué)院,湖北 武漢 430030)
隨著分子生物學(xué)實驗技術(shù)的發(fā)展和實驗方法的改進(jìn),如今已經(jīng)有大量的DNA相關(guān)數(shù)據(jù)。研究者從這些大數(shù)據(jù)中通過生物信息學(xué)的手段尋找關(guān)鍵的信息成為近年來的熱門。介紹了計算正選擇位點相關(guān)軟件的發(fā)展過程及其現(xiàn)狀。
正選擇位點;生物信息;分子進(jìn)化
21世紀(jì)生物學(xué)面臨的一個難題,是弄清選擇作用和堿基替換的關(guān)系,從微觀角度來分析堿基的替換的原因。估算蛋白質(zhì)編碼基因的同義替換和非同義替換的相關(guān)比率是分子水平研究生物體進(jìn)化選擇的常用手段,近年來,越來越多相關(guān)領(lǐng)域的研究者使用該方法來計算正選擇位點,其使用到的相關(guān)軟件也一直在革新。
達(dá)爾文發(fā)表的《物種起源》指出自然選擇是使得物種進(jìn)化的最主要動力。而20世紀(jì)60年代,中性主義學(xué)派代表Kimura(1968)提出了具有爭議的隨機(jī)漂變假說[1],認(rèn)為在微觀分子水平上,絕大多數(shù)生物的演進(jìn)不是因為自然選擇而引起的,而是因為某種隨機(jī)因素導(dǎo)致的等位基因通過遺傳漂變造成的,即大多數(shù)進(jìn)化中核苷酸替代均是中性或者近中性的隨機(jī)因素突變。Saitou等[2]1987年提出雖然大多數(shù)的堿基替換都是隨機(jī)的,但確實存在部分的選擇性。微觀分子角度的進(jìn)化分析主要分析核苷酸密碼子的替換情況。密碼子的堿基被替換后產(chǎn)生的新密碼子有以下情況:第一種,新的密碼子是同義密碼子,并不影響氨基酸的種類;第二種,新的密碼子改變了氨基酸的表達(dá)。第一種情況被稱為同義替換,第二種被稱為非同義替換。單位時間(每年或每代)內(nèi)在每個可能同義替換的位點上發(fā)生同義替代的數(shù)目被稱為同義替代速率,非同義替代速率類似,分別用DN和DS來表示。DN和DS的比值DN/DS是衡量選擇壓力的分子進(jìn)化參數(shù),通常用ω表示。非同義替換對于生物體而言大多是有害的,純化選擇(purifying selection)可以使其逐漸減少,純化選擇在數(shù)據(jù)上的體現(xiàn)為DN/DS<1(ω<1),而有些少數(shù)的非同義替換,少數(shù)對于生物體而言是有益的堿基替換會被正選擇作用[3](positive selection)所保留,那么在數(shù)據(jù)上的體現(xiàn)為DN/DS>1(ω>1),另外中性選擇(neutral selection),DN/DS(ω=1)的期望值為1。
近些年,多數(shù)研究者通過計算DN/DS值來尋找正選擇位點,具有代表性的方法有進(jìn)化通路法(evolutionary pathway methods)[4]、基于Kimura雙參數(shù)模型的方法(Methods based on Kimura’s 2-Parameter model)[5]、密碼子替代模型為代表的最大似然法。近些年最常用的是楊子恒的最大似然法(maximum likelihood)[6]。
1997年,Yang等[7]發(fā)表了最大似然法系統(tǒng)進(jìn)化分析軟件包PAML。2007年,Yang等[8]又發(fā)表了PAML4,通過軟件的迭代,對程序和算法進(jìn)行了優(yōu)化,但是程序仍然不具備圖形操作界面,對于大多數(shù)剛接觸的使用者來說上手難度很大。
2008年,Egan等[9]發(fā)表了IDEA:Interactive Display for Evolutionary Analyses,針對PAML的codeml和baseml 2個程序設(shè)計出圖形化操作界面的軟件IDEA;形象的圖形界面使得相比以前代碼形式的輸入和輸出文件而言,易用性大大提高。IDEA支持并行運算,許多PAML的分析都需要輸入系統(tǒng)發(fā)育樹文件,IDEA的一個好處在于整合了PHYLIP,可以讓使用者在開始分析的時候軟件自行調(diào)取PHYLIP。IDEA最大的好處在于輸出結(jié)果的界面非常直觀,將結(jié)果完全可視化的輸出,不僅用不同顏色表示高概率證選擇位點,而且將PAML不同模型輸出結(jié)果的似然比檢驗值直接顯示在操作界面,省去了使用者部分的工作。
2013年,Xu等[10]發(fā)表了基于可視化圖形操作界面的PLAMX,相較于之前版本,雖然易用性提高了很多,但僅僅是在參數(shù)設(shè)置界面進(jìn)行可視界面化,因此易用性還有很大提升空間。
3.1 安裝問題
通常生物信息學(xué)計算軟件都基于Linux環(huán)境,雖然很多軟件有簡易的網(wǎng)頁版,網(wǎng)頁版生物信息軟件有諸多限制,往往研究還是需要用到本地安裝版生物軟件。但很多研究者往往輸入的序列樣本比較龐大,多數(shù)軟件以源代碼的形式給出,大多軟件使用的開源依賴包,軟件所涉及到的依賴包并不包括軟件本身。當(dāng)前國內(nèi)Windows在操作系統(tǒng)中占絕對主導(dǎo),在此環(huán)境下,對大多數(shù)生物專業(yè)的研究者來說,即便安裝后,缺乏可視化圖形操作界面對于快速掌握生物學(xué)軟件而言仍然有很大障礙。相比于其他的同類軟件,IEDA安裝比較復(fù)雜,涉及到多個依賴包,安裝起來難度很大。
3.2 運算速度問題
在序列量較大、需要測定的次數(shù)較多的情況下,PAML和大多生物信息學(xué)軟件一樣,計算的效率往往較低。其原因是因為近年來隨著測序技術(shù)的發(fā)展,所測基因序列也越多,運算的基因序列越來越長,PAML的計算性能跟不上計算需求。情況與MrBayes等軟件類似,早些年使用MrBayes時運算序列較大的情況下需要數(shù)月的時間才能得出結(jié)果,中間要保持計算機(jī)的運行狀態(tài),如若中斷,則需要重新進(jìn)行運算。隨后,MrBayes軟件在MacOS環(huán)境下推出了支持多核心多線程的并行運算,用常規(guī)4核心8線程的計算機(jī)進(jìn)行運算,其效率提高了8倍。更值得關(guān)注的是,最近幾年基于GPU的計算應(yīng)用非常多,Mrbayes等生物信息軟件有基于GPU運算的版本。由于GPU計算核心有上千個,充分利用GPU運算可以大大增加運算效率,縮短運行時間。近些年來,相較于CPU計算能力提升而言,GPU的計算能力提高很大,使用GPU并行運算的效率會提高數(shù)十倍。
有些研究者指出,PMAL由于涉及到的模型十分復(fù)雜,參數(shù)眾多,計算非常耗時。對于PMAL中計算正選擇位點的codeml軟件包,有研究者提出了CPU并行方案[11]。通過實際操作實驗表明,多核心CPU并行運行codeml可以使其速度有效提高。使用常規(guī)四核心CPU加速比高達(dá)約8倍。最佳的解決方案是期待將來實現(xiàn)GPU甚至是GPU和CPU一起并行的計算方案。這樣用服務(wù)器CPU和GPU進(jìn)行運算,加速效率應(yīng)該提升數(shù)十倍甚至更高,尤其是在2016年GPU進(jìn)入帕斯卡構(gòu)架[12]后,對于運算性能有質(zhì)的提升,這樣面對當(dāng)下研究者計算大量數(shù)據(jù)速度緩慢的問題可以得到解決。
在2016年,高芳鑾等對原來的PMAL軟件包中最核心的CodeML程序進(jìn)行了革新,推出了適合絕大多數(shù)生物研究者使用的EasyCodeML(Gao F L等. EasyCodeML:an interactive visual tool for CodeML analysis,2016.尚未發(fā)表)。此軟件的優(yōu)點提供2種模式:預(yù)置模式和自定模式。以往的CodeML程序中,晦澀的參數(shù)設(shè)置是大多數(shù)運用正選擇位點相關(guān)軟件的研究者最大障礙之一。軟件的預(yù)置模式內(nèi)置了4種模型,均是以成對模型進(jìn)行運算,解決了繁瑣參數(shù)設(shè)置的問題。軟件的自定義模式和2013年Xu等[10]發(fā)表的PAMLX版本類似,參數(shù)設(shè)置菜單具有圖形輸入界面。相比之前的相關(guān)軟件,EasycodeML支持文件拖拽功能,能可視化標(biāo)記樹的分支,解決了以往軟件手動代碼標(biāo)記易錯的問題。EasyCodeML運算完成后可以自動完成Likelihood ratiotestes(LRT)分析,其結(jié)果可以直接導(dǎo)出Excel,易用性大大提升,非常符合國內(nèi)研究者的使用習(xí)慣。而且軟件不僅支持多線程操作,還支持多平臺,如常見的Windows、Mac OS以及Linux等。近十年來,計算正選擇位點的相關(guān)軟件一直在發(fā)展,易用性逐步提高。可以說EasycodeML在易用性和兼容性上達(dá)到了一個新的高度。
[1]Kimura M.Evolutionary rate at the molecular level[J].Nature,1968,217:624~626.
[2]Saitou N,Nei M.The neighbor-joining method:a new method for reconstructing phylogenetic trees[J].Mol Biol Evol,1987,4:406~425.
[3]Yang Z,Nielsen R. Estimating synonymous and non-synonymous substitution rates under realistic evolutionary models[J].Mol Biol Evol,2000,17:32~43.
[4]NeiM,Gojobori T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions[J].Mol Biol Evol,1986,3:418~426.
[5]Li WH,Wu C I,Luo C C. A new method for estimating synonymous and nonsynonymous rates of nucleotide substitution considering the relative likelihood of nucleotide and codon changes [J]. Mol. Biol. Evol,1985,2:150~174.
[6]Yang Z,Bielawski J P. Statistical methods for detecting molecular adaptation[J].Trends in Ecology and Evolution,2000,15:496~503.
[7]Yang Z. PAML:a program package for phylogenetic analysis by maximum likelihood [J].Computer Applications in Biosciences,1997,13:555~556.
[8]Yang Z. PAML 4:a program package for phylogenetic analysis by maximum likelihood [J].Molecular Biology and Evolution,2007,24:1586~1591.
[9]Egan A,Mahurkar A,Crabtree J,etal.IDEA:Interactive Display for Evolutionary Analyses [J]. BMC Bioinformatics,2008,9:524.
[10]Xu B,Yang Z. PAMLX:a graphical user interface for PAML[J].Mol Biol Evol,2013,30:2723~2724.
[11]楊菊吳,卓鋒,王剛,等.多核平臺PAML并行算法研究[J].計算機(jī)工程與科學(xué),2013,35(9):15~19.
[12]Manuel Ujaldón.CUDA Achievements and GPU Challenges Ahead[J].Articulated Motion and Deformable Objects,2016,9756:207~217.
2016-08-30
夏云(1991-),男,碩士生,研究方向為分子生物學(xué), mm800@qq.com。
Q75;Q-31
A
1673-1409(2016)27-0051-03
[引著格式]夏云,顏淵.正選擇位點及其計算軟件研究進(jìn)展[J].長江大學(xué)學(xué)報(自科版),2016,13(27):51~53.