亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

正選擇位點及其計算軟件研究進(jìn)展

2016-03-25 13:54:04夏云顏淵

長江大學(xué)學(xué)報(自科版) 2016年27期

關(guān)鍵詞：同義易用性密碼子

夏云,顏淵

(武漢輕工大學(xué)生物與制藥工程學(xué)院，湖北武漢 430030)

正選擇位點及其計算軟件研究進(jìn)展

夏云,顏淵

(武漢輕工大學(xué)生物與制藥工程學(xué)院，湖北武漢 430030)

隨著分子生物學(xué)實驗技術(shù)的發(fā)展和實驗方法的改進(jìn)，如今已經(jīng)有大量的DNA相關(guān)數(shù)據(jù)。研究者從這些大數(shù)據(jù)中通過生物信息學(xué)的手段尋找關(guān)鍵的信息成為近年來的熱門。介紹了計算正選擇位點相關(guān)軟件的發(fā)展過程及其現(xiàn)狀。

正選擇位點；生物信息；分子進(jìn)化

21世紀(jì)生物學(xué)面臨的一個難題，是弄清選擇作用和堿基替換的關(guān)系，從微觀角度來分析堿基的替換的原因。估算蛋白質(zhì)編碼基因的同義替換和非同義替換的相關(guān)比率是分子水平研究生物體進(jìn)化選擇的常用手段，近年來，越來越多相關(guān)領(lǐng)域的研究者使用該方法來計算正選擇位點，其使用到的相關(guān)軟件也一直在革新。

1 正選擇位點的研究

達(dá)爾文發(fā)表的《物種起源》指出自然選擇是使得物種進(jìn)化的最主要動力。而20世紀(jì)60年代，中性主義學(xué)派代表Kimura(1968)提出了具有爭議的隨機(jī)漂變假說[1]，認(rèn)為在微觀分子水平上，絕大多數(shù)生物的演進(jìn)不是因為自然選擇而引起的，而是因為某種隨機(jī)因素導(dǎo)致的等位基因通過遺傳漂變造成的，即大多數(shù)進(jìn)化中核苷酸替代均是中性或者近中性的隨機(jī)因素突變。Saitou等[2]1987年提出雖然大多數(shù)的堿基替換都是隨機(jī)的，但確實存在部分的選擇性。微觀分子角度的進(jìn)化分析主要分析核苷酸密碼子的替換情況。密碼子的堿基被替換后產(chǎn)生的新密碼子有以下情況：第一種，新的密碼子是同義密碼子，并不影響氨基酸的種類；第二種，新的密碼子改變了氨基酸的表達(dá)。第一種情況被稱為同義替換，第二種被稱為非同義替換。單位時間(每年或每代)內(nèi)在每個可能同義替換的位點上發(fā)生同義替代的數(shù)目被稱為同義替代速率，非同義替代速率類似，分別用DN和DS來表示。DN和DS的比值DN/DS是衡量選擇壓力的分子進(jìn)化參數(shù)，通常用ω表示。非同義替換對于生物體而言大多是有害的，純化選擇(purifying selection)可以使其逐漸減少，純化選擇在數(shù)據(jù)上的體現(xiàn)為DN/DS<1(ω<1),而有些少數(shù)的非同義替換，少數(shù)對于生物體而言是有益的堿基替換會被正選擇作用[3](positive selection)所保留，那么在數(shù)據(jù)上的體現(xiàn)為DN/DS>1(ω>1),另外中性選擇(neutral selection)，DN/DS(ω=1)的期望值為1。

近些年,多數(shù)研究者通過計算DN/DS值來尋找正選擇位點，具有代表性的方法有進(jìn)化通路法(evolutionary pathway methods)[4]、基于Kimura雙參數(shù)模型的方法(Methods based on Kimura’s 2-Parameter model)[5]、密碼子替代模型為代表的最大似然法。近些年最常用的是楊子恒的最大似然法(maximum likelihood)[6]。

2 計算正選擇位點的相關(guān)軟件

1997年，Yang等[7]發(fā)表了最大似然法系統(tǒng)進(jìn)化分析軟件包PAML。2007年，Yang等[8]又發(fā)表了PAML4，通過軟件的迭代，對程序和算法進(jìn)行了優(yōu)化，但是程序仍然不具備圖形操作界面，對于大多數(shù)剛接觸的使用者來說上手難度很大。

2008年，Egan等[9]發(fā)表了IDEA:Interactive Display for Evolutionary Analyses，針對PAML的codeml和baseml 2個程序設(shè)計出圖形化操作界面的軟件IDEA；形象的圖形界面使得相比以前代碼形式的輸入和輸出文件而言，易用性大大提高。IDEA支持并行運算，許多PAML的分析都需要輸入系統(tǒng)發(fā)育樹文件，IDEA的一個好處在于整合了PHYLIP，可以讓使用者在開始分析的時候軟件自行調(diào)取PHYLIP。IDEA最大的好處在于輸出結(jié)果的界面非常直觀，將結(jié)果完全可視化的輸出，不僅用不同顏色表示高概率證選擇位點，而且將PAML不同模型輸出結(jié)果的似然比檢驗值直接顯示在操作界面，省去了使用者部分的工作。

2013年，Xu等[10]發(fā)表了基于可視化圖形操作界面的PLAMX，相較于之前版本，雖然易用性提高了很多，但僅僅是在參數(shù)設(shè)置界面進(jìn)行可視界面化，因此易用性還有很大提升空間。

3 使用正選擇位點計算軟件中遇到的問題

3.1 安裝問題

通常生物信息學(xué)計算軟件都基于Linux環(huán)境，雖然很多軟件有簡易的網(wǎng)頁版，網(wǎng)頁版生物信息軟件有諸多限制，往往研究還是需要用到本地安裝版生物軟件。但很多研究者往往輸入的序列樣本比較龐大，多數(shù)軟件以源代碼的形式給出，大多軟件使用的開源依賴包，軟件所涉及到的依賴包并不包括軟件本身。當(dāng)前國內(nèi)Windows在操作系統(tǒng)中占絕對主導(dǎo)，在此環(huán)境下，對大多數(shù)生物專業(yè)的研究者來說，即便安裝后，缺乏可視化圖形操作界面對于快速掌握生物學(xué)軟件而言仍然有很大障礙。相比于其他的同類軟件，IEDA安裝比較復(fù)雜，涉及到多個依賴包，安裝起來難度很大。

3.2 運算速度問題

在序列量較大、需要測定的次數(shù)較多的情況下，PAML和大多生物信息學(xué)軟件一樣，計算的效率往往較低。其原因是因為近年來隨著測序技術(shù)的發(fā)展，所測基因序列也越多，運算的基因序列越來越長，PAML的計算性能跟不上計算需求。情況與MrBayes等軟件類似，早些年使用MrBayes時運算序列較大的情況下需要數(shù)月的時間才能得出結(jié)果，中間要保持計算機(jī)的運行狀態(tài)，如若中斷，則需要重新進(jìn)行運算。隨后，MrBayes軟件在MacOS環(huán)境下推出了支持多核心多線程的并行運算，用常規(guī)4核心8線程的計算機(jī)進(jìn)行運算，其效率提高了8倍。更值得關(guān)注的是，最近幾年基于GPU的計算應(yīng)用非常多，Mrbayes等生物信息軟件有基于GPU運算的版本。由于GPU計算核心有上千個，充分利用GPU運算可以大大增加運算效率，縮短運行時間。近些年來，相較于CPU計算能力提升而言，GPU的計算能力提高很大，使用GPU并行運算的效率會提高數(shù)十倍。

有些研究者指出，PMAL由于涉及到的模型十分復(fù)雜，參數(shù)眾多，計算非常耗時。對于PMAL中計算正選擇位點的codeml軟件包，有研究者提出了CPU并行方案[11]。通過實際操作實驗表明，多核心CPU并行運行codeml可以使其速度有效提高。使用常規(guī)四核心CPU加速比高達(dá)約8倍。最佳的解決方案是期待將來實現(xiàn)GPU甚至是GPU和CPU一起并行的計算方案。這樣用服務(wù)器CPU和GPU進(jìn)行運算，加速效率應(yīng)該提升數(shù)十倍甚至更高，尤其是在2016年GPU進(jìn)入帕斯卡構(gòu)架[12]后，對于運算性能有質(zhì)的提升，這樣面對當(dāng)下研究者計算大量數(shù)據(jù)速度緩慢的問題可以得到解決。

4 關(guān)于計算正選擇位點相關(guān)軟件的最新進(jìn)展

在2016年，高芳鑾等對原來的PMAL軟件包中最核心的CodeML程序進(jìn)行了革新，推出了適合絕大多數(shù)生物研究者使用的EasyCodeML(Gao F L等. EasyCodeML:an interactive visual tool for CodeML analysis,2016.尚未發(fā)表)。此軟件的優(yōu)點提供2種模式:預(yù)置模式和自定模式。以往的CodeML程序中，晦澀的參數(shù)設(shè)置是大多數(shù)運用正選擇位點相關(guān)軟件的研究者最大障礙之一。軟件的預(yù)置模式內(nèi)置了4種模型，均是以成對模型進(jìn)行運算，解決了繁瑣參數(shù)設(shè)置的問題。軟件的自定義模式和2013年Xu等[10]發(fā)表的PAMLX版本類似，參數(shù)設(shè)置菜單具有圖形輸入界面。相比之前的相關(guān)軟件，EasycodeML支持文件拖拽功能，能可視化標(biāo)記樹的分支，解決了以往軟件手動代碼標(biāo)記易錯的問題。EasyCodeML運算完成后可以自動完成Likelihood ratiotestes(LRT)分析，其結(jié)果可以直接導(dǎo)出Excel，易用性大大提升，非常符合國內(nèi)研究者的使用習(xí)慣。而且軟件不僅支持多線程操作，還支持多平臺，如常見的Windows、Mac OS以及Linux等。近十年來，計算正選擇位點的相關(guān)軟件一直在發(fā)展，易用性逐步提高。可以說EasycodeML在易用性和兼容性上達(dá)到了一個新的高度。

[1]Kimura M.Evolutionary rate at the molecular level[J].Nature,1968,217:624～626.

[2]Saitou N,Nei M.The neighbor-joining method:a new method for reconstructing phylogenetic trees[J].Mol Biol Evol,1987,4:406～425.

[3]Yang Z,Nielsen R. Estimating synonymous and non-synonymous substitution rates under realistic evolutionary models[J].Mol Biol Evol,2000,17:32～43.

[4]NeiM,Gojobori T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions[J].Mol Biol Evol,1986,3:418～426.

[5]Li WH,Wu C I,Luo C C. A new method for estimating synonymous and nonsynonymous rates of nucleotide substitution considering the relative likelihood of nucleotide and codon changes [J]. Mol. Biol. Evol,1985,2:150～174.

[6]Yang Z,Bielawski J P. Statistical methods for detecting molecular adaptation[J].Trends in Ecology and Evolution,2000,15:496～503.

[7]Yang Z. PAML:a program package for phylogenetic analysis by maximum likelihood [J].Computer Applications in Biosciences,1997,13:555～556.

[8]Yang Z. PAML 4:a program package for phylogenetic analysis by maximum likelihood [J].Molecular Biology and Evolution,2007,24:1586～1591.

[9]Egan A,Mahurkar A,Crabtree J，etal.IDEA:Interactive Display for Evolutionary Analyses [J]. BMC Bioinformatics,2008,9:524.

[10]Xu B,Yang Z. PAMLX:a graphical user interface for PAML[J].Mol Biol Evol,2013,30:2723～2724.

[11]楊菊吳,卓鋒,王剛,等.多核平臺PAML并行算法研究[J].計算機(jī)工程與科學(xué),2013,35(9):15～19.

[12]Manuel Ujaldón.CUDA Achievements and GPU Challenges Ahead[J].Articulated Motion and Deformable Objects,2016,9756:207～217.

2016-08-30

夏云(1991-)，男，碩士生，研究方向為分子生物學(xué)， mm800@qq.com。

Q75;Q-31

1673-1409(2016)27-0051-03

[引著格式]夏云,顏淵.正選擇位點及其計算軟件研究進(jìn)展[J].長江大學(xué)學(xué)報(自科版)，2016，13(27)：51～53.