亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        真核生物基因組注釋的主要步驟及方法

        2017-02-18 07:15:26孫千代徐杰英
        生物學(xué)教學(xué) 2017年12期
        關(guān)鍵詞:生物方法

        孫千代 徐杰英

        (北京市第九中學(xué) 100041)

        隨著基因組測序技術(shù)的不斷發(fā)展以及測序成本的不斷降低,越來越多的真核生物基因組被測序。然而,基因組序列本身只是一串串由A、T、C、G四個(gè)字母所組成的、枯燥難懂的字符,只有當(dāng)這些字符串的生物學(xué)意義被解讀了,即基因組序列被注釋了,人們才能夠有效地使用基因組序列。由此,在基因組測序完成之后,要做的第一件事就是進(jìn)行基因組注釋(genome annotation)。

        1 基因組組裝質(zhì)量的評(píng)估

        由于基因組組裝得好壞直接決定了基因組注釋的質(zhì)量,所以在進(jìn)行基因組注釋之前,先要評(píng)估一下基因組組裝的質(zhì)量。目前有許多評(píng)價(jià)指標(biāo)可以用來描述基因組組裝的完整性以及連續(xù)性,其中應(yīng)用得最為廣泛的就是N50數(shù)值(整個(gè)基因組序列長度的50%是由長度大于或者等于某個(gè)長度的序列所構(gòu)成的,這個(gè)長度即為N50)。一般來說,N50越長,表示組裝的結(jié)果越好。當(dāng)一個(gè)基因組組裝的N50長度大于或等于這一物種基因的平均長度,那么表示基因組組裝的質(zhì)量不錯(cuò),可以進(jìn)行后續(xù)的注釋工作。此外,有一些軟件(如BUSCO)采用與N50指標(biāo)互補(bǔ)的方法來評(píng)價(jià)基因組組裝的質(zhì)量。它把基因組組裝后的序列與譜系特異性的一套單拷貝基因進(jìn)行對比,來確定這些單拷貝基因完整地出現(xiàn)在一條序列上的百分比,借此來評(píng)價(jià)基因組組裝的完整性以及連續(xù)性。如果一個(gè)基因組組裝得不太完整或者N50太短,則需要額外加測一些序列來提高基因組組裝的結(jié)果,以便于對基因組進(jìn)行注釋[1]。

        2 基因組重復(fù)序列的鑒定

        真核生物的基因組里面有著大量的重復(fù)序列。例如,人類的基因組里有大約47%甚至更多的重復(fù)序列。重復(fù)序列的存在使基因組注釋復(fù)雜化,并且會(huì)使基因注釋的精度大幅降低。因而,在注釋基因組內(nèi)的基因之前,需要對基因組內(nèi)的重復(fù)序列進(jìn)行注釋。目前有兩種主要的鑒定重復(fù)序列的方法,即依據(jù)序列相似性的重復(fù)序列鑒定以及重復(fù)序列的從頭鑒定。在很多情況下,是把兩種方法結(jié)合起來進(jìn)行重復(fù)序列的鑒定。當(dāng)把一個(gè)基因組內(nèi)的重復(fù)序列鑒定出來之后,就可以借助軟件RepeatMasker把該基因組內(nèi)所有的重復(fù)序列都標(biāo)記出來,以幫助下一步的基因注釋軟件跳過這些重復(fù)序列[1]。

        3 基因注釋

        基因組注釋的主要內(nèi)容是:鑒定出基因組內(nèi)的基因,確定基因的結(jié)構(gòu)(內(nèi)含子-外顯子的邊界等),并推斷出基因可能的功能(是否編碼蛋白質(zhì)等)。

        目前主要有兩類方法被用來鑒定基因組內(nèi)的基因,并確定它們的結(jié)構(gòu):第一類方法是把來源于同一物種或者親緣關(guān)系較近物種的蛋白質(zhì)序列、表達(dá)序列標(biāo)簽(EST)或者轉(zhuǎn)錄組序列(RNA-seq)與新組裝的基因組序列進(jìn)行比對,根據(jù)序列比對結(jié)果進(jìn)行基因鑒定和基因結(jié)構(gòu)解析;第二類方法是基于數(shù)學(xué)模型的基因從頭預(yù)測,它利用軟件自帶的參數(shù)文件(包括密碼子使用頻率、外顯子-內(nèi)含子的長度分布等特征),來區(qū)分基因區(qū)與基因間區(qū),確定基因的外顯子-內(nèi)含子結(jié)構(gòu)。基于數(shù)學(xué)模型的基因預(yù)測方法的好處是:當(dāng)一個(gè)新測序的基因組沒有足夠的蛋白質(zhì)序列、表達(dá)序列標(biāo)簽或轉(zhuǎn)錄組序列時(shí)仍然能夠進(jìn)行基因組注釋。但由于軟件所自帶的參數(shù)文件具有物種特異性,而且它們都是來自于非常經(jīng)典的模式生物的基因組。所以,如果所要進(jìn)行基因組注釋的生物與這些模式生物的親緣關(guān)系很遠(yuǎn)時(shí),那么使用基于數(shù)學(xué)模型的基因預(yù)測方法就會(huì)不太準(zhǔn)確。因此,目前主流的做法是分別使用第一類和第二類方法進(jìn)行基因注釋,然后把兩類方法的基因注釋結(jié)果進(jìn)行整合,并利用一些軟件(如GLEAN)來挑選出針對于同一個(gè)基因的“最優(yōu)”注釋[2]。

        4 基因組注釋結(jié)果的釋放

        當(dāng)一個(gè)基因組的注釋工作完成之后,首先要把盡可能全面的注釋信息(如基因的外顯子-內(nèi)含子結(jié)構(gòu)、基因的起始密碼子、終止密碼子、基因的選擇性剪切等)以恰當(dāng)?shù)奈募袷?如GFF3格式)存儲(chǔ)起來;然后將基因組的注釋信息提交給大型的生物信息學(xué)公共數(shù)據(jù)庫(如GenBank 和 Ensembl),或者自己建立一個(gè)小型的數(shù)據(jù)庫,以分享注釋結(jié)果。這樣,基因組注釋的結(jié)果就可以讓更多的人獲得,以促進(jìn)相關(guān)領(lǐng)域的研究工作[2]。

        高質(zhì)量的基因組注釋在重要功能基因的挖掘、致病基因的鑒定以及農(nóng)作物新品種的培育等方面發(fā)揮著巨大的作用。但是,真核生物基因組注釋的工作并不是一勞永逸的,因?yàn)殡S著注釋工具以及測序技術(shù)的不斷發(fā)展,需要不斷地對現(xiàn)有的基因組注釋進(jìn)行周期性的更新。因此,真核生物的基因組注釋工作任重而道遠(yuǎn)。

        猜你喜歡
        生物方法
        生物多樣性
        生物多樣性
        上上生物
        發(fā)現(xiàn)不明生物
        史上“最黑暗”的生物
        軍事文摘(2020年20期)2020-11-28 11:42:50
        第12話 完美生物
        航空世界(2020年10期)2020-01-19 14:36:20
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        av在线色| 午夜熟女插插xx免费视频| 色诱视频在线观看| 国产精品污www一区二区三区| 久久福利青草精品资源| 区三区久久精品水蜜桃av| 丁香婷婷激情视频在线播放| 亚洲春色在线视频| 国产人成精品综合欧美成人| 国产av大片在线观看| 曰日本一级二级三级人人| 特黄大片又粗又大又暴| 日日摸夜夜添狠狠添欧美| 亚洲人成网站www| 偷拍韩国美女洗澡一区二区三区| 成在线人av免费无码高潮喷水 | 国产丝袜免费精品一区二区| 青青草视频在线观看精品在线| 无套中出丰满人妻无码| √天堂中文官网8在线 | 无码国产激情在线观看| 四虎国产精品成人影院| 97精品熟女少妇一区二区三区| 和黑人邻居中文字幕在线| 少妇太爽了在线观看免费视频 | 91精品亚洲一区二区三区| 成人国产精品三上悠亚久久| 国产熟女内射oooo| 国产欧美日产久久| 日本在线播放不卡免费一区二区| 在线精品国产亚洲av蜜桃| 亚洲一区二区三区无码国产| 国产在线不卡视频| 久久精品国产精品亚洲艾| 成年性生交大片免费看| 欧美极品美女| 精品国产又大又黄又粗av| 亚洲黄片av在线播放| 免费观看激色视频网站| 国产欧美另类精品久久久| 成人自拍三级在线观看|