李軼 張雪梅
摘要:美國國立生物技術(shù)信息中心(NCBI)是目前國際上幾個重要的生物信息學(xué)網(wǎng)站之一,Entrez是NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng),BLAST是NCBI開發(fā)的序列相似搜索程序,本文重點介紹如何利用Entrez檢索查詢系統(tǒng)以及BLAST序列相似搜索程序在NCBI的多個數(shù)據(jù)庫中檢索基因/基因編碼產(chǎn)物的功能。
關(guān)鍵詞:NCBI;生物信息學(xué);基因功能;Entrez;BLAST
Abstract:NCBI (National Center for Biotechnology Information) is one of the most important international bioinformatics websites. Entrez is database searching system of NCBI.BLAST is sequence similarity searching program developed by NCBI. This article introduces the skills of searching the function of a gene or gene product by Entrez and BLAST in several database of NCBI.
Key words:NCBI;Bioinformatics;Function of gene;Entrez;BLAST
21世紀(jì)是生命科學(xué)的時代,也是信息時代,生物信息學(xué)在這樣的歷史環(huán)境中孕育而生。美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,簡稱NCBI)是目前國際上幾個重要的生物信息學(xué)網(wǎng)站之一,它的任務(wù)就是發(fā)展新的信息學(xué)技術(shù)以促進醫(yī)學(xué)與生物學(xué)的進展。Entrez是NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng),它是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng);BLAST是NCBI開發(fā)的序列相似搜索程序,可作為鑒別基因和遺傳特點的手段。本文重點介紹如何利用Entrez檢索查詢系統(tǒng)以及BLAST序列相似搜索程序在NCBI的多個數(shù)據(jù)庫中檢索基因/基因編碼產(chǎn)物的功能。
1 NCBI的資源與工具簡介
NCBI的資源簡介[2,5,6]:NCBI的資源主要有以下三類:
第一類文獻型數(shù)據(jù)庫:包括PubMed、PubMed Center、OMIM(孟德爾人類遺傳)、OMIA(動物在線孟德爾遺傳)以及Books(書庫)等。
第二類分子數(shù)據(jù)庫:包括Nucleotide(核酸序列庫)、Protein(蛋白質(zhì)序列庫)、Protein Clusters(蛋白質(zhì)聚類數(shù)據(jù)庫)、Gene(基因數(shù)據(jù)庫)、Structure(結(jié)構(gòu)數(shù)據(jù)庫)、Taxonomy(分類學(xué)數(shù)據(jù)庫)等。其中Nucleotide數(shù)據(jù)庫收錄了目前世界上所有已知的、公開的核酸序列記錄。Protein數(shù)據(jù)庫收錄了目前世界上所有已知的、公開的蛋白質(zhì)序列記錄。Gene數(shù)據(jù)庫提供基因的功能信息以及基因在染色體中的定位情況。
第三類基因組數(shù)據(jù)庫:包括Genome(基因組數(shù)據(jù)庫)、Genome Project(基因組計劃數(shù)據(jù)庫)、Cancer Chromosomes(癌癥染色體數(shù)據(jù)庫)等。
1.2 NCBI的工具簡介 第一類檢索工具:NCBI只有一種檢索工具-Entrez,Entrez是NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng),它是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索PubMed等NCBI的文獻型數(shù)據(jù)庫,還可以檢索Nucleotide和Protein等分子數(shù)據(jù)庫,以及基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集等[1]。
第二類數(shù)據(jù)分析工具:包括BLAST、Map Viewer、Model Maker、Electronic PCR(e-PCR)、Spidey、Splign等。其中BLAST是一種進行序列相似性搜索的程序,它可以對核酸序列或蛋白質(zhì)序列進行分析[3,9]。
第三類下載工具:NCBI提供多個數(shù)據(jù)庫與多種工具的下載,包括Nucleotide Sequence、Protein Sequence和BLAST等。
2如何利用NCBI的資源與工具檢索基因/基因編碼產(chǎn)物的功能
2.1 使用基因名稱進行檢索 如果知道基因名稱,可以在NCBI主頁上的Entrez檢索系統(tǒng)中選擇所要檢索的數(shù)據(jù)庫為Gene,然后在檢索輸入框內(nèi)輸入基因名稱,就可以得到該基因的功能信息和定位情況,以及相關(guān)的文獻目錄。
為了提高檢索的檢準(zhǔn)率,檢索用戶在進行上述檢索的時候,應(yīng)該進行強制短語檢索,即在Entrez檢索框內(nèi)用雙引號將檢索詞括起來,這樣Entrez檢索系統(tǒng)才會將檢索詞作為一個單詞來進行檢索,否則,Entrez檢索系統(tǒng)會在各單詞之間按照"and"邏輯關(guān)系自動執(zhí)行布爾邏輯運算,導(dǎo)致檢準(zhǔn)率降低。同時檢索用戶在進行檢索時應(yīng)輸入基因名稱的檢索限定詞[GENE],限定輸入的檢索詞為基因名稱,可以進一步提高檢索的檢準(zhǔn)率[1]。
2.2 使用序列接受號進行檢索 NCBI的序列數(shù)據(jù)有兩種特殊標(biāo)志符,一種叫序列辨認(rèn)號(GI),是一串阿拉伯?dāng)?shù)字,當(dāng)序列被修改后,NCBI會給新的序列指定一個新的GI號碼。第二種叫序列接受號(Accession),一條序列記錄只有一個唯一的序列接受號,當(dāng)序列被修改后,序列接受號仍然不變。Entrez檢索系統(tǒng)允許通過序列接受號進行檢索(可輸入或不輸入檢索限定詞,因為Entrez檢索系統(tǒng)能自動識別序列接受號),而且序列接受號會在已發(fā)表的文獻中出現(xiàn),所以知道了序列接受號,檢索用戶就可以進行檢索了[1]。
如果已知序列接受號,要檢索基因功能或基因編碼產(chǎn)物功能,則在NCBI主頁的Entrez檢索系統(tǒng)中選擇所要檢索的數(shù)據(jù)庫為全數(shù)據(jù)庫檢索,然后輸入序列接受號,檢索界面會返回所有數(shù)據(jù)庫的檢索結(jié)果。這時會出現(xiàn)兩種情況:第一種情況是在Gene數(shù)據(jù)庫中有檢索結(jié)果,如果在Gene數(shù)據(jù)庫中找到檢索結(jié)果則可以直接察看結(jié)果;第二種情況是在Gene數(shù)據(jù)庫中沒有找到檢索結(jié)果,那么察看Nucleotide或Protein數(shù)據(jù)庫的檢索結(jié)果(如果檢索用戶在Entrez檢索系統(tǒng)中輸入的是核酸序列的序列接受號,則在Nucleotide數(shù)據(jù)庫中能檢索到結(jié)果;如果檢索用戶在Entrez檢索系統(tǒng)中輸入的是蛋白質(zhì)序列的序列接受號,則在Protein數(shù)據(jù)庫中能檢索到結(jié)果)。endprint
針對第二種情況,點擊Nucleotide或Protein數(shù)據(jù)庫的檢索結(jié)果,在數(shù)據(jù)庫的檢索結(jié)果顯示界面可以看到序列的相關(guān)信息。這時又可能會出現(xiàn)兩種情況:第一種情況是在檢索結(jié)果的顯示界面的右方會出現(xiàn)一個鏈接"More about the XXX gene",那么可以直接點擊鏈接察看相關(guān)的基因功能信息;第二種情況是在檢索結(jié)果的顯示界面的右方?jīng)]有"More about the XXX gene"的鏈接,那么如果檢索的是蛋白質(zhì)序列,則可以點擊Protein數(shù)據(jù)庫檢索結(jié)果顯示界面的右方的"Analyze this sequence"按鍵下的"Identify Conserved Domains"按鍵,系統(tǒng)將返回一個關(guān)于該蛋白質(zhì)功能區(qū)域的信息列表;如果檢索的是核酸序列,則可以點擊Nucleotide數(shù)據(jù)庫檢索結(jié)果顯示界面的右方的"All Links to this Record"按鍵察看相關(guān)的序列、蛋白質(zhì)或PubMed相關(guān)的參考信息,甚至還可以運行BLAST程序來進行序列相似性分析,然后再在分析結(jié)果中進一步查找基因的功能信息,具體方法在2.3中進行介紹。
2.3 使用序列進行檢索 在使用序列進行檢索時,檢索用戶必須要使用到BLAST。BLAST是NCBI開發(fā)的序列相似性搜索程序,可作為鑒別基因和遺傳特點的手段。BLAST分為5種,包括blastn(nucleotide blast),blastp(protein blast),blastx,tblastn和tblastx。其中blastn是核酸序列到核酸庫中的一種查詢,庫中存在的每條已知序列都將同所查詢序列作一對一地核酸序列比對;blastp是蛋白質(zhì)序列到蛋白質(zhì)庫中的一種查詢,庫中存在的每條已知序列將逐一地同每條所查詢序列作一對一的序列比對;blastx是核酸序列到蛋白質(zhì)序列庫中的一種查詢,先將核酸序列翻譯成蛋白質(zhì)序列,再對每一條蛋白質(zhì)序列作一對一的蛋白質(zhì)序列比對;tblastn是蛋白質(zhì)序列到核酸庫中的一種查詢,與blastx相反,它是將庫中的核酸序列翻譯成蛋白質(zhì)序列,再同所查詢序列作蛋白質(zhì)序列與蛋白質(zhì)序列的比對;tblastx是核酸序列到核酸庫中的一種查詢,此種查詢是將庫中的核酸序列和所查詢的核酸序列都翻譯成蛋白質(zhì)序列再做一對一的比對[4,7,8]。
如果檢索的序列是蛋白質(zhì)序列,則選擇blastp進行序列相似性分析,檢索結(jié)果會返回與查詢序列相似的蛋白質(zhì)序列,這時選擇相似序列的序列接受號,重復(fù)2.2的操作進一步察看該序列的功能信息。
如果檢索的序列是核酸序列,則選擇blastn或blastx進行序列相似性分析,檢索結(jié)果會返回與查詢序列相似的核酸序列或翻譯的蛋白質(zhì)序列,有些檢索結(jié)果可能有直接的鏈接鏈接到Gene數(shù)據(jù)庫,那么可以直接察看Gene數(shù)據(jù)庫的檢索結(jié)果;如果沒有直接的鏈接,則可以選擇相似序列的序列接受號,重復(fù)2.2的操作進一步察看該序列的功能信息。
參考文獻:
[1]李軼.GenBank數(shù)據(jù)庫檢索及其應(yīng)用--Entrez檢索功能[J].中華醫(yī)學(xué)圖書情報雜志,2008,17(5):49-51.
[2]饒冬梅.NCBI數(shù)據(jù)庫及其資源的獲取[J].科技視界,2013,07:53-54.
[3]王哲,黃高升.NCBI的數(shù)據(jù)庫資源及其應(yīng)用[J].生命科學(xué),2002,14(1):59-62.
[4]張見影,倫志軍,李正紅.NCBI基因序列數(shù)據(jù)庫使用和檢索方法[J].現(xiàn)代情報,2003,12:224-225.
[5]葉協(xié)杰,婁長春.Entrez集成化數(shù)據(jù)庫系統(tǒng)功能和檢索技巧[J].醫(yī)學(xué)情報工作,2004,06:428-430.
[6]黃春燕,韋成禮,樊妙姬.美國NCBI網(wǎng)站Entrez資源整合系統(tǒng)的檢索與利用[J].情報雜志,2003,04:78-79,82.
[7]宋凌云.序列相似性檢索工具BLAST的使用和檢索[J].情報探索,2008,04:74-75.
[8]丁六松,張宇偉.BLAST序列比對與生物醫(yī)學(xué)文獻檢索[J].情報檢索,2003,04:74-75.
[9]孫金立,梁蜀忠,李希明.生物信息檢索在醫(yī)學(xué)中的應(yīng)用[C].中國儀器儀表學(xué)會醫(yī)療儀器分會2010兩岸四地生物醫(yī)學(xué)工程學(xué)術(shù)年會論文集.
[10]楊春華,王桂芝,王志萍.NCBI的Entrez系統(tǒng)檢索技巧[J].現(xiàn)代圖書情報技術(shù),2003(年刊):80-81.編輯/申磊endprint
醫(yī)學(xué)信息2014年38期