徐曉捷,計(jì)得偉,張欣悅,張無(wú)忌,張會(huì)雄*
(1.電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院,神經(jīng)信息教育部重點(diǎn)實(shí)驗(yàn)室,成都610054;
2.電子科技大學(xué)信息醫(yī)學(xué)中心,成都 610054;
3. 成都中醫(yī)藥大學(xué)針灸推拿學(xué)院,成都610000)
牙齦卟啉單胞菌編碼基因重注釋研究
徐曉捷1,2,計(jì)得偉1,2,張欣悅3,張無(wú)忌1,2,張會(huì)雄1,2*
(1.電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院,神經(jīng)信息教育部重點(diǎn)實(shí)驗(yàn)室,成都610054;
2.電子科技大學(xué)信息醫(yī)學(xué)中心,成都 610054;
3. 成都中醫(yī)藥大學(xué)針灸推拿學(xué)院,成都610000)
摘要:為了確保牙齦卟啉單胞菌生物大分子信息的準(zhǔn)確性,對(duì)NCBI數(shù)據(jù)庫(kù)中的3株牙齦卟啉單胞菌的注釋信息進(jìn)行研究。首先,準(zhǔn)備好蛋白質(zhì)編碼與非編碼序列正負(fù)樣本,用基于Z曲線理論的Fisher判別法對(duì)正負(fù)樣本集進(jìn)行訓(xùn)練,確定一個(gè)判斷ORF編碼或非編碼的閾值t0,由閾值作為判別條件來(lái)識(shí)別所有的ORFs,判斷基因片段是否具有編碼蛋白質(zhì)的功能,由此閾值為判別標(biāo)準(zhǔn)排除掉3株牙齦卟啉單胞菌基因組中錯(cuò)誤的基因注釋信息。然后,用Prodigal基因預(yù)測(cè)軟件對(duì)牙齦卟啉單胞菌進(jìn)行基因預(yù)測(cè),基因預(yù)測(cè)結(jié)果與原始功能已知基因進(jìn)行比對(duì),挑選出具有不同5’終端的ORFs,將這些具有不同5’終端的ORFs與功能已知的基因片段進(jìn)行比對(duì),找到重疊率小于20%的候選基因。最后,對(duì)這些候選基因用Blast進(jìn)行序列比對(duì)找到滿足條件的新基因,并為這些新基因添加功能注釋信息?;谝陨戏椒ü才懦?17個(gè)非編碼的開(kāi)放式閱讀框,并找到了30個(gè)NCBI數(shù)據(jù)庫(kù)中缺失的編碼蛋白質(zhì)的新基因。
關(guān)鍵詞:牙周?。谎例l卟啉單胞菌;基因重注釋;新基因
牙周疾病是常見(jiàn)的危害人類牙齒的主要口腔疾病。而牙齦卟啉單胞菌被認(rèn)為是牙周疾病最重要的致病菌之一,與多種牙周疾病有密切關(guān)系。牙周炎是一種慢性口腔疾病,破壞牙齒支持組織,包括膠原蛋白、纖維和骨骼。牙周疾病是由細(xì)菌引起的一類感染性疾病,而牙齦卟啉單胞菌(Porphyromonasgingivalis,P.gingivalis)被認(rèn)為是牙周疾病最重要的致病菌之一。且與成年人、青少年的牙周炎、牙周膿腫、牙槽骨膿腫、牙髓感染以及難治性牙周炎有關(guān)。牙齦卟啉單胞菌是牙周病細(xì)菌病因?qū)W研究的熱點(diǎn)[1]。牙齦卟啉單胞菌不僅可以引起發(fā)炎,它還與動(dòng)脈粥樣硬化以及肥胖病的發(fā)生有關(guān)[2-5],且牙齦卟啉單胞菌引起的口腔感染能夠通過(guò)侵犯主動(dòng)脈的組織循環(huán)加速內(nèi)皮細(xì)胞凋亡[5],造成內(nèi)皮功能紊亂,許多研究描述了牙周炎導(dǎo)致內(nèi)皮功能障礙,可通過(guò)牙周治療來(lái)改善內(nèi)皮功能[6]。Curtis等發(fā)現(xiàn),在牙齦卟啉單胞菌W50菌株的55-kDa大外膜上存在著一個(gè)由重組活化基因(Recombination activation gene, rag)B編碼的相對(duì)分子質(zhì)量為免疫顯性表面抗原,與牙周病患者的免疫球蛋白G抗體能否發(fā)揮作用有密切關(guān)系[7]。通過(guò)揭示牙齦卟啉單胞菌生物大分子(如核酸、蛋白質(zhì)等)的結(jié)構(gòu),并探索其在遺傳信息和細(xì)胞信息的傳遞方式,有助于研究牙齦卟啉單胞菌的致病機(jī)理,為研究牙周疾病提供依據(jù)。
在基因組公共數(shù)據(jù)庫(kù)中已有牙齦卟啉單胞菌基因組的功能注釋信息,但是由于很多原因,都有可能造成基因組注釋出現(xiàn)有蛋白質(zhì)功能編碼基因被丟棄,或非編碼蛋白質(zhì)功能編碼基因被錯(cuò)誤標(biāo)記為功能編碼部分的情況出現(xiàn)??赡墚?dāng)時(shí)基因組數(shù)據(jù)庫(kù)數(shù)據(jù)量的局限性,或相似基因注釋存在錯(cuò)誤等,導(dǎo)致基因預(yù)測(cè)軟件會(huì)產(chǎn)生一部分錯(cuò)誤注釋的基因,即非編碼的開(kāi)放式閱讀框被預(yù)測(cè)為編碼基因。這就需要研究人員定期對(duì)基因組注釋信息進(jìn)行更新。如Bocs等就在26個(gè)原核生物全基因組中就發(fā)現(xiàn)34%的基因是被錯(cuò)誤注釋的[8]。還有一種情況是一些真正編碼蛋白質(zhì)的基因,由于種種原因卻被丟棄掉了,可以通過(guò)一些從頭預(yù)測(cè)的基因查找工具結(jié)合基因相似性比對(duì)來(lái)探測(cè)這些基因并為它們添加正確的生物功能信息。近幾年,隨著基因測(cè)序技術(shù)的快速發(fā)展,尤其是第二代基因測(cè)序技術(shù)的出現(xiàn),越來(lái)越多的微生物基因組完成了測(cè)序,并被上傳至公共核苷酸數(shù)據(jù)庫(kù)。大量的基因序列數(shù)據(jù)為人們挖掘更多的生物信息提供了絕佳的機(jī)會(huì)。與此同時(shí),這也對(duì)基因注釋信息的準(zhǔn)確性提出了更高的要求[9]。如果一個(gè)物種的基因組注釋出現(xiàn)了錯(cuò)誤,那么不僅會(huì)影響基于此基因組的后續(xù)研究工作,還可能導(dǎo)致與此基因組具有親緣關(guān)系的其他基因組的相關(guān)研究工作出現(xiàn)問(wèn)題,因此為了保證基因注釋信息的準(zhǔn)確性,需要對(duì)數(shù)據(jù)庫(kù)中已測(cè)序基因組的注釋信息進(jìn)行定期的檢查[10]。
針對(duì)以上問(wèn)題,下載了NCBI數(shù)據(jù)庫(kù)中最新的牙齦卟啉單胞菌全基因組的注釋信息,用基于Z曲線理論的Fisher判別法識(shí)別假設(shè)基因,排除3株牙齦卟啉單胞菌數(shù)據(jù)庫(kù)中被錯(cuò)誤注釋的假陽(yáng)性的開(kāi)放式閱讀框(Open reading frames, ORFs),共排除了117個(gè)非編碼ORFs。增加新基因,即一些真正的能編碼蛋白質(zhì)的基因,由于種種原因被丟棄掉了,需要用基因預(yù)測(cè)工具并結(jié)合基因相似性比對(duì),或通過(guò)實(shí)驗(yàn)手段探測(cè)這些數(shù)據(jù)庫(kù)中丟失的基因并為它們添加正確的生物功能注釋信息。如Zhou等就通過(guò)轉(zhuǎn)錄分析和相似性搜索相結(jié)合的方法為野油菜黃單胞菌(Xanthomonascampestris)添加了306個(gè)新蛋白編碼基因[11]。用Prodigal基因預(yù)測(cè)軟件對(duì)3株牙齦卟啉單胞菌進(jìn)行基因預(yù)測(cè),把預(yù)測(cè)基因與原始基因注釋信息進(jìn)行比對(duì),保留重疊率低于20%的預(yù)測(cè)基因?yàn)楹蜻x基因,并通過(guò)Blast對(duì)候選基因進(jìn)行比對(duì),滿足條件的則被認(rèn)為是要找的新基因,共找到了30個(gè)NCBI數(shù)據(jù)庫(kù)中缺失的新基因。
1材料和方法
本研究所用的數(shù)據(jù)主要由兩部分組成,一部分是牙齦卟啉單胞菌的全基因組各染色體DNA序列文件(文件擴(kuò)展名為fna),另一部分是該物種對(duì)應(yīng)的基因在染色體上的位置分布及編碼蛋白質(zhì)功能信息等基因注釋數(shù)據(jù)(文件擴(kuò)展名為ptt)。這兩部分?jǐn)?shù)據(jù)都可以從美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)所提供的核酸序列公開(kāi)數(shù)據(jù)庫(kù)(GenBank)的Ftp下載中心(ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria/)獲得。牙齦卟啉單胞菌全基因組總共包括3個(gè),均是完全測(cè)序且在2014年7月之前下載的,它們的全名依次是:PORPHYROMONAS_GINGIVALIS_ATCC_33277_UID58879,PORPTYROMONAS_GINGIVALIS_TDC60_UID67407,PORPHYROMONAS_GINGIVALIS_W83_UID57641,對(duì)應(yīng)的參考序列號(hào)為:NC_010729,NC_015571,NC_002950。
基因組注釋文件中包含基因片段編碼蛋白質(zhì)功能的描述信息,根據(jù)這些描述信息把基因分為三類。第一類是具有明確功能描述的基因,此類基因一般會(huì)有確定的基因名稱,如gyrB表示DNA旋轉(zhuǎn)酶B亞單位的編碼蛋白質(zhì)。第三類是功能描述為Hypothetical Protein的基因,即在基因注釋中不能確定功能信息的假設(shè)基因。余下的基因歸為第二類基因,一般是在注釋文件中具有Family、Putative、Domain等描述詞的基因。而第三類基因中還不確定哪些基因真正具有蛋白質(zhì)編碼功能,哪些不具有蛋白質(zhì)編碼功能。因此本文將重點(diǎn)關(guān)注第三類基因。
要排除基因注釋中的非編碼ORFs,關(guān)鍵在于建立一個(gè)模型和識(shí)別方法對(duì)所有需要驗(yàn)證的ORFs進(jìn)行判定。Z-fisher是基于Z曲線理論對(duì)假設(shè)基因進(jìn)行檢驗(yàn)并排除非編碼ORFs[12, 13]。在任意一個(gè)基因序列片段或ORF中,把基因序列分為3個(gè)相位,第1相位對(duì)應(yīng)第1、4、7、…個(gè)堿基所在的位置;第2相位對(duì)應(yīng)第2、5、8、…個(gè)堿基所在的位置;第3相位對(duì)應(yīng)第3、6、9、…個(gè)堿基所在的位置。根據(jù)基因序列的Z變換原理,任意一個(gè)基因片段或ORF可由33位空間中的一個(gè)點(diǎn)來(lái)標(biāo)識(shí),這33個(gè)分量將用作基因編碼區(qū)的識(shí)別變量。具體理論基礎(chǔ)和實(shí)現(xiàn)過(guò)程可參考文獻(xiàn)[12-13]。
在重注釋過(guò)程中首先要排除錯(cuò)誤注釋的基因信息。基于從頭預(yù)測(cè)的基因預(yù)測(cè)軟件(Gene finder)會(huì)產(chǎn)生一部分錯(cuò)誤注釋的基因,即非編碼ORFs被預(yù)測(cè)為編碼基因,這部分基因需要從注釋文件中刪除。對(duì)于本步驟過(guò)程的討論可以參考文獻(xiàn)[9]。Zfisher是專業(yè)為檢查和排除細(xì)菌或古細(xì)菌非編碼ORFs而設(shè)計(jì)的開(kāi)源服務(wù)系統(tǒng),可在http://147.8.74.24/Zfisher/獲得[9],步驟見(jiàn)圖1。
圖1 判斷第三類基因中的基因序列是否編碼蛋白質(zhì)的流程圖Fig.1 The flowchart of judging the gene sequence whetherencoding the protein or not
在對(duì)已測(cè)序的基因組進(jìn)行注釋的過(guò)程中,為了保證較低的假陽(yáng)性,一些真正編碼蛋白質(zhì)的基因可能會(huì)被遺漏。本研究中使用Blast在線服務(wù)中的Blastx程序?qū)λ泻蜻x基因的核苷酸序列進(jìn)行查詢。如果一個(gè)候選基因的Blast結(jié)果同時(shí)滿足以下4個(gè)條件:(1) Evalue<1×10-20,(2) Query Cover>60%,(3) Ident>50%,(4) 候選基因與同源相似基因的長(zhǎng)度差<20%,則此候選基因是要找的新基因[9],并為這些新基因添加正確的基因功能信息,具體實(shí)現(xiàn)步驟見(jiàn)圖2。
圖2 用Prodigal基因預(yù)測(cè)軟件對(duì)牙齦卟啉單胞菌的基因預(yù)測(cè)及發(fā)現(xiàn)新基因的過(guò)程Fig.2 The process of predicting the candidate genesfrom P.gingivalis uesed Prodigal gene predictionsoftware and discovery new genes
2結(jié)果與討論
在對(duì)牙齦卟啉單胞菌基因組進(jìn)行重注釋之前,先對(duì)基因組大小與基因數(shù)目之間的關(guān)系進(jìn)行統(tǒng)計(jì)分析,本文中用到了2 638個(gè)細(xì)菌或古細(xì)菌的全基因序列及對(duì)應(yīng)的基因注釋信息(包括3個(gè)牙齦卟啉單胞菌)作為統(tǒng)計(jì)分析對(duì)象,根據(jù)物種的基因組注釋信息可以統(tǒng)計(jì)出每個(gè)染色體的大小及注釋的基因數(shù)目,并繪制二者的散點(diǎn)分布圖(見(jiàn)圖3)。圖中x軸表示基因組的大小(單位為kb),y軸表示基因數(shù)目,從圖中可以發(fā)現(xiàn)這2 638個(gè)細(xì)菌或古細(xì)菌的基因組大小與基因數(shù)目之間具有很強(qiáng)的正相關(guān)性(相關(guān)系數(shù)R=0.994),這說(shuō)明隨著物種基因組的增大,其包含的基因數(shù)目也應(yīng)該隨之增多。Mira等也提出,與真核生物相比,大部分原核生物(包括細(xì)菌和古細(xì)菌等)的編碼蛋白質(zhì)基因緊密的分布在染色體上[14]。此外,由于原核生物中缺少內(nèi)含子,所以其基因結(jié)構(gòu)比真核生物要簡(jiǎn)單??赡苷沁@種緊密的染色體結(jié)構(gòu)以及簡(jiǎn)單的基因結(jié)構(gòu),使得細(xì)菌或古細(xì)菌的基因組大小與基因數(shù)目間具有強(qiáng)征相關(guān)性。
圖3 基因組大小與基因數(shù)目關(guān)系分布圖Fig.3 Linear correlation between genome size and gene number
通過(guò)繪制基因組大小與基因數(shù)目的線性擬合線(圖中黑色虛線),我們發(fā)現(xiàn)大部分細(xì)菌或古細(xì)菌分布在擬合線附近,有部分物種的注釋基因數(shù)目遠(yuǎn)多于(或少于)擬合值。針對(duì)本文的研究對(duì)象,3個(gè)牙齦卟啉單胞菌(圖中實(shí)心圓點(diǎn)),也有類似的規(guī)律。由于3個(gè)牙齦卟啉單胞菌的基因組大小比較相近(約2 300 K),所以它們?cè)趫D中幾乎分布在同一垂直線上。我們可以發(fā)現(xiàn)3個(gè)牙齦卟啉單胞菌的注釋基因數(shù)目分布在擬合性兩側(cè),在基因組大小與基因數(shù)量關(guān)系方面,這3個(gè)牙齦卟啉單胞菌未顯示出任何異常。
以P.gingivalisATCC33277為例,基于Fisher判別模型,對(duì)正負(fù)樣本集進(jìn)行訓(xùn)練,得到判別的閾值,然后比對(duì)所有第三類基因,根據(jù)閾值判別每一個(gè)基因片段是否真正編碼蛋白質(zhì)。在P.gingivalisATCC33277中,有36個(gè)假設(shè)基因判定為非編碼ORFs(見(jiàn)表1)。P.gingivalisW83沒(méi)有排除的非編碼ORFs。P.gingivalisTDC60排除81個(gè)非編碼ORFs(見(jiàn)表2)。
表1 P.gingivalisATCC33277中排除的36個(gè)非編碼ORFs基因片段同義號(hào)
在一個(gè)指定的細(xì)菌基因組中,所有的蛋白質(zhì)編碼基因都應(yīng)該有相似的核苷酸組成結(jié)構(gòu)[15],也就是說(shuō)P.gingivalisATCC33277中的假設(shè)基因需要與其功能已知基因具有相似的核苷酸結(jié)構(gòu),否則將被判定為非編碼ORFs。相似性核苷酸結(jié)構(gòu)的判定,正是通過(guò)判別模型來(lái)確定的,在判別模型中會(huì)根據(jù)33個(gè)識(shí)別變量確定此核苷酸序列的閾值,通過(guò)此閾值判定是否編碼蛋白質(zhì),排除這36個(gè)假設(shè)基因正是基于此判別方法[12]。下圖是P.gingivalisATCC33277菌株1 125個(gè)功能已知基因(藍(lán)色*圓點(diǎn)標(biāo)記)和36個(gè)非編碼ORFs(黑色*圓點(diǎn)標(biāo)記)的核苷酸散點(diǎn)分布圖(見(jiàn)圖4)。注:*圖中顏色標(biāo)注見(jiàn)電子版(http://swxxx.alljournals.cn/index.aspx)(2015年第4期)。
表2 P.gingivalisTDC60中排除的81個(gè)非編碼ORFs基因片段同義號(hào)
圖4 P.gingivalis ATCC33277全基因組G+C含量散點(diǎn)分布圖Fig.4 P.gingivalis ATCC33277genome G+C content scatter distribution
從圖中可以觀察到絕大部分的功能已知基因與非編碼ORFs相分離。而且?guī)缀跛械墓δ芤阎蚨嘉挥?5度對(duì)角線上方,這說(shuō)明其第二相位G+C含量要低于第三相位G+C含量。而36個(gè)非編碼ORFs中絕大部分分布在45度對(duì)角線附近,這表明其第二、三相位的G+C含量基本相同。由此可見(jiàn)編碼功能蛋白質(zhì)將會(huì)影響基因的核苷酸結(jié)構(gòu)分布[13, 16, 17]。因此,由于這36個(gè)假設(shè)基因與功能已知基因具有不同的核苷酸結(jié)構(gòu),在判別模型中得到的判別值不滿足編碼蛋白質(zhì)的Z曲線閾值,導(dǎo)致其被排除為非編碼ORFs。
使用Blast在線服務(wù)對(duì)所有候選基因的核苷酸序列進(jìn)行查詢。如果一個(gè)候選基因的Blast結(jié)果同時(shí)滿足4個(gè)條件:(1) Evalue<1×10-20,(2) Query Cover>60%,(3) Ident>50%,(4)候選基因與同源相似基因的長(zhǎng)度差<20%,我們就認(rèn)為此候選基因是要找的新基因。通過(guò)以上方法,從3株牙齦卟啉單胞菌中分別找到了不同數(shù)量的新基因。在P.gingivalisTDC60中找到了6個(gè)新基因(見(jiàn)表3)。這6個(gè)新基因的基因位置與原注釋中的基因位置重疊率很低,全部小于0.05%,其中還包括5個(gè)重疊率幾乎為0的新基因,即原注釋信息中幾乎沒(méi)有覆蓋到的基因。根據(jù)同源基因的功能描述確定新基因的功能信息,同時(shí)這6個(gè)新基因也被賦予各自同源基因的功能注釋信息,如新基因348 817-348 960(+)則被注釋為轉(zhuǎn)座酶(Transposase)。
表4和表5分別是P.gingivalisATCC33277和P.gingivalisW83中發(fā)現(xiàn)的新基因以及其相應(yīng)的功能注釋信息。
表3 P.gingivalisTDC60中發(fā)現(xiàn)的6個(gè)新基因信息
表4 P.gingivalisATCC33277中發(fā)現(xiàn)的5個(gè)新基因信息
表5 P.gingivalisW83中發(fā)現(xiàn)的19個(gè)新基因信息
3結(jié)論與展望
基因組重注釋方法是根據(jù)Fisher判別法識(shí)別3株牙齦卟啉單胞菌所有第三類基因(假設(shè)基因),判定基因片段是否具有編碼蛋白質(zhì)功能。基于此方法從3株牙齦卟啉單胞菌中共排除了117個(gè)非編碼ORFs。對(duì)牙齦卟啉單胞菌使用基于從頭預(yù)測(cè)方法的基因識(shí)別工具Prodigal查找候選新基因,并以最新的基因數(shù)據(jù)庫(kù)為基礎(chǔ)進(jìn)行Blast在線相似性比對(duì)查找同源基因,最后根據(jù)設(shè)定的參數(shù)閾值對(duì)結(jié)果進(jìn)行過(guò)濾篩選,確定滿足條件的新基因并添加對(duì)應(yīng)的基因功能信息,在本文中為牙齦卟啉單胞菌共添加了30個(gè)新基因。經(jīng)過(guò)本文的重注釋,可能仍然還存在未排除的非編碼ORFs和未找到的新基因。為保證結(jié)果的可靠性,使用特異性較低的方法排除非編碼ORFs(低至54%),同時(shí)在查找新基因的過(guò)程中只保留高相似度的結(jié)果(高達(dá)99%)。隨著這兩個(gè)參數(shù)的變化,發(fā)現(xiàn)新基因的數(shù)量和排除的非編碼基因的ORF的數(shù)量都有可能會(huì)變化。本研究中,用Prodigal基因預(yù)測(cè)軟件識(shí)別基因位置,后續(xù)可以擴(kuò)展使用更多其他的基因預(yù)測(cè)軟件對(duì)假設(shè)基因進(jìn)行驗(yàn)證,以確保結(jié)果的可靠性。
參考文獻(xiàn)
[1]黃定明, 吳亞菲. 牙齦卟啉單胞菌的分型及其致病作用[J].國(guó)外醫(yī)學(xué): 口腔醫(yī)學(xué)分冊(cè),2002, 29(4): 213-215.
HUANG Dingming, WU Yafei. Typing and pathogenic role of porphyromonas gingivalis aeromonas[J]. Foreign Medical: Stomatology Volume, 2002,29(4): 213-215.
[2]SHAH P K. Plaque disruption and thrombosis: potential role of inflammation and infection[J].Cardiology in Review, 2000,8(1): 31-39.
[3]KUVIN J T,KIMMELSTIEL C D.Infectious causes of atherosclerosis[J].American Heart Journal,1999,137(2):216-226.
[4]CAI Y, KOBAYASHI R, HASHIZUME-TAKIZAWA T, et al. Porphyromonas gingivalis infection enhances Th17 responses for development of atherosclerosis[J].Archives of Oral Biology, 2014, 59(11): 1183-1191.
[5]AO M , MIYAUCHI M , INUBUSHI T, et al. Infection with porphyromonas gingivalis exacerbates endothelial Injury in obese mice[J].PloS One,2014,9(10): e110519-e110519.
[6]GURAV A N. The implication of periodontitis in vascular endothelial dysfunction[J].European Journal Of Clinical Investigation, 2014,44(10): 1000-1009.
[7]HANLEY S A , ADUSE-OPOKU J , CURTIS M A . A 55-Kilodalton immunodominant antigen of porphyromonas gingivalis W50 Has arisen via horizontal gene transfer[J].Infection and Immunity, 1999, 67(3): 1157-1171.
[8]BOCS S,DANCHIN A,MéDIGUE C.Re-annotation of genome microbial coding-sequences:finding new genes and inaccurately annotated genes[J].BMC Bioinformatics,2002,3(1):1-10.
[9]GUO F B , XIONG L , TENG L , et al. Re-annotation of protein-coding genes in 10 complete genomes of Neisseriaceae family by combining similarity-based and composition-based methods[J].DNA Research,2013,20(3):273-286.
[10]CAMUS J C,PRYOR M J ,MéDIGUE C,et al.Re-annotation of the genome sequence of mycobacterium tuberculosis H37Rv[J].Microbiology,2002,148(10):2967-2973.
[11]ZHOU L,VORH?LTER F J,HE Y Q ,et al.Gene discovery by genome-wide CDS re-prediction and microarray-based transcriptional analysisinphytopathogenXanthomonascampestris[J].BMC Genomics,2011, 12(1):359.
[12]ZHANG C T , ZHANG R . Analysis of distribution of bases in the coding sequences by a diagrammatic technique[J].Nucleic Acids Research, 1991, 19(22): 6313-6317.
[13]ZHANG C T , CHOU K C . A graphic approach to analyzing codon usage in 1562 Escherichia coli protein coding sequences[J].Journal of Molecular Biology,1994, 238(1): 1-8.
[14]MIRA A , OCHMAN H , MORAN N A . Deletional bias and the evolution of bacterial genomes[J].Trends Genet,2001, 17(10): 589-596.
[15]ZHANG C T , WANG J . Recognition of protein coding genes in the yeast genome at better than 95% accuracy based on the Z curve[J].Nucleic Acids Research,2000, 28(14): 2804-2814.
[16]GUO F B. The distribution patterns of bases of protein-coding genes, non-coding ORFs, and intergenic sequences in pseudomonas aeruginosa PA01 genome and its implications[J].Journal of Biomolecular Structure and Dynamics,2007,25(2):127-133.
[17]CHEN L L , ZHANG C T . Seven GC-rich microbial genomes adopt similar codon usage patterns regardless of their phylogenetic lineages[J].Biochemical And Biophysical Research Communications,2003,306(1): 310-317.
Re-annotation ofPorphyromonasgingivaliscoding-sequences
XU Xiaojie1,2, JI Dewei1,2, ZHANG Xinyue3, ZHANG Wuji1,2, ZHANG Huixiong1,2*
(1.SchoolofLifeScienceandTechnology,KeyLabofNeuroinformationofMinistryofEducation,
UniversityofElectronicScienceandTechnology(UESTC),Chengdu610054,China;
2.MedicalInformaticsCenter,UESTC,Chengdu610054,China;
3.SchoolofAcupunctureandMassage,ChengduUniversityofTCM,Chengdu610054,China)
Abstract:To ensure accuracy ofP.gingivalisbiological macromolecules information,we investigated the annotations of the 3P.gingivalisbased on NCBI database. Firstly, we prepared protein-coding and non-coding sequences as positive and negative samples,respectively,and used Fisher Discriminant which was designed based on Z curve theory to determine the threshold t0,which was used as the criterion to determine whether the gene encoding the protein or not. We firstly excluded the wrong annotation information from three stains ofP.gingivalisbased on the threshold. Secondly, theP.gingivaliswere predicted with the prodigal gene prediction software. We used the predicted genes compared to the original known-function genes and selected the ORFs with different 5’terminals, identified the candidate genes with overlapping rate of less than 20% from the ORFs with different 5’terminals.Finally, we used the sequence alignment software Blast to find the candidate genes that meet the conditions. We excluded 117 non-coding open reading frames, and found 30 new protein-coding genes that were not annotated in the NCBI database.
Keywords:Periodontal disease;Porphyromonasgingivalis; Re-annotation; New genes
中圖分類號(hào):Q343.1+2
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1672-5565(2015)04-205-07
doi:10.3969/j.issn.1672-5565.2015.04.01
作者簡(jiǎn)介:徐曉捷,女,碩士研究生,研究方向:生物醫(yī)學(xué)工程;E-mail:517170490@qq.com.*通信作者:張會(huì)雄,副教授,研究方向:移動(dòng)互聯(lián)與公眾健康;E-mail:940351908@qq.com.
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)(ZYGX2013J100);2014年非全日制專業(yè)學(xué)位研究生教研教改項(xiàng)目(ZY2014009)。
收稿日期:2015-07-19;修回日期:2015-09-10.