亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        細(xì)菌s54啟動(dòng)子序列分析與預(yù)測(cè)

        2015-10-14 12:43:00鄧恩澤
        關(guān)鍵詞:聯(lián)體計(jì)數(shù)位點(diǎn)

        丁 輝,鄧恩澤,陳 偉,林 昊

        ?

        細(xì)菌s54啟動(dòng)子序列分析與預(yù)測(cè)

        丁 輝1,鄧恩澤1,陳 偉2,林 昊1

        (1. 電子科技大學(xué)生物信息學(xué)中心 成都 610054; 2. 河北聯(lián)合大學(xué)基因組學(xué)與計(jì)算生物學(xué)中心 河北唐山 063000)

        對(duì)實(shí)驗(yàn)確定的168條σ54啟動(dòng)子序列進(jìn)行保守性分析,獲得兩個(gè)保守的區(qū)域-24區(qū)域和-12區(qū)域,均為最保守的功能元件。選取保守性最大的17個(gè)保守位點(diǎn)的三聯(lián)體頻數(shù)作為參數(shù),引入偽計(jì)數(shù)構(gòu)建位置權(quán)重矩陣,對(duì)168條σ54啟動(dòng)子進(jìn)行預(yù)測(cè),分別從編碼區(qū)和匯聚非編碼區(qū)共選取168條序列組成陰性集。使用Jackknife交叉驗(yàn)證法對(duì)模型進(jìn)行檢驗(yàn),整體準(zhǔn)確度達(dá)到82.0%,為σ54啟動(dòng)子的理論和實(shí)驗(yàn)研究提供新信息。

        細(xì)菌; 保守性; 位置權(quán)重矩陣; 啟動(dòng)子

        啟動(dòng)子通常定義為轉(zhuǎn)錄起始位點(diǎn)(transcription start site, TSS)上游鄰近的功能區(qū)域。細(xì)菌的σ啟動(dòng)子分為兩大家族,一類(lèi)在進(jìn)化上與大腸桿菌管家因子σ70相似,另一類(lèi)在結(jié)構(gòu)上與可變因子σ54同源。σ54因子能夠形成關(guān)閉的啟動(dòng)子復(fù)合物,但不能自發(fā)進(jìn)行轉(zhuǎn)錄,聚合酶依賴(lài)于另外的轉(zhuǎn)錄因子和附加的增強(qiáng)子結(jié)合蛋白來(lái)開(kāi)始RNA合成[1]。許多不同的細(xì)菌使用依賴(lài)于σ54啟動(dòng)子的轉(zhuǎn)錄來(lái)控制許多環(huán)境響應(yīng)進(jìn)程,如趨化性傳感器的表達(dá)和運(yùn)動(dòng)性器官的裝配[2]。σ54啟動(dòng)子主要控制一些輔助的進(jìn)程,包括甲苯和二甲苯的降解、二羧酸的輸送、菌毛蛋白的合成、氮固定、氫攝取、鞭毛組裝、精氨酸分解、藻蛋白酸鹽生成、鼠李糖脂生成、乙偶姻分解、甘露糖攝取和脯氨酸亞氨基肽酶激活[3]。

        σ70和σ54啟動(dòng)子具有豐富的序列多樣性,σ70啟動(dòng)子在轉(zhuǎn)錄起始位點(diǎn)上游-10和-35位置均有保守區(qū) 域[4],而σ54啟動(dòng)子的保守區(qū)域則分布在轉(zhuǎn)錄起始位點(diǎn)上游的-12和-24位置[3]。目前關(guān)于-12/-24區(qū)域的編譯和分析是重要的研究方向,因此準(zhǔn)確識(shí)別σ54啟動(dòng)子對(duì)研究并探索σ54啟動(dòng)子功能和調(diào)控有重要的作用。基于分子生物學(xué)實(shí)驗(yàn)的方法分析和鑒定啟動(dòng)子是進(jìn)行啟動(dòng)子研究的主要途徑。然而,實(shí)驗(yàn)方法費(fèi)時(shí)、費(fèi)錢(qián),且效率低下。隨著對(duì)啟動(dòng)子的序列特征以及結(jié)構(gòu)功能的逐步認(rèn)識(shí),利用生物信息學(xué)方法,通過(guò)計(jì)算來(lái)預(yù)測(cè)基因啟動(dòng)子的相關(guān)信息獲得越來(lái)越多的應(yīng)用。

        目前對(duì)于原核基因組中啟動(dòng)子的預(yù)測(cè)方法主要有隱馬爾可夫模型(HMM)[5]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[6]、支持向量機(jī)(SVM)[7]等算法。然而,這些算法主要應(yīng)用于σ70啟動(dòng)子的預(yù)測(cè),由于各大數(shù)據(jù)庫(kù)中實(shí)驗(yàn)證實(shí)的σ54啟動(dòng)子序列較少,對(duì)σ54啟動(dòng)子的生物信息學(xué)研究尚處于起步階段。

        因此,本文在搜集足夠的σ54啟動(dòng)子序列的基礎(chǔ)上,對(duì)σ54啟動(dòng)子的序列位點(diǎn)保守性進(jìn)行了分析,進(jìn)而使用位置評(píng)分函數(shù)對(duì)該類(lèi)啟動(dòng)子進(jìn)行分類(lèi)預(yù)測(cè)。Jackknife驗(yàn)證顯示,基于位置打分函數(shù)的模型能夠獲得82.0%總體預(yù)測(cè)精度。該模型為進(jìn)一步進(jìn)行理論和實(shí)驗(yàn)研究σ54啟動(dòng)子提供幫助,位置權(quán)重矩陣也將會(huì)在更多關(guān)于生物序列的分析中得到運(yùn)用。

        1 材料與方法

        1.1 數(shù)據(jù)庫(kù)的建立

        大腸桿菌σ54啟動(dòng)子序列數(shù)據(jù)集來(lái)源于RegulonDB數(shù)據(jù)庫(kù)[8]和文獻(xiàn)[3],從RegulonDB中獲取了92條σ54啟動(dòng)子序列,從文獻(xiàn)[4]得到了76條σ54啟動(dòng)子序列,每條序列長(zhǎng)81 bp(-60…+20,TSS作為0位置)。非啟動(dòng)子序列在大腸桿菌全基因組序列中的編碼區(qū)和匯聚(convergent, CON)非編碼區(qū)(兩側(cè)基因的轉(zhuǎn)錄末端位于該非編碼區(qū))選取[9]。為了避免正負(fù)集序列數(shù)目相差過(guò)大,本文隨機(jī)選取84條編碼區(qū)和84條CON非編碼區(qū)序列作為非啟動(dòng)子數(shù)據(jù)集,每條序列長(zhǎng)度也為81 bp。

        1.2 保守性算法

        為了提取每段序列中最具有代表性的特征,本文計(jì)算任意一位點(diǎn)處的保守性值為:

        式中,代表使用聯(lián)體進(jìn)行保守性分析;p()代表在位點(diǎn)處第種聯(lián)體片段出現(xiàn)的概率,對(duì)于聯(lián)體共有4種片段。易證,保守性值M()服從卡方分布。

        1.3 位置權(quán)重矩陣

        對(duì)于標(biāo)準(zhǔn)樣本集,定義位置權(quán)重矩陣為=(P)×L,其中為聯(lián)體的種類(lèi)數(shù),為序列的長(zhǎng)度,P代表某種聯(lián)體在位置出現(xiàn)的概率,即P=n/,為樣品集中序列的總數(shù)。然而在計(jì)算過(guò)程中,某種片段可能出現(xiàn)概率為0的情況,進(jìn)而導(dǎo)致后續(xù)計(jì)算公式?jīng)]有意義。因此在計(jì)算過(guò)程中引入了偽計(jì)數(shù),隨著的增加,偽計(jì)數(shù)的增加逐漸減小,對(duì)概率的影響也減小。由于偽計(jì)數(shù)的加入,更新的位置權(quán)重矩陣公式為:

        式中,0為背景頻率,對(duì)于聯(lián)體,其背景頻率為1/4

        根據(jù)位置權(quán)重矩陣,定義位置關(guān)聯(lián)評(píng)分函數(shù)為:

        不同的序列將對(duì)應(yīng)不同的F值,因此用F值的大小來(lái)評(píng)估一條序列與標(biāo)準(zhǔn)樣本集中啟動(dòng)子序列的相似程度,F值越大,則這條序列是啟動(dòng)子序列的可能性越高。

        1.4 精確度評(píng)價(jià)

        本文使用下列參數(shù)來(lái)評(píng)價(jià)算法的預(yù)測(cè)性能:敏感性(Sn),特異性(Sp),準(zhǔn)確度(ACC)。

        (5)

        (6)

        式中,TP代表正確預(yù)測(cè)的啟動(dòng)子數(shù)目;FP代表非啟動(dòng)子被預(yù)測(cè)為啟動(dòng)子的數(shù)目;FN代表啟動(dòng)子被預(yù)測(cè)為非啟動(dòng)子的數(shù)目;TN代表正確預(yù)測(cè)的非啟動(dòng)子數(shù)目。

        2 結(jié)果與討論

        利用Mn()對(duì)168條大腸桿菌的σ54啟動(dòng)子進(jìn)行保守性分析,發(fā)現(xiàn)其保守位點(diǎn)與σ70啟動(dòng)子具有很大的差異。σ54啟動(dòng)子的保守位點(diǎn)在-24和-12區(qū)域,如圖1a所示。便于比較,σ70啟動(dòng)子的保守性曲線如圖1b所示。

        a. σ54啟動(dòng)子序列五聯(lián)體的保守性曲線

        b. σ70啟動(dòng)子序列五聯(lián)體的保守性曲線

        圖1 五聯(lián)體的曲線

        圖1描述了五聯(lián)體的保守性曲線。由圖可以發(fā)現(xiàn),σ54啟動(dòng)子兩個(gè)主要峰值在-24區(qū)域和-12區(qū)域,而σ70啟動(dòng)子兩個(gè)主要峰值在-35區(qū)域和-10區(qū)域。本文也研究了σ54啟動(dòng)子單堿基到4聯(lián)體的保守性,發(fā)現(xiàn)隨著從單體到五聯(lián)體的變化,多聯(lián)體的種類(lèi)數(shù)也以指數(shù)形式增長(zhǎng),其n()~曲線的光滑程度也逐漸增加,然而峰值的位置沒(méi)有變?;谝陨戏治隹芍?,圖中描述的保守區(qū)域即為之前文獻(xiàn)中報(bào)道的-24和-12區(qū)域[3]。

        本文使用MEME[10]來(lái)分析大腸桿菌的σ54啟動(dòng)子的保守基序,獲得的結(jié)果如圖2所示,其中橫坐標(biāo)代表啟動(dòng)子序列位點(diǎn),縱坐標(biāo)代表信息熵。正如先前文獻(xiàn)報(bào)道的一樣,在-24元件和-12元件周?chē)业搅俗畋J氐膮^(qū)域。在-24元件附近找到了5個(gè)高度保守的核苷酸,其序列為T(mén)GGCA。在-12元件附近同樣找到了3個(gè)高度保守的核苷酸,其序列為T(mén)GC。另外還找到了一些保守性稍弱的核苷酸,綜合的正則表達(dá)式為[CT]TGGCA[CT][GA][AGC][ACTG][TA] [CTA]TTGC[AT][TA]。

        圖2 σ54啟動(dòng)子序列-24元件和-12元件的基序

        通過(guò)對(duì)聯(lián)體的保守型分析,根據(jù)每個(gè)位點(diǎn)的M()值的大小為標(biāo)準(zhǔn),選取特征位點(diǎn),利用位置評(píng)分函數(shù)進(jìn)行預(yù)測(cè)。首先,選取最大M()值的位點(diǎn)的聯(lián)體(=1, 2, 3, 4, 5),以啟動(dòng)子和非啟動(dòng)子分別構(gòu)建兩個(gè)位置權(quán)重矩陣,使用Jackknife檢驗(yàn)方法,對(duì)于每一條序列,分別利用兩個(gè)位置權(quán)重矩陣對(duì)其打分,測(cè)試樣本在哪一個(gè)矩陣中獲得的分值較高,就屬于哪一類(lèi)別;其次,選取最大和次大M()值的位點(diǎn),利用Jackknife檢驗(yàn)進(jìn)行模型精度評(píng)估;如此循環(huán),直到所有位點(diǎn)都被選入,比較所有預(yù)測(cè)模型獲得的預(yù)測(cè)精度,選擇能夠獲得精度最高的位點(diǎn)的聯(lián)體作為構(gòu)建最終預(yù)測(cè)模型的參數(shù)。聯(lián)體和位點(diǎn)數(shù)兩個(gè)參數(shù)需要調(diào)整。表1列出了不同聯(lián)體獲得的最佳預(yù)測(cè)結(jié)果。

        表1 位置評(píng)分函數(shù)對(duì)σ54啟動(dòng)子預(yù)測(cè)結(jié)果

        由表1可以看出,隨著聯(lián)體數(shù)目的增加,Sn有著明顯的增加,而Sp先增加后減少。這種現(xiàn)象表明在不同聯(lián)體預(yù)測(cè)過(guò)程中,敏感性的增加所付出的代價(jià)是特異性的降低。為了達(dá)到一個(gè)平衡狀態(tài),本文選取總體精度最高的三聯(lián)體作為預(yù)測(cè)模型,17個(gè)最優(yōu)位點(diǎn)分別為-31,-29,-28,-27,-26,-25,-24,-23,-22,-19,-16,-15,-14,-13,-12,-11,-10。該模型能夠很好地平衡各個(gè)預(yù)測(cè)評(píng)價(jià)指標(biāo),使模型是最優(yōu)的。

        3 結(jié)束語(yǔ)

        本文通過(guò)使用位置權(quán)重矩陣對(duì)大腸桿菌σ54啟動(dòng)子進(jìn)行了預(yù)測(cè),根據(jù)結(jié)果顯示,引入多聯(lián)體和偽計(jì)數(shù)能夠?qū)?dòng)子序列有更好的識(shí)別。堿基的短程關(guān)聯(lián)是所有物種基因組的共性,特別是緊鄰與次緊鄰關(guān)聯(lián)。本文使用三聯(lián)體模式作為參數(shù),不僅考慮了堿基的構(gòu)成,還考慮了位置的關(guān)聯(lián)特性。偽計(jì)數(shù)的引入是為了排除堿基頻率計(jì)數(shù)時(shí),由樣本帶來(lái)偏差所造成的影響,偽計(jì)數(shù)的大小與計(jì)數(shù)的標(biāo)準(zhǔn)偏差成正比。由于偽計(jì)數(shù)是一種根據(jù)先驗(yàn)概率對(duì)矩陣中每個(gè)位點(diǎn)堿基頻率的估計(jì),因此在矩陣中不會(huì)出現(xiàn)零,避免了求對(duì)數(shù)時(shí)可能會(huì)遇到的困難。使用Jackknife交叉檢驗(yàn)對(duì)啟動(dòng)子預(yù)測(cè)算法進(jìn)行評(píng)價(jià),預(yù)測(cè)模型準(zhǔn)確率和特異性都達(dá)到了80%。該模型的開(kāi)發(fā)為進(jìn)一步研究σ54啟動(dòng)子提供了理論工具。

        [1] MORETT E, SEGOVIA L. The sigma 54 bacterial enhancer-binding protein family: mechanism of action and phylogenetic relationship of their functional domains[J]. J Bacteriol, 1993, 175(19): 6067-6074.

        [2] BERNARDO L M, JOHANSSON l , SKARFSTAD E, et al. Sigma54-promoter discrimination and regulation by ppGpp and DksA[J]. J Biol Chem, 2009, 284(2): 828-838.

        [3] BARRIOS H, VALDERRAMA B, MORETT E. Compilation and analysis of sigma(54)-dependent promoter sequences[J]. Nucleic Acids Res, 1999, 27(22): 4305-4313.

        [4] LI Q Z, LIN H. The recognition and prediction of sigma70 promoters in Escherichia coli K-12[J]. J Theor Biol, 2006, 242(1): 135-141.

        [5] LIN J C. Prediction of prokaryotic promoters based on prediction of transcriptional units[J]. Acta Biochim Biophys Sin, 2003, 35(4): 317-324.

        [6] DEMELER B, ZHOU G W. Neural network optimization for E coli promoter prediction[J]. Nucleic Acids Res, 1991, 19(7): 1593-1599.

        [7] GORDON L, CHERVONENKIS A Y, GAMMERMAN A J, et al. Sequence alignment kernel for recognition of promoter regions[J]. Bioinformatics, 2003, 19(15): 1964-1971.

        [8] SALGADO H, PERALTA-GIL M, GAMA-CASTRO S, et al. RegulonDB v8.0: Omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more[J]. Nucleic Acids Res, 2013, 41: D203-D213.

        [9] BLATTNER F R, PLUNKETT G R D, BLOCH C A, et al. The complete genome sequence of escherichia coli K-12[J]. Science, 1997, 277: 1453-1462.

        [10] BAILEY T L, ELKAN C. Fitting a mixture model by expectation maximization to discover motifs in biopolymers[J]. Proc Int Conf Intell Syst Mol Biol, 1994, 2: 28-36.

        編 輯 黃 莘

        The Sequence Analysis and Prediction of σ54Promoter in Bacteria

        DING Hui1, DENG En-ze1, CHEN Wei2, and LIN Hao1

        (1. Center of Bioinformatics, University of Electronic Science and Technology of China Chengdu 610054; 2. Center for Genomics and Computational Biology, Hebei United University Tangshan Hebei 063000)

        By analyzing the 168 experimental-confirmed σ54promoter sequences, two conservative regions that are-24 and-12 regions are obtained. The trimer frequency at 17 positions in these conservative regions is selected as inputting parameter. By adding pseudo-count into position weight matrix, the σ54promoter can be predicted. The 168 negative sequences are extracted from coding regions and convergent intergenic regions. In Jackknife cross-validation, the overall accuracy reaches to 82.0%, suggesting that the model can be further used in the theoretical and experimental study of σ54promoter.

        bacteria; conservative; position weight matrix; promoter

        Q61

        A

        10.3969/j.issn.1001-0548.2015.01.025

        2013-11-23;

        2014-12-19

        國(guó)家自然科學(xué)基金(61202256, 61301260, 61100092);中央高?;究蒲袠I(yè)務(wù)費(fèi)(ZYGX2012J113, ZYGX2013J102)

        丁輝(1979-),女,副教授,主要從事系統(tǒng)生物學(xué)方面的研究.

        猜你喜歡
        聯(lián)體計(jì)數(shù)位點(diǎn)
        鎳基單晶高溫合金多組元置換的第一性原理研究
        上海金屬(2021年6期)2021-12-02 10:47:20
        古人計(jì)數(shù)
        CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
        遞歸計(jì)數(shù)的六種方式
        古代的計(jì)數(shù)方法
        二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
        這樣“計(jì)數(shù)”不惱人
        醫(yī)聯(lián)體:足不出戶(hù)的健康保障
        商周刊(2017年26期)2017-04-25 08:13:03
        百花齊放的湖北醫(yī)聯(lián)體
        大連 創(chuàng)三級(jí)聯(lián)動(dòng)醫(yī)聯(lián)體
        国产精品一区二区日本| 天天躁日日躁狠狠躁一区| 亚洲AV秘 无码一区二区三区| 五月激情在线观看视频| 久久熟妇少妇亚洲精品| 色老板精品视频在线观看| 欧美日韩另类视频| av网站影片在线观看| 在线观看麻豆精品视频| 东京道一本热中文字幕| 欧洲熟妇乱xxxxx大屁股7 | 亚洲av影片一区二区三区| 亚洲国产精品久久无人区| 一本久久a久久精品vr综合| 久久香蕉国产线看观看网| av永久天堂一区二区三区蜜桃| 亚洲一区二区三区高清在线观看| 欧美又大又色又爽aaaa片| 亚洲黄色一级毛片| 男女午夜视频一区二区三区| 最新中文字幕人妻少妇| 精品国产午夜理论片不卡| 五月丁香六月综合激情在线观看| 中文字幕一区二区在线看| 新婚少妇无套内谢国语播放| 中国xxx农村性视频| 亚洲国产剧情在线精品视| 国产丝袜美腿在线视频| 国产精品无码久久综合网| 中文字幕亚洲欧美日韩在线不卡| 久久精品中文字幕亚洲| 在线观看国产成人av天堂野外| 色偷偷av男人的天堂| 亚洲欧美日韩精品中文乱码| 国产白浆一区二区三区佳柔| 领导边摸边吃奶边做爽在线观看| 国产精品区一区第一页| 麻豆久久久国内精品| 日本一区二区三区四区高清不卡 | 国产91第一页| 国产亚洲精品精品综合伦理|