亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計(jì)算方法研究

        2015-11-17 12:11:07于曉慶
        關(guān)鍵詞:擬南芥調(diào)控樣本

        于曉慶

        (上海應(yīng)用技術(shù)學(xué)院理學(xué)院,上海 201418)

        擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計(jì)算方法研究

        于曉慶

        (上海應(yīng)用技術(shù)學(xué)院理學(xué)院,上海 201418)

        擬南芥是一種重要的模式植物,已被廣泛應(yīng)用于植物生物學(xué)研究.基于基因表達(dá)譜和序列信息構(gòu)建了預(yù)測(cè)擬南芥基因調(diào)控關(guān)系的數(shù)學(xué)模型.通過支持向量機(jī)和夾克刀的測(cè)試,結(jié)果表明該方法在擬南芥基因調(diào)控關(guān)系的預(yù)測(cè)工作中有很好的表現(xiàn).利用計(jì)算方法預(yù)測(cè)擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系可為實(shí)驗(yàn)室研究提供一定理論依據(jù).

        擬南芥;調(diào)控關(guān)系;支持向量機(jī);計(jì)算方法

        生物體的發(fā)育過程由一系列復(fù)雜的基因調(diào)控網(wǎng)絡(luò)控制,一個(gè)完整的基因調(diào)控網(wǎng)絡(luò)由轉(zhuǎn)錄因子(transcription factor,TF)、靶基因(target gene,TG)及其之間的調(diào)控關(guān)系構(gòu)成.其中,轉(zhuǎn)錄因子是基因表達(dá)的重要調(diào)控因子,在高等生物體的生命循環(huán)中起關(guān)鍵性作用,它們結(jié)合在其靶基因啟動(dòng)子序列上的特定位點(diǎn),從而激活或抑制下游靶基因的表達(dá).這些特定的位點(diǎn),一般是長(zhǎng)度為5~25 bp的DNA序列片段,稱為轉(zhuǎn)錄因子結(jié)合位點(diǎn)(transcription factor binding site,TFBS).預(yù)測(cè)轉(zhuǎn)錄因子及其靶基因的調(diào)控關(guān)系對(duì)深入研究基因的調(diào)控網(wǎng)絡(luò)、生物體發(fā)育的分子機(jī)理具有重要研究意義[1-2].

        近20年來,識(shí)別轉(zhuǎn)錄因子和靶基因調(diào)控關(guān)系的方法很多,其中最著名的實(shí)驗(yàn)方法是Chip-on-chip技術(shù).該技術(shù)利用染色質(zhì)免疫沉淀技術(shù)和微陣列技術(shù),能夠在試管中識(shí)別出一個(gè)特定轉(zhuǎn)錄因子的啟動(dòng)子.但這種基于實(shí)驗(yàn)技術(shù)的方法受實(shí)驗(yàn)環(huán)境及其他因素的限制,且需大量時(shí)間和資金.因此,隨著生物數(shù)據(jù)的大量積累和計(jì)算工具的發(fā)展,利用生物信息學(xué)方法預(yù)測(cè)轉(zhuǎn)錄因子和靶基因的調(diào)控關(guān)系被不斷地開發(fā)出來.這類方法主要分為兩種:一種是利用表達(dá)譜信息的相關(guān)性,通過建立一定的數(shù)學(xué)模型預(yù)測(cè)調(diào)控關(guān)系;另一種是利用識(shí)別轉(zhuǎn)錄因子結(jié)合位點(diǎn)的方法,尋找一組共表達(dá)基因的共motif過程來預(yù)測(cè)調(diào)控關(guān)系.目前,對(duì)擬南芥這種模式植物,基因調(diào)控關(guān)系的預(yù)測(cè)方法主要以實(shí)驗(yàn)方法為主,而利用生物信息學(xué)手段來預(yù)測(cè)其調(diào)控關(guān)系的方法極為少見.本文基于基因的表達(dá)譜數(shù)據(jù)以及序列的信息特征構(gòu)建調(diào)控關(guān)系的特征向量數(shù)學(xué)模型,并利用支持向量機(jī)預(yù)測(cè)擬南芥的基因轉(zhuǎn)錄調(diào)控關(guān)系.

        1 材料與方法

        1.1 數(shù)據(jù)來源

        擬南芥基因表達(dá)譜數(shù)據(jù)從美國Stanford擬南芥信息資源網(wǎng)站(The Arabidopsis Information Resource,TAIR)下載得到.這些微陣列表達(dá)數(shù)據(jù)來源于擬南芥不同的組織和發(fā)展階段:seeding and whole plant,leaves,roots,flower and pollen,shoots and stems,siliques and seed.同時(shí),在數(shù)據(jù)庫Arabidopsis Gene Regulatory Information Server(AGRIS)中下載了擬南芥轉(zhuǎn)錄因子的蛋白質(zhì)序列,并從擬南芥全基因組中提取了每個(gè)基因的上游啟動(dòng)子序列,長(zhǎng)度最大為1 000 bp.

        1.2 實(shí)驗(yàn)方法

        擬南芥基因調(diào)控關(guān)系預(yù)測(cè)的具體流程如圖1所示.

        圖1 預(yù)測(cè)模型流程圖Fig.1 Flow chat of prediction model

        1.2.1 數(shù)據(jù)集的構(gòu)建

        樣本數(shù)據(jù)包括陽集數(shù)據(jù)和陰集數(shù)據(jù).陽集數(shù)據(jù)是指經(jīng)實(shí)驗(yàn)證實(shí)具有調(diào)控關(guān)系的基因?qū)?所使用的陽集數(shù)據(jù)是來自于數(shù)據(jù)庫AGRIS中下載的598對(duì)標(biāo)記為“confirm”的、經(jīng)實(shí)驗(yàn)驗(yàn)證的調(diào)控關(guān)系基因?qū)Y選后得到的.具體篩選過程為:首先,篩選掉在TAIR數(shù)據(jù)庫中不含有相對(duì)應(yīng)轉(zhuǎn)錄因子蛋白質(zhì)序列或靶基因啟動(dòng)子序列的基因?qū)?;其次,去掉基因不存在表達(dá)譜數(shù)據(jù)的基因?qū)?;最后,為緩解樣本?shù)據(jù)的不平衡性,將調(diào)控關(guān)系多于20的轉(zhuǎn)錄因子所對(duì)應(yīng)的基因?qū)﹄S機(jī)減少到20.通過以上步驟,最終構(gòu)建了一個(gè)含有156對(duì)調(diào)控關(guān)系的陽集數(shù)據(jù)集.

        陰集數(shù)據(jù),是指確定沒有基因調(diào)控關(guān)系的基因?qū)?但目前為止,對(duì)于模式植物擬南芥,并沒有文獻(xiàn)公開發(fā)表哪些基因?qū)κ谴_定沒有調(diào)控關(guān)系的.陰集數(shù)據(jù)在生物數(shù)據(jù)分類問題中對(duì)于分類器的可靠性起著關(guān)鍵性的作用.采用以下策略構(gòu)建了陰集:對(duì)于轉(zhuǎn)錄因子TF,若不存在對(duì)應(yīng)的轉(zhuǎn)錄因子結(jié)合位點(diǎn)TFBS,則隨機(jī)選擇一個(gè)基因作為靶基因TG與其構(gòu)成一個(gè)基因?qū)Γ═F,TG).為確保TG不被轉(zhuǎn)錄因子TF所調(diào)控,隨機(jī)重新排列基因TG的表達(dá)譜順序,保證了調(diào)控關(guān)系的不存在性;若TF含有對(duì)應(yīng)的TFBS,則在所有基因中搜索該TFBS.若基因TG中不含有TF的TFBS,那么(TF,TG)就構(gòu)成了一個(gè)陰集樣本.對(duì)于擬南芥這種模式植物,實(shí)際的陰集和陽集的比例可能達(dá)到1 000∶1,甚至更大.通過減少陰集樣本數(shù)量的方法可以緩解訓(xùn)練樣本的不均衡性并提高方法的預(yù)測(cè)性能.為找出合適的比例參數(shù),比較了不同參數(shù)的預(yù)測(cè)性能,最終選擇1∶4作為陽集與陰集的最優(yōu)比例.構(gòu)建了624個(gè)陰集樣本數(shù)據(jù),數(shù)量是陽集數(shù)據(jù)的4倍,樣本數(shù)據(jù)情況如表1所示.

        1.2.2 特征向量模型的構(gòu)建

        為便于機(jī)器學(xué)習(xí)的訓(xùn)練,所有樣本需要滿足特定的樣本形式.把將要預(yù)測(cè)的調(diào)控關(guān)系基因?qū)Π慈缦滦问浇o出,

        其中:TF表示轉(zhuǎn)錄因子;TG表示推測(cè)可能被TF調(diào)控的靶基因.根據(jù)特定的訓(xùn)練形式,按以下步驟構(gòu)建每個(gè)基因?qū)Φ奶卣飨蛄磕P停?/p>

        (1)提取每個(gè)TF及其靶基因TG的表達(dá)譜特征向量

        (2)提取由轉(zhuǎn)錄因子(氨基酸序列)的20個(gè)氨基酸組分構(gòu)成的特征向量

        (3)提取由靶基因(DNA序列)的4個(gè)堿基組分、16個(gè)相鄰堿基組分及64個(gè)密碼子構(gòu)成的特征向量

        將以上3種特征向量組合后的262維向量作為每個(gè)基因?qū)Φ奶卣飨蛄磕P洼斎敕诸惼髦羞M(jìn)行分類預(yù)測(cè).

        表1 研究中所使用的陽集和陰集數(shù)量Tab.1 Number of positive and negative samples collected in study

        1.2.3 分類器及檢驗(yàn)方法

        支持向量機(jī)(support vector machine,SVM)是一種具有某些優(yōu)良特性的“線性分類器”,其數(shù)學(xué)原理的理論依據(jù)是統(tǒng)計(jì)學(xué)習(xí)理論,是一種監(jiān)督式的機(jī)器學(xué)習(xí)算法.采用SVM軟件包[3]運(yùn)行SVM并進(jìn)行數(shù)據(jù)分類和預(yù)測(cè)工作.徑向基函數(shù)用作為SVM的核函數(shù),且其可另表示為

        其中,回歸參數(shù)C以及核寬度參數(shù)γ的值是通過在訓(xùn)練集上利用SVM的網(wǎng)絡(luò)搜索工具不斷進(jìn)行訓(xùn)練而得到的,當(dāng)訓(xùn)練的預(yù)測(cè)結(jié)果達(dá)到最優(yōu)時(shí),取得此時(shí)的兩個(gè)參數(shù)值.

        當(dāng)分類預(yù)測(cè)工作結(jié)束,需要采用一種驗(yàn)證方法來檢驗(yàn)和評(píng)估所提出的方法在實(shí)際應(yīng)用中的有效性.獨(dú)立集檢驗(yàn)、子樣本檢驗(yàn)和夾克刀檢驗(yàn)是3種最為常用的統(tǒng)計(jì)預(yù)測(cè)方法.其中,夾克刀檢驗(yàn)(又稱為留一法)通常被認(rèn)為是最有效的一種方法[4].首先選取一對(duì)基因?qū)ψ鳛闇y(cè)試樣本,剩下的作為訓(xùn)練樣本,依次輪流循環(huán),直到所有樣本基因?qū)Χ甲鳛闇y(cè)試樣本,此時(shí)遍歷結(jié)束.然后采用敏感度(Sn)、特異性(Sp)以及總準(zhǔn)確精度(OA)作為評(píng)估預(yù)測(cè)性能的3個(gè)指標(biāo),其計(jì)算公式分別為:

        式中,TP、T N、FP、FN分別表示預(yù)測(cè)正確的陽集樣本個(gè)數(shù)、預(yù)測(cè)正確的陰集樣本個(gè)數(shù)、預(yù)測(cè)錯(cuò)誤的陽集樣本個(gè)數(shù)以及預(yù)測(cè)錯(cuò)誤的陰集樣本個(gè)數(shù).

        2 結(jié)果與討論

        2.1 表達(dá)譜的相關(guān)性分析

        曾有研究者提出一個(gè)基本假設(shè):轉(zhuǎn)錄因子表達(dá)水平的變化將通過轉(zhuǎn)錄調(diào)控過程影響靶基因表達(dá)水平的變化[5].但后來又有研究者提出了另一種觀點(diǎn):微陣列技術(shù)是一種高通量的數(shù)據(jù)分析手段,某種程度上受實(shí)驗(yàn)環(huán)境等因素影響,并不是非常準(zhǔn)確的.轉(zhuǎn)錄因子和靶基因在表達(dá)譜上的相似性只表示了一種統(tǒng)計(jì)依賴性,在某段時(shí)間上不一定存在因果關(guān)系[6].為觀察擬南芥具有調(diào)控關(guān)系的轉(zhuǎn)錄因子和靶基因表達(dá)譜數(shù)據(jù)的相關(guān)性情況,隨機(jī)選取了部分陽集數(shù)據(jù)并對(duì)其進(jìn)行了相關(guān)性分析,如圖2所示.圖2(a)中具有調(diào)控關(guān)系的基因表達(dá)譜具有一定的相關(guān)性,圖2(b)中的調(diào)控關(guān)系轉(zhuǎn)錄因子的表達(dá)并沒有影響靶基因的表達(dá),圖2(c)和(d)中只有某一段時(shí)間上的表達(dá)具有相關(guān)性.盡管都是具有調(diào)控關(guān)系的基因?qū)?,但轉(zhuǎn)錄因子和靶基因在表達(dá)上并不存在直接的因果關(guān)系.該現(xiàn)象也表明,僅僅依靠表達(dá)譜信息來預(yù)測(cè)擬南芥的基因調(diào)控關(guān)系是不充分的.

        圖2 部分陽集樣本中轉(zhuǎn)錄因子與其靶基因的表達(dá)水平Fig.2 The gene expression level of TF and its target for part of the positive samples

        2.2 結(jié)果分析

        所有模型的預(yù)測(cè)系統(tǒng)都在最優(yōu)回歸參數(shù)C=32和核寬度參數(shù)γ=3.051 757 812 5E-005時(shí)進(jìn)行.為觀察不同特征組合的預(yù)測(cè)模型對(duì)預(yù)測(cè)結(jié)果的影響,計(jì)算了不同情況的預(yù)測(cè)結(jié)果,見表2.

        表2 不同特征的預(yù)測(cè)性能比較Tab.2 Prediction performance comparison using different selected features

        在利用機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行分類預(yù)測(cè)中,由于訓(xùn)練樣本有限,故若要使機(jī)器學(xué)習(xí)算法具有很好的泛化能力,則樣本特征需要盡可能地少[7].利用SVM軟件包中的特征選擇工具得到每個(gè)特征對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)得分,選擇了得分最高的60個(gè)特征作為最優(yōu)特征子集,取得的預(yù)測(cè)準(zhǔn)確度為97%,敏感度為91.02%,特異性為98.4%.計(jì)算了其他K個(gè)特征的預(yù)測(cè)結(jié)果(K=40,80,100,262).由表2可見,各種情況對(duì)于特異性的計(jì)算結(jié)果都比較高,這也是構(gòu)建特征向量模型時(shí)所期待的結(jié)果.因?yàn)閷?duì)于擬南芥這種模式植物,已被確定具有調(diào)控關(guān)系的陽集樣本數(shù)量有限,而實(shí)驗(yàn)室中的實(shí)驗(yàn)需耗費(fèi)大量時(shí)間、資金等,所以構(gòu)建的預(yù)測(cè)模型應(yīng)該盡可能地提高特異性的預(yù)測(cè)結(jié)果,才能使預(yù)測(cè)模型具有更好的可行性.沒有進(jìn)行特征選擇的SVM_262的敏感度和總準(zhǔn)確度相對(duì)較低,這說明選取最優(yōu)特征子集的方法還是非常有必要的.在選擇的60個(gè)特征中,包含31個(gè)表達(dá)數(shù)據(jù)特征和29個(gè)序列特征,這也表明了序列信息特征在擬南芥調(diào)控關(guān)系的預(yù)測(cè)中起到了一定的作用.

        3 結(jié) 語

        基于表達(dá)譜數(shù)據(jù)和序列相關(guān)信息構(gòu)建了基因轉(zhuǎn)錄調(diào)控關(guān)系的特征向量模型,通過SVM提出了一種預(yù)測(cè)擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計(jì)算方法.預(yù)測(cè)結(jié)果表明,該方法對(duì)預(yù)測(cè)擬南芥轉(zhuǎn)錄調(diào)控關(guān)系有著良好的表現(xiàn).目前,由于擬南芥陽集樣本的數(shù)量有限,故該方法還受到數(shù)據(jù)的局限性.相比實(shí)驗(yàn)方法,計(jì)算方法可以節(jié)省大量時(shí)間和資金,并為實(shí)驗(yàn)方法提供一定理論依據(jù).隨著生物數(shù)據(jù)的不斷增多,利用計(jì)算方法來預(yù)測(cè)擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系將會(huì)成為實(shí)驗(yàn)方法的一個(gè)有益補(bǔ)充.參考文獻(xiàn):

        [1] Pournara I,Wernisch L.Factor analysis for gene regulatory networks and transcription factor activity profiles[J].BMC Bioinformatics,2007,8:61.

        [2] Tan K,Mccue L A,Stormo G D.Making connections between novel transcriptionfactors and their DNA motifs[J].Genome Res,2005,15(2):312-320.

        [3] Chang C C,Lin C J.LIBSVM:A library for support vector machines[EB/OL].[2011-08-30].http://www.csie.ntu.edu.tw/~cjlin/libsvm.

        [4] Chen C,Chen L,Zou X,Cai P.Prediction of protein secondary structure content by using the concept of Chou’s pseudo amino acid composition and support vector machine[J].Prot Pept Lett,2009,16:27-31.

        [5] Liu W L,Li D,Liu Q,et al.A novel parametric approach to mine gene regulatory relationship from microarray datasets[J].BMC Bioinformatics,2010,11(S11):11-15.

        [6] Qian J,Dolled-Filhart M,Lin J,et al.Beyond synexpression relationships:Local clustering of time-shifted and inverted gene expression profiles identifies newbiologically relevant interactions[J].J Mol Biol,2001,314(5):1053-1066.

        [7] Briesemeister S,Rahnenführer J,Kohlbacher O.Going from where to why-interpretable prediction of protein subcellular localization[J].Bioinformatics,2010,26(9):1232-1238.

        (編輯 呂丹)

        Study on Computational Methods for Predicting the Regulatory lnteractions Between Transcription Factors and Their Targets in Arabidopsis

        YU Xiao-qing
        (School of Sciences,Shanghai Institute of Technology,Shanghai 201418,China)

        Arabidopsis,an important model plant,which is widely used in the study of plant biology. Based on the gene expression profile and some sequence-based information,a mathematical model was constructed to predict the regulatory interactions in Arabidopsis.Through support vector machine and Jackknife test,the method was proved to have a good performance.This method could provide some theoretical basis for the laboratory study of the regulatory interaction of Arabidopsis.

        Arabidopsis;regulatory interactions;support vector machines;computational approach

        O 242.1

        A

        1671-7333(2015)01-0091-04

        10.3969/j.issn.1671-7333.2015.01.016

        2014-07-14

        上海市高校青年教師培育基金資助項(xiàng)目(ZZyyy13017);上海應(yīng)用技術(shù)學(xué)院引進(jìn)人才基金資助項(xiàng)目(YJ2013-32)

        于曉慶(1983-),女,講師,博士,主要研究方向?yàn)橛?jì)算數(shù)學(xué),生物信息學(xué).E-mail:xqyu@sit.edu.cn

        猜你喜歡
        擬南芥調(diào)控樣本
        擬南芥:活得粗糙,才讓我有了上太空的資格
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        如何調(diào)控困意
        經(jīng)濟(jì)穩(wěn)中有進(jìn) 調(diào)控托而不舉
        中國外匯(2019年15期)2019-10-14 01:00:34
        推動(dòng)醫(yī)改的“直銷樣本”
        尿黑酸對(duì)擬南芥酪氨酸降解缺陷突變體sscd1的影響
        兩種LED光源作為擬南芥生長(zhǎng)光源的應(yīng)用探究
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        擬南芥干旱敏感突變體篩選及其干旱脅迫響應(yīng)機(jī)制探究
        順勢(shì)而導(dǎo) 靈活調(diào)控
        亚洲女同系列高清在线观看| 亚洲国产另类精品| 少妇内射视频播放舔大片| WWW拍拍拍| 日本免费大片一区二区三区 | 色视频日本一区二区三区| 国产肥熟女免费一区二区| 亚洲综合激情五月丁香六月| 国产精品jizz观看| 亚洲免费成年女性毛视频| 蜜桃传媒网站在线观看| 丰满多毛的大隂户毛茸茸| 国际无码精品| 伊人亚洲综合影院首页| 精品女同一区二区三区| 日本免费a级毛一片| 国产综合自拍| 国产熟妇一区二区三区网站| 亚洲精品国产电影| 国产在线观看www污污污| 男人天堂av在线成人av| 一区二区午夜视频在线观看| 日日摸天天摸97狠狠婷婷| 国产女合集小岁9三部| 97色人阁俺也去人人人人人| av黄色在线免费观看| 国产女主播精品大秀系列| 国产丝袜在线精品丝袜不卡| 国产精品黑丝美女av| 亚洲av色影在线| 久久天天躁狠狠躁夜夜96流白浆| 国产一起色一起爱| 最近更新中文字幕一区二区| 最新中文字幕av无码不卡| 国产一区曰韩二区欧美三区| 蜜桃视频网站在线免费观看| 欧美日本精品一区二区三区| 吃奶摸下的激烈视频| 男女高潮免费观看无遮挡| 日本少妇一区二区三区四区| 欧洲熟妇色 欧美|