亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Weka平臺的分類算法在啟動子識別中的應(yīng)用

        2018-05-23 11:46:20蔣璐凱
        智能計算機(jī)與應(yīng)用 2018年2期
        關(guān)鍵詞:高通量測序

        蔣璐凱

        摘 要: 在“后基因組”時代,對于DNA功能元件的注釋,尤其是啟動子這類關(guān)鍵的調(diào)控元件的鑒定是進(jìn)一步理解人類基因組繁雜調(diào)控網(wǎng)絡(luò)的重要研究內(nèi)容。本文基于高通量測序數(shù)據(jù)對細(xì)胞系H1-hesc中的基因啟動子進(jìn)行識別分類,利用數(shù)據(jù)挖掘軟件Weka基于啟動子組蛋白修飾特征建立分類模型,比較各分類算法性能優(yōu)劣,以期應(yīng)用最佳分類器在其它細(xì)胞系中識別分類啟動子。

        關(guān)鍵詞: 啟動子;高通量測序;Weka;分類算法

        Abstract:The definition of DNA functional elements (especially promoters) is an important research topic in understanding the regulatory network of human genome. This paper identifies types of gene promoters in H1-hesc cell line based on the high-throughput data and then builds classifiers between different types of promoters according to the data of histone modification feature. Finally the paper compares four classifiers' performance and it is expected to apply the best model in the predicting and identifying promoters in other cell lines.

        Key words: promoter;high-throughput sequencing;Weka;classification algorithms

        引言

        Weka是一款基于Java開發(fā)環(huán)境的機(jī)器學(xué)習(xí)軟件,其全稱是懷卡拓知識分析環(huán)境(Waikato Environment for Knowledge Analysis)。這款開源的數(shù)據(jù)挖掘軟件發(fā)展到現(xiàn)在已由最初應(yīng)用于農(nóng)業(yè)領(lǐng)域而擴(kuò)展到更多不同領(lǐng)域,尤其是以教育和研究為主的技術(shù)科研范疇中。其優(yōu)勢在于:在GNU(General Public License)準(zhǔn)則下免費使用,幾乎可以在任何一個現(xiàn)代計算平臺上運行,集數(shù)據(jù)預(yù)處理和預(yù)測模型建立功能于一身,還有易用的圖形交互界面[1]。Weka可以實現(xiàn)多樣的數(shù)據(jù)挖掘任務(wù),具體包括:數(shù)據(jù)預(yù)處理、聚類、分類、回歸分析、結(jié)果可視化以及特征提取。

        本文基于Weka軟件平臺的分類算法,展開啟動子類型識別相關(guān)研究。隨著對于人類基因組的研究進(jìn)入“后基因組時代”,基因組學(xué)的研究重心已經(jīng)由揭示生命體的遺傳信息和密碼轉(zhuǎn)移到對分子整體水平的功能研究上來[2]。作為控制基因轉(zhuǎn)錄調(diào)控起始的關(guān)鍵DNA元件—啟動子,是基因組學(xué)的研究熱點,對于其類型識別預(yù)測等層面的深入研究有助于理解基因的表達(dá)調(diào)控機(jī)制等生物學(xué)特性,為疾病診治增加了新方法,為進(jìn)一步構(gòu)建生物表達(dá)調(diào)控網(wǎng)絡(luò)提供基礎(chǔ)[3]。

        1 基于高通量測序技術(shù)的啟動子分類

        隨著生物信息學(xué)領(lǐng)域高通量測序技術(shù)的發(fā)展,新一代測序技術(shù)為啟動子識別引入了新的數(shù)據(jù)支持,極大程度上促進(jìn)了啟動子區(qū)域的定位和啟動子功能的定性。啟動子存在于基因的轉(zhuǎn)錄起始位點附近,一般是上游區(qū)域(靠近5端),是一段能夠引導(dǎo)特異性基因表達(dá)活動的DNA序列[4]。啟動子作為一個特殊的調(diào)控元件,在其區(qū)域會有潛在的RNA聚合酶在DNA上的初始結(jié)合位點以及特異性的組蛋白修飾信號,根據(jù)全基因組分析的結(jié)果表明,包括組蛋白H3第4位賴氨酸(H3K4)甲基化和組蛋白H3第9位賴氨酸乙酰化(H3K9ac)在內(nèi)的若干組蛋白修飾都會在啟動子區(qū)域富集[5]。本文基于以上啟動子區(qū)域特點信息,利用RNA-seq數(shù)據(jù)和ChIP-Seq數(shù)據(jù)進(jìn)行啟動子類型的識別及獲取組蛋白修飾特征數(shù)據(jù)。

        1.1 數(shù)據(jù)獲取及預(yù)處理

        本文首先從UCSC基因組瀏覽器上獲取人類基因組g19版本的注釋基因數(shù)據(jù),其主要包含信息見表1。研究時,對注釋基因可根據(jù)以下條件進(jìn)行預(yù)處理:轉(zhuǎn)錄起始位點唯一且轉(zhuǎn)錄起始位點上下游各10 kbp的區(qū)域內(nèi)不包含其它基因任何位點的基因,最后得到7 732個符合條件的基因。然后依然從UCSC中下載細(xì)胞系H1-hesc的2個全細(xì)胞RNA-seq測序數(shù)據(jù)文件以及該細(xì)胞系的RNA聚合酶II的ChIP-Seq數(shù)據(jù)(版本號為wgEncodeEH000563)。最后,從基因表達(dá)綜合數(shù)據(jù)庫(Gene Expresion Omnibus,GEO)中下載細(xì)胞系H1-hesc的6種組蛋白修飾(與活躍啟動子相關(guān)的H3K9ac、H3K27ac 和H3K4me1/2/3以及與非活躍啟動子相關(guān)的H3K27me3)數(shù)據(jù)。由于從GEO中直接下載的組蛋白修飾數(shù)據(jù)的BED文件都是比對到人類基因組g18的,而本文其余的數(shù)據(jù)都是基于g19的,因此這里需要對組蛋白修飾數(shù)據(jù)利用UCSC的LiftOver工具設(shè)計進(jìn)行不同版本之間的基因組坐標(biāo)轉(zhuǎn)換。

        1.2 啟動子分類

        啟動子是DNA調(diào)控元件,是基因轉(zhuǎn)錄活動“開關(guān)”。啟動子是否具有生物活性,可以根據(jù)基因是否出現(xiàn)轉(zhuǎn)錄活動,即采用基因的表達(dá)水平進(jìn)行衡量。為此,本文利用RNA-seq數(shù)據(jù)計算7 732個注釋基因在細(xì)胞系H1-hesc的表達(dá)情況,衡量指標(biāo)為RPKM(Reads Per Kilobase per Million mapped reads),其計算公式如下:

        RPKM是每百萬reads中來自某個基因每一千堿基區(qū)域上的reads數(shù)量,能夠有效地反映基因真實的表達(dá)水平[6]。由于有2個數(shù)據(jù)文件,將2個計算結(jié)果取平均值作為基因的RPKM值。為了更好地擬合真實情況,盡可能減小避免測序誤差帶來的影響,在此人為規(guī)定RPKM值大于0.1以上的基因為表達(dá)基因,根據(jù)計算結(jié)果細(xì)胞系H1-hesc中61%的基因是表達(dá)基因。

        基因具有表達(dá)水平,說明存在著具有生物活性的啟動子引導(dǎo)了基因的轉(zhuǎn)錄活動。而啟動子能夠調(diào)控起始基因轉(zhuǎn)錄,需要結(jié)合特異性的RNA聚合酶II,因此利用其ChIP-Seq數(shù)據(jù)去識別具有RNA聚合酶II富集的候選啟動子區(qū)域。在此,將具有RNA聚合酶II信號的表達(dá)基因的啟動子分類為活躍啟動子,將具有RNA聚合酶II信號的、但基因RPKM值介于0~0.1之間的啟動子分類為弱啟動子,將具有RNA聚合酶II信號的、但基因RPKM值為0的啟動子分類為預(yù)備啟動子。最終,分類結(jié)果如圖1所示。其中,活躍啟動子1 260個,弱啟動子705個以及預(yù)備啟動子81個。

        1.3 啟動子組蛋白修飾特征

        組蛋白修飾會在啟動子區(qū)域富集,具有顯著的局部的峰和廣泛的分布,而在不同類型的啟動子中各個組蛋白修飾特征分布又會存在一定的差異性,因此本文研究細(xì)胞系H1-hesc的6個組蛋白修飾數(shù)據(jù)在啟動子區(qū)域的分布情況。一般認(rèn)為,基因啟動子主要是在轉(zhuǎn)錄起始位點上游1 kbp范圍內(nèi)。為此,可將基因轉(zhuǎn)錄起始位點上下游各1 kbp的區(qū)域作為候選啟動子區(qū)域,進(jìn)行組蛋白修飾信號特征的提取。將2 kbp區(qū)域劃分為10個連續(xù)且不重疊的、長度為200 bp的小bins,然后統(tǒng)計每個基因bins上的各個組蛋白修飾read的分布情況。每個組蛋白修飾數(shù)據(jù)均有2個實驗數(shù)據(jù)文件,為此取二者統(tǒng)計結(jié)果的平均值作為組蛋白修飾read落于某個bins內(nèi)的數(shù)目。研究可得組蛋白修飾分布情況如圖2所示。

        2 分類算法及性能比較

        基于先前的工作,已經(jīng)得到了各個類型啟動子的組蛋白修飾特征數(shù)據(jù),每個啟動子是60維的特征向量,需要處理的是一個三分類問題。對于有些分類算法,如支持向量機(jī)在設(shè)計時針對的是二分類問題。為此本文采取的方法是一對一策略,即在每兩類之間建立分類器,那么三分類問題中會建立3個分類器,對于新的未知樣例將根據(jù)3個分類器的投票結(jié)果來判定其類別[7]。Weka提供了多分類的分析環(huán)境,在Classify目錄下選擇meta中的MultiClassClassifier,然后根據(jù)實驗對象選擇合適的分類算法就可以實現(xiàn)多分類。本文選擇了4種分類算法進(jìn)行比較,分別是:基于C4.5決策樹學(xué)習(xí)算法的J48、隨機(jī)森林(Random Forest)、基于徑向基核函數(shù)的LibSVM以及樸素貝葉斯網(wǎng)絡(luò)。采取10折交叉驗證的方法進(jìn)行分類器評估及選擇。分類器相關(guān)參數(shù)都是默認(rèn)值。研究中,各分類算法的性能比較結(jié)果可見表2。

        從表2的結(jié)果對比中,綜合各個指標(biāo)可以看出:隨機(jī)森林分類算法在啟動子識別分類中的性能較為優(yōu)異。在一般分類預(yù)測問題中,隨機(jī)森林可以勝任預(yù)測類問題,尤其是多分類問題的第一選擇。圖3即是隨機(jī)森林算法在該分類預(yù)測中結(jié)果的混淆矩陣及分類器的ROC曲線(曲線1為基于活躍啟動子、曲線2基于弱啟動子、曲線3為基于預(yù)備啟動子)??梢赃M(jìn)一步看出,分類器對于3個類型的啟動子預(yù)測準(zhǔn)確率都在70%以上,這在多分類不平衡問題中是一個較好的結(jié)果。因此,可以應(yīng)用這一經(jīng)過訓(xùn)練的分類器在其他細(xì)胞系中去識別預(yù)測啟動子類型。

        3 結(jié)束語

        本文主要研究了基于Weka數(shù)據(jù)挖掘平臺的分類算法在啟動子識別分類中的應(yīng)用?;诘诙鷾y序技術(shù)的實驗數(shù)據(jù)對細(xì)胞系H1-hesc中的基因啟動子進(jìn)行了識別分類并提取組蛋白修飾特征,然后對比Weka中的4種分類算法在啟動子分類預(yù)測上的性能優(yōu)劣,得到隨機(jī)森林分類算法能較好對啟動子進(jìn)行分類預(yù)測,今后的相關(guān)研究工作將進(jìn)一步優(yōu)化分類器,從而提高模型性能。

        參考文獻(xiàn)

        [1] WITTEN I H FRANK E HALL M A. Data mining: Practical machine learning tools and techniques[M]. 3rd ed. 李川,張永輝,譯. 北京:機(jī)械工業(yè)出版社,2014.

        [2] GIFFORD C A ZILLER M J GU Hongcang et al. Transcriptional and epigenetic dynamics during specification of human embryonic stem cells[J].Cell 2013 153(5):1149-1163.

        [3] RAZIN S V GAVRILOV A A ULYANOV S V. Transcription-controlling regulatory elements of the eukaryotic genome[J]. Molecular Biology 2015 49(2):185-194.

        [4] Davari K Lichti J Gallus C et al. Rapid genome-wide recruitment of RNA polymerase II drives transcription splicing and translation events during T cell responses[J]. Cell Reports 2017 19(3):643-654.

        [5] BARSKI A CUDDAPAH S CUI K et al. High-resolution profiling of histone methylations in the human genome[J]. Cell 2007 129(4):823-837.

        [6] MORTAZAVI A WILLIAMS B A MCCUE K et al. Mapping and quantifying mammalian transcriptomes by RNA-seq[J]. Nature Methods 2008 5(7):621-628.

        [7] XU Wenxuan ZHANG Li. Human promoter recognition based on single nucleotide statistics and support vector machine ensemble[J]. Journal of Computer Applications 2015 35(10):2808-2812.

        猜你喜歡
        高通量測序
        基于高通量測序的野生毛葡萄轉(zhuǎn)錄組SSR信息分析
        木質(zhì)纖維素分解復(fù)合菌系的分解特性與細(xì)菌組成多樣性分析
        基于高通量測序技術(shù)對三種太歲樣品細(xì)菌組成的分析
        基于高通量測序的玄參根部轉(zhuǎn)錄組學(xué)研究及萜類化合物合成相關(guān)基因的挖掘
        污水處理中壓力變化對污泥中微生物群落組成的影響研究
        石柱黃連根腐病根際土壤細(xì)菌微生態(tài)研究
        環(huán)狀RNA在疾病發(fā)生中的作用
        川明參輪作對煙地土壤微生物群落結(jié)構(gòu)的影響
        多穗柯轉(zhuǎn)錄組分析及黃酮類化合物合成相關(guān)基因的挖掘
        人參根際真菌群落多樣性及組成的變化
        亚洲一区二区三区重口另类| 免费无码又爽又刺激网站| 日本xxxx色视频在线观看| 人妻少妇精品视频专区| 日日碰狠狠躁久久躁| 2021国产精品一区二区在线| 中文字幕精品人妻av在线| 久久精品人妻嫩草av蜜桃| av成人资源在线观看| 亚洲国产精品色婷婷久久| 国产69精品麻豆久久| 亚洲av色香蕉一区二区三区| 欧美极品jizzhd欧美| 台湾佬自拍偷区亚洲综合| 亚洲欧美日韩高清中文在线| 亚洲第一区二区快射影院| 国内揄拍国内精品久久| 青青草视频在线观看精品在线| 亚洲一品道一区二区三区| 青青草免费在线爽视频| 免费人成视频网站网址| 中文人妻av久久人妻水蜜桃| 亚洲av天天做在线观看| 亚洲不卡无码高清视频| av资源在线永久免费观看| 国产一区二区三区我不卡 | 欧美人伦禁忌dvd放荡欲情| 无码不卡av东京热毛片| 在线精品无码一区二区三区| 国产成人精品自拍在线观看| 国产在线视频91九色| 日本艳妓bbw高潮一19| 色欲麻豆国产福利精品| 精品福利一区| 日本高清一区在线你懂得| 99久久精品人妻少妇一| 艳妇臀荡乳欲伦69调教视频| 精品国产av 无码一区二区三区| 熟妇与小伙子露脸对白| 久久精品亚洲94久久精品| 少妇愉情理伦片|