亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        DNA 4mC 甲基化修飾位點(diǎn)預(yù)測(cè)的研究進(jìn)展

        2020-06-30 02:48:14許召春劉華軍
        科學(xué)技術(shù)創(chuàng)新 2020年17期
        關(guān)鍵詞:預(yù)測(cè)器核苷酸基因組

        許召春 劉華軍

        (景德鎮(zhèn)陶瓷大學(xué)信息工程學(xué)院,江西 景德鎮(zhèn)333403)

        最常見(jiàn)的DNA 甲基化修飾分別是N6- 甲基腺嘌呤(6mA)、5- 甲基腺嘌呤(5mC)、N4- 甲基胞嘧啶(4mC)。DNA 6mA 和5mC 位點(diǎn)廣泛存在于原核生物和真核生物中,而DNA 4mC 位點(diǎn)只存在于原核生物中[1]。4mC 于1983 年被發(fā)現(xiàn),是細(xì)菌DNA中最不常見(jiàn)的甲基化DNA 堿基[2]。DNA 4mC 在限制性修飾體系中起著重要作用[3]。為了更好地理解它們的功能機(jī)制,識(shí)別4mc修飾是非常重要的。DNA 4mC 位點(diǎn)的實(shí)驗(yàn)篩選是耗時(shí)、費(fèi)力和昂貴的。因此,開(kāi)發(fā)生物信息學(xué)工具大規(guī)模準(zhǔn)確高效地識(shí)別4mC 位點(diǎn)是濕實(shí)驗(yàn)的有效補(bǔ)充。近年來(lái)研究者們基于機(jī)器學(xué)習(xí)方法研發(fā)了一系列高效的4mC 位點(diǎn)高通量識(shí)別方法,本文就4mC 位點(diǎn)預(yù)測(cè)研究進(jìn)行綜述,并對(duì)此提出展望。

        1 現(xiàn)有4mC 預(yù)測(cè)器

        1.1 iDNA4mC

        iDNA4mC[4]是最早由陳偉與林昊兩個(gè)團(tuán)隊(duì)利用機(jī)器學(xué)習(xí)方法共同提出的預(yù)測(cè)4mC 修飾位點(diǎn)的預(yù)測(cè)工具。含4mC 位點(diǎn)的陽(yáng)性樣本是從MethSMRT 數(shù)據(jù)庫(kù)中獲取,涉及線蟲、果蠅、擬南芥、大腸桿菌、嗜堿菌和地桿菌六個(gè)物種,最終采用滑窗法(最優(yōu)窗口長(zhǎng)度為41bp)構(gòu)建了高質(zhì)量的平衡數(shù)據(jù)集(表1)。

        表1 基準(zhǔn)數(shù)據(jù)集物種正樣本及負(fù)樣本數(shù)量分布

        DNA 樣本序列由核苷酸物理化學(xué)屬性和核苷酸密度進(jìn)行編碼,每個(gè)核苷酸被轉(zhuǎn)化為4 維離散型向量,采用支持向量機(jī)作為分類器,在六種物種數(shù)據(jù)上執(zhí)行jackknife 交叉驗(yàn)證,主要的性能評(píng)價(jià)指標(biāo)ACC 與MCC 值見(jiàn)表2。

        1.2 4mCPred

        4mCPred[5]預(yù)測(cè)器是由鄒權(quán)團(tuán)隊(duì)開(kāi)發(fā),沿用了iDNA4mC 預(yù)測(cè)器的訓(xùn)練樣本數(shù)據(jù),為了充分提取基準(zhǔn)數(shù)據(jù)集中的信息,利用三核苷酸的位置特異性偏好和電子- 離子相互作用的偽電位值將DNA 序列轉(zhuǎn)化為數(shù)值向量。為了獲得更好的泛化預(yù)測(cè)模型,采用最優(yōu)特征選擇技術(shù)(F-score)來(lái)選擇最優(yōu)特征子集。作者嘗試了不同的分類算法,包括樸素貝葉斯、KNN、隨機(jī)森林及SVM,最終基于SVM構(gòu)建了具有更好性能的分類模型,jackknife交叉驗(yàn)證結(jié)果見(jiàn)表2,結(jié)果表明,相比于iDNA4mC 預(yù)測(cè)器,4mCPred 預(yù)測(cè)器的整體性能有一定程度提高。

        表2 六種物種數(shù)據(jù)集上各類預(yù)測(cè)器交叉驗(yàn)證結(jié)果

        1.3 4mcPred-SVM

        在前兩個(gè)預(yù)測(cè)器的基礎(chǔ)上,鄒權(quán)團(tuán)隊(duì)充分利用基于序列信息的特征表示算法提出了新的預(yù)測(cè)器4mcPred-SVM[6],用于DNA 4mC 位點(diǎn)的全基因組檢測(cè)。為了提高特征表示能力,作者采用了兩步特征優(yōu)化策略,從而獲得最具代表性的特征。利用所得到的特征和支持向量機(jī)(SVM)自適應(yīng)地訓(xùn)練不同物種的最優(yōu)模型,結(jié)果詳見(jiàn)表2。對(duì)6 個(gè)物種的基準(zhǔn)數(shù)據(jù)集的比較結(jié)果表明,與最先進(jìn)的預(yù)測(cè)器相比,預(yù)測(cè)器4mcPred-SVM 能夠在預(yù)測(cè)4mC 位點(diǎn)方面獲得更好的性能。重要的是,基于序列的特征能夠可靠而穩(wěn)健地預(yù)測(cè)4mC 位點(diǎn),有助于發(fā)現(xiàn)潛在的重要序列特征,用于預(yù)測(cè)4mC 位點(diǎn)。

        1.4 Meta-4mCpred

        Manavalan 等人[7]采用了一種特征表示學(xué)習(xí)方案,基于4 種不同的機(jī)器學(xué)習(xí)算法和7 種不同的特征編碼,生成了56 個(gè)概率特征,涵蓋了不同的序列信息,包括成分信息、物理化學(xué)信息和位置特定信息。然后,利用概率特征作為支持向量機(jī)的輸入,最終建立Meta-4mCpred 預(yù)測(cè)器。交叉驗(yàn)證結(jié)果表明來(lái)自上述6 個(gè)不同的物種的Meta-4mCpred 的總體平均準(zhǔn)確率為84.2%,這比現(xiàn)存最好的預(yù)測(cè)器高出大約2%-4%(見(jiàn)表2)。

        1.5 4mCCNN

        KHANAL 等人[8]基于上述六種物種的相同基準(zhǔn)數(shù)據(jù)集,采用較為流行的one-hot 編碼,利用卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)了4mCCNN預(yù)測(cè)模型。性能最好的超參數(shù)是通過(guò)使用網(wǎng)格搜索方法獲得,交叉驗(yàn)證結(jié)果顯示,4mCCNN 預(yù)測(cè)器性能相比前幾個(gè)預(yù)測(cè)器更加良好(見(jiàn)表2),這也意味著深度學(xué)習(xí)算法在特征表征方面更具優(yōu)勢(shì)。

        1.6 4mCpred-EL

        雖然基于機(jī)器學(xué)習(xí)方法在其他物種中有很好的4mC 鑒定前景,但是目前還沒(méi)有一種方法可以用于檢測(cè)小鼠基因組中的4mC 位點(diǎn)。Manavalan[9]提出了一種新計(jì)算方法,稱為4mCpred-EL,是識(shí)別小鼠基因組中4mC 位點(diǎn)的第一個(gè)方法,其中使用了四種不同的機(jī)器學(xué)習(xí)算法和七個(gè)特征編碼方法。然后將這些特征編碼的預(yù)測(cè)概率值作為特征向量,再一次輸入到機(jī)器學(xué)習(xí)算法中,將相應(yīng)的模型通過(guò)集成學(xué)習(xí)進(jìn)行融合決策,結(jié)果見(jiàn)表3。

        表3 其他物種基準(zhǔn)數(shù)據(jù)集上預(yù)測(cè)器性能

        1.7 iEC4mC-SVM

        雖然上述基于機(jī)器學(xué)習(xí)的DNA 4mC 位點(diǎn)的預(yù)測(cè)器總體性能較好,能提供研究者對(duì)4mC 修飾的生物學(xué)功能和機(jī)制更深入的了解,但是,現(xiàn)有的識(shí)別大腸桿菌4mC 位點(diǎn)的分類器性能仍然有待提高。為此,一種新的基于SVM的4mC 位點(diǎn)預(yù)測(cè)模型iEC4mC-SVM被LV 等人提出,該模型采用多特征融合,并結(jié)合光梯度增強(qiáng)機(jī)特征選擇技術(shù)(LGBM)選擇最優(yōu)特征子集,結(jié)果比最新的大腸桿菌性能更高,具體度量值見(jiàn)表3。

        1.8 i4mC-ROSE

        MehediHasan 提出了一種新的預(yù)測(cè)因子i4mC-ROSE,用于確定薔薇科中F. vesca 和R. chinensis 基因組中的4mC 位點(diǎn)。首先,利用隨機(jī)森林(RF)算法分別聯(lián)合k- 空間光譜核苷酸組成(KSNC)、電子- 離子相互作用偽電位(EIIP)、k-mer 組成(Kmer)、二進(jìn)制編碼(BE)、二核苷酸理化性質(zhì)(DPCP)和三核苷酸理化性質(zhì)(TPCP)特征表示方法,生成六個(gè)概率分值。其次,將六種概率得分與線性回歸模型相結(jié)合,提高預(yù)測(cè)性能。文獻(xiàn)表明,i4mC-ROSE 是第一個(gè)預(yù)測(cè)薔薇科基因組中4mC 位點(diǎn)的計(jì)算工具。

        為了方便廣大研究學(xué)者進(jìn)行DNA 4mC 修飾位點(diǎn)預(yù)測(cè)分析,除了iEC4mC-SVM 預(yù)測(cè)器沒(méi)有在線預(yù)測(cè)功能,基本每個(gè)研究團(tuán)隊(duì)都開(kāi)發(fā)了用戶友好的在線預(yù)測(cè)器,用戶可通過(guò)表4 所提供的鏈接直接免費(fèi)訪問(wèn)在線預(yù)測(cè)器。

        表4 在線預(yù)測(cè)器訪問(wèn)鏈接

        2 展望

        最近幾年,DNA 4mC 修飾位點(diǎn)預(yù)測(cè)方面已做了大量的研究工作,并取得了相當(dāng)不錯(cuò)的成績(jī),但是仍然存在一些局限性,主要體現(xiàn)在以下幾個(gè)方面。首先,用于模型構(gòu)建的訓(xùn)練樣本沒(méi)有更新,大多數(shù)預(yù)測(cè)器仍然是基于首套數(shù)據(jù)而構(gòu)建。其次,所采用的分類算法大體還是以傳統(tǒng)分類算法SVM為主,只有4mCCNN采用了深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)CNN。再者,從預(yù)測(cè)結(jié)果上看,預(yù)測(cè)結(jié)果還有一定的提升空間。未來(lái)這方面的工作可圍繞著這些問(wèn)題開(kāi)展,擴(kuò)大數(shù)據(jù)集規(guī)模,增加物種數(shù)量,創(chuàng)建新的特征表示方法,利用深度學(xué)習(xí)算法進(jìn)一步提高4mC 位點(diǎn)預(yù)測(cè)精度,以更好地理解4mC 位點(diǎn)的功能機(jī)制。

        猜你喜歡
        預(yù)測(cè)器核苷酸基因組
        單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
        徐長(zhǎng)風(fēng):核苷酸類似物的副作用
        肝博士(2022年3期)2022-06-30 02:48:28
        輸入延遲系統(tǒng)的切換偽預(yù)測(cè)鎮(zhèn)定控制器
        牛參考基因組中發(fā)現(xiàn)被忽視基因
        一種改進(jìn)型TAGE分支預(yù)測(cè)器的實(shí)現(xiàn)
        Acknowledgment to reviewers—November 2018 to September 2019
        廣東人群8q24rs1530300單核苷酸多態(tài)性與非綜合征性唇腭裂的相關(guān)性研究
        基因組DNA甲基化及組蛋白甲基化
        遺傳(2014年3期)2014-02-28 20:58:49
        有趣的植物基因組
        基因組生物學(xué)60年
        精品国产一区二区三区香蕉| 中文字幕日韩精品人妻久久久| 久久精品国产亚洲av影院毛片| 99无码熟妇丰满人妻啪啪| 日本高清www无色夜在线视频| 巨臀中文字幕一区二区| 亚洲精品av一区二区日韩| 婷婷亚洲岛国热超碰中文字幕| 无码免费一区二区三区| 夜夜综合网| av福利资源在线观看| 久久精品国产亚洲av蜜点| 欧美一区二区三区视频在线观看| 亚洲精品无码av片| 日韩肥熟妇无码一区二区三区 | 久久狠狠高潮亚洲精品暴力打| 国产精品久久夜伦鲁鲁| 成人国产精品一区二区八戒网| 美女av一区二区三区| 亚洲va在线va天堂va手机| 国产美女高潮流白浆免费观看| 91久久综合精品久久久综合| 中文字幕国产亚洲一区| 无遮挡18禁啪啪羞羞漫画| 大地资源中文在线观看官网第二页| 91极品尤物国产在线播放| 国产成人亚洲精品91专区高清 | 丰满少妇被爽的高潮喷水呻吟 | 一本色道久久99一综合| 久久久久久一级毛片免费无遮挡| 日本av一区二区三区四区| av无码小缝喷白浆在线观看| 日本免费人成视频播放| 亚洲AV成人无码天堂| 中文字幕亚洲精品在线| 亚洲欧美日韩在线不卡| 国产精品亚洲一区二区杨幂| 蜜桃码一区二区三区在线观看| 亚洲av无码日韩av无码网站冲| 日本午夜免费福利视频| 国产精品国产三级国产三不|