亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的RNA修飾位點(diǎn)的識別

        2019-05-25 11:26:18呂成偉樊永顯
        關(guān)鍵詞:核苷酸特異性位點(diǎn)

        呂成偉, 樊永顯

        (桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)

        自經(jīng)過修飾的RNA核糖核酸第一次發(fā)現(xiàn)以來,被人類已知的RNA修飾類型已經(jīng)達(dá)到了約150種[1]。研究表明,RNA修飾是基因調(diào)控的關(guān)鍵組成部分[2],其參與了轉(zhuǎn)錄后的各種生物過程,如蛋白質(zhì)翻譯和定位、mRNA剪接等,并發(fā)揮著重要作用[3]。但是,RNA修飾在其他方面的功能對人們來說仍然是未知的。因此,預(yù)測RNA修飾位點(diǎn)對于理解它們的分子機(jī)制和功能起著至關(guān)重要的作用。

        新一代測序技術(shù)的出現(xiàn)為在全基因組范圍內(nèi)研究RNA修飾提供了契機(jī)。如N1-甲基甘氨酸(m1A)、N6-甲基甘氨酸(m6A)和5-甲基胞嘧啶(m5C)圖譜可用于人類轉(zhuǎn)錄組。雖然這些基于生物實(shí)驗(yàn)技術(shù)的高通量測序方法在理解生物功能和RNA修飾方面起到了積極推動的作用,但這些方法有很大局限性,其實(shí)驗(yàn)成本高、耗時長。為了解決該問題,一些用于識別RNA修飾位點(diǎn)的基于高分辨率實(shí)驗(yàn)數(shù)據(jù)的計(jì)算方法被提出。針對m6A修飾位點(diǎn)的識別問題,Chen等[4]提出了基于序列的iRNAMethy方法,使用了偽二核苷酸組分(pseudo dinucleotide composition,簡稱PseDNC)編碼方式,在特征提取方式上取得了一些突破。Chen等[5]在編碼方式上進(jìn)行了創(chuàng)新,提出了m6Apred方法,在原有序列信息的基礎(chǔ)上計(jì)算出核苷酸的頻率信息,且加入了其化學(xué)分類特征,進(jìn)一步提高了m6A修飾位點(diǎn)的識別準(zhǔn)確率。Zhang等[6]提出了一種新的提取特征的方法m6A-HPCS,該方法的思想與Chen等[5]提出的m6Apred基本一致,從23種核苷酸物理化學(xué)性質(zhì)中出尋找一個最優(yōu)子集,結(jié)合自協(xié)方差和互協(xié)方差變換提取序列特征。

        上述幾種方法為基于序列的RNA修飾位點(diǎn)的預(yù)測開辟了道路,并取得了一定的成功。但這幾種方法對m6A和m5C修飾位點(diǎn)的識別準(zhǔn)確率不夠理想,仍有較大的提升空間。針對上述問題,在采用PseKNC的編碼方式對樣本序列進(jìn)行編碼的基礎(chǔ)上,添加了位置特異性單核苷酸及二核苷酸偏好特征,并基于XGBoost集成算法構(gòu)建了預(yù)測模型。實(shí)驗(yàn)證明,該模型的魯棒性好,且針對上述提出的3種RNA修飾位點(diǎn)的預(yù)測都取得了較高的準(zhǔn)確率。

        1 材料與方法

        為了開發(fā)一種新的預(yù)測方法,文獻(xiàn)[7-11]遵循了Chou[12]提出的一些原則,并明確以下4個步驟:

        1)構(gòu)造一個高質(zhì)量的基準(zhǔn)數(shù)據(jù)集用來訓(xùn)練和測試預(yù)測模型;

        2)對生物序列進(jìn)行編碼,使其能夠被預(yù)測模型識別;

        3)選擇或者自主研發(fā)一種魯棒的算法來建立預(yù)測模型;

        4)進(jìn)行交叉驗(yàn)證,并客觀地評價預(yù)測模型的好壞。

        1.1 基準(zhǔn)數(shù)據(jù)集

        本研究所使用的數(shù)據(jù)集包括m1A、m6A、m5C 3種RNA序列[13],這3種RNA序列分別包含6 366、1 130和120個正樣本。為了平衡正負(fù)樣本,從對應(yīng)的負(fù)樣本中隨機(jī)選取了6 366、1 130和120個樣本分別作為m1A、m6A和m5C的負(fù)樣本。

        1.2 構(gòu)建RNA序列樣本

        生物信息學(xué)面臨的一個極具挑戰(zhàn)的問題是:如何對生物序列進(jìn)行有效編碼,使得其編碼后的序列盡可能包含序列模式特征,并能被現(xiàn)有的機(jī)器學(xué)習(xí)模型直接識別。幾乎所有的機(jī)器學(xué)習(xí)算法都是為了處理向量而開發(fā)的,并不能直接識別序列樣本。常用的獨(dú)熱編碼雖然能解決不能被機(jī)器學(xué)習(xí)模型識別的問題,但這種編碼方式會丟失許多重要的序列模式特征,從而導(dǎo)致最終的預(yù)測模型預(yù)測能力低下。為了解決蛋白質(zhì)序列的問題,研究人員開發(fā)了偽氨基酸組成物(pseudo amino acid composition,簡稱PseAAC)[14-18]。自PseAAC引入以來,它的概念幾乎滲透到計(jì)算蛋白質(zhì)組學(xué)的每個領(lǐng)域。在PseAAC概念的啟發(fā)和巨大成功的鼓舞下,PseKNC[28]被提出來,并應(yīng)用到基因組分析的各個領(lǐng)域。

        假設(shè)RNA序列由L個核苷酸殘基組成,

        S={R1,R2,…,RL},

        (1)

        其中R1、R2分別為RNA序列的第1、2個核苷酸殘基。

        本研究用PseKNC對RNA序列進(jìn)行編碼,最終得到具有4k個分量的向量,即

        (2)

        對于式(2),當(dāng)k=2時,表示RNA序列由二核苷酸配置而成,于是有

        D=[f(AA)f(AC)f(AG)…f(UU)]T=

        (3)

        D=[f(AAA)f(AAC)f(AAG)f(UUU)]Τ=

        (4)

        1.3 XGBoost

        XGBoost是一種基于GBDT(gradient boosting decision tree,簡稱GBDT)梯度下降框架的集成學(xué)習(xí)算法。GBDT是將梯度下降和決策樹相結(jié)合,基于前一個分類器殘差減少的方向上,構(gòu)造新的分類器,通過多次迭代構(gòu)造一組弱分類器,對弱分類器輸出結(jié)果進(jìn)行加權(quán)累加,累加結(jié)果作為強(qiáng)分類器輸出[21]。XGBoost與GBDT相比,其優(yōu)點(diǎn)在于改變了GBDT基于Boosting串行序列化求解問題的方式,利用CPU多線程分布式并行計(jì)算,并通過對殘差進(jìn)行泰勒二次展開進(jìn)行求解,從而打破了現(xiàn)有庫的計(jì)算速度和精度,使得數(shù)據(jù)處理和運(yùn)算的速度得到了提升。

        造成XGBoost模型精度高、運(yùn)行速度快的另一個因素是選用分類回歸樹(classification and regression tree,簡稱CART)作為決策樹。由于CART樹的葉子節(jié)點(diǎn)對應(yīng)的值是一個實(shí)際的分?jǐn)?shù),而非一個確定的類別,這使得優(yōu)化算法的實(shí)現(xiàn)變得更加高效。將XGBoost模型表示為如下數(shù)學(xué)形式:

        (5)

        其中:F為所有可能的CART樹的集合;f為一棵具體的CART樹;K為樹的棵數(shù)。該XGBoost模型由k棵CART樹組成。

        1.4 性能評估

        通過如下步驟判斷一個模型的優(yōu)劣:

        1)采取交叉驗(yàn)證的方法測試模型。如文獻(xiàn)[22]采用交叉驗(yàn)證的方法對模型進(jìn)行測試,得到了廣泛的認(rèn)可和使用。交叉驗(yàn)證對于本實(shí)驗(yàn)的模型測試也同樣不失為一種好的方法。為了減少隨意性,并使得實(shí)驗(yàn)結(jié)果更準(zhǔn)確,采用10次十折交叉驗(yàn)證。

        2)采用Chou[12]在研究信號肽預(yù)測中使用的4個度量參數(shù)評價模型。根據(jù)文獻(xiàn)[8,23-24]中的定義,敏感性N、特異性P、準(zhǔn)確率A和馬修斯相關(guān)系數(shù)M分別表示為:

        (6)

        其中:NTP為含有修飾位點(diǎn)的樣本被正確預(yù)測為含有該修飾位點(diǎn)數(shù);NTN為不含有修飾位點(diǎn)的樣本被正確預(yù)測為不含有該修飾位點(diǎn)數(shù);NFP為不含有修飾位點(diǎn)的樣本被錯誤預(yù)測為含有該修飾位點(diǎn)數(shù);NFN為含有修飾位點(diǎn)的樣本被錯誤預(yù)測為不含有該修飾位點(diǎn)數(shù)。

        1.5 位置特異性核苷酸偏好特征

        位置特異性偏好思想在生物信息學(xué)得到了廣泛應(yīng)用,在功能位點(diǎn)的識別及啟動子位點(diǎn)的識別方面都取得了非常不錯的效果[25-27]。其原理是統(tǒng)計(jì)生物序列中某些關(guān)鍵位置或某種核苷酸出現(xiàn)的概率[26],將得到的概率值作為位點(diǎn)識別的特征。受此啟發(fā),將位置特異性單核苷酸和雙核苷酸偏好特征特征應(yīng)用到RNA修飾位點(diǎn)中。

        1.5.1 位置特異性單核苷酸偏好特征

        由式(1)可知,每個樣本由L個核苷酸組成,對于一個基準(zhǔn)數(shù)據(jù)集的所有樣本,可分別計(jì)算出第j(j=1,2,…,L)個位置上4種核苷酸出現(xiàn)的概率,并用一個長度為4的向量表示:

        (7)

        其中,MA,j、MC,j、MG,j和MU,j分別為A、C、G和U這4種核苷酸在第j個位置出現(xiàn)的概率。

        將j從1取值到L得到的位置特異性向量Mj組合在一起,構(gòu)成一個4×L維的位置特異性單核苷酸偏好矩陣M:

        (8)

        1.5.2 位置特異性雙核苷酸偏好特征

        取2個相鄰的核苷酸為一個單元,則式(1)樣本序列可表示為

        S′={N1,N2,…,NL-1},

        (9)

        其中,Nj={Rj,Rj+1},j=1,2,…,L-1表示第j個位置雙核苷酸的類型,而雙核苷酸的種類共有16種,即Nj∈{AA,AC,AG,AU,CA,…,UU}。

        與M的計(jì)算過程類似,可計(jì)算出一個維度為16×(L-1)的位置特異性雙核苷酸偏好矩陣:

        (10)

        1.6 特征選擇

        雖然用PseKNC對RNA序列進(jìn)行編碼是一個不錯的選擇,但這種編碼方式有一個缺點(diǎn),即數(shù)據(jù)樣本維度會出現(xiàn)爆炸式的增長,從而會出現(xiàn)以下問題:1)容易造成過擬合導(dǎo)致模型的泛化能力偏低;2)信息冗余和噪聲會導(dǎo)致模型準(zhǔn)確率低下,達(dá)不到預(yù)期效果;3)高維度樣本使得計(jì)算機(jī)的運(yùn)算負(fù)荷加重,從而使模型的運(yùn)行時間大大增加。

        為了解決上述問題,對數(shù)據(jù)樣本進(jìn)行特征選擇,進(jìn)而降低樣本維度。本研究采用F-score[28]特征選擇方法,定義如下:

        (11)

        2 結(jié)果

        2.1 PseKNC編碼方式中最優(yōu)k值的確定

        對m1A、m6A、m5C這3種RNA序列采用PseKNC的編碼方式進(jìn)行編碼,但k取不同的值時,結(jié)果也不同,為了找到最優(yōu)的k值,對k=2,3,4,5,6,7時分別進(jìn)行編碼,其十折交叉驗(yàn)證的結(jié)果如圖1所示。

        圖1 PseKNC編碼中不同的k值對m1A, m6A 和 m5C修飾位點(diǎn)的識別準(zhǔn)確率的影響

        從圖1可看出,k取不同值時,m1A、m6A、m5C這3種RNA修飾位點(diǎn)的識別準(zhǔn)確率也隨之波動,其中m1A對于不同的k值波動較小,而k值的不同對m6A和m5C的影響較大。當(dāng)k=5時,m1A修飾位點(diǎn)的識別準(zhǔn)確率最高;k=4時,m6A修飾位點(diǎn)的識別準(zhǔn)確率最高;k=3時m5C修飾位點(diǎn)的識別準(zhǔn)確率最高。在進(jìn)行特征選擇之前,m1A、m6A、m5C的PseKNC編碼中k的最優(yōu)值分別為5、4、3。

        為了進(jìn)一步提高識別準(zhǔn)確率,采用F-score特征選擇方法得到k最終的最優(yōu)解。

        在m1A、m6A、m5C取不同k值(k=2,3,4,5,6,7)編碼后的序列基礎(chǔ)上,融合位置特異性單核苷酸偏好特征和位置特異性雙核苷酸偏好特征,再對其進(jìn)行特征選擇。十折交叉驗(yàn)證的結(jié)果如表1所示。

        表1 特征選擇后,不同的k值對m1A、m6A、m5C修飾位點(diǎn)的識別結(jié)果

        從表1可看出,融合了位置特異性單核苷酸偏好特征和位置特異性雙核苷酸偏好特征并經(jīng)過特征選擇后,m1A、m6A、m5C這3種RNA修飾位點(diǎn)的識別準(zhǔn)確率均有較大提升。其中:m1A在k=7時,識別準(zhǔn)確率達(dá)到最高,為99.9%;m6A在k=5時,識別準(zhǔn)確率達(dá)到最高,為88.1%;m5C在k=3時,識別準(zhǔn)確率達(dá)到最高,為88.2%。而在此之前,m1A、m6A、m5C這3種RNA修飾位點(diǎn)的識別準(zhǔn)確率最高時其PseKNC編碼對應(yīng)的k值分別為5、4、3,顯然,除了m5C的PseKNC編碼中最優(yōu)k值未發(fā)生改變,其他2個均發(fā)生了改變。

        2.2 基于網(wǎng)格搜索的XGBoost模型參數(shù)尋優(yōu)

        在確定了PseKNC編碼的最優(yōu)k值后,繼續(xù)對XGBoost預(yù)測模型的參數(shù)進(jìn)行尋優(yōu)。要想完全發(fā)揮XGBoost的強(qiáng)大性能,對其進(jìn)行調(diào)參是必不可少的一項(xiàng)工作。這里選用網(wǎng)格搜索的方法對其進(jìn)行調(diào)參。網(wǎng)格搜索的原理是:在所有候選的參數(shù)中,通過循環(huán)遍歷,嘗試每種可能性,交叉驗(yàn)證后,表現(xiàn)最好的參數(shù)組合就是最終結(jié)果。該方法的優(yōu)點(diǎn)是結(jié)果準(zhǔn)確,但缺點(diǎn)是當(dāng)參數(shù)數(shù)量過多時,參數(shù)尋優(yōu)的計(jì)算過程非常耗時。XGBoost中的參數(shù)主要分為通用參數(shù)、學(xué)習(xí)任務(wù)參數(shù)和命令行參數(shù)3大類。其中通用參數(shù)有20多個,學(xué)習(xí)任務(wù)參數(shù)有4個,命令行參數(shù)有十多個,若對這些參數(shù)進(jìn)行網(wǎng)格搜索尋優(yōu),將會非常耗時,使調(diào)參的工作面臨巨大挑戰(zhàn)。

        為了應(yīng)對這一挑戰(zhàn),針對性地選取一些核心參數(shù),將對模型性能影響不大的參數(shù)剔除。據(jù)此,在通用參數(shù)中選取booster、learning_rate、max_depth、min_child_weight、subsample、colsample_bytree、gamma、lambda和alpha這8個參數(shù),在學(xué)習(xí)任務(wù)參數(shù)中選取objective參數(shù),在命令行參數(shù)中選取num_round參數(shù)。其中:max_depth和min_child_weight對決策樹的構(gòu)建起約束作用;subsample和colsample_bytree均是關(guān)于采樣的參數(shù);lambda和alpha均是正則項(xiàng)。為了進(jìn)一步減少運(yùn)算量,采用組合分批網(wǎng)格搜索的策略,即將具有相同作用的參數(shù)組合在一起,對組合進(jìn)行網(wǎng)格搜索,將最優(yōu)組合與其他參數(shù)組合在一起,再進(jìn)行網(wǎng)格搜索。調(diào)參后的XGBoost模型在jackknife測試下的識別結(jié)果如表2所示。從表2可看出,m6A修飾位點(diǎn)的識別準(zhǔn)確率從88.1%提升到了92.6%,m5C修飾位點(diǎn)的識別準(zhǔn)確率從88.2%提升到了89.6%,雖然m1A修飾位點(diǎn)的識別準(zhǔn)確率并未得到提升,但在此之前已經(jīng)達(dá)到了99.9%這樣一個非常理想的水平。

        表2 參數(shù)調(diào)整后的XGBoost模型的識別結(jié)果

        ROC(receiver operating characteristic)曲線是一個能直觀展現(xiàn)模型性能的另一個重要指標(biāo)[29]。ROC曲線下側(cè)包含的面積(AUC)越大,模型的性能越好[30]。圖2為XGBoost預(yù)測模型分別對m1A、m6A、m5C這3種RNA修飾位點(diǎn)進(jìn)行識別后生成的ROC曲線。從圖2可看出,m1A、m6A、m5C所對應(yīng)的AUC值分別為0.998 6、0.931 2和0.955 8,表明XGBoost預(yù)測模型的魯棒性非常好。

        圖2 XGBoost模型在m1A,m6A和m5C修飾位點(diǎn)上的識別性能

        2.3 不同方法的識別結(jié)果對比

        將XGBoost預(yù)測模型的識別結(jié)果與文獻(xiàn)[13]使用的SVM預(yù)測模型的識別結(jié)果進(jìn)行對比,2個模型經(jīng)過jackknife測試后的結(jié)果如表3所示。從表3可看出,XGBoost預(yù)測模型和SVM預(yù)測模型在m1A修飾位點(diǎn)的識別上均取得了較好的結(jié)果,準(zhǔn)確率分別達(dá)到了99.9%、99.1%;在m6A修飾位點(diǎn)的識別上,XGBoost預(yù)測模型的準(zhǔn)確率為92.6%,SVM預(yù)測模型的準(zhǔn)確率為90.4%,提升了2.2%;在m5C修飾位點(diǎn)的識別上,XGBoost預(yù)測模型的準(zhǔn)確率達(dá)到了89.6%,遠(yuǎn)高于SVM預(yù)測模型的77.5%,提升了12.1%。

        表3 XGBoost與SVM的識別結(jié)果比較

        3 結(jié)束語

        為了更快速、準(zhǔn)確地識別RNA序列中的修飾位點(diǎn)m1A、m6A、m5C,提出了一種融合位置特異性單核苷酸及雙核苷酸偏好特征的PseKNC編碼方式,并構(gòu)建了一個基于XGBoost的RNA修飾位點(diǎn)的預(yù)測模型。與現(xiàn)有的SVM預(yù)測模型相比,其準(zhǔn)確率和馬修斯相關(guān)系數(shù)均取得了明顯提升,其中,對于在現(xiàn)有SVM預(yù)測模型上識別效果相對較差的m5C修飾位點(diǎn),在XGBoost預(yù)測模型上取得了較大的突破,識別準(zhǔn)確率從77.5%提高到了89.6%,馬修斯相關(guān)系數(shù)從0.552提高到了0.792,此外,敏感性和特異性也分別從0.758和0.792提高到了0.913和0.880。XGBoost預(yù)測模型的提出為RNA修飾位點(diǎn)的識別提供了高效、可靠的方法。

        猜你喜歡
        核苷酸特異性位點(diǎn)
        單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
        徐長風(fēng):核苷酸類似物的副作用
        肝博士(2022年3期)2022-06-30 02:48:28
        鎳基單晶高溫合金多組元置換的第一性原理研究
        上海金屬(2021年6期)2021-12-02 10:47:20
        CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
        Acknowledgment to reviewers—November 2018 to September 2019
        二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
        精確制導(dǎo) 特異性溶栓
        BOPIM-dma作為BSA Site Ⅰ特異性探針的研究及其應(yīng)用
        重復(fù)周圍磁刺激治療慢性非特異性下腰痛的臨床效果
        兒童非特異性ST-T改變
        久久精品亚洲牛牛影视| 青青草视频是针对华人| 亚洲中文字幕久久精品品| 国产又粗又猛又黄又爽无遮挡| 亚洲粉嫩高潮的18p| 揄拍成人国产精品视频肥熟女| 亚洲精品在线观看自拍| 亚洲桃色视频在线观看一区| 欧美黑人群一交| 国产美女白浆| 亚洲视频不卡免费在线| 三区中文字幕在线观看| 国产av熟女一区二区三区蜜臀 | 日本精品免费一区二区三区| 亚洲人妻av综合久久| 亚洲av天堂在线视频| 一性一交一口添一摸视频| 四虎永久在线精品免费观看地址| 精品久久日产国产一区| 极品人妻少妇av免费久久| 国产精品久人妻精品老妇| 亚洲色大成网站www久久九| 亚洲一区sm无码| 黄页免费人成网址大全| 九九影院理论片私人影院| 国产成a人亚洲精v品无码性色| 久久亚洲国产精品五月天| 爱爱免费视频一区二区三区| 国产综合色在线精品| 无码国产精品一区二区vr老人| 青草热久精品视频在线观看| 国产美女主播福利一区| 亚洲啪啪视频一区二区| 艳妇臀荡乳欲伦交换在线播放| 国产精品天天看大片特色视频| 精品不卡视频在线网址| av无码国产在线看免费网站| 夜先锋av资源网站| 中文字幕亚洲无线码高清| 男女啪啪动态视频在线观看| 一本色道久久综合狠狠躁篇 |