摘 要:本文對(duì)基本群優(yōu)化方法進(jìn)行了改進(jìn),提出一種異步消減群優(yōu)化方法,從生物意義、堿基對(duì)、序列和二級(jí)結(jié)構(gòu)四個(gè)層次對(duì)LncRNA進(jìn)行特征提取,采用異步消減群優(yōu)化方法進(jìn)行了相似度計(jì)算,進(jìn)而提出一種新型與疾病關(guān)聯(lián)的LncRNA預(yù)測(cè)方法。實(shí)驗(yàn)結(jié)果表明,該方法預(yù)測(cè)準(zhǔn)確率較高,具有很高的推廣應(yīng)用價(jià)值。
關(guān)鍵詞:異步消減;群優(yōu)化;疾病關(guān)聯(lián);LncRNA;預(yù)測(cè)
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2018)01-0112-03
LncRNA Prediction Method for Disease Association Based on Asynchronous Subtractive Group Optimization
WANG Bo1,2,ZHANG Jing1
(1.College of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China;
2.College of Computer and Control Engineering,Qiqihar University,Qiqihar 161006,China)
Abstract:Optimization method is improved,and a asynchronous subtractive group optimization method is put forward in this paper. LncRNA feature extraction is carried out from four levels of biological significance,base pairs,sequence and secondary structure. The asynchronous subtractive group optimization method is used for similarity calculation. Nextly a new type of LncRNA prediction method associated with disease is put forward. At last the experimental results show that the prediction accuracy is higher,and high value of popularization and application for this method.
Keywords:asynchronous subtractive ;group optimization;disease associations;LncRNA;prediction
0 引 言
LncRNA是一類長(zhǎng)非編碼RNA,它具有非常重要的生物學(xué)功能,是生物信息學(xué)領(lǐng)域又一個(gè)熱點(diǎn)RNA[1,2]。研究表明,LncRNA與很多疾病有密切關(guān)系,如乳腺癌、結(jié)腸癌、心血管疾病和神經(jīng)退行性疾病等。因此對(duì)與疾病關(guān)聯(lián)的LncRNA的相關(guān)研究,對(duì)疾病的診斷、治療和預(yù)防都有重要的作用[3,4]。與疾病關(guān)聯(lián)的LncRNA計(jì)算方法研究中計(jì)算智能方法是當(dāng)前研究熱點(diǎn)[5,6],但已提出的眾多方法中部分存在易陷入局部極值、人工調(diào)節(jié)參數(shù)過(guò)多等弊端。本文為了解決上述弊端提出了一種動(dòng)態(tài)衰變?nèi)簝?yōu)化方法,并將其應(yīng)用于與疾病關(guān)聯(lián)的LncRNA預(yù)測(cè)中,該方法具有較好的LncRNA預(yù)測(cè)精度和速度。
1 與疾病關(guān)聯(lián)的LncRNA特征提取
本文主要從生物意義[7]、堿基對(duì)[7]、序列[8]和二級(jí)結(jié)構(gòu)[8]這四個(gè)方面對(duì)LncRNA進(jìn)行特征提取。其中生物意義包括ORF(Coverage)、ORF(Size)、Fickett(score)、Hexamer(score)和Coding(Potential);堿基對(duì)包括dp、AU-pair%、GU-pair%和GC-pair%;序列包括Tetra-nucleotides、Poly(A)-tail、(G-C)%、(A-U)%、(G+C)%和(A+U)%;二級(jí)結(jié)構(gòu)包括MFEI2、MFEI3、MFEI4、dG和MFE/(G%+C%)。LncRNA加權(quán)特征提取因子ξ見(jiàn)公式1所示,其中ψi(i=1…20)為權(quán)重系數(shù)。與疾病關(guān)聯(lián)的LncRNA數(shù)據(jù)集選擇LncRNADisease數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
2 疾病關(guān)聯(lián)LncRNA預(yù)測(cè)
2.1 異步消減系數(shù)
定義:異步消減系數(shù)Θ為了增加群優(yōu)化方法優(yōu)化群體的多元性,量化定義見(jiàn)公式(2)所示。
公式(2)中D表示群優(yōu)化的進(jìn)化代數(shù),為異步消減的控制閾值,由公式(2)可知在Θ的控制下系數(shù)的效能是異步消減變化的。
2.2 異步消減群優(yōu)化方法
異步消減群優(yōu)化方法(Asynchronous subtractive group optimization method,ASGO)將公式(3)做為其適應(yīng)度函數(shù),ASGO優(yōu)化策略有尋覓機(jī)制和追尾機(jī)制,其中尋覓機(jī)制為環(huán)顧四周尋找目標(biāo),追尾機(jī)制為追隨目標(biāo)行進(jìn),ASGO優(yōu)化算法流程圖見(jiàn)圖1所示。
2.3 疾病關(guān)聯(lián)LncRNA預(yù)測(cè)
與疾病關(guān)聯(lián)的LncRNA預(yù)測(cè)(prediction of lncRNA-disease associations,PIDA)的關(guān)鍵在于相似度計(jì)算,本文提出的相似度計(jì)算是在公式(1)的基礎(chǔ)上,采用ASGO完成的相似度計(jì)算,根據(jù)相似度值完成樣本的訓(xùn)練。
3 實(shí)驗(yàn)性能分析與討論
這個(gè)四個(gè)樣本特征值進(jìn)行人工的數(shù)值化分級(jí)為:ε1=ORF(Coverage)分為三級(jí)(1,2,3級(jí)別遞增),ε2=dp分為三級(jí)(+,++,+++級(jí)別遞增),ε3=Tetra-nucleotides分為兩級(jí)(#,##級(jí)別遞增),ε4=MFE/(G%+C%)分為兩級(jí)(6,6+級(jí)別遞增)。計(jì)算范例見(jiàn)表2所示。
為了驗(yàn)證本文方法的有效性,采用基本群優(yōu)化算法(GO)和異步消減群優(yōu)化(ASGO)進(jìn)行對(duì)比,真陽(yáng)率對(duì)比曲線見(jiàn)圖2所示,可明顯看出本文算法性能更優(yōu)。此外,對(duì)GO和ASGO,50%特征和100%特征,分別進(jìn)行了錯(cuò)誤率對(duì)比分析,有圖3可知ASGO方法錯(cuò)誤率最低,100%特征錯(cuò)誤率最低。
4 結(jié) 論
本文采用計(jì)算智能中的群優(yōu)化方法實(shí)現(xiàn)了對(duì)與疾病關(guān)聯(lián)的LncRNA預(yù)測(cè),其中為了提高預(yù)測(cè)精度,對(duì)群優(yōu)化方法進(jìn)行了改進(jìn),提出了一種異步消減群優(yōu)化方法,在對(duì)相似度計(jì)算過(guò)程中選擇了20個(gè)特征參考點(diǎn),實(shí)驗(yàn)結(jié)果表明本文方法預(yù)測(cè)準(zhǔn)確率較高,是一種較通用的預(yù)測(cè)方法,具有很高的推廣價(jià)值。
參考文獻(xiàn):
[1] Xiong,Yongfu;Wang,Rong;Peng,Linglong. An integrated lncRNA,microRNA and mRNA signature to improve prognosis prediction of colorectal cancer [J].ONCOTARGET,2017,8(49):85463-85478.
[2] Lan,Wei;Li,Min;Zhao,Kaijie.LDAP:a web server for lncRNA-disease association prediction [J].BIOINFORMATICS,2017,33(3):458-460.
[3] Hu,Huan;Zhu,Chunyu;Ai,Haixin. LPI-ETSLP:lncRNA-protein interaction prediction using eigenvalue transformation-based semi-supervised link prediction [J].MOLECULAR BIOSYSTEMS,2017,13(9):1781-1787.
[4] Chen,Xing;You,Zhu-Hong;Yan,Gui-Ying.IRWRLDA:improved random walk with restart for lncRNA-disease association prediction [J].ONCOTARGET,2017,7(36):57919-57931.
[5] Zhou,Meng;Zhang,Zhaoyue;Zhao,Hengqiang.A novel lncRNA-focus expression signature for survival prediction in endometrial carcinoma [J].BMC CANCER,2018,18:39.
[6] Ferlay,J. et al. Cancer incidence and mortality worldwide: sources,methods and major patterns in GLOBOCAN 2012 [J].International journal of cancer,2015,136:359-386.
[7] Ning S,Zhang J,Wang P,Zhi H,Wang J,Liu Y,Gao Y,Guo M,Yue M,Wang L and Li X. Lnc2Cancer:a manually curated database of experimentally supported lncRNAs associated with various human cancers. Nucleic Acids Research.2016,44:D980-D985.
[8] Zhou M,Wang X,Li J,Hao D,Wang Z,Shi H,Han L,Zhou H and Sun J. Prioritizing candidate disease-related long non-coding RNAs by walking on the heterogeneous lncRNA and disease network. Molecular Biosystems.2015,11:760-769.
作者簡(jiǎn)介:王波(1980-),男,博士研究生,副教授。研究方向:生物信息學(xué);通訊作者:張菁(1965-),女,博士后,教授,博士生導(dǎo)師。研究方向:計(jì)算分子生物學(xué)、虛擬現(xiàn)實(shí)、醫(yī)學(xué)圖像處理。