史巧碩,馬 岱,米少華
(1.河北工業(yè)大學(xué) 計算機(jī)科學(xué)與軟件學(xué)院,天津 300401;2.河北工業(yè)大學(xué) 教務(wù)處,天津 300401)
MicroRNA是一類長度約為20~40個核苷酸的非編碼RNA.它可通過分裂或者翻譯抑制靶mRNA來達(dá)到調(diào)控基因的目的.人類全部基因的三分之一都受到microRNA調(diào)控,它不僅與生物早期發(fā)育、細(xì)胞增殖死亡,分化、脂肪代謝等生物過程有關(guān),還與癌癥有著緊密的聯(lián)系.同時,它們也廣泛存在于55個物種[1]之中.
目前,通過對m iRNA的研究表明,被鑒定出來的m iRNA的數(shù)量比實(shí)際存在的要少的多,還有大量的miRNA有待發(fā)現(xiàn).而目前已知的m iRNA預(yù)測主要有兩種方式,即cDNA克隆預(yù)測方法和計算預(yù)測方法.前者是microRNA早期主要的預(yù)測方式,這種方式直接、可靠,但缺點(diǎn)很明顯,如很難克隆出在不同時期表達(dá)或只在特定組織或細(xì)胞系中表達(dá)的m iRNA,這是由于預(yù)測方式本身固有的只能捕獲高豐度m icroRNA所造成的.后者是目前比較流行的預(yù)測m icroRNA的途徑,其主要的優(yōu)點(diǎn)是預(yù)測不會受到m iRNA在表達(dá)時間、組織特異性及表達(dá)水平的影響,以便彌補(bǔ)cDNA克隆測序方法造成的不足.其中,基于機(jī)器學(xué)習(xí)的方法是近幾年來使用比較普遍的預(yù)測m icroRNA的方法[2].它不僅需要已知的m icroRNA,還需要已知的“非microRNA”,然后通過陽性和陰性數(shù)據(jù)集來構(gòu)建能夠區(qū)分二者的分類器.由于支持向量機(jī)(SupportVector Machines,SVMs)方法在逼近和泛化能力方面均具有良好的性能,目前大多數(shù)m iRNA預(yù)測方法采用SVM訓(xùn)練分類器,也有少數(shù)預(yù)測方法采用其他機(jī)器學(xué)習(xí)方法訓(xùn)練分類器,如隨機(jī)森林(Random Forest)方法、隱馬爾可夫模型(Hidden Markov Model,HMM)和Naive貝葉斯分類器 (Naive Bayes Classifier).
考慮到SVM分類器的性能受核函數(shù)和相關(guān)參數(shù)的影響很大,因而本文提出采用蟻群算法(AntColony A lgorithm,ACA)搜索SVM的相關(guān)參數(shù),以構(gòu)建無偏、且同時具有較高敏感性和特異性的分類器[3].
蟻群算法是受到對真實(shí)蟻群覓食行為啟發(fā)而提出的一種進(jìn)化論算法.該算法通過螞蟻個體間外激素的誘導(dǎo)作用,逐步尋找求解問題的全局最優(yōu)解.由于其算法本身固有的并發(fā)性和可擴(kuò)充性,非常適合于約束條件下二次優(yōu)化問題的求解[4].
支持向量機(jī)是根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,引入VC維及最優(yōu)化理論來解決模式識別問題的一種機(jī)器學(xué)習(xí)算法.針對神經(jīng)網(wǎng)絡(luò)在解決分類問題時常常容易出現(xiàn)過學(xué)習(xí)而導(dǎo)致泛化能力差的情況,支持向量機(jī)尋找的是線性空間中的最優(yōu)超平面[5].如圖1所示.
圖中圓圈和矩形框分別代表兩類樣本,中間的實(shí)線為分類線,而兩條虛線之間的距離為分類間隔.落在兩條虛線上的樣本為支持向量.為了找到最優(yōu)超平面以達(dá)到最佳的泛化性能,就需要使分類間隔盡量大,即使線性可分的樣本集S滿足
圖1 線性可分空間的分類超平面Fig.1 Hyperplanes in linear separable space
其分類超平面為
陽性數(shù)據(jù)集選取m iRBase 14的718條已被報道的人類的pre-m iRNA.通過篩選,去除那些不存在發(fā)夾結(jié)構(gòu)或者多環(huán)序列,得到646個人類pre-m iRNA作為人類陽性數(shù)據(jù)集.隨機(jī)抽取其中的495條作為訓(xùn)練集,余下的151條作為測試集.目前發(fā)現(xiàn)的絕大多數(shù)的m iRNA都位于基因間區(qū)域,基因內(nèi)的一些序列,即使它們具有與真正pre-m iRNA相似的某些特性,但它們?nèi)允羌俚膒re-m iRNA.因此可以從基因內(nèi)區(qū)域提取一些序列作為陰性數(shù)據(jù)集的來源.選擇從UCSC數(shù)據(jù)庫中提取人類蛋白編譯區(qū)的RefSeq序列,然后用RNAfold軟件計算出這些序列的二級結(jié)構(gòu),選擇具有以下3個條件的片段作為陰性數(shù)據(jù)集CODING:1)莖環(huán)結(jié)構(gòu)中核苷酸配對數(shù)不少于18個,包括GU配對;2)MFE小于-15kcal/mol;3)沒有多環(huán).最后,共收集到5687條陰性pre-miRNA.本文從中隨機(jī)抽取485條和155條序列分別作為陰性訓(xùn)練集和測試集.
首先采用85個序列特征和9個結(jié)構(gòu)特征描述整個樣本,具體如下:1)一、二、三聯(lián)堿基組成,共有84個;2)環(huán)的個數(shù)、最大環(huán)的大小、最小環(huán)的大小、大小分別為1到10nt的內(nèi)部環(huán)的個數(shù)、大小小于6nt的內(nèi)部環(huán)的個數(shù)、大小大于10 nt的內(nèi)部環(huán)的個數(shù)、配對數(shù)、最低自由能、序列長度及GC個數(shù),共計10個特征.其中,前9個結(jié)構(gòu)特征是采用RNA fold折疊序列后在其二級結(jié)構(gòu)中提取.
經(jīng)驗(yàn)表明,pre-m iRNA二級結(jié)構(gòu)中的局部鄰近結(jié)構(gòu)在預(yù)測中起著很大的作用,因此再采用羅迪的左三元編碼方法[6]對pre-m iRNA進(jìn)行特征提取.如圖2所示,每3個相鄰的核苷酸組成1個編碼單元,每個核苷酸有匹配和不匹配兩種狀態(tài).“(”表示匹配,“.”表示不匹配.提取每個編碼單元對應(yīng)的第1個核苷酸,同該編碼單元共同組成結(jié)構(gòu)序列的左三元子,如圖2中(((表示一個左三元子,共有4×2×2×2=32種形式的左三元子.
這里,僅考慮pre-m iRNA莖部分的信息.圖2中,序列的左右分別為5'端和3'端.m iRNA合成過程中,由Dicer酶剪切pre-m iRNA形成雙螺旋結(jié)構(gòu),將其兩條鏈的3'端的兩個游離核苷酸也應(yīng)用于miRNA預(yù)測.從兩端的第一個“(”到最后一個“(”進(jìn)行編碼,對于最后一個“(”后面添加兩個非匹配的核苷酸,標(biāo)識為“(..”,表示含有兩個自由核苷酸的結(jié)構(gòu).
圖2 編碼提取pre-miRNA特征Fig.2 Extracting pre-m iRNA featuresby coding
圖3 實(shí)驗(yàn)流程Fig.3 Experimental flow chart
圖4是蟻群算法尋優(yōu)支持向量機(jī)中的懲罰因子C與形變參量g的過程中測試誤差的變化圖.其中蟻群規(guī)模為10,最大迭代次數(shù)為20,最終尋找到的C為139,g為0.0619.本文同時使用WEKA機(jī)器學(xué)習(xí)平臺對所選實(shí)驗(yàn)的學(xué)習(xí)和測試數(shù)據(jù)用J48決策樹分類算法與RBF神經(jīng)網(wǎng)絡(luò)算法進(jìn)行對比實(shí)驗(yàn),訓(xùn)練和測試集的最終精度如表1所示.
通過表1中的數(shù)據(jù)可以明顯看出,使用蟻群算法與支持向量機(jī)分類算法相結(jié)合的方法對m iRNA進(jìn)行學(xué)習(xí)和測試的效果優(yōu)于J48決策樹和RBF神經(jīng)網(wǎng)絡(luò).
表1 ACO+SVM與J48、RBF神經(jīng)網(wǎng)絡(luò)對比Tab.1 Comparison of ACO+SVM,J48 and RBF
圖4 蟻群尋優(yōu)SVM參數(shù)的過程Fig.4 Processof AntColony optim izing SVM parameters
隨著信息量的劇增和數(shù)據(jù)挖掘技術(shù)在各個領(lǐng)域的廣泛應(yīng)用,利用數(shù)據(jù)挖掘技術(shù)挖掘生物領(lǐng)域的知識并進(jìn)行預(yù)測已成為當(dāng)前研究的熱點(diǎn).本文針對m icroRNA的預(yù)測問題,基于SVM分類器逼近和泛化能力方面的優(yōu)勢并與蟻群算法結(jié)合,提出了基于蟻群和支持向量機(jī)的m icroRNA預(yù)測方法,并進(jìn)行了實(shí)驗(yàn)分析.文中首先提取特征數(shù)據(jù),而后使用蟻群算法尋優(yōu)支持向量機(jī)參數(shù),找到參數(shù)后生成模型,最后利用模型進(jìn)行了分類測試.實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的正確性和有效性.由此得出,基于蟻群和支持向量機(jī)的m icroRNA預(yù)測方法具有一定的理論意義和研究價值.
[1]YimeiCai,Xiaom in Yu,SongnianHu,etal.A brief review on the mechanisms of miRNA regulation[J].Genom ics,Proteomicsamp;Bioinformatics,2009,7(4):147-154.
[2]Mendes N D,F(xiàn)reitas A T,SagotM F.Current tools for the identification of miRNA genes and their targets[J].Nucleic Acids Research,2009,37(8):2419-2433.
[3]M inh HoaiNguyen,F(xiàn)ernando de la Torre.Optimal featureselection for supportvector machines[J].Pattern Recognition,2010,43(3):584-591.
[4]Xiaoxia Zhang,Lixing Tang.A new hybrid ant colony optim ization algorithm for the vehicle routing problem[J].Pattern Recognition Letters,2009,30(9):848-855.
[5]Samad Jahandideh,Parviz Abdolmaleki.Prediction of melatonin excretion patterns in the ratexposed to ELFmagnetic fieldsbased on supportvector machine and linear discri minantanalysis[J].Micron,2010,41(7):882-885.
[6]羅迪.基于支持向量機(jī)的m iRNA預(yù)測及其靶基因預(yù)測 [D].長春:吉林大學(xué),2009,4:19-20.
[7]Nan Zhao,ZhiluWu,Yaqin Zhao.Antcolony optimization algorithm with mutation mechanism and itsapplications[J].ExpertSystemsw ith Applications,2010,37(7):4805-4810.
[8]Jan Eggers,Dom inique Feillet.Optimization of thekeyboard arrangement problem usingan AntColonyalgorithm[J].European JournalofOperational Research,2003,148(3):672-686.