張園 胡凱 譚艷平
(湘潭大學 湖南湘潭 411105)
HGT是指從親代以外的個體中獲取遺傳物質的過程。其中親代以外的個體可以是同種但含有不同遺傳信息的個體,也可以是遠親緣關系的物種,甚至是無親緣關系的物種。HGT不同于一般的供體到受體的基因轉移,它必須使整合到受體中的轉移基因進行表達,并產生有益于受體細胞的特性[1]。
每個物種的基因序列組中都存在一些在相對穩(wěn)定的堿基組成特征,這些特征在橫向轉移的基因中是不存在的[2]。因此,可以通過判斷堿基組成來預測基因是否發(fā)生HGT。下面主要介紹該類方法的常用特征和預測方法。
(5)密碼子使用偏性。遺傳信息的翻譯主要是通過mRNA鏈上密碼子來完成的,通常一種氨基酸對應的密碼子有多個,即存在多個密碼子編譯同一個氨基酸,我們稱這種現象為密碼子的簡并性,并稱這些密碼子為同義密碼子。大量研究表明,不同物種在翻譯時對同義密碼子使用具有偏向性。因此提出用密碼子使用偏向性特征來判斷是否發(fā)生HGT。它的提取方法有兩種:
①密碼子的絕對使用頻率。
②密碼子的相對使用頻率。
該類方法最早使用密碼子中的GC含量作為特征,它通過計算編碼區(qū)內密碼子中的GC含量,并設定閾值來判斷基因是否發(fā)生橫向轉移。之后,人們在GC含量的基礎上提出了G+C(K)(K=1,2,3)特征,其中K=1,2,3表示C在密碼子中的位置。
1998年,Lawrence等人對每個基因依次計算其密碼子的使用偏差值,并提出CAI特征。通過與G+C(1)和G+C(3)的組合特征結果進行比較,得到使用CAI的預測結果更好。同年,Karlin等人發(fā)現基因的DRA值基本在一個常值范圍附近波動,提出使用DRA作為特征判斷是否發(fā)生HGT。
2001年,Sandberg等人提出了核苷酸使用頻率作為特征,并采用樸素貝葉斯分類器對28個真細菌和古生菌基因組進行分析,得出大小為400bp的序列可以被準確識別,精確度達85%。
2002年,Pride等人提出了由高位核苷酸組成的基因組特征,并得出四核苷酸使用頻率在區(qū)分HGT時效果最好。
2005年,Tsirigos等人提出了Wn的方法(2 2006年,Hamdy等人提出使用核苷酸突變率來檢測HGT,該方法認為不同物種間的突變過程不一樣,提出使用檢測速率矩陣變化的方法預測HGT。 2007年,吳建盛等人提出基于C-SVM和OC-SVM的方法,通過提取密碼子絕對使用頻率來預測HGT,該方法較W8-SVM的預測靈敏度更高。 2010年,陳陽等人提出采用神經網絡的方法預測HGT,并將實驗結果與W8、OC-SVM進行比較,其預測效果要優(yōu)于前兩者。 本文主要介紹了基于堿基組成的HGT預測方法中的常用特征及研究現狀。該類方法由于計算量相對較小,且無需同源性序列等先驗知識,因此受到研究者的青睞。但由于該方法的預測精度受提取特征的影響,因此如何尋找更具代表性的特征是研究者努力的方向。3 結語