郭麗娜, 郭俊峰
(1.南京財經(jīng)大學 應用數(shù)學學院, 江蘇 南京 210023; 2.南京財經(jīng)大學 經(jīng)濟學院, 江蘇 南京 210023)
基因識別中信噪比與功率譜的快速計算公式及算法實現(xiàn)
郭麗娜1, 郭俊峰2
(1.南京財經(jīng)大學 應用數(shù)學學院, 江蘇 南京 210023; 2.南京財經(jīng)大學 經(jīng)濟學院, 江蘇 南京 210023)
DNA序列信號頻譜3-周期性是一個被廣泛用于區(qū)分編碼區(qū)和非編碼區(qū)的重要特征,根據(jù)核苷酸中3個密碼子位置的不均衡性,給出了功率譜與信噪比的快速計算公式. 研究發(fā)現(xiàn)快速計算公式有助于基因識別的實現(xiàn),為探測內含子、外顯子提供了一個快速高效的方法.
信噪比; 功率譜; 基因識別; 外顯子; 內含子
基于海量的人類及其他生物基因組數(shù)據(jù),對基因進行識別是生物信息學的一項重要研究課題[1]. 利用計算機分析和研究核苷酸序列,對蛋白質編碼區(qū)的位置、結構和功能進行注釋是基因識別的主要內容,其研究又分為兩大類:蛋白質編碼區(qū)識別和功能位點識別[2-3].目前這兩方面的研究都不是非常令人滿意,關于基因編碼區(qū)的識別,特別是對較短序列的預測效果仍然不理想.在面對大量、復雜的基因序列數(shù)據(jù)時,如何更好更快地獲取準確的基因信息,如何在眾多的基因序列中確定功率譜和信噪比,如何快速實現(xiàn)基因識別算法,是我們面臨的一項重要課題.
在生物學、醫(yī)學、藥學等諸多方面,對DNA的研究具有重要的理論意義與實際價值.對于較長的DNA序列,應用離散Fourier變換(Discrete Fourier Transform,簡稱DFT變換) 計算其信噪比或功率譜時總體計算量很大,會影響到所設計的基因識別算法的效率[4].鑒于此,文中基于Voss映射,給出對于任意映射下功率譜與信噪比的快速計算公式.
在DNA序列研究中,首先需要把A、T、G、C這4種核苷酸的符號序列,根據(jù)一定的規(guī)則映射成相應的數(shù)值序列,以便于對其作數(shù)字處理.
令I={A,T,G,C},長度(即核苷酸符號個數(shù),又稱堿基對(Base Pair)長度,單位記為bp)為N的任意DNA序列,可表達為
S={S[n] |S[n]∈I,n=0,1,2,…N-1},
即A、T、G、C的符號序列S:S[0],S[1],…,S[N-1].現(xiàn)對于任意確定的b∈I,令
稱之為Voss映射[1],于是生成相應的0-1序列(即二進制序列){ub[n]}:ub[0],ub[1], …,ub[N-1](b∈I).
例如,假設給定的一段DNA序列片段為S=ATCGTACTG,則所生成的4個0-1序列分別為:
{uA[n]}:{1,0,0,0,0,1,0,0,0}; {uG[n]}:{0,0,0,1,0,0,0,0,1};
{uC[n]}:{0,0,1,0,0,0,1,0,0}; {uT[n]}:{0,1,0,0,1,0,0,1,0}.
這樣產(chǎn)生的4個數(shù)字序列又稱為DNA序列的指示序列(indicator Sequence).
為研究DNA編碼序列(外顯子)的特性,對指示序列分別做離散Fourier變換(DFT)
以此可得到4個長度均為N的復數(shù)序列{Ub[k]},b∈I.計算每個復序列{Ub[k]}的平方功率譜,并相加則得到整個DNA序列S的功率譜序列{P[k]}:
P[k]=|UA[k]|2+|UT[k]|2+|UG[k]|2+|UC[k]|2,k=0,1,…N-1
對于同一段DNA序列,其外顯子與內含子序列片段的功率譜通常表現(xiàn)出不同的特性
圖1 編號為BK006948.2的酵母基因DNA序列的功率譜
記DNA序列S的總功率譜的平均值為
(1)
(2)
DNA序列的信噪比值的大小,既表示頻譜峰值(Peak Value)的相對高度,也反映編碼或非編碼序列3-周期性的強弱.
信噪比R大于某個適當選定的閾值R0(比如R0=2),是DNA序列上編碼序列片段(外顯子)通常滿足的特性,而內含子則一般不具有該性質[2].
3.1 基于密碼子中核苷酸分布頻率的平均功率譜的快速計算公式
對A→0,C→1,G→2,T→3這種類型的實數(shù)映射,其目的是為了繼續(xù)對核苷酸序列信息轉換進行降維,從而提高計算功率譜與信噪比的速度.但是,基于映射建立的信噪比和功率譜的計算量仍然很大,根據(jù)核苷酸中3個密碼子位置的不平衡性,可以通過分析核苷酸序列的頻率分布來建立信噪比與功率譜的快速計算公式.
(3)
其中σF是密碼子3個位置處核苷酸頻率的方差,記作:
(4)
(5)
則可得功率譜的快速計算公式:
(6)
3.2 基于密碼子中核苷酸分布頻率的信噪比的快速計算公式
(7)
因而DNA序列的功率譜峰值:
(8)
二次型的系數(shù)矩陣M為半正定陣,其特征值分別為1.5、1.5、0,且當Fx1=Fx2=Fx3時,功率譜值為0.因此,當堿基在序列的3種位置上的頻數(shù)(Fx1,Fx2,Fx3)分布偏差越小時,功率譜曲線的峰值P(N/3)越接近于0.功率譜峰值實際上反映了基因密碼子出現(xiàn)的某種概率不均衡性.
大量的計算實驗表明[3],一個沒有錯誤符號的長度為N的DNA序列的總功率為:
(9)
(10)
3.3 數(shù)值實驗
本段均選取線蟲粘粒(AF100306)及人的線粒體全基因組(NC-012920)的第3個基因片段進行實驗. 分別用原始的信噪比、功率譜計算式(1)、式(2)及文中改進的快速算法式(6)、式(10)來進行求解. 應用Matlab 7.0運行結果如表1和表2所示.
表1 基于兩種算法下線蟲粘粒的DNA序列所對應的信噪比
表2 基于兩種算法下人的線粒體全基因組的DNA序列所對應的信噪比
線蟲粘?;谠嫉墓β首V計算公式所得圖形如圖2所示,由圖2可看出線蟲粘粒的這段基因序列不具有雙峰結構.并且由表1可看出,對于內含子基因片段,運用快速算法計算的信噪比較之于原始算法更小,根據(jù)閾值的計算原理,可排除該基因片段是外顯子的可能性.
人的線粒體全基因組基于原始的功率譜計算公式所得圖形如圖3所示,由圖3可以看出人的線粒體全基因組具有雙峰結構,而人們通常都是根據(jù)基因序列的功率譜圖是否具有雙峰結構來判別是否是外顯子區(qū)域.但由表2發(fā)現(xiàn),運用原始算法計算的信噪比值較之于快速算法更小,根據(jù)閾值的計算原理可知,從一定程度上運用原始算法在識別基因外顯子區(qū)間時將會產(chǎn)生誤差,會擴大外顯子區(qū)間,將原本內含子的部分誤認為是外顯子.由此,可發(fā)現(xiàn)快速計算公式有助于基因識別的實現(xiàn),為探測內含子、外顯子提供了一個快速高效的方法.
圖2 線蟲粘粒的功率譜圖
圖3 人的線粒體全基因組的功率譜圖
本文根據(jù)DNA序列3-周期性,得到了功率譜與信噪比的快速計算公式,使之更具有廣泛性和適用性. 并且研究發(fā)現(xiàn)快速計算公式有助于基因識別的實現(xiàn),為探測內含子、外顯子提供了一個快速高效的方法.
[1] Rushdi A, Tuqan J. Gene identification using the Z-curve representation[J]. Department of Electrical and Computer Engineering University of California, 2006, 2(2): 1024-1027.
[2] Yin C C, Yau S T. Prediction of protein coding regions by the 3-base periodicity analysis of a DNA sequence[J]. Journal of Theoretical Biology, 2007, 247(4):687-694.
[3] 邵建峰,嚴曉華,邵偉,等. DNA序列信號3-周期特性[J]. 南京工業(yè)大學學報,2012,7(4):134-137.
[4] Chang H, Stephen S Y. A fourier characteristic of coding sequences: origins and a non-fourier approximation[J]. Journal of Computational Biology, 2005, 12(9):1153-1165.
[5] Sharma S, Doherty K M, Brosh R M. Mechanisms of RecQ helicases in pathways of DNA metabolism and maintenance of genomic stability[J]. Biochem J, 2006,398:319-337.
[6] 馬寶山. 基于信號處理理論和方法的基因預測研究[D]. 大連:大連海事大學, 2008.
[7] 田元新, 陳超, 鄒小勇, 等. 外顯子周期三行為特征的研究[J]. 化學學報, 2005, 63: 1215-1219.
[8] 楊莉. DNA序列4D表示及基因識別算法研究[D]. 長沙: 湖南大學博士論文, 2005.
[9] Burge C, Karlin S. Prediction of complete gene structures in human genomic DNA[J]. Mol Biol, 2007, 268:78-94.
[10] Berryman M J, Allison A. Review of signal processing in genetics[J]. Fluctuation and Noise Letters, 2005, 5(4):13-35.
[11] Koltar D, Lavner Y. Gene prediction by spectral rotation measure: a new method for identifying protein-coding regions[J]. Genome Res, 2003, 13: 1930-1937.
[12] Guan M X. Mitochondrial DNA mutations associated with aminoglycoside ototoxicity[J]. Journal of Otology, 2006:65-75.
[13] 郭爍. DNA信號序列分析的基因預測方法研究[D]. 大連: 大連海事大學,2010.
[14] 楊莉. DNA序列4D表示及基因識別算法研究[D]. 長沙: 湖南大學, 2007.
TheFastCalculationFormulasandAlgorithmsofSignalNoiseRatioandPowerSpectruminGeneIdentification
GUO Li-na1, GUO Jun-feng2
(1.School of Applied Mathematics Nanjing University of Finance and Economics, Nanjing Jiangsu 210023, China)(2.School of economics, Nanjing University of Finance and Economics, Nanjing Jiangsu 210023, China)
The 3-periodicity is well acknowledged as an important feature that can be used for distinguishing gene coding regions of a DNA sequence. According to the asymmetric distribution of each of the four bases among the three codon positions, we draw the fast calculation formulas of signal noise ratio and power spectrum. It turned out that the fast calculation formulas can contribute to gene identification, and provide a fast and effective method to the prediction of intron and exon
signal noise ratio; power spectrum; gene identification; extron; intron
2013-02-05
江蘇省高校研究生科研創(chuàng)新項目(2012CXLX1)
郭麗娜(1989-), 女, 江西吉安人, 碩士研究生, 研究方向為分形與小波理論.
O212.1
A
1671-6876(2013)02-0110-05
[責任編輯李春紅]