江 浩, 馮鐵男, 秦殿剛, 王翼飛
(上海大學(xué) 理學(xué)院,上海 200444)
基于小波變換的蛋白質(zhì)與DNA相互作用的計(jì)算機(jī)預(yù)測
江 浩, 馮鐵男, 秦殿剛, 王翼飛
(上海大學(xué) 理學(xué)院,上海 200444)
蛋白質(zhì)與DNA的相互作用在細(xì)胞的轉(zhuǎn)錄調(diào)控和DNA修飾等活動(dòng)中至關(guān)重要.將改進(jìn)的共鳴識(shí)別模型應(yīng)用于預(yù)測酵母蛋白質(zhì)與DNA的相互作用,運(yùn)用小波變換找出陽性數(shù)據(jù)和隨機(jī)數(shù)據(jù)的信噪比分布的差異,并通過閾值的選取達(dá)到了較好的預(yù)測結(jié)果.同時(shí),將陽性數(shù)據(jù)與相應(yīng)復(fù)合物的序列進(jìn)行序列聯(lián)配,找到了保守位點(diǎn),進(jìn)而從結(jié)合位點(diǎn)的角度驗(yàn)證了本方法的正確性.
共鳴識(shí)別模型;離散小波變換;蛋白質(zhì)與 DNA相互作用;信噪比
Abstract:Protein-DNA interactions are vital for many processes such as transcriptional regulation and DNA modification in living cells.This paper uses the modified resonant recognitions model to predict interactions between yeast proteins and DNA. The difference of distributions of signal-to-noise ratio(SNR)between the positive data and the random data are found using wavelet transform.Satisfactory results are obtained by choosing an appropriate threshold.
Key words:resonant recognition model;discrete wavelet transform;p rotein-DNA interaction;signal-tonoise ratio(SNR)蛋白質(zhì)與 DNA的相互作用在基因的轉(zhuǎn)錄調(diào)控和DNA修飾等活動(dòng)中扮演了關(guān)鍵角色,通過對蛋白質(zhì)與 DNA相互作用的研究,可以進(jìn)一步了解增殖和分化等生命活動(dòng)的機(jī)理[1].E.W.Prohofsky通過固體物理學(xué)試驗(yàn)得到了共鳴識(shí)別模型 (resonant recognitionsmodel,RRM)[2-3],將其作為研究蛋白質(zhì)與DNA相互作用的一種方法,歸納出了產(chǎn)生相互作用的蛋白質(zhì)和DNA具有相近特征頻率的結(jié)論,為從蛋白質(zhì)和DNA的一級(jí)結(jié)構(gòu)入手研究蛋白質(zhì)與 DNA的相互作用提供了一種途徑.但是,共鳴識(shí)別模型在對任意給定的一對蛋白質(zhì)和 DNA進(jìn)行預(yù)測時(shí)效果非常不理想.引入小波變換后,改進(jìn)的共鳴識(shí)別模型[4]由于小波變換的多分辨性質(zhì),使得我們可以在不同的頻率下分析相互作用的蛋白質(zhì)對,從而較好地預(yù)測蛋白質(zhì)對間是否相互作用[5].本研究將改進(jìn)的共鳴識(shí)別模型運(yùn)用于預(yù)測任意給定的蛋白質(zhì)與DNA對是否相互作用.在進(jìn)一步運(yùn)用小波變換的多分辨性質(zhì)后,我們克服了由于蛋白質(zhì)和 DNA的序列長度差距太大所導(dǎo)致的交叉譜函數(shù)而不能準(zhǔn)確找到共同頻率的難題,并舍去了判斷與特征頻率相對應(yīng)的相位角,從而簡化了判別步驟,最終可以較好地從蛋白質(zhì)和DNA的序列信息中提取出蛋白質(zhì)與 DNA相互作用的信息.
1.1 數(shù)據(jù)的來源
本研究所采用的數(shù)據(jù)為酵母的蛋白質(zhì)與 DNA相互作用的陽性數(shù)據(jù)對,數(shù)據(jù)來源為 EMBL-EBI(http://www.ebi.ac.uk),共 363對相互作用的蛋白質(zhì)和 DNA,其中 283組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),另外 80組數(shù)據(jù)作為待預(yù)測數(shù)據(jù).蛋白質(zhì)與 DNA對已經(jīng)在網(wǎng)站(http://staffa.wi.mit.edu/cgi-bin/young_public/navframe.cgi?s=17&f=downloaddata)中確定為相互作用的蛋白質(zhì)與DNA對.
過度預(yù)測是所有算法都必須面對的問題[4],采取隨機(jī)序列來對檢測模型進(jìn)行評估可以較好地防止過度預(yù)測[5].本研究采用符合均勻分布的隨機(jī)序列與陽性數(shù)據(jù)進(jìn)行比對,即獨(dú)立等概率地在 4種堿基(或 20種氨基酸)中隨機(jī)生成一個(gè)堿基 (或氨基酸)殘基,經(jīng)過多次循環(huán)之后得到一定長度的假想 DNA序列 (或蛋白質(zhì)序列).假想生物分子的長度也是隨機(jī)產(chǎn)生,假想的隨機(jī) DNA序列長度介于 500~5 000之間,而假想的隨機(jī)蛋白質(zhì)序列長度介于 300~1 000之間.之所以這樣選取序列長度,是因?yàn)橄螺d的陽性數(shù)據(jù)的長度大部分介于這兩組范圍之間.
1.2 共鳴識(shí)別模型與改進(jìn)共鳴識(shí)別模型
共鳴識(shí)別模型 (RRM)是一個(gè)數(shù)學(xué)物理模型,它將生物大分子 (包括蛋白質(zhì)和 DNA)的一級(jí)結(jié)構(gòu)恰當(dāng)?shù)財(cái)?shù)值化,并采用了信號(hào)處理的技術(shù),從而能夠直接對生物大分子間的相互作用等性質(zhì)進(jìn)行分析.例如,可以很好地預(yù)測蛋白酶與蛋白酶抑制劑等蛋白質(zhì)的相互作用[6],甚至可以對蛋白質(zhì)的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測[7].
改進(jìn)的共鳴識(shí)別模型 (modified resonant recognition model,MRRM)是在共鳴識(shí)別模型的基礎(chǔ)上,將 IC值[9]替代 EIIP值,通過小波變換的多分辨功能及不同的頻率范圍內(nèi)的信噪比來分析蛋白質(zhì)序列,從而可以對蛋白質(zhì)對間的相互作用進(jìn)行直接判斷.
為了將改進(jìn)共鳴識(shí)別模型用于預(yù)測蛋白質(zhì)與DNA的相互作用,我們?nèi)耘f使用 EIIP值將陽性數(shù)據(jù)序列數(shù)值化,并采用雙正交小波 3.3進(jìn)行離散小波變換.但是,由于蛋白質(zhì)和 DNA的序列長度相差太大,如果僅作 3個(gè)層次的小波變換,則陽性數(shù)據(jù)與隨機(jī)數(shù)據(jù)間僅有 D3層上的數(shù)值信號(hào)存在較顯著的差異.由于長度為N的信號(hào)最多能分成 log2N層[10],而我們得到的陽性數(shù)據(jù)對的序列長度都至少超過了100,所以可以作 5層次的小波變換,即
式中,Ai代表第 i層低頻信號(hào) (app roximation at level i),Di代表第 i層高頻信號(hào) (detail at level i).這里僅取D3,D4,D5作為研究對象.
以下是用于預(yù)測蛋白質(zhì)與 DNA相互作用的MRRM模型的算法步驟:
(1)將一條蛋白序列和一條 DNA序列分別賦EIIP值,得到兩個(gè)數(shù)值序列 P,D.
(2)對得到的數(shù)值序列分別進(jìn)行 5個(gè)層次的離散小波變換,采用雙正交 3.3小波.將兩條序列由高頻到低頻分解為 5層,每一層都會(huì)產(chǎn)生屬于此層的高頻信號(hào) Di和低頻信息 Ai,在這里僅保留第 3,4,5層的高頻信息,即 D3,D4,D5,共得到 6組數(shù)值信號(hào)
式中,i=1,2,…,Ns,k=D,D,D,s=Protein,
345DNA,Ns為序列 s的長度.
(3)對上述保留的各層數(shù)據(jù)序列作離散傅里葉變換,得到數(shù)據(jù)序列
式中,F為離散傅里葉變換函數(shù),i=1,2,…,Ns/2,k=D3,D4,D5,s=Protein,DNA,Ns為序列 s的長度.
(4)對傅里葉系數(shù)分別進(jìn)行標(biāo)準(zhǔn)化,
式中,i=1,2,…,Ns/2,k=D3,D4,D5,s=Protein,DNA,Ns為序列 s的長度.
(5)將得到的蛋白質(zhì)各層的數(shù)值序列與對應(yīng)的DNA各層數(shù)值序列作比較,將較長的序列截短至與較短序列的長度相同,令 N=min{Ns/2|s∈{Protein,DNA}},則得到的新序列為 Mi(k,s)=Ni(k,s),i=1,2,…,N.
(6)求交叉譜系數(shù)
在用MRRM方法得到的 Leu3與 YBR068C在 D3,D4,D5層的交叉譜圖像中 (見圖1),我們看到 D3,D4,D5層中都有較明顯的波峰,其中又以 D4層的波峰最為明顯.為了能更好地預(yù)測,我們還需要計(jì)算出相應(yīng)的信噪比.
圖1 用M RRM方法得到的 L eu3與 YBR068C的交叉譜Fig.1 Cross-spectral function of L eu3 and YBR068C by M RRM
(7)計(jì)算信噪比
(8)計(jì)算出信噪比之后,對每一層分別選出閾值,使得隨機(jī)序列的信號(hào)值在閾值范圍內(nèi)的陽性預(yù)測百分比不超過 10%的前提下,陽性數(shù)據(jù)的信號(hào)值在閾值范圍內(nèi)的百分比達(dá)到最大.
在整個(gè)MRRM模型的計(jì)算流程中沒有大的循環(huán)體 (見圖2),因此,計(jì)算機(jī)運(yùn)行時(shí)需要的時(shí)間非常少,這是MRRM模型的另一個(gè)優(yōu)點(diǎn).
下面從上述 363條陽性序列中選取 283條,分別進(jìn)行分析訓(xùn)練,從得到的結(jié)果 (見表1)中,我們可以清楚地看到,隨機(jī)數(shù)據(jù)組和酵母陽性數(shù)據(jù)對的信噪比在 D3,D4和D5層中的分布是有明顯差別的.
圖2 M RRM模型的計(jì)算流程圖Fig.2 Flowchar t of the com putation w ith M RRM m odels
表 1 相互作用蛋白質(zhì)與 DNA在雙正交 3.3小波分解 5層后的D3,D4,D5層在信噪比下不同閾值的百分比Table 1 Percentage of the pa ir sof proteinsand DNA which are interactive decomposed into 5 by the b ior thogonal 3.3 wavelet in the term of the signal to noise in d ifferent thresholds
表 1中的百分?jǐn)?shù)即為以信噪比為判別參數(shù)的陽性百分比,其中閾值的選擇按照在隨機(jī)序列陽性預(yù)測百分比不超過 10%的前提,使得陽性序列數(shù)據(jù)符合百分比最大的原則.
為了能更加直觀地考察蛋白質(zhì)和 DNA對在信噪比下的分布情況,我們在圖3中給出了待預(yù)測蛋白質(zhì)與 DNA對在雙正交 3.3小波分解 5層后 D3,D4,D5層的信噪比分布圖,其精確的結(jié)果在表 2中給出.
從表 1中我們注意到,雖然 D3層的結(jié)果是最好的,但是由圖3和表 2可以看出,D4層和 D5層的效果都好于D3層,所以我們不能僅僅依靠單獨(dú)某一層的信息來作判斷.為了得到更好的結(jié)果,我們要設(shè)定相互作用的蛋白質(zhì)和 DNA對必須同時(shí)滿足以下 3個(gè)條件:①當(dāng) K=D3時(shí),0 下面,我們對 DNA序列中與蛋白質(zhì)相互作用的結(jié)合位點(diǎn)進(jìn)行初步探索,從另一側(cè)面驗(yàn)證我們的預(yù)測方法是有效的.以蛋白質(zhì) Leu3為例,在 PDB數(shù)據(jù)庫[11]中找出一個(gè)與 GCN4結(jié)合形成的復(fù)合物——2er8,復(fù)合物的 DNA鏈為 CCCGGTACCGGG.將這條DNA鏈與數(shù)據(jù)中的 YBR068C,YCL018W,YGL009C,YJR016C,YLR355C,YNL104C,YOR375C進(jìn)行序列聯(lián)配[12],結(jié)果如圖4所示.可以清楚地看到,蛋白質(zhì)與DNA復(fù)合物的DNA鏈中的第七個(gè)核苷酸——腺嘌呤核苷酸A具有高度的保守性. 從 PDB數(shù)據(jù)庫中找到的與 GCN4結(jié)合形成的另一個(gè)復(fù)合物為 2erg,復(fù)合物的 DNA鏈為TTGCCGGTACCGGCA.將這條 DNA鏈與數(shù)據(jù)中的YBR068C,YCL018W,YGL009C,YJR016C,YLR355C,YNL104C,YOR375C進(jìn)行序列聯(lián)配,從聯(lián)配的結(jié)果 (見圖5)中可以清楚地看到,蛋白質(zhì)與 DNA復(fù)合物中的DNA鏈中的第十一個(gè)核苷酸——胞嘧啶核苷酸 C和第十三個(gè)核苷酸——鳥嘌呤核苷酸 G具有高度的保守性. 以上論述都說明了預(yù)測結(jié)果中的 DNA序列中確實(shí)包含了能與蛋白質(zhì)相互作用的保守結(jié)合位點(diǎn),從而驗(yàn)證了MRRM在預(yù)測蛋白質(zhì)和 DNA相互作用中的有效性. 圖3 待預(yù)測蛋白質(zhì)與 DNA對在雙正交 3.3小波分解 5層后D3,D4,D5層的信噪比分布圖Fig.3 D istr ibution sof the signal to noise of the pa ir sof proteins and DNA which are pred icted decomposed in to 5 by the b ior thogonal 3.3 wavelet 表 2 待預(yù)測蛋白質(zhì)與 DNA對在雙正交 3.3小波分解 5層后的 D3,D4,D5層的信噪比在指定閾值下的百分比Table 2 Percentage of the pair sof proteinsand DNA which are pred icted decomposed into 5 by the bior thogonal 3.3 wavelet in the term of the signal to noise in designated thresholds 圖4 復(fù)合物 2er8中的 DNA鏈與 YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C進(jìn)行序列聯(lián)配的結(jié)果Fig.4 Alignm ent results between the DNA chain of DNA bind ing domain 2er8 and YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C MRRM無需考慮蛋白質(zhì)和DNA的結(jié)構(gòu)域信息,可直接從序列入手,在預(yù)測蛋白質(zhì)與 DNA相互作用方面取得較好的結(jié)果.但是,如果要深入分析蛋白質(zhì)和DNA相互作用的位點(diǎn)時(shí),則必須要解決當(dāng)序列長度小于50時(shí),如何將信號(hào)強(qiáng)度放大的問題.如果這一難題得以攻克,那么MRRM在生物分子相互作用研究領(lǐng)域?qū)⒂懈蟮呢暙I(xiàn). 圖5 復(fù)合物 2erg中的 DNA鏈與 YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C進(jìn)行序列聯(lián)配的結(jié)果Fig.5 Alignment results between the DNA chain of DNA bind ing doma in 2erg and YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C [1] MOROZOV A V. Protein-DNA binding specificity p redictions with structural models[J].Nucleic Acids Research,2005,33:5781-5798. [2] BARTEL PL,FIELDS S.Advances in molecular biology[M].New York:Oxford University Press,1997. [3] IRENA C. The resonant recognition model of macromolecular bioactivity:theory and application[M].Basel:Birkhauser Verlag,1997:1-26. [4] 劉翔.應(yīng)用改進(jìn)的共鳴識(shí)別模型預(yù)測蛋白質(zhì)相互作用 [J].上海大學(xué)學(xué)報(bào):自然科學(xué)版,2006,12(1):69-72. [5] 馮鐵男.基于信噪比的蛋白質(zhì)相互作用的預(yù)測 [J].上海大學(xué)學(xué)報(bào):自然科學(xué)版,2008,14(6):604-610. [6] COSIC I,FANG Q. Evaluation of different wavelet constructions(designs)for analysisof protein sequences[C]∥14th International Conference on Digital Signal Processing.2002:1117-1120. [7] STAMBUK N,KONJEVODA P,POKRIC B,et al.Resonant recognition model defines the secondary structure of bioactive proteins[J].Croatica Chemica Acta,2002,75(4):899-908. [8] LADIK J.All valence electron band structures of simple periodic protein models[J]. Int J Quantum Chemistry Quantum Biol Symp,2009,8(1):5-11. [9] 飛思科技產(chǎn)品研發(fā)中心.MATLAB6.5輔助小波分析和應(yīng)用[M].北京:電子工業(yè)出版社,2003:151-184. [10] 冉啟文,譚立英.小波分析與傅立葉變換及應(yīng)用[M].北京:國防工業(yè)出版社,2002:122-165. [11] 萬躍華,何立民.網(wǎng)上生物信息學(xué)數(shù)據(jù)庫資源 [J].情報(bào)學(xué)報(bào),2002,21:497-510. [12] 王翼飛,史定華.生物信息學(xué)—智能算法及其應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2006:71-78. (編輯:趙 宇 ) Com putational Pred iction of Protein-DNA Interaction Based on Wavelet Transform JIANG Hao, FENG Tie-nan, QIN Dian-gang, WANG Yi-fei Q 51 A 1007-2861(2010)03-0281-05 10.3969/j.issn.1007-2861.2010.03.013 2009-02-12 國家自然科學(xué)基金資助項(xiàng)目 (30871341);上海市重點(diǎn)學(xué)科建設(shè)資助項(xiàng)目 (S30104);上海市教委重點(diǎn)學(xué)科建設(shè)資助項(xiàng)目(J50101) 王翼飛 (1948~),男,教授,博士生導(dǎo)師,研究方向?yàn)橛?jì)算分子生物學(xué).E-mail:yifei_wang@staff.shu.edu.cn3 結(jié) 束 語
(College of Sciences,Shanghai University,Shanghai200444,China)