李 子 夏
(天津大學(xué)應(yīng)用數(shù)學(xué)中心,天津 300072)
固有無(wú)序蛋白區(qū)域(intrinsically disordered proteins regions,IDRs)在生物體中占有重要地位.具有IDRs的蛋白質(zhì)能影響分子組裝識(shí)別、信號(hào)傳導(dǎo)、重排、轉(zhuǎn)錄和翻譯等細(xì)胞功能[1],并參與小分子的結(jié)合、轉(zhuǎn)運(yùn)和催化[2].Habchi等[3]證實(shí)約30%~50%的真核蛋白具有一個(gè)或多個(gè)長(zhǎng)的IDRs.固有無(wú)序蛋白結(jié)合域是IDRs的功能區(qū)域,在細(xì)胞的信號(hào)傳遞和調(diào)節(jié)過(guò)程中起著重要作用,是無(wú)序蛋白質(zhì)研究的熱點(diǎn).固有無(wú)序蛋白結(jié)合域按照區(qū)域的長(zhǎng)短分為短線性基序(short linear motifs,SLiMs)和分子識(shí)別特征(molecular recognitionfeatures,MoRFs),其中SLiMs和MoRFs的殘基數(shù)分別是≤5和5~25個(gè).Yan等[4]分析了868個(gè)完整蛋白質(zhì)組,結(jié)果顯示真核生物有21%的IDRs具有MoRFs,細(xì)菌和古細(xì)菌有29%的IDRs具有MoRFs.
由于SLiMs和MoRFs長(zhǎng)度上的差異,所以預(yù)測(cè)這2類功能域的方法不同.目前SLiMs的預(yù)測(cè)是基于在一組不同序列中尋找正則表達(dá)式的原理來(lái)開(kāi)發(fā)算法.MoRFs相比于其他無(wú)序區(qū)域和結(jié)構(gòu)化區(qū)域有其獨(dú)特的序列特征,因此,MoRFs的預(yù)測(cè)可以基于序列進(jìn)行精確的計(jì)算預(yù)測(cè).另外,MoRFs的長(zhǎng)度越長(zhǎng),序列特征越明顯,如:與其他IDRs相比,MoRFs區(qū)域富含大的疏水側(cè)鏈的氨基酸,特別是芳香族氨基酸含量較高;與SLiMs的預(yù)測(cè)算法相比,MoRFs的預(yù)測(cè)算法更多,準(zhǔn)確率也更高.這些預(yù)測(cè)算法的出現(xiàn),推動(dòng)了MoRFs計(jì)算識(shí)別算法的發(fā)展[4],推定MoRFs不僅有助于闡明蛋白質(zhì)功能,還可用于多種病毒蛋白質(zhì)組、細(xì)胞死亡途徑、通道蛋白的相互作用組、激酶、核小體和核糖體的分析研究[5-10].
近年來(lái),研究人員相繼提出一批基于不同原理及方法的MoRFs預(yù)測(cè)算法[11-12].Dosztanyi等[11]基于多肽鏈中殘基的3種性質(zhì),結(jié)合殘基必須處于一個(gè)長(zhǎng)的無(wú)序區(qū)域、殘基不能與其領(lǐng)域折疊以及殘基能夠與球狀結(jié)合域相互作用,開(kāi)發(fā)了ANCHOR;Malhis等[12]利用貝葉斯規(guī)則結(jié)合了MoRFs的保守性、MoRFs與其側(cè)翼IDRs的理化性質(zhì)差異以及其本身的無(wú)序特征,開(kāi)發(fā)了MoRFCHiBi_web.然而,經(jīng)過(guò)生物學(xué)家實(shí)驗(yàn)確認(rèn)的MoRFs數(shù)量很少,只有53條蛋白質(zhì)序列中包含MoRFs[12],因此MoRFs預(yù)測(cè)算法之間有很大差別.近年來(lái),隨機(jī)序列已被廣泛應(yīng)用于生物信息學(xué)多個(gè)領(lǐng)域的算法對(duì)比分析研究中[13-14],因此本文構(gòu)造隨機(jī)蛋白序列作為測(cè)試集,將其創(chuàng)造性地應(yīng)用于MoRFs的預(yù)測(cè)算法比較分析中,選取2種經(jīng)典的MoRFs預(yù)測(cè)算法比較其結(jié)果差異與特性,以期將來(lái)對(duì)MoRFs更深入的研究建立理論基礎(chǔ).
通過(guò)產(chǎn)生隨機(jī)序列作為獨(dú)立數(shù)據(jù)集,將20種氨基酸隨機(jī)排列,得到隨機(jī)序列,規(guī)定每種氨基酸的使用頻率為5%.通過(guò)等比例隨機(jī)取樣的策略,從固定的20種氨基酸殘基的組合中,即丙氨酸(A)、精氨酸(R)、天冬酰胺(N)、天冬氨酸(D)、半胱氨酸(C)、谷氨酰胺(Q)、谷氨酸(E)、甘氨酸(G)、組氨酸(H)、異亮氨酸(I)、亮氨酸(L)、賴氨酸(K)、蛋氨酸(M)、苯丙氨酸(F)、脯氨酸(P)、絲氨酸(S)、蘇氨酸(T)、色氨酸(W)、酪氨酸(Y)和纈氨酸(V)),隨機(jī)生成10 000條長(zhǎng)度均為60個(gè)殘基的隨機(jī)蛋白序列,接下來(lái)使用CD-HIT工具(相似度閾值參數(shù)設(shè)定為30%)[15],對(duì)這些蛋白質(zhì)序列去冗余.以此數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,將其記為Rseq.
選取ANCHOR和MoRFCHiBi_web算法進(jìn)行對(duì)比分析.ANCHOR被嵌入到MobiDB3.0數(shù)據(jù)庫(kù)中用于預(yù)測(cè)MoRFs,是一個(gè)非常經(jīng)典的算法;MoRFCHiBi_web是2016年被開(kāi)發(fā)出來(lái)的算法,比之前開(kāi)發(fā)的其他MoRFs預(yù)測(cè)算法準(zhǔn)確率高.其中,MoRDCHiBi_web算法比ANCHOR的計(jì)算時(shí)間長(zhǎng),因?yàn)镸oRDCHiBi_web算法為了計(jì)算保守性特征需使用 PSI-BLAST工具[16].
1.3.1 氨基酸類型偏好
統(tǒng)計(jì)數(shù)據(jù)庫(kù)中每種氨基酸在MoRFs區(qū)域或非MoRFs區(qū)域上出現(xiàn)的頻率與其在整個(gè)數(shù)據(jù)集中的出現(xiàn)頻率之差,來(lái)表示MoRFs區(qū)域中各種氨基酸的使用偏好,公式如下:
除此之外,將每一條序列分為MoRFs區(qū)域、Flanks區(qū)域(MoRFs兩側(cè)各含8個(gè)殘基)和Others區(qū)域(除MoRFs和Flanks區(qū)域外)共3個(gè)區(qū)域,統(tǒng)計(jì)這3個(gè)區(qū)域的氨基酸類型偏好.
1.3.2 相關(guān)性分析
使用Pearson相關(guān)系數(shù)(r)衡量2種預(yù)測(cè)方法預(yù)測(cè)結(jié)果的相關(guān)程度,將數(shù)據(jù)集Rseq中的隨機(jī)序列隨機(jī)等分為10組,每組的全部殘基在2種方法的預(yù)測(cè)概率分?jǐn)?shù)分別構(gòu)成一個(gè)向量,對(duì)其進(jìn)行相關(guān)性分析.相反系數(shù)計(jì)算公式為
式中:r∈[-1,1],r>0為正相關(guān),r<0為負(fù)相關(guān),|r|越大則相關(guān)性越高.
1.3.3 平均得分
統(tǒng)計(jì)分析2種算法預(yù)測(cè)每條序列時(shí),每個(gè)殘基的概率值與其在序列中的位置關(guān)系.計(jì)算Rseq上從1~60的每個(gè)位置上殘基得分的算術(shù)平均數(shù)(pavg),計(jì)算公式為
式中:pi表示第i條序列上某個(gè)位置上的預(yù)測(cè)得分值,n為序列的總個(gè)數(shù).當(dāng)算法在所有位置上的平均得分都相近時(shí),表明該算法對(duì)每個(gè)殘基預(yù)測(cè)得分與殘基所在位置無(wú)關(guān),否則表明該算法對(duì)殘基預(yù)測(cè)得分與殘基所在位置有關(guān).
ANCHOR算法預(yù)測(cè)時(shí),10 000條序列均返回預(yù)測(cè)結(jié)果;MoRFCHiBi_web算法預(yù)測(cè)時(shí),有9 271條序列返回預(yù)測(cè)結(jié)果.MoRFCHiBi_web算法使用了PSI-BLAST用以計(jì)算序列保守性特征,當(dāng)序列在此過(guò)程中找到同源序列才得以計(jì)算后續(xù)特征,否則不能得到預(yù)測(cè)結(jié)果.ANCHOR和MoRFCHiBi_web算法對(duì)Rseq的隨機(jī)蛋白序列預(yù)測(cè)的總無(wú)序殘基和與其對(duì)應(yīng)的蛋白質(zhì)序列數(shù)目的關(guān)系如圖1所示.2種算法都預(yù)測(cè)出了MoRFs殘基,并且都有大量的序列沒(méi)有被預(yù)測(cè)到正樣本.ANCHOR和MoRFCHi-Bi_web分別在5 628和4 595條序列上均預(yù)測(cè)為非MoRFs殘基.ANCHOR能夠預(yù)測(cè)到的一條序列上的MoRFs殘基數(shù)大多集中在1~8個(gè),MoRFCHi-Bi_web預(yù)測(cè)到的一條序列上的MoRFs殘基數(shù)大多集中在0~10個(gè).與ANCHOR算法相比,MoRFCHi-Bi_web算法預(yù)測(cè)的MoRFs殘基長(zhǎng)度整體偏大.
圖1 2種算法對(duì)Rseq中不同總MoRFs殘基長(zhǎng)度上的序列分布
ANCHOR和MoRFCHiBi_web算法預(yù)測(cè)的氨基酸類型偏好結(jié)果如圖2.可知2種算法得到的結(jié)果整體一致,MoRFs區(qū)域上偏好的氨基酸類型有10種,分別是A、R、I、M、L、F、P、W、Y和V;非MoRFs區(qū)域上偏好的氨基酸類型也有10種,分別是N、D、C、Q、E、G、H、K、S和T.這與Yu等[13]的研究結(jié)果略有不同,其研究顯示固有無(wú)序區(qū)域和有序區(qū)域上偏好的氨基酸類型分別有12和8種,無(wú)序區(qū)域偏好的氨基酸類型為A、R、N、D、Q、E、G、H、K、P、S和T,有序區(qū)域偏好的氨基酸類型為C、I、L、M、F、W、Y和V.MoRFs區(qū)域偏好的氨基酸類型與無(wú)序區(qū)域上偏好的氨基酸類型有很多的區(qū)別,這是由于MoRFs區(qū)域相對(duì)于其他無(wú)序區(qū)域有結(jié)構(gòu)化的趨勢(shì),氨基酸類型使用偏好上會(huì)有結(jié)構(gòu)蛋白的特征.
圖2 在MoRFs區(qū)域上2種算法預(yù)測(cè)的氨基酸類型偏好
2種算法預(yù)測(cè)的3個(gè)區(qū)域的氨基酸類型偏好結(jié)果如圖3所示.ANCHOR算法預(yù)測(cè)的MoRFs區(qū)域偏好的氨基酸類型有6種,分別為A、I、L、M、F、W和V;Flanks區(qū)域偏好的氨基酸類型有5種,分別為A、Q、E、I和V;其在Others區(qū)域偏好的氨基酸偏好類型有2種,分別為C和Y.MoRFCHiBi_web算法預(yù)測(cè)的MoRFs區(qū)域偏好的氨基酸類型有6種,分別為R、I、F、P、W 和 Y;Flanks區(qū)域偏好的氨基酸類型有8種,為A、N、D、Q、E、G、K和S;其在Others區(qū)域偏好的氨基酸類型有3種,分別為C、H和V.比較可知,MoRFs和Flanks區(qū)域上的氨基酸類型偏好值均較大,Others區(qū)域上的20種氨基酸類型偏好值均較小.
圖3 不同算法在3個(gè)區(qū)域上預(yù)測(cè)的氨基酸類型偏好
10組向量的r分布在0.19~0.25,r的平均值為0.21,說(shuō)明2種算法的預(yù)測(cè)存在正相關(guān),但相關(guān)性較低.本文結(jié)果與Yu等[13]的分析結(jié)果不同,說(shuō)明相對(duì)于蛋白質(zhì)無(wú)序的預(yù)測(cè),MoRFs的預(yù)測(cè)難度要更大,MoRFs預(yù)測(cè)算法的一致性更低.
Rseq上從1~60的每個(gè)位置上殘基的平均得分與位置分布如圖4所示.ANCHOR和MoRFCHi-Bi_web算法預(yù)測(cè)殘基的60個(gè)位置的平均得分分別為 0.162~0.176和 0.576~0.613.可知,ANCHOR算法對(duì)殘基預(yù)測(cè)的平均得分與其在序列中的位置幾乎沒(méi)有關(guān)系,MoRFCHiBi_web算法預(yù)測(cè)殘基的平均得分與殘基所在的位置有較明顯的關(guān)系,即序列兩端位置的殘基平均得分更高,序列中間位置殘基平均得分更低,表明序列兩端位置的殘基更容易被預(yù)測(cè)為MoRFs.
圖4 殘基所處位置與平均概率的關(guān)系
本文基于隨機(jī)蛋白序列,系統(tǒng)地對(duì)比分析了2種MoRFs預(yù)測(cè)算法在數(shù)據(jù)集Rseq上的預(yù)測(cè)結(jié)果.MoRFs殘基分布的分析表明,與ANCHOR算法相比,MoRFCHiBi_web算法預(yù)測(cè)的MoRFs殘基長(zhǎng)度整體偏大;氨基酸類型偏好分析表明,MoRFs雖然是無(wú)序區(qū)域的一部分,但MoRFs上的氨基酸類型偏好與無(wú)序區(qū)域的氨基酸類型偏好有很大的差別,MoRFs與Flanks區(qū)域的氨基酸偏好較為明顯,這為MoRFs的研究提供了新的思路;就預(yù)測(cè)的位置而言,MoRFCHiBi_web算法在序列兩端的殘基更容易被預(yù)測(cè)為MoRFs,但ANCHOR算法預(yù)測(cè)的結(jié)果與殘基所處位置基本沒(méi)有關(guān)系.綜上,2種方法的預(yù)測(cè)結(jié)果存在差異.因此,為了提升實(shí)際工作效率,科研人員應(yīng)根據(jù)實(shí)際需要選擇不同的MoRFs預(yù)測(cè)算法.
首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年3期