亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于優(yōu)化特征參量的蛋白質(zhì)βαβ模體識別分析

        2015-03-12 21:58:33姜雪于巍
        江蘇農(nóng)業(yè)科學(xué) 2015年2期
        關(guān)鍵詞:模體蛋白質(zhì)

        姜雪 于巍

        摘要:選取了來自1 423個相似性小于33%的蛋白質(zhì)序列的1 459個βαβ模體和2 419個非βαβ模體,通過分析模體中各二級結(jié)構(gòu)單元的分布情況,確定固定序列模式長?;趦?yōu)化的氨基酸信息,利用離散增量算法識別βαβ模體。運(yùn)用10-fold交叉檢驗(yàn)和獨(dú)立檢驗(yàn)方法對算法進(jìn)行檢驗(yàn),識別總精度分別達(dá)到79.4%和78.6%。

        關(guān)鍵詞:蛋白質(zhì);βαβ模體;離散增量;優(yōu)化的參量;優(yōu)化位點(diǎn)氨基酸;識別精度

        中圖分類號: Q51文獻(xiàn)標(biāo)志碼: A文章編號:1002-1302(2015)02-0020-04

        收稿日期:2014-04-09

        基金項目:遼寧省教育廳教學(xué)改革立項(編號:2012411)。

        作者簡介:姜雪(1978—),女,黑龍江明水人,碩士,講師,主要從事生物信息學(xué)研究。E-mail:shuidi780829@163.com。 模體是具有特定功能或作為一個獨(dú)立結(jié)構(gòu)域一部分的相鄰的二級結(jié)構(gòu)的聚合體,是蛋白質(zhì)家族組成結(jié)構(gòu)和執(zhí)行功能的重要部分,介于蛋白質(zhì)二級結(jié)構(gòu)和三級結(jié)構(gòu)之間,充當(dāng)三級結(jié)構(gòu)的構(gòu)件。近20年來,對簡單模體如β-轉(zhuǎn)角、β-發(fā)夾的預(yù)測[1-8]得到了很好的發(fā)展,主要方法集中在人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和統(tǒng)計方法上,且都取得了較好的預(yù)測效果。而βαβ是常見的復(fù)雜結(jié)構(gòu)模體之一。如果2組平行的β折疊片通過α螺旋經(jīng)過連接肽(Loop)回折2次,且β折疊之間有氫鍵相連,最終β折疊片的疏水側(cè)鏈面向α螺旋的疏水面,彼此緊密裝配,形成β-Loop-α-Loop-β結(jié)構(gòu),簡記為βαβ,多傾向于形成右手扭曲的拓?fù)浣Y(jié)構(gòu)[9]。它包含大量的折疊信息,頻繁地出現(xiàn)在每一個具有β折疊片的蛋白質(zhì)結(jié)構(gòu)中,常與形成功能結(jié)構(gòu)位點(diǎn)和活性位點(diǎn)有關(guān),同時βαβ模體上存在大量的功能位點(diǎn),能為藥物分子設(shè)計提供信息。因此對蛋白質(zhì)的功能有著重要影響。正確地識別βαβ模體對研究蛋白質(zhì)的空間結(jié)構(gòu)和功能具有重要意義,對分子藥物開發(fā)設(shè)計具有相應(yīng)的理論價值。1983年,Taylor等運(yùn)用和已知模板進(jìn)行序列比對的方法對16個α/β類蛋白質(zhì)包含的βαβ模體進(jìn)行了預(yù)測,預(yù)測率達(dá)到70%[10];1984年,Taylor等在統(tǒng)計βαβ模體的基礎(chǔ)上用同樣的方法對18個α/β類蛋白質(zhì)包含的βαβ模體進(jìn)行了預(yù)測,預(yù)測率達(dá)到75%[11];1986年Wierenga等運(yùn)用指紋圖譜方法對PID數(shù)據(jù)集中的2 676條序列中的βαβ模體的ADP結(jié)合位點(diǎn)進(jìn)行了預(yù)測[12]。可見,對復(fù)雜結(jié)構(gòu)模體βαβ的預(yù)測研究工作還很少,但成功的預(yù)測卻說明βαβ存在著功能位點(diǎn),其理論預(yù)測是可行的。

        本研究構(gòu)建了2個數(shù)據(jù)集:一是來自1 423個相似性小于33%的蛋白質(zhì)的1 459個βαβ模體和2 419個非βαβ模體;二是來自256個相似性小于25%的蛋白質(zhì)的310個βαβ模體和480個非βαβ模體。通過分析模體中各二級結(jié)構(gòu)單元的分布情況,確定了固定序列模式長為33個氨基酸殘基,運(yùn)用了一種基于優(yōu)化特征參量的離散信息算法,識別了βαβ模體,取得了良好的效果。

        1材料與方法

        1.1數(shù)據(jù)

        構(gòu)建合理的數(shù)據(jù)集是蛋白質(zhì)模體預(yù)測的關(guān)鍵,本研究中使用DSSP[13](definition of secondary structure of proteins)數(shù)據(jù)庫和PROMOTIF[14]軟件來構(gòu)建βαβ數(shù)據(jù)集,這是目前廣泛應(yīng)用的獲得蛋白質(zhì)特殊結(jié)構(gòu)模體的方法。數(shù)據(jù)來自EVA(這是一種連續(xù)的、自動化、大規(guī)模的工作方式進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測算法評估的Web服務(wù)器http://pdg.cnb.uam.es/eva/)。從中選取了1 423個相似性小于33%、分辨率高于2.5的蛋白質(zhì)作為數(shù)據(jù)集1(set1)和256個相似性小于25%、分辨率高于3.0的蛋白質(zhì)作為數(shù)據(jù)集2(set2)。選取的蛋白質(zhì)需要滿足:(1)每個蛋白質(zhì)序列中至少包含一個βαβ模體;(2)剔除含有不規(guī)則氨基酸的模體。序列及其對應(yīng)的二級結(jié)構(gòu)信息按DSSP庫確定,文中在使用時將二級結(jié)構(gòu)分為3類:H、I、G歸為α螺旋,用H表示;E歸為β折疊;其他都?xì)w為無規(guī)卷曲,用C表示。對set1,獲得二級結(jié)構(gòu)為ECHCE模式的片斷為 3 878個,利用PROMOTIF軟件分析獲得βαβ模體片段為1 622個,其中與ECHCE模式相匹配的1 459個片斷確認(rèn)為βαβ,其余2 419個確認(rèn)為非βαβ;對set2,獲得的二級結(jié)構(gòu)為ECHCE模式的片斷為790個,利用PROMOTIF獲得與ECHCE模式相匹配的310個確認(rèn)為βαβ,其余480個確認(rèn)為非βαβ。

        1.2序列固定模式長的選取

        復(fù)雜結(jié)構(gòu)模體是由簡單的二級結(jié)構(gòu)連接而成,其二級結(jié)構(gòu)單元的種類、連接肽的長度等信息影響著復(fù)雜結(jié)構(gòu)模體的形成及功能。因此有必要對2個數(shù)據(jù)集的βαβ模體序列片段長、組成單元β折疊長、連接肽loop長和α螺旋長進(jìn)行統(tǒng)計,結(jié)果如表1和表2。

        從表1和表2的數(shù)據(jù)看出,2個數(shù)據(jù)集中各二級結(jié)構(gòu)單元的分布情況基本一致,2個數(shù)據(jù)集的模體平均長分別為33、31個氨基酸殘基左右,左右兩端β折疊長為5個氨基酸左右,α螺旋長為10個氨基酸左右,這也說明了二級結(jié)構(gòu)單元在βαβ模體中分布的特定性。因此,選取適合的序列信息是預(yù)測的關(guān)鍵步驟,根據(jù)2個數(shù)據(jù)集中序列的平均長度,為使得表1set1二級結(jié)構(gòu)單元長度統(tǒng)計

        預(yù)測過程中信息更好的進(jìn)入序列,確定固定序列長為33個氨基酸殘基。參照文獻(xiàn)[3]、[6]和[7]識別β發(fā)夾的思想,對βαβ模體進(jìn)行以下3種截取方式,得到B00型、N05型和C29型。其具體截取方法為:

        (1)以模體對應(yīng)的二級結(jié)構(gòu)CHC為中央位置對齊(B00型):當(dāng)序列對應(yīng)的二級結(jié)構(gòu)CHC為奇數(shù)時,序列對應(yīng)二級結(jié)構(gòu)CHC的左端和右端取相同個數(shù)的殘基;當(dāng)序列對應(yīng)的二級結(jié)構(gòu)CHC為偶數(shù)時,序列對應(yīng)二級結(jié)構(gòu)CHC的左側(cè)比右側(cè)多取一個氨基酸殘基。

        (2)以序列左端loop的起始位點(diǎn)作為序列的第5位點(diǎn),選取序列(N05)。

        (3)以序列右端loop的終止位點(diǎn)作為序列的第29位點(diǎn),選取序列(C29)。

        選取過程中,若序列長不足33個氨基酸殘基時,添加空位補(bǔ)齊。截取示意圖如圖1。

        同時,為考察模體序列中氨基酸的保守性,計算了位點(diǎn)信息矢量,Ci[15]定義如下:

        Ci=100lgl(∑lj=1Pijlgpij+lgl)。

        如果某一位點(diǎn)是完全保守的,可計算該位點(diǎn)Ci的值為100;如果該位點(diǎn)的氨基酸是隨機(jī)分布的,同樣可計算Ci的值為0。因此Ci取值在[0,100]之間。Ci的值在各自的取值區(qū)域內(nèi)越高表明該位點(diǎn)的保守性越強(qiáng)。對set1的βαβ 3種取法對應(yīng)序列位點(diǎn)的保守性計算結(jié)果如圖2、圖3、圖4。

        型左端氨基酸的保守性好于右端,這2種取法綜合起來與B00型的保守性結(jié)果一致。因此本研究以位點(diǎn)氨基酸為參量來預(yù)測βαβ模體。

        1.3計算方法

        離散量是對離散性的度量,是信息系數(shù)之一,生物多樣性指標(biāo)和生物的關(guān)聯(lián)性分析等都需要引入離散量。它是一種較好的模式識別分類器,離散量和離散增量定義如下:

        定義1:對于s個信息符號的狀態(tài)空間X,ni表示第i狀態(tài)出現(xiàn)的個數(shù),離散源X:[n1,n2,…,ns]的離散量為:

        D(X)=D(n1,n2,…,ns)=NlogbN-∑si=1nilogbni。(1)

        定義2:對于2個離散源X:[n1,n2,…,ns]和Y:[m1,m2,…,ms],它們的離散增量為

        Δ(X,Y)=D(X,Y)-D(X)-D(Y)=(M+N)lg(M+N)-∑si=1(mi+ni)lg(mi+ni)-MlgM-NlgN+∑si=1milgmi+∑si=1nilgni。(2)

        其中D(X,Y)是混合離散源X+Y:[n1+m1,n2+m2,…,ns+ms]的離散量,N=∑si=1ni,M=∑si=1mi。可以證明,離散增量的取值范圍是0≤Δ(X,Y)≤D(M,N)。

        2個離散源之間的離散增量Δ(X,Y)值越小,說明這2個離散源的相似程度越大,而Δ(X,Y)值越大,說明這2個離散源的相似性越差。

        本研究中選取位點(diǎn)氨基酸作為參量,對于βαβ和非βαβ模體的3種選取模式的任何一種,其位點(diǎn)氨基酸維數(shù)分別為(21×33)(21表示20種氨基酸和一個空位,33表示固定序列長),共得到2 079(21×33×3)維向量。任一待測序列應(yīng)用公式(2)得到2個離散增量值,哪一個值小,則被判斷為哪一類模體。

        1.4檢驗(yàn)方法

        檢驗(yàn)方法使用目前廣泛應(yīng)用的k-fold交叉檢驗(yàn)和獨(dú)立檢驗(yàn)。k-fold交叉檢驗(yàn)即隨機(jī)、均勻地將數(shù)據(jù)集分為k個子集,依次取出一個子集作為測試集,其余k-1個子集作為訓(xùn)練集,此過程循環(huán)k次,識別的結(jié)果取k次的平均,本研究中k取10。獨(dú)立檢驗(yàn)是指訓(xùn)練集和檢驗(yàn)集相互獨(dú)立,即訓(xùn)練集中的數(shù)據(jù)不會出現(xiàn)在檢驗(yàn)集中,更加客觀地反應(yīng)實(shí)際問題和預(yù)測之間的差別。

        1.5精度評價指標(biāo)

        本研究中計算了βαβ的正確識別率(即識真的能力)Q(βαβ)、非βαβ發(fā)夾正確識別率Q(nβαβ)、βαβ發(fā)夾識別的預(yù)測率[即辨假的能力S(βαβ)]、非βαβ發(fā)夾識別的預(yù)測率S(nβαβ),識別總精度(Acc)和相關(guān)系數(shù)(MCC),定義如下:

        Q(βαβ)=PP+U×100,Q(nβαβ)=NN+O×100,

        S(βαβ)=PP+O×100,

        S(nβαβ)=NN+U×100,Acc=P+NO+N+U+O×100,

        MCC=(P×N)-(O×U)(P+O)×(P+U)×(N+U)×(N+O)。

        這里P、U、N、O分別表示βαβ被正確識別出來的序列數(shù)目、βαβ沒有被正確識別出來的數(shù)目、非βαβ被正確識別出來的序列數(shù)目、非βαβ沒有被正確識別出來的數(shù)目。

        2結(jié)果與分析

        2.1以位點(diǎn)氨基酸為參量的預(yù)測結(jié)果

        由于氨基酸在蛋白質(zhì)序列中具有很強(qiáng)的保守性,以位點(diǎn)氨基酸出現(xiàn)的頻率為參量,輸入到離散增量的算法中,得出每條序列的離散量值,用上文中的識別方法作判斷,對set1和set2 3種截取模式的10-fold交叉檢驗(yàn)結(jié)果如表3和表4。表3set1的10-fold交叉檢驗(yàn)預(yù)測結(jié)果

        截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0082.255.652.484.065.50.371N0580.862.556.185.669.30.419C2983.153.751.582.464.60.362

        表4set2的10-fold交叉檢驗(yàn)預(yù)測結(jié)果

        截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0083.958.754.786.068.10.417N0583.959.855.386.368.80.426C2984.856.153.486.266.80.402

        從表3和表4的數(shù)據(jù)可看出,兩數(shù)據(jù)集中βαβ的識真能力均達(dá)到80%以上,好于辯假能力,但非βαβ的識真能力低于辯假能力,說明可以很好地識別出βαβ,排除非βαβ。數(shù)據(jù)顯示,3種截取模式中N05型的識別總精度好于B00型和C29型,set1的識別精度達(dá)到69.3%,相關(guān)系數(shù)達(dá)到0.419。

        2.2優(yōu)化的位點(diǎn)氨基酸(A)的預(yù)測結(jié)果

        上述計算中選取參量的維數(shù)較高,計算中常會由于高維參量引起維數(shù)災(zāi)難問題,因此有必要將位點(diǎn)氨基酸通過降維來避免過訓(xùn)練發(fā)生,從而提高識別的效果。下面選取mRMR(maximum relevance mimimum redundancy)方法來進(jìn)行降維。mRMR方法是一種基于互信息的特征篩選方法:利用互信息計算特征參量與分析目標(biāo)間的相關(guān)性和特征之間的冗余性,根據(jù)最大依賴性來優(yōu)先選取具有最小冗余性的n個特征,本研究中用已編譯成程序[16]的mRMR軟件包實(shí)現(xiàn)。2個數(shù)據(jù)集的序列模式長為33個氨基酸殘基的序列中提取的2 079維位點(diǎn)氨基酸通過篩選,累積貢獻(xiàn)率達(dá)到90%以上的前100維作為優(yōu)化的位點(diǎn)氨基酸(A)。運(yùn)用上述算法2個數(shù)據(jù)集的10-fold交叉檢驗(yàn)結(jié)果如表5和表6。

        猜你喜歡
        模體蛋白質(zhì)
        幼雞怎么喂蛋白質(zhì)飼料
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        一種硅橡膠耳機(jī)套注塑模具
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        基于Matrix Profile的時間序列變長模體挖掘
        植入(l, d)模體發(fā)現(xiàn)若干算法的實(shí)現(xiàn)與比較
        基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
        蛋白質(zhì)計算問題歸納
        基于模體演化的時序鏈路預(yù)測方法
        古蛋白質(zhì)研究在考古學(xué)中的應(yīng)用
        大眾考古(2014年7期)2014-06-26 08:00:58
        99久久婷婷亚洲综合国产| 六月丁香久久| 丰满熟妇人妻无码区| 亚洲国产午夜精品乱码| 亚洲精品一区二区在线播放| 日本中文字幕精品久久| 一本色道久久综合狠狠躁篇| 巨茎中出肉欲人妻在线视频| 乌克兰少妇xxxx做受野外| 久久精品国产丝袜| 精品国产一品二品三品| 中文字日产幕码三区的做法步| 久久久久亚洲av成人网人人网站| 日韩AV不卡六区七区| 精品免费看国产一区二区白浆| 老司机在线免费视频亚洲| 婷婷精品国产亚洲av麻豆不片| 欧洲熟妇色xxxx欧美老妇多毛图片| 无码av免费永久免费永久专区| 日韩av在线免费观看不卡| 亚洲最新无码中文字幕久久 | 四虎影视4hu4虎成人| AV无码一区二区三区国产| 日韩精品一区二区三区免费观影 | 狠狠综合亚洲综合亚洲色| 精品日韩欧美一区二区在线播放| 免费一级特黄欧美大片久久网| 伊人色综合九久久天天蜜桃| 国语淫秽一区二区三区四区| 色欲av伊人久久大香线蕉影院 | 午夜福利一区在线观看中文字幕| 亚洲成av人片在线观看ww| 日韩精品欧美激情亚洲综合| 中文字幕亚洲一区视频| 亚洲av日韩综合一区久热| 日韩精品一区二区三区在线观看| 国产青青草视频在线播放| 亚洲乱码中文字幕在线播放 | 福利在线国产| 免费人成网在线观看品观网| 国产精品女同久久久久电影院|