亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征信息及Ma-Ada多分類器融合的蛋白質(zhì)結(jié)構(gòu)類預(yù)測

        2013-11-27 04:48:00厲力華
        關(guān)鍵詞:分類器氨基酸蛋白質(zhì)

        鄭 斌 厲力華

        (杭州電子科技大學(xué)生命信息與儀器工程學(xué)院,杭州 310018)

        引言

        人類基因組計劃的順利實施帶來了蛋白質(zhì)數(shù)據(jù)庫中海量的序列信息,面對浩瀚的蛋白質(zhì)序列數(shù)據(jù),傳統(tǒng)通過實驗方法測定蛋白質(zhì)結(jié)構(gòu)已經(jīng)遠遠不能滿足人類的需求。因此,探討通過理論計算方法來預(yù)測蛋白質(zhì)結(jié)構(gòu)類別顯得尤為重要。

        蛋白質(zhì)功能的確定有助于闡明生命體在生理或病理條件下的變化機制,并且對于疾病預(yù)防和藥物開發(fā)等方面都有十分重要的推動作用??茖W(xué)研究表明,蛋白質(zhì)的結(jié)構(gòu)和功能是相統(tǒng)一的,因此要研究蛋白質(zhì)的功能就需要深入了解其結(jié)構(gòu)。英國學(xué)者Levitt根據(jù)蛋白質(zhì)序列中二級結(jié)構(gòu)片段的排列和其拓撲結(jié)構(gòu)的不同,將蛋白質(zhì)分為全α、全β、α/β和α+β四種結(jié)構(gòu)類型[1],目前已報道的對蛋白質(zhì)結(jié)構(gòu)類的研究主要集中在這四種類型上。蛋白質(zhì)序列特征表示和機器學(xué)習(xí)算法是影響蛋白質(zhì)結(jié)構(gòu)類預(yù)測效果好壞的兩個重要方面。對于第一個方面,我們的工作就是用數(shù)字參量把從氨基酸序列中提取到的信息用特征參數(shù)合理地描述出來,最大程度地挖掘氨基酸序列之間的關(guān)系。這方面眾多學(xué)者已經(jīng)做了大量的研究工作。比如Nakashima等用20維的特征信息表示20種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率[2];Zhang等將自相關(guān)函數(shù)應(yīng)用于蛋白質(zhì)結(jié)構(gòu)類型預(yù)測研究中,其主要是描述一種基于氨基酸指數(shù)的特征提取方法[3];Chou在2001年首次提出了偽氨基酸組成方法,它是(20+λ)維的特征信息[4]。但是上述工作僅基于單一性質(zhì)的特征信息進行蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究,從而導(dǎo)致提取的特征信息所包含的信息量非常有限,不能全面描述蛋白質(zhì)序列特征。

        對于第二個方面,機器學(xué)習(xí)算法的基本過程就是通過對樣本數(shù)據(jù)訓(xùn)練總結(jié)出一整套判別體系及參數(shù)后,進而對測試樣本數(shù)據(jù)進行預(yù)測。Chris等運用的 ANN 算法[5],Liu 等運用的 KNN 算法[6],Wu等運用的SVM算法[7],都取得了較好的結(jié)果。但是傳統(tǒng)的單分類器算法存在著一定的缺陷,因為沒有任何一個分類器算法能夠在所有的樣本特征上進行很好的區(qū)分。為了解決這一問題,研究者們提出了一種新的分類技術(shù)——多分類器融合算法。多分類器融合算法是指先利用多個分類器進行分類,然后通過一定的組合機制把多個分量分類器的結(jié)果進行融合,達到對目標進行識別的目的。近年來,越來越多的研究者開始把多分類器融合算法應(yīng)用于蛋白質(zhì)結(jié)構(gòu)類預(yù)測領(lǐng)域,比如Cai等和Feng等分別把LogitBoost算法和Boosting算法應(yīng)用于蛋白質(zhì)結(jié)構(gòu)類預(yù)測[8-9],都取得了比單分類器更加理想的效果。但這些多分類器融合算法沒有考慮各個單分類器關(guān)于樣本的具體情況,即置信度,對樣本數(shù)據(jù)信息挖掘不充分,丟失了很多有用的信息,導(dǎo)致分類效果還是達不到令人滿意的程度。

        在本課題組前期研究中,提出了k-字統(tǒng)計頻率和 k-片段位置分布兩種特征提取方法[7,10],但其特征信息融合的效果還有待提高。為了進一步提高蛋白質(zhì)結(jié)構(gòu)類的預(yù)測精度,本研究將這兩種特征提取方法得到的氨基酸序列信息和物理化學(xué)性質(zhì)信息同蛋白質(zhì)二級結(jié)構(gòu)信息進行融合,并嘗試在Adaboost.M1 算法[11]中引入 Multi-Agent(MA)多智能體融合的思想[12-13],提出了一種 Ma-Ada 多分類器融合算法,該算法可以挖掘單分類器度量層信息以及各個單分類器之間的交互融合信息,以進一步改進預(yù)測的準確性。

        1 方法與數(shù)據(jù)

        1.1 蛋白質(zhì)結(jié)構(gòu)類特征提取及融合

        1.1.1 k-字統(tǒng)計頻率特征

        k-字統(tǒng)計頻率特征提取方法主要是統(tǒng)計長度為k的氨基酸片段頻率信息。其具體方法是,對于任一條長度為 L 的氨基酸序列 S=R1,R2,R3,…,RL,通過移動長度為k的滑動窗口來統(tǒng)計k-字氨基酸片段在給定氨基酸序列中出現(xiàn)的頻率。與傳統(tǒng)統(tǒng)計氨基酸序列頻率特征的方法相比,此方法可以通過變化的k-字獲得更為全面的氨基酸序列頻率信息。

        1.1.2 k-片段位置分布特征

        k-片段位置分布特征提取方法主要是統(tǒng)計氨基酸序列的位置分布信息。其具體方法是,給定任一條長度為 L 的氨基酸序列 S=R1,R2,R3,…,RL,將其看作是首尾相連,用O(y)對各氨基酸片段出現(xiàn)的位置分別進行標記。其中,y表示某一氨基酸片段。用變量ξ表示某一特定氨基酸片段y的位置間隔差,然后對變量ξ進行統(tǒng)計可以得到概率P(y)(ξ),進而可以得出其均值E(y)(ξ)以及方差D(y)(ξ)。最后由統(tǒng)計學(xué)概念計算出變異系數(shù)的倒數(shù)C(y)(ξ)變量的值來表征氨基酸序列位置分布信息。

        式中,C(y)(ξ)較好地反映了氨基酸片段位置分布信息,其值越大表示變量分布較為密集,反之則表示變量分布較為分散。

        1.1.3 多特征信息融合

        早期研究中僅基于單一性質(zhì)的特征信息進行蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究,如果將不同特征提取方法得到的多種特征信息加以聯(lián)系和有機的融合,將為分類預(yù)測提供更多的信息量。在本課題組的前期研究中,當取k=1時,能降低特征信息維數(shù)和減少特征信息冗余,從而能夠獲得更高的分類率[10]。利用1-字統(tǒng)計頻率分布和1-片段位置分布兩種特征提取方法,在包含20種氨基酸的蛋白質(zhì)一級序列上分別提取20維氨基酸頻率分布信息和20維氨基酸序列位置分布信息,分別記為AAC和AAP。

        氨基酸自身及之間的物理化學(xué)特性決定了蛋白質(zhì)的折疊構(gòu)象以及最終的結(jié)構(gòu)。在本研究中,根據(jù)氨基酸的物理化學(xué)性質(zhì),把20種氨基酸分為疏水類I、親水類E以及中性類A等3類。

        通過式(2),可以把蛋白質(zhì)一級序列整合成只包含三種氨基酸組成的序列,然后利用1-字統(tǒng)計頻率分布和1-片段位置分布兩種特征提取方法,分別提取3維氨基酸頻率分布信息和3維氨基酸序列位置分布信息,分別記為IEAC和IEAP。考慮到蛋白質(zhì)結(jié)構(gòu)類與蛋白質(zhì)二級結(jié)構(gòu)序列的組分及其空間排列息息相關(guān),因此,采用Liu等設(shè)計的11維二級結(jié)構(gòu)特征信息[14],記為SSI。通過融合以上不同性質(zhì)的特征信息,組成17維和57維的特征信息集。其組成如表1所示。

        表1 特征信息集的組成Tab.1 The composition of the feature information set

        1.2 Ma-Ada多分類器融合

        1.2.1 融合算法原理

        在多分類器融合領(lǐng)域,Adaboost.M1是一種比較成功的多分類器集成學(xué)習(xí)算法,已經(jīng)廣泛應(yīng)用于人臉檢測和文本分類等領(lǐng)域[15-16]。它的核心思想是通過對訓(xùn)練樣本集重復(fù)采樣,訓(xùn)練出多個具有差異性的弱分類器集,然后將多個弱分類器集成得到一個強分類器,最后采用投票規(guī)則輸出最終的分類結(jié)果。不過,該算法只是簡單地把屬于每一類的弱分類器權(quán)重求和,再把樣本歸于和值最大的那一類。這樣處理的后果就是丟掉了很多弱分類器輸出的有用信息,比如弱分類器對樣本的輸出類別以及樣本屬于每個類別的后驗概率。

        成員分類器之間的差異性是多數(shù)融合算法要求的前提,它對融合系統(tǒng)的性能有著重要影響。Ma-Ada多分類器融合算法的主要思想是首先通過Adaboost.M1算法,對訓(xùn)練集樣本進行訓(xùn)練獲得一系列具有差異性的單分類器,然后使用這一系列具有差異性的單分類器對訓(xùn)練集樣本進行測試,得到訓(xùn)練樣本的分類信息。

        借鑒Multi-Agent(MA)多智能體的融合思想,把統(tǒng)計得到的分類信息引入決策共現(xiàn)矩陣。其定義如下:

        式中,k代表樣本類別數(shù),n代表單分類器個數(shù)。其元素 djk1,jk2,i,k1,k2定義為

        式中,A1表示訓(xùn)練樣本集中屬于第i類的樣本被單分類器k1分為jk1類的個數(shù);A2表示訓(xùn)練樣本集中屬于第i類的樣本被單分類器k2分為jk2類的個數(shù);A3表示訓(xùn)練樣本中屬于第i類的樣本被單分類器k1分為jk1類,并且被單分類器k2分為jk2類的個數(shù)。

        當有待測樣本需要進行分類時,就可以通過已經(jīng)訓(xùn)練好的一系列單分類器,獲得待測樣本在每個單分類器上屬于每一類別的后驗概率信息,即可信度矩陣。其定義如下:

        式中,K代表樣本類別數(shù),n代表單分類器個數(shù)??尚哦染仃嘊的行值為1,元素bij表示單分類器i認為樣本x屬于類別j的后驗概率值。

        最后把可信度矩陣作為初始狀態(tài)輸入溯源矩陣,通過引入決策共現(xiàn)矩陣以及權(quán)重矩陣,在溯源矩陣中使各個單分類器之間進行信息交互,從而改變各個單分類器向不同類別溯源的概率,最終得到群體決策,也就是得到相應(yīng)的多分類器融合結(jié)果。與其它多分類器融合算法相比,Ma-Ada多分類器融合算法是一個集成系統(tǒng),它把各個弱分類器信息集成在一起,從而使信息量更加豐富。并且,它通過定義單分類器的個體行為和個體之間的交互協(xié)商,實現(xiàn)了多個個體所組成的群體行為,最大程度實現(xiàn)各自的目標[17],有效提高了解決問題的能力。Ma-Ada算法工作流程圖如圖1所示。

        圖1 Ma-Ada多分類器融合算法流程圖Fig.1 Flow chart of the Ma-Ada multi-classifier fusion algorithm

        1.2.2 融合算法實現(xiàn)

        假定進行融合的訓(xùn)練集上包含N個樣本,樣本的類別數(shù)為K,Ma-Ada融合算法實現(xiàn)步驟如下:

        步驟1 初始化訓(xùn)練集上樣本權(quán)重分布為D1(i)=1/N。

        步驟2 用單分類器學(xué)習(xí)算法迭代運算n次,每次迭代運算后都按照分類結(jié)果更新訓(xùn)練集數(shù)據(jù)權(quán)重分布,對于分類失敗的個體賦予較大的權(quán)重,下一次迭代運算時更加關(guān)注這些訓(xùn)練個體。單分類器學(xué)習(xí)算法通過反復(fù)迭代得到n個單分類器集,分類結(jié)果越好的單分類器,其對應(yīng)的權(quán)重也越大。

        步驟3 經(jīng)過步驟2可以統(tǒng)計得到權(quán)重矩陣W以及各個單分類器對訓(xùn)練集樣本分類所產(chǎn)生的類標號信息,然后根據(jù)式(5)計算得到?jīng)Q策共現(xiàn)矩陣D。

        步驟4 對于一個待分類樣本x,經(jīng)過已經(jīng)訓(xùn)練完成的n個單分類器決策判斷,會得到屬于每個單分類器關(guān)于各個類別的后驗概率值,即可信度矩陣B。通過引入權(quán)重矩陣W體現(xiàn)不同單分類器分類性能的差異性。用WB初始化溯源矩陣 S=[ski]n×K。

        步驟5 定義溯源矩陣S中元素最大值為V,表示各個單分類器對待測樣本的決策置信度,L表示決策閾值。若V>L,表示各個單分類器基本上達成共識,則進行步驟7。否則調(diào)用(9)式調(diào)整溯源矩陣S中各個元素的值。步驟6 將更新的溯源矩陣S每一行歸一化,保證每行和為1,轉(zhuǎn)步驟5,重新計算V值。

        步驟7 各個單分類器最終達成一致意見,即可輸出最終的分類決策結(jié)果。

        1.3 實驗數(shù)據(jù)

        SCOP(structure classification of protein)數(shù)據(jù)庫是目前國際上包含蛋白質(zhì)比較全面和分類比較客觀的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫之一,也是蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究中基本的數(shù)據(jù)來源。為了保證在比較衡量時的科學(xué)性及公平公正性,本研究采用的數(shù)據(jù)集都是基于研究者們在已有成果中構(gòu)建和廣泛采用的4個標準數(shù)據(jù)集。由Zhou構(gòu)建的Z277和Z498兩個數(shù)據(jù)集分別包括277條和498條氨基酸序列,1189和D640數(shù)據(jù)集分別包括1092條和640條氨基酸序列。數(shù)據(jù)集中詳細的數(shù)據(jù)構(gòu)成參見表2。

        表2 4個數(shù)據(jù)集的構(gòu)成Tab.2 The composition of four datasets

        1.4 分類器選擇

        支持向量機(SVM)是近年來發(fā)展起來建立在統(tǒng)計學(xué)習(xí)VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的學(xué)習(xí)算法[21],具有比其他分類算法收斂速度快、準確性高等優(yōu)點,在生物信息學(xué)中已經(jīng)得到了廣泛的應(yīng)用[22-23]。所以,選用以徑向基函數(shù)(RBF)為核函數(shù)的SVM算法作為Ma-Ada單分類器學(xué)習(xí)算法。由于蛋白質(zhì)結(jié)構(gòu)類預(yù)測是四分類問題,而傳統(tǒng)的SVM算法只適用于兩分類問題,在本研究中采用一對一組合策略(one-against-one)來解決四分類問題。

        2 結(jié)果

        2.1 實驗結(jié)果

        經(jīng)過前期實驗表明,把Ma-Ada融合算法中參數(shù)λ和決策閾值L值分別設(shè)為1/3和0.95,可以取得較好的分類效果。

        2.1.1 方法性能評價

        在蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究中,Z277、Z498、1189和D640等4個數(shù)據(jù)集被多種方法用來驗證效果,具有很高的可信度。為了保證結(jié)果的可比性,本文和其他研究方法一樣,采用蛋白質(zhì)分類研究中被認為最合理、應(yīng)用最為廣泛的Jackknife交叉驗證策略。其具體構(gòu)造方法是假設(shè)樣本數(shù)據(jù)集有N個樣本,依次將每個樣本單獨作為測試集,其余的N-1個樣本作為訓(xùn)練集,所以Jackknife交叉驗證策略會得到N個模型,用這N個模型最終測試集的分類率的平均數(shù)作為分類器的性能指標。選用以上四個數(shù)據(jù)集的57維特征信息集進行本次試驗,分類結(jié)果見表3。

        表3 不同方法的分類率—Jackknife交叉驗證Tab.3 Classification accuracies for different methods based on Jackknife cross-validation

        從表3中可以看出,在使用相同的數(shù)據(jù)集和Jackknife交叉驗證策略的前提下,本方法在Z277、Z498、1189和D640等4個數(shù)據(jù)集上的分類率分別達到了91.3%、96.8%、85.3%和87.2%,比表中其他方法的最好值分別高出3.9%、1.4%、0.1%和0.2%,可以說明本方法對提高這4個數(shù)據(jù)集的分類率是富有成效的。

        2.1.2 分類融合算法評價

        本次試驗中,在各種分類算法都使用相同的特征信息集的情況下,探討Ma-Ada多分類器融合算法與支持向量機(SVM)、最近鄰(KNN)、決策樹(DT)、樸素貝葉斯(NB)、人工神經(jīng)網(wǎng)絡(luò)(BP)五種分類算法的優(yōu)缺點。由于Jackknife交叉驗證策略需要建立的分類模型數(shù)量和總樣本數(shù)量相等,當總樣本數(shù)量相當多時,會導(dǎo)致計算成本偏高,故本次試驗采用十折交叉驗證策略。其具體構(gòu)造方法是將數(shù)據(jù)集均分為10份,然后依次將每份樣本數(shù)據(jù)分別做一次測試集,其余的9份樣本數(shù)據(jù)作為訓(xùn)練集,這樣會得到10個模型,用這10個模型最終測試集的分類率的平均數(shù)作為十折交叉驗證下分類器的性能指標。Z277、Z498、1189和D640等4個數(shù)據(jù)集的實驗結(jié)果見表4。

        表4 不同方法的分類率(%)—十折交叉驗證Tab.4 Classification accuracies(%)for different methods based on 10-fold cross-validation

        在表4的Z277、Z498、1189和D640這4個數(shù)據(jù)集中,通過縱向比較可以看出,,在17維特征信息集的情況下,Ma-Ada算法的預(yù)測結(jié)果分別為90.6%、95.8%、84.8%和88.3%,優(yōu)于表中其他分類算法最好結(jié)果的2.2%、0.8%、1.2%和1.4%。在57維特征信息集的情況下,Ma-Ada算法的預(yù)測結(jié)果分別為92.1%、97.0%、83.9%和87.8%,比其他分類算法的最好值分別高出1.8%、1.0%、1.8%和0.9%。

        2.1.3 分類穩(wěn)定性評價

        穩(wěn)定性是衡量分類器性能的一個重要指標。本次試驗中,使用17維和57維這兩個特征信息集,在 Z277、Z498、1189、D640 等 4 個樣本數(shù)據(jù)集上采用十折交叉驗證策略,對100次不同的數(shù)據(jù)組合的分類精度計算標準差來表示分類結(jié)果的穩(wěn)定性,如果其值越大,代表這100次結(jié)果的數(shù)據(jù)波動越大,說明分類算法的穩(wěn)定性越差。結(jié)果如表5所示。

        表5 不同方法的穩(wěn)定性(%)Tab.5 The stability of different methods

        從表5可以看出,Ma-Ada多分類器融合算法在Z277和Z498這兩個數(shù)據(jù)集上穩(wěn)定性最好,在17維特征信息集上標準差分別為0.49%和0.33%,在57維特征信息集上標準差分別為0.54%和0.22%。

        3 討論

        表3中分類率提高的原因可以從以下兩個方面來進行解釋。其一,本方法組合了不同類型的特征信息,并將其融合為57維特征信息集。提取的這些特征信息較有代表性,覆蓋范圍廣,既考慮了蛋白質(zhì)序列中氨基酸頻率及位置特征,又考慮了氨基酸疏水性屬性這一物理化學(xué)特征,還考慮了蛋白質(zhì)二級結(jié)構(gòu)序列特征信息,從而有效地反映了蛋白質(zhì)序列短、中、長程之間的關(guān)系。其二,本方法使用Ma-Ada多分類器融合算法,從而能比其它的分類算法表現(xiàn)出更好的性能。而且,Ma-Ada多分類器融合算法在分類決策時,引入了多智能體思想。通過決策共現(xiàn)矩陣,利用單分類器之間的決策相關(guān)信息,在各個單分類器之間進行信息交流,指導(dǎo)各個單分類器向不同類別溯源,通過各個單分類器之間的信息交互改變溯源概率,最終得到群體決策。

        通過表4中的數(shù)據(jù)可以看出,Ma-Ada多分類器融合算法的性能超過了表4中多數(shù)的分類算法,因此有望成為蛋白質(zhì)結(jié)構(gòu)類的預(yù)測工具。從蛋白質(zhì)結(jié)構(gòu)類每類的預(yù)測結(jié)果上看,基本上每種分類算法在類α和類β這兩類的分類效果最好,在類α+β的分類率最低,這說明在這4種結(jié)構(gòu)類別中,類α+β比其他結(jié)構(gòu)類更難預(yù)測。這是由于類α+β在蛋白質(zhì)結(jié)構(gòu)類定義中,具有比其他三種結(jié)構(gòu)類更復(fù)雜的形式,是α-螺旋和β-折疊相隔分布的形式,這也說明蛋白質(zhì)序列越復(fù)雜,預(yù)測難度越大,從而造成預(yù)測的分類率偏低。

        通過橫向比較,在Z277和Z498兩個數(shù)據(jù)集上,同一種分類算法在57維特征信息集的分類效果要優(yōu)于17維特征信息集。但在1189和D640兩個數(shù)據(jù)集上,結(jié)果恰好相反。主要原因是當特征維數(shù)增加到某一臨界點后,繼續(xù)增加的特征維數(shù)不僅會造成維數(shù)災(zāi)難,而且過高的特征維數(shù)會使噪聲對分類器的負面影響更加明顯,影響分類性能。

        在表5中可以看出,與其它方法相比,本研究提出的方法整體上呈現(xiàn)較好的穩(wěn)定性。這主要是因為Ma-Ada多分類器融合算法采用了多分類器之間的信息融合交互機制,在決策的過程中將各個分類器的相關(guān)性引入進來,擴大了信息源,從而能夠獲得穩(wěn)定性較好的分類結(jié)果。在其他五個分類器中,BP分類器穩(wěn)定性最差,這主要是由于每次初始化BP網(wǎng)絡(luò)時都是隨機的,而且訓(xùn)練終止時的誤差也不完全相同,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練完成后的權(quán)植和閾值也不相同,從而造成分類結(jié)果的穩(wěn)定性較差。

        4 結(jié)論

        探討理論計算方法預(yù)測蛋白質(zhì)結(jié)構(gòu)類是后基因組時代生物信息學(xué)的核心課題之一。本研究將k-字統(tǒng)計頻率和k-片段位置分布兩種特征提取方法得到的氨基酸序列信息和物理化學(xué)信息,與蛋白質(zhì)二級結(jié)構(gòu)信息進行融合,得到有效的融合特征信息集,并提出了Ma-Ada多分類器融合算法,用于蛋白質(zhì)結(jié)構(gòu)類分類預(yù)測研究。在 Z277、Z498、1189和D640等4個數(shù)據(jù)集上的實驗結(jié)果表明,所提出的57維融合特征信息集和Ma-Ada多分類器融合算法的分類率優(yōu)于大部分已發(fā)表的實驗結(jié)果。而在相同的融合特征信息集上,Ma-Ada多分類器融合算法更能有效地提高蛋白質(zhì)結(jié)構(gòu)類的預(yù)測精度。因此,本方法是蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究的一次有意義嘗試,對提高蛋白質(zhì)結(jié)構(gòu)類的預(yù)測精度具有一定的研究參考價值。

        [1]Levitt M,Chothia C.Structural patterns in globular proteins[J].Nature,1976,261(5561):552-558.

        [2]Nakashima H,Nishikawa K.Discrimination of intracellular and extracellular proteins using amino acid composition and residuepair frequencies[J].Journal of Molecular Biology,1994,238(1):54-61.

        [3]Bu Weishu,F(xiàn)eng Zhiping,Zhang Ziding,et al.Prediction of protein(domain)structural classes based on amino-acid index[J].European Journal of Biochemistry,1999,266(3):1043 -1049.

        [4]Chou Kuochen.Prediction of protein cellular attributes using pseudo-amino acid composition [J]. Proteins:Structure,F(xiàn)unction,and Bioinformatics,2001,43(3):246 -255.

        [5]Ding CHQ,Dubchak I.Multi-class protein fold recognition using support vector machines and neural networks [J].Bioinformatics,2001,17(4):349-358.

        [6]Liu Taigang,Zheng Xiaoqi,Wang Jun.Prediction of protein structural class using a complexity-based distance measure[J].Amino Acids,2010,38(3):721-728.

        [7]Wu Li,Dai Qi,Han Bin,et al.Prediction of protein structural class using a combined representation ofprotein-squence information and support vector machine[C]//Bioinformatics and Biomedicine Workshops(BIBMW).HongKong:IEEE,2010:101-106.

        [8]Cai YD,F(xiàn)eng KY,Lu WC,et al.Using logitboost classifier to predict protein structural classes[J].Journal of Theoretical Biology[J].2006,238(1):172 -176.

        [9]Feng KY,Cai YD,Chou KC.Boosting classifier for predicting protein domain structural class[J].Biochemical and Biophysical Research Communications,2005,334(1):213-217.

        [10]Dai Qi,Wu Li,Li Lihua.Improving protein structural class prediction using novelcombined sequenceinformation and predicted secondary structural features[J]. Journal of Computational Chemistry,2011,32(16):3393 -3398.

        [11]Freund Y,Schapire RE.Experiment with a new boosting algorithm [C]//Machine Learning-InternationalWorkshop.Morgan:Kaufmann Publishers,1996:148-156.

        [12]彭芳青,厲力華,徐偉棟,等.基于Multi-Agent的乳腺鉬靶圖像腫塊分類方法[J].傳感技術(shù)學(xué)報,2010,23(2):153-157.

        [13]趙浣萍,徐偉棟,厲力華,等.一種基于改進型Multi-Agent多分類器融合的乳腺鉬靶腫塊分類算法[J].儀器儀表學(xué)報,2011,32(9):2034-2040.

        [14]Liu Tian,Jia Cangzhi.A high-accuracy protein structural class prediction algorithm using predicted secondary structural information[J].Journal of Theoretical Biology,2010,267(3):272-275.

        [15]武勃,黃暢,艾海舟,等.基于連續(xù)Adaboost算法的多視角人臉檢測[J].計算機研究與發(fā)展,2005,42(9):1612-1621.

        [16]江林升,朱學(xué)芳.一種基于新特征的車牌檢測方法[J].計算機工程與應(yīng)用,2011,47(20):188-190.

        [17]寇忠寶,張長水.基于Multi-Agent的分類器融合[J].計算機學(xué)報,2003,26(2):174-179.

        [18]Kurgan LA,Homaeian L.Prediction of structural classes for protein sequences and domains—Impact of prediction algorithms,sequence representation and homology,and test procedures on accuracy[J].Pattern Recognition,2006,39(12):2323 -2343.

        [19]Chen Ke,Kurgan LA,Ruan Jishou.Prediction of protein structuralclass using novel evolutionary collocation-based sequence representation[J].Journal of computional chemistry,2008,29(10):1596-1604.

        [20]Zhou Guoping.An intriguing controversy over protein structural class prediction[J].Journal of Protein Chemistry,1998,17(8):729-738.

        [21]Vapnik VN.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999,10(5):988-999.

        [12]Sun XD,Huang RB.Prediction of protein structural classes using support vector machines[J].Amino Acids,2006,30(4):469-475.

        [23]Cai YD,Liu XJ,Xu X,et al.Support vector machines for predicting protein structural class[J].BMC Bioinformatics,2001,2(1):1-5.

        [24]Cao Youfang,Liu Shi,Zhang Lida,et al.Prediction of protein structural class with rough sets[J].BMC bioinformatics.BMC Bioinformatics,2006,7(1):7-20.

        [25]Yang Jianyi,Peng Zhenling,Chen Xin.Prediction of protein structural classes for low-h(huán)omology sequences based on predicted secondary structure[J].BMC Bioinformatics,2010,11(Suppl 1):S9.

        猜你喜歡
        分類器氨基酸蛋白質(zhì)
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        月桂酰丙氨基酸鈉的抑菌性能研究
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        UFLC-QTRAP-MS/MS法同時測定絞股藍中11種氨基酸
        中成藥(2018年1期)2018-02-02 07:20:05
        蛋白質(zhì)計算問題歸納
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        一株Nsp2蛋白自然缺失123個氨基酸的PRRSV分離和鑒定
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        国产真人性做爰久久网站 | 精品日韩在线观看视频| 日韩人妻另类中文字幕| 伊人激情av一区二区三区| 啪啪免费网站| 精品国产一品二品三品| 国产午夜视频一区二区三区| 免费无码毛片一区二区app| 日韩高清亚洲日韩精品一区| 亚洲国产日韩精品综合| 宅男亚洲伊人久久大香线蕉| 久久精品人妻无码一区二区三区| 国产最新网站| 男女羞羞的视频免费网站| 国产亚洲精品97在线视频一| www插插插无码视频网站| 色综合久久无码中文字幕app| 久久精品国产亚洲av成人无人区| 国产免费三级av在线| 黄色a级国产免费大片| 亚洲熟妇乱子伦在线| av一区二区三区有码| 亚洲精品欧美精品日韩精品| 成人性生交大片免费看r| 亚洲国产成人久久综合三区| 日本免费一二三区在线| 亚洲人成网站色www| 久久精品无码一区二区三区不 | 日韩国产精品无码一区二区三区| 国产乱沈阳女人高潮乱叫老| 国产美女黄性色av网站| 国内自拍色第一页第二页| 亚洲精品suv精品一区二区| 午夜视频网址| 日本女同性恋一区二区三区网站| 亚洲精品~无码抽插| 久久无码人妻一区二区三区午夜| 欧美大黑帍在线播放| 亚洲精品中文字幕观看| 免费在线亚洲视频观看| 国产二区交换配乱婬|