亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        氨基酸序列特征向量提取方法的探討

        2016-10-31 20:31:49譚生龍
        電腦知識與技術(shù) 2016年22期
        關(guān)鍵詞:特征向量特征提取

        譚生龍

        摘要:機(jī)器學(xué)習(xí)算法無法直接對連續(xù)的氨基酸序列進(jìn)行功能注釋,將用字符串表示的氨基酸序列轉(zhuǎn)化成用數(shù)值表示的特征向量是必要步驟,本文探討了基于氨基酸序列的特征提取方法,簡單探討了各種方法的優(yōu)劣,為新的氨基酸序列特征提取方法的研究起到拋磚引玉的作用。

        關(guān)鍵詞:蛋白質(zhì)序列;特征向量;特征提取

        中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)22-0169-02

        1 引言

        隨著測序成本的下降,通過高通量測序獲得生物序列的速度正以幾何級數(shù)增長,如何應(yīng)對如此快速增長的序列并進(jìn)行快速的功能注釋變得非常必要,一種可行的方法是利用計算機(jī)的機(jī)器學(xué)習(xí)方法實現(xiàn)對序列進(jìn)行快速的功能注釋。目前,機(jī)器學(xué)習(xí)算法僅支持對離散特征向量進(jìn)行學(xué)習(xí)和分類,而不能對用連續(xù)字符串表示的生物序列進(jìn)行自動分類。生物序列包括核苷酸序列和氨基酸序列,核苷酸序列又可以分為DNA序列和RNA序列,形成DNA序列的字母表為{A,T,C,G},RNA序列的字母表由{A,U,C,G}組成;而蛋白質(zhì)的氨基酸序字母表為∑={A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y},字母表中字符的個數(shù)為|∑|=20,氨基酸序列由字母表中的字符生成,本文主要討論將氨基酸序列轉(zhuǎn)化成離散特征向量的方法及各方法的優(yōu)缺點。

        2 常用生物序列的特征提取策略

        1)氨基酸組成成分的特征提取方法

        將氨基酸序列轉(zhuǎn)化為特征向量的方法中,最簡單的方法是計算字母表中的各個字母在序列中的出現(xiàn)頻率。將長度為n的氨基酸序列S表示為:S[1..n]=r1r2..ri..rn,其中ri∈∑,ri是組成氨基酸序列的單個字母,則字母表中的單個字符ri出現(xiàn)的頻率為Fi = Ai /n。其中 Ai 為字符ri在序列S中出現(xiàn)的次數(shù)。字母表中有20個字符,對不同長度的氨基酸序列,均生成一個有20個分量的特征向量,具體的實現(xiàn)方法見[1]。本方法實現(xiàn)簡單,且不同長度的氨基酸序列生成的特征向量長度相同,方便運(yùn)算和比較,但該方法沒有考慮氨基酸序列內(nèi)部的順序關(guān)系,丟失了序列內(nèi)部較重要的位置信息。

        2)分段偽氨基酸組成成分的特征提取

        蛋白質(zhì)的氨基酸序列具有局部特征,蛋白序列的局部子序列具有功能域的作用。一般把氨基酸序列中具有功能域特征的子片段稱為模體(motif),具有功能的氨基酸序列一般由多個功能域構(gòu)成。由此,將蛋白序列S均分成m個子片段,然后在每個子片段內(nèi)部計算氨基酸組成成分的特征向量,然后將這m個特征向量拼成一個具有20×m長度的特征向量,具體的實現(xiàn)方法見[2]。

        3)基于k-mer頻度的特征提取方法

        為了考慮氨基酸序列內(nèi)部的位置關(guān)系,以氨基酸序列內(nèi)部固定長度的小片段為研究對象,計算這些小片段序列的出現(xiàn)頻率,稱這種小片段為k-mer,k為小片段的長度。當(dāng)k=1時,本方法即為氨基酸組成成分的特征提取方法。當(dāng)k=2時,由20種基本氨基酸組成的2-mer有202=400種組合,即包括∑2={AA,AC,AD,…,YY}共400種短片度,生成的特征向量有400個分量。我們可以統(tǒng)計這400種小片段在序列S中的出現(xiàn)頻率,由此可將序列S轉(zhuǎn)換為一個400維的向量。計算某個k-mer頻率的方法為Fi = Ai /(n-k+1),Ai為單個k-mer在序列S中的出現(xiàn)次數(shù),n為序列S的長度,k為短片段k-mer的長度。當(dāng)k=3時,蛋白質(zhì)序列中的3-mer有203=8000種可能,即∑3={AAA,AAC,…,YYY},生成一個8000維的向量,每個分量表示某3-mer在該序列中出現(xiàn)的頻率。當(dāng)k-mer中的長度繼續(xù)增加時,比如k≥4時,在單條序列S中,k-mer個數(shù)太多而單個k-mer在序列S中出現(xiàn)在頻率很少,很多k-mer出現(xiàn)0次或者1次,大量由0和1構(gòu)成的特征向量已經(jīng)沒有意義。比如4-mer生成的特征向量有204=160000個分量,在氨基酸序列S中,多數(shù)4-mer僅出現(xiàn)0次,故特征向量中的多數(shù)分量是0,因此該向量的維數(shù)太高而很少被采用。通過計算同一組蛋白不同k-mer的頻率,可以將蛋白的氨基酸序列表示成一組由k-mer頻率表示的特征向量,長度不同的氨基酸序列,只要選擇相同的k值,其生成的特征向量的維度相同。本方法考慮了序列的相鄰關(guān)系,但當(dāng)k增大時,特征向量的維度以幾何方式增長,高維特征向量為后續(xù)的機(jī)器學(xué)習(xí)算法引入維度災(zāi)難,使預(yù)測分類性能顯著下降。

        4)偽氨基酸組成成分

        氨基酸組成成分方法沒有考慮殘基在序列中出現(xiàn)的順序,而僅僅計算二十種基本氨基酸在序列中的出現(xiàn)頻率,該模型忽略了氨基酸殘基間的順序關(guān)系;k-mer頻度的特征提取方法僅考慮了氨基酸殘基的局部順序關(guān)系,當(dāng)k增加時,向量維度迅速升高;這兩種模型在將氨基酸序列轉(zhuǎn)化成特征向量方面丟失了較多的氨基酸殘基間的順序關(guān)系。為了更完整的表示序列的位置信息,Chou等人提出了偽氨基酸組成模型[3, 4]PAAC(Pseudo Amino Acid Composition Model),在該模型中,偽氨基酸組成模型保留了氨基酸組成成分的特征,并通過擴(kuò)展特征向量來表示位置信息。故偽氨基酸組成成分的特征向量表示為:

        PAAC =(x1,x2,…,xi,…,x20,x20+1,…,x20+λ) (1)

        在PAAC中,前20個分量x1,..,x20表示20個基本氨基酸的出現(xiàn)頻率,而分量x20+1,…,x20+λ部分表示了氨基酸序列中殘基的位置信息。殘基間的位置信息能通過如圖1所示的殘基間的相關(guān)關(guān)系來描述。圖1中的(a)描述殘基間的第一層關(guān)系,即分量x20+1,(b)和(c)分別描述了殘基間的第二層和第三層關(guān)系,即分量x20+2和x20+3,層數(shù)λ可由用戶指定,但λ應(yīng)該小于蛋白序列的長度n。

        圖1中氨基酸序列的殘基之間的相關(guān)關(guān)系可以用下面的公式計算:

        在這里x20+1表示氨基酸序列間的第一層關(guān)系,x20+2表示氨基酸序列的第二層關(guān)系,x20+λ表示氨基酸序列的第λ層關(guān)系,λ是一個輸入?yún)?shù);n表示氨基酸序列的長度,λ(ri,rj),表示兩個基本氨基酸殘基之間的關(guān)系。通常,λ(ri,rj)是用兩基本氨基酸的理化性質(zhì)、空間結(jié)構(gòu)改變或者序列間的轉(zhuǎn)化等數(shù)量關(guān)系來描述。

        5)組合的特征向量生成方法

        在應(yīng)用這些特征提取方法將蛋白的氨基酸序列轉(zhuǎn)化成特征向量的過程中,可同時使用幾種特征向量提取方法,將由不同特征提取方法生成的特征向量進(jìn)行組合,生成組合的特征向量,實踐證明這種組合特征向量能更好地表示序列S的內(nèi)部信息,這種組合特征向量能較好的提升機(jī)器學(xué)習(xí)算法的預(yù)測性能。在應(yīng)用這些方法的過程中,經(jīng)常遇到因為特征向量維度過高引發(fā)的維度災(zāi)難問題,一般采用主成分分析、F-Score和二項分布[5]等多種方式對特征向量進(jìn)行降維。

        3 總結(jié)

        蛋白序列的特征提取技術(shù)直接決定機(jī)器學(xué)習(xí)分類模型的預(yù)測性能和預(yù)測結(jié)果的準(zhǔn)確性。高效的特征提取技術(shù)能將連續(xù)的氨基酸序列快速轉(zhuǎn)化為離散的特征向量,且更好展現(xiàn)了序列的內(nèi)部隱藏信息。在生物序列數(shù)據(jù)快速增長的新形勢下,研究高效特征提取技術(shù)已經(jīng)變得非常必要,本文對目前的氨基酸序列的特征提取技術(shù)進(jìn)行了綜述,希望能對高效特征提取方法的研究起到拋磚引玉的作用。

        參考文獻(xiàn):

        [1] Nakashima H,Nishikawa K.Discrimination of intracellular and extracellular proteins using amino acid composition andresidue—pair frequencies.J Mol Biol,1994,238(1):54-61.

        [2] 楊會芳,程詠梅,張紹武,等. 基于一種新的特征提取方法 分段偽氨基酸組成成分預(yù)測蛋白質(zhì)亞細(xì)胞定位 生物物理學(xué)報,2008,24(33):232-238.

        [3] K. C. Chou, Prediction of protein cellular attributes using pseudo-amino acid composition, Proteins: Structure, Function, and Bioinformatics, 2001(43):246-255.

        [4] K.-C. Chou, Some remarks on protein attribute prediction and pseudo amino acid composition, Journal of Theoretical Biology, 2011(273):236-247.

        [5] Lin H, Deng E, Ding H. iPro54-PseKNC: a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition. Nucleic Acids Research, 2014, 42(21), 12961-12972. doi:10.1093/nar/gku1019.

        猜你喜歡
        特征向量特征提取
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識別
        克羅內(nèi)克積的特征向量
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        一類三階矩陣特征向量的特殊求法
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        人妻熟妇乱系列| 国产成人av综合色| 国产真实夫妇交换视频| 亚洲天堂中文| 精品人妻夜夜爽一区二区| 亚洲综合一区中文字幕| 性欧美videofree高清精品| 亚洲国产成人久久一区www妖精 | 久久精品亚洲精品国产色婷 | 国产呦精品系列在线播放| 精品久久久久久国产潘金莲| 亚洲伊人久久大香线蕉| 国内最真实的xxxx人伦| a在线观看免费网站大全| 男女高潮免费观看无遮挡| 国产精品一区二区三区在线观看| 一女被多男玩喷潮视频| 亚洲成人小说| 久久亚洲精品成人综合| 女同三级伦理在线观看| 亚洲a∨国产av综合av下载| 色老头一区二区三区| 亚洲精品中文字幕乱码人妻| 国产高清一区二区三区四区色| 久久久久亚洲av片无码下载蜜桃| 国产午夜亚洲精品理论片不卡| 全程国语对白资源在线观看| 精品卡一卡二乱码新区| 99久久精品费精品国产一区二区 | 性色做爰片在线观看ww| 亚洲欧洲日产国码无码AV一 | 国产亚洲欧洲AⅤ综合一区| 国产美女一区三区在线观看| 成人免费无码大片a毛片抽搐色欲 日本动漫瀑乳h动漫啪啪免费 | 91日韩东京热中文字幕| 伊人久久久精品区aaa片| 日本手机在线| 黄色潮片三级三级三级免费| 精品久久人妻av中文字幕| 欧美日韩中文制服有码| 一区二区三区av资源网|