亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        氨基酸序列特征向量提取方法的探討

        2016-10-31 20:31:49譚生龍
        電腦知識(shí)與技術(shù) 2016年22期
        關(guān)鍵詞:特征提取

        譚生龍

        摘要:機(jī)器學(xué)習(xí)算法無(wú)法直接對(duì)連續(xù)的氨基酸序列進(jìn)行功能注釋,將用字符串表示的氨基酸序列轉(zhuǎn)化成用數(shù)值表示的特征向量是必要步驟,本文探討了基于氨基酸序列的特征提取方法,簡(jiǎn)單探討了各種方法的優(yōu)劣,為新的氨基酸序列特征提取方法的研究起到拋磚引玉的作用。

        關(guān)鍵詞:蛋白質(zhì)序列;特征向量;特征提取

        中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)22-0169-02

        1 引言

        隨著測(cè)序成本的下降,通過(guò)高通量測(cè)序獲得生物序列的速度正以幾何級(jí)數(shù)增長(zhǎng),如何應(yīng)對(duì)如此快速增長(zhǎng)的序列并進(jìn)行快速的功能注釋變得非常必要,一種可行的方法是利用計(jì)算機(jī)的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)序列進(jìn)行快速的功能注釋。目前,機(jī)器學(xué)習(xí)算法僅支持對(duì)離散特征向量進(jìn)行學(xué)習(xí)和分類,而不能對(duì)用連續(xù)字符串表示的生物序列進(jìn)行自動(dòng)分類。生物序列包括核苷酸序列和氨基酸序列,核苷酸序列又可以分為DNA序列和RNA序列,形成DNA序列的字母表為{A,T,C,G},RNA序列的字母表由{A,U,C,G}組成;而蛋白質(zhì)的氨基酸序字母表為∑={A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y},字母表中字符的個(gè)數(shù)為|∑|=20,氨基酸序列由字母表中的字符生成,本文主要討論將氨基酸序列轉(zhuǎn)化成離散特征向量的方法及各方法的優(yōu)缺點(diǎn)。

        2 常用生物序列的特征提取策略

        1)氨基酸組成成分的特征提取方法

        將氨基酸序列轉(zhuǎn)化為特征向量的方法中,最簡(jiǎn)單的方法是計(jì)算字母表中的各個(gè)字母在序列中的出現(xiàn)頻率。將長(zhǎng)度為n的氨基酸序列S表示為:S[1..n]=r1r2..ri..rn,其中ri∈∑,ri是組成氨基酸序列的單個(gè)字母,則字母表中的單個(gè)字符ri出現(xiàn)的頻率為Fi = Ai /n。其中 Ai 為字符ri在序列S中出現(xiàn)的次數(shù)。字母表中有20個(gè)字符,對(duì)不同長(zhǎng)度的氨基酸序列,均生成一個(gè)有20個(gè)分量的特征向量,具體的實(shí)現(xiàn)方法見(jiàn)[1]。本方法實(shí)現(xiàn)簡(jiǎn)單,且不同長(zhǎng)度的氨基酸序列生成的特征向量長(zhǎng)度相同,方便運(yùn)算和比較,但該方法沒(méi)有考慮氨基酸序列內(nèi)部的順序關(guān)系,丟失了序列內(nèi)部較重要的位置信息。

        2)分段偽氨基酸組成成分的特征提取

        蛋白質(zhì)的氨基酸序列具有局部特征,蛋白序列的局部子序列具有功能域的作用。一般把氨基酸序列中具有功能域特征的子片段稱為模體(motif),具有功能的氨基酸序列一般由多個(gè)功能域構(gòu)成。由此,將蛋白序列S均分成m個(gè)子片段,然后在每個(gè)子片段內(nèi)部計(jì)算氨基酸組成成分的特征向量,然后將這m個(gè)特征向量拼成一個(gè)具有20×m長(zhǎng)度的特征向量,具體的實(shí)現(xiàn)方法見(jiàn)[2]。

        3)基于k-mer頻度的特征提取方法

        為了考慮氨基酸序列內(nèi)部的位置關(guān)系,以氨基酸序列內(nèi)部固定長(zhǎng)度的小片段為研究對(duì)象,計(jì)算這些小片段序列的出現(xiàn)頻率,稱這種小片段為k-mer,k為小片段的長(zhǎng)度。當(dāng)k=1時(shí),本方法即為氨基酸組成成分的特征提取方法。當(dāng)k=2時(shí),由20種基本氨基酸組成的2-mer有202=400種組合,即包括∑2={AA,AC,AD,…,YY}共400種短片度,生成的特征向量有400個(gè)分量。我們可以統(tǒng)計(jì)這400種小片段在序列S中的出現(xiàn)頻率,由此可將序列S轉(zhuǎn)換為一個(gè)400維的向量。計(jì)算某個(gè)k-mer頻率的方法為Fi = Ai /(n-k+1),Ai為單個(gè)k-mer在序列S中的出現(xiàn)次數(shù),n為序列S的長(zhǎng)度,k為短片段k-mer的長(zhǎng)度。當(dāng)k=3時(shí),蛋白質(zhì)序列中的3-mer有203=8000種可能,即∑3={AAA,AAC,…,YYY},生成一個(gè)8000維的向量,每個(gè)分量表示某3-mer在該序列中出現(xiàn)的頻率。當(dāng)k-mer中的長(zhǎng)度繼續(xù)增加時(shí),比如k≥4時(shí),在單條序列S中,k-mer個(gè)數(shù)太多而單個(gè)k-mer在序列S中出現(xiàn)在頻率很少,很多k-mer出現(xiàn)0次或者1次,大量由0和1構(gòu)成的特征向量已經(jīng)沒(méi)有意義。比如4-mer生成的特征向量有204=160000個(gè)分量,在氨基酸序列S中,多數(shù)4-mer僅出現(xiàn)0次,故特征向量中的多數(shù)分量是0,因此該向量的維數(shù)太高而很少被采用。通過(guò)計(jì)算同一組蛋白不同k-mer的頻率,可以將蛋白的氨基酸序列表示成一組由k-mer頻率表示的特征向量,長(zhǎng)度不同的氨基酸序列,只要選擇相同的k值,其生成的特征向量的維度相同。本方法考慮了序列的相鄰關(guān)系,但當(dāng)k增大時(shí),特征向量的維度以幾何方式增長(zhǎng),高維特征向量為后續(xù)的機(jī)器學(xué)習(xí)算法引入維度災(zāi)難,使預(yù)測(cè)分類性能顯著下降。

        4)偽氨基酸組成成分

        氨基酸組成成分方法沒(méi)有考慮殘基在序列中出現(xiàn)的順序,而僅僅計(jì)算二十種基本氨基酸在序列中的出現(xiàn)頻率,該模型忽略了氨基酸殘基間的順序關(guān)系;k-mer頻度的特征提取方法僅考慮了氨基酸殘基的局部順序關(guān)系,當(dāng)k增加時(shí),向量維度迅速升高;這兩種模型在將氨基酸序列轉(zhuǎn)化成特征向量方面丟失了較多的氨基酸殘基間的順序關(guān)系。為了更完整的表示序列的位置信息,Chou等人提出了偽氨基酸組成模型[3, 4]PAAC(Pseudo Amino Acid Composition Model),在該模型中,偽氨基酸組成模型保留了氨基酸組成成分的特征,并通過(guò)擴(kuò)展特征向量來(lái)表示位置信息。故偽氨基酸組成成分的特征向量表示為:

        PAAC =(x1,x2,…,xi,…,x20,x20+1,…,x20+λ) (1)

        在PAAC中,前20個(gè)分量x1,..,x20表示20個(gè)基本氨基酸的出現(xiàn)頻率,而分量x20+1,…,x20+λ部分表示了氨基酸序列中殘基的位置信息。殘基間的位置信息能通過(guò)如圖1所示的殘基間的相關(guān)關(guān)系來(lái)描述。圖1中的(a)描述殘基間的第一層關(guān)系,即分量x20+1,(b)和(c)分別描述了殘基間的第二層和第三層關(guān)系,即分量x20+2和x20+3,層數(shù)λ可由用戶指定,但λ應(yīng)該小于蛋白序列的長(zhǎng)度n。

        圖1中氨基酸序列的殘基之間的相關(guān)關(guān)系可以用下面的公式計(jì)算:

        在這里x20+1表示氨基酸序列間的第一層關(guān)系,x20+2表示氨基酸序列的第二層關(guān)系,x20+λ表示氨基酸序列的第λ層關(guān)系,λ是一個(gè)輸入?yún)?shù);n表示氨基酸序列的長(zhǎng)度,λ(ri,rj),表示兩個(gè)基本氨基酸殘基之間的關(guān)系。通常,λ(ri,rj)是用兩基本氨基酸的理化性質(zhì)、空間結(jié)構(gòu)改變或者序列間的轉(zhuǎn)化等數(shù)量關(guān)系來(lái)描述。

        5)組合的特征向量生成方法

        在應(yīng)用這些特征提取方法將蛋白的氨基酸序列轉(zhuǎn)化成特征向量的過(guò)程中,可同時(shí)使用幾種特征向量提取方法,將由不同特征提取方法生成的特征向量進(jìn)行組合,生成組合的特征向量,實(shí)踐證明這種組合特征向量能更好地表示序列S的內(nèi)部信息,這種組合特征向量能較好的提升機(jī)器學(xué)習(xí)算法的預(yù)測(cè)性能。在應(yīng)用這些方法的過(guò)程中,經(jīng)常遇到因?yàn)樘卣飨蛄烤S度過(guò)高引發(fā)的維度災(zāi)難問(wèn)題,一般采用主成分分析、F-Score和二項(xiàng)分布[5]等多種方式對(duì)特征向量進(jìn)行降維。

        3 總結(jié)

        蛋白序列的特征提取技術(shù)直接決定機(jī)器學(xué)習(xí)分類模型的預(yù)測(cè)性能和預(yù)測(cè)結(jié)果的準(zhǔn)確性。高效的特征提取技術(shù)能將連續(xù)的氨基酸序列快速轉(zhuǎn)化為離散的特征向量,且更好展現(xiàn)了序列的內(nèi)部隱藏信息。在生物序列數(shù)據(jù)快速增長(zhǎng)的新形勢(shì)下,研究高效特征提取技術(shù)已經(jīng)變得非常必要,本文對(duì)目前的氨基酸序列的特征提取技術(shù)進(jìn)行了綜述,希望能對(duì)高效特征提取方法的研究起到拋磚引玉的作用。

        參考文獻(xiàn):

        [1] Nakashima H,Nishikawa K.Discrimination of intracellular and extracellular proteins using amino acid composition andresidue—pair frequencies.J Mol Biol,1994,238(1):54-61.

        [2] 楊會(huì)芳,程詠梅,張紹武,等. 基于一種新的特征提取方法 分段偽氨基酸組成成分預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位 生物物理學(xué)報(bào),2008,24(33):232-238.

        [3] K. C. Chou, Prediction of protein cellular attributes using pseudo-amino acid composition, Proteins: Structure, Function, and Bioinformatics, 2001(43):246-255.

        [4] K.-C. Chou, Some remarks on protein attribute prediction and pseudo amino acid composition, Journal of Theoretical Biology, 2011(273):236-247.

        [5] Lin H, Deng E, Ding H. iPro54-PseKNC: a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition. Nucleic Acids Research, 2014, 42(21), 12961-12972. doi:10.1093/nar/gku1019.

        猜你喜歡
        特征提取
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于DNN的低資源語(yǔ)音識(shí)別特征提取技術(shù)
        Bagging RCSP腦電特征提取算法
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于DSP的直線特征提取算法
        基于改進(jìn)WLD的紋理特征提取方法
        淺析零件圖像的特征提取和識(shí)別方法
        基于CATIA的橡皮囊成形零件的特征提取
        国产一级黄色片一区二区| 久久老熟女一区二区三区福利| 久久精品日韩免费视频| 日本免费在线一区二区三区| 国产精品主播在线一区二区| 亚洲日产一线二线三线精华液 | 日本视频一中文有码中文| 一区二区三区中文字幕| 久久国产36精品色熟妇| 97人妻无码免费专区| 激情网色图区蜜桃av| 亚洲天堂av三区四区不卡| 久久久久亚洲av片无码v| 久久精品成人欧美大片| 国产丝袜精品丝袜一区二区| 免费av网址一区二区| 国产成人精品一区二区20p| 一本一道波多野结衣av中文| 天天影视色香欲综合久久| 热久久这里只有| 一个人看的在线播放视频| 精品人妻伦一二三区久久| 亚洲成a人无码| 精品人妻无码视频中文字幕一区二区三区 | 日本熟妇免费一区二区三区| 精品私密av一区二区三区| 亚洲av精品一区二区三区| 在线看亚洲十八禁网站| 一区二区久久不射av| av免费在线播放观看| 国产放荡对白视频在线观看| 国产av无码专区亚洲av手机麻豆| 中文字幕日本人妻一区| 偷拍夫妻视频一区二区| aa片在线观看视频在线播放| 99爱这里只有精品| 午夜亚洲精品视频网站| 欧美激欧美啪啪片| 久久亚洲国产成人精品性色 | 中文字幕免费不卡二区| 亚洲欧美日韩中文字幕网址 |