亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

氨基酸序列特征向量提取方法的探討

2016-10-31 20:31:49譚生龍

電腦知識(shí)與技術(shù) 2016年22期

關(guān)鍵詞：特征提取

譚生龍

摘要：機(jī)器學(xué)習(xí)算法無(wú)法直接對(duì)連續(xù)的氨基酸序列進(jìn)行功能注釋，將用字符串表示的氨基酸序列轉(zhuǎn)化成用數(shù)值表示的特征向量是必要步驟，本文探討了基于氨基酸序列的特征提取方法，簡(jiǎn)單探討了各種方法的優(yōu)劣，為新的氨基酸序列特征提取方法的研究起到拋磚引玉的作用。

關(guān)鍵詞：蛋白質(zhì)序列；特征向量；特征提取

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2016）22-0169-02

1 引言

隨著測(cè)序成本的下降，通過(guò)高通量測(cè)序獲得生物序列的速度正以幾何級(jí)數(shù)增長(zhǎng)，如何應(yīng)對(duì)如此快速增長(zhǎng)的序列并進(jìn)行快速的功能注釋變得非常必要，一種可行的方法是利用計(jì)算機(jī)的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)序列進(jìn)行快速的功能注釋。目前，機(jī)器學(xué)習(xí)算法僅支持對(duì)離散特征向量進(jìn)行學(xué)習(xí)和分類，而不能對(duì)用連續(xù)字符串表示的生物序列進(jìn)行自動(dòng)分類。生物序列包括核苷酸序列和氨基酸序列，核苷酸序列又可以分為DNA序列和RNA序列，形成DNA序列的字母表為{A，T，C，G}，RNA序列的字母表由{A，U，C，G}組成；而蛋白質(zhì)的氨基酸序字母表為∑={A，C，D，E，F(xiàn)，G，H，I，K，L，M，N，P，Q，R，S，T，V，W，Y}，字母表中字符的個(gè)數(shù)為|∑|=20，氨基酸序列由字母表中的字符生成，本文主要討論將氨基酸序列轉(zhuǎn)化成離散特征向量的方法及各方法的優(yōu)缺點(diǎn)。

2 常用生物序列的特征提取策略

1）氨基酸組成成分的特征提取方法

將氨基酸序列轉(zhuǎn)化為特征向量的方法中，最簡(jiǎn)單的方法是計(jì)算字母表中的各個(gè)字母在序列中的出現(xiàn)頻率。將長(zhǎng)度為n的氨基酸序列S表示為：S[1..n]=r1r2..ri..rn，其中ri∈∑，ri是組成氨基酸序列的單個(gè)字母，則字母表中的單個(gè)字符ri出現(xiàn)的頻率為Fi = Ai /n。其中 Ai 為字符ri在序列S中出現(xiàn)的次數(shù)。字母表中有20個(gè)字符，對(duì)不同長(zhǎng)度的氨基酸序列，均生成一個(gè)有20個(gè)分量的特征向量，具體的實(shí)現(xiàn)方法見(jiàn)[1]。本方法實(shí)現(xiàn)簡(jiǎn)單，且不同長(zhǎng)度的氨基酸序列生成的特征向量長(zhǎng)度相同，方便運(yùn)算和比較，但該方法沒(méi)有考慮氨基酸序列內(nèi)部的順序關(guān)系，丟失了序列內(nèi)部較重要的位置信息。

2）分段偽氨基酸組成成分的特征提取

蛋白質(zhì)的氨基酸序列具有局部特征，蛋白序列的局部子序列具有功能域的作用。一般把氨基酸序列中具有功能域特征的子片段稱為模體（motif），具有功能的氨基酸序列一般由多個(gè)功能域構(gòu)成。由此，將蛋白序列S均分成m個(gè)子片段，然后在每個(gè)子片段內(nèi)部計(jì)算氨基酸組成成分的特征向量，然后將這m個(gè)特征向量拼成一個(gè)具有20×m長(zhǎng)度的特征向量，具體的實(shí)現(xiàn)方法見(jiàn)[2]。

3）基于k-mer頻度的特征提取方法

為了考慮氨基酸序列內(nèi)部的位置關(guān)系，以氨基酸序列內(nèi)部固定長(zhǎng)度的小片段為研究對(duì)象，計(jì)算這些小片段序列的出現(xiàn)頻率，稱這種小片段為k-mer，k為小片段的長(zhǎng)度。當(dāng)k=1時(shí)，本方法即為氨基酸組成成分的特征提取方法。當(dāng)k=2時(shí)，由20種基本氨基酸組成的2-mer有202=400種組合，即包括∑2={AA，AC，AD，…，YY}共400種短片度，生成的特征向量有400個(gè)分量。我們可以統(tǒng)計(jì)這400種小片段在序列S中的出現(xiàn)頻率，由此可將序列S轉(zhuǎn)換為一個(gè)400維的向量。計(jì)算某個(gè)k-mer頻率的方法為Fi = Ai /（n-k+1），Ai為單個(gè)k-mer在序列S中的出現(xiàn)次數(shù)，n為序列S的長(zhǎng)度，k為短片段k-mer的長(zhǎng)度。當(dāng)k=3時(shí)，蛋白質(zhì)序列中的3-mer有203=8000種可能，即∑3={AAA，AAC，…，YYY}，生成一個(gè)8000維的向量，每個(gè)分量表示某3-mer在該序列中出現(xiàn)的頻率。當(dāng)k-mer中的長(zhǎng)度繼續(xù)增加時(shí)，比如k≥4時(shí)，在單條序列S中，k-mer個(gè)數(shù)太多而單個(gè)k-mer在序列S中出現(xiàn)在頻率很少，很多k-mer出現(xiàn)0次或者1次，大量由0和1構(gòu)成的特征向量已經(jīng)沒(méi)有意義。比如4-mer生成的特征向量有204=160000個(gè)分量，在氨基酸序列S中，多數(shù)4-mer僅出現(xiàn)0次，故特征向量中的多數(shù)分量是0，因此該向量的維數(shù)太高而很少被采用。通過(guò)計(jì)算同一組蛋白不同k-mer的頻率，可以將蛋白的氨基酸序列表示成一組由k-mer頻率表示的特征向量，長(zhǎng)度不同的氨基酸序列，只要選擇相同的k值，其生成的特征向量的維度相同。本方法考慮了序列的相鄰關(guān)系，但當(dāng)k增大時(shí)，特征向量的維度以幾何方式增長(zhǎng)，高維特征向量為后續(xù)的機(jī)器學(xué)習(xí)算法引入維度災(zāi)難，使預(yù)測(cè)分類性能顯著下降。

4）偽氨基酸組成成分

氨基酸組成成分方法沒(méi)有考慮殘基在序列中出現(xiàn)的順序，而僅僅計(jì)算二十種基本氨基酸在序列中的出現(xiàn)頻率，該模型忽略了氨基酸殘基間的順序關(guān)系；k-mer頻度的特征提取方法僅考慮了氨基酸殘基的局部順序關(guān)系，當(dāng)k增加時(shí)，向量維度迅速升高；這兩種模型在將氨基酸序列轉(zhuǎn)化成特征向量方面丟失了較多的氨基酸殘基間的順序關(guān)系。為了更完整的表示序列的位置信息，Chou等人提出了偽氨基酸組成模型[3， 4]PAAC（Pseudo Amino Acid Composition Model），在該模型中，偽氨基酸組成模型保留了氨基酸組成成分的特征，并通過(guò)擴(kuò)展特征向量來(lái)表示位置信息。故偽氨基酸組成成分的特征向量表示為：

PAAC =（x1，x2，…，xi，…，x20，x20+1，…，x20+λ）（1）

在PAAC中，前20個(gè)分量x1，..，x20表示20個(gè)基本氨基酸的出現(xiàn)頻率，而分量x20+1，…，x20+λ部分表示了氨基酸序列中殘基的位置信息。殘基間的位置信息能通過(guò)如圖1所示的殘基間的相關(guān)關(guān)系來(lái)描述。圖1中的（a）描述殘基間的第一層關(guān)系，即分量x20+1，（b）和（c）分別描述了殘基間的第二層和第三層關(guān)系，即分量x20+2和x20+3，層數(shù)λ可由用戶指定，但λ應(yīng)該小于蛋白序列的長(zhǎng)度n。

圖1中氨基酸序列的殘基之間的相關(guān)關(guān)系可以用下面的公式計(jì)算：

…

在這里x20+1表示氨基酸序列間的第一層關(guān)系，x20+2表示氨基酸序列的第二層關(guān)系，x20+λ表示氨基酸序列的第λ層關(guān)系，λ是一個(gè)輸入?yún)?shù)；n表示氨基酸序列的長(zhǎng)度，λ（ri，rj），表示兩個(gè)基本氨基酸殘基之間的關(guān)系。通常，λ（ri，rj）是用兩基本氨基酸的理化性質(zhì)、空間結(jié)構(gòu)改變或者序列間的轉(zhuǎn)化等數(shù)量關(guān)系來(lái)描述。

5）組合的特征向量生成方法

在應(yīng)用這些特征提取方法將蛋白的氨基酸序列轉(zhuǎn)化成特征向量的過(guò)程中，可同時(shí)使用幾種特征向量提取方法，將由不同特征提取方法生成的特征向量進(jìn)行組合，生成組合的特征向量，實(shí)踐證明這種組合特征向量能更好地表示序列S的內(nèi)部信息，這種組合特征向量能較好的提升機(jī)器學(xué)習(xí)算法的預(yù)測(cè)性能。在應(yīng)用這些方法的過(guò)程中，經(jīng)常遇到因?yàn)樘卣飨蛄烤S度過(guò)高引發(fā)的維度災(zāi)難問(wèn)題，一般采用主成分分析、F-Score和二項(xiàng)分布[5]等多種方式對(duì)特征向量進(jìn)行降維。

3 總結(jié)

蛋白序列的特征提取技術(shù)直接決定機(jī)器學(xué)習(xí)分類模型的預(yù)測(cè)性能和預(yù)測(cè)結(jié)果的準(zhǔn)確性。高效的特征提取技術(shù)能將連續(xù)的氨基酸序列快速轉(zhuǎn)化為離散的特征向量，且更好展現(xiàn)了序列的內(nèi)部隱藏信息。在生物序列數(shù)據(jù)快速增長(zhǎng)的新形勢(shì)下，研究高效特征提取技術(shù)已經(jīng)變得非常必要，本文對(duì)目前的氨基酸序列的特征提取技術(shù)進(jìn)行了綜述，希望能對(duì)高效特征提取方法的研究起到拋磚引玉的作用。

參考文獻(xiàn)：

[1] Nakashima H，Nishikawa K.Discrimination of intracellular and extracellular proteins using amino acid composition andresidue—pair frequencies.J Mol Biol，1994，238（1）：54-61.

[2] 楊會(huì)芳，程詠梅，張紹武，等. 基于一種新的特征提取方法分段偽氨基酸組成成分預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位生物物理學(xué)報(bào)，2008，24（33）：232-238.

[3] K. C. Chou， Prediction of protein cellular attributes using pseudo-amino acid composition， Proteins： Structure， Function， and Bioinformatics， 2001（43）：246-255.

[4] K.-C. Chou， Some remarks on protein attribute prediction and pseudo amino acid composition， Journal of Theoretical Biology， 2011（273）：236-247.

[5] Lin H， Deng E， Ding H. iPro54-PseKNC： a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition. Nucleic Acids Research， 2014， 42（21）， 12961-12972. doi：10.1093/nar/gku1019.