亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        凋亡蛋白亞細(xì)胞定位預(yù)測的新方法

        2015-11-05 02:21:30王愛華褚威威于曉慶渤海大學(xué)a大學(xué)基礎(chǔ)教研部數(shù)理學(xué)院遼寧錦州11013上海應(yīng)用技術(shù)學(xué)院應(yīng)用數(shù)學(xué)系上海01418
        關(guān)鍵詞:方法

        王愛華,楊 閆,劉 歡,褚威威,于曉慶,李 春(1.渤海大學(xué)a.大學(xué)基礎(chǔ)教研部;b.數(shù)理學(xué)院,遼寧錦州11013;.上海應(yīng)用技術(shù)學(xué)院應(yīng)用數(shù)學(xué)系,上海01418)

        凋亡蛋白亞細(xì)胞定位預(yù)測的新方法

        王愛華1a,楊閆1b,劉歡1b,褚威威1b,于曉慶2,李春1b
        (1.渤海大學(xué)a.大學(xué)基礎(chǔ)教研部;b.數(shù)理學(xué)院,遼寧錦州121013;2.上海應(yīng)用技術(shù)學(xué)院應(yīng)用數(shù)學(xué)系,上海201418)

        基于頻率位置信息與頻率本身相結(jié)合的思想,并結(jié)合氨基酸的分類模型、理化性質(zhì)和替換矩陣構(gòu)造了蛋白質(zhì)序列的特征向量;以最近鄰方法作為分類器,利用ZW225和CL317兩個經(jīng)典數(shù)據(jù)集對該方法進(jìn)行了檢驗,所得結(jié)果同其他亞細(xì)胞定位預(yù)測方法做了比較。結(jié)果表明該方法是有效的。

        凋亡蛋白;亞細(xì)胞定位;氨基酸;最近鄰方法

        凋亡蛋白在生物體的生長發(fā)育和動態(tài)平衡中有著重要的作用,但其作用能否有效地發(fā)揮則取決于是否處于合適的亞細(xì)胞位置。在實驗室確定蛋白質(zhì)亞細(xì)胞位置的方法早已遠(yuǎn)遠(yuǎn)不能滿足生物序列數(shù)據(jù)急劇增長的需要。因此,發(fā)展有效的計算方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測便成為生物信息學(xué)中的一個重要課題。

        近20年,已經(jīng)涌現(xiàn)了很多從蛋白質(zhì)序列出發(fā)預(yù)測其亞細(xì)胞位置的算法[1-7]。這些預(yù)測方法主要包括3個步驟:蛋白質(zhì)特征信息的選取—→分類算法的選擇—→預(yù)測結(jié)果的評價。其中特征信息的選取不同對于亞細(xì)胞定位預(yù)測的精度有較大的影響。

        基于氨基酸的兩種分類模型、理化性質(zhì)、氨基酸替換矩陣和自協(xié)方差變換,借鑒筆者在DNA序列分析中提出的頻率與其位置(序)信息相結(jié)合的思想[8],本文提出了蛋白質(zhì)序列的一種新的特征向量表示,并利用最近鄰分類器,進(jìn)行凋亡蛋白亞細(xì)胞定位研究。利用夾克刀檢驗對ZW225數(shù)據(jù)集進(jìn)行訓(xùn)練,總預(yù)測準(zhǔn)確度達(dá)到87.1%。為了進(jìn)一步評估該方法的性能,以CL317作為獨立數(shù)據(jù)集,利用上述訓(xùn)練得到的參數(shù)進(jìn)行檢驗,總預(yù)測準(zhǔn)確度為90.2%。

        1 數(shù)據(jù)來源

        采用Zhang等[4]以及Chen等[9]構(gòu)建的數(shù)據(jù)集ZW225和CL317來驗證所提方法的有效性。這兩個數(shù)據(jù)集分別包括4類和6類亞細(xì)胞位點,凋亡蛋白序列總數(shù)分別為225條和317條,序列相似性分布情況見表1。

        表1 兩個數(shù)據(jù)集中序列相似性的分布

        2 蛋白質(zhì)序列的特征向量

        2.1派生序列

        正如Cheon和Chang[10]指出的,20種氨基酸可以被分組或者僅用一部分氨基酸就可以提取有效的蛋白質(zhì)特征。通過氨基酸的特性將它們分組并且每組用一個字母代替,這樣簡化了組成蛋白質(zhì)序列的字母種類,這是一種粗?;乃枷耄@種思想可以使人們想要的特征更為突出。最簡單的模型就是HP模型,它將氨基酸分成了兩組:疏水性組(H)和極性組(P)。如果將蛋白質(zhì)原始序列中屬于H的元素記為1,屬于P的元素記為0,那么就能將該蛋白質(zhì)原始序列轉(zhuǎn)化一條(0,1)-序列。此外,文獻(xiàn)[10]還給出了氨基酸的另一種二元分類模型:(CDFGNSW)(APVTILQKEMHRY)。與上述利用HP模型一樣,據(jù)此可將蛋白質(zhì)序列轉(zhuǎn)化為另一條(0,1)-序列。

        氨基酸的物理和化學(xué)性質(zhì)對蛋白質(zhì)非常重要。表2列出了氨基酸的3種重要性質(zhì):側(cè)鏈體積(VSC)、極性(pl)、溶劑可及表面積(SASA)。

        對于一條長為n的蛋白質(zhì)序列:S=a1,a2,…,an,根據(jù)側(cè)鏈體積,將序列S通過映射φ轉(zhuǎn)變?yōu)橐?/p>

        類似的,根據(jù)另外2種性質(zhì),能得到另兩條(0,1)-序列。

        為了方便,將上述5條(0,1)-序列統(tǒng)稱為“派生(0,1)-序列”。

        2.2基于頻率及其位置的特征

        借鑒文獻(xiàn)[8]中提出的思想構(gòu)造向量。設(shè)Ω={ω1,ω2,…,ωk}是一個字母集,S∈Ωm是Ω上的一條長為m的序列,則ωi在序列S中的頻率f(ωi)=c(ωi)/m,其中c(ωi)為ωi在序列S中出現(xiàn)的次數(shù)??梢詷?gòu)造向量F:

        其分量滿足如下的全序關(guān)系:

        因此,對于每一個f(ωi),在Fs中都有唯一的一個“位置”與之對應(yīng),記為g(ωi)。將這個頻率位置的信息與頻率自身相結(jié)合,可以得到一個k維特征向量UF:

        對于(0,1)-序列而言,k=2。因而,由5條派生(0,1)-序列可以得到5×2=10個量。而對于蛋白質(zhì)原始序列而言,k=20,由其可得到20個量,從而有

        2.3基于氨基酸替換矩陣的特征

        氨基酸的替換矩陣能很好地反映蛋白質(zhì)序列中的一些有用信息,下面通過它來提取蛋白質(zhì)序列的特征。

        給定一個20×20氨基酸替換矩陣A,其中元素ai,j表示對應(yīng)氨基酸i進(jìn)化突變成氨基酸j的概率(i,j=1,2,…,20)。矩陣A每列看成一個元素,則A被簡記為一個20維向量,

        其中:MAAj=(a1,AAj,a2,AAj,…,a20,AAj)T;AAj表示第j列對應(yīng)的氨基酸。對于一條給定的蛋白質(zhì)序列S=s1s2...sL,用Msi代替si,則可得到一個維數(shù)為20×L的矩陣D,記為

        自協(xié)方差變換(AC)方法是一種分析序列特征表示的有效統(tǒng)計工具,在許多領(lǐng)域中都有廣泛應(yīng)用[6-7]。用此方法將上述矩陣D轉(zhuǎn)變成一個固定長度的向量。AC的計算公式如下:

        其中:L表示蛋白質(zhì)序列的長度;i表示第i個氨基酸;Di,j表示矩陣中第j個位置氨基酸的得分;lg表示氨基酸間的間隔;ˉDi表示整條序列中第i個氨基酸的平均得分,

        這樣就能得到20×LG維向量AC:

        其中LG表示距離lg的最大值(lg=1,2,…,LG)。

        綜上所述,一條蛋白質(zhì)序列可由如下向量來刻畫:

        3 最近鄰分類器

        最近鄰法是原理上最為直觀的一種分類方法。對于一個c類問題,假設(shè)已知樣本集IN={ x1,x2,…,x}N,如果待測樣本x與IN中的xi的距離最小,即

        那么就認(rèn)為樣本x屬于樣本xi所在的類別ci,其中ci∈{1,2,…,c}。本文采用的距離公式如下:

        其中:cos(x,y)為向量x和y之間的夾角余弦;d(x,y)為x和y之間的歐式距離。

        4 應(yīng)用

        首先將ZW225數(shù)據(jù)集做為訓(xùn)練集,替換矩陣由文獻(xiàn)[11]公式計算得到,利用夾克刀檢驗最終確定出LG=3,h1=1.0,h2=2.3,結(jié)果見表3。表3中圓括號內(nèi)的數(shù)字代表相應(yīng)類別的蛋白質(zhì)序列數(shù)目,例如Cyto(70)表示該數(shù)據(jù)集中cytoplasmic類蛋白質(zhì)序列共有70條。為了方便比較,表3中還列出其他方法的預(yù)測精度,相應(yīng)結(jié)果都是基于夾克刀檢驗的。本文方法對于Cyto、Memb、Nucl類蛋白的預(yù)測精度較高,分別是90.0%,89.9%,82.9%,總精確度達(dá)到87.1%。這比EN_FKNN[2]略低,與YU_SVM[6]精度一樣,比其余3個都高。與EN_FKNN[2]相比較而言,其在Cyto和Memb類蛋白上預(yù)測精度比本文方法高,而本文方法在Mito和Nucl類蛋白上預(yù)測能力比EN_FKNN強(qiáng)。

        為了進(jìn)一步評估本文方法的性能,以CL317作為獨立數(shù)據(jù)集,利用上述訓(xùn)練得到的參數(shù)進(jìn)行檢驗,結(jié)果見表4,其中第一行為本文方法的結(jié)果。本文方法預(yù)測的總精確度達(dá)到90.2%,特別是,Cyto、Memb、Mito、Nucl、Endo類蛋白的精確度較高,分別為93.8%,89.1%,82.4%,90.4%,95.7%。在總精確度上,比FKNN[13],PseAAC_SVM[14],EN_ FKNN[2]略低,但是這些方法都是“自測”,而本研究采用的是獨立數(shù)據(jù)集。此外,與FKNN[12]持平,EN_FKNN與其余4個方法相比,本文方法優(yōu)勢明顯。

        表3 不同方法對數(shù)據(jù)集ZW225的預(yù)測結(jié)果比較

        表4 不同的方法測試對數(shù)據(jù)集CL317的預(yù)測結(jié)果比較

        [1]Chen Y L,Li Q Z.Prediction of the subcellular location apoptosis proteins using the algorithm of measure of diversity[J].Acta Sci Natur Univ NeiMongol,2004,25:413-417.

        [2]Gu Q,Ding Y S,Jiang X Y,et al.Prediction of subcellu-lar location apoptosis proteins with ensemble classifier and feature selection[J].Amino Acids,2010,38:975-983.

        [3]Chou K C.Prediction of protein cellular attributes using pseudo amino acid composition[J].PROTEINS:Structure,F(xiàn)unction and Genetics,2001,43:246-255.

        [4]Zhang Z H,Wang ZH,Zhang ZR,et al.A novelmethod for apoptosis protein subcellular localization prediction combining encoding based on grouped weightand support vectormachine[J].FEBSLett,2006,580:6169-6174.

        [5]Zhang L,Liao B,Li D,et al.A novel representation for apoptosis protein subcellular localization prediction using support vector machine[J].J Theor Biol,2009,259:361-365.

        [6]Yu X Q,Zheng X Q,Liu TG,etal.Prediction of apoptosis protein subcellular location based on amino acid substitution matrix and auto covariance transformation[J]. Amino Acids,2012,42:1619-1625.

        [7]于曉慶.基于支持向量機(jī)的生物數(shù)據(jù)分析方法研究[D].上海:上海師范大學(xué),2012.

        [8]Li C,Yang Y,Jia M D,et al.Phylogenetic analysis of DNA sequences based on k-word and rough set theory[J].Physica A,2014,398:162-171.

        [9]Chen Y L,LiQ Z.Prediction of apoptosis protein subcellular location using improved hybrid approach and pseudo amino acid composition[J].J Theor Biol,2007,248:377-381.

        [10]Cheon M,Chang I.Clustering of protein design alphabet by using hierarchical self-organizing map[J].Journal of Korean Physical Society,2004(6):1577-1580.

        [11]Mirny L A,Shakhnovich E I.How to derive a protein folding potential?A new approach to an old problem[J]. JMol Biol,1996,264:1164-1179.

        [12]Jiang X,Wei R,Zhang T,et al.Using the comcept of Chou's pseudo aminoacid composition to predictapoptosis proteins subcellular location:an approach by approximate entropy[J].Prot Pept Lett,2008(15):392-396.

        [13]Ding Y S,Zhang T L.Using Chou's pseudo amino acid composition to predictsubcellular localization of apoptosis proteins:An approach with immune genetic algorithmbased ensemble classifier[J].Pattern Recogn Lett,2008,29:1887-1892.

        [14]Lin H,Wang H,Ding H,et al.Prediction of subcellular localization of apoptosis protein using Chou's pseudo amino acid composition[J].Acta Biotheor,2009,57:321-330.

        (責(zé)任編輯何杰玲)

        New M ethod for Predicting Subcellular Location of Apoptosis Proteins

        WANG Ai-hua1a,YANG Yan1b,LIU Huan1b,CHUWei-wei1b,YU Xiao-qing2,LIChun1b
        (1.a.Teaching and Research Institute of Basic Courses;b.School of Mathematics and Physics,Bohai University,Jinzhou 121013,China;2.Department of Applied Mathematics,Shanghai Institute of Technology,Shanghai201418,China)

        Bymeans of the idea of combining the position information with the frequency itself and taking into account the classifications of the amino acids,physical chemical properties and the amino acid substitutionmatrix,the feature vectorwas constructed for a protein sequence.The nearestneighbor classifier was used as the prediction engine.We selected two widely used datasets(ZW225 and CL317)to provide a comprehensive and unbiased comparison with previous studies of protein subcellular location.The result shows that ourmethod is effective.

        apoptosis proteins;subcellular location;amino acid;the nearest neighbor classifier

        O29;Q71

        A

        1674-8425(2015)05-0061-05

        10.3969/j.issn.1674-8425(z).2015.05.011

        2015-03-26

        國家自然科學(xué)基金項目(11171042)

        王愛華(1970—),遼寧錦州人,碩士,主要從事應(yīng)用數(shù)學(xué)研究。

        王愛華,楊閆,劉歡,等.凋亡蛋白亞細(xì)胞定位預(yù)測的新方法[J].重慶理工大學(xué)學(xué)報:自然科學(xué)版,2015(5):61-65.

        format:WANG Ai-hua,YANG Yan,LIU Huan,etal.New Method for Predicting Subcellular Location of Apoptosis Proteins[J].Journal of Chongqing University of Technology:Natural Science,2015(5):61-65.

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        日韩女同一区在线观看| 亚洲精品国产精品国自产观看 | 欧美精品videosse精子| 欧美人与动人物牲交免费观看| 精品18在线观看免费视频| 国产精品日本一区二区三区在线| 国产av无码专区亚洲av男同| 亚洲第一无码xxxxxx| 亚洲中文字幕在线爆乳| 自拍av免费在线观看| 老熟女富婆激情刺激对白| 国精品无码一区二区三区在线| 亚洲an日韩专区在线| 国产91在线精品观看| 色天使久久综合网天天| 8ⅹ8x擦拨擦拨成人免费视频| 一区二区三区婷婷在线| 免费观看日本一区二区三区| 亚洲av无码乱码在线观看富二代 | 久久精品国产热| 漂亮人妻被强中文字幕乱码| 亚洲最大成人网站| 亚洲av无码一区二区三区四区| 久久青青草原国产精品最新片| 久久九九精品国产不卡一区| 久久精品国产只有精品96| 乱码午夜-极国产极内射| 国产精品 人妻互换| 国产欧美精品一区二区三区–老狼| 国产内射视频在线观看| 色中文字幕在线观看视频| 无码人妻精品一区二区在线视频| 四虎精品国产一区二区三区| 国产精品亚洲一区二区三区久久| 国产麻豆剧果冻传媒一区| 久久9精品区-无套内射无码| 亚洲成人av一二三四区| 国产精品一区二区熟女不卡| 2021国产精品视频网站| 精品人妻伦九区久久aaa片69| 韩国主播av福利一区二区|