亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)PCA的蛋白質(zhì)O-糖基化位點(diǎn)的預(yù)測

        2018-01-25 07:14:16楊雪梅
        價(jià)值工程 2018年36期
        關(guān)鍵詞:蛋白質(zhì)預(yù)測

        摘要:提出了改進(jìn)的主成分分析(IPCA)的方法,結(jié)合支持向量機(jī)(SVM)對蛋白質(zhì)O-糖基化位點(diǎn)進(jìn)行預(yù)測。IPCA克服了傳統(tǒng)主成分分析(PCA)尋找全局主要成分的不足,對類內(nèi)樣本進(jìn)行加權(quán),在保護(hù)局部結(jié)構(gòu)的前提下,消除了變量之間的相關(guān)性,提取出具有局部特征的主要成分。然后,在特征空間中用SVM進(jìn)行分類(預(yù)測)。實(shí)驗(yàn)結(jié)果表明,IPCA+SVM方法是預(yù)測糖基化位點(diǎn)行之有效的方法。

        Abstract: To improve the prediction accuracy of O-glycosylation sites, a new method of improved principle component analysis (IPCA) was proposed. At first, next the feature of the original data were extracted by IPCA, IPCA protects the local structure of multimodal data by weighting the data in the same class; then the prediction(classification) was done in feature space by Support Vector Machines(SVM). The results indicate that the performance of IPCA+SVM is viable and effect.

        關(guān)鍵詞:預(yù)測;蛋白質(zhì);改進(jìn)主成分分析;SVM

        Key words:prediction;protein;improved principal component analysis(IPCA);Support Vector Machine(SVM)

        中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2018)36-0194-03

        0? 引言

        糖基化是指在酶的作用下將糖轉(zhuǎn)移至蛋白質(zhì),和蛋白質(zhì)上的氨基酸殘基形成糖苷鍵的過程。糖基化是對蛋白質(zhì)的重要修飾,有調(diào)節(jié)、改良蛋白質(zhì)功能的作用。蛋白質(zhì)的糖基化程度和糖鏈結(jié)構(gòu)的異常變化是癌癥及其他疾病發(fā)生的標(biāo)志之一[1]。因此,預(yù)測糖基化位點(diǎn)重要意義。

        糖基化有多種形式,其中的O-糖基化發(fā)生在絲氨酸殘基(S)或蘇氨酸殘基(T)的羥基氧上[1]。本文將對O-糖基化位點(diǎn)進(jìn)行預(yù)測,即預(yù)測一個含有S或T的氨基酸序列是否帶有糖鏈。

        目前,用來進(jìn)行預(yù)測的方法有人工神經(jīng)網(wǎng)絡(luò)(ANN)[2]、支持向量機(jī)(SVM)[3]以及一些特征提取的方法[4-6],都取得了較好的預(yù)測效果。

        在特征提取的方法中,F(xiàn)DA和PCA所提取的特征都是全局特征,當(dāng)數(shù)據(jù)是多模態(tài)時,效果就不能令人滿意。多模態(tài)是指在同一類中樣本數(shù)據(jù)又形成幾個“簇”,即“類內(nèi)多模態(tài)”。這種情況在實(shí)際應(yīng)用中經(jīng)??梢杂^測到,比如,引起某種疾病的原因有多種,因而癥狀就有多種,該疾病的樣本數(shù)據(jù)就是多模態(tài)的;用二分類的方法解決多分類問題時也會誘導(dǎo)出“類內(nèi)多模態(tài)”問題。在糖基化位點(diǎn)預(yù)測的問題中,可以將樣本分為“糖基化”和“非糖基化”兩類,而“糖基化”這一類又包括“糖基化S”和“糖基化T”,“非糖基化”這一類又包括“非糖基化S”和“非糖基化T”,顯然數(shù)據(jù)是多模態(tài)的。

        由于FDA和PCA關(guān)注全局特征的提取,而忽略了局部結(jié)構(gòu)的保護(hù),在訓(xùn)練過程中,可能會造成一定的過擬合從而誤判。Sugiyama[7]改進(jìn)了FDA,結(jié)合局部保護(hù)映射(LPP)和FDA的思想,提出了局部Fisher(LFDA)的方法,對于同類的樣本,根據(jù)樣本之間的“親密度”賦予它們不同的“權(quán)重”,有效地保護(hù)了局部結(jié)構(gòu),成功地解決了FDA分類時的多模態(tài)問題。受到LFDA的啟發(fā),在本文中,提出了改進(jìn)的主成分分析的方法(IPCA),在計(jì)算樣本的協(xié)方差矩陣時,對于同類樣本根據(jù)其“親密度”賦予相應(yīng)的“權(quán)重系數(shù)”,對改進(jìn)后的協(xié)方差矩陣進(jìn)行分析,提取其特征向量,從而得到具有局部結(jié)構(gòu)的特征,再在特征域用支持向量機(jī)(SVM)分類,得到了較好的分類效果。

        本文結(jié)構(gòu)如下:第一節(jié)介紹蛋白質(zhì)序列數(shù)據(jù)與編碼;第二節(jié)描述用來預(yù)測的IPCA+SVM算法;第四節(jié)是預(yù)測與結(jié)果;最后給出結(jié)論。

        1? 蛋白質(zhì)序列與編碼

        文中用到的蛋白質(zhì)數(shù)據(jù)來自糖基化數(shù)據(jù)庫Uniprot (v8.0)[8]。選擇了哺乳動物的蛋白質(zhì)樣本共8組,每組2000個,8組樣本的長度e分別為5,7,9,11,21,31,41,51。每個樣本以S和T為中心,并對該殘基是否糖基化做了標(biāo)注[1]。糖基化的樣本叫做positive,否則叫做negative。編碼方式為稀疏編碼。

        實(shí)驗(yàn)用的訓(xùn)練樣本和測試樣本同文獻(xiàn)[1]。

        2? 改進(jìn)的主成分分析(IPCA)預(yù)測算法

        設(shè)xi∈Rd,i=1,2,…n是d維訓(xùn)練樣本向量,yi∈{1,2}是其類標(biāo)。傳統(tǒng)PCA特征提取的方法是針對全局的,C是所有訓(xùn)練樣本的協(xié)方差矩陣,

        用IPCA提取的特征作為SVM的輸入,預(yù)測出樣本的類別。

        3? 結(jié)果與討論

        首先,計(jì)算了四類樣本的平均值,如圖1,用顏色代表數(shù)字,可以看到Positive T和Positive S盡管都屬于positive,但還是各有特征,因此數(shù)據(jù)是多模態(tài)的。

        取長度為21的樣本做實(shí)驗(yàn),此時向量維數(shù)為21*(e-1)=420。預(yù)測了10次,取10次的平均值。算法用matlabR2014a實(shí)現(xiàn)。用IPCA+SVM方法做實(shí)驗(yàn),并和PCA+SVM、IPCA+ANN和PCA+ANN方法比較,其中的參數(shù)如計(jì)算親密度的參數(shù)s,主成分的個數(shù)k等通過實(shí)驗(yàn)確定最佳值。結(jié)果見表1。

        預(yù)測最大值在k以及s的不同值達(dá)到。IPCA+SVM方法在主成分個數(shù)k為95時達(dá)到最高預(yù)測準(zhǔn)確率(親密度的參數(shù)s=7)。總體上看,本文提出的方法優(yōu)于其他方法,這是因?yàn)镮PCA用加權(quán)的方式提取特征避免了過擬合,保護(hù)了局部結(jié)構(gòu)。

        進(jìn)一步,我們用其他7組樣本也做了實(shí)驗(yàn),IPCA+SVM方法的結(jié)果見表2。

        4? 結(jié)論

        對于多模態(tài)的蛋白質(zhì)序列樣本數(shù)據(jù),提出了改進(jìn)的主成分分析法提取特征,引入親密度矩陣對同類樣本進(jìn)行加權(quán),提取的特征有效保護(hù)了局部結(jié)構(gòu),結(jié)合SVM進(jìn)行預(yù)測。實(shí)驗(yàn)表明,相比于已有的預(yù)測方法,該方法能夠取得較為理想的效果。

        用來進(jìn)行特征提取的加權(quán)主成分分析法,還可以考慮引入核函數(shù),提取更為豐富的非線性特征,有望提高預(yù)測的精度。

        參考文獻(xiàn):

        [1]楊雪梅,蘇禎.基于KPCA及SVM的蛋白質(zhì)O-糖基化位點(diǎn)的預(yù)測,科學(xué)技術(shù)與工程,2013,13(25):87-92.

        [2]Nishikawa I, Sakamoto H, Nouno I, et al. Prediction of the O-glycosylation sites in protein by layered neural networks and support vector machines. Lecture Notes in Artificial Intelligence. 2006; LNAI (4252): 953-960.

        [3]Kenta S, Nobuyoshi N, Yasubumi S.? Support vector machines prediction of N- and O-glycosylation sites using whole sequence information and subcellular localizition. IPSJ Transactions on Bioinformatics. 2009(2):25-35.

        [4]楊雪梅,趙花麗. 蛋白質(zhì)結(jié)構(gòu)的主成分分析及氧鏈糖基化位點(diǎn)的人工神經(jīng)網(wǎng)絡(luò)預(yù)測[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2009,39(19):108-114.

        [5]Zehao Chen. Kernel Independent Component Analysis-Based Prediction on the Protein O-Glycosylation Sites Using Support Vectors Machine and Ensemble Classifiers. ICIC 2015, Part III, LNAI 9227, 651-661.

        [6]楊雪梅,李世鵬. 基于核fisher判別分析的蛋白質(zhì)氧鏈糖基化位點(diǎn)的預(yù)測[J].計(jì)算機(jī)應(yīng)用,2010,30(11):2959-2961.

        [7]Masashi S.: “Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis”. Journal of Machine Learning Research. 8, 1027-1061, 2007.

        [8]http://www.ebi.uniprot[DB/OL].

        猜你喜歡
        蛋白質(zhì)預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        不必預(yù)測未來,只需把握現(xiàn)在
        蛋白質(zhì)計(jì)算問題歸納
        97se亚洲国产综合在线| 无码成年性午夜免费网站蜜蜂| 热热久久超碰精品中文字幕| 青青久在线视频免费视频| 欧美伦费免费全部午夜最新| 国产无人区码一码二码三mba| 激情丁香婷婷| 精品熟妇av一区二区三区四区| 高潮精品熟妇一区二区三区| 色综合久久久无码中文字幕| 97se亚洲精品一区| 中国一级毛片在线观看| 国产精品福利久久香蕉中文| av在线手机中文字幕| 精品粉嫩av一区二区三区| 亚洲精品久久| 亚洲V日韩V精品v无码专区小说 | 无码久久精品蜜桃| 丝袜美腿人妻第一版主| а√天堂资源官网在线资源 | 日本淫片一区二区三区| 国产av一区二区三区天堂综合网| 国产精品亚洲综合一区在线观看| 最新福利姬在线视频国产观看| 久久精品一区二区三区蜜桃| 曰韩亚洲av人人夜夜澡人人爽| 国产婷婷丁香久久综合| 国产99久久久国产精品免费| 国产av无码专区亚洲精品| 色妞www精品视频| 高跟丝袜一区二区三区| 亚洲国产精品婷婷久久| 亚洲欧洲精品无码av| 国产熟女亚洲精品麻豆| 最新日本女优中文字幕视频| 丰满人妻无套内射视频| av网站在线观看入口| 一本一道av无码中文字幕| 香港三级欧美国产精品| 亚洲精品98中文字幕| 成人无码α片在线观看不卡|