亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多層次稀疏編碼預測蛋白質亞細胞定位

        2019-04-23 03:10:26陳行健胡雪嬌薛衛(wèi)
        生物工程學報 2019年4期
        關鍵詞:特征提取區(qū)間準確率

        陳行健,胡雪嬌,薛衛(wèi)

        ?

        基于多層次稀疏編碼預測蛋白質亞細胞定位

        陳行健,胡雪嬌,薛衛(wèi)

        南京農業(yè)大學 信息科學技術學院,江蘇 南京 210095

        陳行健, 胡雪嬌, 薛衛(wèi). 基于多層次稀疏編碼預測蛋白質亞細胞定位. 生物工程學報, 2019, 35(4): 687–696.Chen XJ, Hu XJ, Xue W. Prediction of protein subcellular localization based on multilayer sparse coding. Chin J Biotech, 2019, 35(4): 687–696.

        文中提出了一種簡單有效的蛋白質亞細胞區(qū)間定位預測方法,為進一步了解蛋白質的功能和性質提供理論基礎。運用稀疏編碼,結合氨基酸組成信息提取蛋白質序列特征,基于不同字典大小對得到的特征進行多層次池化整合,并送入支持向量機進行分類。經(jīng)Jackknife檢驗,在數(shù)據(jù)集ZD98、CH317和Gram1253上的預測成功率分別達到95.9%、93.4%和94.7%。實驗證明基于多層次稀疏編碼的分類預測算法能顯著提高蛋白質亞細胞區(qū)間定位的預測精度。

        稀疏編碼,氨基酸組成,多層次池化,支持向量機,亞細胞區(qū)間定位

        蛋白質作為生物體的基本組成物質,在生命活動中發(fā)揮著重要作用。蛋白質的功能與其亞細胞區(qū)間密切相關,不同蛋白質只有處于特定亞細胞區(qū)間才能發(fā)揮其功能,因而通過已有方法預測確定某種蛋白質所處的亞細胞區(qū)間,對明確蛋白質的功能和性質、認識蛋白質間的相互作用具有重要意義[1]。隨著蛋白序列數(shù)據(jù)的不斷增加,使用傳統(tǒng)人工實驗手段獲取蛋白質亞細胞區(qū)間位置已遠不能滿足科研需要,這促使了機器學習在蛋白質亞細胞定位預測中的發(fā)展。

        通過對目前研究現(xiàn)狀的分析,可將近年來使用機器學習方法對蛋白質亞細胞區(qū)間進行預測的研究方向大致分為兩類,分別為序列特征提取和分類模型構建[2]。目前用于蛋白質序列的特征提取算法主要有氨基酸組成 (Aminoacidcomposition,AAC)、偽氨基酸組成 (Pseudo amino acid composition,PseAAC)、基因本體 (Gene ontology, GO)、位置特異性得分矩陣 (Position specific scoring matrix,PSSM) 和基于不同特征的融合等。如Zhou等基于Mahalanobis距離提取蛋白質序列的組分信息,使用斜變判別函數(shù)對蛋白質亞細胞區(qū)間進行預測,在Jackknife檢驗下ZD98數(shù)據(jù)集上的準確率約為72.5%[3];Wan等提出了GOASVM算法,基于GO注釋信息與蛋白非相鄰區(qū)域的同源性來表示蛋白質序列,取得了較好的效果[4];Chen等采用混合增量的方式對蛋白質序列的N端、C端以及疏水性3種特征進行融合,在ZD98和CH317數(shù)據(jù)集上的成功率分別為90.8%和82.7%[5];Zhao等提出蛋白質序列的詞袋特征,將詞袋模型與基于偽氨基酸組成的特征提取算法相結合,獲得了較高的準確率[6]。同時,在分類預測模型方面,國內外研究者也開展了大量工作,如Wan等通過GO數(shù)據(jù)庫的注釋信息,提出自適應決策支持向量機,實現(xiàn)了對多功能膜蛋白序列的區(qū)間預測[7];Ali等提取蛋白質序列的偽氨基酸特征,采用區(qū)間投票、最鄰近算法和概率神經(jīng)網(wǎng)絡等多種分類器進行對比預測,取得了較好的結果[8];除此之外還有基于邏輯回歸、貝葉斯集成和長短期記憶網(wǎng)絡等多種分類模型的預測方法[9-11]。

        總結前人研究成果可發(fā)現(xiàn),能否準確描述蛋白質序列特征直接影響了最終分類器的預測效果。由于蛋白質序列中包含的信息量較大,且分屬同一亞細胞區(qū)間的序列長度不等,序列特征分布不均,導致單一使用傳統(tǒng)蛋白質序列特征提取算法的分類結果不佳。而對于一些較為復雜的特征融合及其改進算法,雖然取得了較高的準確率,但特征提取過程復雜,且最終得到的特征向量維數(shù)較大,造成分類器的時間和空間復雜度過高。因此,本研究結合氨基酸組分信息,提出一種基于多層次稀疏編碼的蛋白質序列特征提取算法,該算法能夠基于簡單的AAC方法對蛋白質序列進行稀疏表示,進而提取序列底層特征;根據(jù)不同字典大小對特征進行多層次池化整合,能有效增加序列特征的區(qū)分性;將得到的特征向量經(jīng)主成分分析 (Principalcomponentanalysis, PCA) 降維,能在選取有效特征的同時降低算法的計算量。最后將得到的特征向量送入分類器進行分類。實驗結果表明,本方法不僅能簡化特征提取過程,降低分類器的時間及空間復雜度,也能更加全面地反映序列特征,提高分類性能。

        1 材料與方法

        1.1 數(shù)據(jù)集

        為了對本文算法進行客觀評價,方便與同類算法進行對比,采用近年來相關領域中使用最多且國際公認有效的ZD98和CH317作為實驗基準數(shù)據(jù)集[12-19],其中ZD98由Zhou和Doctor[3]構建,共有98條蛋白質序列,分為4個亞細胞定位類別,分別是細胞質蛋白 (Cytoplasmic proteins,Cy) 43條、線粒體蛋白 (Mitochondrial proteins, Mi) 13條、細胞膜蛋白 (Membrane proteins, Me) 30條和其他類蛋白 (Other) 12條。CH317是由Chen和Li[5]構建,分為6個亞細胞定位類別,共有317條蛋白質序列,分別是分泌蛋白 (Secreted proteins,Se) 17條、細胞核蛋白 (Nuclear proteins,Nu) 52條、細胞質蛋白 (Cytoplasmic proteins,Cy) 112條、內質網(wǎng)蛋白 (Endoplasmic reticulum proteins,En) 47條、膜蛋白 (Membrane proteins,Me) 55條和線粒體蛋白 (Mitochondrial proteins,Mi) 34條。

        考慮到上述數(shù)據(jù)集構建時間較長,參考Wang等的方法對ZD98和CL317數(shù)據(jù)集進行了更新[12],刪除了部分重復及錯誤序列,其具體方法不再復述。經(jīng)處理后ZD98數(shù)據(jù)集剩余96條蛋白質序列,CH317數(shù)據(jù)集剩余314條蛋白質序列。此外,為了對算法進行進一步評估,除了上述兩個數(shù)據(jù)集外,本研究還采用了Xue等按照同樣標準構建的Gram1253數(shù)據(jù)集進行測試[20]。Gram1253數(shù)據(jù)集共包含1 253條蛋白質序列,分為Me、Cy、Nu、Se及細胞周質 (Periplasm,Pe) 等5個亞細胞定位類別。以上3種數(shù)據(jù)集中的所有蛋白質序列均來自最新版本的UniProt數(shù)據(jù)庫 (Release 2018_08),其具體區(qū)間分布如表1所示。

        1.2 序列特征編碼

        將稀疏編碼引入蛋白質亞細胞區(qū)間定位預測中,目的是在每條蛋白序列與相應的數(shù)值向量間建立一種能夠更為準確表達此條蛋白序列特征的映射關系。基于多層次稀疏編碼的特征提取算法主要包括局部特征提取、稀疏編碼和多層次池化等3個步驟。首先對蛋白質序列進行分割處理得到若干個序列單詞,使用傳統(tǒng)蛋白質特征提取算法對序列單詞進行特征編碼得到特征單詞,然后選取部分特征單詞作為局部特征塊學習字典,用字典對原始序列特征進行稀疏表示。采用平均池化的方法對稀疏矩陣降維,將基于不同字典大小得到的特征向量進行組合,即為蛋白質序列的最終特征表示。其提取流程如圖1所示。

        表1 三種數(shù)據(jù)集中不同區(qū)間的蛋白質序列條數(shù)

        1.2.1 局部特征提取

        圖1 稀疏編碼特征提取流程

        在進行稀疏編碼過程之前,首先需要提取蛋白質序列的局部特征作為特征塊,組成訓練樣本構造字典。由于每條蛋白質序列長度不等,其主要特征可能分布在序列的不同位置,因此參考Zhao等的方法[6]采用滑動窗口分割法對原始蛋白質序列進行切分得到序列單詞。滑動窗口分割法即按照一定長度對每條蛋白質序列進行切片,通過設定窗口大小和滑動間距得到若干個序列單詞,經(jīng)特征提取后得到特征單詞集合形成構建字典的基礎。這種方法能完整地保留蛋白質序列的全部信息。本研究取滑動間隔為1,滑動窗口大小決定序列單詞長度,需滿足以下條件:

        切分后每條蛋白質序列被表示為若干個長度相等的序列單詞,運用已有的蛋白質序列特征提取算法統(tǒng)計序列單詞的組分信息,即可得到相應的特征單詞。Nakashima和Nishikawa[21]最早將氨基酸組成和蛋白質亞細胞區(qū)間定位預測聯(lián)系起來,提出AAC編碼方式,統(tǒng)計每個氨基酸殘基在蛋白質序列中出現(xiàn)的頻率,其定義如下:

        通過AAC算法計算蛋白質序列P的序列單詞特征,將每條蛋白質序列的所有特征單詞進行組合,則每條序列都被表示為一個片段特征矩陣,如公式 (4) 所示:

        1.2.2 稀疏編碼

        得到由蛋白質序列的局部特征組成的訓練樣本之后,下一步即是對這些訓練樣本進行稀疏編碼。稀疏編碼是一種無監(jiān)督的機器學習算法,通過在高維數(shù)據(jù)中尋找一組超完備的基向量來對樣本進行稀疏表示,主要分為字典學習和稀疏重構兩個過程。其公式表示如下:

        本研究采用K-SVD算法訓練字典。K-SVD算法是由Aharon等提出的一種基于K-means算法擴展而來的字典學習算法[22],其實質是迭代交替學習字典原子并優(yōu)化其相應的稀疏系數(shù)。該算法要經(jīng)過次迭代,每次迭代時都需要對誤差項進行奇異值分解,采用逐列更新的方式對字典進行優(yōu)化,每次只更新其中的一個原子和其對應的稀疏系數(shù),選擇使重構誤差最小的分解項作為新的元素值,經(jīng)過不斷迭代得到最優(yōu)化的解。K-SVD算法主要分為以下幾個步驟:(1) 隨機初始化字典,設置迭代終止條件;(2) 固定字典,求解稀疏矩陣;(3) 固定稀疏矩陣,求解字典;(4) 交替執(zhí)行步驟 (2) 和 (3),直至迭代結束。

        得到字典后,通常使用正交匹配追蹤 (Orthogonalmatchingpursuit,OMP) 算法,求得原始樣本的稀疏矩陣。OMP算法的核心思想是在每次迭代過程中使用最小二乘法對原始樣本進行稀疏逼近,選擇字典中最匹配的基元對其進行稀疏重構,求出殘差并繼續(xù)選擇下一個最匹配的基元。這種更新方式能保證在下一次迭代過程中不會重復選擇相同基元,在一定程度上加快了算法的收斂速度,克服了傳統(tǒng)匹配追蹤 (Matchingpursuit,MP) 算法容易陷入局部最優(yōu)解的問題。

        1.2.3 多層次池化

        經(jīng)稀疏編碼后所得到的稀疏矩陣維度較高,如果直接展開進行串接表示數(shù)據(jù)量過大,訓練分類器時的內存和時間消耗代價過高。所以需要對特征矩陣進行降維,通常使用池化方法。池化是指把特征向量集映射為單個向量的過程,對不同位置的特征進行聚合統(tǒng)計,能提取有效特征,減少計算量。常用的池化算法有最大池化 (Max-pooling)[23]和平均池化 (Mean-pooling)[24]。Max-pooling即對鄰域內的特征點取最大值,能更多地保留矩陣的邊緣信息。而Mean-pooling則是對鄰域內特征點求平均值,能更多地保留矩陣的背景信息??紤]到序列數(shù)據(jù)的特殊性,本研究選擇Mean-pooling作為最終的池化方法。公式表示如下:

        1.3 支持向量機

        為了方便與其他算法進行對比,選擇支持向量機 (Support vector machine, SVM) 建立分類模型。SVM是Vapnik領導的AT&T Bell實驗室在1995年提出的一種基于統(tǒng)計學習理論的分類方法,通過核函數(shù)將輸入樣本從原空間非線性映射到高維特征空間,利用線性方法解決非線性問題,在高維特征空間中構造最優(yōu)分類超平面,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出強大的泛化能力[25]。蛋白質序列經(jīng)特征編碼后,使用LIBSVM通用軟件包,基于一對一算法 (One-versus-one) 構造SVM多類分類器,在訓練階段為任意兩類樣本設計一個SVM,則個類別的數(shù)據(jù)集就需要設計(–1)/2個SVM。當對一個未知樣本進行分類時,最后取得票最多的類別為該未知樣本的類別。運用SVM進行蛋白質亞細胞區(qū)間定位預測的流程圖如圖2所示。

        將數(shù)據(jù)集中的樣本分為訓練樣本和預測樣本,先送入訓練樣本的特征向量,設定輸出為相應的亞細胞定位y,訓練SVM,確定模型參數(shù),再送入預測樣本的特征向量,SVM分類器會給出一個預測結果,用x表示,若x=y,則預測正確,若xy,則預測錯誤,最后統(tǒng)計整個數(shù)據(jù)集的預測準確率作為蛋白質亞細胞區(qū)間定位的評價指標。

        圖2 基于SVM的亞細胞定位預測流程

        2 結果與分析

        2.1 測試方法

        為了驗證方法的有效性,采用Jackknife進行假設檢驗。Jackknife是蛋白質亞細胞定位預測研究中公認且使用最多的一種測試方法[12-20],每次僅用一條序列作為測試集進行驗證,其余全部序列作為訓練集送入分類器進行訓練,以此類推直至所有序列均預測完畢,是一種客觀有效的假設檢驗方法[26]。為了便于比較實驗結果,同時對預測方法進行有效評估,引入敏感性 (Sensitivity, Se)、特異性 (Specificity, Sp) 和相關系數(shù) (Matthews correlation coefficient, MCC) 等3個評價指標,并統(tǒng)計總的預測準確率 (Overall accuracy, OA),定義如下[27]:

        其中,TP是第類亞細胞區(qū)間預測正確的序列條數(shù),FN是第類亞細胞區(qū)間預測錯誤的序列條數(shù),FP是非第類亞細胞區(qū)間但被預測為第類區(qū)間的序列條數(shù),TN是被正確預測的非第類亞細胞區(qū)間的序列條數(shù),為亞細胞類別總數(shù)。

        2.2 參數(shù)選擇

        在使用PCA對最終的特征向量進行選擇時,維數(shù)的設置對于整個算法的準確度存在一定影響。選取的維數(shù)越多,包含的特征就越多,但可能造成分類器的訓練時間過長;維數(shù)越小,則越有可能丟失一些真正有意義的特征,影響分類效果。因此需要通過實驗尋求一個最優(yōu)的值。 圖3顯示了數(shù)據(jù)集ZD98、CH317和Gram1253在PCA進行特征選擇過程中分別取不同的值所對應的預測準確率。在特征向量的維數(shù)較低時,3個數(shù)據(jù)集的預測準確率也相對較低,在維數(shù)高于某一確定值時,預測準確率也隨之降低。在維數(shù)取60到70之間時,在ZD98、CH317和Gram1253數(shù)據(jù)集上的預測準確率均達到最大且趨于穩(wěn)定,當前的值即為最優(yōu)值。本研究使用的3種數(shù)據(jù)集的最優(yōu)值分別為60、65和65。

        2.3 結果分析

        將本方法在ZD98、CH317和Gram1253數(shù)據(jù)集上采用Jackknife進行實驗的預測結果列于表1中,為了進一步說明本文方法的有效性,表中分別列出了3個數(shù)據(jù)集在各個亞細胞區(qū)間進行預測得到的不同實驗結果。

        由表1可知,本方法在3個數(shù)據(jù)集上均獲得了較好的實驗結果,總的準確率分別達到了95.9%、93.4%和94.7%,實驗證明本方法能有效增加蛋白質亞細胞區(qū)間定位預測的準確率。同時為了方便進行對比,將部分同領域內基于蛋白質序列特征提取的改進算法得到的實驗結果也一并列出。

        圖3 基于不同維度的預測準確率

        表1 數(shù)據(jù)集實驗結果

        從表2可以看出,在ZD98數(shù)據(jù)集上本文算法相比DCC、OF和DE等復雜的特征融合算法在總體預測精度上最大提升了約7個百分點,在Cyto這一亞細胞類上的預測準確率達到了100%,預測全部正確,且整體預測準確率方面也均優(yōu)于其他方法。將本方法與BOW、GA和OA等改進算法的實驗結果進行對比,在相同數(shù)據(jù)集上的準確率也都提高了約2到5個百分點,實驗表明本文算法較基于傳統(tǒng)蛋白質序列特征提取的改進算法仍具有顯著優(yōu)勢。通過表3的比較可以看出,在CH317數(shù)據(jù)集上,本文算法在Mito這一亞細胞類上的預測準確率最高達到了97.1%,相比其他算法最大提升了約14.7個百分點,在Nucl這一亞細胞類上的準確率最高也提升了12.3個百分點,這一實驗結果也充分說明了本文算法對少數(shù)類別序列進行特征提取的有效性,使得序列底層特征更加具有區(qū)分性。對比BOW、IAC和CF等改進算法,在總預測準確率上均提升了2–4個百分點,進一步表明通過多層次池化分別提取序列的整體和局部信息,能有效提高蛋白質亞細胞定位預測精度。對于較大數(shù)據(jù)集Gram1453而言,本文引用了文獻[20]中基于不同蛋白質序列特征提取算法的實驗結果進行對比,如AAC、Dipe和PseAAC等,同時也基于PSSM特征進行了相關的對比實驗,如PSSM_SVM等,表4結果表明,本方法在各個區(qū)間類別的預測率上均有一定提高,且相較于傳統(tǒng)算法,如PSSM_SVM和BLAST_KNN等,本文方法不需要依靠復雜工具實現(xiàn),在算法的可移植性上也具有明顯優(yōu)勢。

        表2 ZD98數(shù)據(jù)集預測結果比較

        表3 CH317數(shù)據(jù)集預測結果比較

        與傳統(tǒng)蛋白質序列特征提取及其改進方法相比,本文算法時間及空間復雜度低,在較簡單的 AAC特征下也能取得較好的效果,且通過平均池化提取特征序列特征矩陣的背景信息,將不同層次特征進行整合后經(jīng)PCA降維,得到一種低維向量的形式反映序列特征的分布規(guī)律,能顯著提高大數(shù)據(jù)處理的效率。

        表4 Gram1253數(shù)據(jù)集預測結果比較

        3 討論

        蛋白質亞細胞定位預測一直是國內外生物信息學專家研究的熱點方向。本研究在傳統(tǒng)蛋白質序列特征提取算法AAC的基礎上,提出了一種基于多層次稀疏編碼的蛋白質序列特征提取算法對序列特征進行優(yōu)化整合。相比其他算法,本方法提取過程簡單,不需要經(jīng)過復雜的特征融合步驟也能得到較高的預測準確率,且最后使用PCA對特征向量進行降維,在提高準確率的同時也降低了分類器的時間及空間復雜度。算法的主要流程包括:首先使用滑動窗口分割法對蛋白質序列進行切分提取序列單詞,結合傳統(tǒng)蛋白質特征提取算法對序列單詞進行特征編碼;采用K-SVD算法對序列單詞特征進行字典學習,再通過OMP算法對序列特征矩陣進行稀疏表示;基于不同字典大小對特征矩陣進行多層次平均池化,分別幫助提取稀疏矩陣的整體信息和局部信息;使用SVM多類分類器對蛋白的亞細胞區(qū)間位置進行分類預測。實驗表明,本文算法能在絕大部分亞細胞區(qū)間的預測成功率上獲得較好的效果,對提升傳統(tǒng)蛋白質序列特征提取算法的特征表達能力方面具有重要指導意義,是一種較為有效的蛋白質亞細胞區(qū)間預測方法。算法的源代碼和所用數(shù)據(jù)集均可從https://github.com/Multisc/Multi_sc_subloc/ tree/master獲取。

        [1] Xu YY, Yang F, Shen HB. Incorporating organelle correlations into semi-supervised learning for protein subcellular localization prediction. Bioinformatics, 2016, 32(14): 2184–2192.

        [2] Wei L, Ding Y, Su R, et al. Prediction of human protein subcellular localization using deep learning. Journal of Parallel & Distributed Computing, 2018, 117: 212–217.

        [3] Zhou GP, Doctor K. Subcellular location prediction of apoptosis proteins. Proteins, 2003, 50(1): 44–48.

        [4] Wan SB, Mak MW, Kung SY. GOASVM: a subcellular location predictor by incorporating term-frequency gene ontology into the general form of Chou’s pseudo-amino acid composition. J Theor Biol, 2013, 323: 40–48.

        [5] Chen YL, Li QZ. Prediction of the subcellular location of apoptosis proteins. J Theor Biol, 2007, 245(4): 775–783.

        [6] Zhao N, Zhang L, Xue W, et al. Application of bag of words model in the prediction of protein subcellular location. J Food Sci Biotechnol, 2017, 36(3): 296–301 (in Chinese). 趙南, 張梁, 薛衛(wèi), 等. 詞袋模型在蛋白質亞細胞定位預測中的應用. 食品與生物技術學報, 2017, 36(3): 296–301.

        [7] Wan SB, Mak MW, Kung SY. Mem-ADSVM: a two-layer multi-label predictor for identifying multi-functional types of membrane proteins. J Theor Biol, 2016, 398: 32–42.

        [8] Ali F, Hayat M. Classification of membrane protein types using Voting feature interval in combination with Chou’s pseudo amino acid composition. J Theor Biol, 2015, 384: 78–83.

        [9] Wan SB, Mak MW, Kung SY. mPLR-Loc: an adaptive decision multi-label classifier based on penalized logistic regression for protein subcellular localization prediction. Anal Biochem, 2015, 473: 14–27.

        [10] Sáez-Atienzar S, Martínez-Gómez J, Alonso-Barba JI, et al. Automatic quantification of the subcellular localization of chimeric GFP protein supported by a two-level Naive Bayes classifier. Expert Syst Appl, 2015, 42(3): 1531–1537.

        [11] S?nderby SK, S?nderby CK, Nielsen H, et al. Convolutional LSTM networks for subcellular localization of proteins//2nd International Conference on Algorithms for Computational Biology. Mexico City, Mexico: Springer, 2015: 68–80.

        [12] Wang X, Li H, Zhang QW, et al. Predicting subcellular localization of apoptosis proteins combining go features of homologous proteins and distance weighted KNN classifier. BioMed Res Int, 2016, 2016: 1793272.

        [13] Zhang SL, Duan X. Prediction of protein subcellular localization with oversampling approach and Chou’s general PseAAC. J Theor Biol, 2018, 437: 239–250.

        [14] Xiang QL, Bo L, Li XH, et al. Subcellular localization prediction of apoptosis proteins based on evolutionary information and support vector machine. Artif Intell Med, 2017, 78: 41–46.

        [15] Dai Q, Ma S, Hai YB, et al. A segmentation based model for subcellular location prediction of apoptosis protein. Chemom Intell Lab Syst, 2016, 158: 146–154.

        [16] Zhang SL, Jin J. Prediction of protein subcellular localization by using λ-order factor and principal component analysis. Lett Org Chem, 2017, 14(9): 717–724.

        [17] Liang YY, Zhang SL. Prediction of apoptosis protein’s subcellular localization by fusing two different descriptors based on evolutionary information. Acta Biotheor, 2018, 66(1): 61–78.

        [18] Zhang SL, Liang YY. Predicting apoptosis protein subcellular localization by integrating auto-cross correlation and PSSM into Chou’s PseAAC. J Theor Biol, 2018, 457: 163–169.

        [19] Liang YY, Liu SY, Zhang SL. Geary autocorrelation and DCCA coefficient: application to predict apoptosis protein subcellular localization via PSSM. Phys A, 2017, 467: 296–306.

        [20] Xue W, Wang XF, Zhao N, et al. Prediction of protein subcellular locations by ensemble of improved K-nearest neighbor. Chin J Biotech, 2017, 33(4): 683–691 (in Chinese). 薛衛(wèi), 王雄飛, 趙南, 等. 集成改進 KNN 算法預測蛋白質亞細胞定位. 生物工程學報, 2017, 33(4): 683–691.

        [21] Nakashima H, Nishikawa K. Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies. J Mol Biol, 1994, 238(1): 54–61.

        [22] Aharon M, Elad M, Bruckstein A.: an algorithm for designing overcomplete dictionaries for sparse representation. IEEE Trans Signal Process, 2006, 54(11): 4311–4322.

        [23] Liu YH, Cheng JY, Ma YM, et al. Protein secondary structure prediction based on two dimensional deep convolutional neural networks//2017 3rd IEEE International Conference on Computer and Communications. Chengdu, China: IEEE, 2017: 1995–1999.

        [24] Chen YH. Long sequence feature extraction based on deep learning neural network for protein secondary structure prediction//2017 IEEE 3rd Information Technology and Mechatronics Engineering Conference. Chongqing, China: IEEE, 2017: 843–847.

        [25] Silva MFM, Leijoto LF, Nobre CN. Algorithms analysis in adjusting the SVM parameters: an approach in the prediction of protein function. Appl Artif Intell, 2017, 31(4): 316–331.

        [26] Ding H, Liang ZY, Guo FB, et al. Predicting bacteriophage proteins located in host cell with feature selection technique. Comput Biol Med, 2016, 71: 156–161.

        [27] Xu YY, Yao LX, Shen HB. Bioimage-based protein subcellular location prediction: a comprehensive review. Front Comput Sci, 2018, 12(1): 26–39.

        [28] Liang YY, Liu SY, Zhang SL. Detrended cross-correlation coefficient: application to predict apoptosis protein subcellular localization. Math Biosci, 2016, 282: 61–67.

        [29] Chen HW, Chen X, Hu QM, et al. Predicting protein subcellular location based on a novel sequence numerical model. J Comput Theor Nanosci, 2015, 12(1): 82–87.

        Predictionof protein subcellular localization based on multilayer sparse coding

        Xingjian Chen, Xuejiao Hu, and Wei Xue

        School of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, Jiangsu, China

        In order to provide a theoretical basis for better understanding the function and properties of proteins, we proposed a simple and effective feature extraction method for protein sequences to determine the subcellular localization of proteins. First, we introduced sparse coding combined with the information of amino acid composition to extract the feature values of protein sequences. Then the multilayer pooling integration was performed according to different sizes of dictionaries. Finally, the extracted feature values were sent into the support vector machine to test the effectiveness of our model. The success rates in data set ZD98, CH317 and Gram1253 were 95.9%, 93.4% and 94.7%, respectively as verified by the Jackknife test. Experiments showed that our method based on multilayer sparse coding can remarkably improve the accuracy of the prediction of protein subcellular localization.

        sparse coding, amino acid composition, multilayer pooling, support vector machine, subcellular localization prediction

        10.13345/j.cjb.180403

        September 30, 2018;

        October 29, 2018

        National Key Technology R&D Program of China (No. 2017YFD0800204), the Fundamental Research Funds for the Central Universities (No. KYZ201600175).

        Wei Xue. Tel: +86-25-84396350; E-mail: xwsky@njau.edu.cn

        國家重點研發(fā)計劃 (No. 2017YFD0800204),中央高?;究蒲袠I(yè)務費專項資金 (No. KYZ201600175) 資助。

        2018-12-08

        http://kns.cnki.net/kcms/detail/11.1998.Q.20181207.0950.002.html

        (本文責編 陳宏宇)

        猜你喜歡
        特征提取區(qū)間準確率
        解兩類含參數(shù)的復合不等式有解與恒成立問題
        你學會“區(qū)間測速”了嗎
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        高速公路車牌識別標識站準確率驗證法
        Bagging RCSP腦電特征提取算法
        區(qū)間對象族的可鎮(zhèn)定性分析
        基于MED和循環(huán)域解調的多故障特征提取
        免费精品人妻一区二区三区| 国产精品成人午夜久久| 99久久精品国产亚洲av天| 亚洲国产国语对白在线观看| 日本在线免费精品视频| 国产熟女自拍av网站| 免费国产黄网站在线观看视频| 无套内射蜜桃小视频| 香蕉国产人午夜视频在线观看| 国产av自拍在线观看| 亚洲av无码成人精品国产| 国产精品丝袜久久久久久不卡| 人妻AV无码一区二区三区奥田咲| 蜜臀一区二区av天堂| 狂猛欧美激情性xxxx大豆行情| 亚洲人成电影在线观看天堂色| 亚洲女同精品一区二区久久| 日本免费三片在线播放| 亚洲中文字幕日产无码| 中文字幕av无码一区二区三区 | 久久精品欧美日韩精品| 91日韩高清在线观看播放| 天堂a版一区二区av| 国产午夜在线视频观看| 久久亚洲国产成人精品性色 | 特级毛片爽www免费版| 无码一级视频在线| 久久偷拍国内亚洲青青草| 亚洲va中文字幕无码一二三区| 狠狠色丁香久久婷婷综合蜜芽五月| 成人国产在线观看高清不卡| 国产精品一区二区三区av在线| 极品白嫩的小少妇| 在线免费毛片| 国产噜噜亚洲av一二三区| 欧美性猛交aaaa片黑人| 亚洲国产综合精品 在线 一区| 热re99久久精品国产66热6| 亚洲国产精品成人av在线不卡 | 91九色中文视频在线观看| 大肉大捧一进一出好爽视频|