亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        蛋白質亞細胞定位預測研究進展

        2014-09-02 09:56:10鄭珊珊石卓興代琦姚玉華
        科技視界 2014年12期

        鄭珊珊+石卓興+代琦+姚玉華

        【摘 要】蛋白質的功能與其亞細胞位置有著密切的聯(lián)系,對于確定一個未知特性蛋白質的功能,亞細胞定位研究能夠提供重要的參考信息。采用傳統(tǒng)實驗的方法研究亞細胞定位需要耗費大量的人力、財力、物力,已經不能滿足數據庫中蛋白質序列爆炸性增長的現(xiàn)實需要。從已積累的知識和數據出發(fā),利用智能算法、機器學習等工具開發(fā)蛋白質亞細胞定位預測的方法成為了當前的重要研究內容。本文對國內外亞細胞定位預測的研究現(xiàn)狀進行了綜述。

        【關鍵詞】亞細胞定位;特征信息提?。活A測算法

        亞細胞定位是指某種蛋白或某種基因表達產物在細胞內的具體存在部位,即根據所給出的蛋白質序列來預測其所在的亞細胞位置。蛋白質是基因功能的執(zhí)行者,機體中的每一個細胞和所有重要組成部分都有它的參與,正是由于它是與生命及與各種形式的生命活動緊密聯(lián)系在一起的物質,越來越多的生物學、生物信息學研究者開始對蛋白質的功能預測及分析進行了研究。然而,蛋白質只有經分選信號引導后運輸到特定的細胞器中,才能參與細胞的各種生命活動,執(zhí)行它的功能,如果其運送位置發(fā)生偏差,將會影響細胞功能甚至整個生物體。因此,蛋白質在細胞中的正確定位是細胞系統(tǒng)高度有序運轉的前提保障。研究細胞中蛋白質定位的機制和規(guī)律,預測蛋白質的亞細胞定位,對于了解蛋白質結構、性質和功能,了解蛋白質之間的相互作用,研究疾病機理和發(fā)展新藥物以及探索生命的規(guī)律和奧秘具有重要意義。

        隨著核酸和蛋白質序列等生物數據的高速膨脹,單純以傳統(tǒng)實驗方法來確定蛋白質亞細胞定位具有成本高、實驗時間長,預測精度不理想,會耗費大量的人力和物力等缺點,已經無法滿足生命科學研究的需要。因此,需要尋找一種快速、有效、準確的計算方法來預測蛋白質亞細胞定位。近年來,生物信息學在這方面開展了廣泛的研究并且取得一系列很有意義的成果,數據庫的構建和亞細胞定位分析及預測加速了蛋白質結構和功能的研究。一方面,生物信息學研究可以對大規(guī)模的實驗數據進行分析和提取生物學信息,同時可以根據現(xiàn)有數據對一些目前還未知的蛋白質做出預測;另一方面,不斷增長的亞細胞定位數據也可以用來驗證并改進預測結果。目前,利用生物信息學方法進行蛋白質亞細胞定位預測已經成為了一個研究熱點。

        從20世紀90年代初至今,蛋白質亞細胞定位預測一直是生物信息學研究的熱點問題之一。通過分析國內外研究者的研究方法,不難發(fā)現(xiàn)這些方法的主要不同在于兩個方面: 第一,蛋白質特征信息的提取,主要是指將蛋白質相關特征信息提取出之后轉化成高維的特征向量,作為預測的輸入。蛋白質序列特征信息主要包括氨基酸順序相關性、氨基酸在蛋白質中出現(xiàn)的頻率、氨基酸物理化學性質等。第二,預測算法的設計,根據提取的特征向量集,利用有效的算法預測蛋白質的亞細胞定位。算法影響亞細胞預測精度的重要因素,現(xiàn)有預測算法中,統(tǒng)計學和機器學習方法使用的最為廣泛。

        利用計算方法來預測蛋白質亞細胞定位屬于統(tǒng)計模式識別中的模式多分類問題。問題的研究一般包括以下四個步驟:(1)具有客觀代表性的蛋白質數據集的構建; (2)蛋白質序列的特征提取,即蛋白質序列編碼,從蛋白質中提取特征參數,實現(xiàn)字母序列到數值特征的轉換;(3)預測算法的選取,即如何根據提取的特征參數,設計有效的分類或識別模型類;(4)對預測結果進行評估,即預測模型的測試與檢驗以及結果性能的評估。

        1 數據集的構建

        研究蛋白質亞細胞定位的數據集基本來自SWISS-PROT數據庫。該數據庫建于1986年,是目前世界上存儲蛋白質序列最主要的一級數據庫之一。利用這個數據庫研究蛋白質的亞細胞定位時,需要對其中的數據進行篩選。通常的篩選標準有:(1)針對研究對象,挑選特定物種的相關蛋白質序列;(2)在構建數據集時,需要知道每個蛋白質序列所在的亞細胞位置,所以只有包含明確的亞細胞定位信息的序列才被選入數據集中;(3)序列長度不能太短;(4)數據冗余度,要求同源性低;(5)排除樣本量太少的亞細胞類別。

        除了利用SWISS-PROT數據庫外,還有LOCATE、TargetP家族數據集等。近年來,隨著研究的不斷深入,蛋白質序列數據集越來越復雜,目前最復雜的數據集是酵母蛋白質序列數據集,包含22種亞細胞蛋白質。

        2 蛋白質特征信息的提取

        蛋白質序列特征提取的目的是,從蛋白質序列中提取特征信息,并用適當的數學方法來描述或表示這些信息,使之能正確反映序列與結構或功能之間的關系,這于蛋白質亞細胞定位是至關重要的,也是研究蛋白質功能結構的關鍵。根據提取特征信息的不同,可以歸納為3類。

        2.1 基于氨基酸的組成和性質

        氨基酸組成是一種最基本的序列特征,也是亞細胞定位預測中使用得最為普遍的一種蛋白質特征信息。蛋白質一般有20 種氨基酸組成,氨基酸組成將每種氨基酸在蛋白質序列中出現(xiàn)的頻率抽取出來作為一個20維的向量。1994年,Nakashima和 Nishikawa最早通過利用氨基酸組成進行了蛋白質亞細胞定位預測,對細胞內和細胞外蛋白質定位分別取得了88%和 84%的預測準確率。

        2.2 基于蛋白質序列的N端分選信號的方法

        一般認為蛋白質在合成的過程中,其N端包含一些特殊的分選信號,這些信號能夠指導新合成的蛋白質分選到特定的亞細胞中,包括信號肽、線粒體轉移肽、葉綠體運輸肽、核定位信號、類囊體腔轉移肽和過氧化物酶體定位信號等。這種信息的有效性取決于蛋白質序列完整性,一旦蛋白質序列的N端信號不完整或者丟失,預測結果就可能失效。

        2.3 基于功能域和基因注釋的方法

        蛋白質序列在長期的進化過程中,某些特定位點上的氨基酸殘基具有高度的保守性,這些位點稱為功能域。2002年功能域組分的概念首次被用于蛋白質亞細胞定位,這種方法顯著提高了亞細胞定位的質量。2006年,引入GO注釋來預測人類蛋白質的亞細胞位置。但是,基于功能與和基因注釋的方法對于數據庫功能注釋信息的完善程度依賴性較大,如果數據庫中沒有足夠的功能域或基因注釋條目,那么將無法確定蛋白質的亞細胞定位。

        由于不同的特征從不同的角度刻畫蛋白質序列,目前沒有一種特征能夠很好地刻畫蛋白質的亞細胞定位特征,單獨利用某種特征難以在預測效果上取得大的突破。將多種特征提取方法組合起來已經成為亞細胞定位預測中最為普遍的一種方法。

        3 蛋白質亞細胞定位預測算法

        蛋白質亞細胞定位預測中另一個重要因素是識別算法,成功的分類算法應該是能夠高效、正確的將不同亞細胞位置的蛋白質分開。在蛋白質亞細胞定位預測方面,主要的算法包括5類:基于簡單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經網絡的方法;基于馬爾可夫模型的方法;基于向量機的方法。常用預測方法有神經網絡、支持向量機 、最鄰近算法三種。

        (1)神經網絡。神經網絡是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。這種網絡依靠系統(tǒng)的復雜程度,通過調整內部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。神經網絡具有良好的魯棒性和容錯性,因此,不僅在蛋白質亞細胞定位領域受到青睞,在模式識別的其他領域也得到了廣泛的應用。

        (2)支持向量機。支持向量機是一種基于統(tǒng)計學習理論分類技術,它在蛋白質特征向量映射到的高維空間中,找到一個使(下轉第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機具有較好的推廣能力,許多學者選擇它作為蛋白質亞細胞定位預測的首選分類器。

        (3)基于距離的近鄰方法?;诰嚯x的近鄰方法原理是根據某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權模糊K近鄰方法等?;诰嚯x的近鄰方法,不需要人為的選擇參數,適合求解大規(guī)模問題,運算速度較快。

        隨著研究的不斷深入,將多種算法進行融合,來預測蛋白質亞細胞定位已經逐漸成為研究的趨勢。2010年,趙禹等用離散增量結合支持向量機方法預測蛋白質亞細胞定位。多種算法的融合,在提高蛋白質亞細胞定位預測的精度和加快算法運行速度方面取得了良好的效果。

        4 預測算法的檢驗和評估

        選用適當的預測算法之后,需要對算法進行評估,即檢驗出算法的準確率,它是評價一個分類算法性能好壞的重要指標,也是與其它分類預測算法比較的依據。預測算法的檢驗方法主要有自身一致性檢驗、獨立性檢驗、留一法檢驗三種[29]。

        留一交叉驗證(1eave-one-outcross-validation,LOOCV)每次取出數據集中的一條蛋 白質序列作為測試樣本,而剩余的蛋白質序列作為訓練集對測試樣本的亞細胞進行定位預測。直到所有樣本序列都被測試一遍為止。LOOCV的缺點是計算成本高,費時,但是其結果更加嚴格可靠,已經在很多方法中得到了應用。

        評估預測算法常用的算法評價指標有 :敏感性、特異性和 Matthew相關系數。敏感性指標是指每類樣本中被正確識別的比例,反映了預測成功率;特異性指標是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預測的可信度。

        Sensitivity(i)=■×100%

        Spencificity(i)=■×100%

        Matthews相關系數MCC可以對算法的準確率進行評估。

        MCC(i)=■

        其中,tp(i)是第i類樣本中被預測正確的數目,fn(i)是第i類樣本被錯誤的判別為其他類別的數目,fp(i)是非第i類樣本但被預測為第i類樣本的數目,tn(i)是非第i類樣本中被預測正確的樣本數目。MCC指標取值0至1,取值越高說明分類器的性能越好,當MCC取1時,所有樣本均被正確識別;當MCC取0時,分類器的判別效果與隨機指派的結果一樣,這樣的分類器是最差的。

        【參考文獻】

        [1]徐建華,朱家勇.生物信息學在蛋白質結構與功能預測中的應用[J].J Med Mol Biol, 2005,2(3):227-232.

        [2]張樹波,賴劍煌.蛋白質亞細胞定位預測的機器學習方法[J].計算機科學,2009,36( 4):29-33.

        [3]張麗.蛋白質亞細胞定位的序列編碼及預測方法研究[D].湖南:湖南大學計算與通信學院,2010.

        [4]郭麗麗,陳月輝.基于機器學習的蛋白質亞細胞定位預測[J].信息技術與信息化,2011,5:73-75.

        [5]吳文佳.蛋白質亞細胞定位預測方法研究[D].南京:南京航空航天大學,2008.

        [6]趙禹,趙巨東,姚龍.用離散增量結合支持向量機方法預測蛋白質亞細胞定位[J].生物信息學,2010,8(3):241-244.

        [7]吳澤月,陳月輝.蛋白質亞細胞定位預測研究[J].山東師范大學學報,2012,4(27):33-37.

        [責任編輯:謝慶云]

        由于不同的特征從不同的角度刻畫蛋白質序列,目前沒有一種特征能夠很好地刻畫蛋白質的亞細胞定位特征,單獨利用某種特征難以在預測效果上取得大的突破。將多種特征提取方法組合起來已經成為亞細胞定位預測中最為普遍的一種方法。

        3 蛋白質亞細胞定位預測算法

        蛋白質亞細胞定位預測中另一個重要因素是識別算法,成功的分類算法應該是能夠高效、正確的將不同亞細胞位置的蛋白質分開。在蛋白質亞細胞定位預測方面,主要的算法包括5類:基于簡單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經網絡的方法;基于馬爾可夫模型的方法;基于向量機的方法。常用預測方法有神經網絡、支持向量機 、最鄰近算法三種。

        (1)神經網絡。神經網絡是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。這種網絡依靠系統(tǒng)的復雜程度,通過調整內部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。神經網絡具有良好的魯棒性和容錯性,因此,不僅在蛋白質亞細胞定位領域受到青睞,在模式識別的其他領域也得到了廣泛的應用。

        (2)支持向量機。支持向量機是一種基于統(tǒng)計學習理論分類技術,它在蛋白質特征向量映射到的高維空間中,找到一個使(下轉第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機具有較好的推廣能力,許多學者選擇它作為蛋白質亞細胞定位預測的首選分類器。

        (3)基于距離的近鄰方法?;诰嚯x的近鄰方法原理是根據某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權模糊K近鄰方法等?;诰嚯x的近鄰方法,不需要人為的選擇參數,適合求解大規(guī)模問題,運算速度較快。

        隨著研究的不斷深入,將多種算法進行融合,來預測蛋白質亞細胞定位已經逐漸成為研究的趨勢。2010年,趙禹等用離散增量結合支持向量機方法預測蛋白質亞細胞定位。多種算法的融合,在提高蛋白質亞細胞定位預測的精度和加快算法運行速度方面取得了良好的效果。

        4 預測算法的檢驗和評估

        選用適當的預測算法之后,需要對算法進行評估,即檢驗出算法的準確率,它是評價一個分類算法性能好壞的重要指標,也是與其它分類預測算法比較的依據。預測算法的檢驗方法主要有自身一致性檢驗、獨立性檢驗、留一法檢驗三種[29]。

        留一交叉驗證(1eave-one-outcross-validation,LOOCV)每次取出數據集中的一條蛋 白質序列作為測試樣本,而剩余的蛋白質序列作為訓練集對測試樣本的亞細胞進行定位預測。直到所有樣本序列都被測試一遍為止。LOOCV的缺點是計算成本高,費時,但是其結果更加嚴格可靠,已經在很多方法中得到了應用。

        評估預測算法常用的算法評價指標有 :敏感性、特異性和 Matthew相關系數。敏感性指標是指每類樣本中被正確識別的比例,反映了預測成功率;特異性指標是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預測的可信度。

        Sensitivity(i)=■×100%

        Spencificity(i)=■×100%

        Matthews相關系數MCC可以對算法的準確率進行評估。

        MCC(i)=■

        其中,tp(i)是第i類樣本中被預測正確的數目,fn(i)是第i類樣本被錯誤的判別為其他類別的數目,fp(i)是非第i類樣本但被預測為第i類樣本的數目,tn(i)是非第i類樣本中被預測正確的樣本數目。MCC指標取值0至1,取值越高說明分類器的性能越好,當MCC取1時,所有樣本均被正確識別;當MCC取0時,分類器的判別效果與隨機指派的結果一樣,這樣的分類器是最差的。

        【參考文獻】

        [1]徐建華,朱家勇.生物信息學在蛋白質結構與功能預測中的應用[J].J Med Mol Biol, 2005,2(3):227-232.

        [2]張樹波,賴劍煌.蛋白質亞細胞定位預測的機器學習方法[J].計算機科學,2009,36( 4):29-33.

        [3]張麗.蛋白質亞細胞定位的序列編碼及預測方法研究[D].湖南:湖南大學計算與通信學院,2010.

        [4]郭麗麗,陳月輝.基于機器學習的蛋白質亞細胞定位預測[J].信息技術與信息化,2011,5:73-75.

        [5]吳文佳.蛋白質亞細胞定位預測方法研究[D].南京:南京航空航天大學,2008.

        [6]趙禹,趙巨東,姚龍.用離散增量結合支持向量機方法預測蛋白質亞細胞定位[J].生物信息學,2010,8(3):241-244.

        [7]吳澤月,陳月輝.蛋白質亞細胞定位預測研究[J].山東師范大學學報,2012,4(27):33-37.

        [責任編輯:謝慶云]

        由于不同的特征從不同的角度刻畫蛋白質序列,目前沒有一種特征能夠很好地刻畫蛋白質的亞細胞定位特征,單獨利用某種特征難以在預測效果上取得大的突破。將多種特征提取方法組合起來已經成為亞細胞定位預測中最為普遍的一種方法。

        3 蛋白質亞細胞定位預測算法

        蛋白質亞細胞定位預測中另一個重要因素是識別算法,成功的分類算法應該是能夠高效、正確的將不同亞細胞位置的蛋白質分開。在蛋白質亞細胞定位預測方面,主要的算法包括5類:基于簡單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經網絡的方法;基于馬爾可夫模型的方法;基于向量機的方法。常用預測方法有神經網絡、支持向量機 、最鄰近算法三種。

        (1)神經網絡。神經網絡是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。這種網絡依靠系統(tǒng)的復雜程度,通過調整內部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。神經網絡具有良好的魯棒性和容錯性,因此,不僅在蛋白質亞細胞定位領域受到青睞,在模式識別的其他領域也得到了廣泛的應用。

        (2)支持向量機。支持向量機是一種基于統(tǒng)計學習理論分類技術,它在蛋白質特征向量映射到的高維空間中,找到一個使(下轉第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機具有較好的推廣能力,許多學者選擇它作為蛋白質亞細胞定位預測的首選分類器。

        (3)基于距離的近鄰方法?;诰嚯x的近鄰方法原理是根據某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權模糊K近鄰方法等?;诰嚯x的近鄰方法,不需要人為的選擇參數,適合求解大規(guī)模問題,運算速度較快。

        隨著研究的不斷深入,將多種算法進行融合,來預測蛋白質亞細胞定位已經逐漸成為研究的趨勢。2010年,趙禹等用離散增量結合支持向量機方法預測蛋白質亞細胞定位。多種算法的融合,在提高蛋白質亞細胞定位預測的精度和加快算法運行速度方面取得了良好的效果。

        4 預測算法的檢驗和評估

        選用適當的預測算法之后,需要對算法進行評估,即檢驗出算法的準確率,它是評價一個分類算法性能好壞的重要指標,也是與其它分類預測算法比較的依據。預測算法的檢驗方法主要有自身一致性檢驗、獨立性檢驗、留一法檢驗三種[29]。

        留一交叉驗證(1eave-one-outcross-validation,LOOCV)每次取出數據集中的一條蛋 白質序列作為測試樣本,而剩余的蛋白質序列作為訓練集對測試樣本的亞細胞進行定位預測。直到所有樣本序列都被測試一遍為止。LOOCV的缺點是計算成本高,費時,但是其結果更加嚴格可靠,已經在很多方法中得到了應用。

        評估預測算法常用的算法評價指標有 :敏感性、特異性和 Matthew相關系數。敏感性指標是指每類樣本中被正確識別的比例,反映了預測成功率;特異性指標是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預測的可信度。

        Sensitivity(i)=■×100%

        Spencificity(i)=■×100%

        Matthews相關系數MCC可以對算法的準確率進行評估。

        MCC(i)=■

        其中,tp(i)是第i類樣本中被預測正確的數目,fn(i)是第i類樣本被錯誤的判別為其他類別的數目,fp(i)是非第i類樣本但被預測為第i類樣本的數目,tn(i)是非第i類樣本中被預測正確的樣本數目。MCC指標取值0至1,取值越高說明分類器的性能越好,當MCC取1時,所有樣本均被正確識別;當MCC取0時,分類器的判別效果與隨機指派的結果一樣,這樣的分類器是最差的。

        【參考文獻】

        [1]徐建華,朱家勇.生物信息學在蛋白質結構與功能預測中的應用[J].J Med Mol Biol, 2005,2(3):227-232.

        [2]張樹波,賴劍煌.蛋白質亞細胞定位預測的機器學習方法[J].計算機科學,2009,36( 4):29-33.

        [3]張麗.蛋白質亞細胞定位的序列編碼及預測方法研究[D].湖南:湖南大學計算與通信學院,2010.

        [4]郭麗麗,陳月輝.基于機器學習的蛋白質亞細胞定位預測[J].信息技術與信息化,2011,5:73-75.

        [5]吳文佳.蛋白質亞細胞定位預測方法研究[D].南京:南京航空航天大學,2008.

        [6]趙禹,趙巨東,姚龍.用離散增量結合支持向量機方法預測蛋白質亞細胞定位[J].生物信息學,2010,8(3):241-244.

        [7]吳澤月,陳月輝.蛋白質亞細胞定位預測研究[J].山東師范大學學報,2012,4(27):33-37.

        [責任編輯:謝慶云]

        国产成人精品无码一区二区老年人| 色两性网欧美| 加勒比精品久久一区二区三区| 伊人精品无码AV一区二区三区| 精品黄色av一区二区三区| 中文字幕精品一区二区三区av| 日本免费看一区二区三区| 亚洲tv精品一区二区三区| 国产大屁股视频免费区| 麻豆精品国产精华精华液好用吗| 亚洲深深色噜噜狠狠爱网站| 99在线视频精品费观看视| 视频精品亚洲一区二区| 亚洲伊人伊成久久人综合| 亚洲精品第一页在线观看| 吃奶呻吟打开双腿做受视频| 国产人在线成免费视频| 日本一道dvd在线中文字幕| 中文字幕亚洲永久精品| 公厕偷拍一区二区三区四区五区| 国产99在线 | 亚洲| 大肉大捧一进一出视频出来呀| 亚洲欧洲久久久精品| 国产在线拍91揄自揄视精品91| 国产亚洲精品视频一区二区三区| 国产精品三级av及在线观看 | 久久精品亚洲熟女av麻豆| 久久久久88色偷偷| 又大又紧又粉嫩18p少妇| 品色堂永远的免费论坛| 亚洲成人av一区二区麻豆蜜桃| 久久精品一区二区三区夜夜| 日本av一级视频在线观看| 精品亚洲成av人在线观看| 亚洲国产精品va在线播放| 久久中文字幕久久久久| 亚洲天堂av路线一免费观看| 九九九免费观看视频| 亚洲精品无码av中文字幕 | 亚洲国产一区二区三区在观看| 日韩精品一区二区三区含羞含羞草 |