亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        線性B細(xì)胞表位預(yù)測的機(jī)器學(xué)習(xí)方法

        2013-12-31 00:00:00劉春宇等

        摘 要:生物學(xué)的新發(fā)現(xiàn)將極大地依賴于我們在多個維度和不同尺度下對多樣化的數(shù)據(jù)進(jìn)行組合和關(guān)聯(lián)的分析能力,而不再僅依賴對傳統(tǒng)領(lǐng)域的繼續(xù)關(guān)注。在生物信息的存儲、獲取、聯(lián)網(wǎng)、處理、瀏覽以及可視化等方面,都對理論、算法和軟件的發(fā)展提出了迫切的需要,計(jì)算機(jī)科學(xué)也從生命系統(tǒng)中獲得啟示,產(chǎn)生了許多新概念,包括:決策樹、隨機(jī)森林、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等等。這樣的學(xué)科交叉豐富了各個相關(guān)領(lǐng)域,這將在未來的幾十年中得到進(jìn)一步發(fā)展。

        關(guān)鍵詞:生物學(xué);信息;支持向量機(jī)

        中圖分類號:R392

        在免疫學(xué)[1]中認(rèn)為,表位才是抗原刺激機(jī)體免疫系統(tǒng)產(chǎn)生特異性免疫應(yīng)答的真正部位。B細(xì)胞表位預(yù)測是表位預(yù)測的一個重要組成部分,大多數(shù)的研究是針對線性B細(xì)胞表位預(yù)測,通過組合抗原蛋白物理化學(xué)性質(zhì)、結(jié)構(gòu)性質(zhì)、統(tǒng)計(jì)顯著性度量等特征屬性進(jìn)行表位預(yù)測,并取得一定的研究成果。

        1 抗原表位[6]的大小與相應(yīng)抗體的抗原結(jié)合部位相適合

        一般情況下,一個多肽表位含5~6個氨基酸殘基;一個多糖表位含5~7個單糖;一個核酸半抗原的表位含6~8個核苷酸。一個抗原表位的特異性由組成它的所有殘基共同決定,但其中有些殘基在與抗體結(jié)合時比其它殘基起更大作用,這些殘基被稱為免疫顯性基團(tuán)。免疫應(yīng)答過程中,T細(xì)胞的TCR和B細(xì)胞的BCR所識別的表位具有不同特點(diǎn),分別被稱為T細(xì)胞表位和B細(xì)胞表位。

        2 基于SVM的線性B細(xì)胞表位預(yù)測采用貝葉斯特征提取方法[2]

        B細(xì)胞表位的抗原-抗體之間的相互作用機(jī)制,在疾病的預(yù)防和診治中發(fā)揮了極大的推動作用。實(shí)驗(yàn)方法通常是費(fèi)力和耗時的,在硅片方法進(jìn)行預(yù)測這些免疫原性的區(qū)域是關(guān)鍵的。這樣的努力,已經(jīng)顯著以高阻礙可變性的抗原表位序列的長度和組成,使得初治建模方法難以適用。結(jié)果:分析了兩個標(biāo)準(zhǔn)數(shù)據(jù)集,發(fā)現(xiàn)線性B細(xì)胞表位具有鮮明的殘基保守性和特定位置的殘留物傾向性這可能被利用在硅片表位識別中。開發(fā)了一種支持向量機(jī)(SVM)預(yù)測模型,采用貝葉斯特征提取預(yù)測多種不同的長度的線性B細(xì)胞表位。最好的SVM分類器實(shí)現(xiàn)了準(zhǔn)確度為74.50%和AROC為0.84在一個獨(dú)立的測試集中,并證明優(yōu)于現(xiàn)有的線性B細(xì)胞表位預(yù)測算法。

        3 UniProt[3]

        全球蛋白質(zhì)資源(Universal Protein Resource,UniProt)這個數(shù)據(jù)庫是全球有關(guān)蛋白質(zhì)方面信息最全面的資源庫,是蛋白質(zhì)序列以及功能信息的集中資源,且其具有最小的冗余。UniProt是對PIR、TrEMBL以及SwissProt的信息進(jìn)行組合而構(gòu)成的。UniProt提供了完全分類的、有豐富且準(zhǔn)確注釋信息的基于知識的蛋白質(zhì)序列信息,且有廣泛的交叉引用以及多種查詢界向。出于方便序列查詢,UniProt同樣提供了多個非冗余序列數(shù)據(jù)庫。

        UniProt由三部分內(nèi)容組成,分別是UniProtKB、UniRef和UniParc,每個部分偏向于不同的用途。

        3.1 UniProtKB(the UniProt knowledgebase)是基于知識的UniProt,通常也簡稱為UniProt[7],它匯聚了蛋白質(zhì)的主要信息,包括蛋白質(zhì)功能、分類以及交叉引用。UniProtKB包含兩個部分:一部分是人工注釋的記錄,這部分注釋信息是來自于文獻(xiàn)信息和在專家監(jiān)督下進(jìn)行計(jì)算機(jī)分析而得到的(記為UniProt,SwissProt);另外一部分是直接利用計(jì)算機(jī)程序獲得的記錄信息。

        3.2 UniRef即UniProt非冗余參考數(shù)據(jù)庫,它把緊密相關(guān)的序列信息進(jìn)行組合并記錄到一個記錄條目中去,這樣一來便于加速序列搜索。前面提到的UniProtKB中的數(shù)據(jù)是嚴(yán)格根據(jù)某一物種的可靠而又穩(wěn)定的序列信息資料而得到的,而UniRef100則是將UniProtKB中不同物種的序列信息進(jìn)行交叉合并處理后的條目,它包含了UniProtKB中的所有記錄信息。UniRefl00還包含了UniParc的記錄,UniParc中的序列被認(rèn)為是過度表達(dá)的以及不包含在一些已知數(shù)據(jù)庫中的序列信息,比如說DDBJ/EMBI,/GenBank中的全基因組短槍法數(shù)據(jù)(WGS)編碼蛋白的翻譯產(chǎn)物,Ensembl中從不同生物體內(nèi)翻譯得到的蛋白質(zhì)以及國際蛋白質(zhì)索引(International Protein index,IPI)數(shù)據(jù)。

        3.3 UniParc即UniProt檔案庫(UniProt Archive),它廣泛存儲所有公開發(fā)表過的蛋白質(zhì)序列,只包含唯一的標(biāo)識符和序列。大多數(shù)蛋白質(zhì)序列數(shù)據(jù)是從DDBJ/EMBL/Geni3ank中的核酸序列翻譯過來的,而大量由蛋白質(zhì)測序?qū)嶒?yàn)直接得到的初級蛋白質(zhì)序列數(shù)據(jù)又直接上傳到其他資源庫中去。

        4 機(jī)器學(xué)習(xí)方法簡介

        4.1 決策樹。實(shí)際上是將空間用超平面進(jìn)行劃分的一種方法,每次分割的時候,都將當(dāng)前的空間一分為二,這樣使得每一個葉子節(jié)點(diǎn)都是在空間中的一個不相交的區(qū)域,在進(jìn)行決策的時候,會根據(jù)輸入樣本每一維特征值,一步一步往下,最后使得樣本落入N個區(qū)域中的一個(假設(shè)有N個葉子節(jié)點(diǎn))。

        4.2 隨機(jī)森林。用隨機(jī)的方式建立一個森林,森林里面有很多的決策樹組成,隨機(jī)森林的每一棵決策樹之間是沒有關(guān)聯(lián)的。在得到森林之后,當(dāng)有一個新的輸入樣本進(jìn)入的時候,就讓森林中的每一棵決策樹分別進(jìn)行一下判斷,看看這個樣本應(yīng)該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預(yù)測這個樣本為哪一類。每一棵決策樹就是一個精通于某一個窄領(lǐng)域的專家,這樣在隨機(jī)森林中就有了很多個精通不同領(lǐng)域的專家,對一個新的問題(新的輸入數(shù)據(jù)),可以用不同的角度去看待它,最終由各個專家,投票得到結(jié)果。

        4.3 支持向量機(jī)。一種有堅(jiān)實(shí)數(shù)學(xué)理論基礎(chǔ)的小樣本學(xué)習(xí)方法,支持向量機(jī)被廣泛應(yīng)用在統(tǒng)計(jì)分類和回歸分析領(lǐng)域中,最終的決策函數(shù)只由少數(shù)的支持向量所確定,而不是樣本空間的維數(shù),避免了訓(xùn)練樣本數(shù)量對分類速度的影響。但是經(jīng)典的支持向量機(jī)給出的只是二類分類問題的解決方法,而在實(shí)際應(yīng)用中,這種情況非常好,大多數(shù)都是多分類問題。

        4.4 隱馬爾可夫。我們知道,馬爾可夫模型中每個狀態(tài)對應(yīng)一個可觀察的輸出符號,它們的關(guān)系是一一對應(yīng)的,但是很多實(shí)際問題往往是復(fù)雜的,每個狀態(tài)可觀察到多個觀察符號之一。因此,這時的馬爾可夫模型的可觀察的輸出符號序列是狀態(tài)的一個函數(shù),也就是說該模型是由兩個隨機(jī)序列組成,一條是隱藏起來的狀態(tài)序列,簡稱為隱狀態(tài)序列,另一條是由該隱狀態(tài)序列產(chǎn)生的可觀察的輸出符號序列。HMM在20世紀(jì)60年代末70年代初提出,是一種典型的統(tǒng)計(jì)方法,是一種用參數(shù)表示的、用于描述隨機(jī)過程統(tǒng)計(jì)特征的概率模型。1970年左右,Baum等人建立起HMM的理論基礎(chǔ)。Rabiner詳細(xì)地對HMM做出了介紹,才使得各國的學(xué)者漸漸了解并熟悉該模型,進(jìn)而成為了公認(rèn)的研究熱點(diǎn)。

        5 線性B細(xì)胞表位的應(yīng)用

        5.1 豬帶絳蟲六鉤蚴 TSO45-4B 抗原 FnⅢ結(jié)構(gòu)域相應(yīng)的線性 B 細(xì)胞表位肽免疫原性研究[4]。其目的是觀察載體蛋白偶聯(lián)的TSO45-4B抗原FnⅢ結(jié)構(gòu)域相應(yīng)的線性B細(xì)胞表位肽誘導(dǎo)的體液免疫反應(yīng)。方法:人工合成TSO45-4B抗原FnⅢ結(jié)構(gòu)域2條預(yù)測表位肽,偶聯(lián)鑰孔血藍(lán)蛋白免疫小鼠,采用 ELISA 法檢測小鼠血清中預(yù)測表位肽特異性抗體滴度。結(jié)果:免疫小鼠血清中檢測到1條預(yù)測表位肽特異性抗體,其效價達(dá)到1∶1280。結(jié)論:設(shè)計(jì)的1條TSO45-4B抗原FnⅢ結(jié)構(gòu)域線性B細(xì)胞表位肽可誘導(dǎo)小鼠產(chǎn)生體液免疫反應(yīng)。

        5.2 HBeAg 的 B 細(xì)胞線性表位預(yù)測及鑒定[5]。預(yù)測并鑒定乙型肝炎病毒e抗原(HBeAg)的B細(xì)胞線性表位,為乙型肝炎的診斷和治療提供新的依據(jù)。方法采用生物信息學(xué)分析技術(shù),利用NCBI數(shù)據(jù)庫和免疫表位數(shù)據(jù)庫提供的相應(yīng)軟件預(yù)測HBeAg的B細(xì)胞線性表位,采用人工合成法合成相應(yīng)表位肽并分別將與血藍(lán)蛋白(KLH)偶聯(lián),作為免疫原,免疫大白兔制備抗HBeAg抗原表位抗體,ELISA法鑒定抗體的特異性。結(jié)果發(fā)現(xiàn)了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4條新的HBeAg蛋白B細(xì)胞線性表位肽,其與KLH的偶聯(lián)物作為免疫原免疫大白兔,獲得特異性高效價抗體,抗體滴度大于1∶512000,ELISA 實(shí)驗(yàn)證實(shí)上述抗體均可與HBeAg發(fā)生特異性免疫反應(yīng)。結(jié)論采用生物信息學(xué)技術(shù)成功確認(rèn)了4個HBeAg蛋白B細(xì)胞線性表位肽,為深入研究HBeAg的功能和作用以及乙型肝炎的治療提供了新依據(jù)。

        6 結(jié)束語

        線性B細(xì)胞表位的預(yù)測是用于疫苗設(shè)計(jì)的重要,開發(fā)診斷試劑,以及解釋抗原-抗體相互作用在分子水平上。在近年來,隨著各種組學(xué)的發(fā)展和構(gòu)象的生物信息學(xué),相關(guān)的實(shí)驗(yàn)數(shù)據(jù)線性B細(xì)胞表位已經(jīng)被迅速地提出。建全相關(guān)數(shù)據(jù)庫促進(jìn)線性B細(xì)胞表位的預(yù)測發(fā)展,在這項(xiàng)研究中,我們總結(jié)了生物信息資源和機(jī)器學(xué)習(xí)方法的線性B細(xì)胞表位的預(yù)測?;跈C(jī)器學(xué)習(xí)方法的線性B細(xì)胞表位的預(yù)測極大地降低線性B細(xì)胞表位定位的時間成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及預(yù)測性能。

        參考文獻(xiàn):

        [1]馮新港.免疫信息學(xué)原理及其應(yīng)用[M].上海:上海科學(xué)技術(shù)出版社,2009,6:1-5.

        [2]Alix,A. (1999) Vaccine,18,311–314(314).

        [3]http://www.uniprot.org/[DB].

        [4]王媛媛,陶志勇.豬帶絳蟲六鉤蚴TSO45-4B抗原FnⅢ結(jié)構(gòu)域相應(yīng)的線性B細(xì)胞表位肽免疫原性研究[J].蚌埠醫(yī)學(xué)院學(xué)報(bào),2013,05.

        [5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.

        [6]黃艷新,鮑永利,李玉新.抗原表位預(yù)測的免疫信息學(xué)方法研究進(jìn)展[J].中國免疫學(xué)雜志,2008,09-20.

        [7] http://www.ncbi.nlm.nih.gov/genbank/[DB].

        [8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.

        [9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.

        [10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.

        [11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.

        [12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.

        作者簡介:劉春宇(1989.02-),男,吉林長春人,碩士研究生,研究方向:生物信息學(xué)。

        作者單位:東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,長春 130117

        亚洲成人av一区二区麻豆蜜桃| 老司机亚洲精品影院| 国产福利姬喷水福利在线观看| 极品诱惑一区二区三区| 日本国产精品高清在线| 69国产成人精品午夜福中文| 日韩人妻无码一区二区三区| 色爱无码A V 综合区| 亚洲一区二区三区av无| 内射白浆一区二区在线观看| 免费看黄色电影| 国产AV无码一区精品天堂| 麻豆夫妻在线视频观看| 亚洲熟妇自偷自拍另类| 久久无码专区国产精品s| 久久AV中文一区二区三区 | 免费a级毛片无码a∨免费| 今井夏帆在线中文字幕| 国产婷婷色一区二区三区| 国产一区二区三区影院| 精品国偷自产在线不卡短视频| 99视频偷拍视频一区二区三区| 日本边添边摸边做边爱| 男人添女人下部高潮全视频| 思思99热| 青青草视频视频在线观看| 日本高清视频wwww色| 97一区二区国产好的精华液| 亚洲在战AV极品无码| 日本视频在线观看一区二区 | 成年男女免费视频网站| 国产一区二区精品网站看黄| 沐浴偷拍一区二区视频 | 久久夜色精品国产噜噜av| 精品综合久久久久久8888| 国产一区二区在线中文字幕| 豆国产96在线 | 亚洲| 色翁荡息又大又硬又粗又视频图片| 亚洲欧美日韩精品高清| av网站免费观看入口| 扒开腿狂躁女人爽出白浆|