亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征選擇技術(shù)的蛋白質(zhì)熱穩(wěn)定性預(yù)測研究

        2022-07-07 00:05:35羅仕艷金佳瑤
        科技研究·理論版 2022年11期
        關(guān)鍵詞:機器學習特征提取

        羅仕艷 金佳瑤

        摘要:本文研究蛋白質(zhì)熱穩(wěn)定性預(yù)測方法,該方法首先提取了氨基酸組成和g-gap二肽特征,然后利用ANOVA方法對特征進行了選擇,最后通過Weka軟件及其免費提供的LibSVM軟件包來實現(xiàn)SVM的功能,對蛋白質(zhì)熱穩(wěn)定性進行預(yù)測。實驗表明該方法具有較好預(yù)測性能。

        關(guān)鍵詞:蛋白質(zhì)熱穩(wěn)定性;機器學習;特征提取

        1 引言

        蛋白質(zhì)的熱穩(wěn)定性是蛋白質(zhì)生化和生物技術(shù)研究的重要方面,它與酶工程特別相關(guān)。具有良好熱穩(wěn)定性的酶蛋白應(yīng)用在工業(yè)生物催化的領(lǐng)域有著巨大的前途和發(fā)展,如治理水污染,清理堵塞管道,釀造食品,生物制藥等[1]。現(xiàn)如今,計算機技術(shù)在生物信息學的領(lǐng)域的作用越來越不可取代。試想,如果我們能夠從蛋白質(zhì)的結(jié)構(gòu)本身出發(fā)去對蛋白質(zhì)根據(jù)其熱穩(wěn)定性進行分類,那么就可以借助計算機高速的運算能力顯著提高獲得耐熱蛋白質(zhì)的幾率。由此可見,通過了解蛋白質(zhì)的序列和結(jié)構(gòu)所蘊含的信息而對蛋白質(zhì)的熱穩(wěn)定性進行分類具有重要的意義。

        早在多年前,Perutz[2]等人在對細菌中的血紅蛋白等研究中就已經(jīng)涉及了蛋白質(zhì)熱穩(wěn)定性的相關(guān)內(nèi)容。從蛋白質(zhì)耐熱特性的研究結(jié)果中了解到蛋白質(zhì)的熱穩(wěn)定性與其氨基酸序列,離子對數(shù)量和鹽橋相關(guān)。Ding[3]等人在研究中對比了一些耐熱和耐溫的蛋白質(zhì)的二肽組成,充分地證實了蛋白質(zhì)的二肽組成對其熱穩(wěn)定性也存在著重大的影響。Pace[5]等人研究了四個不同的蛋白質(zhì)突變體的疏水作用,發(fā)現(xiàn)疏水作用與蛋白質(zhì)的結(jié)構(gòu)形成和維持其穩(wěn)定有著密切的關(guān)系[4]。

        丁彥蕊等人[6]統(tǒng)計并且分析了16個家族中共32個蛋白質(zhì)序列的各種氨基酸含量,并且系統(tǒng)地分析了氨基酸組成對蛋白質(zhì)熱穩(wěn)定性的影響。發(fā)現(xiàn)隨著蛋白質(zhì)耐熱性的增強,氨基酸Ser和Cys含量明顯降低 , Arg、Ile、Pro的含量明顯升高。鄧明霞[7]等人測定了這些膠原蛋白的氨基酸組成和熱變性溫度,發(fā)現(xiàn)膠原蛋白發(fā)生熱變性時的溫度與堿性氨基酸、總極性氨基酸和帶電荷極性氨基酸的含量與呈正相關(guān)關(guān)系,而與亞氨基酸與非極性氨基酸的含量則呈現(xiàn)負相關(guān)的關(guān)系。

        Zhang和Fang[8]還發(fā)現(xiàn),蛋白質(zhì)的二肽組成也蘊含著與蛋白質(zhì)的熱穩(wěn)定性相關(guān)的信息。Ding[9]等人使用了v-支持向量機的技術(shù)發(fā)現(xiàn)二肽組成和氨基酸組成都對蛋白質(zhì)的熱穩(wěn)定性有著重大的影響。

        2 特征提取

        (1)氨基酸組成

        氨基酸組成表示各種氨基酸在蛋白質(zhì)中的含量,氨基酸組成能最直觀地體現(xiàn)出蛋白質(zhì)序列所包含的信息。

        (2)g-gap二肽組成

        g-gap二肽組成的特征提取方法,是計算某個長度為N的蛋白質(zhì)序列片斷中k個間隔距離的殘基對在該序列中的組成比例。本方法中,k最大為5。然而,當k=0的時候,序列結(jié)尾會有1個氨基酸沒有其他氨基酸與之配對,這樣提取的殘基對數(shù)量為N-1;k=1時,有2個氨基酸沒有配對,那么提取出的殘基對數(shù)量為N-2;所以規(guī)律就是,當序列長度為N,間隔為k時,一共可以提取的殘基對數(shù)量為N-k-1。

        3 特征選擇

        對于一個蛋白質(zhì)序列來說,我們可以從中提取到成百上千的特征,但是這些特征未必都對蛋白質(zhì)的熱穩(wěn)定性預(yù)測起到幫助。除此之外,大量的特征會導致計算機的運算時間過長,浪費計算機資源。所以最好的辦法就是通過特征選擇技術(shù)來選取一組對蛋白質(zhì)的熱穩(wěn)定性影響最大的特征,去掉冗余的參數(shù)。這樣得出的結(jié)果可靠性才有所保障。目前已經(jīng)提出了一些特征選擇的方法,如主成分分析、遺傳算法和最小冗余最大關(guān)聯(lián)等。但是Ding[10]等人提出了一種方差分析(ANOVA)的方法。ANOVA方法能夠簡單有效地分析出對某一事物具有重大影響的因素,因具有多種優(yōu)點而被廣泛使用。本文使用ANOVA方法對蛋白質(zhì)的g-gap二肽組成進行特征選擇。

        4 分類器

        Weka是一款非商業(yè)化的機器學習和數(shù)據(jù)挖掘軟件。它在Java環(huán)境下運行,并且免費、開源。其主要開發(fā)者是來自新西蘭的懷卡托大學,至今已經(jīng)經(jīng)歷了20多年的發(fā)展和完善,其功能也已經(jīng)非常強大和成熟。本文使用Weka免費提供的LibSVM軟件包來實現(xiàn)SVM的功能。

        5.總結(jié)

        本文實現(xiàn)了一個蛋白質(zhì)熱穩(wěn)定性預(yù)測方法,利用特征提取、特征選擇算法以及支持向量機方法對蛋白質(zhì)根據(jù)其是否具有熱穩(wěn)定性而分類。

        參考文獻:

        [1]李晗.現(xiàn)代生物化工中酶工程技術(shù)研究與應(yīng)用[J].科技風,2020(06):132.

        [2]Perutz M F, Raidt H. Stereochemical basis of heat stability in bacterial ferredoxins and in haemoglobin A2[J]. Nature, 1975, 255(5505): 256-259.

        [3]Ding Y R, Cai Y J, Zhang G X, et al. The influence of dipeptide composition on protein thermostability[J]. FEBS Letters, 2004, 569(1-3): 284-288.

        [4]王克夷.疏水作用和蛋白質(zhì)[J].生命的化學,1999(05):37-39.

        [5]Pace C N, Fu H, Fryar K L, et al. Contribution of Hydrophobic Interactions to Protein Stability[J]. Journal of Molecular Biology, 2011, 408(3): 514-528.

        [6]丁彥蕊,蔡宇杰,烏云,須文波.氨基酸組成對蛋白質(zhì)耐熱性的影響[J].生物技術(shù),2004(04):47-50.

        [7]鄧明霞,汪海波,楊玲,劉良忠,黃愛妮,張含俊.氨基酸組成及溶劑環(huán)境對淡水魚膠原蛋白熱穩(wěn)定性能的影響[J].現(xiàn)代食品科技,2015,31(12):111-120.

        [8]Zhang G Y, Fang B. Application of amino acid distribution along the sequence for discriminating mesophilic and thermophilic proteins[J]. Process Biochemistry, 2006, 41(8): 1792-1798.

        [9]Ding Y R, Cai Y J, Sun J. Identifying the Mesophilic and Thermophilic Proteins from their Amino Acid Composition with v-Support Vector Machines [J]. Journal of Algorithms & Computational Technology, 2010, 4(3): 335-348.

        [10] H. Ding, P. M. Feng, W. Chen, et al. Identification of bacteriophage virion proteins by the ANOVA feature selection and analysis[J]. Molecular BioSystems, 2014, 10(8):2229-2235.

        項目基金:國家級大學生創(chuàng)新項目(202111488009);作者:羅仕艷,衢州學院數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)本科學生。

        猜你喜歡
        機器學習特征提取
        特征提取和最小二乘支持向量機的水下目標識別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        基于詞典與機器學習的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        基于支持向量機的金融數(shù)據(jù)分析研究
        機器學習理論在高中自主學習中的應(yīng)用
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        99久久久无码国产精品6| 男女做那个视频网站国产| 色偷偷久久久精品亚洲| 午夜无码伦费影视在线观看| 成品人视频ww入口| 亚洲精品无码乱码成人| 国产亚洲女在线线精品| 亚洲精品一区二区三区日韩| 国产一区二区三区av天堂| 97久久精品无码一区二区天美 | 国产美女三级视频网站| 人妻一区二区三区在线看| 日本阿v片在线播放免费| 无码人妻丰满熟妇精品区| 国产福利一区二区三区视频在线看| 中文字幕第一页人妻丝袜| 啦啦啦www在线观看免费视频| 国产精品国语对白露脸在线播放| 亚洲粉嫩av一区二区黑人| 在线播放亚洲丝袜美腿| 无码人妻久久一区二区三区app| 亚洲免费观看网站| 午夜在线观看一区二区三区四区| 国产亚洲精品综合一区| 人禽伦免费交视频播放| 亚洲中文字幕巨乳人妻| 日本av不卡一区二区三区| 日本高清视频wwww色| 久久99精品久久久久久野外| 一本久道久久综合狠狠操| 亚洲人成综合第一网站| 国産精品久久久久久久| 啪啪视频一区二区三区入囗| 青青草视频视频在线观看| 亚洲一区av在线观看| 日韩AV不卡六区七区| 青青草手机成人自拍视频| 国产无套内射又大又猛又粗又爽| 色偷偷久久一区二区三区| 手机AV片在线| 美女主播网红视频福利一区二区|