人工智能輔助的蛋白質(zhì)工程

2022-07-15 11:51:16卞佳豪楊廣宇

合成生物學(xué) 2022年3期

卞佳豪，楊廣宇

（上海交通大學(xué) 生命科學(xué)技術(shù)學(xué)院，微生物代謝國家重點實驗室，上海 200240）

合成生物學(xué)是一個廣泛的研究領(lǐng)域，通過將生物學(xué)和工程學(xué)相結(jié)合來設(shè)計和創(chuàng)建具有新穎功能的生物系統(tǒng)［1-2］。這一過程需要功能各異、形式多樣并且能夠良好實現(xiàn)預(yù)期功能的生物元件，特別是蛋白質(zhì)功能元件（催化酶、轉(zhuǎn)錄因子、轉(zhuǎn)運蛋白、蛋白支架等）［3］。但是，天然來源蛋白質(zhì)元件大部分都不能滿足人工生物系統(tǒng)的需要，實際應(yīng)用中往往表現(xiàn)出折疊錯誤、細(xì)胞毒性、功能不適宜等缺陷［4-5］。蛋白質(zhì)從頭設(shè)計或?qū)μ烊坏鞍踪|(zhì)進(jìn)行分子改造，成為解決這一問題的重要途徑。對于蛋白質(zhì)或酶的分子改造，已經(jīng)成為合成生物學(xué)的重要研究領(lǐng)域［6-9］。

在天然蛋白質(zhì)分子改造方面，主要包括定向進(jìn)化（directed evolution）和理性設(shè)計（rational design）兩種策略［10-12］，見圖1。前者通過模擬自然選擇過程，對目標(biāo)基因進(jìn)行多輪突變和篩選實驗，直至獲得所需水平的優(yōu)良變體，但是該技術(shù)受限制于較低的篩選速率和序列空間中龐大的變體數(shù)量［13］。后者依據(jù)序列和結(jié)構(gòu)信息，選擇較少的關(guān)鍵位點進(jìn)行精準(zhǔn)改造，從而構(gòu)建較小的突變文庫，但是需要對結(jié)構(gòu)功能信息有深入了解，并且需要巨大的計算資源［14］。

圖1 理性設(shè)計，定向進(jìn)化和人工智能輔助的蛋白質(zhì)工程策略示意圖（理性設(shè)計依賴序列和結(jié)構(gòu)信息，精準(zhǔn)設(shè)計突變體文庫，但難以應(yīng)用于缺少結(jié)構(gòu)功能信息的蛋白質(zhì)。定向進(jìn)化中對目標(biāo)基因進(jìn)行多輪突變和篩選實驗，不受結(jié)構(gòu)功能信息限制，但是需要進(jìn)行高通量的篩選方法。人工智能輔助的蛋白質(zhì)工程則需要大量的序列-功能數(shù)據(jù)，可以來源于實驗、計算和數(shù)據(jù)庫等多方面，通過構(gòu)建的預(yù)測模型，能夠更有效地探索蛋白質(zhì)突變體序列空間）Fig.1 Schematic diagram for rational design,directed evolution and artificial intelligence-assisted protein engineering(Rational design relies on sequence and structural information to design mutant libraries accurately.However, it is difficult for being applied to pro‐teins lacking structural and functional information.In the directed evolution strategy,multiple rounds of mutation and screening experiments are per‐formed on target genes,which are not limited by structural and functional information,but high-throughput screening methods are required.Artificial intelligence-assisted protein engineering requires a large amount of sequence-function data,which can be derived from experiments,calculations,and databases.Through the predictive model,the sequence space of protein mutants can be explored more effectively)

人工智能輔助的蛋白質(zhì)工程策略是一種由數(shù)據(jù)驅(qū)動的新策略［15］。該策略通過學(xué)習(xí)已有數(shù)據(jù)中的信息，建立起輸入屬性（如序列）到輸出屬性（如功能）的映射關(guān)系，不需要詳細(xì)的物理或生物層面的基礎(chǔ)信息［16］。一旦得到足夠準(zhǔn)確的映射關(guān)系（或者說預(yù)測模型），就能夠通過實驗中容易得到的輸入值來預(yù)測輸出值，從而免除大量的重復(fù)性實驗。目前，該策略已經(jīng)成功應(yīng)用在蛋白質(zhì)工程的很多方面，包括蛋白分子結(jié)構(gòu)預(yù)測［17-18］、蛋白分子功能預(yù)測［19-20］、蛋白分子溶解度預(yù)測［21-22］和指導(dǎo)設(shè)計智能組合文庫［23-26］等。

目前已有多篇綜述詳細(xì)介紹了有關(guān)機器學(xué)習(xí)的基礎(chǔ)概念［27-31］。這些文章多從數(shù)據(jù)和算法的角度來對人工智能的主要進(jìn)展進(jìn)行了介紹，但是對于非生物信息學(xué)背景的研究人員而言，這類綜述讀起來較為深奧。為了使更多實驗生物學(xué)背景的人員理解人工智能蛋白設(shè)計的進(jìn)展，本文將主要介紹人工智能輔助蛋白分子設(shè)計的應(yīng)用實例、已開發(fā)的數(shù)據(jù)庫和平臺工具等幾個方面，為希望進(jìn)入人工智能蛋白質(zhì)工程領(lǐng)域的入門者提供幫助。

1 人工智能輔助的蛋白質(zhì)工程應(yīng)用實例

人工智能算法由于準(zhǔn)確度高、計算速度快、不受蛋白質(zhì)結(jié)構(gòu)功能信息限制等優(yōu)點，近年來被大量應(yīng)用于蛋白質(zhì)工程領(lǐng)域，包括蛋白質(zhì)的結(jié)構(gòu)、功能、熱穩(wěn)定性、對映體選擇性、光敏性及指導(dǎo)設(shè)計智能組合文庫等多個方面。其中除了經(jīng)典的機器學(xué)習(xí)算法（決策樹、支持向量機和高斯過程回歸等）外，多種深度學(xué)習(xí)算法和基于深度學(xué)習(xí)的自然語言處理技術(shù)也獲得了成功的應(yīng)用。在下文中，我們重點集中于近幾年在蛋白質(zhì)結(jié)構(gòu)預(yù)測、功能預(yù)測、溶解度預(yù)測和指導(dǎo)設(shè)計智能組合文庫四個方面的成功案例，系統(tǒng)地分析人工智能算法在蛋白質(zhì)工程中應(yīng)用的優(yōu)勢。

1.1 蛋白質(zhì)結(jié)構(gòu)預(yù)測

截至2018 年，蛋白質(zhì)數(shù)據(jù)庫中發(fā)布了超過145 000 個蛋白質(zhì)結(jié)構(gòu)，但與目前已知的超過2 億條蛋白質(zhì)序列相比，仍僅占很小的比例［32］，因此蛋白質(zhì)結(jié)構(gòu)預(yù)測是生物學(xué)中經(jīng)久不衰的熱點問題。早在1992 年，機器學(xué)習(xí)算法就被用于預(yù)測蛋白質(zhì)二級結(jié)構(gòu)［33］。近幾年，利用深度學(xué)習(xí)算法和蛋白質(zhì)序列的三維結(jié)構(gòu)預(yù)測模型取得了不小的進(jìn)展［34］。首先是在2018 年第13 屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽（CASP）上，AlphaFold 模型結(jié)合深度殘差卷積神經(jīng)網(wǎng)絡(luò)和快速Rosetta 模型，獲得了預(yù)測43 種蛋白中的25 種蛋白結(jié)構(gòu)的最高分，實現(xiàn)了預(yù)測成功率的突破［17］。2019 年底，David Baker 團(tuán) 隊發(fā) 表了trRosetta 方案，綜合了深度學(xué)習(xí)和Rosetta 的優(yōu)勢和進(jìn)展，具有良好預(yù)測精度的同時，能夠在本地電腦上就可以完成計算，使得預(yù)測蛋白結(jié)構(gòu)的門檻大大降低［18］。在2020 年的CASP14 中，AlphaFold 2 再次獲得冠軍。根據(jù)DeepMind 官方的信息，AlphaFold 2 在無模板的自由建模任務(wù)中，拿到了87.0 的GDT_TS 分數(shù)（global distance test［35］），在常規(guī)項目中拿到了92.4 分，這意味著該系統(tǒng)預(yù)測的均方根偏差（即預(yù)測數(shù)據(jù)與實驗數(shù)據(jù)在原子位置上的偏差）大約為0.16 nm，已經(jīng)達(dá)到了常規(guī)蛋白質(zhì)晶體結(jié)構(gòu)的實驗精度。盡管AlphaFold 目前最好的成績是針對單鏈蛋白質(zhì)分子，但這種成績本身就足以證明人工智能算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的巨大潛力，例如減少繁瑣的結(jié)晶條件探索工作，以及提供以常規(guī)實驗方法難以獲得的蛋白質(zhì)結(jié)構(gòu)等。

1.2 蛋白質(zhì)功能預(yù)測

天然蛋白的功能表征實驗需要大量工作，其速度遠(yuǎn)遠(yuǎn)低于新蛋白序列的獲取速度［36-37］。借助人工智能算法來預(yù)測蛋白質(zhì)的功能是另外一個研究熱點。2018 年，研究者通過收集來自擬南芥的54 種GT1 家族糖基轉(zhuǎn)移酶的序列信息和它們91 種底物的物理化學(xué)特性（如疏水常數(shù)lgP、分子表面積）和結(jié)構(gòu)信息（如官能團(tuán)拷貝數(shù)、框架類型），建立了初始的數(shù)據(jù)集，并以多種基于決策樹的算法來構(gòu)建酶功能的預(yù)測模型（圖2）［19］。在不需要進(jìn)行任何實驗的條件下，該預(yù)測模型利用酶序列，就能夠準(zhǔn)確地預(yù)測其他植物中（苜蓿和燕麥）GT1糖基轉(zhuǎn)移酶的活性，對來自細(xì)菌的GT1 酶活性的預(yù)測準(zhǔn)確率也在70%以上。這表明能夠利用高通量數(shù)據(jù)進(jìn)行學(xué)習(xí)的人工智能算法在底物混雜、已解析結(jié)構(gòu)少的酶的功能注釋中具有巨大潛力。此外，人工智能算法也被應(yīng)用于預(yù)測酶的EC 編號（enzyme commission number），幫助對酶分子進(jìn)行分類。先后發(fā) 展出的PRIAM［38］、CatFam［39］、EFICAz2.5［40］、 SVM-prot［41］、 COFACTOR［42］、DEEPre［36］、 DETECT v2［43］、 ECPred［44］和DeepEC［20］等多種預(yù)測工具，在計算時間、計算精度和覆蓋范圍等預(yù)測性能方面逐漸改進(jìn)，簡要內(nèi)容見表1。其中，DeepEC 方法包括三個獨立的卷積神經(jīng)網(wǎng)絡(luò)，利用氨基酸序列，就能對氨基酸序列是否為酶分子、酶分子EC 編號的三位和四位數(shù)值進(jìn)行預(yù)測。與CatFam、DETECT v2、ECPred、EFICAz2.5 和PRIAM 五種代表性的酶EC 編號預(yù)測工具相比，在Swiss-Prot 數(shù)據(jù)庫中選取的201 個酶進(jìn)行驗證時， DeepEC 表現(xiàn)最佳，準(zhǔn)確率（accuracy）和召回率（recall）分別為0.920和0.455。即45.5%的陽性樣本能被預(yù)測模型準(zhǔn)確識別，這其中92.0%樣本的預(yù)測值與真實值是一致的。

表1 EC編號預(yù)測工具匯總表Tab.1 Forecast tools for EC numbers

圖2 GT1家族糖基轉(zhuǎn)移酶預(yù)測模型（GT-Predict）的工作流程［19］（基于功能的算法學(xué)習(xí)方法GT-Predict，使用來源于酶、親電試劑和親核試劑的多種訓(xùn)練集來創(chuàng)建基于物理化學(xué)和局部序列的分類器，從而預(yù)測GT1糖基轉(zhuǎn)移酶的催化活性和功能信息。Nuc表示親核基團(tuán)的數(shù)量/類型）Fig.2 Workflow for predicting the GT1 glycosyltransferase model(GT-Predict)[19](The function-based algorithmic learning approach,GT-Predict,uses a diverse training set of enzymes,electrophiles,and nucleophiles to create a physicochemical and local-sequence-based classifier for predicting the novel transformations and functional annotation of GT group-transfer enzymes.)

1.3 蛋白質(zhì)溶解度預(yù)測

蛋白質(zhì)的溶解度對于其行使功能起到重要作用。溶解度過低是蛋白質(zhì)大規(guī)模生產(chǎn)中常見的主要瓶頸［45-46］，而溶解度的測量費時費力，因此非常需要能夠準(zhǔn)確對蛋白質(zhì)溶解度進(jìn)行預(yù)測的生物信息學(xué)工具。新加坡國立大學(xué)的Han 等［21］測試了邏輯回歸、決策樹、支持向量機、樸素貝葉斯、條件隨機森林、XGboost和人工神經(jīng)網(wǎng)絡(luò)等七種算法構(gòu)建基于序列的溶解度預(yù)測模型，其中支持向量機算法構(gòu)建的模型在此預(yù)測任務(wù)中顯示出最高的準(zhǔn)確性。在預(yù)測結(jié)果為代表“可溶”和“不溶”的二分值“1”和“0”時，該模型的預(yù)測準(zhǔn)確率為0.7628。除此之外，該模型還可以預(yù)測蛋白質(zhì)連續(xù)的溶解度值（離心后上清液的蛋白質(zhì)質(zhì)量與總蛋白質(zhì)質(zhì)量之比）。但這種情況下，模型預(yù)測的準(zhǔn)確性有所降低，決定系數(shù)為0.41。最近，中山大學(xué)的Chen Jianwen 等［22］利用蛋白質(zhì)接觸圖（contact map）和圖神經(jīng)網(wǎng)絡(luò)算法（GCN）開發(fā)了一種新的利用氨基酸序列預(yù)測蛋白質(zhì)溶解的模型GraphSol，在同樣利用eSOL 數(shù)據(jù)庫中的蛋白質(zhì)溶解度數(shù)據(jù)進(jìn)行驗證時，進(jìn)一步提升了預(yù)測模型的性能，其決定系數(shù)為0.48。在蛋白質(zhì)工程中，輸出結(jié)果為簡單的二分值時，重要的氨基酸突變對溶解度的貢獻(xiàn)無法分析。例如，“不溶”和“可溶”的群體中，不同突變對蛋白質(zhì)溶解度的貢獻(xiàn)無法分辨。并且，當(dāng)存在大量“可溶”的預(yù)測變體時，無法從中選出表現(xiàn)最佳的少數(shù)變體進(jìn)行實驗驗證［21］。因此，能夠預(yù)測蛋白質(zhì)連續(xù)的溶解度的模型更適用于輔助蛋白質(zhì)工程。隨著可用數(shù)據(jù)集的擴大和算法框架的優(yōu)化，基于序列的蛋白質(zhì)溶解度預(yù)測模型將能夠有越來越高的準(zhǔn)確率。

1.4 指導(dǎo)設(shè)計智能組合文庫

人工智能策略在酶定向進(jìn)化中也具有重要的應(yīng)用潛力。依靠人工智能算法，可以基于已有的序列/結(jié)構(gòu)信息，直接建立起序列/結(jié)構(gòu)-功能的映射關(guān)系，因此理論上可以極大減少篩選工作量，并且更加有效地探索整個組合突變體的序列空間［26，47］。例如，在指導(dǎo)綠色熒光蛋白向黃色熒光蛋白進(jìn)化的研究中，研究者們對選定的四個關(guān)鍵位點構(gòu)建了單點飽和突變庫和隨機誘變庫，共包含218 個變體。但將所有變體篩選之后，沒有發(fā)現(xiàn)比參考黃色熒光蛋白性能更好的突變體。隨后，他們選擇其中的155 個變體的序列-功能數(shù)據(jù)作為初始數(shù)據(jù)集，以高斯過程回歸算法來構(gòu)建預(yù)測模型。通過預(yù)測模型，遍歷了整個四點組合序列空間中的近16 萬個變體，并對其性能打分。在僅僅對預(yù)測突變體文庫中排名靠前的78 個變體進(jìn)行驗證的情況下，就找到了12 個黃色熒光強度高于參考蛋白的突變體［23］。

此外，在Frances H.Arnold 團(tuán)隊［24］的研究中，他們從對S-對映體有76%ee 一氧化氮雙加氧酶出發(fā)，利用455個突變體來構(gòu)建從序列預(yù)測功能的模型。通過該模型對涵蓋了七個位置（兩個區(qū)域）的組合序列空間中約168 000 個變體的性能進(jìn)行預(yù)測，再進(jìn)行兩輪篩選，共驗證了360個變體后，就獲得了對S-對映體有93%ee和對R-對映體有79%ee的兩種優(yōu)良變體。

在2018 年，Manfred T.Reetz 團(tuán)隊［25］利用一種innov’SAR 的人工智能方法來指導(dǎo)在環(huán)氧水解酶的對映體選擇性的進(jìn)化過程中組合突變文庫的設(shè)計，在僅使用了38 個突變體的序列-功能數(shù)據(jù)的情況下，預(yù)測模型對九個位點上共512 種突變體的功能進(jìn)行了預(yù)測，經(jīng)過簡單驗證后就找到了多個優(yōu)于經(jīng)隨機突變文庫篩選得到的最佳突變體的酶分子。

2019年，為了解決視紫紅質(zhì)通道蛋白篩選通量太低，并且要同時保留其多種特性的問題，F(xiàn)rances H.Arnold團(tuán)隊［26］使用了人工智能輔助的蛋白質(zhì)工程策略（圖3）。其方法為首先利用實驗表征的和文獻(xiàn)報道得到的183個序列-功能數(shù)據(jù)，構(gòu)建一個分類模型，從而有效排除重組文庫120 000 條序列中絕大多數(shù)的非功能序列。然后根據(jù)已經(jīng)表征的視紫紅質(zhì)通道蛋白的特性信息，針對不同的目標(biāo)屬性來建立不同的回歸模型，例如電流強度、關(guān)閉動力學(xué)（即曝光后通道關(guān)閉所需的時間）和激活的波長敏感度等，對所有具有功能的序列進(jìn)行特性的得分的預(yù)測。最后從預(yù)測庫中選擇少部分排名靠前的突變體（28個）進(jìn)行實驗驗證，并得到了目標(biāo)屬性都優(yōu)于現(xiàn)有的視紫紅質(zhì)通道蛋白的三個變體ChRger1、ChRger2和ChRger3。

圖3 人工智能輔助的視紫紅質(zhì)通道蛋白改造的工作流程［26］［在重組文庫中表征的102種ChR蛋白和文獻(xiàn)中報道的61種變體，共同構(gòu)成了（1）分類模型的訓(xùn)練集。然后，使用經(jīng)過訓(xùn)練的分類模型來預(yù)測12000個未表征的ChR序列變體是否具有功能。接下來，構(gòu)建了三個（2）回歸模型，分別針對不同的ChR光電流特性：光電流強度，關(guān)閉動力學(xué)和光電流的波長敏感性］Fig.3 Workflow for machine learning-guided channelrhodopsin engineering[26][102 ChR proteins characterized in the recombinant library,together with 61 variants reported in the literature,constitute the training set of theclassification model(1).Then the trained classification model was used to predict whether 12000 uncharacterized ChR sequence variants are functional,and three regression models(2)were trained,one for each of the ChR photocurrent properties of interest:photocurrent strength,off-kinetics and wavelength sensitivity of the photocurrents.]

2 人工智能輔助的蛋白分子設(shè)計策略概述

在人工智能輔助的蛋白分子設(shè)計策略中，本質(zhì)是基于已有的數(shù)據(jù)，引入不同的機器學(xué)習(xí)算法來進(jìn)行“輸入特征-輸出特征”的映射關(guān)系的構(gòu)建。根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息（即規(guī)定的輸出值），機器學(xué)習(xí)大致可劃分為監(jiān)督學(xué)習(xí)（supervised learning）和無監(jiān)督學(xué)習(xí)（unsupervised learning）。由于在蛋白質(zhì)工程中，最終目的是獲得或者優(yōu)化目標(biāo)蛋白的一個或多個屬性，因此至少會有一個屬性值作為標(biāo)記信息，屬于監(jiān)督學(xué)習(xí)［48］。

圖4描述了監(jiān)督學(xué)習(xí)的工作流程，主要可以分為三個步驟［27］。步驟1：通過數(shù)據(jù)庫、實驗和文獻(xiàn)等方式收集初始數(shù)據(jù)，將序列作為輸入特征，將蛋白質(zhì)的功能信息（如對某種目標(biāo)底物的活性）作為標(biāo)記信息（如1 代表該序列對底物有活性，0 代表該序列無活性），轉(zhuǎn)為計算機能夠識別的數(shù)字格式，并拆分為訓(xùn)練集和測試集。步驟2：選用合適的算法，利用訓(xùn)練集進(jìn)行預(yù)測模型的訓(xùn)練，建立起“序列-活性”的映射關(guān)系。步驟3：利用訓(xùn)練的模型，輸入測試集的序列，得到預(yù)測值（0或1），通過比較測試集中的真實值和預(yù)測值之間的差異，評估預(yù)測模型的性能。在整個流程中，有兩個關(guān)鍵點對預(yù)測模型的性能至關(guān)重要：數(shù)據(jù)、分子描述符和算法，人工智能方法的開發(fā)重點也是集中于這兩個方面。

圖4 監(jiān)督學(xué)習(xí)的流程示意圖［27］（a）準(zhǔn)備數(shù)據(jù)：來源于實驗，計算或數(shù)據(jù)庫的數(shù)據(jù)通常會轉(zhuǎn)換成計算機可以識別的格式，并拆分為訓(xùn)練集和測試集；（b）構(gòu)建預(yù)測模型：利用訓(xùn)練集訓(xùn)練不同的算法以找到?jīng)Q策邊界，構(gòu)建預(yù)測模型，例如隨機森林，神經(jīng)網(wǎng)絡(luò)和支持向量機；（c）驗證模型：對于分類問題或者回歸問題，應(yīng)選擇合適的評估方法Fig.4 Schematic diagram of the supervised learning process[27]Step(a):Preparing data.The data from experiments,calculations or databases are usually converted to a format that the computer can recognize and split into the training and test parts.Step(b):Constructing a predictive model.Using the training set to train different algorithms to find decision boundaries,such as random forests,neural networks and support vector machines,so as to build predictive models.Step(c):Validating the model.An appropriate evaluation method should be selected for tasks with classification or regression.

2.1 數(shù)據(jù)

由于人工智能算法嚴(yán)重依賴數(shù)據(jù)，初始數(shù)據(jù)的數(shù)量和質(zhì)量決定了訓(xùn)練得到的模型的泛化性能［49-50］。數(shù)據(jù)集的數(shù)量不足或者質(zhì)量過低會導(dǎo)致模型出現(xiàn)過擬合或者欠擬合的問題，往往會進(jìn)行交叉驗證來檢測模型中是否存在該問題，例如k折交叉驗證（即將整個數(shù)據(jù)集平均拆分為k份，每一份輪流作為測試集，其余作為訓(xùn)練集，如圖5），因此數(shù)據(jù)收集是重要且耗時的步驟。一般來說，人工智能輔助策略很適合與其他蛋白質(zhì)改造策略聯(lián)用，利用在隨機突變或（半）理性設(shè)計后生成的數(shù)據(jù)作為初始數(shù)據(jù)［51］。但是，一方面，就來自單輪實驗的數(shù)據(jù)而言，數(shù)據(jù)集通常僅包括數(shù)十種到數(shù)百種變體，這在人工智能算法框架中屬于較小的樣本量［52］。另一方面，從實驗中以及部分?jǐn)?shù)據(jù)庫中的數(shù)據(jù)是存在一定偏差的，特別是針對蛋白質(zhì)某項屬性進(jìn)行改造時，表現(xiàn)不好的突變體通常直接被丟棄掉，因此導(dǎo)致初始數(shù)據(jù)集中數(shù)據(jù)不均勻。因此，如果采用人工智能輔助的蛋白質(zhì)工程策略，應(yīng)當(dāng)注意收集陰性數(shù)據(jù)來保證數(shù)據(jù)的無偏性。針對訓(xùn)練數(shù)據(jù)的數(shù)量偏少的問題，一方面許多數(shù)據(jù)庫一直在收集、整理來源于文獻(xiàn)或?qū)嶒灥臄?shù)據(jù)，涵蓋蛋白質(zhì)的序列、結(jié)構(gòu)、功能和溶解度等多個屬性，可以為人工智能算法提供許多優(yōu)質(zhì)的數(shù)據(jù)；另一方面，隨著超高通量篩選和二代測序等高通量生物學(xué)實驗技術(shù)的逐漸成熟，可以相信在不遠(yuǎn)的未來可用數(shù)據(jù)的數(shù)量和質(zhì)量都會得到大幅度的提升，為更精準(zhǔn)的人工智能算法提供充足的資源。

圖5 k折交叉驗證示意圖（將訓(xùn)練數(shù)據(jù)進(jìn)一步細(xì)分為k個子集，并且將訓(xùn)練工作流程重復(fù)k次，同時保留k個子集中的一個用于評估，其余k-1個子集用于訓(xùn)練）Fig.5 Schematic diagram for k-fold cross-validation(The training data is further subsplit into k subsets,and the training workflow is repeated k times with each of the k subsets holding for evaluation and the remaining k-1 subsets used for training)

2.2 分子描述符

分子描述符（molecular descriptors），就是將分子的化學(xué)信息（例如結(jié)構(gòu)特征）轉(zhuǎn)換成有用的數(shù)字形式的工具。算法，即學(xué)習(xí)算法（learning algorithm），是機器學(xué)習(xí)中用于幫助計算機系統(tǒng)從數(shù)據(jù)中產(chǎn)生模型（model）、總結(jié)“經(jīng)驗”的方法［53］。但計算機系統(tǒng)僅能理解數(shù)字向量，所以算法不能直接作用于蛋白質(zhì)序列［16］。因此，在獲得序列之后，一般還需要利用合適的分子描述符將氨基酸序列處理為計算機能夠識別的格式。以最簡單的獨熱編碼描述符為例，對于N個長度為L的多個蛋白質(zhì)突變體序列，它們?nèi)粼谀骋幌嗤稽c上包含S種不同的氨基酸（S≤N，S≤20），則該位置的所有氨基酸都可以用一個S維向量表示，每一個S維向量都包括S?1 個0 和一個1，其中1 的位置表明該氨基酸的身份，如圖6。氨基酸序列也可以根據(jù)物理性質(zhì)進(jìn)行編碼，每種氨基酸可以由其電荷、體積或疏水性等特性或者這些特性的組合來表示，如AAindex［54］中就包含了大量類似的描述符。目前常用到的描述符有4 種類型，包括基于氨基酸序列特征的描述符、結(jié)構(gòu)信息描述符、嵌入式表示描述符以及突變指示描述符，在綜述［16，30，55］中均有詳細(xì)描述，本文不再贅述。

圖6 獨熱編碼示意圖（N個蛋白質(zhì)突變體序列中L個氨基酸中某一相同位置包含S種不同的氨基酸，獨熱編碼將這S個氨基酸都表示為包括S-1個0和一個1的S維向量，其中1的位置表示該位置的氨基酸的種類）Fig.6 Schematic diagram for one-hot encoding(A certain position of the L amino acids in the N protein mutant sequence contains S different amino acids.The one-hot encoding represents all S amino acids as an S-dimensional vector including S-1 zeros and one 1.The position of 1 indicates the type of amino acid at that position.)

2.3 算法

除此之外，人工智能領(lǐng)域也已經(jīng)提出了大量算法。從模型復(fù)雜度角度，機器學(xué)習(xí)分為經(jīng)典機器學(xué)習(xí)和深度學(xué)習(xí)［56］。前者中的偏最小二乘回歸［57］、支持向量機［58］、決策樹/隨機森林［59］和貝葉斯網(wǎng)絡(luò)［60］等常見算法以及后者中的變分自編碼器［61］、卷積神經(jīng)網(wǎng)絡(luò)［62］和循環(huán)神經(jīng)網(wǎng)絡(luò)［63］等都已用于輔助蛋白分子設(shè)計。

經(jīng)典機器學(xué)習(xí)和深度學(xué)習(xí)二者的不同在于，經(jīng)典機器學(xué)習(xí)算法強烈依賴于人工提取的特征，一般與基于氨基酸特征或序列整體特征的分子描述符配套使用，但可能會受限于定義好的特征值而忽略數(shù)據(jù)中隱藏的信息［64］。而深度學(xué)習(xí)是通過深度神經(jīng)網(wǎng)絡(luò)，將數(shù)據(jù)進(jìn)行分層抽象處理，能有效排除噪聲、發(fā)現(xiàn)隱藏信息，因此非常適用于從高維數(shù)據(jù)發(fā)現(xiàn)復(fù)雜結(jié)構(gòu)［56］。各個算法的入門介紹可以參考綜述［16，28，31，55］。

在選擇算法時，一般會以線性模型作為基線。如果線性模型的準(zhǔn)確性不足，并且初始數(shù)據(jù)集中數(shù)據(jù)小于10 000 時，偏最小二乘回歸、隨機森林和支持向量機都可能構(gòu)建出最佳的預(yù)測模型，而神經(jīng)網(wǎng)絡(luò)則通常在更大的數(shù)據(jù)集上表現(xiàn)出最佳性能［16］。在計算速度方面，由于復(fù)雜程度和所需訓(xùn)練集大小等因素影響，深度學(xué)習(xí)往往也需要花費更多時間［55］。因此，如何選擇合適的算法，需要研究者在具體的預(yù)測任務(wù)中仔細(xì)衡量準(zhǔn)確率、計算速度和實現(xiàn)難度等因素。

在人工智能輔助的酶定向進(jìn)化策略中，選擇合適的分子描述符和機器學(xué)習(xí)算法對構(gòu)建準(zhǔn)確的預(yù)測模型而言至關(guān)重要。沒有一種分子描述符和算法能夠滿足所有的學(xué)習(xí)任務(wù)［65］，研究人員必須結(jié)合專業(yè)知識或者同時構(gòu)建多個模型進(jìn)行比較。Frances H.Arnold 團(tuán)隊使用高斯過程算法，嵌入式表示、蛋白質(zhì)指數(shù)和獨熱編碼等氨基酸編碼方式進(jìn)行了未知功能蛋白的功能預(yù)測，結(jié)果發(fā)現(xiàn)，使用嵌入式表示描述符訓(xùn)練的模型預(yù)測能力與其他模型的預(yù)測能力相當(dāng)，甚至超過它們［66］；而在Jennifer M.Johnston 等人的研究中，使用多種描述符和卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了蛋白質(zhì)序列/活性關(guān)系預(yù)測模型，結(jié)果發(fā)現(xiàn)，基于序列的氨基酸特性相關(guān)描述符的卷積神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)較好，而嵌入式表示描述符表現(xiàn)不佳［55］。這恰恰證明了沒有一種分子描述符和算法能夠滿足所有的學(xué)習(xí)任務(wù)。

3 相關(guān)的數(shù)據(jù)庫和線上平臺

3.1 數(shù)據(jù)庫

除了與其他分子改造策略聯(lián)用之外，隨著高通量篩選和二代測序技術(shù)的不斷發(fā)展，越來越多的蛋白質(zhì)信息被挖掘，目前已經(jīng)有許多優(yōu)秀的數(shù)據(jù)庫收集并整理了多種可作為該策略初始數(shù)據(jù)的信息，是優(yōu)良的數(shù)據(jù)來源。即便數(shù)據(jù)庫中大量蛋白質(zhì)序列信息沒有功能注釋，也可以用于構(gòu)建預(yù)測模型，即通過人工智能算法從這些序列中學(xué)習(xí)、提取特征，然后作為下一步從“已知特征”到“目的屬性”的頂層預(yù)測模型的輸入數(shù)據(jù)。例如，在2019 年George M.Church 團(tuán)隊利用了大約2400 萬條蛋白質(zhì)序列訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)算法，構(gòu)建了一個UniRep 模型［67］。該模型能夠預(yù)測氨基酸序列中下一個氨基酸是什么，以此來提取氨基酸序列中不可見的特征。這些特征可以作為其他算法（如隨機森林、稀疏線性回歸等）的輸入信息，來構(gòu)建頂層特征（圖7）。在應(yīng)用方面，基于UniRep 模型的預(yù)測模型在預(yù)測蛋白質(zhì)穩(wěn)定性和熒光蛋白序列優(yōu)化任務(wù)中，性能都明顯優(yōu)于Frances H.Arnold 團(tuán)隊曾報道的Doc2Vec 模型［66］。該研究說明人工智能算法能夠深度挖掘蛋白質(zhì)序列中隱藏信息，為提高蛋白質(zhì)工程的效率、解決蛋白質(zhì)表征實驗費時費力問題提供了一個全新的方法。

圖7 UniRep模型的工作流程［67］［在訓(xùn)練部分，UniRep模型使用了2400萬個氨基酸序列作為訓(xùn)練集。然后使用訓(xùn)練好的模型來預(yù)測下一個氨基酸（使交叉熵?fù)p失最小化），從而學(xué)會如何正確表示氨基酸。在應(yīng)用部分中，訓(xùn)練后的模型通過提取和平均各個氨基酸的數(shù)字向量，從而生成輸入序列的單個固定長度矢量表示。這些向量可以用于訓(xùn)練頂級模型，從而應(yīng)用于多種序列-功能預(yù)測任務(wù)］Fig.7 Workflow for the UniRep model[67][In the training part,24 million amino acid sequences are used to train the UniRep model.Then the trained model is used to predict the next amino acid(minimizing the cross-entropy loss),so as to learn how to correctly represent the amino acid.In the application part,by extracting and assessing the numerical vector associated with the amino acid,the trained model is used to generate a single fixed-length vector representing the input sequence.Next,these vectors can be used to train top models,which can be applied to various sequence-function prediction tasks.]

除了最常見的蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)庫外，越來越多的數(shù)據(jù)庫在自動或手動收集整理蛋白質(zhì)突變穩(wěn)定性、溶解度等信息，表2對部分比較常見的數(shù)據(jù)庫的類型、大小和特點進(jìn)行了介紹。

表2 常見數(shù)據(jù)庫匯總表Tab.2 Commonly used database

3.2 線上平臺

事實上，學(xué)者們已經(jīng)開發(fā)了許多線上平臺或者工具包來幫助人們獲得蛋白質(zhì)序列中的特征信息以及使用人工智能算法的工具，匯總信息見表3。大多數(shù)工具包和線上平臺都只關(guān)注于完成整個生物序列分析任務(wù)的一部分，例如，大多數(shù)工具都只能利用不同類型的分子描述符從序列中生成特征。但是其中BioSeq-Analysis2.0 和iLearn 兩個平臺可以自動執(zhí)行整個蛋白序列分析任務(wù)的步驟，SOLart 平臺則額外引入了結(jié)構(gòu)信息來預(yù)測目標(biāo)蛋白質(zhì)溶解度，下面進(jìn)行詳細(xì)闡述。

表3 基于蛋白質(zhì)序列的特征生成工具匯總表Tab.3 Feature generation tools based on protein sequences

3.2.1 Protein-Analysis2.0

Protein-Analysis2.0 是服務(wù)器BioSeq-Analysis2.0的線上蛋白質(zhì)服務(wù)器，可以通過三個主要步驟完成蛋白序列分析任務(wù)：特征提取，預(yù)測模型構(gòu)建以及性能評估［91］。其中在特征提取方面，包括13 種基于氨基酸殘基水平的分子描述符和39 種基于氨基酸序列水平的分子描述符。為了避免某些分子描述符導(dǎo)致編碼后向量維度爆炸的情況，該平臺還添加了兩種特征選擇方法。在人工智能算法方面，該平臺僅整合兩種分類算法（支持向量機和隨機森林）和一種序列標(biāo)記算法（條件隨機場）。在性能評估方面，該平臺支持5 折交叉驗證或獨立數(shù)據(jù)集兩種方式。同時，作者利用文獻(xiàn)［94］中的數(shù)據(jù)作為基準(zhǔn)數(shù)據(jù)，預(yù)測蛋白質(zhì)的無序區(qū)域，其中，其中條件隨機場-One-hot（6-bit）預(yù)測模型表現(xiàn)最佳，與文獻(xiàn)中的方法高度可比，證明了該平臺的實用性。平臺地址為：

http：//bliulab.net/BioSeq-Analysis2.0/home/

3.2.2 iLearn

iLearn線上平臺與BioSeq-Analysis2.0類似，不同之處在于：①iLearn平臺中包含更多種分子描述；②擁有更豐富的特征分析功能，支持聚類、特征向量歸一化、降維和5種特征選擇方法；③支持更多的機器學(xué)習(xí)算法和更多的評估指標(biāo)；④選擇一種或多種機器學(xué)習(xí)算法進(jìn)行提交，可以返回具有最佳性能的模型等［93］。在應(yīng)用方面，作者從文獻(xiàn)［95］中收集初始數(shù)據(jù)集和獨立測試數(shù)據(jù)集，利用BLOSUM62、CKSAAP、Binary、Z-scales、AAindex、AAC 和EAAC其中不同的分子描述符來進(jìn)行蛋白質(zhì)丙二?；稽c預(yù)測模型的構(gòu)建，最終EAAC編碼模型的AUC值為0.73，與原始工作中報告的AUC 值為0.739 相當(dāng)，表明iLearn可以作為一種方便有效的工具來構(gòu)建相關(guān)的預(yù)測模型。平臺地址為：

https：//ilearn.erc.monash.edu/

3.2.3 SOLart

SOLart線上平臺要求的輸入信息僅僅是蛋白質(zhì)結(jié)構(gòu)，該結(jié)構(gòu)可以由用戶手動上傳，也可以從Protein Data Bank 自動上傳，無需其他額外操作。其原理是在基于序列的特征（如蛋白長度和氨基酸組成）之外，引入了溶解度依賴距離電位、溶劑可及表面積和二級結(jié)構(gòu)等結(jié)構(gòu)特征，并以此訓(xùn)練隨機森林算法構(gòu)建預(yù)測模型。在交叉驗證中，實驗和預(yù)測的溶解度值之間的皮爾森相關(guān)系數(shù)幾乎達(dá)到0.7，表現(xiàn)出了較好的預(yù)測能力［93］。平臺地址為：

http：//babylone.ulb.ac.be/SOLART/index.php

4 總結(jié)

目前人工智能策略在蛋白質(zhì)工程領(lǐng)域的應(yīng)用范圍主要包括蛋白質(zhì)結(jié)構(gòu)預(yù)測、酶功能預(yù)測、蛋白質(zhì)溶解度預(yù)測以及指導(dǎo)智能組合文庫設(shè)計等。在短短數(shù)年中，人工智能策略已經(jīng)在蛋白質(zhì)工程領(lǐng)域展現(xiàn)了顯而易見的應(yīng)用潛力和價值。要進(jìn)一步挖掘人工智能在蛋白質(zhì)工程領(lǐng)域的潛能，提升預(yù)測模型的性能，還需解決許多問題。首先，目前數(shù)據(jù)庫中自動注釋的蛋白質(zhì)的信息質(zhì)量難以讓人信服，手動管理的高質(zhì)量數(shù)據(jù)庫中數(shù)據(jù)量的大小又遠(yuǎn)不如前者，缺少大量可用于訓(xùn)練和驗證的標(biāo)準(zhǔn)化的數(shù)據(jù)。在后續(xù)工作中，應(yīng)該構(gòu)建更加高質(zhì)量的基礎(chǔ)性蛋白質(zhì)序列-結(jié)構(gòu)-功能數(shù)據(jù)庫，有助于更加高效地構(gòu)建人工智能預(yù)測模型。其數(shù)據(jù)集應(yīng)該是相關(guān)的、有代表性的、非冗余的，并且包含通過實驗確定的陽性和陰性數(shù)據(jù)，具有統(tǒng)一的標(biāo)準(zhǔn)格式等［50］。其次，在早期的實驗中，更容易被表征或者具有更好表型的蛋白質(zhì)往往會在后續(xù)工作中進(jìn)行表征和確認(rèn)，而表現(xiàn)不佳的蛋白質(zhì)則會被丟棄，導(dǎo)致數(shù)據(jù)出現(xiàn)偏差，模型的預(yù)測性能下降［96］。此外，人工智能輔助的蛋白質(zhì)工程策略還處于早期階段，大多數(shù)例子中的預(yù)測模型可能無法直接推廣應(yīng)用到其他學(xué)習(xí)任務(wù)中，需要重新進(jìn)行訓(xùn)練和驗證。最后，隨著越來越多的復(fù)雜的人工智能算法被用于蛋白質(zhì)工程，難以對預(yù)測模型的原理進(jìn)行解釋等等。

隨著相關(guān)研究的逐漸深入，最近已經(jīng)有一些針對這些問題的研究。如今，基因功能注釋領(lǐng)域中的自動功能預(yù)測（automatic function prediction，AFP）飛速發(fā)展，雖然還不足以解決上面提到的新蛋白質(zhì)序列表征的問題，但是也已經(jīng)提出一些類似于CASP 競賽性質(zhì)的比賽，如CAFA［97］、EFI［98］和COMBREX［99］等。相信在未來，會出現(xiàn)具有足夠精度的人工智能算法能準(zhǔn)確預(yù)測新蛋白質(zhì)序列的功能，為人工智能輔助的蛋白質(zhì)工程提供大量優(yōu)質(zhì)的數(shù)據(jù)。除此之外，隨著微流控篩選、熒光激活的細(xì)胞分選、噬菌體輔助連續(xù)進(jìn)化等超高通量篩選技術(shù)的突破與二代測序技術(shù)的成熟，二者聯(lián)用產(chǎn)生的蛋白質(zhì)深度突變掃描技術(shù)應(yīng)運而生［100-102］，應(yīng)用它們來獲得大量更全面、更均勻的實驗數(shù)據(jù)是未來重要的發(fā)展方向之一。并且，近幾年人工智能算法仍在飛速發(fā)展，遷移學(xué)習(xí)模型取得了一些進(jìn)展，除了Frances H.Arnold 團(tuán)隊和George M.Church 團(tuán)隊所采用的自然語言算法模型外，自動編碼器和變分自編碼器神經(jīng)網(wǎng)絡(luò)算法也可以從輸入的蛋白質(zhì)序列中生成、提取深層的特征，從而基于序列就可以執(zhí)行多種預(yù)測任務(wù)。例如Debora S.Marks 團(tuán)隊開發(fā)的DeepSequence 僅基于序列就可以預(yù)測突變帶來的影響［103］。最后，人工智能算法的可解釋性也是重要研究方向。相信在未來，能夠清晰明了地解析預(yù)測模型內(nèi)部原理。隨著數(shù)據(jù)和人工智能算法的不斷發(fā)展，性能更好的人工智能預(yù)測模型將會成為蛋白質(zhì)工程的強大工具。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放