亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能輔助的蛋白質穩(wěn)定性優(yōu)化

        2024-05-20 15:16:03李瑞趙陽張晗楊廣宇
        上海醫(yī)藥 2024年4期
        關鍵詞:人工智能

        李瑞 趙陽 張晗 楊廣宇

        摘 要 蛋白質藥物具有作用機制清晰、作用特異性強、不良反應少等優(yōu)勢,臨床應用前景巨大。蛋白質的穩(wěn)定性是蛋白質藥物的一項非常重要的指標,對于其成藥性、安全性和有效性都至關重要。近年來,人工智能輔助的蛋白質改造工程逐漸發(fā)展成為一種高效的蛋白質分子設計新策略,并被廣泛應用于蛋白質穩(wěn)定性預測、藥物設計和抗體優(yōu)化等方面。本文介紹主要的人工智能輔助的蛋白質穩(wěn)定性優(yōu)化方法,討論不同種類優(yōu)化方法的優(yōu)劣及其在蛋白質藥物設計和優(yōu)化中的應用,探討人工智能在蛋白質穩(wěn)定性設計中的挑戰(zhàn)和前景,以期為研究者們開發(fā)更穩(wěn)定、更高效的蛋白質藥物提供新的思路。

        關鍵詞 人工智能 蛋白質穩(wěn)定性 蛋白質藥物

        中圖分類號:TP399; Q819 文獻標志碼:A 文章編號:1006-1533(2024)07-0010-06

        引用本文 李瑞, 趙陽, 張晗, 等. 人工智能輔助的蛋白質穩(wěn)定性優(yōu)化[J]. 上海醫(yī)藥, 2024, 45(7): 10-15; 75.

        基金項目:國家自然科學基金資助項目(32030063);國家自然科學基金青年科學基金資助項目(BC0800411);廣東省重點領域研發(fā)計劃資助項目(2022B1111050001)

        Artificial intelligence-assisted protein stability optimization

        LI Rui1, ZHAO Yang1, ZHANG Han1, YANG Guangyu1, 2

        (1. State Key Laboratory of Microbial Metabolism, Shanghai Jiao Tong University School of Life Science and Biotechnology, Shanghai 200240, China; 2. Institute of Key Raw Materials, Shanghai Academy of Experimental Medicine, Shanghai 200240, China)

        ABSTRACT Protein drugs have the advantages of strong targeting, clear mechanism of action and fewer adverse reactions, so they have great application prospects in clinic. The stability of protein is one of the most important properties of protein drugs, which is crucial for drugs efficacy, safety and stability. In recent years, protein engineering assisted by artificial intelligence (AI) has been developed into an efficient strategy for protein molecular design, and has been widely used in protein stability prediction, drug design and antibody optimization. In this paper, we introduce several major methods of AI-assisted protein stability optimization, discuss their advantages and disadvantages and their applications in protein drug design and optimization. We also discuss the challenges and prospects of AI in protein stability design. We hope this paper will provide new ideas for researchers to develop more stable and efficient protein drugs.

        KEY WORDS artificial intelligence; protein stability; protein drugs

        蛋白質藥物是指以蛋白質為活性成分的藥物,主要包括單克隆抗體、重組蛋白、抗體-藥物結合物、融合蛋白和重組蛋白疫苗等,具有高特異性、高有效性和較低毒副作用的特點。蛋白質藥物已廣泛用于治療癌癥、自身免疫性疾病、心血管疾病、糖尿病、神經(jīng)系統(tǒng)疾病等,其市場規(guī)模在過去幾年中持續(xù)增長,2020年僅單克隆抗體藥品的全球銷售額就達到1 250億美元,占當年全球藥品總銷售額的15%。蛋白質的穩(wěn)定性是限制蛋白質藥物發(fā)展的主要瓶頸之一。開發(fā)具有高度穩(wěn)定性的蛋白質藥物對于確保藥物的質量、藥效、安全性和方便臨床使用都具有重要意義[1]。

        傳統(tǒng)的蛋白質穩(wěn)定性優(yōu)化方法主要包括定向進化、半理性設計和理性設計等,它們都已廣泛應用于蛋白質的穩(wěn)定性工程[2-3]。隨著計算機技術和人工智能算法的不斷發(fā)展,人工智能方法也開始應用于蛋白質工程,并逐漸發(fā)展成為一種新的蛋白質穩(wěn)定性改造方法[4-6]。相較于傳統(tǒng)的蛋白質穩(wěn)定性改造方法,人工智能輔助的蛋白質穩(wěn)定性工程的優(yōu)點是不需要了解目標蛋白質分子的作用機制和三維結構等信息,也不依賴對突變體文庫的高通量篩選方法,故可有效減輕實驗篩選負擔,提高蛋白質分子改造效率[7-8]。此外,人工智能方法可以學習突變體的不同特征,從數(shù)據(jù)中學習整個蛋白質適應性景觀來避免陷入局部最優(yōu)陷阱[9-10]。因此,通過人工智能輔助的蛋白質穩(wěn)定性優(yōu)化策略,有望基于有限數(shù)量的實驗數(shù)據(jù)來有效設計最具穩(wěn)定性的突變體,此具有非常重要的科學和現(xiàn)實意義。目前,研究者們已開發(fā)出多種人工智能模型,這些模型根據(jù)學習方式可分為監(jiān)督學習模型和無監(jiān)督學習模型,也可根據(jù)算法類型分為回歸模型和分類模型等。在面對如此繁多的模型時,如何選擇適合特定任務的模型成為關鍵問題。本文介紹不同人工智能模型在蛋白質穩(wěn)定性優(yōu)化方面的應用及其優(yōu)缺點,總結人工智能模型在抗體藥物和藥物合成相關酶穩(wěn)定性優(yōu)化方面的應用成果。

        1 人工智能輔助的蛋白質穩(wěn)定性優(yōu)化方法

        人工智能是指通過計算機系統(tǒng)模擬人類智能的能力,這種智能包括理解語言、學習、推理、感知、解決問題和自適應等方面的能力,目的是讓計算機系統(tǒng)能夠執(zhí)行需要人類智能才能完成的任務。人工智能應用于蛋白質穩(wěn)定性優(yōu)化的方法主要依賴機器學習和深度學習算法。機器學習是人工智能的分支領域,其目標是通過使用算法和統(tǒng)計模型,讓計算機系統(tǒng)從數(shù)據(jù)中學習并提高性能,主要算法包括偏最小二乘回歸、支持向量機、決策樹/隨機森林、貝葉斯優(yōu)化、變分自編碼器和神經(jīng)網(wǎng)絡等。深度學習是機器學習的一種特殊形式,其試圖模仿人類大腦的神經(jīng)網(wǎng)絡結構及其工作原理,通過構建多層神經(jīng)網(wǎng)絡來學習復雜的特征和模式,常用算法包括卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)、循環(huán)神經(jīng)網(wǎng)絡、長短時記憶網(wǎng)絡、自編碼器、生成對抗網(wǎng)絡等。根據(jù)上述算法搭建的模型可以分為監(jiān)督學習模型和無監(jiān)督學習模型。監(jiān)督學習模型的特點是在訓練階段使用帶有標記的數(shù)據(jù)集進行學習,通過讓模型學習輸入數(shù)據(jù)和對應的輸出標記之間的關系,使模型能夠對新的、未見過的輸入數(shù)據(jù)進行準確的預測或分類。無監(jiān)督學習模型的特點是在訓練階段使用不帶標記的數(shù)據(jù)集進行學習,讓模型自主在數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在的結構、模式或規(guī)律,而不依賴于預先標記的輸出[11]?;诓煌瑱C器學習算法建立的人工智能模型,根據(jù)其在蛋白質穩(wěn)定性優(yōu)化方面的應用范圍不同,可主要分為如下4類。

        1.1 基于氨基酸物理化學特征的建模

        基于氨基酸物理化學特征的建模是利用氨基酸的物理化學性質來預測蛋白質的性質或行為,將氨基酸的物理化學特征(如氫鍵、疏水效應等)作為輸入特征,通過機器學習模型學習這些特征與蛋白質穩(wěn)定性之間的關系。例如,AAindex利用547個氨基酸物理化學指標來表示氨基酸殘基[12];VHSE給出了20個氨基酸的總共50個物理化學變量,并使用主成分分析方法進行降維,最終得到八維的氨基酸向量表示[13]。相似的還有z-Scales[14]、BLOSUM[15]等。將此類表示與機器學習算法相結合,Chen等[16-17]開發(fā)出2種用于核酸和蛋白質序列分析、預測和可視化的綜合機器學習平臺iLearn和iLearnPlus,這2種平臺集成了12種分類算法、2種集成學習框架和7種深度學習方法用于預測任務,提供19種主要的編碼方案(生成147個特征描述符)用于全面的特征提取,并有能夠適用于具有不同計算機專業(yè)知識用戶的特點。

        基于氨基酸物理化學性質的模型能夠捕捉氨基酸分子間的物理化學相互作用及其特性,這種方法不需要復雜的實驗數(shù)據(jù),容易上手,通常與生物化學和生物物理學的理論基礎相對應,使人更容易解釋和理解模型在蛋白質研究中的作用和意義。但此類模型通常會對氨基酸的性質進行簡化處理,從而忽略更復雜的分子結構及其相互作用,損失部分原始信息。

        1.2 基于蛋白質序列或結構的建模

        早期基于蛋白質序列建模的主要原理是將20種氨基酸表示為不同維度的向量,通過不同氨基酸向量拼接組合來表示蛋白質序列,再與機器學習算法相結合,用于預測蛋白質的穩(wěn)定性,如One-hot[18]、Binary[19]和Identity[20]。隨著蛋白質序列數(shù)據(jù)庫的不斷擴大,機器學習模型能夠通過對大量蛋白質序列進行保守性分析來更全面地理解蛋白質序列與穩(wěn)定性的關系。例如,Benevenuta和Pancotti等[21-22]基于CNN,將突變鄰近氨基酸的局部信息作為輸入,開發(fā)出ACDC模型;Montanucci等[23]使用非線性回歸結合進化信息和統(tǒng)計潛力預測,開發(fā)出DDGun模型。

        隨著結構生物學技術的進步,基于蛋白質序列的模型被廣泛應用于蛋白質工程。例如,Bagley等[24]在Feature方法的基礎上,將每個氨基酸的局部結構先分解為氧、碳、氮和硫通道,然后再將由每種原子類型通道得到的三維位置矩陣堆疊在一起,從而產(chǎn)生四維張量,以此作為模型的輸入[25]。Shroff等[26]優(yōu)化了三維CNN方法,增加了成對電子、氫鍵網(wǎng)絡、溶劑可及性等信息,開發(fā)出網(wǎng)頁版的程序Mutcomputer。由于蛋白質序列數(shù)據(jù)的獲取相對容易,這使得基于蛋白質序列模型的開發(fā)和應用比較廣泛,模型也更加易被理解和解釋。蛋白質晶體結構包含了蛋白質的空間信息、相互作用信息等。因此,基于蛋白質結構的模型在預測蛋白質特性方面具有較高的準確性。然而,基于蛋白質序列或結構的描述符往往具有高維性,而對于特定任務,很難先驗地知道哪種屬性可以預測特定的任務。

        1.3 數(shù)據(jù)驅動的方法

        由于二代測序技術的高通量性和低成本性,蛋白質序列數(shù)據(jù)庫中的數(shù)據(jù)已達上億條,這些數(shù)據(jù)中隱藏著蛋白質氨基酸排列和進化的規(guī)律[27]。AlphaFold2是一種深度學習模型,其能以極高的準確度根據(jù)蛋白質序列預測蛋白質三級結構[28]。蛋白質序列和結構數(shù)據(jù)的擴展推動了蛋白質序列表示方法的發(fā)展和深度學習模型在蛋白質工程中的應用。

        數(shù)據(jù)驅動的方法利用大量已知的蛋白質數(shù)據(jù)集,通過學習蛋白質特征與穩(wěn)定性之間的關系,對未知蛋白質的穩(wěn)定性進行預測。例如,UniRep模型系在一個大型未標記的蛋白質序列數(shù)據(jù)集上訓練,利用循環(huán)神經(jīng)網(wǎng)絡學習提取蛋白質的基本特征,包括生物物理、結構和進化信息,從而形成一個整體的統(tǒng)計表示[29]。通過學習特定任務的局部蛋白質序列信息的eUniRep模型擁有能較UniRep模型更準確地預測蛋白質穩(wěn)定性的能力[30]。DeepMind在Transformer架構[31]的基礎上,開發(fā)了TAPE模型用于處理蛋白質序列數(shù)據(jù)[32],這個模型能夠同時考慮輸入序列的所有位置,而不需要像傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡或CNN那樣依次處理序列中的每個元素。相似的MSATransformer模型通過對編碼數(shù)據(jù)庫中2 600萬條同源蛋白質的多重序列比對來學習蛋白質序列在進化過程中的約束信息[33]。Facebook團隊使用來自Uniref90數(shù)據(jù)集的0.98億條具有進化多樣性的蛋白質序列數(shù)據(jù)訓練了一個具有6.5億個參數(shù)量的Transformer架構ESM-1v模型,該模型在4個深度突變掃描數(shù)據(jù)集上進行了zero-shot零樣本評估并達到了超過基線的水平[34]。類似的還有EVmutation[35]、DeepSequence[36]、ECNet[10]、SESNet[37]等模型。

        最近,基于大模型的蛋白質從頭設計方法也被應用于蛋白質穩(wěn)定性優(yōu)化。這是一項涉及計算方法和實驗驗證的復雜任務,它允許精確地定制蛋白質的結構和功能,以滿足特定的應用需求,如藥物設計、生物催化等;也能拓展已知的蛋白質結構空間,創(chuàng)造出在自然界中不存在的新穎蛋白質結構,從而提供新的功能。例如,F(xiàn)erruz等[38]開發(fā)的ProtGPT2模型。Madani等[39]以包含2.8億條獨特的蛋白質序列數(shù)據(jù)進行訓練,這些蛋白質序列與生物過程、分子功能和分類信息相關的10多個標記相關聯(lián),開發(fā)了ProGen模型。Baker團隊使用trRosetta結構[40]預測神經(jīng)網(wǎng)絡,設計出一種全新的熒光素酶,后者具有高活性和高特異性[41]。此外,ESMIF1[42]、ESMFold[43]、ProteinMPNN[44]等模型也被應用于蛋白質從頭設計以改善蛋白質的穩(wěn)定性。

        數(shù)據(jù)驅動的方法能夠根據(jù)不同的數(shù)據(jù)集和任務自動調(diào)整模型參數(shù)和結構,具有較強的靈活性和適應性,通過以大規(guī)模數(shù)據(jù)集的訓練、分析和學習,數(shù)據(jù)驅動的模型有可能發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的潛在模式和規(guī)律,從而提高模型的準確性和泛化能力,最終提供更加準確的預測和決策。但此類模型往往需要經(jīng)過大規(guī)模數(shù)據(jù)集的訓練,模型的性能很大程度上取決于訓練數(shù)據(jù)的質量和完整性,如果數(shù)據(jù)存在噪聲、缺失或偏差等問題,模型的準確性和穩(wěn)定性會受到很大影響,且模型在訓練過程中很容易出現(xiàn)過度擬合,導致模型在新數(shù)據(jù)上的泛化能力較差,從而出現(xiàn)預測偏差的情況。

        1.4 遷移學習

        遷移學習旨在利用在一個任務上學到的知識來改善對新任務的學習性能。此類模型利用已有的蛋白質穩(wěn)定性數(shù)據(jù)集,將已學到的知識應用到新的蛋白質穩(wěn)定性預測任務中,以提高模型的泛化能力。通過遷移學習,原有數(shù)據(jù)的先驗知識被整合到當前的建模任務中,進一步的訓練稱為微調(diào),微調(diào)過程中原有模型的參數(shù)可保持不變,也可被進一步更新(可看作是在源模型所提取的特征之上構建了一個獨立的新模型)。與使用隨機初始化的參數(shù)從頭開始訓練的模型相比,遷移學習的訓練過程能更快地收斂,且所需數(shù)據(jù)量更少[45]。例如,Chen等[46]提出了一種利用突變結構和進化背景的GVP-MSA模型,該模型通過學習不同蛋白質的適應度景觀,能有效評估目標蛋白質的突變穩(wěn)定性。Pandi等[47]先使用來自UniProt的約150萬條多肽序列作為通用數(shù)據(jù)集對基于變分自編碼器算法的機器學習模型進行預訓練,然后使用約有5 000個已知抗菌肽的數(shù)據(jù)集對預訓練模型進行訓練,最后利用所得模型從頭設計了數(shù)千種抗菌肽,篩選出排名靠前的500種抗菌肽,再結合無細胞生物合成體系進行篩選,鑒定出30種功能性多肽,并通過分子動力學模擬、抗菌活性和毒性進行了表征,最終鑒定出6種具有抗多藥耐藥病原體廣譜活性的新型抗菌肽。Bepler等[48]使用語言模型從大量蛋白質序列數(shù)據(jù)庫中提取信息,并引入一種將蛋白質結構知識編碼到學習表征中的方法搭建了MTLSTM模型。該模型可根據(jù)提供的蛋白質序列,解碼蛋白質的每個位置是否存在跨膜區(qū)域。Bepler等[48]還證明了能夠通過遷移學習來準確地預測蛋白質序列微小變化的功能含義,提高了對蛋白質從序列到表型的預測能力。

        遷移學習模型的數(shù)據(jù)效率高,尤其是在目標領域數(shù)據(jù)稀缺或難以獲取的情況下表現(xiàn)突出,同時可以提高對目標領域的泛化能力和學習效果,使模型更好地適應新的任務或數(shù)據(jù)。相對于從零開始訓練的模型,遷移學習能夠大大減少訓練時間和降低成本,提高模型的開發(fā)效率。但遷移學習的有效性是建立在源領域和目標領域存在相關性或相似性的假設上的,如果這兩領域間的差異較大,遷移學習就可能失效。在某些情況下,遷移學習還可能導致負遷移問題,即源領域的知識對目標領域的學習效果產(chǎn)生負面影響,從而降低模型的性能。綜合來看,遷移學習模型在數(shù)據(jù)稀缺、數(shù)據(jù)效率低的情況下具有明顯優(yōu)勢,但也需要注意領域假設、負遷移問題和領域適應困難等挑戰(zhàn),應合理選擇遷移學習方法并結合具體情況進行調(diào)優(yōu)和改進。

        2 人工智能在蛋白質穩(wěn)定性工程上的應用

        人工智能在蛋白質穩(wěn)定性工程上的應用日益受到關注。研究發(fā)現(xiàn),某些單克隆抗體藥物雖然在體外試驗中表現(xiàn)出有良好的活性,但在臨床試驗階段卻發(fā)現(xiàn)存在體內(nèi)活性降低的問題[49]。因此,在藥物研發(fā)的初期就要兼顧藥效學問題,而抗體藥物的穩(wěn)定性是影響抗體藥效學的關鍵因素之一:首先,抗體的高親和力和高特異性都需要以穩(wěn)定的結構為基礎,這是其產(chǎn)生預期生物學功能的根本保障;其次,抗體的穩(wěn)定性越高,其新生肽鏈在細胞內(nèi)裝配時產(chǎn)生錯誤折疊的概率就越低,可溶性表達量也越高[50-51]。

        雖然旨在提高蛋白質藥物穩(wěn)定性的新技術或手段較多,但目前仍以物理和化學兩種策略為主。其中,物理策略主要通過改變劑型或調(diào)整緩沖液組分來達到提高蛋白質穩(wěn)定性的目的,化學策略則主要是通過對蛋白質結構進行修飾來達到蛋白質穩(wěn)定的目的。最近,有研究者通過結合不同的深度學習方法來設計抗體高度可變的互補決定區(qū)的序列和結構,以增強抗體的功能或某些特性,包括溶解度、聚集傾向、穩(wěn)定性和免疫原性等,這些性能對確??贵w能夠制造和臨床應用至關重要。例如,Villegas-Morcillo等[52]開發(fā)的DiffAb模型允許在考慮抗體溶解度和折疊穩(wěn)定性等關鍵屬性的同時,根據(jù)抗原結構條件化地設計抗體的互補決定區(qū),從而增強抗體的穩(wěn)定性。Mason等[53]基于CNN開發(fā)了一種深度學習方法,利用已獲準上市的曲妥珠單抗作為對照,搜索了包含7 200萬條潛在抗體DNA序列的數(shù)據(jù)庫,對經(jīng)過計算優(yōu)化的候選抗體變體序列進行實驗表征,確定了高親和力、高表達力、高熱穩(wěn)定性和去免疫化的抗體變體,并分析了前10種具有最高親和力的抗體變體的可表達性、熱穩(wěn)定性和免疫潛力,發(fā)現(xiàn)這些抗體變體的熱穩(wěn)定性都與曲妥珠單抗相當或更好,而穩(wěn)定的抗體變體可大大降低免疫原性的風險。Hie等[54]報告了一種能夠利用通用蛋白質語言模型高效演化人類抗體的方法,該方法通過提出在進化上是合理的突變來改進抗體性能,結果將4種臨床相關的高度成熟抗體的結合親和力提高了7倍,將3種未成熟抗體的結合親和力提高了160倍,且許多設計還展現(xiàn)出有良好的熱穩(wěn)定性和活性。

        人工智能模型也已應用于酶的熱穩(wěn)定性優(yōu)化。酶是一類重要的生物催化劑,許多酶在藥物合成中也有著廣泛的應用。熱穩(wěn)定性高的酶不僅可以擴展其在醫(yī)藥領域的應用范圍,而且還有助于提高生產(chǎn)效率、降低生產(chǎn)成本。例如,谷氨酰胺轉氨酶可以催化氨基酸和α-酮酸之間的轉氨反應,從而合成手性胺類化合物。谷氨酰胺轉氨酶也可用于合成一系列具有生物活性的分子,包括藥物候選化合物、生物標志物等。Wang等[55]開發(fā)了一種自動化腳本,結合分子動力學模擬,使谷氨酰胺轉氨酶的熱穩(wěn)定性和催化活性得到顯著提高,其中熱穩(wěn)定性較已報告的最高水平提高4.8倍。羰基還原酶是一類在生物體內(nèi)廣泛存在的酶,其可作為生物催化合成過程中的催化劑,參與對手性底物的還原反應;也能將藥物結構中的酮基、羰基等官能團還原為羥基官能團,形成藥物的代謝產(chǎn)物。Xu等[56]使用計算工具FoldX、I-Mutant 3.0和DeepDDG成功預測了羰基還原酶LsCRM4柔性位點突變引起的穩(wěn)定性變化,并證實12種虛擬篩選的突變體具有熱穩(wěn)定性,其中11種突變體具有高熱穩(wěn)定性。乳酸脫氫酶可以催化酒石酸鹽與煙酰胺腺嘌呤二核苷酸之間的氧化還原反應,將酒石酸鹽還原為對映異構體的乳酸,這種反應是手性醇合成的關鍵步驟之一,在藥物合成中應用廣泛。Zhou等[57]使用基于蛋白質晶體結構的人工智能方法提高了乳酸脫氫酶的熱穩(wěn)定性。

        3 結語與展望

        蛋白質穩(wěn)定性優(yōu)化是生物藥物研發(fā)中的一項關鍵工作,直接關系到藥物的有效性、安全性和市場競爭力。近年來,人工智能輔助的蛋白質穩(wěn)定性改造工程逐漸發(fā)展成為一種高效的蛋白質分子設計新策略,并在蛋白質藥物設計及其優(yōu)化中得到廣泛應用。使用人工智能的方法,能在大規(guī)模樣本中快速識別出具有高穩(wěn)定性的蛋白質藥物候選物,從而加速研發(fā)進程;也可更有針對性地測試最有希望的變體,降低試錯成本,提高研發(fā)效率。

        然而,人工智能模型的應用也存在一些缺點,如模型往往需要大量高質量的數(shù)據(jù)進行訓練,遷移學習方法并不一定適用于所有小規(guī)模數(shù)據(jù)集預測模型的構建等。目前已見報告的模型一般是基于數(shù)據(jù)庫中已有的數(shù)據(jù)進行訓練和評估,而并未在特定的蛋白質穩(wěn)定性優(yōu)化任務中進一步驗證現(xiàn)有模型的魯棒性。另外,當前蛋白質熱穩(wěn)定性數(shù)據(jù)庫還存在數(shù)據(jù)量有限、實驗條件不統(tǒng)一、數(shù)據(jù)不平衡和缺少多點突變數(shù)據(jù)等問題。預期不久的將來可能會有更精確和更高效的計算方法應用于蛋白質穩(wěn)定性優(yōu)化及藥物篩選,由此出現(xiàn)更準確的預測模型,且其能夠基于有限的實驗數(shù)據(jù)有效探尋蛋白質的適應性景觀,從而準確預測全局最優(yōu)突變體,推動蛋白質穩(wěn)定性改造及藥物研發(fā)技術的發(fā)展。

        參考文獻

        [1] 張曉騰, 韓建軍, 白燕. 蛋白類藥物強制降解研究進展[J].生物技術進展, 2022, 12(2): 236-242.

        [2] Magliery TJ. Protein stability: computation, sequence statistics, and new experimental methods [J]. Curr Opin Struct Biol, 2015, 33: 161-168.

        [3] Socha RD, Tokuriki N. Modulating protein stability—directed evolution strategies for improved protein function [J]. FEBS J, 2013, 280(22): 5582-5595.

        [4] Siedhoff NE, Schwaneberg U, Davari MD. Machine learningassisted enzyme engineering [J]. Methods Enzymol, 2020, 643: 281-315.

        [5] Wang J, Cao H, Zhang JZH, et al. Computational protein design with deep learning neural networks [J]. Sci Rep, 2018, 8(1): 6349.

        [6] Wu Z, Kan SBJ, Lewis RD, et al. Machine learning-assisted directed protein evolution with combinatorial libraries[J]. Proc Natl Acad Sci U S A, 2019, 116(18): 8852-8858. Erratum in: Proc Natl Acad Sci U S A, 2020, 117(1): 788-789.

        [7] Singh N, Malik S, Gupta A, et al. Revolutionizing enzyme engineering through artificial intelligence and machine learning [J]. Emerg Top Life Sci, 2021, 5(1): 113-125.

        [8] Thean DGL, Chu HY, Fong JHC, et al. Machine learningcoupled combinatorial mutagenesis enables resource-efficient engineering of CRISPR-Cas9 genome editor activities [J]. Nat Commun, 2022, 13(1): 2219.

        [9] Yang KK, Wu Z, Arnold FH. Machine-learning-guided directed evolution for protein engineering [J]. Nat Methods, 2019, 16(8): 687-694.

        [10] Luo Y, Jiang G, Yu T, et al. ECNet is an evolutionary contextintegrated deep learning framework for protein engineering[J]. Nat Commun, 2021, 12(1): 5743.

        [11] Song H, Bremer BJ, Hinds EC, et al. Inferring protein sequence-function relationships with large-scale positiveunlabeled learning [J]. Cell Syst, 2021, 12(1): 92-101.e8.

        [12] Kawashima S, Pokarowski P, Pokarowska M, et al. AAindex: amino acid index database, progress report 2008 [J]. Nucleic Acids Res, 2008, 36(Database issue): D202-D205.

        [13] Mei H, Liao ZH, Zhou Y, et al. A new set of amino acid descriptors and its application in peptide QSARs [J]. Biopolymers, 2005, 80(6): 775-786.

        [14] Sandberg M, Eriksson L, Jonsson J, et al. New chemical descriptors relevant for the design of biologically active peptides. A multivariate characterization of 87 amino acids [J]. J Med Chem, 1998, 41(14): 2481-2491.

        [15] van Westen GJ, Swier RF, Wegner JK, et al. Benchmarking of protein descriptor sets in proteochemometric modeling (part 1): comparative study of 13 amino acid descriptor sets [J]. J Cheminform, 2013, 5(1): 41.

        [16] Chen Z, Zhao P, Li F, et al. iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data [J]. Brief Bioinform, 2020, 21(3): 1047-1057.

        [17] Chen Z, Zhao P, Li C, et al. iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization [J]. Nucleic Acids Res, 2021, 49(10): e60.

        [18] Yoo PD, Zhou BB, Zomaya AY. Machine learning techniques for protein secondary structure prediction: an overview and evaluation [J]. Curr Bioinform, 2008, 3: 74-86.

        [19] White G, Seffens W. Using a neural network to backtranslate amino acid sequences [J]. Electron J Biotechnol, 1998, 1(2):17-18.

        [20] Xu Y, Verma D, Sheridan RP, et al. A deep dive into machine learning models for protein engineering [J]. Chem Inf Model, 2020, 60(6): 2773-2790.

        [21] Benevenuta S, Pancotti C, Fariselli P, et al. An antisymmetric neural network to predict free energy changes in protein variants [J]. J Phys D Appl Phys, 2021, 54(24): 245403.

        [22] Pancotti C, Benevenuta S, Repetto V, et al. A deep-learning sequence-based method to predict protein stability changes upon genetic variations [J]. Genes (Basel), 2021, 12(6): 911.

        [23] Montanucci L, Capriotti E, Frank Y, et al. DDGun: an untrained method for the prediction of protein stability changes upon single and multiple point variations [J]. BMC Bioinformatics, 2019, 20(Suppl 14): 335.

        [24] Bagley SC, Altman RB. Characterizing the microenvironment surrounding protein sites [J]. Protein Sci, 1995, 4(4): 622-635.

        [25] Torng W, Altman RB. 3D deep convolutional neural networks for amino acid environment similarity analysis [J]. BMC Bioinformatics, 2017, 18(1): 302.

        [26] Shroff R, Cole AW, Diaz DJ, et al. Discovery of novel gainof-function mutations guided by structure-based deep learning[J]. ACS Synth Biol, 2020, 9(11): 2927-2935.

        [27] UniProt Consortium. UniProt: the Universal Protein Knowledgebase in 2023 [J]. Nucleic Acids Res, 2023, 51(D1): D523-D531.

        [28] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold [J]. Nature, 2021, 596(7873): 583-589.

        [29] Alley EC, Khimulya G, Biswas S, et al. Unified rational protein engineering with sequence-based deep representation learning [J]. Nat Methods, 2019, 16(12): 1315-1322.

        [30] Biswas S, Khimulya G, Alley EC, et al. Low-N protein engineering with data-efficient deep learning [J]. Nat Methods, 2021, 18(4): 389-396.

        [31] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Adv Neural Inf Process Syst, 2017, 30: 5998-6008.

        [32] Rao R, Bhattacharya N, Thomas N, et al. Evaluating protein transfer learning with TAPE [J]. Adv Neural Inf Process Syst, 2019, 32: 9689-9701.

        [33] Rao R, Liu J, Verkuil R, et al. MSA transformer [EB/OL].[2024-01-27]. https://doi.org/10.1101/2021.02.12.430858.

        [34] Meier J, Rao R, Verkuil R, et al. Language models enable zero-shot prediction of the effects of mutations on protein function [EB/OL]. [2024-01-27]. https://doi. org/10.1101/2021.07.09.450648.

        [35] Hopf TA, Ingraham JB, Poelwijk FJ, et al. Mutation effects predicted from sequence co-variation [J]. Nat Biotechnol, 2017, 35(2): 128-135.

        [36] Riesselman AJ, Ingraham JB, Marks DS. Deep generative models of genetic variation capture the effects of mutations [J]. Nat Methods, 2018, 15(10): 816-822.

        [37] Li M, Kang L, Xiong Y, et al. SESNet: sequence-structure feature-integrated deep learning method for data-efficient protein engineering [J]. J Cheminform, 2023, 15(1): 12.

        [38] Ferruz N, Schmidt S, H?cker B. ProtGPT2 is a deep unsupervised language model for protein design [J]. Nat Commun, 2022, 13(1): 4348.

        [39] Madani A, Krause B, Greene ER, et al. Large language models generate functional protein sequences across diverse families [J]. Nat Biotechnol, 2023, 41(8): 1099-1106.

        [40] Yang J, Anishchenko I, Park H, et al. Improved protein structure prediction using predicted interresidue orientations[J]. Proc Natl Acad Sci U S A, 2020, 117(3): 1496-1503.

        [41] Yeh AH, Norn C, Kipnis Y, et al. De novo design of luciferases using deep learning [J]. Nature, 2023, 614(7949): 774-780.

        [42] Hsu C, Verkuil R, Liu J, et al. Learning inverse folding from millions of predicted structures [EB/OL]. [2024-01-27]. https://doi.org/10.1101/2022.04.10.487779.

        [43] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [J]. Science, 2023, 379(6637): 1123-1130.

        [44] Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning-based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.

        [45] 夏彬彬, 王軍. 基于深度學習的蛋白質建模與設計[J]. 生物工程學報, 2021, 37(11): 3863-3879.

        [46] Chen L, Zhang Z, Li Z, et al. Learning protein fitness landscapes with deep mutational scanning data from multiple sources [J]. Cell Syst, 2023, 14(8): 706-721.e5.

        [47] Pandi A, Adam D, Zare A, et al. Cell-free biosynthesis combined with deep learning accelerates de novodevelopment of antimicrobial peptides [J]. Nat Commun, 2023, 14(1): 7197.

        [48] Bepler T, Berger B. Learning the protein language: evolution, structure, and function [J]. Cell Syst, 2021, 12(6): 654-669.e3.

        [49] Grawe RW, Knotts TA 4th. The effects of tether placement on antibody stability on surfaces [J]. J Chem Phys, 2017, 146(21): 215102.

        [50] Wu SJ, Luo J, ONeil KT, et al. Structure-based engineering of a monoclonal antibody for improved solubility [J]. Protein Eng Des Sel, 2010, 23(8): 643-651.

        [51] 王傳杰, 馮健男, 王晶. 單克隆抗體藥物穩(wěn)定性影響因素及優(yōu)化策略[J]. 中國免疫學雜志, 2021, 37(17): 2154-2160.

        [52] Villegas-Morcillo A, Weber JM, Reinders MJT. Guiding diffusion models for antibody sequence and structure codesign with developability properties [EB/OL]. [2024-01-27]. https://doi.org/10.1101/2023.11.22.568230.

        [53] Mason DM, Friedensohn S, Weber CR, et al. Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning [J]. Nat Biomed Eng, 2021, 5(6): 600-612.

        [54] Hie BL, Shanker VR, Xu D, et al. Efficient evolution of human antibodies from general protein language models [J/ OL]. Nat Biotechnol, 2023 Apr 24. [2024-01-27]. https://doi. org/10.1038/s41587-023-01763-2.

        [55] Wang X, Du J, Zhao B, et al. Significantly improving the thermostability and catalytic efficiency of Streptomyces mobaraenesis transglutaminase through combined rational design [J]. J Agric Food Chem, 2021, 69(50): 15268-15278.

        [56] Xu SY, Chu RL, Liu HT, et al. Computer-directed rational design enhanced the thermostability of carbonyl reductase LsCR for the synthesis of ticagrelor precursor [J/OL]. Biotechnol Bioeng, 2024 Jan 24. [2024-01-27]. https://doi. org/10.1002/bit.28662.

        [57] Zhou Y, Sun X, Hu J, et al. Enhanced catalytic activity and stability of lactate dehydrogenase for cascade catalysis of D-PLA by rational design [J]. J Biotechnol, 2024, 382: 1-7.

        猜你喜歡
        人工智能
        我校新增“人工智能”本科專業(yè)
        用“小AI”解決人工智能的“大”煩惱
        汽車零部件(2020年3期)2020-03-27 05:30:20
        當人工智能遇見再制造
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        AI人工智能解疑答問
        人工智能與就業(yè)
        基于人工智能的電力系統(tǒng)自動化控制
        人工智能,來了
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        人工智能來了
        學與玩(2017年12期)2017-02-16 06:51:12
        国产亚洲视频在线播放| 91精品日本久久久久久牛牛| 亚洲一区二区三区综合网| 成人影院在线观看视频免费 | 日韩无码视频淫乱| 亚洲乱精品中文字字幕| 国产精品美女久久久久久大全| av永远在线免费观看| 虎白m粉嫩小在线播放| 亚洲av永久无码精品网站在线观看| 一本色综合亚洲精品蜜桃冫| 无码人妻丰满熟妇区免费| 精品在线视频免费在线观看视频| 人妻少妇69久久中文字幕| 在熟睡夫面前侵犯我在线播放| 欧美成人一级视频| 亚洲av一二三又爽又爽又色| 99人中文字幕亚洲区三| 最近中文字幕大全在线电影视频| 精品人妻VA出轨中文字幕| 91国语对白在线观看| 精品高朝久久久久9999| 四川少妇大战4黑人| 欧美日韩激情在线一区二区| 91亚洲免费在线观看视频| 97人妻人人做人碰人人爽| 中文在线а√天堂官网| 亚洲国产精品夜男人天堂| 色婷婷久久亚洲综合看片| 国産精品久久久久久久| 成人午夜无人区一区二区| 美国黄色av一区二区| 欧美丰满熟妇性xxxx| 国模私拍福利一区二区| 视频福利一区二区三区| 日韩无码专区| 亚洲av无码精品色午夜果冻不卡| 亚洲片一区二区三区| 精品午夜中文字幕熟女| 国产午夜av秒播在线观看| 国产看黄网站又黄又爽又色|