近日,谷歌訓練出一種名為ProtCNN的深度學習模型,其可以用于準確預測蛋白質(zhì)序列的功能,使更多未知蛋白質(zhì)序列得到注釋。據(jù)了解,這些注釋是基于主流蛋白質(zhì)家族數(shù)據(jù)庫Pfam構(gòu)建的嚴格基準所進行的評估,Pfam數(shù)據(jù)庫記錄了一系列蛋白質(zhì)家族及其功能注釋。
該研究的成功,令Pfam數(shù)據(jù)庫中蛋白質(zhì)序列的覆蓋范圍擴大了9.5%,超越了過去十年里科學家在此方面的成果,并預測了360種Pfam數(shù)據(jù)庫未注釋過的人類蛋白質(zhì)的功能。
相關(guān)論文以《使用深度學習來注釋蛋白質(zhì)宇宙》為題發(fā)表在Nature Biotechnology上。
相關(guān)論文
伴隨DNA測序成本的降低和宏基因組測序項目的興起,具有蛋白質(zhì)序列功能注釋作用的高效工具對生物技術(shù)的發(fā)展愈加重要。
此前,常用的蛋白質(zhì)序列功能的注釋方法是,在大型標記序列集合上進行成對比對的BLASTp查詢方法和基于signature構(gòu)建的profile隱馬爾可夫模型。
這些方法雖然是有用的,效率卻相對較低。過去5年里,使用這些方法僅讓Pfam數(shù)據(jù)庫中蛋白質(zhì)序列數(shù)量增長了不到5%。
為此,谷歌的研究人員對深度學習模型是否可以補充現(xiàn)有方法進行探究,并提供了能夠更廣泛覆蓋蛋白質(zhì)宇宙的蛋白質(zhì)序列功能預測模型ProtCNN。
ProtCNN模型性能的表現(xiàn)
在蛋白質(zhì)序列的比對過程中,測試數(shù)據(jù)和訓練數(shù)據(jù)之間會存在相似性,這意味著模型性能必須根據(jù)每個保留的測試序列與訓練序列之間的相似性作分層。
通過分析蛋白質(zhì)序列中的隨機和聚類分裂,這里的序列是使用基于相似性的聚類成員而分配給測試或訓練分裂的,研究人員發(fā)現(xiàn),在注釋保留的測試序列時,ProtCNN模型比當前方法在隨機和聚類分裂中產(chǎn)生的錯誤更少。
為確認模型捕捉到了未對齊蛋白質(zhì)序列的結(jié)構(gòu),研究人員使用跨蛋白質(zhì)家族學習的聯(lián)合表示法,一次性學習注釋模型未訓練蛋白質(zhì)家族的序列。
此外,要為更多蛋白質(zhì)序列集帶來注釋,還須進行遠程同源性檢測。遠程同源性檢測是指準確分類訓練數(shù)據(jù)集中并不相似的蛋白質(zhì)序列。
而將ProtCNN模型與現(xiàn)有方法相結(jié)合,則大大提高了遠程同源性檢測的準確性,這對擴大蛋白質(zhì)宇宙的覆蓋范圍至關(guān)重要。
ProtCNN模型的架構(gòu)
研究結(jié)果證實,今后,類似ProtCNN的深度學習模型將是蛋白質(zhì)序列功能注釋研究中的核心支撐技術(shù)。
作為一個以蛋白質(zhì)序列為研究對象的計算生物學者,來自美國德克薩斯大學西南醫(yī)學中心的助理教授叢倩評價該研究道,“我很高興看到優(yōu)秀的生物科學和計算機科學工作者在這個領(lǐng)域做出的嘗試和貢獻。”
她表示,該研究主要探討了通過序列預測蛋白質(zhì)功能,相比于當下正在創(chuàng)造歷史的三維結(jié)構(gòu)預測,這一問題對人工智能來說更有挑戰(zhàn)性,并總結(jié)了具體原因。
對于蛋白質(zhì)功能預測困難的原因,叢倩進行了如下總結(jié)。
首先,蛋白質(zhì)功能的可靠數(shù)據(jù)量并不大,且功能不像結(jié)構(gòu)那樣容易被量化。其次,一般來說相似序列的蛋白質(zhì)在三維結(jié)構(gòu)上也區(qū)別不大,但其功能卻很有可能大相徑庭。最后也是最重要的一點,即嚴格來講,在AlphaFold問世之前,已經(jīng)沒有嚴格意義上的全新三維結(jié)構(gòu)了。所謂的“新”蛋白質(zhì)結(jié)構(gòu)都是已知結(jié)構(gòu)的簡單組合,如果人工智能算法掌握了所有已知結(jié)構(gòu),其將有能力推導出任何一個“新”蛋白質(zhì)序列的結(jié)構(gòu)。
另外,叢倩補充說,自然界中的蛋白質(zhì)應該還有很多未發(fā)現(xiàn)的新功能,而人工智能算法很難在現(xiàn)有技術(shù)框架下預知這類從未見過的功能。
叢倩
不過在谷歌的這項新研究中,其并非在解決預測新功能的問題,而是想要更廣泛、更精確地發(fā)現(xiàn)同樣具有某種已知功能的其他蛋白質(zhì),這有助于人類快速了解一個新物種中絕大多數(shù)蛋白質(zhì)的作用,如跟人類疾病相關(guān)或是具有潛在工業(yè)價值的蛋白質(zhì)。
叢倩稱,她對蛋白質(zhì)領(lǐng)域的這些研究相當感興趣,但對于人工智能是否在這個領(lǐng)域比傳統(tǒng)方法更可靠的問題,其仍存有疑慮。
她表示,“我曾經(jīng)有幾個夢想。第一,通過序列準確的預測蛋白質(zhì)的結(jié)構(gòu);第二,通過序列準確預測蛋白質(zhì)之間的相互作用;第三,通過序列準確預測蛋白質(zhì)的功能?!钡靡嬗谌斯ぶ悄艿娘w速發(fā)展,其夢想或是已經(jīng)實現(xiàn),或是在不久的將來即將實現(xiàn)。
目前,叢倩所在實驗室的主要目標正是通過解決第二個問題來輔助解決第三個問題。她說,事實上,第三個問題才是真能帶來全新科學發(fā)現(xiàn),也是像她這樣的科學工作者最感興趣的問題,其將會在其項目上嘗試這方面的研究。
叢倩表示,希望未來有更多科學家把注意力放到類似更有挑戰(zhàn)性的問題上,帶領(lǐng)人工智能去探索更難定義、更難量化的領(lǐng)域是我們這代人的歷史使命。(綜合整理報道)(編輯/多洛米)