辛志奇, 趙航, 汪海, 路鐵剛*
1.中國農(nóng)業(yè)科學院生物技術研究所,北京100081;2.中國農(nóng)業(yè)大學國家玉米改良中心,北京100193
隨著全球人口數(shù)量不斷增加,到2050 年,全球?qū)Z食的需求預計將比2005 年增加100%~110%[1-2]。為滿足人們對農(nóng)作物產(chǎn)品日益增長的需求,創(chuàng)新育種技術顯得尤為重要。在漫長的農(nóng)業(yè)歷史中,育種主要經(jīng)歷了三個階段:通過觀察植株表型,選育優(yōu)良自交系的傳統(tǒng)育種;應用統(tǒng)計學、數(shù)量遺傳學預先設計雜交育種實驗,獲得雜種優(yōu)勢的雜交育種;綜合單倍體育種、分子標記育種和轉基因育種的現(xiàn)代生物工程育種[1]。Edward S Buckler[2]總結了過去的三個時代,并提出了“育種4.0”的概念。王向峰等[1]提出了在“育種4.0”時代深度融合生命科學、信息科學和育種科學的理念。人工智能設計育種是由人工智能與育種相結合,能夠給傳統(tǒng)育種帶來革命性的改變。它包括利用深度學習和機器學習把基因組學、轉錄組學、蛋白質(zhì)組學、表觀遺傳學、代謝組學和表型組學的多組學數(shù)據(jù)結合,構建遺傳調(diào)控網(wǎng)絡,實現(xiàn)對作物表型的精準預測;深度學習指導基因編輯,實現(xiàn)對作物表型的控制和設計;深度學習在合成生物學的應用會使作物的設計育種更加自由高效。
人工智能這一概念最早在20 世紀40 年代被提出,但是受計算能力的限制,人工智能領域一直處于發(fā)展的低谷。進入21 世紀后,計算機性能的大幅提升(尤其是GPU 的發(fā)展)使得人工智能領域重新回到人們的視野。目前,人工智能已被應用于多個領域。
人工智能領域最主要的研究方法是機器學習,機器學習按學習形式可以分為監(jiān)督學習和無監(jiān)督學習兩種。監(jiān)督學習是指在訓練實例中學習輸入變量數(shù)據(jù)和其因變量(或叫標簽)之間的關系,然后以此在新實例中預測結果,主要應用于回歸和分類問題。例如,可以用大量歷史氣象數(shù)據(jù)訓練機器學習模型,該模型可以以過去的天氣數(shù)據(jù)為預測因子,預測未來的天氣。如果預測的目標變量為離散變量,則該機器學習任務稱為分類問題(classification);如果預測的目標變量為連續(xù)變量,則該機器學習任務稱為回歸問題(regression)。在機器學習中有很多監(jiān)督學習算法及應用,例如結合統(tǒng)計學的隱馬爾可夫模型(hidden Markov model, HMM)和機器學習的支持向量機(support vector machine,SVM)可以快速準確預測和區(qū)分DNA 和RNA 結合殘基的方法,這有利于進一步預測蛋白質(zhì)-DNA 和蛋白質(zhì)-RNA 相互作用的序列[3-4];用隨機森林和支持向量機模型通過DNA 甲基化數(shù)據(jù)精確診斷癌癥[5]。無監(jiān)督學習是指在訓練實例中輸入沒有因變量(或標簽)的數(shù)據(jù),又稱為歸納性學習,典型的無監(jiān)督學習包括降維(dimensionality reduction)和聚類(clustering),適合學習高維度數(shù)據(jù),例如組學數(shù)據(jù)[6-7]。
深度學習是機器學習領域的一個相對年輕的分支,已經(jīng)成為機器學習領域最流行和最強大的技術之一[8]。人工神經(jīng)網(wǎng)絡以數(shù)學模型模擬神經(jīng)元活動,包括輸入層、隱藏層和輸出層三個部分(圖1),其深度神經(jīng)網(wǎng)絡用多層的隱藏層使神經(jīng)網(wǎng)絡的性能大幅提高,同時需要的計算能力和數(shù)據(jù)量也大幅提升。
圖1 人工神經(jīng)網(wǎng)絡層次Fig1 Artificial neural network
卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)是深度神經(jīng)網(wǎng)絡的一種,也是基礎的深度學習模型,用卷積這一數(shù)學計算方式提取數(shù)據(jù)中的特征信息,再經(jīng)深度神經(jīng)網(wǎng)絡處理,可以大大增加神經(jīng)網(wǎng)絡的性能。卷積神經(jīng)網(wǎng)絡更擅長提取結構信息。目前已經(jīng)有很多利用CNN 解決基因組學問題的例子。例如,Babak 等[4]預測DNA 和RNA與蛋白質(zhì)的結合位點,Hashemifar 等[9]預測蛋白質(zhì)之間相互作用;Gao 等[10]基于基因序列預測poly(A)位點;Zhou等[11]預測了人類基因組變異對基因表達調(diào)控和疾病的影響;Zhou 和Wang等[12-13]預測了非編碼基因突變的影響;Jost 等[14]結合CRISPR技術實現(xiàn)調(diào)控基因表達量變化等。另一種監(jiān)督學習模型,循環(huán)神經(jīng)網(wǎng)絡(neutral network, RNN)加入時間步(timestep)概念,使其具有記憶性和參數(shù)共享的特點,適合處理有時間信息的數(shù)據(jù),廣泛應用于自然語言處理領域。在生物學領域常被用來預測序列的功能。例如,Shen 等[16]結合RNN 和k-mer[15]預測轉錄因子識別位點;Li 等[17]利用CNN和RNN 從氨基酸序列預測酶的生化功能;Quang等[18]利用RNN 和CNN 預測非編碼基因的功能等。值得注意的是,有報道指出,CNN 在提取特征方面更高效,而釋義DNA 序列方面,來自自然語言處理領域的k-mer 方法顯得比CNN 和RNN 更優(yōu)秀[19]。
自編碼器(auto-encoder)是深度學習中的無監(jiān)督學習的重要組成部分。自編碼器分為編碼和解碼兩部分。編碼部分負責將輸入數(shù)據(jù)低維化處理,也可以理解為特征提?。唤獯a部分負責將編碼得到的結果恢復到原始輸入的形式,它是理解復雜深度學習模型的關鍵,可以把數(shù)據(jù)中的關鍵數(shù)據(jù)提煉并展現(xiàn)出來,解決了深度學習模型訓練過程的不可見問題。目前自編碼器在圖像識別、降噪、色彩化方面有廣泛應用。Zhang 等[7]用自編碼器整合多組學數(shù)據(jù),有效緩解了生物領域在運用人工智能模型時出現(xiàn)的“少樣本,高維度特征”的問題;用自編碼器解碼深度學習模型并結合全基因組關聯(lián)分析(genome wide association study,GWAS)的技術觀察到未分類的基因在深度學習模型的不同深度中被有序的分類[20]。
生成模型技術作為深度學習領域的重要分支,它既不屬于監(jiān)督學習也不屬于無監(jiān)督學習。主要包括生成式對抗網(wǎng)絡(generative adversarial network, GAN)和變分自動編碼器(encoder)兩種模型。
生成式對抗網(wǎng)絡[21]分別建立并訓練生成模塊和判別模塊,將生成模塊生產(chǎn)的偽數(shù)據(jù)交由判別模塊判斷真?zhèn)危ㄟ^這種對抗學習的方式進行訓練,可以生成真實度高的數(shù)據(jù)。目前在生物醫(yī)藥方面已經(jīng)有相關的文章報道:基于生成式對抗網(wǎng)絡設計蛋白酶抑制劑[22];RamaNet 模型從頭設計合成螺線蛋白骨架[23];基于生成式對抗網(wǎng)絡設計合成大腸桿菌啟動子序列[24]。
變分自動編碼器[25]與生成式對抗網(wǎng)絡同屬生成模型家族成員,兩種模型都致力于生成更接近真實的數(shù)據(jù),但是二者的實現(xiàn)思路不同。變分自動編碼器在結構方面與自動編碼器有相似之處,也是由編碼器和解碼器組成(也被稱作識別模型和生成模型),并且二者都是學習輸入數(shù)據(jù)的潛在向量并試圖重建輸入數(shù)據(jù)。不同的是,變分自動編碼器學習潛在向量的分布關系,在潛在空間中是連續(xù)的,再由生成模型構建輸入數(shù)據(jù);生成式對抗網(wǎng)絡由生成器和判別器組成,生成器負責創(chuàng)造數(shù)據(jù),而判別器負責評價生成器創(chuàng)造的數(shù)據(jù)是否能夠以假亂真。Davidsen 等[26]用變分自動編碼器模型生成T細胞受體的蛋白質(zhì)序列。
目前人工智能在農(nóng)業(yè)上應用的報道主要是對圖像和視頻進行識別,如對玉米照片進行識別和對玉米干旱脅迫下的表型進行分類[27];視頻檢測植物生長早期干旱脅迫[28];視頻識別水稻蟲害和病害[29];以擬南芥為例基于植物圖像對植物表型分類[30-31]等。生物的遺傳信息是沿著中心法則傳遞的,想對植物基因進行設計,表型精準預測就一定要對基因組、轉錄組、蛋白質(zhì)組、表觀遺傳組甚至是代謝組規(guī)則有更深的認識。近年來,在基因組學領域,圍繞各種分子表型發(fā)展出了一系列基于二代測序的高通量技術,如轉錄組技術、開放染色質(zhì)分析技術、DNA-轉錄因子互作技術[32]等。深度學習技術可以對這些大規(guī)模數(shù)據(jù)集進行建模。
深度學習模型建立首先遇到的一個問題就是生物學數(shù)據(jù)該以何種形式輸入到人工智能模型中,這個問題在基因組和轉錄組已經(jīng)有了統(tǒng)一的答案。One-hot 編碼方式可以高效地將基因組和轉錄組數(shù)據(jù)儲存在電腦中作為輸入數(shù)據(jù)。將基因的A、T、G、C 4 種堿基儲存在一個4×N 的矩陣中,每一列只儲存1 個堿基(圖2),這個方法可以將N bp的基因數(shù)據(jù)輸入模型。
圖2 One-hot編碼Fig.2 One-hot encoding
當建立機器學習模型時,觀測數(shù)據(jù)通常被隨機分為訓練集(用于訓練模型)、驗證集(用于確定模型結構和超參數(shù)),以及測試集(用于評估模型的性能)。這種隨機劃分能夠避免數(shù)據(jù)間存在規(guī)律性特征而得出準確率虛高的模型。訓練集/測試集的劃分應盡量保持數(shù)據(jù)分布的一致性,避免混雜因素(confounder)對最終結果的影響。最常用的訓練集/測試集分割方法為交叉驗證法。在訓練集上的準確度高于在測試集上的準確度,這種現(xiàn)象被稱為過擬合(over-fitting)。有幾種情況會導致過擬合。一個通常出現(xiàn)的問題是特征空間中的維度有時大大超過觀測值。例如,當從基因組變體預測一個表型時,檢測到的基因組單核苷酸SNP數(shù)目幾乎總是超過植物基因型的數(shù)目。在這種情況下,可以使用主成分分析(principal component analysis,PCA)和自動編碼器[11-12]等降維技術來減少特征的數(shù)目。然而,在處理基因組學中的問題時,過擬合有時候是隱藏的。例如,當一個基因家族的成員被劃分為訓練集和驗證、測試集時,模型將學習家族特異性的分子特征,并高估預測準確性。
各個組學數(shù)據(jù)都有被人工智能挖掘有用信息的巨大潛力。在DNA 層次上,Umarov 等[33]利用CNN 構建了啟動子的預測模型,分析了幾種原核和真核生物的啟動子序列特征,包括人、老鼠、植物(擬南芥)和細菌(大腸桿菌和枯草芽孢桿菌)。DanQ 是一種將CNN 和雙向長短期記憶循環(huán)神經(jīng)網(wǎng)絡(BLSTM)相結合的混合框架,用于從頭預測非編碼區(qū)的功能。DanQ 學習了一種調(diào)節(jié)語法來改善預測準確性,并為非編碼基因組區(qū)域提供了新的見解[18]。 DanQ 還結合 CNN 和 BLSTM 在序列中從頭預測非編碼區(qū)功能[18]。Sample 等[34]使用CNN 和遺傳算法精準預測了人類5’UTR 變體對核糖體裝載的影響。
在RNA 水平上,使用循環(huán)神經(jīng)網(wǎng)絡(neutral network,RNN)在人類 mRNA 和 lncRNA 序列上訓練了一個門控RNN,然后用它來預測RNA 分子是否編碼蛋白質(zhì)[35]。使用 CNN 預測人類 5’UTR 變異對核糖體裝載的影響[34]。他們將28 萬個隨機的5’UTR 的多聚體分析與深度學習相結合,建立了一個模型,從人類5’UTR 序列預測翻譯效率。此外,DeepChrome 是一個從組蛋白修飾數(shù)據(jù)預測基因表達量的CNN,能夠自動提取重要特征之間的復雜交互作用[36]。為了預測組織特異性的基因表達,研究人員將CNN 與空間特征變換和L2 正則化線性模型相結合,建立了ExPecto模型[37]。
在蛋白質(zhì)水平上,為了在從頭生成的肽序列中提取重要的氨基酸特征,利用CNN 方法開發(fā)了DeepNovo[38]。為了預測蛋白質(zhì)的二級結構,使用了相對溶劑可及性和殘基間接觸映射數(shù)據(jù)訓練了深度學習模型rawMSA[39]。最近,谷歌的Alpha-Fold 利用深度學習模型預測蛋白質(zhì)的三級結構,其精確度遠超傳統(tǒng)機器學習方法[40]。此外,深度學習模型也用來預測蛋白質(zhì)—蛋白質(zhì)的相互作用。DPPI 是一種能夠從蛋白質(zhì)序列信息預測蛋白相互作用和蛋白二聚體的深度學習模型[41]。DEEPre 可以從蛋白質(zhì)序列預測酶的類別,利用該模型可以發(fā)掘在宏基因組、工業(yè)生物技術和人類疾病中起重要功能的蛋白質(zhì)[42]。
除了用各組學數(shù)據(jù)分別預測之外,Ma 等[7]將各組學數(shù)據(jù)整合,使生物學數(shù)據(jù)更立體,與表型相關的信息也會更豐富準確,同時也會有效緩解人工智能與生物學結合領域一直存在的問題,即生物學“數(shù)據(jù)特征維度高但樣本少”的問題,Ma 等[7]也指出這樣做的難點在于各組學數(shù)據(jù)的信息不均勻。
作物自然群體中存在著海量的自然變異,其中能夠影響作物表型的變異稱為功能變異。功能變異位點的不同等位變異具有不同的表型效應,可以劃分為有利等位變異和有害等位變異。作物育種很大程度上可以視為有利等位變異的富集(也可以從另一個方面看做有害等位變異的清除)。過去的30 年被概括為育種3.0 時代,在這一歷史階段,獲取高通量基因型數(shù)據(jù)和表型數(shù)據(jù)的成本不斷降低,同時通過關聯(lián)分析和連鎖分析克隆了大量控制重要農(nóng)藝性狀的關鍵位點。以此為基礎,分子標記輔助選擇技術、基因組預測技術在作物育種中逐漸成為常規(guī)技術。未來我們將進入一個新的育種歷史階段:育種4.0。在這一階段,人工智能將主要從三個方面促進設計育種發(fā)展:①發(fā)掘功能變異,指導精準雜交育種。通過各生物組學數(shù)據(jù)和環(huán)境數(shù)據(jù)預測出作物的產(chǎn)量和表型性狀,從而實現(xiàn)簡單化精準化的預測作物復雜優(yōu)良性狀。②設計有利等位變異,指導基因編輯育種。從基因水平、轉錄水平,以人工智能模型指導基因編輯,進一步細致調(diào)控基因表達,從而改良性狀。③設計具有特定功能的基因組元件,指導合成生物學。創(chuàng)造新的DNA 元素、基因,甚至具有某種特定功能的調(diào)控通路,并將其應用于作物育種。
目前大多數(shù)研究都聚焦于人工智能進行分類和回歸的能力。Wang 等[19]的文章中提到人工智能的生成模型可以通過學習生成新的基因元件從而應用于合成生物學。生成模型技術與合成生物學結合,根據(jù)預測模型的指導,重新設計非自然的基因、蛋白質(zhì)等應用已經(jīng)被報道。如深度學習指導編輯gRNA實現(xiàn)基因表達量的調(diào)控[14];結合生成式對抗網(wǎng)絡設計大腸桿菌基因啟動子序列[24];設計蛋白質(zhì)序列以拓展蛋白質(zhì)空間[43];設計螺線蛋白質(zhì)骨架[23];生成T細胞受體的蛋白質(zhì)序列[26]等。
深度學習模型存在遷移學習的性質(zhì),即可以用某一物種訓練的預測模型預測相近物種,這種性質(zhì)使得生物學中單一物種訓練的模型有了更廣泛的用處,如小鼠基因組訓練的模型可以用在人類基因組上[50],單一植物葉片脅迫表型的識別模型可以用來預測其他植物的葉片脅迫表現(xiàn)[44]。
人工智能特別是深度學習出現(xiàn)之后,已經(jīng)在多個領域掀起新的浪潮,現(xiàn)階段已經(jīng)在基因組學、轉錄組學、蛋白質(zhì)組學和合成生物學等領域發(fā)揮了巨大作用,如完善基因組功能注釋、挖掘新功能基因、預測植物表型、發(fā)現(xiàn)基因、RNA、蛋白質(zhì)等物質(zhì)的新分類模式,指導基因編輯。高通量技術的發(fā)展見證著植物基因組學的進步,它以較低的花費識別著多種分子表型。然而,基因組學也要求利用強大的數(shù)據(jù)挖掘工具來預測和解釋這些分子表型,深度學習則可以預測任何基因組變異的分子表型效應,獲得直接控制分子表型的功能變異。此外,在合成生物學中應用深度學習模型也有望創(chuàng)造具有理想功能的新基因??傊疃葘W習在未來植物基因組學研究和作物遺傳改良中將發(fā)揮中心作用,人工智能將會是未來農(nóng)業(yè)發(fā)展不可或缺的一部分。