王欣 徐一億 徐揚(yáng) 徐辰武
(1.揚(yáng)州大學(xué)農(nóng)學(xué)院,揚(yáng)州 225009;2.揚(yáng)州大學(xué)信息工程學(xué)院,揚(yáng)州 225009)
傳統(tǒng)的作物育種基于表型選擇,通過觀察作物表型的變異選擇優(yōu)良后代。雖然育種家可以利用生物遺傳一般規(guī)律、綜合選擇指數(shù)、同期群體比較和田間試驗(yàn)統(tǒng)計(jì)等手段進(jìn)行田間試驗(yàn)設(shè)計(jì)和選擇,但是其工作高度依賴于育種家的經(jīng)驗(yàn),效率較低。20世紀(jì)90 年代以來,伴隨著基因組上大量分子標(biāo)記的開發(fā),人們開始借助分子標(biāo)記進(jìn)行輔助育種。
目前分子標(biāo)記輔助選擇育種技術(shù)的應(yīng)用已經(jīng)愈發(fā)成熟,但是其只適用于由較少主效QTL 決定的性狀。實(shí)際的作物育種工作需要多個性狀的協(xié)同改良,育種項(xiàng)目中可供育種家利用的材料有成百上千份,組配組合則更多,然而由于試驗(yàn)規(guī)模限制,大量重要材料并未進(jìn)行測試,育種效率較低。全基因組選擇(genomic selection,GS)[1]方法利用覆蓋全基因組的分子標(biāo)記和樣本的表型數(shù)據(jù)建立預(yù)測模型,以實(shí)現(xiàn)個體的遺傳評估。利用GS 技術(shù)開展育種工作,只需對較少的材料/品種進(jìn)行表型鑒定,就可以利用基因組上的高密度標(biāo)記對更多尚未開展田間試驗(yàn)的材料/品種表型進(jìn)行預(yù)測,能夠大大降低育種成本,提高育種效率。
GS 技術(shù)在動物育種尤其是奶牛育種中已經(jīng)取得了很大進(jìn)展,并且在加拿大、美國等國家的奶牛育種實(shí)踐中得到了廣泛應(yīng)用。但是由于育種體系和育種目標(biāo)的差異,作物的GS 面臨若干不同的問題,如品種間缺乏明確的系譜關(guān)系,環(huán)境對表型有較大影響等。近年來隨著高通量測序技術(shù)的發(fā)展和測序成本的下降,GS 技術(shù)在作物育種中也獲得了較大發(fā)展。特別是作物的雜種育種中,雜交種的基因型可以由親本基因型進(jìn)行推斷,GS 的優(yōu)勢更加突出。目前國內(nèi)外已經(jīng)開展了多種作物的GS 驗(yàn)證研究。如水稻中,Xu 等[2]從210 份重組自交系親本所產(chǎn)生的21 945 份雜交后代中隨機(jī)選擇278 份材料進(jìn)行表型鑒定,并利用這278 份材料作為訓(xùn)練樣本來預(yù)測所有可能雜交種的產(chǎn)量相關(guān)性狀,發(fā)現(xiàn)預(yù)測產(chǎn)量最高的100 個潛在雜交種的產(chǎn)量比平均產(chǎn)量提高16%。小麥中,Juliana 等[3]基于國際玉米和小麥改良中心(CIMMYT)48 562 個產(chǎn)量觀測結(jié)果的大型數(shù)據(jù)集進(jìn)行建模,在產(chǎn)量測試的第1、2 和3 階段分別獲得了0.56、0.50 和0.42 的平均預(yù)測精度。在熱帶玉米的多親本育種群體中,Zhang 等[4]的研究指出,快速循環(huán)基因組選擇是一種在短時間內(nèi)既能保持遺傳多樣性又能獲得高遺傳增益的有效育種策略。
作為作物分子設(shè)計(jì)育種中一項(xiàng)不可或缺的先進(jìn)技術(shù),GS 是國際數(shù)量遺傳學(xué)研究的重要熱點(diǎn),近年來在模型算法、群體構(gòu)建方案、多性狀與多環(huán)境預(yù)測方法和多組學(xué)預(yù)測方法等方面涌現(xiàn)出了大量研究成果。如Guo 等[5]深入研究了不同訓(xùn)練集設(shè)計(jì)方案對雜交種表型預(yù)測的影響,結(jié)果表明,對訓(xùn)練集的精心設(shè)計(jì),能夠顯著提高模型的預(yù)測精度。Wang等[6]的研究將玉米親本一般配合力(GCA)的估計(jì)和雜種表型預(yù)測相結(jié)合,提出了稀疏部分雙列雜交(SPDC)設(shè)計(jì)方案,能夠同時實(shí)現(xiàn)對玉米大量親本GCA 值和更多雜交種表型的精確預(yù)測。Xu 等[7]在玉米中開展多組學(xué)聯(lián)合分析的同時,整合雙親表型預(yù)測雜交種的表現(xiàn),顯著提升了表型預(yù)測的準(zhǔn)確性。Yin 等[8]開發(fā)了運(yùn)用機(jī)器學(xué)習(xí)確定模型參數(shù)的KAML 方法,并用于包括玉米、人類、牛和馬的多個數(shù)據(jù)集,預(yù)測精度高于經(jīng)典的GBLUP 和貝葉斯方法,展示出機(jī)器學(xué)習(xí)方法在GS 中的成功應(yīng)用。近期Wang 等[9]開發(fā)了一種基于深度神經(jīng)網(wǎng)絡(luò)的GS方法DNNGP,其表現(xiàn)超過了GBLUP 和LightGBM 等多種經(jīng)典方法。
理論方法的創(chuàng)新為GS 技術(shù)的發(fā)展奠定了基礎(chǔ),不過要在育種中落到實(shí)處,作物基因型和表型的高效測定是必要前提。近年來,單核苷酸多態(tài)性(SNP)標(biāo)記在水稻、玉米、小麥和大豆等作物的資源鑒定、遺傳分析、功能基因挖掘和分子設(shè)計(jì)育種等方面得到越來越廣泛的應(yīng)用。雖然芯片的SNP 標(biāo)記密度低于重測序技術(shù),但是其成本相對較低,準(zhǔn)確度高,重復(fù)性好,試驗(yàn)流程標(biāo)準(zhǔn)化程度高,芯片設(shè)計(jì)靈活,為GS 中基因型數(shù)據(jù)的獲取提供了重要技術(shù)條件。
GS 育種是分子設(shè)計(jì)育種的重要方法,自問世以來就享有“革命性育種技術(shù)”的美稱。目前國外發(fā)達(dá)國家種業(yè)企業(yè)已經(jīng)把作物GS 育種付諸實(shí)踐,但是我國的作物GS 育種大多還處于實(shí)驗(yàn)室模擬階段,其原因是多方面的,包括模型預(yù)測精度不夠理想,基因型和表型數(shù)據(jù)共享程度低,缺少GS 育種專用芯片以及配套軟件和平臺等問題。本文旨在闡述并分析當(dāng)前作物GS 的研究現(xiàn)狀,指出其面臨的問題和發(fā)展前景,為推動GS 的進(jìn)一步發(fā)展提供策略和思路。
GS 的實(shí)施過程,首先要采集訓(xùn)練群體的表型和基因型信息,然后利用模型估計(jì)各標(biāo)記的效應(yīng),進(jìn)而利用候選群體的基因型估計(jì)其遺傳效應(yīng)值[10]。然而在全基因組選擇模型中,標(biāo)記的數(shù)量P 往往大幅超過觀測的樣本數(shù)n,從而給模型的訓(xùn)練和目標(biāo)性狀的精確預(yù)測帶來困難。近年來,大量學(xué)者開發(fā)出了一系列基因組選擇方法,主要包括線性模型及其擴(kuò)展,各類貝葉斯方法,以及多種機(jī)器學(xué)習(xí)(machine learning,ML)方法(圖1)。
圖1 GS 方法的分類Fig.1 Classification of GS methods
基因組最佳線性無偏預(yù)測(genomic best linear unbiased prediction,GBLUP)[11]是一種利用全基因組標(biāo)記預(yù)測目標(biāo)群體基因型值和表型值的高效方法[12-13]。它通過構(gòu)建基因組關(guān)系矩陣G,代替?zhèn)鹘y(tǒng)BLUP 中基于系譜關(guān)系建立的親緣關(guān)系矩陣。G 矩陣通常由全基因組上的高密度標(biāo)記構(gòu)建,而利用大量基因標(biāo)記信息的最佳線性無偏估計(jì)則保證了GBLUP方法預(yù)測精度的穩(wěn)健性,使其在廣泛的各類數(shù)據(jù)集中都表現(xiàn)較好。此外,由于GBLUP 方法遺傳效應(yīng)的計(jì)算公式簡單,且無需迭代運(yùn)算,所以效率很高,是GS 研究中最常用的一般方法和各種創(chuàng)新方法的比較基準(zhǔn),也被大量學(xué)者用作復(fù)雜場景(如多組學(xué)、多性狀和多環(huán)境研究)下GS 拓展方法的基礎(chǔ)模型。最小絕對收縮和選擇算子(least absolute shrinkage selection operator,LASSO)[14]在線性回歸的基礎(chǔ)上添加了L1 正則項(xiàng),通過構(gòu)造一個懲罰函數(shù)得到較為精煉的模型,將大部分標(biāo)記的效應(yīng)壓縮為0,是一種選擇收縮算法。Friedman 等[15]利用循環(huán)坐標(biāo)下降法開發(fā)了快速求解LASSO 的算法,克服了大多數(shù)選擇收縮算法耗時過長的問題,成為該方法的一大優(yōu)勢。嶺回歸(ridge regression,RR)在線性回歸的基礎(chǔ)上添加了L2 正則項(xiàng)[16],彈性網(wǎng)(elastic net,EN)[17]則同時使用L1 和L2 正則化,是LASSO 和嶺回歸的結(jié)合。
貝葉斯類方法假定標(biāo)記的效應(yīng)服從一定的先驗(yàn)分布[18-19],其中BRR 假定所有標(biāo)記的效應(yīng)有著相同的方差;BayesA 則允許每個標(biāo)記的效應(yīng)有不同的方差;BayesB 和BayesC 中大部分的標(biāo)記效應(yīng)被設(shè)置為0,對于剩余少數(shù)標(biāo)記的效應(yīng),BayesB 允許有不同的方差,BayesC 則假定它們有相同的方差。BayesCπ 在BayesC 的基礎(chǔ)上,設(shè)定0 效應(yīng)標(biāo)記的占比為服從均勻分布的變量。從假設(shè)條件上看,BRR將各個標(biāo)記均等對待,這一點(diǎn)與GBLUP 無差別利用大量標(biāo)記信息計(jì)算G 矩陣的效果相似。BayesA 所估計(jì)得到的標(biāo)記效應(yīng),差異稍大。BayesB、BayesC 和BayesCπ 則更進(jìn)一步擴(kuò)大了這種差異,其中BayesB幾乎在最大程度上對標(biāo)記效應(yīng)進(jìn)行選擇收縮和差別對待,因此成為選擇收縮算法的代表,特別適用于由少數(shù)主效基因決定的性狀。各類貝葉斯方法具有設(shè)計(jì)精巧、準(zhǔn)確性高和可解釋性強(qiáng)等優(yōu)點(diǎn),但是模型的求解往往依賴于貝葉斯框架下的抽樣方法求解,所以計(jì)算效率較低,給實(shí)際推廣帶來了一定的制約。
機(jī)器學(xué)習(xí)的快速發(fā)展為GS 提供了更加豐富和靈活的方法。一般的機(jī)器學(xué)習(xí)模型包括支持向量機(jī)(support vector machine,SVM)[20]、再生核希爾伯特空 間(reproducing kernel Hilbert space,RKHS)[21]、核 嶺 回 歸(kernel ridge regression,KRR)[22]和KAML 等[8]。SVM 通過尋找最佳分隔的超平面,執(zhí)行線性或非線性的分類和回歸。RKHS 利用高斯核函數(shù)擬合模型,可通過貝葉斯框架下的抽樣方法或混合線性模型求解。KRR 則在嶺回歸的基礎(chǔ)上引入核函數(shù),將原始空間中的數(shù)據(jù)映射到更高維的核空間,以實(shí)現(xiàn)對非線性函數(shù)的學(xué)習(xí)。
深度學(xué)習(xí)(deep learning,DL)[23]是機(jī)器學(xué)習(xí)的重要分支,它使用包含多個隱藏層的深度神經(jīng)網(wǎng)絡(luò)。相對于其他淺層結(jié)構(gòu)算法,深度神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的特征學(xué)習(xí)能力,能夠捕捉數(shù)據(jù)中蘊(yùn)含的復(fù)雜非線性關(guān)系。盡管所有的深度學(xué)習(xí)方法都由多個神經(jīng)元堆疊而成,但是它們實(shí)際上包括各種各樣的架構(gòu),在GS 中應(yīng)用較多的結(jié)構(gòu)包括多層感知機(jī)(multilayer perceptron,MLP)和卷積神經(jīng)網(wǎng) 絡(luò)(convolutional neural networks,CNN)[24]。 如Montesinos?López 等[25]曾利用7 組小麥數(shù)據(jù)集評估了MLP 的全基因組預(yù)測性能。同樣基于MLP 結(jié)構(gòu),Montesinos?López 等[26-27]利用關(guān)系矩陣的“克羅內(nèi)克積”反映性狀間和環(huán)境間的聯(lián)系,進(jìn)而實(shí)現(xiàn)了多性狀和多環(huán)境的聯(lián)合預(yù)測。CNN 技術(shù)引入卷積代替MLP 中的點(diǎn)積運(yùn)算,近年來在GS 研究中逐漸受到關(guān)注。如Ma 等[28]開發(fā)了基于CNN 的DeepGS,對2 000 份小麥品種的8 個性狀表型進(jìn)行預(yù)測,取得了一定的成效,近期Wang 等[9]更是基于CNN 開發(fā)了新的方法DNNGP,并在多組數(shù)據(jù)集中取得了成功。
集成學(xué)習(xí)(ensemble learning,EL)[29]通過構(gòu)建并結(jié)合多個機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),如隨機(jī)森林(random forest,RF)[30]、GBDT[31]、XGBoost、LightGBM[32]和其他形式的模型融合方法。RF 使用決策樹作為弱學(xué)習(xí)器,在每個決策樹的訓(xùn)練過程中,除了采用自助采樣法對樣本進(jìn)行采樣,還在每個節(jié)點(diǎn)的特征選擇時隨機(jī)選取一部分特征進(jìn)行考慮,其最終的預(yù)測結(jié)果是基于所有決策樹的投票或平均。GBDT 是一種迭代決策樹算法,通過使用加法模型,不斷減小訓(xùn)練過程產(chǎn)生的殘差實(shí)現(xiàn)分類或回歸。XGBoost 在GBDT 基礎(chǔ)上進(jìn)行了一系列優(yōu)化,加入了二階導(dǎo)數(shù)信息和正則項(xiàng)等。LightGBM 是微軟開發(fā)的輕量級梯度提升機(jī),相對XGBoost 具有訓(xùn)練速度快和內(nèi)存占用低等優(yōu)點(diǎn),Yan 等[33]將其用于玉米的一組大型數(shù)據(jù)集,在預(yù)測精度、模型穩(wěn)定性和計(jì)算效率方面展示出了卓越的性能。
相對于線性模型和貝葉斯方法,機(jī)器學(xué)習(xí)模型能夠更好地對基因型和表型之間的非線性關(guān)系進(jìn)行學(xué)習(xí),不過其缺點(diǎn)是可解釋性往往較差,難以對生物樣本的遺傳效應(yīng)組成進(jìn)行分解,以及對各個位點(diǎn)的效應(yīng)進(jìn)行評估。如何增強(qiáng)模型對遺傳效應(yīng)的解析能力,提高優(yōu)異等位基因聚合的效率,是未來機(jī)器學(xué)習(xí)方法研究所面臨的一項(xiàng)重要挑戰(zhàn)。
大多數(shù)GS 研究使用待測群體表型預(yù)測值與實(shí)際值之間的相關(guān)系數(shù)或決定系數(shù)衡量模型的預(yù)測精度,以反映GS 的功效。作物GS 的實(shí)際功效受到多種因素的影響,其中遺傳因素包括目標(biāo)性狀遺傳力、訓(xùn)練群體和育種群體間的關(guān)系、標(biāo)記密度、標(biāo)記和QTL 間連鎖不平衡的程度等,非遺傳因素包括訓(xùn)練樣本數(shù)量、模型和算法及其參數(shù)的選擇,以及數(shù)據(jù)的清洗方案等(表1)。
表1 影響全基因組選擇功效的因素及其優(yōu)化策略Table 1 Factors affecting GS efficacy and corresponding optimizating strategies
研究表明,預(yù)測精度首先受到目標(biāo)性狀遺傳力的影響,遺傳力越高,精度越高[12]。作物的產(chǎn)量性狀容易受到環(huán)境等非遺傳因素的影響,往往具有較低的遺傳力,然而幸運(yùn)的是,這并不意味著GS 的低效。Wang 等[34]在水稻中的研究結(jié)果表明,GS優(yōu)選群體的平均選擇優(yōu)勢與性狀的遺傳力并無直接聯(lián)系。雖然產(chǎn)量等性狀的預(yù)測精度較低,但是其原因在于高占比的誤差方差,這并不妨礙育種家利用GS 技術(shù)獲得理想的遺傳增益。對于較低遺傳力的性狀,適當(dāng)擴(kuò)大優(yōu)選群體,就能夠獲得穩(wěn)定的較高平均選擇優(yōu)勢。
此外,訓(xùn)練群體和育種群體之間的關(guān)系也會影響選擇的效果,有研究表明,與訓(xùn)練樣本遺傳上相似的群體能夠獲得較高的預(yù)測精度,對于一些遺傳不相似的亞群,則預(yù)測精度較低[35]。在Wang 等[6]對玉米親本GCA 的預(yù)測研究中,參與訓(xùn)練集田間試驗(yàn)的親本相對未參與者能夠獲取更高的預(yù)測能力,也提示了訓(xùn)練集與測試集之間緊密遺傳關(guān)系對模型預(yù)測的積極貢獻(xiàn)。然而大量增加與測試群體遺傳相似的訓(xùn)練樣本,可能降低優(yōu)選品種的遺傳多樣性,從而不利于長期的遺傳增益。因此,在實(shí)際育種中需要尋求訓(xùn)練集和測試集之間關(guān)系的平衡[36]。
GS 假設(shè)基因組上總有標(biāo)記和影響性狀的QTL之間存在連鎖不平衡,增加標(biāo)記的密度能增加標(biāo)記和QTL 之間的LD 程度,從而可能獲得更高的準(zhǔn)確度[37]。理論上,標(biāo)記密度越大越好,但是與訓(xùn)練種群的數(shù)量相比,其對預(yù)測精度的影響較?。?8]。在Wang 等[34]使用GBLUP 方法對水稻的GS 預(yù)測中,1610K 標(biāo)記的預(yù)測精度高于470K,又高于96K,不過其差異非常微小,即標(biāo)記密度達(dá)到一定程度后,GS 的精度難以顯著提高。因?yàn)楦呙芏葮?biāo)記的獲取成本較高,且給數(shù)據(jù)的預(yù)處理和模型訓(xùn)練帶來困難(如GBLUP 方法的G 矩陣運(yùn)算需要超出一般個人電腦配置的更大內(nèi)存,選擇收縮算法的變量選擇難度加大和訓(xùn)練速度的大幅降低),所以在實(shí)際的作物GS 應(yīng)用中,根據(jù)我們的經(jīng)驗(yàn),使用全基因組上均勻分布的數(shù)萬個SNP 標(biāo)記具有較高的性價比。此外,標(biāo)記和QTL 間的LD 程度也會影響GS 的準(zhǔn)確性,隨著世代的增加,標(biāo)記和QTL 的LD 會逐漸降低。Meuwissen 等[1]發(fā)現(xiàn)在基因型測定后的前2 個世代GS 的準(zhǔn)確性下降較快,其他世代下降速度則相對減慢。隨著世代的增加,遺傳力較高性狀的基因組預(yù)測準(zhǔn)確性降低較慢。
樣本數(shù)量和GS 模型等非遺傳因素也會對預(yù)測效果產(chǎn)生影響。較大的訓(xùn)練樣本十分有利于GS 模型對等位基因效應(yīng)的準(zhǔn)確估計(jì),進(jìn)而有利于對潛在品種的精確選擇。尤其是對低遺傳力的性狀,增大樣本數(shù)量和試驗(yàn)重復(fù)數(shù)可以降低誤差效應(yīng)的不利影響,提高模型的功效。前人的研究表明,遺傳力為0.2的性狀需要的訓(xùn)練樣本數(shù)量超過1 000[39]。
實(shí)際的GS 過程中,模型和算法是更易調(diào)整的可變因素。不過其挑戰(zhàn)在于,雖然有大量的GS 方法可供選擇,但是育種家在使用GS 技術(shù)時僅能對少數(shù)方法的預(yù)測結(jié)果開展進(jìn)一步的田間鑒定。研究者在育種組合的優(yōu)選之前,首先需要對GS 方法進(jìn)行優(yōu)選,所以GS 方法的比較研究是十分重要的基礎(chǔ)工作。近年來一些學(xué)者使用不同的作物群體數(shù)據(jù),對多種GS 方法進(jìn)行了比較。Xu 等[38]利用一組基于NCII 設(shè)計(jì)的水稻數(shù)據(jù)集,比較了6 種GS 方法的表現(xiàn),發(fā)現(xiàn)不同方法的可預(yù)測性存在顯著差異,其中GBLUP 和LASSO 最佳,SVM 和部分最小平方法最差。Wang 等[12]以一組小麥數(shù)據(jù)集為基礎(chǔ),利用6 種方法進(jìn)行了模擬研究,并用于小麥實(shí)際產(chǎn)量數(shù)據(jù)的預(yù)測。其結(jié)果表明,對于具有不同遺傳結(jié)構(gòu)的性狀,各GS 方法的表現(xiàn)差異明顯?;谪惾~斯的選擇收縮算法對QTL 的數(shù)目較為敏感,當(dāng)性狀由較少數(shù)目的QTL 控制時,預(yù)測精度較高,當(dāng)影響數(shù)量性狀的QTL 數(shù)目很多時,精度則會下降。GBLUP 和RR?BLUP 的穩(wěn)健性較強(qiáng),其預(yù)測精度不受QTL 數(shù)目的影響,在預(yù)測作物產(chǎn)量等由大量微效基因決定的性狀時,更具優(yōu)勢。近年來一些學(xué)者使用新的機(jī)器學(xué)習(xí)模型和算法,在作物的GS 中取得了令人矚目的成績[8-9,33],不過各種機(jī)器學(xué)習(xí)方法的功效是否受性狀遺傳結(jié)構(gòu)的影響,還缺少相關(guān)的研究。此外,超參數(shù)的選擇對一些機(jī)器學(xué)習(xí)方法的性能影響較大,如深度學(xué)習(xí)中網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)目、濾波器大小、迭代次數(shù)和激活函數(shù)的不同調(diào)優(yōu)方案,可能產(chǎn)生完全不同的預(yù)測效果。因此使用多組不同的數(shù)據(jù)集,進(jìn)行網(wǎng)格搜索、隨機(jī)搜索或人工經(jīng)驗(yàn)調(diào)參以優(yōu)化參數(shù)組合,對于提高模型的精度和泛化能力是十分重要的工作。
盡管一系列模型和算法先后被提出,并使用不同的數(shù)據(jù)集進(jìn)行了廣泛的比較,但是當(dāng)前的GS 建模仍然面臨“大p,小n”問題,即標(biāo)記數(shù)目遠(yuǎn)大于樣本量,容易導(dǎo)致多重共線性和過度擬合,進(jìn)而影響模型表現(xiàn)的穩(wěn)定性,以至于沒有哪種方法在大多數(shù)情況下都能保持領(lǐng)先的預(yù)測精度。Xu 等[40]建議在使用GS 方法輔助育種決策之前,先在訓(xùn)練集中利用交叉驗(yàn)證對比不同模型的精度,以實(shí)現(xiàn)GS 方法的優(yōu)選。不過實(shí)際中待測群體和訓(xùn)練群體之間往往存在一定的遺傳差異,要從一般意義上解決上述問題,建立科學(xué)的數(shù)據(jù)清洗方案可能是一種有效的途徑。除了常規(guī)的標(biāo)準(zhǔn)化或歸一化等預(yù)處理,還應(yīng)開發(fā)與基因組信息特征相適應(yīng)的降維方案,采用單倍型劃分或主成分分析等方法,在保留大部分標(biāo)記信息的基礎(chǔ)上大幅減少自變量數(shù)目,降低過擬合的風(fēng)險,以提高GS 中眾多選擇收縮方法的健壯性。這一點(diǎn)對于GS 精度的突破性提升,是至關(guān)重要的。
傳統(tǒng)的GS 方法在估計(jì)遺傳效應(yīng)時大多只考慮最簡單的加性效應(yīng)(育種值),雖然非加性遺傳效應(yīng)不能直接從親本傳遞給子代,但是它們對那些和適應(yīng)性緊密相關(guān)的性狀和低遺傳率性狀是非常重要的[10]。尤其對于作物的雜種育種,雜交種與親本之間存在明顯的基因表達(dá)差異[41-42],表現(xiàn)為加性和非加性等差異表達(dá)模式。因此,很多學(xué)者提出在GS 中有必要考慮非加性效應(yīng)[43-45]。Xu 等[46]的模擬研究表明,在混合模型中納入上位性多基因協(xié)方差,可以提高QTL 定位的分辨率,并將其用于水稻產(chǎn)量相關(guān)性狀的遺傳效應(yīng)解析。
在GS 模型中,Xu 等[2]引入顯性和上位性等效應(yīng),模擬實(shí)驗(yàn)表明能夠提高預(yù)測能力,不過在預(yù)測雜交水稻實(shí)際表型值時,新的模型未能獲得預(yù)期的效果,原因可能是模擬中的部分假定與實(shí)際情況存在偏差。另外在樣本群體較小的情況下,基于全基因組的變異位點(diǎn)和位點(diǎn)間互作進(jìn)行分析時,超飽和模型難以保證估計(jì)的精度。因此,如何對基因型值進(jìn)行科學(xué)編碼以正確反映顯性和上位性等遺傳效應(yīng),是非加性模型構(gòu)建所面臨的重要挑戰(zhàn)。近期Miranda等[47]的研究就借助Huang 等[48]提出的關(guān)系矩陣構(gòu)建方案,開發(fā)了用于GBLUP 模型加性和顯性效應(yīng)參數(shù)評估的方法,不過模型的預(yù)測效果仍需在更多數(shù)據(jù)集中研究驗(yàn)證。近期Li 等[49]將GS 中具有加性和/或顯性效應(yīng)的12 個品質(zhì)性狀的遺傳基因位點(diǎn)分層,提高了對雜交種預(yù)測的準(zhǔn)確性,也為非加性效應(yīng)的估計(jì)提供了新的思路。
機(jī)器學(xué)習(xí)方法是實(shí)現(xiàn)非加性遺傳效應(yīng)評估的又一重要途徑。Budhlakoti 等[50]的研究表明,當(dāng)模型中加入非加性遺傳結(jié)構(gòu)時,SVM 等非參數(shù)方法的性能可能比參數(shù)方法的性能更好,原因在于這些方法不需要嚴(yán)格的統(tǒng)計(jì)假設(shè)。王向峰等[51]提出,為了克服傳統(tǒng)混合線性模型基因組預(yù)測的不足,應(yīng)用機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)等人工智能領(lǐng)域中的先進(jìn)算法,是GS 育種的下一步發(fā)展方向。Wang 等[52]則指出,深度學(xué)習(xí)算法具有強(qiáng)大的非線性建模能力,有助于提高GS 的精度。近期Wang 等[9]分別對多個數(shù)據(jù)集,首先使用主成分方法降維,然后基于深度神經(jīng)網(wǎng)絡(luò)開展預(yù)測,模型精度超過了其他多種方法。從原理出發(fā),以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)方法能夠自主學(xué)習(xí)基因位點(diǎn)的主效應(yīng)、等位基因之間或者位點(diǎn)間的互作關(guān)系,避免了基于某種簡化假設(shè)模型的基因型數(shù)值再編碼,從而有機(jī)會更好地捕捉位點(diǎn)的非加性效應(yīng)。
GS 方法的育種應(yīng)用離不開作物群體的科學(xué)構(gòu)建。Guo 等[5]利用玉米、小麥和水稻數(shù)據(jù)集,研究了預(yù)測雜交種表型的訓(xùn)練集設(shè)計(jì)方案。將雜交種的所有親本自交系視為需要從中選擇雜交組合的整體遺傳空間,設(shè)計(jì)并測試了3 種代表性子集選擇方法,以建立用于雜交種基因組預(yù)測的訓(xùn)練集。其中PAM方法圍繞聚類的中心點(diǎn)進(jìn)行劃分,F(xiàn)URS 方法快速地從給定的圖中選擇一組代表性節(jié)點(diǎn),MaxCD 方法則在連通性和多樣性最大化的基礎(chǔ)上進(jìn)行選擇。結(jié)果表明,有效的基因組預(yù)測模型只需要整個訓(xùn)練集大小的2%-13%,揭示了對海量遺傳組合高效推斷的可能。Chung 等[53]的研究也指出,在雜種育種過程中,單純對親本育種值的優(yōu)選會導(dǎo)致遺傳多樣性的喪失,為了保持基因組多樣性,在親本選擇過程中應(yīng)避免選擇親緣關(guān)系密切的材料。該研究提出了一種平衡育種值和遺傳多樣性的折中策略,并在兩組水稻數(shù)據(jù)集中得到了驗(yàn)證,該策略與前述Guo 等[5]的MaxCD 方法有著共通之處。
在科學(xué)開展遺傳交配設(shè)計(jì)的基礎(chǔ)上,GS 模型還可用于GCA 等育種指標(biāo)的精確預(yù)測。王欣等[54]將NCII 水稻數(shù)據(jù)集的親本GCA 看作目標(biāo)性狀,進(jìn)行了5 倍交叉驗(yàn)證和留一法的基因組預(yù)測,結(jié)果表明其預(yù)測是有效的,能夠幫助育種家實(shí)現(xiàn)對親本的科學(xué)選擇。不過將GCA 當(dāng)作因變量,首先需要獲得所有訓(xùn)練集親本的GCA 值。盡管NCII 設(shè)計(jì)能夠完全滿足這一條件,但是由于成本和田間試驗(yàn)條件的限制,很多情況下作物的組配設(shè)計(jì)是稀疏的。Wang 等[6]進(jìn)一步使用SPDC 設(shè)計(jì),研究了稀疏條件下利用全基因組標(biāo)記對玉米親本GCA 的預(yù)測情況。結(jié)果表明在訓(xùn)練集雜交種組配異常稀疏的情況,也能夠?qū)崿F(xiàn)對親本GCA 的精確估計(jì)。另一方面,在遺傳交配設(shè)計(jì)時,應(yīng)盡可能讓更多的親本參與訓(xùn)練集的田間試驗(yàn),以獲取較高的預(yù)測能力。
一般的GS 方法關(guān)注單一環(huán)境下單個性狀的研究。然而,對單個性狀的預(yù)測和選擇忽視了關(guān)聯(lián)性狀共同的生物學(xué)基礎(chǔ)以及多性狀的協(xié)調(diào)發(fā)展[55]。綜合選擇指數(shù)方法,是動植物多目標(biāo)育種選擇的常用方法,可以被用來同時改良多個性狀。GS 的快速發(fā)展,為選擇指數(shù)帶來了新的前景。Schulthess 等[56]使用黑麥中的兩個性狀建立選擇指數(shù),并將其看作單一性狀用GS 方法進(jìn)行預(yù)測。Leite 等[57]利用選擇指數(shù)和多變量分析篩選表型優(yōu)異的大豆基因。Lyra等[58]將玉米雜交種在不同氮脅迫下的性狀組合以構(gòu)建選擇指數(shù),然后用GS 方法進(jìn)行預(yù)測,結(jié)果表明方法是有效的。Xiao 等[59]在水稻中通過全基因組測序解析育種群體中有利基因分布以及連鎖關(guān)系,并結(jié)合GS 優(yōu)化品種改良方案實(shí)現(xiàn)了品種多性狀的協(xié)同提升。
對作物的多個性狀進(jìn)行聯(lián)合分析,還能夠提高對目標(biāo)性狀預(yù)測的精度[56]。Wang 等[34]基于NCII設(shè)計(jì)的水稻數(shù)據(jù)集,利用指示變量構(gòu)造的關(guān)系矩陣反映多變量之間的關(guān)系,在性狀數(shù)據(jù)非平衡的情況下(待測群體目標(biāo)性狀之外的部分性狀表型已知),兩性狀聯(lián)合分析時對性狀的預(yù)測能力較單性狀分析時平均要高6.4%,八性狀聯(lián)合分析時較單性狀分析平均要高26.7%。不過在性狀數(shù)據(jù)平衡情況下(待測群體所有性狀表型未知)的一些研究中,多性狀模型的精度并非總是優(yōu)于單性狀[27]。通過構(gòu)造選擇指數(shù)也可以實(shí)現(xiàn)多性狀的聯(lián)合預(yù)測,針對性狀數(shù)據(jù)平衡的情況,Wang 等[60]提出了一種基于選擇指數(shù)的多性狀GS 方法,該方法利用與目標(biāo)性狀相關(guān)的多個輔助性狀及其蘊(yùn)含的目標(biāo)性狀遺傳信息構(gòu)建選擇指數(shù),不僅能實(shí)現(xiàn)對水稻雜交種多個性狀的綜合選擇,還能對目標(biāo)性狀進(jìn)行輔助預(yù)測,提高了低遺傳力目標(biāo)性狀的預(yù)測精度。近期Liang 等[61]提出了一個機(jī)器學(xué)習(xí)框架MAK,通過構(gòu)建多目標(biāo)集成回歸鏈和自動選擇輔助性狀來提高目標(biāo)性狀的預(yù)測精度,該框架僅使用待測樣本的基因型信息預(yù)測目標(biāo)性狀育種值。在4 個真實(shí)的動植物數(shù)據(jù)集中,其預(yù)測能力顯著高于GBLUP 和多種貝葉斯方法。
植物表型是由基因型、環(huán)境型和基因型與環(huán)境相互作用的綜合作用決定的[48]。作物育種中大量表型數(shù)據(jù)的觀測值來自多年多點(diǎn)的不同環(huán)境,育種家希望預(yù)測的不僅是潛在材料的育種值,還包括特定環(huán)境下的表型值。Lopez?Cruz 等[62]將G × E效應(yīng)納入GBLUP 模型,顯著提高了模型的預(yù)測能力。Cuevas 等[63]進(jìn)一步將非線性高斯核與Lopez?Cruz 等的基因環(huán)境互作模型相結(jié)合,發(fā)現(xiàn)模型對CIMMYT 小麥數(shù)據(jù)集的預(yù)測能力提高了17%。貝葉斯模型也同樣被擴(kuò)展為基因環(huán)境互作模型,在小麥和玉米中取得了高于單環(huán)境的預(yù)測精度[64-65]。近期Rogers 等[66]在玉米中的研究表明,使用環(huán)境協(xié)變量的基因組預(yù)測能力取決于訓(xùn)練集和測試集數(shù)據(jù)之間環(huán)境的相似性。相較于遺傳相似性,數(shù)據(jù)集之間的環(huán)境相似性對預(yù)測效果影響更大。Yan 等[67]則指出,如果確定了可重復(fù)的基因環(huán)境互作模式,則必須將作物目標(biāo)區(qū)域劃分為子區(qū)域或大環(huán)境。育種和大環(huán)境特異性品種的利用會將可重復(fù)的基因環(huán)境互作轉(zhuǎn)化為大環(huán)境內(nèi)的基因型主效應(yīng),從而提高選擇的增益和可靠性。如果沒有發(fā)現(xiàn)可重復(fù)的基因環(huán)境互作模式,則必須將目標(biāo)區(qū)域視為單個大環(huán)境,通過充分測試來適應(yīng)基因環(huán)境互作。上述多項(xiàng)研究結(jié)果提示,在進(jìn)行多環(huán)境的聯(lián)合GS 過程中,首先明確大環(huán)境的劃分,繼而將同一大環(huán)境內(nèi)盡可能多的表型觀測信息納入模型,是一種行之有效的策略。
一般的GS 方法忽略基因組與其下游調(diào)節(jié)因子之間的相互作用[68]。下游的轉(zhuǎn)錄組、蛋白組和代謝組等組學(xué)信息是由基因型向表型傳遞的中間產(chǎn)物,它們反映了不同生物層內(nèi)部和之間的相互作用[69]。隨著組學(xué)技術(shù)的進(jìn)步,代謝組學(xué)和轉(zhuǎn)錄組學(xué)數(shù)據(jù)為作物的表型預(yù)測提供了新的來源。一些研究使用親本轉(zhuǎn)錄組或代謝組學(xué)數(shù)據(jù)預(yù)測待測雜交種的表現(xiàn)。Frisch 等[70]首次使用21 個親本自交系的表達(dá)譜數(shù)據(jù)和98 個雜交種的表型數(shù)據(jù)對玉米雜交種進(jìn)行了預(yù)測?;谙嗤臄?shù)據(jù)集,F(xiàn)u 等[71]使用56K 微陣列分析親本自交系的基因表達(dá),發(fā)現(xiàn)雜交種的表現(xiàn)可以通過親本自交系的基因表達(dá)數(shù)據(jù)得到準(zhǔn)確預(yù)測。Zenke?Philippi 等[72]使用2K 的核心基因表達(dá)數(shù)據(jù)和1K 的AFLP 標(biāo)記數(shù)據(jù)對玉米雜交種的產(chǎn)量和干物質(zhì)含量進(jìn)行轉(zhuǎn)錄組和基因組預(yù)測。在使用嶺回歸模型時,對雜交種表型的轉(zhuǎn)錄組預(yù)測略好于基因組預(yù)測。對于代謝組學(xué)預(yù)測,Riedelsheimer 等[73]利用285 份玉米自交系的56 110 個SNP 和130 種代謝產(chǎn)物,以及570 份測交種的表型數(shù)據(jù)構(gòu)建GS 模型,預(yù)測了7個性狀的一般配合力,發(fā)現(xiàn)代謝物的預(yù)測精度與基因標(biāo)記的預(yù)測精度相當(dāng)。Xu 等[74]利用210 份水稻親本的代謝組數(shù)據(jù)預(yù)測278 份雜交種的產(chǎn)量,發(fā)現(xiàn)與基因組預(yù)測相比,預(yù)測能力幾乎提高了一倍。
多組學(xué)數(shù)據(jù)的聯(lián)合預(yù)測有可能進(jìn)一步提升預(yù)測的效果。Guo 等[75]使用玉米數(shù)據(jù)評估了基因表達(dá)和代謝數(shù)據(jù)在基因組預(yù)測中的效果,其研究結(jié)果表明,基于基因表達(dá)和代謝產(chǎn)物的預(yù)測能力是特異性的,受到測量時間、組織樣本以及基因和代謝產(chǎn)物數(shù)量的影響。不過與僅使用全基因組標(biāo)記的GBLUP 模型相比,將基因表達(dá)水平和代謝物豐度與遺傳標(biāo)記相結(jié)合顯著提高了預(yù)測能力,有助于提高復(fù)雜性狀的遺傳增益。Westhues 等[69]將玉米轉(zhuǎn)錄組數(shù)據(jù)與親本自交系的基因組數(shù)據(jù)相結(jié)合,發(fā)現(xiàn)能夠提高對潛在雜交組合預(yù)測的成功率。Schrag[76]等也利用玉米親本系的基因組、轉(zhuǎn)錄組和代謝組數(shù)據(jù),評估了基于這些組學(xué)數(shù)據(jù)對待測雜交種的預(yù)測能力,發(fā)現(xiàn)預(yù)測因子和性狀的預(yù)測能力之間存在很強(qiáng)的互作關(guān)系,信使RNA 是產(chǎn)量和干物質(zhì)含量的最佳預(yù)測因子,結(jié)合信使RNA 和基因組數(shù)據(jù)作為預(yù)測因子,在兩個性狀上都有很高的預(yù)測能力,提示下游的組學(xué)數(shù)據(jù)是基因組預(yù)測的重要補(bǔ)充,有助于對潛在雜交種的精確選擇。Wang 等[77]對水稻不同組學(xué)數(shù)據(jù)組合后的預(yù)測能力進(jìn)行了比較,得出的結(jié)論是,使用基因組和代謝組學(xué)數(shù)據(jù)組合的預(yù)測通常比單一組學(xué)預(yù)測或基于其他組學(xué)數(shù)據(jù)組合的預(yù)測效果更好。Wu 等[78]在大麥中也發(fā)現(xiàn),來自轉(zhuǎn)錄組和代謝組的任何預(yù)測因子在3 個性狀上的平均預(yù)測能力都高于SNP 標(biāo)記,并建議使用集成的組學(xué)數(shù)據(jù)集開展預(yù)測工作。
轉(zhuǎn)錄組和代謝組相較基因組更接近生物的表型,其數(shù)據(jù)的充分使用有利于預(yù)測精度的提高,不過將其用于育種實(shí)踐的困難是,數(shù)據(jù)獲取成本相對高昂,且雜交種的轉(zhuǎn)錄組和代謝組都難以像基因組一樣直接從親本的組學(xué)信息中精確推斷,其預(yù)測能力可能顯示出對性狀的特異性。相對于組學(xué)數(shù)據(jù),單交種雙親的表型信息更容易在早期以較低的成本獲取。近期Xu 等[7]提出了將作物親本表型信息納入雜交種表型預(yù)測的策略,為基于多元數(shù)據(jù)的預(yù)測提供了新的途徑。該研究基于210 份水稻自交系的基因組、轉(zhuǎn)錄組和代謝組數(shù)據(jù)以及278 份雜交種的表型數(shù)據(jù),利用混合線性模型,進(jìn)行了多組學(xué)的聯(lián)合分析,并整合親本表型預(yù)測雜交種的表現(xiàn)。研究結(jié)果表明,無論采用何種組學(xué)信息進(jìn)行預(yù)測,結(jié)合雙親信息后,所有性狀的預(yù)測準(zhǔn)確性均有不同程度提高,產(chǎn)量、穗粒數(shù)、分蘗數(shù)和千粒重的平均預(yù)測力分別提高了13.6%、54.5%、19.9%和8.3%。
近年來,作物SNP 育種芯片的不斷研發(fā),為GS 中基因型數(shù)據(jù)的獲取提供了重要技術(shù)條件。目前超過25 種作物中已經(jīng)開發(fā)了百余款芯片[79-80],其中水稻的代表性芯片有RICE6K 和RiceSNP50 等;玉米代表性芯片有MaizeSNP600K、MaizeSNP50 Beadchip 和Maize6H?60K 等;小 麥 代 表 性 芯 片 有Wheat 9K iSelect、Wheat 90K iSelect、Wheat 660K Axiom 和Wheat HD Genotyping Array 等;馬鈴薯代表性芯片有SolSTW array 等;大豆代表性芯片有SoySNP50K 和SoyaSNP 180K Axiom 等。這 些 芯 片主要是基于國外的Illumina Infinium BeadChip 技術(shù)或Affymetrix Axiom 技術(shù)。我國科學(xué)家建立了具有自主知識產(chǎn)權(quán)的靶向測序-液相芯片技術(shù),并在水稻、玉米和小麥上分別開發(fā)了GenoBaits? Rice 40K、GenoBaits? Maize 45K 和GenoBaits? WheatSNP16K 等一系列液相芯片。
上述芯片雖然在種質(zhì)資源遺傳多樣性評估、品種指紋圖譜構(gòu)建和重要基因的定位中具有重要用途,但是要針對實(shí)際育種群體高效開展GS 育種還存在諸多困難:(1)現(xiàn)有芯片信息覆蓋度不高,不利于持續(xù)提高GS 的效率。目前的GS 研究大多都是基于SNP 標(biāo)記,忽略了很多與性狀關(guān)聯(lián)但與鄰近SNP 無連鎖的結(jié)構(gòu)變異,而這些結(jié)構(gòu)變異與抗逆性、抗病性、產(chǎn)量和品質(zhì)等重要性狀有關(guān),其鑒定工作對于作物育種有著重要的意義,但是目前作物芯片中尚未包含這類結(jié)構(gòu)變異信息,從而造成遺傳力的丟失。(2)現(xiàn)有芯片通用性不足,不同基因型數(shù)據(jù)難以共享。GS 的準(zhǔn)確性隨著訓(xùn)練群體的增大而增加,然而即使是同一作物,不同的育種家往往也會針對各自的群體和育種目標(biāo)選擇不同的育種芯片,造成群體間不同位置的標(biāo)記無法納入同一預(yù)測模型,這極大地阻礙了作物基因型數(shù)據(jù)的共享,限制了GS 預(yù)測模型的優(yōu)化和準(zhǔn)確性的提高。(3)對于大規(guī)模育種應(yīng)用,芯片檢測成本仍然較高。作物育種群體數(shù)量龐大,開展GS 育種時需要考慮基因型鑒定成本。盡管目前SNP 芯片的成本已經(jīng)有所降低,但是單個樣本分析的成本仍需百元左右,且標(biāo)記密度不同會導(dǎo)致較大的成本差異,無法滿足現(xiàn)代作物育種的低成本需求,大多數(shù)育種企業(yè)囿于巨額的基因型鑒定成本投入而無法大規(guī)模應(yīng)用GS 育種技術(shù)。(4)缺乏育種芯片專用的分析軟件和平臺。TASSEL 和PLINK 等主流基因型分析軟件只能支持特定格式的輸入文件,如Hapmap 或VCF 格式。育種家手中的芯片數(shù)據(jù)往往具有各種不同的格式,目前尚缺乏此類芯片數(shù)據(jù)的標(biāo)準(zhǔn)化分析工具。此外,多數(shù)種企和育種單位的信息化水平仍然較低,缺乏系統(tǒng)的育種芯片處理及育種決策軟件和平臺。(5)我國底盤技術(shù)創(chuàng)新不足,核心技術(shù)受制于人。目前市場上的SNP 芯片主要以Illumina 公司和Affymetrix 公司的技術(shù)為主,我國缺乏底盤技術(shù)的自主知識產(chǎn)權(quán),隨時面臨技術(shù)“卡脖子”的風(fēng)險。
要克服上述困難,只有充分利用功能基因組學(xué)研究成果,研發(fā)具有我國自主知識產(chǎn)權(quán)、廣適性好的作物育種專用芯片。在考慮已克隆的高產(chǎn)、優(yōu)質(zhì)、抗病蟲、抗逆、養(yǎng)分高效等重要性狀功能基因和關(guān)聯(lián)SNP 標(biāo)記的基礎(chǔ)上,整合相關(guān)結(jié)構(gòu)變異標(biāo)記,提高育種芯片的檢測功效。并開發(fā)與育種專用芯片配套的數(shù)據(jù)分析軟件,以圖形化界面的方式完成對種質(zhì)資源類型的劃分、全基因組選擇模型的構(gòu)建、預(yù)測模型的優(yōu)化、預(yù)測準(zhǔn)確性的評估,對測試群體表型進(jìn)行快速、精準(zhǔn)預(yù)測,實(shí)現(xiàn)對作物產(chǎn)量、品質(zhì)、抗性等重要位點(diǎn)的快速篩查。
更進(jìn)一步,應(yīng)當(dāng)構(gòu)建智能決策育種平臺,提升育種效率和決策水平。作物廣泛來源的(包括地方品種、亞種和品系等)豐富遺傳變異,可以通過基于基因組信息的人工智能和大數(shù)據(jù)等現(xiàn)代技術(shù)來識別和發(fā)現(xiàn)[36]。具體措施,應(yīng)廣泛收集表型、基因型和環(huán)境數(shù)據(jù),同時制定數(shù)據(jù)管理的標(biāo)準(zhǔn)與規(guī)范,強(qiáng)化遺傳育種與人工智能和大數(shù)據(jù)等信息技術(shù)的交叉集成,協(xié)同建立通用的智能決策育種平臺,通過平臺、技術(shù)、群體、數(shù)據(jù)、模型以及育種材料的充分共享和積累,實(shí)現(xiàn)資源利用和育種效率的最大化,創(chuàng)新發(fā)展以育種專用芯片應(yīng)用為核心技術(shù)的GS 育種體系,為作物育種的精準(zhǔn)化、高效化、智能化發(fā)展提供有力支撐。
GS 育種技術(shù)的逐漸成熟和廣泛應(yīng)用為作物育種研究提供了新的機(jī)遇,將其與重要目標(biāo)性狀基因的精準(zhǔn)鑒定結(jié)果相結(jié)合,有望大大加快優(yōu)異基因聚合的效率,并創(chuàng)制出更加豐富的遺傳資源。尤其針對我國作物育種群體遺傳來源較為狹窄的問題,利用基因組水平上的精準(zhǔn)預(yù)測,能夠幫助育種家放眼更廣泛來源的種質(zhì)材料,通過精確預(yù)測和育種方案的科學(xué)設(shè)計(jì),聚合更多的有利等位基因,以創(chuàng)建作物的優(yōu)異育種新材料。如果將基因組、轉(zhuǎn)錄組和代謝組等組學(xué)信息相結(jié)合,配合對作物多個性狀的聯(lián)合預(yù)測,有望實(shí)現(xiàn)作物多個性狀之間的協(xié)調(diào)發(fā)展,為培育適應(yīng)機(jī)械化生產(chǎn)、優(yōu)質(zhì)高產(chǎn)多抗廣適作物新品種提供有效途徑。
雖然GS 技術(shù)在作物育種中的應(yīng)用前景廣闊,但是其發(fā)展仍然面臨著眾多挑戰(zhàn),主要包括以下幾點(diǎn):(1)一般的GS 方法只考慮加性效應(yīng),部分學(xué)者將顯性及上位性等效應(yīng)納入模型,但是預(yù)測效果還不夠理想;(2)前人的GS 研究大多只針對特定環(huán)境下特定作物群體的單個性狀,忽視了關(guān)聯(lián)性狀共同的生物學(xué)基礎(chǔ)以及多性狀的協(xié)調(diào)發(fā)展,且缺乏詳細(xì)的環(huán)境組學(xué)數(shù)據(jù),難以實(shí)現(xiàn)對基因環(huán)境互作模式的識別與利用;(3)多數(shù)GS 研究只用到基因組信息,多組學(xué)信息和研究成果沒有得到充分利用;(4)缺少GS 育種專用芯片以及配套軟件和平臺,數(shù)據(jù)共享程度低,限制了GS 效率的提高;(5)作物領(lǐng)域中已有的GS 研究很多停留在方法探索階段,未能廣泛付諸于實(shí)際的育種工作。
針對上述問題,首先應(yīng)結(jié)合已有的生物學(xué)和遺傳學(xué)研究成果,遴選作物全基因組上目標(biāo)性狀的候選基因,開發(fā)與基因組信息特征相適應(yīng)的降維方案,以大幅降低模型中的變量數(shù)目,同時應(yīng)用人工智能領(lǐng)域中的先進(jìn)算法,提高對各類非加性遺傳效應(yīng)的準(zhǔn)確預(yù)測;第二,廣泛收集表型、基因型和環(huán)境數(shù)據(jù),并對模型進(jìn)行優(yōu)化,注重作物多個性狀之間的協(xié)調(diào)發(fā)展,識別并利用基因環(huán)境互作模式,提高選擇的增益和可靠性;第三,應(yīng)結(jié)合人工神經(jīng)網(wǎng)絡(luò),機(jī)器學(xué)習(xí)等最新的數(shù)學(xué)方法,積極開展作物多組學(xué)預(yù)測研究,構(gòu)建多組學(xué)信息與目標(biāo)性狀之間的數(shù)量遺傳模型,提高多組學(xué)聯(lián)合預(yù)測的效果;第四,可以謀劃構(gòu)建GS 專用芯片和統(tǒng)一的GS 平臺,實(shí)現(xiàn)群體之間的信息共享與利用,提高數(shù)據(jù)的利用率;第五,GS 研究必須結(jié)合農(nóng)業(yè)發(fā)展的實(shí)際情況與切實(shí)需求,讓理論和方法研究更好地服務(wù)于實(shí)際育種工作,為培育適應(yīng)機(jī)械化生產(chǎn)、優(yōu)質(zhì)高產(chǎn)多抗廣適作物新品種提供高效途徑。總之,隨著作物育種精準(zhǔn)化和智能化的需求不斷提升,以及基因組學(xué)和人工智能技術(shù)的快速發(fā)展,未來的GS 研究工作充滿了機(jī)遇和挑戰(zhàn)。