張樹馨,范鈞瑋,許雪凌,杜夢涵,狄玉潔,劉廣臣*
(1.魯東大學 數(shù)學與統(tǒng)計科學學院,山東 煙臺 264000;2.魯東大學 信息與電氣工程學院,山東 煙臺 264000)
小麥是我國重要的糧食作物之一,是我國人民主要食用的細糧。為了國家農(nóng)業(yè)生產(chǎn)發(fā)展,在中國現(xiàn)階段面臨人口多,耕地少的問題下,挑選出影響小麥性狀的關(guān)鍵基因序列,提高小麥產(chǎn)量,有著重要的實際意義。
小麥育種關(guān)鍵在于選擇,傳統(tǒng)育種是以親本以及雜交后代的表型為基礎(chǔ),同時結(jié)合育種材料來對優(yōu)良品種進行選擇[1]。但是通過表型選擇耗費的周期較長,而且表型受到環(huán)境與基因的共同影響,無法準確反映其遺傳特征,選擇過程存在不穩(wěn)定性。
隨著育種技術(shù)的發(fā)展及大數(shù)據(jù)時代的到來,人們對育種的研究不斷深入,研究重點也從表型層面轉(zhuǎn)入到分子層面。全基因組選擇(Genomic Selection,GS)是Meuwissen[2]提出的一種選擇育種方法[2],是指利用覆蓋整個基因組的遺傳標記信息來對未知表型的個體育種值進行的估計,其作為一種高效育種方法,通過早期選擇縮短世代間隔,提高育種值估計準確性,加快遺傳進展,逐漸替代了傳統(tǒng)育種方式。
現(xiàn)階段用于GS 的研究方法主要有BLUP 法,Bayes法,機器學習等。BLUP 系列模型方面,Henderson 提出基于系譜矩陣(A 矩陣)的BLUP(Best Linear Unbiased Prediction)模型,其通過對育種值進行估計,明顯提升了遺傳進展。VanRaden 提出的基于全基因組標記的GBLUP(Genomic Best Linear Unbiased Prediction)模型[3],在大部分情況下,準確性優(yōu)于傳統(tǒng)BLUP 方法[4]。Zhang[5]提出TABLUP 模型,加入權(quán)重進行計算,從而減少了無效標記所帶來的影響,增加有效標記的重要性。Edwards 等[6]提出GFBLUP(Genomic feature BLUP)模型,將GBLUP 中隨機效應(yīng)增加到2 個,使模型更加靈活。Bayes 系列模型方面,Meuwissen 等[7]提出BayesA 和BayesB 模型,二者標記均服從先驗分布。Park 等[8]提出Bayesian LASSO 模型,Bayesian LASSO 準確性高,但迭代次數(shù)多,耗時較長[9]。Verbyla 提出BayesC 模型,在BayesB 模型上對其中的pi進行改進。Habier 等[10]在BayesC 基礎(chǔ)上對pi 進一步優(yōu)化,提出BayesCpi,BayesDpi 模型,具有更強的靈敏性。
機器學習(Machine Learning)模型方面,目前支持GS 的機器學習方法主要有隨機森林(Random Forest,RF)模型[11],支持向量機(Support Vector Machine,SVM)模型[12]等。與傳統(tǒng)的全基因組選擇方法相比,機器學習算法能夠提高計算效率,提供較高的預測精度。對于“大p 小n”問題,機器學習也可通過優(yōu)化算法來解決,整個過程計算效率較高;同時在選取模型時運用交叉驗證,充分利用樣本信息,提高預測的準確性。
本研究所用的小麥基因組數(shù)據(jù)來源于文獻[13](http://www.isbreeding.net/wheatGS/),所研究的小麥群體一共包含166 份材料。研究了6 個相關(guān)性狀,分別是籽粒產(chǎn)量(Grain Yield,GY)、抽穗天數(shù)(Heading Date,HD)、株高(Plant Height,PH)、穗長(Spike Length,SL)、千粒重(Thousand Kerner Weight,TKW)和每平方穗數(shù)(Spike Number,SN)。通過提取每一個品系的單株DNA進行基因型鑒定,一共獲得81 587 個SNP 標記[13]。
對上述小麥數(shù)據(jù)集的基因型數(shù)據(jù)進行編碼,對每一個位點的基因做如下處理:若存在缺失且缺失數(shù)量大于總樣本數(shù)的10%,則將該列刪除;若存在缺失但缺失數(shù)量小于總樣本數(shù)的10%,則以該列眾數(shù)對缺失基因型信息的位點進行替換。
(1)GBLUP 模型。GBLUP 是一種線性混合模型,通過群體標記信息構(gòu)建的親緣關(guān)系矩陣,以及估計方差組分,對個體育種值直接進行預測,又稱為直接法。GBLUP的先驗假設(shè)適合由多微效基因控制的性狀,對于由少數(shù)大效應(yīng)標記控制的性狀,預測準確性較差。
(2)BayesA 模型。BayesA 的標記效應(yīng)估計模型如下
式中:y 是表型值;μ 是總體均值;X 是標記效應(yīng)的設(shè)計矩陣;gi是第i 個標記的效應(yīng);gi~N(),其中效應(yīng)方差服從卡方分布;m 是總標記的數(shù)量;e 表示殘差向量。
(1)RBF-SVR 模型,SVR(Support Vector Regression)支持向量回歸,是支持向量機(SVM)的重要應(yīng)用分支。使用SVR 作回歸分析,要找出一個最佳的條狀區(qū)域,再對區(qū)域外的點進行回歸。與SVM 一樣,需要利用核函數(shù)將低維空間映射到高維空間,這里選擇高斯徑向基函數(shù)(RBF)。
(2)XGBoost 模型,XGBoost(eXtreme Graident Boosting)極致梯度提升,是基于GBDT 的一種算法。XGBoost 進行許多優(yōu)化,比如:利用二階泰勒公式展開,優(yōu)化損失函數(shù),提高計算精確度;利用正則項簡化模型,避免過擬合;采用Blocks 存儲結(jié)構(gòu),可以并行計算等。
(3)LightGBM 模型,LightGBM(Light Gradient Boosting Machine)是一個實現(xiàn)GBDT 算法的框架,可以快速處理海量數(shù)據(jù)。LightGBM 方法采用histogram 算法,占用內(nèi)存低,數(shù)據(jù)分割的復雜度更低;采用leaf-wise 生長策略,循環(huán)迭代,同時引入了一個閾值進行限制,防止過擬合。
(4)Linear-SVR 模型,Linear-SVR 可以有效捕捉樣本的局部變化趨勢,從而提高模型的預測精度。其選取每個測試樣本的K 個相鄰的樣本,對這K 個樣本使用SVR進行回歸建模,利用所建立的模型對其進行預測,每個測試樣本均執(zhí)行上述步驟,直到所有樣本預測完成。
(5)Ridge 模型,嶺回歸是一種用于回歸的線性模型,該模型可以寫為
式中:y 是表型值;X 是固定效應(yīng)的設(shè)計矩陣;β 是標記固定效應(yīng)的向量;Z 是隨機效應(yīng)設(shè)計的矩陣;μ 是隨機效應(yīng)的向量;ε 是隨機殘差。
在基于人工智能算法的小麥全基因組選擇育種模型的訓練過程中,為了提高模型預測的準確性和時效性,筆者通過隨機搜索對配置的參數(shù)進行調(diào)整,在此過程中,關(guān)注的主要參數(shù)以及對應(yīng)6 個性狀采用的參數(shù)最優(yōu)值見表1。
表1 全基因組選擇模型參數(shù)表
本研究評估了Linear-SVR,RBF-SVR,Ridge,Light-GBM,XGBoost,GBLUP,BayesA 7 個模型對小麥基因組預測準確性比較。研究隨機抽取90%的樣本作為測試集,10%的樣本作為驗證集,同時考慮到計算的準確性及效率,采用十輪十折交叉驗證。對于5 個機器學習模型及2 個傳統(tǒng)育種模型對小麥6 個性狀的預測精度見表2。
表2 多性狀的預測表現(xiàn)
從表2 中可看出,6 個性狀的最佳模型分別為Ridge,GBLUP,Ridge,GBLUP,Ridge,Linear-SVR。其中TKW 的Ridge 模型預測準確性最高,達到0.693。除去SN 以外,所有性狀的最高預測準確性均達到0.6 以上。
為積極響應(yīng)國家號召保障糧食安全,提高小麥產(chǎn)量,進一步提升育種技術(shù),本文通過冬小麥的6 個不同性狀對5 種機器學習模型與2 種傳統(tǒng)模型進行了對比??紤]到不同方法之的間比較,GBLUP 的預測準確性最高,其次為Ridge??紤]到每個性狀的前3 個精度,Ridge 的表現(xiàn)優(yōu)于GBLUP,有著更強的穩(wěn)定性;其次傳統(tǒng)育種模型與機器學習模型在不同的性狀上,所呈現(xiàn)出的優(yōu)勢并不相同,故現(xiàn)階段對于小麥不同性狀而言并沒有較為固定的單一模型,不同模型對不同性狀的預測表現(xiàn)具有一定程度差異。