亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于芯片數(shù)據(jù)的長(zhǎng)白豬繁殖性狀基因組選擇研究

        2025-01-27 00:00:00陽(yáng)文攀劉相杰羅冬香陳夢(mèng)會(huì)謝瑛方躍鑫林婷燕李愛(ài)民李文靜鄧政丁能水
        畜牧獸醫(yī)學(xué)報(bào) 2025年1期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        摘 要: 旨在比較不同基因組預(yù)測(cè)模型預(yù)測(cè)準(zhǔn)確性與運(yùn)行效率,以探究支持向量機(jī)(SVM)回歸與隨機(jī)森林(RandomForest)回歸在基因組預(yù)測(cè)中的應(yīng)用價(jià)值與應(yīng)用前景。本研究使用博瑞迪豬50K液相芯片,采用GBLUP、BayesB、BayesLASSO、SVM回歸和RandomForest回歸等基因組預(yù)測(cè)模型,對(duì)1 001頭長(zhǎng)白豬繁殖性狀進(jìn)行基因組預(yù)測(cè)評(píng)估。研究發(fā)現(xiàn),在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀中,使用SVM回歸徑向基函數(shù)核的評(píng)估準(zhǔn)確性均最高;產(chǎn)活仔數(shù)、窩重在參數(shù)C值為1時(shí)評(píng)估準(zhǔn)確性達(dá)到最大值,總產(chǎn)仔數(shù)在參數(shù)C值為2時(shí)評(píng)估準(zhǔn)確性達(dá)到最大值。在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀中,使用RandomForest回歸評(píng)估ntree、mtry、nodesize等參數(shù)時(shí)發(fā)現(xiàn),基因組預(yù)測(cè)準(zhǔn)確性隨著參數(shù)的變化展現(xiàn)一定的隨機(jī)性。RandomForest回歸模型在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重中的評(píng)估準(zhǔn)確性均最高,其次為SVM回歸,GBLUP、BayesB、BayesLASSO等模型遺傳評(píng)估準(zhǔn)確性較差且保持一致。交叉驗(yàn)證相關(guān)性顯示,不同模型遺傳評(píng)估結(jié)果存在較強(qiáng)的相關(guān)性,為0.806~0.995。SVM回歸與RandomForest回歸等非參數(shù)機(jī)器學(xué)習(xí)模型在豬繁殖性狀基因組選擇中具有一定的優(yōu)勢(shì),但運(yùn)行時(shí)間在一定程度上限制了這些算法的使用。隨著算法的研究?jī)?yōu)化,SVM回歸與RandomForest回歸等非參數(shù)機(jī)器學(xué)習(xí)模型將具有良好的應(yīng)用前景。

        關(guān)鍵詞: 長(zhǎng)白豬;繁殖性狀;基因芯片;基因組選擇;機(jī)器學(xué)習(xí)

        中圖分類號(hào):S828.3"""" 文獻(xiàn)標(biāo)志碼:A"""" 文章編號(hào): 0366-6964(2025)01-0213-09

        收稿日期:2024-05-31

        基金項(xiàng)目:福建省種業(yè)企業(yè)培優(yōu)項(xiàng)目(2120814-農(nóng)業(yè)生產(chǎn)發(fā)展支出)

        作者簡(jiǎn)介:陽(yáng)文攀(1994-),男,湖北孝感人,碩士,主要從事動(dòng)物遺傳育種與繁殖研究,E-mail:945226087@qq.com

        *通信作者:丁能水,主要從事種豬遺傳及育種新技術(shù)、生豬養(yǎng)殖新技術(shù)方向的研究與開(kāi)發(fā)工作,E-mail:13631698@qq.com

        YANG" Wenpan 大量SNPs標(biāo)記被廣泛應(yīng)用于畜禽分子育種中[1-3?;蚪M選擇技術(shù)通過(guò)覆蓋全基因組的高密度SNPs標(biāo)記信息對(duì)育種值進(jìn)行估計(jì),不同統(tǒng)計(jì)模型與計(jì)算方法是影響基因組選擇準(zhǔn)確性與效率的主要因素之一[4-7。GBLUP(genomic best linear unbiased prediction)與Bayes回歸模型等參數(shù)方法是應(yīng)用于基因組選擇的常用方法[8,非加性效應(yīng)參數(shù)的增加將導(dǎo)致巨大的計(jì)算量[9,因此這些線性模型通常只考慮加性效應(yīng),而忽略標(biāo)記與表型間復(fù)雜的非加性關(guān)聯(lián)10。近年來(lái),有較多將機(jī)器學(xué)習(xí)方法作為復(fù)雜性狀基因組遺傳評(píng)估參數(shù)模型替代方法的研究11-14,機(jī)器學(xué)習(xí)能以適應(yīng)性的方式捕捉基因型和表型之間的隱藏關(guān)系,且較少對(duì)性狀潛在的遺傳結(jié)構(gòu)進(jìn)行假設(shè)10,15。支持向量機(jī)(support vector machines,SVM)是一種著名的機(jī)器學(xué)習(xí)算法[16-18,它使用多個(gè)特征向量通過(guò)在兩個(gè)類之間創(chuàng)建決策邊界來(lái)完成預(yù)測(cè)[19,基于不同的核方法,SVM還可以在一定程度上處理表型和基因組之間的非線性關(guān)系。隨機(jī)森林(RandomForest)采用引導(dǎo)聚合抽樣[20,可捕獲復(fù)雜的交互,并且對(duì)于過(guò)度擬合數(shù)據(jù)具有一定的穩(wěn)健性21。

        本研究擬通過(guò)GBLUP、BayesB、BayesLASSO等參數(shù)模型與SVM回歸、RandomForest回歸等非參數(shù)機(jī)器學(xué)習(xí)模型來(lái)評(píng)估長(zhǎng)白豬繁殖性狀基因組選擇的準(zhǔn)確性與評(píng)估效率,以探討機(jī)器學(xué)習(xí)在豬遺傳評(píng)估中的應(yīng)用價(jià)值和前景。

        1 材料與方法

        1.1 試驗(yàn)群體

        本試驗(yàn)所用數(shù)據(jù)來(lái)自福建傲農(nóng)集團(tuán)2019年4月至2024年3月1 914頭長(zhǎng)白種豬的6 195條繁殖記錄,包括總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀。使用磁珠法組織基因組提取試劑盒從1 001頭豬組織中提取基因組DNA,檢測(cè)DNA濃度及瓊脂糖凝膠電泳符合分型標(biāo)準(zhǔn)后,在石家莊博瑞迪生物技術(shù)有限公司進(jìn)行豬50K液相芯片分型。

        1.2 基因型填充及質(zhì)控

        為避免缺失基因型對(duì)基因組選擇計(jì)算產(chǎn)生影響,本試驗(yàn)使用Beagle v5.4[22對(duì)原始芯片數(shù)據(jù)進(jìn)行基因型填充,使用SNPRelate v1.36.1[23對(duì)芯片填充數(shù)據(jù)進(jìn)行質(zhì)控,選擇次等位基因頻率(minor allele frequency,MAF)≥ 0.05、哈迪-溫伯格平衡(Hardy-Weinberg equilibrium,HWE)檢驗(yàn)Pgt;1×10-6的SNPs進(jìn)行基因組選擇計(jì)算。

        1.3 表型數(shù)據(jù)處理

        為保證數(shù)據(jù)質(zhì)量,本試驗(yàn)剔除了總產(chǎn)仔數(shù)小于3的繁殖數(shù)據(jù)??紤]后續(xù)分析的便利性,使用BLUPF90通過(guò)單性狀重復(fù)力模型計(jì)算固定效應(yīng)值,去除個(gè)體相應(yīng)固定效應(yīng)值后取個(gè)體表型平均值作為全基因組選擇表型值。該單性狀重復(fù)力模型如下所示:

        y=Xb+Za+Wp+e

        其中:y為表型值向量;b為固定效應(yīng)向量,包含場(chǎng)-年-季、胎次;a為個(gè)體加性遺傳效應(yīng)向量,且a~N(0,Hσ2 a),H為基因型與系譜親緣關(guān)系矩陣6;p為永久環(huán)境效應(yīng)向量,且p~N(0,Iσ2 p),I為單位矩陣;e為隨機(jī)殘差向量,且e~N(0,Iσ2 e);X、Z、W為b、a、p的關(guān)聯(lián)矩陣。

        1.4 基因組預(yù)測(cè)模型

        1.4.1 參數(shù)預(yù)測(cè)模型" 對(duì)于GBLUP,模型描述如下所示:

        y*=μ+Zg+e

        其中,y*為校正后表型,即y*=mean(y-Xb);μ為表型均值向量;g為個(gè)體加性遺傳效應(yīng)向量,且a~N(0,Gσ2 a),G為基因型親緣關(guān)系矩陣5;Z為g的關(guān)聯(lián)矩陣;e為隨機(jī)殘差向量,且e~N(0,Iσ2 e)。

        對(duì)于BayesB[4與BayesLASSO[24,模型描述如下所示:

        y* i=μ+∑sj=1m ijα j+e i,

        其中,y* i為個(gè)體i校正后表型;μ為表型均值向量;m ij為第i個(gè)個(gè)體在第j個(gè)SNP處觀察到的基因型協(xié)變量;α j是與第j個(gè)SNP相關(guān)的等位基因替代效應(yīng);e i為第i個(gè)個(gè)體隨機(jī)殘差,且e~N(0,Iσ2 e)。對(duì)于BayesB,SNP α j服從正態(tài)分布,不同α j方差不同為σ2 α j,p(σ2 α j)=x-2(ν,S),即SNP效應(yīng)方差σ2 α j服從自由度為ν,參數(shù)尺度為S的逆卡方分布。σ2 α j先驗(yàn)分布假設(shè)為σ2 α j=0的概率為π,p(σ2 α j)=x-2(ν,S)的概率為1-π。通過(guò)最小化殘差平方和及約束回歸系數(shù)絕對(duì)值的和獲得BayesLASSO回歸系數(shù)估計(jì)值,通常采用的先驗(yàn)分布為雙指數(shù)分布(又稱拉普拉斯分布):p(g)=q j=1λ2exp(-λα j),它是一個(gè)兩水平的層級(jí)模型分布,由p(α jσ2 α j)=N(0,σ2 α j)與p(σ2 α j)=gamma( λ2/2)混合組成。GBLUP、BayesB、BayesLASSO等模型使用BGLR v1.1.1[25計(jì)算。

        1.4.2 SVM回歸

        本試驗(yàn)使用ε-支持向量回歸,為了執(zhí)行非線性回歸,數(shù)據(jù)被核函數(shù)映射到更高維的空間中,模型為:

        y=β 0+f x(X|β)+e=β 0+Kx,xT+e

        其中Kx,xT是n×n核矩陣,β是n×1向量(未知)。有許多不同的核,它們被定義為徑向基函數(shù)核(Radial Basis Function Kernel,或高斯核):

        K ij(x i,xT i)=exp[-γ(x i-x j)(x i-x j)T]

        多項(xiàng)式核(polynomial kernel):

        K ijx i,xT i=γx ixT j+rd

        線性核(linear kernel):

        K ij(x i,xT i)=x ixT j

        Sigmoid核(Sigmoid kernel):

        K ij(x i,xT i)=tanh(γx ixT j+r)

        在求解SVM的過(guò)程中,最終會(huì)轉(zhuǎn)化為一個(gè)最佳化問(wèn)題:

        min12ω+C∑ni=1ε i

        約束為:y i(ωTx i+b)≥1-ε i;ε i≥0,i= …,n。

        其中ω是要求解的超平面,ε i是第i個(gè)樣本點(diǎn)的回歸損失,C是懲罰系數(shù),即誤差的容忍度。γ是RBF核函數(shù)的一個(gè)參數(shù)。本試驗(yàn)使用e1071 v1.7-14[26R包svm函數(shù)進(jìn)行評(píng)估。

        為篩選SVM最佳參數(shù),在e1071包svm函數(shù)默認(rèn)參數(shù)值附近進(jìn)行參數(shù)調(diào)試,即C值為1、γ值為1/N snp(N snp為用于分析的SNP數(shù))。本試驗(yàn)使用svm函數(shù)默認(rèn)C值與γ值分別對(duì)徑向基函數(shù)核、多項(xiàng)式核、線性核、Sigmoid核進(jìn)行1×10重交叉驗(yàn)證,篩選準(zhǔn)確性最高的核函數(shù);使用最優(yōu)核函數(shù)與默認(rèn)γ值,其次將C值設(shè)置為0.1、0.5、1、2、3、4、5、6、7、8、9、10進(jìn)行1×10重交叉驗(yàn)證,篩選準(zhǔn)確性最高的C值;使用最優(yōu)核函數(shù)與默認(rèn)C值,其次將RBF核函數(shù)的γ值設(shè)置為10-1、10-2、10-3、10-4、10-5、10-6、10-7、10-8、10-9進(jìn)行1×10重交叉驗(yàn)證,篩選準(zhǔn)確性最高的γ值。

        1.4.3 RandomForest回歸

        RandomForest回歸模型通過(guò)隨機(jī)抽取樣本和特征,建立多棵相互不關(guān)聯(lián)的決策樹(shù),通過(guò)并行的方式獲得預(yù)測(cè)結(jié)果。每棵決策樹(shù)都能通過(guò)抽取的樣本和特征得出一個(gè)預(yù)測(cè)結(jié)果,通過(guò)綜合所有樹(shù)的結(jié)果取平均值,得到整個(gè)森林的回歸預(yù)測(cè)結(jié)果。

        每個(gè)樹(shù)節(jié)點(diǎn)中,從s個(gè)預(yù)測(cè)變量(其中s代表SNPs的數(shù)量)中隨機(jī)抽取mtry變量,使用給定的損失函數(shù)作為標(biāo)準(zhǔn)選擇,選擇風(fēng)險(xiǎn)最低的預(yù)測(cè)變量和分裂閾值。在完成所有獨(dú)立樹(shù)之后,RandomForest回歸聚合各樹(shù)信息以計(jì)算最終預(yù)測(cè),其計(jì)算公式如下:

        y*=1ntree∑ntreeb=1ψ b(y*,M)

        其中,ψ b為獨(dú)立RandomForest回歸數(shù),包含抽樣樣本、每個(gè)樹(shù)節(jié)點(diǎn)上的預(yù)測(cè)變量(標(biāo)記)、分裂閾值及終端節(jié)點(diǎn)值。對(duì)于未觀察到的值,通過(guò)在每棵樹(shù)的流程圖中傳遞預(yù)測(cè)變量來(lái)獲得預(yù)測(cè),并將終端節(jié)點(diǎn)的相應(yīng)估計(jì)分配為預(yù)測(cè)值。將RandomForest回歸中每棵樹(shù)的預(yù)測(cè)值平均以計(jì)算未觀察數(shù)據(jù)的最終預(yù)測(cè)。本試驗(yàn)使用randomForest v4.7-1.1包randomForest函數(shù)進(jìn)行評(píng)估[27

        為篩選RandomForest最佳參數(shù),將GIANOLA[20使用參數(shù)作為默認(rèn)參數(shù),在默認(rèn)參數(shù)附近進(jìn)行參數(shù)調(diào)試,即ntree為1 000、mtry為N snp、nodesize為5。使用推薦mtry值與nodesize值,分別將生長(zhǎng)樹(shù)數(shù)目ntree設(shè)置為800、1 000、1 200、1 400、1 600、1 800、2 000進(jìn)行1×10重交叉驗(yàn)證,篩選最佳ntree值;使用推薦ntree值與nodesize值,分別將每個(gè)樹(shù)節(jié)點(diǎn)數(shù)mtry設(shè)置為150、200、250、300、350、400進(jìn)行1×10重交叉驗(yàn)證,篩選最佳mtry值;使用推薦ntree值與mtry值,其次將每個(gè)樹(shù)終端最小變量數(shù)nodesize設(shè)置為4、5、6、7、8、9、10進(jìn)行1×10重交叉驗(yàn)證,篩選最佳nodesize值。

        1.5 基因組預(yù)測(cè)

        使用GBLUP、BayesB、BayesLASSO、SVM、RandomForest等模型進(jìn)行基因組預(yù)測(cè),通過(guò)5×10交叉驗(yàn)證獲取各模型預(yù)測(cè)準(zhǔn)確性與運(yùn)行時(shí)間,并比較各模型準(zhǔn)確性相關(guān)性值。預(yù)測(cè)準(zhǔn)確性為預(yù)測(cè)值與真實(shí)值的相關(guān)系數(shù)。

        2 結(jié) 果

        2.1 基因型數(shù)據(jù)處理與遺傳力估計(jì)

        本研究使用博瑞迪液相芯片對(duì)1 001頭長(zhǎng)白母豬進(jìn)行基因分型,共獲得52 000個(gè)SNPs,使用Beagle v5.4進(jìn)行基因型填充后共獲得50 254個(gè)SNPs。使用SNPRelate v1.36.1對(duì)芯片填充數(shù)據(jù)進(jìn)行質(zhì)控,6 354個(gè)SNPs因MAFlt;0.05而剔除,815個(gè)SNPs因HWE檢驗(yàn)Plt;1×10-6而剔除,最終43 085個(gè)SNPs被用于后續(xù)分析。

        通過(guò)BLUPF90對(duì)長(zhǎng)白豬繁殖性狀固定效應(yīng)值進(jìn)行計(jì)算,同時(shí)獲取長(zhǎng)白豬繁殖性狀遺傳參數(shù)估計(jì)值如表1所示。其中總產(chǎn)仔數(shù)遺傳力與重復(fù)力最高,窩重遺傳力最低,產(chǎn)活仔數(shù)重復(fù)力最低。

        2.2 SVM參數(shù)對(duì)基因組預(yù)測(cè)準(zhǔn)確性的影響

        為篩選SVM最佳參數(shù),使用e1071包對(duì)核函數(shù)、C值分別進(jìn)行1×10重交叉驗(yàn)證,其評(píng)估準(zhǔn)確性與計(jì)算時(shí)間如圖1所示。使用SVM函數(shù)默認(rèn)參數(shù),在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀中,使用高斯函數(shù)核評(píng)估準(zhǔn)確性均最高,線性核評(píng)估準(zhǔn)確性均最低。而在運(yùn)行時(shí)間上,線性核運(yùn)行時(shí)間較長(zhǎng)。在產(chǎn)活仔數(shù)、窩重等繁殖性狀中,評(píng)估準(zhǔn)確性在C值為1時(shí)達(dá)到最大值,在C值為5后基本不變??偖a(chǎn)仔數(shù)評(píng)估準(zhǔn)確性在C值為2時(shí)達(dá)到最大值,在C值為6后基本不變。運(yùn)行時(shí)間受C值影響較小。在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀中,將高斯核函數(shù)的γ值設(shè)置為10-1、10-2、10-3、10-4、10-5、10-6、10-7、10-8、10-9進(jìn)行1×10重交叉驗(yàn)證,發(fā)現(xiàn)評(píng)估準(zhǔn)確性均保持不變。

        2.3 RandomForest參數(shù)對(duì)基因組預(yù)測(cè)準(zhǔn)確性的影響

        為篩選RandomForest最佳參數(shù),使用RandomForest包對(duì)ntree、mtry、nodesize等參數(shù)進(jìn)行1×10重交叉驗(yàn)證,其評(píng)估準(zhǔn)確性與計(jì)算時(shí)間如圖2所示。在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀中對(duì)ntree、mtry、nodesize等參數(shù)進(jìn)行評(píng)估時(shí),發(fā)現(xiàn)基因組預(yù)測(cè)準(zhǔn)確性隨著參數(shù)的變化展現(xiàn)一定的隨機(jī)性。在運(yùn)行時(shí)間上,隨著nodesize值的增加,運(yùn)行時(shí)間逐漸減少,而隨著ntree、mtry值的增加,運(yùn)行時(shí)間逐漸增加。

        2.4 各模型計(jì)算準(zhǔn)確性與運(yùn)行時(shí)間

        在對(duì)SVM與RandomForest參數(shù)進(jìn)行評(píng)估后,使用SVM高斯函數(shù)核與軟件默認(rèn)參數(shù)與RandomForest軟件默認(rèn)參數(shù)設(shè)置模型參數(shù)進(jìn)行基因組預(yù)測(cè)。GBLUP、BayesB、BayesLASSO、SVM、RandomForest等模型計(jì)算準(zhǔn)確性與運(yùn)行時(shí)間如圖3所示。RandomForest模型在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重上均表現(xiàn)出最高的評(píng)估準(zhǔn)確性,其次為SVM,而GBLUP、BayesB、BayesLASSO等遺傳評(píng)估準(zhǔn)確性較差且保持一致。在運(yùn)行時(shí)間上,GBLUP運(yùn)行時(shí)間保持最優(yōu),其次為RandomForest模型,BayesB、BayesLASSO、SVM等模型評(píng)估時(shí)間均較久。

        2.5 各模型相關(guān)性分析

        為驗(yàn)證各模型在交叉驗(yàn)證時(shí)的評(píng)估一致性,將各模型評(píng)估準(zhǔn)確性進(jìn)行Person相關(guān)性分析,具體結(jié)果如圖4所示。其中GBLUP、BayesB、BayesLASSO間評(píng)估相關(guān)性最高,為0.928~0.995;SVM與GBLUP、BayesB、BayesLASSO評(píng)估相關(guān)性較高,為0.891~0.922;RandomForest與GBLUP、BayesB、BayesLASSO、SVM評(píng)估相關(guān)性較低,為0.806~0.871。

        3 討 論

        本研究使用BLUPF90通過(guò)一步法對(duì)長(zhǎng)白豬繁殖性狀遺傳參數(shù)進(jìn)行估計(jì),得到的總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重的遺傳力分別為0.102±0.019、0.084±0.017、0.071±0.016,總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重的重復(fù)力分別為0.171±0.015、0.138±0.015、0.147±0.014,這與前人的研究類似[28-29。

        在篩選SVM最佳參數(shù)時(shí),在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀中,使用高斯函數(shù)核評(píng)估準(zhǔn)確性均最高,線性核評(píng)估準(zhǔn)確性均最低,與Zhao等[30對(duì)豬育種數(shù)據(jù)的研究結(jié)果一致,這可能與所用的SNP數(shù)目相近有關(guān)。Kasnavi等[31通過(guò)模擬數(shù)據(jù)發(fā)現(xiàn)高斯函數(shù)核有較好的應(yīng)用效果。由于挑選合適的C值與γ值需要更多的計(jì)算量[30,32,也有較多的研究直接選用推薦的參數(shù)值33-34。在本研究中,SVM最佳參數(shù)與軟件推薦的默認(rèn)值差別較小,在允許基因組預(yù)測(cè)準(zhǔn)確性損失較小的情況下,可直接使用默認(rèn)值進(jìn)行計(jì)算。

        在篩選RandomForest最佳參數(shù)時(shí),在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重等繁殖性狀中對(duì)ntree、mtry、nodesize等參數(shù)進(jìn)行評(píng)估,發(fā)現(xiàn)基因組預(yù)測(cè)準(zhǔn)確性隨著參數(shù)的變化展現(xiàn)一定的隨機(jī)性。Sarkar等[35在對(duì)nodesize與mtry最佳參數(shù)進(jìn)行篩選時(shí),發(fā)現(xiàn)其具有一定的規(guī)律性,這可能是由于使用參數(shù)較少且參數(shù)值差別較大所致。同時(shí),RandomForest模型本身的隨機(jī)性(如節(jié)點(diǎn)特征值選擇與樣本分割)也可能導(dǎo)致基因組預(yù)測(cè)準(zhǔn)確性隨著參數(shù)的變化展現(xiàn)一定的隨機(jī)性。

        RandomForest模型在總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、窩重中均表現(xiàn)出最高的評(píng)估準(zhǔn)確性,其次為SVM,GBLUP、BayesB、BayesLasso等遺傳評(píng)估準(zhǔn)確性較差且保持一致。與GBLUP、BayesB、BayesLasso等參數(shù)模型相比,RandomForest在繁殖性狀中的遺傳評(píng)估準(zhǔn)確性可提升22.35%~34.25%,SVM在繁殖性狀中的遺傳評(píng)估準(zhǔn)確性可提升6.15%~26.04%。在運(yùn)行時(shí)間上,GBLUP運(yùn)行時(shí)間保持最優(yōu),其次為RandomForest模型,BayesB、BayesLASSO、SVM等模型評(píng)估時(shí)間均較久。Banerjee等[36在使用SNP數(shù)據(jù)進(jìn)行水稻遺傳評(píng)估時(shí)發(fā)現(xiàn),RandomForest、SVM比傳統(tǒng)GS模型有更高的準(zhǔn)確性。Liang等[37在中國(guó)西門塔爾肉牛研究中發(fā)現(xiàn)SVM、RandomForest較傳統(tǒng)GBLUP模型準(zhǔn)確性更高,且RandomForest均有更好的穩(wěn)定性。Merrick和Carter[38認(rèn)為,隨著多年來(lái)對(duì)訓(xùn)練群體的結(jié)合,在育種計(jì)劃中使用非參數(shù)機(jī)器學(xué)習(xí)模型來(lái)準(zhǔn)確預(yù)測(cè)和實(shí)施復(fù)雜性狀的準(zhǔn)確性更高。同時(shí),在評(píng)估不同模型交叉驗(yàn)證準(zhǔn)確性時(shí)發(fā)現(xiàn),其結(jié)果存在較強(qiáng)的一致性。然而,SVM與RandomForest在運(yùn)行上需要更多的時(shí)間,且隨著數(shù)據(jù)量的增加,所需的時(shí)間呈指數(shù)式增加[39-40,這在一定程度上限制了機(jī)器學(xué)習(xí)方法的使用。

        4 結(jié) 論

        SVM與RandomForest非參數(shù)機(jī)器學(xué)習(xí)模型在豬繁殖性狀基因組選擇中具有一定的優(yōu)勢(shì),其評(píng)估結(jié)果與GBLUP、BayesB、BayesLasso等參數(shù)模型具有較高的相關(guān)性,但運(yùn)行時(shí)間相對(duì)更長(zhǎng)在一定程度上限制了該機(jī)器學(xué)習(xí)算法的使用。不過(guò),隨著算法的研究?jī)?yōu)化和運(yùn)行時(shí)長(zhǎng)的逐步縮短,SVM與RandomForest仍具有較好的應(yīng)用前景。

        參考文獻(xiàn)(References):

        [1] PILES M,BERGSMA R,GIANOLA D,et al.Feature selection stability and accuracy of prediction models for genomic prediction of residual feed intake in pigs using machine learning[J].Front Genet,202 12:611506.

        [2] MUOZ M,BOZZI R,GARCA-CASCO J,et al.Genomic diversity,linkage disequilibrium and selection signatures in European local pig breeds assessed with a high density SNP chip[J].Sci Rep,2019,9(1):13546.

        [3] WELLMANN R,PREUSS S,THOLEN E,et al.Genomic selection using low density marker panels with application to a sire line in pigs[J].Genet Sel Evol,2013,45(1):28.

        [4] MEUWISSEN T H,HAYES B J,GODDARD M E.Prediction of total genetic value using genome-wide dense marker maps[J].Genetics,200 157(4):1819-1829.

        [5] VANRADEN P M.Efficient methods to compute genomic predictions[J].J Dairy Sci,2008,91(11):4414-4423.

        [6] LEGARRA A,AGUILAR I,MISZTAL I.A relationship matrix including full pedigree and genomic information[J].J Dairy Sci,2009,92(9):4656-4663.

        [7] MONTESINOS-L PEZ O A,MONTESINOS-L PEZ A,PREZ-RODRGUEZ P,et al.A review of deep learning applications for genomic selection[J].BMC Genomics,202 56(1):222-231

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        国产一区二区视频免费在| 日韩在线观看网址| 日韩丝袜人妻中文字幕| 国产高清精品一区二区| 操老熟妇老女人一区二区| 亚洲av五月天一区二区| 午夜射精日本三级| 久久夜色撩人精品国产小说 | 国内揄拍国内精品少妇国语| 中文无码日韩欧免费视频| 国产精品后入内射日本在线观看| 国产精品婷婷久久爽一下| 国产精选污视频在线观看| 亚洲熟妇丰满大屁股熟妇| 中文字幕精品一二三区| 久久中文字幕国产精品| 天堂8在线新版官网| 国模无码一区二区三区| 粗大的内捧猛烈进出在线视频| 国产午夜亚洲精品不卡免下载 | 激情亚洲一区国产精品久久| 国产亚洲欧美精品久久久| 在线不卡av天堂| 亚洲精品女同在线观看| 人人妻人人澡人人爽欧美一区| 国产精品亚洲一区二区三区在线| 亚洲女同精品一区二区久久| 国产一区二区在线观看av| 中文字幕乱码亚洲一区二区三区| 免费看又色又爽又黄的国产软件| 国产98在线 | 免费| 毛片av中文字幕一区二区| 中文乱码字幕精品高清国产 | 伊人久久精品久久亚洲一区| 中文人妻无码一区二区三区信息| 日本97色视频日本熟妇视频| 欧美老妇交乱视频在线观看| 国产第一页屁屁影院| 国产 在线播放无码不卡| 亚洲中文字幕乱码第一页| 中文字幕欧美人妻精品一区|