亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習方法的母豬高低產(chǎn)分類模型研究

        2021-06-08 03:41:50李喜陽李信頡趙志超李長春1劉向東1
        關(guān)鍵詞:分類特征模型

        李喜陽,李信頡,趙志超,李長春1,,劉向東1,

        1.華中農(nóng)業(yè)大學動物科學技術(shù)學院/農(nóng)業(yè)動物遺傳育種與繁殖教育部重點實驗室,武漢 430070; 2.農(nóng)業(yè)農(nóng)村部生豬健康養(yǎng)殖重點實驗室/廣西揚翔股份有限公司,貴港 537100

        母豬的產(chǎn)仔數(shù)性狀是豬場生產(chǎn)成績和母豬繁殖力的重要評定指標,據(jù)統(tǒng)計許多國家商業(yè)母豬群體的年淘汰率在20%~50%,其中產(chǎn)仔數(shù)性狀差是母豬淘汰的主要原因之一[1]。母豬的高繁殖力直接決定了規(guī)模豬場的經(jīng)濟效益。因此,早在1980年,為選育出高繁殖力的母豬群體,歐洲畜產(chǎn)協(xié)會統(tǒng)一了母豬產(chǎn)仔數(shù)性狀的記錄方法并將其標準化,最早選育母豬的指標包括總產(chǎn)仔數(shù)(total number born,TNB)、產(chǎn)活仔數(shù)(number born alive,NBA)和健仔數(shù)(number healthy piglets,NHP)等[2]。此外,Nielsen等[3]和Su等[4]研究發(fā)現(xiàn)5日齡活仔數(shù)(number 5 day,N5D)與仔豬成活率之間存在中等遺傳相關(guān),對該指標的遺傳改良將有利于提高仔豬成活率。因此,構(gòu)建以上產(chǎn)仔數(shù)性狀的分類模型,將有利于挖掘影響母豬生產(chǎn)水平的相關(guān)因素。

        機器學習顧名思義就是讓計算機學習,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,其不僅包含統(tǒng)計學知識,還是多學科知識交互應用的代表,例如其包含有大量的算法理論、概率論以及逼近理論等[5]。隨著畜牧業(yè)的快速發(fā)展,所要處理和分析的數(shù)據(jù)量愈發(fā)龐大、數(shù)據(jù)結(jié)構(gòu)愈發(fā)復雜,使得機器學習方法在畜牧領(lǐng)域得到了廣泛應用。Bakoev等[6]以豬的生長和肉質(zhì)特征為指標,利用9種不同的機器學習分類算法來評估豬的四肢狀態(tài)。Messad等[7]利用梯度提升方法鑒定到的重要特征可作為豬飼料效率的可靠預測因子。Shahinfar等[8-9]利用綿羊的生產(chǎn)管理數(shù)據(jù),通過不同機器學習方法構(gòu)建了綿羊早期胴體性狀和綿羊羊毛質(zhì)量的預測模型,取得了不錯的預測效果。Tusell等[10]基于豬的表型數(shù)據(jù)和基因組數(shù)據(jù)利用支持向量機預測豬的飼料效率和生長速度。李信頡等[11]使用幾種不同的機器學習方法對母豬的產(chǎn)仔數(shù)性狀進行預測。然而,之前的研究更多是對動物表型或經(jīng)濟性狀的回歸分析,涉及分類的研究較少。

        因此,為探究影響母豬生產(chǎn)性能的相關(guān)因素(特征),篩選最佳的建模方法,本研究收集整理了包含以上產(chǎn)仔數(shù)性狀的母豬群體數(shù)據(jù)集,針對不同產(chǎn)仔數(shù)指標制定母豬高低產(chǎn)的分類標準,利用4種不同的機器學習算法(邏輯回歸、決策樹、隨機森林和支持向量機)構(gòu)建母豬高低產(chǎn)的分類模型,并進行決策樹視圖分析,以期為實現(xiàn)高產(chǎn)母豬的早期選育提供參考。

        1 材料與方法

        1.1 數(shù)據(jù)的預處理

        本研究收集整理了廣西某豬場2016-2018年3個母豬群體的生產(chǎn)數(shù)據(jù)(以A、B、C數(shù)據(jù)集表示)。A數(shù)據(jù)集包含出生場地、分娩欄位、品種、第1胎初生窩重、第2胎初生窩重和第3胎的產(chǎn)仔數(shù)性狀,B數(shù)據(jù)集包含出生場地、分娩欄位、品種、第1胎初生窩重、第2胎初生窩重、第3胎初生窩重和第4胎的產(chǎn)仔數(shù)性狀,C數(shù)據(jù)集包含出生場地、分娩欄位、品種、第1胎初生窩重、第2胎初生窩重、第3胎初生窩重、第4胎初生窩重和第5胎的產(chǎn)仔數(shù)性狀。正態(tài)性檢驗表明各胎次產(chǎn)仔數(shù)性狀均近似符合正態(tài)分布。使用SPSS 19.0和Excel 2019對數(shù)據(jù)集進行預處理,剔除缺失值,并使用R軟件對不同數(shù)據(jù)集的母豬產(chǎn)仔數(shù)性狀進行描述性統(tǒng)計(表1)。

        表1 不同數(shù)據(jù)集產(chǎn)仔數(shù)性狀的描述性統(tǒng)計Table 1 Descriptive statistics of litter size traits in different data set

        1.2 母豬高低產(chǎn)分類標準的制定

        結(jié)合近年來我國核心母豬的生產(chǎn)水平[12]制定母豬高低產(chǎn)的分類標準。如表2所示,以A數(shù)據(jù)集為例,總產(chǎn)仔數(shù)大于等于18頭、產(chǎn)活仔數(shù)大于等于17頭、健仔數(shù)大于等于16頭、5日齡產(chǎn)仔數(shù)大于等于15頭的母豬為高產(chǎn)母豬,其余為低產(chǎn)母豬,以此類推,最后將產(chǎn)活仔數(shù)和5日齡仔豬數(shù)歸納為一個綜合指標對所有數(shù)據(jù)集中的母豬進行再分類,形成最高產(chǎn)母豬。

        表2 高低產(chǎn)母豬的分類標準Table 2 Classification standard for high and low production sows

        1.3 篩選構(gòu)建分類模型的重要特征

        使用R軟件中的Boruta包對A、B、C 3個數(shù)據(jù)集中所包含的變量進行特征篩選[13],特征篩選結(jié)果如圖1~3所示:除C數(shù)據(jù)集中的產(chǎn)活仔數(shù)模型中的第1胎初生窩重外(圖3),3個數(shù)據(jù)集中所包含的其他變量對母豬產(chǎn)仔數(shù)性狀分類模型的構(gòu)建均重要,其中出生場地的重要程度均最高。

        1.4 機器學習方法

        1)邏輯回歸(logistic regression,LOG)。邏輯回歸是一種應用非常廣泛的機器學習分類算法,它將數(shù)據(jù)擬合到一個logit函數(shù)中,從而完成對事件發(fā)生概率的預測。相比傳統(tǒng)回歸方法,邏輯回歸彌補了線性回歸無法處理分類問題的缺陷,其判別性能主要基于Sigmoid函數(shù)來實現(xiàn),函數(shù)表達式如下:

        通過Sigmoid函數(shù)計算特征得出相應的概率值,大于某一概率閾值的劃分為一類,小于某一概率閾值的劃分為另一類,以此來判斷樣本類別[5]。

        2)決策樹(decision tree,DT)。決策樹作為最基礎(chǔ)、最常見的有監(jiān)督學習模型,常被用于分類問題和回歸問題,它是一種以樹結(jié)構(gòu)形式表達的預測分析模型,其獨特的樹型分類圖中從根節(jié)點到葉節(jié)點每一處都代表了一種特征。決策樹算法的重要理論基礎(chǔ)是“基尼指數(shù)”和“信息熵”,其為量化信息的分析工具。熵代表元素的隨機性程度,在數(shù)學上,它可以借助于變量的概率來計算:H=-∑p(x)log(x),其中x表示離散隨機變量,p(x)表示變量x發(fā)生的概率[14],概率越大,熵值越小,反之熵值越大?;嵯禂?shù)和熵值的定義類似,基尼系數(shù)越大,熵值也越大,說明元素的隨機化程度越高。

        shadowMin:陰影屬性的最小值; shadowMean:陰影屬性的均值; shadowMax:陰影屬性的最大值; 陰影屬性的最小、平均和最大值為數(shù)據(jù)集中的閾值,高于閾值水平的特征為重要特征,紅色、黃色和綠色方框代表拒絕、暫定和確認的特征; bw1:第1胎初生窩重; bw2:第2胎初生窩重; fh:分娩欄位; bre:品種; bh:出生場地; TNB:總產(chǎn)仔數(shù); NBA:產(chǎn)活仔數(shù); NHP:健仔數(shù); N5D:5日齡活仔數(shù); HY:最高產(chǎn)母豬。下圖同。shadowMin:Minimum value of the shadow attribute; shadowMean:Average value of the shadow attribute; shadowMax:Maximum value of the shadow attribute;the minimum,average and maximum Z values of the shadow attributes are thresholds in the data set. Features above the threshold level are important features. Red,yellow and green boxes represent rejected tentative and confirmed features; bw1:Birth weight of first litter; bw2:Birth weight of second litter; fh:Farrow herd;bre:Breed; bh:Birth herd;TNB:Total number born;NBA:Number born alive;NHP:Number healthy piglets;N5D:Number 5 day;HY:Highest yield.The same as below.

        bw3:第三胎初生窩重;bw3:Birth weight of third litter.圖2 分類模型的特征篩選圖(B數(shù)據(jù)集)Fig.2 Feature screening diagram of classification model(B data set)

        bw3:第三胎初生窩重 Birth weight of third litter; bw4:第四胎初生窩重 Birth weight of fourth litter.圖3 分類模型的特征篩選圖(C數(shù)據(jù)集)Fig.3 Feature screening diagram of classification model(C data set)

        3)隨機森林(random forest,RF)。隨機森林是包含多棵決策樹分類器的集合學習算法,在處理決策問題時,會根據(jù)集合思想構(gòu)建多個分類決策樹,同時進行決策,最后“遵循少數(shù)服從多數(shù)的原則”來確定最終結(jié)果,充分避免了單一決策樹所產(chǎn)生的決策偶然性,提高了分類的可信度及準確率。

        1.5 分類模型性能的評估

        分類模型的評估是在已知特征和類別的訓練集上構(gòu)建,再利用從已知的原始數(shù)據(jù)集中拆分出一部分作為測試集對模型的分類性能進行評估,常使用混淆矩陣來計算其評估指標。本研究首先依據(jù)分類標準對A、B、C 3個數(shù)據(jù)集的產(chǎn)仔數(shù)性狀進行二元處理,然后對數(shù)據(jù)集隨機拆分,其中70% 的數(shù)據(jù)集作為訓練集來訓練模型,30%的數(shù)據(jù)集作為測試集來評估模型的性能。使用準確率指標對模型進行評價,準確率是指預測正確的結(jié)果占總樣本的百分比,是分類問題中最簡單最直觀的評價指標。本研究對分類準確率最高的模型比較其ROC曲線的AUC值(ROC曲線下方的面積大小)來評估模型的性能,AUC值越高則其分類模型的性能越好。

        1.6 決策樹視圖分析

        決策樹算法具有可視化的分析效果,使用R軟件中的rpart包對經(jīng)過二元處理后的A、B、C 3個數(shù)據(jù)集進行視圖分析,找出重要的葉節(jié)點,從而分析影響母豬最高產(chǎn)的相關(guān)因素。

        1.7 數(shù)據(jù)處理

        本研究使用Microsoft Excel 2019和R 3.5.3軟件進行數(shù)據(jù)處理,其中用到的R包有Boruta(特征選擇)、rpart(決策樹)、randomForest(隨機森林)、e1071(支持向量機)及glm( )函數(shù)。

        2 結(jié)果與分析

        2.1 基于重要特征構(gòu)建母豬高低產(chǎn)的最佳分類模型

        按照不同的分類標準將母豬產(chǎn)仔數(shù)性狀進行二元處理,基于篩選出的重要特征,利用4種不同的機器學習方法構(gòu)建母豬高低產(chǎn)分類模型,比較最佳的分類模型。如表3所示,在A數(shù)據(jù)集中所有分類標準下,機器學習方法構(gòu)建分類模型的分類準確率均在71%~74%;在B數(shù)據(jù)集中所有分類標準下,機器學習方法構(gòu)建分類模型的分類準確率均在73%~77%;在C數(shù)據(jù)集的所有分類標準下,機器學習方法分類模型的分類準確率均在76%~84%。

        表3 不同分類模型的準確率比較Table 3 Comparison of accuracy of different classification models %

        以分類準確率為評價指標,篩選出分類準確率最高的模型,對于最高分類準確率相同的模型,通過比較其ROC曲線的AUC值來確定最佳的分類模型(表4)。在不同數(shù)據(jù)集和不同分類標準下,最佳的分類模型也不同。結(jié)果如表5所示,在不同數(shù)據(jù)集的不同產(chǎn)仔數(shù)性狀的最佳模型中,SVM(出現(xiàn)6次)、DT(出現(xiàn)4次)、LOG(出現(xiàn)4次)出現(xiàn)的次數(shù)較多,而RF只出現(xiàn)1次。

        表4 不同數(shù)據(jù)集中最高準確性模型的AUC值比較Table 4 Comparison of AUC values of the highest accuracy models in different data sets

        表5 不同分類標準的最佳建模方法Table 5 The best modeling method of differentclassification standards

        2.2 決策樹視圖分析

        對A、B、C 3個數(shù)據(jù)集中的最高產(chǎn)母豬進行決策樹視圖分析,結(jié)果如圖4所示。對于A數(shù)據(jù)集,核心母豬的品種為大白,在1號場生產(chǎn),第1胎初生窩重大于等于17 kg時其第3胎的產(chǎn)仔數(shù)性狀較好,結(jié)合表3可知,利用決策樹模型可推測母豬第3胎有73%的概率產(chǎn)活仔數(shù)在17頭以上,5日齡產(chǎn)仔數(shù)在15頭以上(圖4A);對于B數(shù)據(jù)集,核心母豬在1號場生產(chǎn),品種為大白,第1胎初生窩重小于23 kg,第3胎初生窩重大于等于22 kg時其第4胎產(chǎn)仔數(shù)性狀較好,結(jié)合表3可知,利用決策樹模型可推測母豬第4胎有77%的概率產(chǎn)活仔數(shù)在17頭及以上,5日齡產(chǎn)仔數(shù)在15頭以上(圖4B);對于C數(shù)據(jù)集,核心母豬在1號場生產(chǎn),第1胎初生窩重大于等于21 kg或第2胎初生窩重大于等于23 kg、第3胎初生窩重大于等于23 kg、第4胎初生窩重大于等于20 kg時其第5胎的產(chǎn)仔數(shù)性狀較好,結(jié)合表3可知,利用決策樹模型可推測母豬第5胎有82%的概率產(chǎn)活仔數(shù)在17頭以上,5日齡產(chǎn)仔數(shù)在16頭以上(圖4C)。

        A:A數(shù)據(jù)集; B:B數(shù)據(jù)集; C:C數(shù)據(jù)集; bre:品種(L:長白豬,Y:大白豬); bh:出生場地; bw1:第1胎初生窩重; bw2:第2胎初生窩重; bw3:第3胎初生窩重; bw4:第4胎初生窩重; H:最高產(chǎn)母豬; L:低產(chǎn)母豬。A:A data set; B:B data set; C:C data set; bre:Breed (L:Landrace,Y:Yorkshire); bh:Born herd; bw1:Birth weight of first litter; bw2:Birth weight of second litter; bw3:Birth weight of third litter; bw4:Birth weight of fourth litter; H:Highest yield;L:Lowest yield.

        3 討 論

        本研究使用R軟件中的Boruta包篩選的重要特征包括出生場地、分娩欄位、品種和不同胎次的初生窩重,如表3所示,基于這些特征構(gòu)建的母豬總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、健仔數(shù)和5日齡仔豬數(shù)的分類模型的準確率均在71%以上,最高可達到84%,表明利用機器學習方法構(gòu)建的母豬高低產(chǎn)分類預測模型具有一定的可靠性。李信頡等[11]比較了3種不同的機器學習方法預測生產(chǎn)母豬產(chǎn)仔數(shù)性狀的性能,發(fā)現(xiàn)SVM的預測性能要顯著優(yōu)于KNN和DT,這與本研究結(jié)果類似。Kirchner等[16]以母豬總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、健仔數(shù)等為預測變量,利用決策樹(DT)算法對母豬繁殖力的高低進行預測,其分類準確率在85%以上,其預測準確性與本研究較為接近。Bakoev等[6]基于豬生長和肉質(zhì)特征使用多種不同的機器學習方法對豬的四肢狀態(tài)進行分類預測,發(fā)現(xiàn)隨機森林和K近鄰擁有更好的預測性能,這與本研究的結(jié)果有出入,可能是本研究所用到的數(shù)據(jù)結(jié)構(gòu)和特征不同所致。

        決策樹是近年來被廣泛應用的一種數(shù)據(jù)挖掘方法,最早被用來挖掘人類社會經(jīng)濟數(shù)據(jù)中具有價值的數(shù)理模型[17]。決策樹視圖分析方法在畜牧業(yè)中的應用研究也較多,如Monteils等[18]利用決策樹視圖分析出了小母牛在生長期間有利于胴體品質(zhì)的最佳飼養(yǎng)途徑,從而更好地指導生產(chǎn),提高母牛的飼養(yǎng)效率。本研究首次嘗試使用決策樹視圖來分析影響母豬最高產(chǎn)的相關(guān)因素,結(jié)果發(fā)現(xiàn)在A、B數(shù)據(jù)集的最高產(chǎn)母豬的決策樹視圖中均顯示品種是母豬高低產(chǎn)劃分的重要葉節(jié)點,其中最高產(chǎn)母豬多為大白母豬。這與劉慶偉等[19]研究發(fā)現(xiàn)大白豬的產(chǎn)仔數(shù)性狀要顯著高于長白和杜洛克(P<0.05)、郭建鳳等[20]研究表明大約克豬和長白豬的繁殖性能要顯著高于皮特蘭和杜洛克(P<0.05)的分析結(jié)果相吻合。

        此外,在不同分類標準下的最優(yōu)分類模型中,SVM出現(xiàn)的頻次最高且均表現(xiàn)出較高的預測準確性,DT和LOG次之,RF出現(xiàn)的頻次最低(只有1次)。Fernandez-delgado等[21]通過在121個UCI數(shù)據(jù)集上進行179種分類算法的分類性能比較,發(fā)現(xiàn)RF的預測性能更好,這與本研究結(jié)果有出入。有研究表明隨機森林自身不能很好地處理非平衡數(shù)據(jù)且對于連續(xù)性變量處理還需要進行離散化[22-23],而本研究的A、B、C數(shù)據(jù)集中存在的不同胎次的初生窩重特征恰為連續(xù)性變量,這可能是造成此差異的原因。雖然SVM模型在不同分類標準及特征下均有較高的分類準確率,但部分SVM分類模型的AUC值要低于其他的分類模型,且對不同的產(chǎn)仔數(shù)性狀其最優(yōu)的機器學習算法也不盡相同。事實上沒有哪種單一的分類方法是“最優(yōu)的”,每種分類算法都有其特定的應用環(huán)境,要根據(jù)數(shù)據(jù)結(jié)構(gòu)特點來選擇合適的模型[24]。

        本研究對已有的生產(chǎn)母豬數(shù)據(jù)集進行特征篩選,嘗試運用4種不同的機器學習方法構(gòu)建母豬高低產(chǎn)分類模型來對下一胎次的高低產(chǎn)進行預測,其預測準確率在71%以上,最高可達84%,并利用決策樹視圖探究了影響母豬高產(chǎn)的相關(guān)因素。然而,本研究也存在一定的局限性,如樣本量較小、分類模型的預測準確性不高、模型的泛化能力還有待驗證、所收集數(shù)據(jù)包含的變量較少等。在后續(xù)的研究中我們將進一步擴充用于構(gòu)建模型的數(shù)據(jù)樣本量,收集整理更多的變量,例如母豬的發(fā)情間隔、公豬的精液品質(zhì)、母豬的體況和環(huán)境數(shù)據(jù)等,嘗試用更科學的算法來構(gòu)建模型以提高模型分類準確率,使得機器學習方法能夠更好地應用于養(yǎng)豬生產(chǎn),實現(xiàn)高繁殖力母豬的早期選育。

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        人妻在线中文字幕| 国产精品毛片va一区二区三区| 国产福利视频在线观看| 车上震动a级作爱视频| 欧美洲精品亚洲精品中文字幕| 国产自拍av在线观看| 小说区激情另类春色| 欧美丰满熟妇aaaaa片| 男人天堂av在线成人av| 不卡av一区二区在线| 午夜精品久久久久久久99老熟妇| 女人扒开下面无遮挡| 福利网在线| 亚洲第一页视频在线观看| 无码人妻aⅴ一区二区三区| 国产成人精品三级麻豆| 久久精品国产亚洲av桥本有菜| 中文字幕精品一区二区三区| 日本丰满熟妇videossex8k| 国产成人啪精品| 亚洲一级黄色毛片| 日韩精品成人一区二区在线观看| 99久久婷婷国产亚洲终合精品| 大陆国产乱人伦| 国产成人精品av| 国产v精品成人免费视频400条| 国产一品二品三区在线观看| 丰满的人妻hd高清日本| 麻豆精品久久久久久久99蜜桃 | 消息称老熟妇乱视频一区二区 | 69天堂国产在线精品观看| 亚洲av男人的天堂在线| 奇米影视7777久久精品| 中文字幕一区二区三区久久网站| 日本一极品久久99精品| 日本在线一区二区三区不卡| 国产熟女露脸大叫高潮| 99re国产电影精品| 日韩免费精品在线观看| 欧美黑人群一交| 偷亚洲偷国产欧美高清|