亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)在奶牛臨床疾病預(yù)測(cè)中的應(yīng)用

        2021-06-24 01:11:26高志天鄭煒繽楊仲濤
        關(guān)鍵詞:模型

        馮 妍,高志天,鄭煒繽,楊仲濤,董 強(qiáng)

        (1.西北農(nóng)林科技大學(xué)信息工程學(xué)院,陜西楊凌 712100;2.西北農(nóng)林科技大學(xué)動(dòng)物醫(yī)學(xué)院,陜西楊凌 712100)

        機(jī)器學(xué)習(xí)(Machine learning,ML)是研究如何使機(jī)器通過識(shí)別和利用現(xiàn)有知識(shí)獲取新知識(shí)的一門多領(lǐng)域交叉學(xué)科。ML可通過學(xué)習(xí)已有數(shù)據(jù),建立一種模型或?qū)W習(xí)器,對(duì)未知的數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。當(dāng)今的農(nóng)業(yè)生產(chǎn)會(huì)產(chǎn)生大量的數(shù)據(jù),利用ML技術(shù)分析這些數(shù)據(jù)并建模將是農(nóng)業(yè)大勢(shì)所趨[1]。在奶牛業(yè),隨著奶牛養(yǎng)殖的精細(xì)化和人工成本的增加,僅靠牛場(chǎng)的管理人員無法完成高質(zhì)量的群體化和個(gè)性化管理工作,使ML在奶牛精準(zhǔn)育種、群體管理和疾病監(jiān)測(cè)等領(lǐng)域有著廣泛的研究和應(yīng)用前景[2-3]。在這些領(lǐng)域中,利用ML算法學(xué)習(xí)和訓(xùn)練奶牛疾病的特有風(fēng)險(xiǎn)因素以預(yù)測(cè)和監(jiān)測(cè)奶牛疾病已成為精準(zhǔn)乳業(yè)的研究方向[4-6]。應(yīng)用ML預(yù)測(cè)奶牛代謝性疾病、乳房炎、傳染病、熱應(yīng)激和跛行等疾病已成為國(guó)際上的研究熱點(diǎn)[5,7-10,4,6],但我國(guó)在此領(lǐng)域的研究起步較晚。本文就ML在奶牛臨床疾病預(yù)測(cè)方面的研究做一綜述,為我國(guó)開展這方面的研究提供參考。

        1 研究方法和原理

        1.1 ML簡(jiǎn)介

        ML利用數(shù)學(xué)方法和計(jì)算機(jī)技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行分析得到規(guī)律并構(gòu)建模型,對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)和分類。建模時(shí),先將預(yù)處理好的奶牛數(shù)據(jù)輸入到ML分類器進(jìn)行訓(xùn)練,然后得到對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的模型,對(duì)預(yù)測(cè)結(jié)果具有較大貢獻(xiàn)的特征可作為奶?;疾〉臐撛谔卣鱗11]。這個(gè)過程包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型選擇和結(jié)果預(yù)測(cè),具體建模流程如圖1所示。常用的ML編程語言有Python,R,MATLAB和Octave等,均有處理數(shù)據(jù)的統(tǒng)計(jì)軟件包,使分析數(shù)據(jù)變得容易。

        圖1 機(jī)器學(xué)習(xí)建模流程

        1.2 數(shù)據(jù)處理

        用于奶牛疾病監(jiān)測(cè)的數(shù)據(jù)通常包括農(nóng)場(chǎng)存儲(chǔ)的數(shù)據(jù)、生理特征數(shù)據(jù)、喂養(yǎng)過程中的數(shù)據(jù)、飼養(yǎng)管理軟件數(shù)據(jù)和傳感器采集的數(shù)據(jù)等。在實(shí)際應(yīng)用中,因?yàn)橐陨蠑?shù)據(jù)存在不完整、重復(fù)、人工錄入錯(cuò)誤和數(shù)值缺失等情況,為了獲得更好的預(yù)測(cè)結(jié)果,必須對(duì)數(shù)據(jù)做預(yù)處理。數(shù)據(jù)預(yù)處理通常先進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成和數(shù)據(jù)簡(jiǎn)化等,再將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩部分。其中訓(xùn)練集用于模型的訓(xùn)練和構(gòu)建,測(cè)試集用于預(yù)測(cè)結(jié)果的評(píng)估,比例一般為70%和30%,很多時(shí)候還會(huì)多劃分出驗(yàn)證集(60%,20%和20%)[11]。

        1.3 ML在奶牛疾病預(yù)測(cè)中的常用算法

        ML包括有監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),ML常用的算法分類如圖2所示。監(jiān)督學(xué)習(xí)需要標(biāo)記數(shù)據(jù)和訓(xùn)練數(shù)據(jù)集,而非監(jiān)督學(xué)習(xí)在未標(biāo)記數(shù)據(jù)的情況下獨(dú)立評(píng)估數(shù)據(jù);半監(jiān)督學(xué)習(xí)方法使用的數(shù)據(jù)集只有一小部分標(biāo)記數(shù)據(jù)。應(yīng)用ML預(yù)測(cè)奶牛疾病的主要算法有基于樹模型算法、人工神經(jīng)網(wǎng)絡(luò)算法(Artificial neural network,ANN)(簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò))、回歸算法和聚類算法等。使用最為廣泛的是基于樹模型算法,比如決策樹(Decision tree,DT)和隨機(jī)森林(Random forest,RF)。ANN在各類應(yīng)用中均有使用,另外常用的算法還有樸素貝葉斯(naive bayes,NB)、K最近鄰算法(K-nearest neighbor,KNN)和支持向量機(jī)(support vector machine,SVM)等[12]。

        圖2 機(jī)器學(xué)習(xí)常用算法分類

        1.3.1 基于樹模型算法 預(yù)測(cè)奶牛疾病基于樹模型的算法主要有DT[13]、RF[5]和梯度提升決策樹(gradient boosting decision tree,GBDT)等。DT是一個(gè)倒立的樹形結(jié)構(gòu),算法利用訓(xùn)練集從樹的根結(jié)點(diǎn)開始,通過對(duì)疾病關(guān)鍵指標(biāo)進(jìn)行自頂向下依次的定性判斷來診斷和預(yù)測(cè)疾病。DT在使用時(shí)速度快,精度高,模型簡(jiǎn)單易懂,因此在實(shí)際預(yù)測(cè)中實(shí)用性強(qiáng),效果好[11]。此外,RF因可改善DT易擬合的特點(diǎn)也被廣泛應(yīng)用。

        1.3.2 人工神經(jīng)網(wǎng)絡(luò) ANN是一種模擬生物神經(jīng)網(wǎng)絡(luò)進(jìn)行信息處理的數(shù)學(xué)模型,由輸入層、隱含層和輸出層組成。常用的ANN算法有反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)、徑向基函數(shù)(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)和自適應(yīng)神經(jīng)網(wǎng)絡(luò)等,其中BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)由于其良好的非線性逼近能力在疾病預(yù)測(cè)中被廣泛應(yīng)用[14-15]。

        1.3.3 聚類分析算法 聚類分析是指樣本在沒有分類標(biāo)準(zhǔn)的情況下,根據(jù)樣本本身的屬性,用數(shù)學(xué)統(tǒng)計(jì)方法按照某種相似性或差異性特征,定量確定樣本之間的相似度或距離,并按照這種相似度或距離的遠(yuǎn)近關(guān)系對(duì)樣本進(jìn)行聚類,從而篩選出疾病的特征。常用的聚類算法有K均值(K-means)聚類、模糊C均值聚類和層次聚類。聚類分析模型直觀簡(jiǎn)單,適用于處理多種不同類型的樣本量小的數(shù)據(jù)集合,在奶牛跛行診斷[16]、代謝性疾病[17]和傳染病的預(yù)測(cè)[18]均有應(yīng)用。

        1.3.4 回歸算法 回歸算法是一種對(duì)數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測(cè)和建模的監(jiān)督學(xué)習(xí)算法。回歸算法要建立確定疾病相關(guān)的危險(xiǎn)因素和疾病之間的映射關(guān)系的函數(shù),使得參數(shù)之間的關(guān)系擬合性最好,得到與疾病相關(guān)的危險(xiǎn)因素,從而篩選出預(yù)測(cè)疾病的輸入變量,建立最優(yōu)回歸方程進(jìn)行建模。常用的回歸算法有線性回歸和邏輯回歸,線性回歸主要用來解決連續(xù)值預(yù)測(cè)的問題,邏輯回歸用來解決分類的問題[11]。

        1.4 模型評(píng)價(jià)

        樣本集訓(xùn)練完成后需要評(píng)估預(yù)測(cè)模型的性能,常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率、精度和召回率等。

        1.5 性能優(yōu)化

        在特征和模型確定后通過調(diào)整模型的參數(shù)來提高疾病預(yù)測(cè)模型的準(zhǔn)確率。常用的調(diào)參方法有手工搜索、網(wǎng)格搜索、隨機(jī)搜索和貝葉斯搜索等。

        2 ML在奶牛臨床疾病中的研究進(jìn)展

        2.1 代謝性疾病

        ML預(yù)測(cè)代謝病時(shí),首先采集奶牛生理指標(biāo)和生產(chǎn)數(shù)據(jù),再根據(jù)需求篩選可分析生理指標(biāo)或生產(chǎn)數(shù)據(jù)和疾病之間關(guān)系的模型,最后建模。比如,為了研究干奶期、胎次、產(chǎn)奶性狀和體重等數(shù)據(jù)能否預(yù)測(cè)產(chǎn)后代謝狀態(tài),Xu W等[5]比較研究了DT、NB、貝葉斯網(wǎng)絡(luò)、SVM、ANN、KNN、Bootstrap聚合和隨機(jī)搜索等8種算法的建模效果,發(fā)現(xiàn)RF和SVM預(yù)測(cè)效果較好。在代謝病預(yù)測(cè)方面,通過ANN對(duì)基因組和代謝信息建模,在產(chǎn)后1、3、4、5周能較為準(zhǔn)確預(yù)測(cè)亞臨床酮病[14]。篩選危險(xiǎn)因素時(shí),DT和RF算法有運(yùn)算快的優(yōu)勢(shì),通過分析奶牛健康記錄就可篩選出導(dǎo)致淘汰的原因依次為乳熱、皺胃變位、臨床乳腺炎、子宮炎和雙胎。并且,當(dāng)兩個(gè)疾病疊加時(shí),淘汰的風(fēng)險(xiǎn)會(huì)進(jìn)一步增加[14]。若要分析血液代謝產(chǎn)物和疾病之間的關(guān)系,ML需結(jié)合統(tǒng)計(jì)學(xué)方法進(jìn)行聚類、回歸或建立線性模型。Tremblay M等[7]通過主成分分析和K-means聚類分析,發(fā)現(xiàn)非酯化脂肪酸水平與代謝適應(yīng)不良綜合征顯著正相關(guān)。Van Hoeij R等[17]利用廣義線性模型分析發(fā)現(xiàn)代謝狀況差的奶牛干物質(zhì)攝入量低,易發(fā)生能量負(fù)平衡。

        2.2 跛行

        ML分析跛行時(shí),主要是對(duì)奶牛運(yùn)動(dòng)時(shí)不同部位的運(yùn)動(dòng)圖像進(jìn)行步態(tài)分析,篩選出特征參數(shù)后建模,最后進(jìn)行分類驗(yàn)證。采用聚類和KNN分類算法可以分析奶牛站立、步數(shù)和躺臥并建模預(yù)測(cè)跛行的模型,總體檢測(cè)準(zhǔn)確率可達(dá)到87%,敏感性為89.7%,特異性為72.5%[16]。篩選不同部位的特征參數(shù)時(shí),宋懷波等[19]提取奶牛的頭部、頸部以及與頸連接的背部輪廓線擬合直線斜率數(shù)據(jù),KNN分類算法預(yù)測(cè)跛行的檢測(cè)正確率可達(dá)到93.89%。但以腿的運(yùn)動(dòng)指標(biāo)為跛行診斷的標(biāo)準(zhǔn)時(shí),短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、SVM、KNN和DT算法中,基于LSTM的跛行檢測(cè)準(zhǔn)確率最高,為98.57%[20]。

        2.3 乳房炎

        ML預(yù)測(cè)乳房炎時(shí),奶產(chǎn)量、擠奶時(shí)間和乳腺炎等標(biāo)志物數(shù)據(jù)是主要的數(shù)據(jù)源,SVM和DT是常用的算法[21]。RF可以建立對(duì)環(huán)境性與傳染性乳腺炎進(jìn)行區(qū)別診斷和對(duì)干奶期和泌乳期感染區(qū)別的模型[8]。深度學(xué)習(xí)(deep learning,DL)、DT、RF、NB、GBDT、廣義線性模型和邏輯回歸算法預(yù)測(cè)亞臨床乳腺炎時(shí),GBDT和DL有較高的預(yù)測(cè)靈敏度[9]。如果數(shù)據(jù)源為乳汁電導(dǎo)率,使用DT建模預(yù)測(cè)乳腺炎的特異性可高達(dá)99.2%[22]。不同的DT算法預(yù)測(cè)乳腺炎的準(zhǔn)確性也有差異,DT、樹樁DF、并行DT和RF 4種算法中只有RF診斷奶牛乳腺炎的準(zhǔn)確率可達(dá)到90%,并有望在實(shí)踐中使用[23]。此外,通過DT算法對(duì)大腸埃希氏菌感染誘發(fā)乳腺炎轉(zhuǎn)錄組分布進(jìn)行建模,可篩選出大腸埃希氏菌乳腺炎的標(biāo)志物基因[24]。

        2.4 熱應(yīng)激

        奶牛熱應(yīng)激由極端的氣候環(huán)境造成,監(jiān)測(cè)環(huán)境的指標(biāo)為溫度-濕度指數(shù)(temperature-humidity index,THI)。但僅通過THI并不能直接反映奶牛機(jī)體的熱應(yīng)激程度[25],還需要呼吸頻率、呼吸評(píng)分、體溫、躺臥率、站立時(shí)間和飲水時(shí)間等生理指標(biāo)[26]。在算法方面,回歸分析,RF和ANN使用最多。Gorczyca M T等[10]比較了線性回歸、RF、GBDT和ANN建模預(yù)測(cè)熱應(yīng)激時(shí)奶牛的呼吸頻率、皮膚溫度和陰道溫度的效果,發(fā)現(xiàn)RF和ANN的預(yù)測(cè)效果較好。Slob N等[12]使用RF和ANN算法建模后認(rèn)為氣溫對(duì)熱應(yīng)激影響最大而風(fēng)速的作用最小,但由于預(yù)測(cè)會(huì)受環(huán)境影響,準(zhǔn)確性可能難以保證。為篩選出最優(yōu)模型,有研究者采集了THI、呼吸頻率、臥床時(shí)間、躺臥期、總步數(shù)、流涎、呼吸評(píng)分、陰涼處或噴淋處停留時(shí)間、體細(xì)胞評(píng)分、網(wǎng)胃溫度、潔凈度評(píng)分、奶產(chǎn)量以及乳脂率、乳蛋白率等數(shù)據(jù),使用邏輯回歸、高斯NB和RF 3種ML算法進(jìn)行預(yù)測(cè)并發(fā)現(xiàn)準(zhǔn)確率都很高,邏輯回歸效果最好,這表明非線性的方法效果好[27]。Brown-Brandl等[28]在利用呼吸頻率和體表溫度建模預(yù)測(cè)熱應(yīng)激時(shí)發(fā)現(xiàn),兩種回歸模型、兩種模糊推理系統(tǒng)和一種神經(jīng)網(wǎng)絡(luò)模型都過度預(yù)測(cè)低強(qiáng)度熱應(yīng)激或高估高強(qiáng)度熱應(yīng)激時(shí)動(dòng)物的熱應(yīng)激,其原因可能是因?yàn)镸L模型無法提前預(yù)測(cè)天氣。

        2.5 傳染性疾病

        ML在傳染病的研究上,主要集中在利用傳染性疾病的流行病學(xué)特征進(jìn)行聚類分析,篩選出關(guān)鍵風(fēng)險(xiǎn)因子,構(gòu)建預(yù)測(cè)和監(jiān)測(cè)傳染性疾病的模型。比如,利用邏輯回歸分析奶牛的年齡、品種和出生時(shí)間對(duì)奶牛感染副結(jié)核的影響,判斷這些因素是否是副結(jié)核的風(fēng)險(xiǎn)因素,結(jié)果發(fā)現(xiàn)出生日期與副結(jié)核感染有著顯著的相關(guān)性(P<0.05)[18]。在算法方面,RF和ANN仍是常用的方法。有研究者利用RF和增強(qiáng)回歸算法,分析奶牛細(xì)菌基因組數(shù)據(jù)和研究細(xì)菌在不同物種間的傳播速度[29]。通過ANN分析牛奶中紅外光譜數(shù)據(jù)并構(gòu)建奶牛結(jié)核病預(yù)測(cè)模型時(shí),深度卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確性可以高達(dá)95%[15]。此外,也可以利用分類和回歸樹模型,分析多個(gè)傳染病風(fēng)險(xiǎn)因子之間的關(guān)聯(lián)性和高危群體的發(fā)病可能性,從而確定疾病的患病率、事件檢出率和病史[30]。

        3 展望

        通過綜述ML在預(yù)測(cè)奶牛疾病的研究的相關(guān)文獻(xiàn)發(fā)現(xiàn),ML在代謝性疾病和跛行方面的應(yīng)用最多,而DT算法因其簡(jiǎn)單易行,并且運(yùn)行速度快,在奶牛疾病領(lǐng)域應(yīng)用最廣。目前,雖然基于ML的奶牛疾病預(yù)測(cè)已成研究熱點(diǎn),但由于數(shù)據(jù)的有限性和復(fù)雜性,研究也遇到很多困難。在算法方面,聚類分析、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等算法的應(yīng)用將會(huì)成為奶牛疾病監(jiān)測(cè)領(lǐng)域的主要研究方向。此外,利用ML和基因組學(xué)研究奶牛疾病也是未來可關(guān)注的方向。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        在线精品国产一区二区三区| 亚洲免费观看| 广东少妇大战黑人34厘米视频| 国产极品美女高潮抽搐免费网站| 99久久久国产精品丝袜| 国产精品亚洲专区无码不卡| 国产一区二区三区精品毛片| 一本色道久久hezyo无码| 无码国内精品久久人妻| 欧美mv日韩mv国产网站| 日本香蕉久久一区二区视频| 最新国产精品精品视频| 91精品国产高清久久福利| 中文字幕女优av在线| 亚洲s色大片在线观看| 国产欧美日韩精品专区 | 国产又色又爽又刺激在线播放| 中文字幕人妻丝袜乱一区三区| 日韩成人无码v清免费| 精品少妇后入一区二区三区| 少妇人妻av一区二区三区 | 妇女bbbb插插插视频| 亚洲乱码av中文一区二区| 久久狠色噜噜狠狠狠狠97| 久久色悠悠综合网亚洲| 国产精品亚洲色婷婷99久久精品| 久久人妻少妇嫩草av蜜桃| 2022精品久久久久久中文字幕| 精品女同一区二区三区亚洲| 午夜男女靠比视频免费| 国产精品久线在线观看| 手机看片久久国产免费| 久久这里只有精品黄色| 亚洲国产综合人成综合网站| 亚洲精品成人片在线观看精品字幕| 久久精品国产精品亚洲毛片 | 国内精品久久久久久久久齐齐| 国产高潮精品一区二区三区av| 亚洲中文字幕在线综合| 国产精品丝袜久久久久久不卡| 日韩精品欧美激情亚洲综合|