亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器學(xué)習(xí)在腸道菌群宿主表型預(yù)測中的應(yīng)用

        2023-10-14 02:14:24曹海濤朱靜馬云鵬崔興華
        生物技術(shù)進展 2023年5期
        關(guān)鍵詞:模型

        曹海濤 , 朱靜 ,馬云鵬 , 崔興華

        新疆農(nóng)業(yè)大學(xué)計算機與信息工程學(xué)院,烏魯木齊 830052

        腸道菌群是指生活在宿主腸道內(nèi)所有微生物的集合,包括細菌、病毒和真菌。越來越多的研究顯示,宿主的健康狀況與腸道菌群存在密切聯(lián)系。高通量測序技術(shù)的應(yīng)用及各個國家支持的大規(guī)模腸道菌群計劃的實施,為揭示腸道菌群與宿主的健康狀況提供了必要的數(shù)據(jù)支撐,同時也產(chǎn)生了大量的微生物組數(shù)據(jù),如人類微生物組項目(human microbiome project,HMP)[1]、比利時弗萊明腸道菌群計劃(Flemish gut flora project,F(xiàn)GFP)[2]和我國開展的廣東省腸道菌群計劃[3]等。隨著人工智能的興起,適用于復(fù)雜數(shù)據(jù)分析的機器學(xué)習(xí)受到了研究人員的青睞。例如,Najafabadi等[4]探究了深度學(xué)習(xí)在大數(shù)據(jù)分析中的應(yīng)用和挑戰(zhàn);Hernández等[5]探究了機器學(xué)習(xí)和深度學(xué)習(xí)在微生物組研究中的應(yīng)用。利用微生物組數(shù)據(jù)+機器學(xué)習(xí)來進行醫(yī)療診斷已成為生物醫(yī)學(xué)領(lǐng)域一個新興的研究熱點。

        機器學(xué)習(xí)可作為微生物組數(shù)據(jù)的處理方法,如主成分分析、數(shù)據(jù)歸一化、特征選擇等。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)處理后可以消除冗余的數(shù)據(jù),改變微生物組數(shù)據(jù)高維、稀疏的特點,并在一定程度上提升模型預(yù)測的精度;同時機器學(xué)習(xí)也可作為預(yù)測模型的核心建模算法,包括K近鄰(K nearest neighbors,KNN)[6]、支持向量機(support vector machine,SVM)[7]、人工神經(jīng)網(wǎng)絡(luò)(artificial neutral network,ANN)等。Hacllar等[8]利用KNN構(gòu)建炎癥性腸病預(yù)測模型;Assegie等[9]使用K-近鄰(KNN)算法和SVM構(gòu)建了肝病分類模型;Liu等[10]使用SVM構(gòu)建肥胖預(yù)測模型;Reiman等[11]使用ANN構(gòu)建肝硬化預(yù)測模型;Nasser等[12]使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建肺癌檢測模型;Lyngdoh等[13]利用5種監(jiān)督機器學(xué)習(xí)算法分析糖尿病模型的預(yù)測,使用 KNN 分類器實現(xiàn)了 76% 的穩(wěn)定和最高準確度等。但這些預(yù)測模型都是基于特定的機器學(xué)習(xí)算法和微生物組數(shù)據(jù),因此普遍存在在特定數(shù)據(jù)集表現(xiàn)良好,而泛化能力不足的情況。

        本文綜述了機器學(xué)習(xí)算法在基于腸道微生物組數(shù)據(jù)預(yù)測宿主表型方面中的應(yīng)用,以及腸道微生物及微生物組中常用的5種機器學(xué)習(xí)算法(線性回歸、支持向量機、K-近鄰、隨機森林、人工神經(jīng)網(wǎng)絡(luò))的原理,重點歸納了機器學(xué)習(xí)算法在腸道菌群與宿主健康相關(guān)研究中的應(yīng)用現(xiàn)狀,應(yīng)用機器學(xué)習(xí)算法構(gòu)建預(yù)測模型的一般規(guī)律,以期為推動機器學(xué)習(xí)進行腸道菌群宿主表型預(yù)測提供參考依據(jù)。

        1 腸道微生物概述

        1.1 腸道菌群

        人體腸道內(nèi)含有大量的共生菌,由上千種微生物組成,包括古生菌、真菌、細菌、原生生物、病毒等,其中細菌是最主要的定殖菌[14],因此腸道是人體微生物菌群最復(fù)雜的部位之一。目前,尚無研究證明腸道菌群中細菌種類的確切數(shù)目,一般認為腸道菌群中含有500~1000種細菌[15],但也有研究者發(fā)現(xiàn)腸道菌群中細菌的種類超過3500種[16],數(shù)量約為100萬億,總重量約為1~2 kg。由此可知,腸道菌群是人體免疫有機體的重要組成部分[17],也被認為是人體腸道內(nèi)的另一個“器官”[18]。

        腸道中的微生物大多為專性厭氧菌,種類超過50個門[19],如此龐大數(shù)量的細菌處于動態(tài)平衡狀態(tài)中,具有高度的多樣性、穩(wěn)定性、抗逆性和耐藥性,而腸道微生物菌群的紊亂則與多樣性和共生性的喪失有關(guān)[20]。腸道菌群中主要有擬桿菌、乳桿菌、大腸桿菌、腸球菌4種細菌,其中擬桿菌屬和犁頭霉屬在腸道微生物中的豐度最高,占腸道微生物總量的90%以上[21]。這些數(shù)量眾多的腸道微生物主要通過自身的代謝產(chǎn)物或代謝產(chǎn)生的活性成分來調(diào)節(jié)宿主的新陳代謝,進而影響宿主的健康狀況。

        1.2 腸道菌群與宿主之間的關(guān)系

        宿主表型是指為微生物菌群定殖以及其他寄生生物提供生存環(huán)境的生物體可觀察的性狀或特征,如生理、生化和行為方面的特性,是被定殖或寄生生物體所有性狀的總和。腸道菌群可以提高宿主的免疫機能,促進營養(yǎng)物質(zhì)吸收[22],維持宿主免疫屏障的完整性[23]。研究發(fā)現(xiàn),腸道菌群消化產(chǎn)物短鏈脂肪酸是宿主腸道上皮細胞的重要營養(yǎng)物質(zhì),可以促進宿主腸道上皮細胞的生長及分化,對維持腸道屏障的完整性具有重要作用[24],可防止腸源性內(nèi)毒素進入血液引起代謝性內(nèi)毒素血癥[25];同時,宿主所處的地理環(huán)境、年齡、飲食習(xí)慣、服用藥物史、疾病以及細菌之間的相互作用均會影響腸道菌群的豐度[26]。

        腸道菌群會影響宿主免疫系統(tǒng)功能,而腸道菌群豐度和腸道微生態(tài)結(jié)構(gòu)的改變可以引起腸道菌群失調(diào)[27]。一旦發(fā)生腸道菌群失調(diào),腸道內(nèi)的有益菌群(如雙歧桿菌、乳酸菌、擬桿菌等)就會減少,而有害菌群(如產(chǎn)生毒素的擬桿菌,大腸桿菌、梭菌等)則會增加,且有害菌分泌的多種毒性因子會損傷腸道上皮細胞,導(dǎo)致多種疾病的發(fā)生,如腸易綜合征(irritable bowel syndrome,IBS)[28]、結(jié)直腸癌(colorectal cancer,CRC)[29]、炎癥性腸?。╥nflammatory bowel disease,IBD)[30]、自閉癥(autism spectrum disorder,ASD)[31-32]、肥胖(obese)[33]、2型糖尿?。╰ype 2 diabetes,T2D)[34]等。上述研究表明腸道菌群與宿主的多種疾病存在相關(guān)性,研究腸道菌群與宿主之間的關(guān)系,可為精準醫(yī)療提供可能[35-36],進而使利用腸道菌群干預(yù)宿主的疾病治療成為現(xiàn)代醫(yī)學(xué)治療的一種新興手段[37]。

        近年來的研究表明,腸道菌群與宿主的健康狀態(tài)和疾病之間存在密切關(guān)聯(lián)。這意味著腸道菌群的組成和豐度可能與宿主的疾病風(fēng)險、發(fā)展和病程有關(guān)。這種關(guān)聯(lián)不僅涵蓋了消化系統(tǒng)相關(guān)的疾病,還包括了許多其他疾病,如免疫系統(tǒng)疾病、代謝性疾病和神經(jīng)系統(tǒng)疾病等。

        2 基于機器學(xué)習(xí)的研究進展

        2.1 機器學(xué)習(xí)的發(fā)展

        隨著人工智能的興起與發(fā)展,目前機器學(xué)習(xí)已應(yīng)用于生命科學(xué)的各個領(lǐng)域,如癌癥檢測、藥物開發(fā)、行為預(yù)測、人臉識別、語義分析、推薦個性化治療等,且在復(fù)雜的微生物組學(xué)相關(guān)研究中應(yīng)用效果顯著[38]。第二代DNA測序技術(shù)的普及使微生物組學(xué)數(shù)據(jù)激增,傳統(tǒng)的人工統(tǒng)計學(xué)方法已經(jīng)無法適應(yīng)這種高維、稀疏、數(shù)據(jù)量龐大的微生物組學(xué)分析,而機器學(xué)習(xí)可以從海量復(fù)雜的數(shù)據(jù)中,挖掘其內(nèi)部潛在的信息,節(jié)省了大量人力和時間,提高了工作效率,已經(jīng)逐漸成為微生物組學(xué)研究的主流方法[39]。而隨著機器學(xué)習(xí)、計算機硬件及相關(guān)數(shù)學(xué)理論的發(fā)展,產(chǎn)生了一種新技術(shù)方法——深度學(xué)習(xí)(deep learning,DL)。該方法無需人工干預(yù)就可以自動捕捉到復(fù)雜數(shù)據(jù)中隱藏的數(shù)據(jù)結(jié)構(gòu),將其應(yīng)用于腸道菌群數(shù)據(jù)分析中,可以揭示菌群與宿主健康之間的關(guān)系,從而對宿主的疾病及健康狀況等方面進行決策[40]。盡管目前機器學(xué)習(xí)尚未普及到臨床應(yīng)用中,但這預(yù)示著未來有望充分利用機器學(xué)習(xí)技術(shù)來處理、分析和解釋大規(guī)模的微生物組數(shù)據(jù),從而深入理解微生物與宿主之間的相互作用,為醫(yī)學(xué)、生態(tài)學(xué)和生物技術(shù)領(lǐng)域帶來新的突破和創(chuàng)新。

        2.2 基于微生物研究的相關(guān)機器學(xué)習(xí)算法選擇

        人工智能發(fā)展主要有機器學(xué)習(xí)、自然語言處理、基于規(guī)則的專家系統(tǒng)和機器人學(xué)習(xí)這4種類型[41]。機器學(xué)習(xí)可以在短時間內(nèi)處理大量的數(shù)據(jù),但是也受制于計算機的處理能力、數(shù)據(jù)量的大小及算法復(fù)雜性。截至目前,機器學(xué)習(xí)已成為微生物菌群領(lǐng)域中最常用的人工智能技術(shù)[42]。機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及統(tǒng)計學(xué)、概率論、最優(yōu)化、凸分析等學(xué)科,其主要特點是模仿人類的學(xué)習(xí)行為,從復(fù)雜的數(shù)據(jù)規(guī)律或模式中獲取新的知識,挖掘其中潛在的信息,是人工智能的核心。機器學(xué)習(xí)通常按照數(shù)據(jù)是否帶有標簽分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)[43]。按照數(shù)據(jù)是否為離散型,合為分類問題和回歸問題[44]。宿主表型預(yù)測是利用帶有標簽的腸道菌群數(shù)據(jù)對機器學(xué)習(xí)模型進行訓(xùn)練,利用輸入的腸道菌群數(shù)據(jù)預(yù)測宿主的健康情況,即為有監(jiān)督的學(xué)習(xí)。常用于腸道菌群分析的5種機器學(xué)習(xí)算法有支持向量機(support vector machine,SVM)、K-近鄰、線性回歸、隨機森林和人工神經(jīng)網(wǎng)絡(luò)。

        2.2.1 支持向量機 支持向量機是一種二元分類模型,其目的是尋找一個超平面對數(shù)據(jù)進行劃分,可以使用核函數(shù)進行非線性分類。對高維的腸道菌群數(shù)據(jù)具有很好的適用性,是腸道菌群領(lǐng)域應(yīng)用較廣泛的一種機器學(xué)習(xí)模型。2018年,Xu等[45]利用支持向量機構(gòu)建預(yù)測模型,根據(jù)基因編碼蛋白序列信息預(yù)測阿爾茨海默?。╝lzheimer disease,AD),準確率達到85.7%。有研究利用支持向量機和人類微生物組項目數(shù)據(jù)庫構(gòu)建微生物組分類器,結(jié)果發(fā)現(xiàn)分類精度、敏感性和特異性均較高[46]。SVM用于診斷皮膚病和預(yù)測心血管疾病,準確率分別達到95.39%和85%[47]。

        如圖1A所示,支持向量機的目標是在兩個類別之間創(chuàng)建一個決策邊界,從而能夠在一個或多個特征向量中預(yù)測標簽。該決策邊界又稱為超平面,以這樣一種方式定向,其距離可能是從每個類別中最接近的數(shù)據(jù)點,而這些最近的點被稱為支持向量。按公式(1)給定一個標記的訓(xùn)練數(shù)據(jù)集。

        圖1 支持向量機Fig. 1 Support vector machine

        式中,xi是一個特征向量,yi是訓(xùn)練化合物i的類別標簽(負或正)。最優(yōu)超平面可以定義為公式(2)。

        其中,w是權(quán)重向量,x是輸入特征向量,b是偏差。

        支持向量機的另一種用途是核方法,它使我們能夠?qū)Ω呔S的非線性模型建模。在非線性問題中,可以使用核函數(shù)向原始數(shù)據(jù)添加額外的維度,從而使其在高維空間中成為線性問題,如圖1B所示,在二維數(shù)據(jù)無法線性劃分時將二維上升到三維以成功創(chuàng)建超平面。

        支持向量機的優(yōu)點在于:①復(fù)雜性主要取決于支持向量的數(shù)目,而不是高維的樣本空間,可以減輕高維的微生物數(shù)據(jù)所造成的影響;②對數(shù)據(jù)的異常值不敏感,具有較好的魯棒性;③可以使用凸優(yōu)化找到全局最小值;④適用性較廣泛。而支持向量機的缺點在于:①對多分類問題表現(xiàn)不夠好;②對大數(shù)據(jù)量的計算周期較長;③對自身參數(shù)選擇比較敏感。

        2.2.2 K近鄰 K近鄰是根據(jù)距離選取K個樣本點數(shù)據(jù)來推測預(yù)測點的類別。2018年,Wu等[48]利用K近鄰證明了2型糖尿?。╰ype 2 diabetes,T2D)、類風(fēng)濕性關(guān)節(jié)炎(rheumatoid arthritis,RA)和肝硬化(liver cirrhosis,LC)等疾病的微生物組生物標志物與表型之間存在顯著相關(guān)性。

        如圖2所示,測試樣本應(yīng)歸入第一類的藍色三角形或是第二類的五角星形。如果k=3(虛線圓圈)它被分配給第一類,那么有2個三角形和1個五角星形在內(nèi)側(cè)圓圈之內(nèi)。如果k=11(實線圓圈)它被分配到第二類(5個三角形與6個五角星形在外側(cè)圓圈之內(nèi)),同樣的方法也可以擴展到三維空間。

        圖2 K近鄰Fig. 2 K nearest neighbors

        K近鄰算法的優(yōu)點在于:①容易理解,易實現(xiàn);②適用于非線性分類;③算法調(diào)整方便,且便于調(diào)整K的數(shù)量以及距離;④對數(shù)量大的樣本具有較好的適用性。K近鄰算法的缺點在于:①對特征比較多的樣本計算開銷較大;②對樣本不均衡的情況表現(xiàn)較差。

        2.2.3 線性回歸 線性回歸指利用線性方程對數(shù)據(jù)進行擬合,是最常見的回歸算法,其含有1個自變量和1個因變量,且二者存在線性關(guān)系,即可用一條直線表示,也被稱為一元線性回歸。腸道菌群數(shù)據(jù)通常含有2個以上的自變量,多采用多元線性回歸,其最重要的2個變形是加入了L1正則化的Lasso回歸和L2正則化的嶺回歸。Lasso回歸的突出優(yōu)勢是加入了懲罰函數(shù),使得相對不重要的特征項系數(shù)變?yōu)?,相當于進行了特征選擇。嶺回歸則是將特征系數(shù)縮小到接近0,而不刪除任何特征項,提高了預(yù)測精度,但也增加了解釋復(fù)雜度。2021年,Yao等[49]利用線性回歸觀測到結(jié)直腸癌(colorectal cancer,CRC)患者微生物菌群多樣性降低,且利用分辯微生物組方法可以有效檢測結(jié)直腸癌。Li等[50]研究了基于線性回歸的蛋白質(zhì)中鋅結(jié)合位點預(yù)測的整合方法,可以應(yīng)用于基于序列信息的鋅結(jié)合位點識別,也可用于推斷蛋白質(zhì)功能,并且更有利于治療某些疾病。

        如圖3所示,展示了一個橫坐標表示真實值,縱坐標表示預(yù)測值的散點圖,線性回歸就是要找到一條直線(圖中的紅色線)來盡可能地擬合圖中的數(shù)據(jù)點。

        圖3 線性回歸Fig. 3 Linear regression

        線性回歸的優(yōu)點在于:①對小數(shù)據(jù)量、關(guān)系結(jié)構(gòu)較為簡單的樣本效果較好;②算法較為基礎(chǔ),容易理解,可解釋性較強。線性回歸的缺點在于不能較好地擬合非線性數(shù)據(jù)。

        2.2.4 隨機森林 隨機森林的本質(zhì)是包含多個決策樹的分類器的集合,而決策樹的優(yōu)勢在于使數(shù)據(jù)形式易于理解[51]。決策樹可以從眾多不熟悉的數(shù)據(jù)集合中提取出一系列規(guī)則,創(chuàng)建規(guī)則的過程就是機器學(xué)習(xí)的過程。隨機森林是一種在生物學(xué)和基因組學(xué)中應(yīng)用越來越廣泛的方法,其不僅適用于二分類,也適合多分類。Pasolli等[52]根據(jù)隨機森林構(gòu)建的炎癥性腸病預(yù)測模型準確率達到0.89,肥胖預(yù)測模型準確率達到0.66。Yang等[53]采用多種方法構(gòu)建華東地區(qū)心血管疾病模型,包括多元回歸模型、分類和回歸樹、樸素貝葉斯、袋裝樹、Ada Boost和隨機森林,實驗結(jié)果表明隨機森林優(yōu)于其他方法,曲線下面積(area under curve, AUC)為0.787,且比基準有顯著改善。

        圖4展示了隨機森林的示例:首先對數(shù)據(jù)集使用Bootstrap方法對樣本進行重抽樣,然后將得到的每個樣本輸入決策樹中進行分類,最后將若干個弱分類器的分類結(jié)果進行投票選擇,根據(jù)投票決定最終結(jié)果。

        圖4 隨機森林Fig. 4 Random forests

        隨機森林算法的優(yōu)點在于:①對復(fù)雜高維的數(shù)據(jù)展現(xiàn)出較好的適用性;②可用于篩選重要特征;③泛化能力較強;④可以處理樣本的缺失特征。隨機森林的缺點在于:①偏向選擇投票最多的特征;②可能產(chǎn)生過度匹配的問題。

        2.2.5 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)作為一種運算模型,是對人腦神經(jīng)元網(wǎng)絡(luò)的抽象,由大量神經(jīng)元節(jié)點相互連接而成,每個節(jié)點就是一種特定的激勵函數(shù)。兩個節(jié)點之間連接信號的加權(quán)值稱為權(quán)重,相當于人工神經(jīng)網(wǎng)絡(luò)的記憶,其主要包含輸入層、隱藏層、輸出層3個部分,輸入層接收外部的數(shù)據(jù);隱藏層不能由系統(tǒng)外部觀察;輸出層實現(xiàn)結(jié)果的輸出。使用人工神經(jīng)網(wǎng)絡(luò)作為預(yù)測模型時,通常對數(shù)據(jù)量有極高的要求,并且訓(xùn)練中參數(shù)的調(diào)參也更為嚴格,訓(xùn)練結(jié)果也更加不可預(yù)知和不可解釋。2017年,Reiman等[11]利用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)構(gòu)建疾病預(yù)測模型,分類精度較傳統(tǒng)方法更高。Tejamma等[54]使用卷積神經(jīng)網(wǎng)絡(luò)模型來預(yù)測心臟病,取得了非常好的效果。

        圖5 展示人工神經(jīng)網(wǎng)絡(luò)模式:網(wǎng)絡(luò)最左的一層為輸入層,將多組數(shù)據(jù)(比如OTU1到OTUn)輸入到輸入層中的n個輸入神經(jīng)元中,輸入層中的數(shù)據(jù)傳輸?shù)诫[藏層中,隱藏層會根據(jù)已經(jīng)訓(xùn)練好的參數(shù)對數(shù)據(jù)進行處理,最后隱藏層將數(shù)據(jù)傳輸?shù)捷敵鰧樱⒂奢敵鰧訉⒔Y(jié)果輸出。

        圖5 人工神經(jīng)網(wǎng)絡(luò)Fig. 5 Artificial neutral network

        人工神經(jīng)網(wǎng)絡(luò)的優(yōu)點在于:①相較于傳統(tǒng)機器學(xué)習(xí),人工神經(jīng)網(wǎng)絡(luò)可以處理海量數(shù)據(jù);②計算能力較強;③算法不斷被優(yōu)化。而人工神經(jīng)網(wǎng)絡(luò)的缺點包括:①“黑箱”操作,結(jié)果解釋性不高;②計算耗時耗力;③模型訓(xùn)練需要更多的數(shù)據(jù)來滿足。

        3 機器學(xué)習(xí)在腸道菌群中的相關(guān)研究

        3.1 基于腸道菌群的相關(guān)研究

        1917年,Wehkamp等[55]首次分離出大腸桿菌,明確了微生物菌群在宿主中具有抵抗有害菌的作用。1965年,Schaedler等[56]首次將微生物菌群移植到無菌老鼠體內(nèi),揭示了微生物菌群對宿主健康發(fā)育的重要性,這創(chuàng)立了利用無菌宿主研究腸道菌群作用的新方法。1989年,研究發(fā)現(xiàn)微生物菌群對宿主的免疫系統(tǒng)具有調(diào)節(jié)作用[57]。2005年提出的第二代測序技術(shù)顯著提升了基因測序深度,可以從分類層級上分析微生物菌群,有助于研究者深入了解微生態(tài)的功能與特征[58]。2007年實施的人類微生物組項目[59]以及2012年開始的美國腸道菌群計劃[60]標志著微生物菌群研究從個體走向大規(guī)模人群。

        第二代DNA測序技術(shù)可對人體皮膚、口腔、胃、腸道、腹腔等部位的微生物群落進行分析,這些微生物群落即為人類微生物群。研究發(fā)現(xiàn),微生物群對人類健康有重要影響[61-62],因此,對這些微生物菌群的研究,有利于研究人員開發(fā)新的診斷工具和治療方法以判斷人類身體健康狀況和治療相關(guān)疾?。?3-64],但不同的方法診斷和治療結(jié)果可能存在明顯的差異[65-66]。隨著微生物組數(shù)據(jù)的不斷增加,僅依靠傳統(tǒng)的人工統(tǒng)計方法可能需要幾個月甚至幾年的時間,而人工智能為分析海量數(shù)據(jù)提供了一種快速高效的方式,目前已經(jīng)廣泛運用于微生物組學(xué)相關(guān)研究中。

        3.2 機器學(xué)習(xí)在微生物對宿主疾病預(yù)測方面的應(yīng)用

        近年來,利用機器學(xué)習(xí)預(yù)測疾病的相關(guān)研究較多(表1),其具有良好的疾病預(yù)測能力,且可根據(jù)特征選擇和特異性標記提高預(yù)測精度[67]。已有研究證實,唾液微生物群可以作為無創(chuàng)診斷膽管炎的標記物[68]和預(yù)測口腔異味(預(yù)測精度達97%),并且深度學(xué)習(xí)可以獲得比傳統(tǒng)機器學(xué)習(xí)更高的準確率[69];Dadkhah等[70]研究發(fā)現(xiàn)監(jiān)督式機器學(xué)習(xí)算法對復(fù)雜高維的微生物群數(shù)據(jù)有更好的適用性,并且進行特征選擇可以有效地提高預(yù)測精度。以上研究證明,微生物菌群和宿主表型存在一定的關(guān)系,在這些疾病研究中算法的普遍預(yù)測精度可達到70%以上,甚至更高。利用微生物數(shù)據(jù)使用機器學(xué)習(xí)來預(yù)測宿主的健康狀況一般為二分類問題,其中AUC值和F1分數(shù)(F1 score)可作為二分類模型的評價指標。F1分數(shù)為查準率和召回率的調(diào)和平均值,其中查準率(precision)表示預(yù)測正樣本中的準確比例,召回率(recall)表示預(yù)測正確的正樣本占所有正樣本的比例。接收者操作特征(receiver operating characteristic,ROC)曲線也稱為接受者工作特性曲線,其x軸為假陽性率(在所有真實值為負的樣本中,預(yù)測錯誤所占的比例),y軸為真陽性率(即召回率)。AUC值是ROC曲線圍成的一個面積值,理想的情況下AUC為1,即所有的樣本都被正確分類;若AUC=0.5,則證明模型的性能和隨機猜測相符;若AUC<0.5,則證明模型的性能不如隨機猜測,幾乎沒有應(yīng)用價值。一般選取AUC值在0.5~1之間具有研究價值。

        表1 機器學(xué)習(xí)不同疾病預(yù)測所使用算法及預(yù)測精度示例Table 1 Examples of algorithms and prediction accuracy of different diseases predicted by machine learning

        在構(gòu)建預(yù)測模型時,針對數(shù)據(jù)特點、應(yīng)用場景及評價標準需要選擇特定的機器學(xué)習(xí)算法,不同的算法有不同的特性與優(yōu)勢[71],一般通過對比實驗選取較優(yōu)的算法(表1)。通過本文介紹的5種機器學(xué)習(xí)的特點以及在不同數(shù)據(jù)集上的性能表現(xiàn),得出構(gòu)建預(yù)測模型時選取機器學(xué)習(xí)算法的一般規(guī)律。①根據(jù)數(shù)據(jù)的特點來選擇算法。數(shù)據(jù)特點包括數(shù)據(jù)形式(如數(shù)值型、文字型或布爾型)、數(shù)據(jù)量大小、數(shù)據(jù)冗余程度、缺失數(shù)據(jù)比例、數(shù)據(jù)均衡性等。在選取建模算法前將數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)值型才能保證算法的運行;數(shù)據(jù)量較大可以選擇適合大樣本學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)[72],數(shù)據(jù)量較小則可以選擇適合小樣本學(xué)習(xí)的線性回歸、支持向量機、K近鄰、隨機森林;數(shù)據(jù)冗余較大、不均衡、缺失比例高時可優(yōu)先選擇隨機森林。②根據(jù)需求選擇算法。需求包括運行的時空復(fù)雜度,模型的可解釋性,分類或回歸問題等,如依據(jù)預(yù)測的目標類型是數(shù)值變量或者類別變量選擇是回歸算法還是分類算法;要求較好的模型可解釋性時可以選擇線性回歸和支持向量機;針對多分類問題可以選擇隨機森林、人工神經(jīng)網(wǎng)絡(luò);對于時空復(fù)雜度要求較高的K近鄰、人工神經(jīng)網(wǎng)絡(luò)算法則需要充分考慮計算機的硬件配置能否支撐起模型的運行。此外,在選取建模方法時應(yīng)具體問題具體分析,綜合考慮算法在時空復(fù)雜度、可解釋性、普適性等方面的情況,結(jié)合前人的研究成果選取適合的算法,使得算法在預(yù)測模型中能夠充分發(fā)揮自身優(yōu)勢。

        4 展望

        腸道微生物并不是僅依靠幾種細菌就能夠?qū)λ拗鳟a(chǎn)生影響,而是大規(guī)模的微生物菌群協(xié)同作用的結(jié)果。當今機器學(xué)習(xí)應(yīng)用于腸道菌群分析已較普遍,極大地推動了新型診療手段的發(fā)展。機器學(xué)習(xí)的應(yīng)用有助于科研人員了解特定腸道菌群與宿主之間的關(guān)系,并挖掘它們深層次的特征,同時通過對篩選出來的特定靶點菌群進行機器學(xué)習(xí)預(yù)測及人工干預(yù),用于臨床輔助診斷和治療。雖然科學(xué)技術(shù)的發(fā)展為人類提供了大量宿主與微生物菌群之間關(guān)系的信息[73],促進了微生物學(xué)的發(fā)展,但仍存在機器學(xué)習(xí)預(yù)測精度不高、模型泛化能力不足、可解釋性不強、模型容易過擬合、調(diào)動參數(shù)復(fù)雜等問題。因此,機器學(xué)習(xí)還需要在算法優(yōu)化、特征提取、增加可解釋性等方面進行改進,如利用仿生網(wǎng)絡(luò)來進行算法優(yōu)化及參數(shù)調(diào)整,以及使用融合方法代替單一方法來進行特征選擇等。隨著深度學(xué)習(xí)的興起,對于大型的腸道菌群數(shù)據(jù)(>104),深度學(xué)習(xí)算法將會取得比傳統(tǒng)機器學(xué)習(xí)更精確的預(yù)測結(jié)果[74]。本文為利用機器學(xué)習(xí)對腸道菌群宿主表型預(yù)測提供了一定的參考依據(jù),而隨著人工智能技術(shù)的飛速進步,機器學(xué)習(xí)正在逐漸滲透到生物信息學(xué)、生物醫(yī)學(xué)和生物分類等領(lǐng)域,為這些領(lǐng)域帶來了深刻的變革和創(chuàng)新。這種趨勢對于加速科學(xué)研究、醫(yī)學(xué)診斷和生物多樣性研究都具有重要意義。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        欧美情侣性视频| 华人免费网站在线观看| 后入到高潮免费观看| 久久国产精久久精产国| 欧美性爱一区二区三区无a| 日产精品毛片av一区二区三区| www国产亚洲精品| 又白又嫩毛又多15p| 亚洲V无码一区二区三区四区观看 久久精品国产亚洲综合色 | 国产中文字幕一区二区视频| 国产情侣真实露脸在线| 日韩精品无码av中文无码版| 欧美v日韩v亚洲综合国产高清| 日本高清视频一区二区| 久久精品国产亚洲片| 亚洲最新版无码AV| 国产不卡一区二区三区视频| 蜜臀av一区二区三区久久| 一本色道久久88综合日韩精品| 免费看操片| 在线视频亚洲一区二区三区| 大桥未久av一区二区三区| 白天躁晚上躁麻豆视频| 欧美中文字幕在线看| 亚洲av天堂一区二区| 中文字幕乱码高清完整版| 国产喷水福利在线视频| 日韩精品有码中文字幕在线| 三级国产精品久久久99| 永久免费看啪啪网址入口| 国产高清在线精品一区αpp| 日本不卡不二三区在线看| 男人和女人做爽爽免费视频| 三上悠亚免费一区二区在线| 日日麻批视频免费播放器| 久久久久亚洲av成人人电影| 永久免费无码av在线网站| 久久婷婷免费综合色啪| 丝袜美腿在线观看一区| 骚小妹影院| 亚洲色拍拍噜噜噜最新网站|