亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于加權(quán)平均的腸道菌群特征篩選和疾病預(yù)測(cè)模型研究

        2023-10-14 02:14:46曹海濤朱靜曾海波劉彥辰
        生物技術(shù)進(jìn)展 2023年5期
        關(guān)鍵詞:特征融合模型

        曹海濤 , 朱靜 , 曾海波 , 劉彥辰

        1.新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052;2.新疆烏魯木齊市友誼醫(yī)院,烏魯木齊 830049

        傳統(tǒng)疾病篩查和診斷通常檢測(cè)周期較長(zhǎng),且一些篩查和診斷方法需要進(jìn)行侵入性檢測(cè),例如穿刺、活組織檢查等。這種檢測(cè)方式不僅痛苦,還可能導(dǎo)致感染和其他并發(fā)癥,使患者出現(xiàn)緊張、不適[1]等情緒。因此,需要尋找一種更便捷、非侵入性的方法來(lái)輔助疾病篩查和診斷,以改善早期診斷和治療效果,改善人們健康狀況。本研究旨在利用宏基因組學(xué)和機(jī)器學(xué)習(xí)技術(shù),探索腸道菌群[2]在疾病篩查和診斷中的應(yīng)用,以建立一種輔助參考模型。

        近年來(lái),腸道菌群對(duì)疾病的影響引起了廣泛關(guān)注。研究表明,患有某些疾病的人群其腸道菌群與健康人群存在差異[3],腸道微生物群落的失衡可能導(dǎo)致病原菌過(guò)度生長(zhǎng)和有害代謝產(chǎn)物的產(chǎn)生,從而引起免疫系統(tǒng)異常和疾病的發(fā)生,如克羅恩?。?]和糖尿病[5]等。然而,現(xiàn)有的疾病診斷[6]方法存在局限性,單一模型的診斷能力有限,而利用多組數(shù)據(jù)建立模型需要大量的特征,難以應(yīng)用于臨床。1998年,Handelsman等[7]首次提出宏基因組學(xué)(metagenomics)的概念——一種研究環(huán)境中所有微生物基因組總體的方法,高通量測(cè)序技術(shù)的發(fā)展[8]極大地推動(dòng)了宏基因組學(xué)的研究。宏基因組學(xué)為我們更好地理解和利用腸道菌群提供了平臺(tái),從而深入研究人體腸道菌群與健康之間的關(guān)系。

        機(jī)器學(xué)習(xí)通常作為各種預(yù)測(cè)任務(wù)模型的核心算法使用,在構(gòu)建疾病預(yù)測(cè)模型時(shí),大量使用邏輯回歸、K近鄰、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)等方法。Pasolli等[9]使用隨機(jī)森林模型設(shè)計(jì)了有關(guān)2型糖尿病的疾病預(yù)測(cè)模型;Ai等[10]使用隨機(jī)森林完善了關(guān)于結(jié)直腸癌的疾病預(yù)測(cè)模型;Wu等[11]使用K近鄰建立了預(yù)測(cè)2型糖尿病的疾病模型;Reiman等[12]使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建了預(yù)測(cè)肝硬化疾病模型。盡管使用不同模型預(yù)測(cè)疾病的方法大部分依賴(lài)于機(jī)器學(xué)習(xí)模型的自我學(xué)習(xí)能力,在對(duì)應(yīng)的疾病數(shù)據(jù)上表現(xiàn)出色。然而,這些模型普遍存在缺乏泛化的能力,在其他疾病數(shù)據(jù)中表現(xiàn)不佳。

        本研究采用宏基因組學(xué)和機(jī)器學(xué)習(xí)模型,利用多組獨(dú)立的宏基因組數(shù)據(jù)進(jìn)行研究。通過(guò)生物信息學(xué)工具對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,并使用數(shù)據(jù)降維和隨機(jī)森林模型設(shè)定特征重要性閾值,篩選與疾病發(fā)生高度相關(guān)的特征菌群。接著,進(jìn)行特征相關(guān)性分析,并使用加權(quán)平均的方法構(gòu)建一種融合模型,旨在解決傳統(tǒng)疾病篩查和診斷方法的侵入性和耗時(shí)問(wèn)題,以及現(xiàn)有模型缺乏泛化能力的限制。本研究通過(guò)結(jié)合宏基因組學(xué)和機(jī)器學(xué)習(xí)技術(shù),期望建立一種基于腸道菌群的非侵入性篩查和診斷模型,為疾病的早期篩查和診斷提供輔助參考,改善人們的健康狀況。

        1 材料與方法

        1.1 數(shù)據(jù)獲取及標(biāo)準(zhǔn)處理

        從NCBI(美國(guó)國(guó)家生物技術(shù)信息中心)的SRA數(shù)據(jù)庫(kù)中,選擇3個(gè)樣本的宏基因組測(cè)序數(shù)據(jù),分別為Cirrhosis數(shù)據(jù)集(ERP005860)、T2D數(shù)據(jù)集(SRA045646、SRA050230、ERP002469)、Obesity數(shù)據(jù)集(ERP003612)。Cirrhosis數(shù)據(jù)集包括健康者118名、疾病患者114名;T2D數(shù)據(jù)集包括健康者217名、疾病患者223名;Obesity數(shù)據(jù)集包括健康者89名、疾病患者164名。

        上述的3個(gè)樣本數(shù)據(jù)集都采用人類(lèi)微生物計(jì)劃[13]所制定的標(biāo)準(zhǔn),來(lái)預(yù)處理宏基因測(cè)序數(shù)據(jù),首先使用FastQC和MultiQC對(duì)原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制處理,接著利用工具KneadData對(duì)經(jīng)過(guò)質(zhì)量控制的序列去除宿主污染得到純凈序列,最后使用默認(rèn)的參數(shù)在純凈的測(cè)序數(shù)據(jù)上運(yùn)行MetaPhlAn2來(lái)生成物種組成表,測(cè)序數(shù)據(jù)處理流程如圖1所示,宏基因組數(shù)據(jù)經(jīng)過(guò)處理后得到的物種組成表如表1所示。

        表1 部分原始數(shù)據(jù)Table 1 Part of raw data

        圖1 測(cè)序數(shù)據(jù)處理流程圖Fig. 1 Sequencing data processing flowchart

        1.2 特征工程

        由于宏基因測(cè)序數(shù)據(jù)包含成千上萬(wàn)個(gè)微生物DNA序列,并且每個(gè)微生物可能具有數(shù)千到數(shù)百萬(wàn)個(gè)基因。同時(shí),每個(gè)樣本的菌群組成也可能因樣本來(lái)源、環(huán)境條件等因素存在差異,從而導(dǎo)致該類(lèi)型的數(shù)據(jù)通常都是高維稀疏的,所以需要依據(jù)處理的數(shù)據(jù)集來(lái)對(duì)比選擇合適的降維、篩選方法。為了對(duì)比數(shù)據(jù)降維和特征篩選對(duì)疾病預(yù)測(cè)模型精度的影響,本文使用主成分分析(principal component analysis,PCA)[14]、自編碼器(AutoEncoder)[15]、非線性降維(T-SNE)[16]進(jìn)行數(shù)據(jù)降維、對(duì)比,使用隨機(jī)森林模型進(jìn)行特征篩選,最后進(jìn)行特征菌群的相關(guān)性分析。

        1.3 加權(quán)平均融合模型的構(gòu)建

        加權(quán)平均融合模型(weighted average fusion model)是一種集成學(xué)習(xí)方法[17],通過(guò)對(duì)多個(gè)單模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均,從而得到最終的預(yù)測(cè)結(jié)果。通過(guò)對(duì)比子模型的預(yù)測(cè)結(jié)果和真實(shí)值之間的關(guān)系,設(shè)定權(quán)重值來(lái)降低模型融合后的預(yù)測(cè)誤差。在分類(lèi)問(wèn)題中,加權(quán)平均集成算法在二分類(lèi)和多分類(lèi)問(wèn)題上均表現(xiàn)出更高的預(yù)測(cè)精度。本實(shí)驗(yàn)使用支持向量機(jī)(support vector machine,SVM)[18]、極度梯度提升樹(shù)(extreme gradient boosting,XGBoost)[19]、多層感知機(jī)(multilayer perceptron,MLP)[20]3個(gè)子模型進(jìn)行預(yù)測(cè),并采用加權(quán)平均來(lái)判定各子模型的預(yù)測(cè)結(jié)果與真實(shí)值的差異。本文使用了3種不同的加權(quán)融合方法,即軟投票[21]、Stacking[22]和加權(quán)平均,并通過(guò)可視化方式進(jìn)行預(yù)測(cè)結(jié)果的對(duì)比。比較T-SNE降維和隨機(jī)森林特征選擇后每種融合模型預(yù)測(cè)結(jié)果指標(biāo),分析了隨機(jī)森林篩選出的特征菌群的重要程度,闡明各特征菌群在各個(gè)疾病發(fā)生發(fā)展過(guò)程中發(fā)揮的潛在性作用,實(shí)驗(yàn)的整體流程如圖2所示。

        圖2 實(shí)驗(yàn)流程圖Fig. 2 Experimental flowchart

        在加權(quán)平均融合模型中,每個(gè)單一模型的預(yù)測(cè)結(jié)果被賦予一個(gè)權(quán)重,權(quán)重的大小反映了這個(gè)模型的預(yù)測(cè)能力。一般來(lái)說(shuō),權(quán)重越大的模型對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)越大。

        本文采用排序法是一種常見(jiàn)的加權(quán)平均模型融合技術(shù),它可以基于單一模型在一些表現(xiàn)指標(biāo)上的表現(xiàn),為每個(gè)單一模型分配一個(gè)權(quán)重,以此來(lái)組合多個(gè)單一模型的預(yù)測(cè)結(jié)果,從而得到最終的預(yù)測(cè)結(jié)果。這種方法的基本原理是根據(jù)單一模型在各個(gè)表現(xiàn)指標(biāo)上的表現(xiàn)來(lái)為它們賦予不同的權(quán)重,從而使得在預(yù)測(cè)結(jié)果中表現(xiàn)更好的單一模型能夠產(chǎn)生更大的影響,而表現(xiàn)較差的單一模型則產(chǎn)生較小的影響。加權(quán)平均融合中基于表現(xiàn)指標(biāo)的排序法的公式見(jiàn)式(1)。

        其中,k是評(píng)價(jià)指標(biāo)的數(shù)量,wj是第j個(gè)指標(biāo)的權(quán)重,滿足=1。

        為了在加權(quán)平均融合中確定每個(gè)單一模型的權(quán)重,可以使用式(2)計(jì)算。

        其中,n表示單一模型的數(shù)量,si表示第i個(gè)單一模型的總體得分,表示所有單一模型的總體得分之和。

        具體來(lái)說(shuō),基于表現(xiàn)指標(biāo)的排序法通常包含以下步驟:①選擇一些表現(xiàn)指標(biāo),這些指標(biāo)應(yīng)該能夠反映單一模型的預(yù)測(cè)能力,例如準(zhǔn)確率、精度、召回率、F1分?jǐn)?shù)等;②對(duì)每個(gè)單一模型在這些指標(biāo)上進(jìn)行評(píng)估,并計(jì)算它們?cè)诟鱾€(gè)指標(biāo)中的得分;③根據(jù)各個(gè)指標(biāo)的重要性,為每個(gè)指標(biāo)賦予一個(gè)權(quán)重;④對(duì)于每個(gè)單一模型,將它在每個(gè)指標(biāo)上的得分乘以對(duì)應(yīng)的權(quán)重,并對(duì)乘積求和,從而得到該單一模型的總體得分;⑤根據(jù)每個(gè)單一模型的總體得分,為它們分配一個(gè)權(quán)重,從而在加權(quán)平均融合中確定它們的貢獻(xiàn)度。

        本文選取的評(píng)價(jià)指標(biāo)有精確率(precision)、準(zhǔn)確率(accuracy)和ROC曲線下的面積(AUC),評(píng)價(jià)指標(biāo)按公式(3)~(5)計(jì)算。

        其中,TP表示真正例,TN表示真負(fù)例,F(xiàn)P表示假正例,F(xiàn)N表示假負(fù)例,rankinsi代表第i條樣本的序號(hào),M、N各自代表了正樣本數(shù)量及負(fù)樣本數(shù)量,∑insi∈positiveclass是遍歷所有的正樣本,并累加其序號(hào)。

        2 結(jié)果與分析

        2.1 特征降維和篩選

        使用PCA、AutoEncoder、T-SNE 3種方法對(duì)3種疾病的物種組成表進(jìn)行數(shù)據(jù)降維,接著可視化降維后3種疾病數(shù)據(jù)各個(gè)特征之間的分布(圖3~5)。從降維后的特征分布圖看出T-SNE的效果要好于PCA和AutoEncoder,經(jīng)過(guò)AutoEncoder降維后的數(shù)據(jù)整體分布效果要好于PCA,這是因?yàn)門(mén)-SNE是一種非線性降維算法,相比于PCA,它可以更好地捕捉數(shù)據(jù)中的非線性結(jié)構(gòu)。對(duì)于AutoEncoder來(lái)說(shuō),深度學(xué)習(xí)方法可以快速將高維數(shù)據(jù)降到低維,但由于AutoEncoder無(wú)法學(xué)習(xí)菌群特征之間的復(fù)雜結(jié)構(gòu),故在處理高維稀疏的宏基因測(cè)序數(shù)據(jù)時(shí),通過(guò)T-SNE降維之后的數(shù)據(jù)分布更加均衡,最后將經(jīng)過(guò)T-SNE降維后組成的新數(shù)據(jù)作為模型的輸入數(shù)據(jù)。

        圖3 肝硬化數(shù)據(jù)降維圖Fig. 3 Dimensionality reduction diagram of liver cirrhosis data

        圖4 肥胖癥數(shù)據(jù)降維圖Fig. 4 Dimensionality reduction diagram of obesity data

        圖5 糖尿病數(shù)據(jù)降維圖Fig. 5 Dimensionality reduction diagram of diabetes data

        使用隨機(jī)森林模型對(duì)物種組成表進(jìn)行特征篩選,設(shè)定好特征重要性閾值,將原始特征中重要性高于閾值的特征篩選出來(lái),并由低到高呈現(xiàn)出來(lái)(表2),組成新的數(shù)據(jù)作為模型的輸入,對(duì)比T-SNE降維產(chǎn)生的數(shù)據(jù),觀察是否對(duì)模型精度產(chǎn)生影響。

        表2 3種數(shù)據(jù)經(jīng)過(guò)特征選擇后的特征菌群Table 2 Three types of data with characteristic microbial communities after feature selection

        最后對(duì)降維后篩選出的數(shù)據(jù)進(jìn)行相關(guān)性分析(圖6),以便理解特征之間的關(guān)系,確定哪些特征菌群對(duì)目標(biāo)變量的影響最大,這有助于建立更準(zhǔn)確的預(yù)測(cè)模型。另外,檢測(cè)多個(gè)特征菌群之間是否存在高度相關(guān)性[23],這種情況可能導(dǎo)致模型過(guò)擬合或不穩(wěn)定,同時(shí),需要注意避免選擇過(guò)多的特征,以避免過(guò)擬合和降低模型的泛化能力。因此,在選擇特征時(shí),需要綜合考慮各個(gè)特征菌群的相關(guān)性、重要性和可解釋性等因素,選擇最具有代表性的菌群進(jìn)行建模。

        圖6 3種疾病數(shù)據(jù)特征相關(guān)性分析Fig. 6 Correlation analysis of three disease data features

        2.2 加權(quán)平均融合模型的評(píng)價(jià)

        將加權(quán)融合模型與其他2種模型融合方法(軟投票、Stacking)的性能進(jìn)行了基準(zhǔn)測(cè)試。使用肝硬化、2型糖尿病和肥胖癥數(shù)據(jù)集交叉驗(yàn)證了模型的準(zhǔn)確性,方便與現(xiàn)有的模型進(jìn)行比較。在表3中,對(duì)數(shù)據(jù)使用T-SNE降維,加權(quán)平均模型在肝硬化數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5901,在2型糖尿病數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5651,在肥胖癥數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.3871。

        表3 經(jīng)過(guò)T-SNE降維后模型在3種數(shù)據(jù)集上交叉驗(yàn)證的結(jié)果Table 3 Cross validation results of the model on three datasets after T-SNE dimensionality reduction

        對(duì)于這些數(shù)據(jù)集,使用隨機(jī)森林篩選數(shù)據(jù)特征,設(shè)定特征重要性閾值,將選擇后特征作為模型的輸入,在表4中,加權(quán)平均模型在肝硬化數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.9286,在2型糖尿病數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.6521,在肥胖癥數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5747。

        表4 經(jīng)過(guò)特征選擇后模型在3種數(shù)據(jù)集上交叉驗(yàn)證的結(jié)果Table 4 Cross validation results of the model on three datasets after feature selection

        比較模型在經(jīng)過(guò)T-SNE降維和隨機(jī)森林特征篩選后的效果,發(fā)現(xiàn)經(jīng)過(guò)降維后的數(shù)據(jù)特征會(huì)影響到分類(lèi)模型原本的效果,可能是因?yàn)門(mén)-SNE對(duì)數(shù)據(jù)的處理比較復(fù)雜,需要調(diào)整的參數(shù)較多,容易出現(xiàn)“擁擠”問(wèn)題,并且T-SNE只能處理連續(xù)型數(shù)據(jù),不能處理離散型數(shù)據(jù),而隨機(jī)森林特征篩選則不受這個(gè)限制。因此,隨機(jī)森林特征篩選相較于T-SNE降維具有更好的效果。

        為了比較3種融合模型的擬合效果,對(duì)經(jīng)過(guò)特征篩選和T-SNE降維的3種數(shù)據(jù)集中不同融合模型的AUC值進(jìn)行數(shù)據(jù)可視化。從圖7中可以看出,在使用隨機(jī)森林進(jìn)行特征篩選前加權(quán)平均的ROC曲線下的面積效果最好,經(jīng)過(guò)隨機(jī)森林模型的特征篩選后,軟投票和加權(quán)平均的ROC曲線下的面積效果最好,故加權(quán)平均融合模型在進(jìn)行特征選擇前后的綜合性能要優(yōu)于其余融合模型,是3種融合方法中表現(xiàn)最佳的。

        圖7 融合模型ROC曲線下的面積圖Fig. 7 Area chart under ROC curve of fusion model

        本文使用多種模型進(jìn)行宿主表型預(yù)測(cè),包括3種單一子模型和3種融合模型,以及K近鄰、邏輯回歸2種適用于宿主表型預(yù)測(cè)的機(jī)器學(xué)習(xí)模型。單一模型的預(yù)測(cè)結(jié)果在表5中展示,這些對(duì)比分析旨在證明加權(quán)平均融合模型的準(zhǔn)確性和有效性。

        表5 單一模型預(yù)測(cè)結(jié)果Table 5 Prediction results of single model

        2.3 加權(quán)平均模型中3種疾病數(shù)據(jù)各特征細(xì)菌的重要程度

        使用隨機(jī)森林算法來(lái)訓(xùn)練特征篩選模型,并根據(jù)特征的重要性繪制特征重要性圖(圖8),對(duì)于加權(quán)平均模型,每個(gè)特征的重要性可以通過(guò)對(duì)該特征的權(quán)重進(jìn)行分析確定。在3種疾病數(shù)據(jù)中,每個(gè)特征代表不同的細(xì)菌。在確定每個(gè)特征的重要性時(shí),要考慮以下3個(gè)因素。①權(quán)重大小。加權(quán)平均模型中每個(gè)特征的權(quán)重表示其在模型中的重要性。權(quán)重越大,特征對(duì)模型的影響越大。②相關(guān)性。特征之間的相關(guān)性也會(huì)影響其在模型中的重要性。如果2個(gè)特征高度相關(guān),它們的權(quán)重可能會(huì)減少。③數(shù)據(jù)分布。特征在數(shù)據(jù)集中的分布也會(huì)影響其重要性。如果一個(gè)特征在數(shù)據(jù)集中出現(xiàn)的頻率很高,那么它對(duì)模型的影響可能會(huì)更大。

        圖8 3種數(shù)據(jù)在模型中特征細(xì)菌的重要性Fig. 8 The importance of three types of data in characteristic bacteria in models

        從圖8可以看出,在肝硬化數(shù)據(jù)中韋榮氏球菌、嗜血桿菌、鏈球菌等特征菌群的重要程度較高,消化鏈球菌、雙歧桿菌、糞芽孢菌等特征菌群在糖尿病數(shù)據(jù)中占有較高的特征重要性,而對(duì)于肥胖癥數(shù)據(jù),厭氧棍狀菌、羅氏菌、罕見(jiàn)小球菌等特征菌群具有較高的重要性。此外,篩選出的特征菌群并不只存在于一種疾病中,特定的菌群可以與多種疾病相關(guān)聯(lián),因此在研究微生物菌群與疾病之間的關(guān)系時(shí),要考慮不同疾病之間微生物群落的共性和差異性,從而可以更好地理解微生物群落與疾病之間的關(guān)系。

        3 討論

        在3種疾病數(shù)據(jù)中,使用隨機(jī)森林的方法能夠篩選出多種特征菌群,比如消化鏈球菌、厭氧棍狀菌和韋榮氏球菌。較之于2型糖尿病患者,消化鏈球菌可能更有益。2型糖尿病是一種慢性疾病,通常與胰島素抵抗和胰島素缺乏有關(guān)。胰島素抵抗意味著身體無(wú)法有效地利用胰島素,而胰島素缺乏則可能導(dǎo)致血糖水平升高。研究表明,消化鏈球菌可以代謝產(chǎn)生乳酸,而這種酸可以提高胰島素敏感性[24]。對(duì)于肥胖癥來(lái)說(shuō),厭氧棍狀菌是一種有益的腸道菌群,它們?cè)谌狈ρ鯕獾沫h(huán)境中生長(zhǎng)繁殖。研究表明,肥胖癥患者腸道中的厭氧棍狀菌數(shù)量減少,這可能導(dǎo)致代謝疾病的產(chǎn)生。而通過(guò)增加厭氧棍狀菌的攝入量,可以改善肥胖癥患者的腸道菌群平衡,降低代謝疾病的風(fēng)險(xiǎn)[25]。另外,韋榮氏球菌可能有助于改善肝硬化患者的健康狀況。一項(xiàng)研究表明,肝硬化患者腸道中的韋榮氏球菌數(shù)量減少,這可能導(dǎo)致腸道屏障的受損和炎癥反應(yīng)的增加[26]。需要注意的是,目前關(guān)于特征菌群在對(duì)應(yīng)疾病上發(fā)揮的作用還需要更多的研究來(lái)證實(shí)特征菌群對(duì)疾病患者的實(shí)際益處。這些研究都證明了本文基于隨機(jī)森林方法篩選出多種特征菌群的基礎(chǔ)上,構(gòu)建融合疾病診斷模型的合理性。

        本研究通過(guò)對(duì)3種疾病的宏基因測(cè)序數(shù)據(jù)進(jìn)行疾病預(yù)測(cè)建模和特征篩選,分別選擇出與各種疾病發(fā)生發(fā)展相關(guān)的菌群特征?;陔S機(jī)森林模型篩選出的特征菌群,再使用加權(quán)平均融合方法,建立不同疾病的輔助診斷模型,同時(shí)對(duì)比了MetAML工具[9]所使用的SVM分類(lèi)模型,盡管在肥胖癥數(shù)據(jù)集上,該模型的AUC值要大于加權(quán)平均模型。但在肝硬化和糖尿病數(shù)據(jù)集上,該模型的AUC值要小于加權(quán)平均模型。對(duì)比發(fā)現(xiàn)SVM模型在不同的數(shù)據(jù)集上的模型預(yù)測(cè)能力要稍弱于加權(quán)平均模型。同時(shí),加權(quán)平均融合模型選擇的特征菌群的預(yù)測(cè)準(zhǔn)確率相較于投票法和Stacking融合方法是最高的,在3種疾病數(shù)據(jù)劃分的訓(xùn)練集和測(cè)試集上均能保持相對(duì)較好的預(yù)測(cè)準(zhǔn)確率。使用加權(quán)平均融合模型,可以做到進(jìn)一步聯(lián)系腸道菌群與患者表型,再結(jié)合隨機(jī)森林方法構(gòu)建的特征菌群篩選模型,進(jìn)一步加快特征菌群在日常疾病篩查診斷上的使用??傮w來(lái)說(shuō),加權(quán)平均模型為識(shí)別與疾病相關(guān)的微生物特征和開(kāi)發(fā)用于早期檢測(cè)和預(yù)防相關(guān)疾病的非侵入性診斷工具提供了一種輔助方法。

        本文在研究過(guò)程中仍存在一定的不足,例如所獲取的疾病數(shù)據(jù)量有限,未能充分考慮疾病數(shù)據(jù)樣本量對(duì)模型的影響。因此,下一步的研究需要擴(kuò)大數(shù)據(jù)收集的疾病種類(lèi),以涵蓋更廣泛的疾病,從而提高融合模型的覆蓋面和適用性,更全面地驗(yàn)證融合模型的效果,提高模型的準(zhǔn)確性和泛化能力。

        猜你喜歡
        特征融合模型
        一半模型
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        《融合》
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        麻豆AV无码久久精品蜜桃久久| av无码电影一区二区三区| 人与动牲交av免费| 日本亚洲国产一区二区三区| 亚洲欧美日韩国产综合专区 | 国产精品日本一区二区三区在线| av影院在线免费观看不卡| 无码一区二区三区亚洲人妻| 国产精品久久国产精品99gif| 日韩精品中文字幕人妻系列| 日韩精品在线观看在线| 亚洲色大成网站www永久网站| 国产精品无码日韩欧| 久久久久久无码AV成人影院| 亚洲熟女av在线观看| 东京热久久综合久久88| 欧美国产成人精品一区二区三区| 中文无码免费在线| 一本色道久久88加勒比| 国产熟女内射oooo| 国产精品白浆视频免费观看| 国产黄色污一区二区三区| 五月天中文字幕日韩在线| 中文www新版资源在线| 制服丝袜视频国产一区| 日韩中文字幕一区在线| 精品无码一区二区三区的天堂| 国产人妻久久精品二区三区特黄| 国产精品久久国产三级国电话系列| 成年男女免费视频网站点播| 热99re久久精品这里都是精品免费 | 亚洲中文字幕剧情类别| 9 9久热re在线精品视频| 国产爆乳乱码女大生Av| 一区二区三区夜夜久久| 又黄又爽又色视频| 猫咪免费人成网站在线观看| 国产亚洲无码1024| 亚洲国产中文字幕在线视频综合| 久久国产精品久久久久久| 精选麻豆国产AV|