亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于加權(quán)平均的腸道菌群特征篩選和疾病預(yù)測(cè)模型研究

2023-10-14 02:14:46曹海濤朱靜曾海波劉彥辰

生物技術(shù)進(jìn)展 2023年5期

曹海濤，朱靜，曾海波，劉彥辰

1.新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院，烏魯木齊 830052；2.新疆烏魯木齊市友誼醫(yī)院，烏魯木齊 830049

傳統(tǒng)疾病篩查和診斷通常檢測(cè)周期較長(zhǎng)，且一些篩查和診斷方法需要進(jìn)行侵入性檢測(cè)，例如穿刺、活組織檢查等。這種檢測(cè)方式不僅痛苦，還可能導(dǎo)致感染和其他并發(fā)癥，使患者出現(xiàn)緊張、不適［1］等情緒。因此，需要尋找一種更便捷、非侵入性的方法來(lái)輔助疾病篩查和診斷，以改善早期診斷和治療效果，改善人們健康狀況。本研究旨在利用宏基因組學(xué)和機(jī)器學(xué)習(xí)技術(shù)，探索腸道菌群［2］在疾病篩查和診斷中的應(yīng)用，以建立一種輔助參考模型。

近年來(lái)，腸道菌群對(duì)疾病的影響引起了廣泛關(guān)注。研究表明，患有某些疾病的人群其腸道菌群與健康人群存在差異［3］，腸道微生物群落的失衡可能導(dǎo)致病原菌過(guò)度生長(zhǎng)和有害代謝產(chǎn)物的產(chǎn)生，從而引起免疫系統(tǒng)異常和疾病的發(fā)生，如克羅恩?。?］和糖尿病［5］等。然而，現(xiàn)有的疾病診斷［6］方法存在局限性，單一模型的診斷能力有限，而利用多組數(shù)據(jù)建立模型需要大量的特征，難以應(yīng)用于臨床。1998年，Handelsman等［7］首次提出宏基因組學(xué)（metagenomics）的概念——一種研究環(huán)境中所有微生物基因組總體的方法，高通量測(cè)序技術(shù)的發(fā)展［8］極大地推動(dòng)了宏基因組學(xué)的研究。宏基因組學(xué)為我們更好地理解和利用腸道菌群提供了平臺(tái)，從而深入研究人體腸道菌群與健康之間的關(guān)系。

機(jī)器學(xué)習(xí)通常作為各種預(yù)測(cè)任務(wù)模型的核心算法使用，在構(gòu)建疾病預(yù)測(cè)模型時(shí)，大量使用邏輯回歸、K近鄰、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)等方法。Pasolli等［9］使用隨機(jī)森林模型設(shè)計(jì)了有關(guān)2型糖尿病的疾病預(yù)測(cè)模型；Ai等［10］使用隨機(jī)森林完善了關(guān)于結(jié)直腸癌的疾病預(yù)測(cè)模型；Wu等［11］使用K近鄰建立了預(yù)測(cè)2型糖尿病的疾病模型；Reiman等［12］使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建了預(yù)測(cè)肝硬化疾病模型。盡管使用不同模型預(yù)測(cè)疾病的方法大部分依賴(lài)于機(jī)器學(xué)習(xí)模型的自我學(xué)習(xí)能力，在對(duì)應(yīng)的疾病數(shù)據(jù)上表現(xiàn)出色。然而，這些模型普遍存在缺乏泛化的能力，在其他疾病數(shù)據(jù)中表現(xiàn)不佳。

本研究采用宏基因組學(xué)和機(jī)器學(xué)習(xí)模型，利用多組獨(dú)立的宏基因組數(shù)據(jù)進(jìn)行研究。通過(guò)生物信息學(xué)工具對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理，并使用數(shù)據(jù)降維和隨機(jī)森林模型設(shè)定特征重要性閾值，篩選與疾病發(fā)生高度相關(guān)的特征菌群。接著，進(jìn)行特征相關(guān)性分析，并使用加權(quán)平均的方法構(gòu)建一種融合模型，旨在解決傳統(tǒng)疾病篩查和診斷方法的侵入性和耗時(shí)問(wèn)題，以及現(xiàn)有模型缺乏泛化能力的限制。本研究通過(guò)結(jié)合宏基因組學(xué)和機(jī)器學(xué)習(xí)技術(shù)，期望建立一種基于腸道菌群的非侵入性篩查和診斷模型，為疾病的早期篩查和診斷提供輔助參考，改善人們的健康狀況。

1 材料與方法

1.1 數(shù)據(jù)獲取及標(biāo)準(zhǔn)處理

從NCBI（美國(guó)國(guó)家生物技術(shù)信息中心）的SRA數(shù)據(jù)庫(kù)中，選擇3個(gè)樣本的宏基因組測(cè)序數(shù)據(jù)，分別為Cirrhosis數(shù)據(jù)集（ERP005860）、T2D數(shù)據(jù)集（SRA045646、SRA050230、ERP002469）、Obesity數(shù)據(jù)集（ERP003612）。Cirrhosis數(shù)據(jù)集包括健康者118名、疾病患者114名；T2D數(shù)據(jù)集包括健康者217名、疾病患者223名；Obesity數(shù)據(jù)集包括健康者89名、疾病患者164名。

上述的3個(gè)樣本數(shù)據(jù)集都采用人類(lèi)微生物計(jì)劃［13］所制定的標(biāo)準(zhǔn)，來(lái)預(yù)處理宏基因測(cè)序數(shù)據(jù)，首先使用FastQC和MultiQC對(duì)原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制處理，接著利用工具KneadData對(duì)經(jīng)過(guò)質(zhì)量控制的序列去除宿主污染得到純凈序列，最后使用默認(rèn)的參數(shù)在純凈的測(cè)序數(shù)據(jù)上運(yùn)行MetaPhlAn2來(lái)生成物種組成表，測(cè)序數(shù)據(jù)處理流程如圖1所示，宏基因組數(shù)據(jù)經(jīng)過(guò)處理后得到的物種組成表如表1所示。

表1 部分原始數(shù)據(jù)Table 1 Part of raw data

圖1 測(cè)序數(shù)據(jù)處理流程圖Fig. 1 Sequencing data processing flowchart

1.2 特征工程

由于宏基因測(cè)序數(shù)據(jù)包含成千上萬(wàn)個(gè)微生物DNA序列，并且每個(gè)微生物可能具有數(shù)千到數(shù)百萬(wàn)個(gè)基因。同時(shí)，每個(gè)樣本的菌群組成也可能因樣本來(lái)源、環(huán)境條件等因素存在差異，從而導(dǎo)致該類(lèi)型的數(shù)據(jù)通常都是高維稀疏的，所以需要依據(jù)處理的數(shù)據(jù)集來(lái)對(duì)比選擇合適的降維、篩選方法。為了對(duì)比數(shù)據(jù)降維和特征篩選對(duì)疾病預(yù)測(cè)模型精度的影響，本文使用主成分分析（principal component analysis，PCA）［14］、自編碼器（AutoEncoder）［15］、非線性降維（T-SNE）［16］進(jìn)行數(shù)據(jù)降維、對(duì)比，使用隨機(jī)森林模型進(jìn)行特征篩選，最后進(jìn)行特征菌群的相關(guān)性分析。

1.3 加權(quán)平均融合模型的構(gòu)建

加權(quán)平均融合模型（weighted average fusion model）是一種集成學(xué)習(xí)方法［17］，通過(guò)對(duì)多個(gè)單模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均，從而得到最終的預(yù)測(cè)結(jié)果。通過(guò)對(duì)比子模型的預(yù)測(cè)結(jié)果和真實(shí)值之間的關(guān)系，設(shè)定權(quán)重值來(lái)降低模型融合后的預(yù)測(cè)誤差。在分類(lèi)問(wèn)題中，加權(quán)平均集成算法在二分類(lèi)和多分類(lèi)問(wèn)題上均表現(xiàn)出更高的預(yù)測(cè)精度。本實(shí)驗(yàn)使用支持向量機(jī)（support vector machine，SVM）［18］、極度梯度提升樹(shù)（extreme gradient boosting，XGBoost）［19］、多層感知機(jī)（multilayer perceptron，MLP）［20］3個(gè)子模型進(jìn)行預(yù)測(cè)，并采用加權(quán)平均來(lái)判定各子模型的預(yù)測(cè)結(jié)果與真實(shí)值的差異。本文使用了3種不同的加權(quán)融合方法，即軟投票［21］、Stacking［22］和加權(quán)平均，并通過(guò)可視化方式進(jìn)行預(yù)測(cè)結(jié)果的對(duì)比。比較T-SNE降維和隨機(jī)森林特征選擇后每種融合模型預(yù)測(cè)結(jié)果指標(biāo)，分析了隨機(jī)森林篩選出的特征菌群的重要程度，闡明各特征菌群在各個(gè)疾病發(fā)生發(fā)展過(guò)程中發(fā)揮的潛在性作用，實(shí)驗(yàn)的整體流程如圖2所示。

圖2 實(shí)驗(yàn)流程圖Fig. 2 Experimental flowchart

在加權(quán)平均融合模型中，每個(gè)單一模型的預(yù)測(cè)結(jié)果被賦予一個(gè)權(quán)重，權(quán)重的大小反映了這個(gè)模型的預(yù)測(cè)能力。一般來(lái)說(shuō)，權(quán)重越大的模型對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)越大。

本文采用排序法是一種常見(jiàn)的加權(quán)平均模型融合技術(shù)，它可以基于單一模型在一些表現(xiàn)指標(biāo)上的表現(xiàn)，為每個(gè)單一模型分配一個(gè)權(quán)重，以此來(lái)組合多個(gè)單一模型的預(yù)測(cè)結(jié)果，從而得到最終的預(yù)測(cè)結(jié)果。這種方法的基本原理是根據(jù)單一模型在各個(gè)表現(xiàn)指標(biāo)上的表現(xiàn)來(lái)為它們賦予不同的權(quán)重，從而使得在預(yù)測(cè)結(jié)果中表現(xiàn)更好的單一模型能夠產(chǎn)生更大的影響，而表現(xiàn)較差的單一模型則產(chǎn)生較小的影響。加權(quán)平均融合中基于表現(xiàn)指標(biāo)的排序法的公式見(jiàn)式（1）。

其中，k是評(píng)價(jià)指標(biāo)的數(shù)量，wj是第j個(gè)指標(biāo)的權(quán)重，滿足=1。

為了在加權(quán)平均融合中確定每個(gè)單一模型的權(quán)重，可以使用式（2）計(jì)算。

其中，n表示單一模型的數(shù)量，si表示第i個(gè)單一模型的總體得分，表示所有單一模型的總體得分之和。

具體來(lái)說(shuō)，基于表現(xiàn)指標(biāo)的排序法通常包含以下步驟：①選擇一些表現(xiàn)指標(biāo)，這些指標(biāo)應(yīng)該能夠反映單一模型的預(yù)測(cè)能力，例如準(zhǔn)確率、精度、召回率、F1分?jǐn)?shù)等；②對(duì)每個(gè)單一模型在這些指標(biāo)上進(jìn)行評(píng)估，并計(jì)算它們?cè)诟鱾€(gè)指標(biāo)中的得分；③根據(jù)各個(gè)指標(biāo)的重要性，為每個(gè)指標(biāo)賦予一個(gè)權(quán)重；④對(duì)于每個(gè)單一模型，將它在每個(gè)指標(biāo)上的得分乘以對(duì)應(yīng)的權(quán)重，并對(duì)乘積求和，從而得到該單一模型的總體得分；⑤根據(jù)每個(gè)單一模型的總體得分，為它們分配一個(gè)權(quán)重，從而在加權(quán)平均融合中確定它們的貢獻(xiàn)度。

本文選取的評(píng)價(jià)指標(biāo)有精確率（precision）、準(zhǔn)確率（accuracy）和ROC曲線下的面積（AUC），評(píng)價(jià)指標(biāo)按公式（3）～（5）計(jì)算。

其中，TP表示真正例，TN表示真負(fù)例，F(xiàn)P表示假正例，F(xiàn)N表示假負(fù)例，rankinsi代表第i條樣本的序號(hào)，M、N各自代表了正樣本數(shù)量及負(fù)樣本數(shù)量，∑insi∈positiveclass是遍歷所有的正樣本，并累加其序號(hào)。

2 結(jié)果與分析

2.1 特征降維和篩選

使用PCA、AutoEncoder、T-SNE 3種方法對(duì)3種疾病的物種組成表進(jìn)行數(shù)據(jù)降維，接著可視化降維后3種疾病數(shù)據(jù)各個(gè)特征之間的分布（圖3～5）。從降維后的特征分布圖看出T-SNE的效果要好于PCA和AutoEncoder，經(jīng)過(guò)AutoEncoder降維后的數(shù)據(jù)整體分布效果要好于PCA，這是因?yàn)門(mén)-SNE是一種非線性降維算法，相比于PCA，它可以更好地捕捉數(shù)據(jù)中的非線性結(jié)構(gòu)。對(duì)于AutoEncoder來(lái)說(shuō)，深度學(xué)習(xí)方法可以快速將高維數(shù)據(jù)降到低維，但由于AutoEncoder無(wú)法學(xué)習(xí)菌群特征之間的復(fù)雜結(jié)構(gòu)，故在處理高維稀疏的宏基因測(cè)序數(shù)據(jù)時(shí)，通過(guò)T-SNE降維之后的數(shù)據(jù)分布更加均衡，最后將經(jīng)過(guò)T-SNE降維后組成的新數(shù)據(jù)作為模型的輸入數(shù)據(jù)。

圖3 肝硬化數(shù)據(jù)降維圖Fig. 3 Dimensionality reduction diagram of liver cirrhosis data

圖4 肥胖癥數(shù)據(jù)降維圖Fig. 4 Dimensionality reduction diagram of obesity data

圖5 糖尿病數(shù)據(jù)降維圖Fig. 5 Dimensionality reduction diagram of diabetes data

使用隨機(jī)森林模型對(duì)物種組成表進(jìn)行特征篩選，設(shè)定好特征重要性閾值，將原始特征中重要性高于閾值的特征篩選出來(lái)，并由低到高呈現(xiàn)出來(lái)（表2），組成新的數(shù)據(jù)作為模型的輸入，對(duì)比T-SNE降維產(chǎn)生的數(shù)據(jù)，觀察是否對(duì)模型精度產(chǎn)生影響。

表2 3種數(shù)據(jù)經(jīng)過(guò)特征選擇后的特征菌群Table 2 Three types of data with characteristic microbial communities after feature selection

最后對(duì)降維后篩選出的數(shù)據(jù)進(jìn)行相關(guān)性分析（圖6），以便理解特征之間的關(guān)系，確定哪些特征菌群對(duì)目標(biāo)變量的影響最大，這有助于建立更準(zhǔn)確的預(yù)測(cè)模型。另外，檢測(cè)多個(gè)特征菌群之間是否存在高度相關(guān)性［23］，這種情況可能導(dǎo)致模型過(guò)擬合或不穩(wěn)定，同時(shí)，需要注意避免選擇過(guò)多的特征，以避免過(guò)擬合和降低模型的泛化能力。因此，在選擇特征時(shí)，需要綜合考慮各個(gè)特征菌群的相關(guān)性、重要性和可解釋性等因素，選擇最具有代表性的菌群進(jìn)行建模。

圖6 3種疾病數(shù)據(jù)特征相關(guān)性分析Fig. 6 Correlation analysis of three disease data features

2.2 加權(quán)平均融合模型的評(píng)價(jià)

將加權(quán)融合模型與其他2種模型融合方法（軟投票、Stacking）的性能進(jìn)行了基準(zhǔn)測(cè)試。使用肝硬化、2型糖尿病和肥胖癥數(shù)據(jù)集交叉驗(yàn)證了模型的準(zhǔn)確性，方便與現(xiàn)有的模型進(jìn)行比較。在表3中，對(duì)數(shù)據(jù)使用T-SNE降維，加權(quán)平均模型在肝硬化數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5901，在2型糖尿病數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5651，在肥胖癥數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.3871。

表3 經(jīng)過(guò)T-SNE降維后模型在3種數(shù)據(jù)集上交叉驗(yàn)證的結(jié)果Table 3 Cross validation results of the model on three datasets after T-SNE dimensionality reduction

對(duì)于這些數(shù)據(jù)集，使用隨機(jī)森林篩選數(shù)據(jù)特征，設(shè)定特征重要性閾值，將選擇后特征作為模型的輸入，在表4中，加權(quán)平均模型在肝硬化數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.9286，在2型糖尿病數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.6521，在肥胖癥數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5747。

表4 經(jīng)過(guò)特征選擇后模型在3種數(shù)據(jù)集上交叉驗(yàn)證的結(jié)果Table 4 Cross validation results of the model on three datasets after feature selection

比較模型在經(jīng)過(guò)T-SNE降維和隨機(jī)森林特征篩選后的效果，發(fā)現(xiàn)經(jīng)過(guò)降維后的數(shù)據(jù)特征會(huì)影響到分類(lèi)模型原本的效果，可能是因?yàn)門(mén)-SNE對(duì)數(shù)據(jù)的處理比較復(fù)雜，需要調(diào)整的參數(shù)較多，容易出現(xiàn)“擁擠”問(wèn)題，并且T-SNE只能處理連續(xù)型數(shù)據(jù)，不能處理離散型數(shù)據(jù)，而隨機(jī)森林特征篩選則不受這個(gè)限制。因此，隨機(jī)森林特征篩選相較于T-SNE降維具有更好的效果。

為了比較3種融合模型的擬合效果，對(duì)經(jīng)過(guò)特征篩選和T-SNE降維的3種數(shù)據(jù)集中不同融合模型的AUC值進(jìn)行數(shù)據(jù)可視化。從圖7中可以看出，在使用隨機(jī)森林進(jìn)行特征篩選前加權(quán)平均的ROC曲線下的面積效果最好，經(jīng)過(guò)隨機(jī)森林模型的特征篩選后，軟投票和加權(quán)平均的ROC曲線下的面積效果最好，故加權(quán)平均融合模型在進(jìn)行特征選擇前后的綜合性能要優(yōu)于其余融合模型，是3種融合方法中表現(xiàn)最佳的。

圖7 融合模型ROC曲線下的面積圖Fig. 7 Area chart under ROC curve of fusion model

本文使用多種模型進(jìn)行宿主表型預(yù)測(cè)，包括3種單一子模型和3種融合模型，以及K近鄰、邏輯回歸2種適用于宿主表型預(yù)測(cè)的機(jī)器學(xué)習(xí)模型。單一模型的預(yù)測(cè)結(jié)果在表5中展示，這些對(duì)比分析旨在證明加權(quán)平均融合模型的準(zhǔn)確性和有效性。

表5 單一模型預(yù)測(cè)結(jié)果Table 5 Prediction results of single model

2.3 加權(quán)平均模型中3種疾病數(shù)據(jù)各特征細(xì)菌的重要程度

使用隨機(jī)森林算法來(lái)訓(xùn)練特征篩選模型，并根據(jù)特征的重要性繪制特征重要性圖（圖8），對(duì)于加權(quán)平均模型，每個(gè)特征的重要性可以通過(guò)對(duì)該特征的權(quán)重進(jìn)行分析確定。在3種疾病數(shù)據(jù)中，每個(gè)特征代表不同的細(xì)菌。在確定每個(gè)特征的重要性時(shí)，要考慮以下3個(gè)因素。①權(quán)重大小。加權(quán)平均模型中每個(gè)特征的權(quán)重表示其在模型中的重要性。權(quán)重越大，特征對(duì)模型的影響越大。②相關(guān)性。特征之間的相關(guān)性也會(huì)影響其在模型中的重要性。如果2個(gè)特征高度相關(guān)，它們的權(quán)重可能會(huì)減少。③數(shù)據(jù)分布。特征在數(shù)據(jù)集中的分布也會(huì)影響其重要性。如果一個(gè)特征在數(shù)據(jù)集中出現(xiàn)的頻率很高，那么它對(duì)模型的影響可能會(huì)更大。

圖8 3種數(shù)據(jù)在模型中特征細(xì)菌的重要性Fig. 8 The importance of three types of data in characteristic bacteria in models

從圖8可以看出，在肝硬化數(shù)據(jù)中韋榮氏球菌、嗜血桿菌、鏈球菌等特征菌群的重要程度較高，消化鏈球菌、雙歧桿菌、糞芽孢菌等特征菌群在糖尿病數(shù)據(jù)中占有較高的特征重要性，而對(duì)于肥胖癥數(shù)據(jù)，厭氧棍狀菌、羅氏菌、罕見(jiàn)小球菌等特征菌群具有較高的重要性。此外，篩選出的特征菌群并不只存在于一種疾病中，特定的菌群可以與多種疾病相關(guān)聯(lián)，因此在研究微生物菌群與疾病之間的關(guān)系時(shí)，要考慮不同疾病之間微生物群落的共性和差異性，從而可以更好地理解微生物群落與疾病之間的關(guān)系。

3 討論

在3種疾病數(shù)據(jù)中，使用隨機(jī)森林的方法能夠篩選出多種特征菌群，比如消化鏈球菌、厭氧棍狀菌和韋榮氏球菌。較之于2型糖尿病患者，消化鏈球菌可能更有益。2型糖尿病是一種慢性疾病，通常與胰島素抵抗和胰島素缺乏有關(guān)。胰島素抵抗意味著身體無(wú)法有效地利用胰島素，而胰島素缺乏則可能導(dǎo)致血糖水平升高。研究表明，消化鏈球菌可以代謝產(chǎn)生乳酸，而這種酸可以提高胰島素敏感性［24］。對(duì)于肥胖癥來(lái)說(shuō)，厭氧棍狀菌是一種有益的腸道菌群，它們?cè)谌狈ρ鯕獾沫h(huán)境中生長(zhǎng)繁殖。研究表明，肥胖癥患者腸道中的厭氧棍狀菌數(shù)量減少，這可能導(dǎo)致代謝疾病的產(chǎn)生。而通過(guò)增加厭氧棍狀菌的攝入量，可以改善肥胖癥患者的腸道菌群平衡，降低代謝疾病的風(fēng)險(xiǎn)［25］。另外，韋榮氏球菌可能有助于改善肝硬化患者的健康狀況。一項(xiàng)研究表明，肝硬化患者腸道中的韋榮氏球菌數(shù)量減少，這可能導(dǎo)致腸道屏障的受損和炎癥反應(yīng)的增加［26］。需要注意的是，目前關(guān)于特征菌群在對(duì)應(yīng)疾病上發(fā)揮的作用還需要更多的研究來(lái)證實(shí)特征菌群對(duì)疾病患者的實(shí)際益處。這些研究都證明了本文基于隨機(jī)森林方法篩選出多種特征菌群的基礎(chǔ)上，構(gòu)建融合疾病診斷模型的合理性。

本研究通過(guò)對(duì)3種疾病的宏基因測(cè)序數(shù)據(jù)進(jìn)行疾病預(yù)測(cè)建模和特征篩選，分別選擇出與各種疾病發(fā)生發(fā)展相關(guān)的菌群特征?；陔S機(jī)森林模型篩選出的特征菌群，再使用加權(quán)平均融合方法，建立不同疾病的輔助診斷模型，同時(shí)對(duì)比了MetAML工具［9］所使用的SVM分類(lèi)模型，盡管在肥胖癥數(shù)據(jù)集上，該模型的AUC值要大于加權(quán)平均模型。但在肝硬化和糖尿病數(shù)據(jù)集上，該模型的AUC值要小于加權(quán)平均模型。對(duì)比發(fā)現(xiàn)SVM模型在不同的數(shù)據(jù)集上的模型預(yù)測(cè)能力要稍弱于加權(quán)平均模型。同時(shí)，加權(quán)平均融合模型選擇的特征菌群的預(yù)測(cè)準(zhǔn)確率相較于投票法和Stacking融合方法是最高的，在3種疾病數(shù)據(jù)劃分的訓(xùn)練集和測(cè)試集上均能保持相對(duì)較好的預(yù)測(cè)準(zhǔn)確率。使用加權(quán)平均融合模型，可以做到進(jìn)一步聯(lián)系腸道菌群與患者表型，再結(jié)合隨機(jī)森林方法構(gòu)建的特征菌群篩選模型，進(jìn)一步加快特征菌群在日常疾病篩查診斷上的使用?？傮w來(lái)說(shuō)，加權(quán)平均模型為識(shí)別與疾病相關(guān)的微生物特征和開(kāi)發(fā)用于早期檢測(cè)和預(yù)防相關(guān)疾病的非侵入性診斷工具提供了一種輔助方法。

本文在研究過(guò)程中仍存在一定的不足，例如所獲取的疾病數(shù)據(jù)量有限，未能充分考慮疾病數(shù)據(jù)樣本量對(duì)模型的影響。因此，下一步的研究需要擴(kuò)大數(shù)據(jù)收集的疾病種類(lèi)，以涵蓋更廣泛的疾病，從而提高融合模型的覆蓋面和適用性，更全面地驗(yàn)證融合模型的效果，提高模型的準(zhǔn)確性和泛化能力。