亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的微生物溶解有機(jī)碳含量估測

        2023-08-04 05:43:06馬云鵬朱靜崔興華
        生物技術(shù)進(jìn)展 2023年4期
        關(guān)鍵詞:特征模型研究

        馬云鵬 , 朱靜 , 崔興華

        新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052

        微生物群落在不同的生態(tài)系統(tǒng)中發(fā)揮重要的作用,雖然微生物群系控制著許多宏觀性質(zhì),但闡明特定微生物與生態(tài)系統(tǒng)功能之間的關(guān)系仍然是生態(tài)學(xué)中一個(gè)復(fù)雜的問題。第二代DNA 測序技術(shù)降低了微生物群落中宏基因組數(shù)據(jù)的獲取難度,使得利用微生物探究宏觀性質(zhì)變化成為可能。然而,微生物數(shù)據(jù)的分析也存在一定難度,每個(gè)研究只采用了少量樣本,而且產(chǎn)生的測序結(jié)果通常都是高維、稀疏的數(shù)據(jù)[1]。

        隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)技術(shù)提供了一種分析高維數(shù)據(jù)的新方法[2-3],并可用于闡明微生物菌群與環(huán)境屬性及宿主表型之間的關(guān)系。研究顯示,利用機(jī)器學(xué)習(xí)的隨機(jī)森林模型和使用微生物菌群數(shù)據(jù)可以有效鑒定棲息地、宿主和疾病狀態(tài),并證明機(jī)器學(xué)習(xí)模型分類準(zhǔn)確性較高[4];Zeller 等[5]利用線性回歸模型結(jié)合微生物組數(shù)據(jù),可以有效區(qū)分患者;Ning 等[6]利用支持向量機(jī)模型可以有效對口腔微生物群落進(jìn)行分類;Lo 等[7]利用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合微生物組數(shù)據(jù)可以預(yù)測宿主的健康狀態(tài);Bokulich等[8]認(rèn)為機(jī)器學(xué)習(xí)結(jié)合微生物組數(shù)據(jù)不僅可以用于分類問題,還可以用于回歸問題,相關(guān)機(jī)器學(xué)習(xí)算法也可用于篩選微生物組數(shù)據(jù)重要特征,揭示相關(guān)微生物組數(shù)據(jù)與目標(biāo)變量的重要程度,并從機(jī)器學(xué)習(xí)的角度為了解微生物組產(chǎn)生的影響提供一種新的視角。

        目前大部分的微生物組數(shù)據(jù)研究主要是探究宿主表型預(yù)測,以及微生物自身及相互之間產(chǎn)生的影響。最近的研究表明,土壤中含有大量微生物[9],增溫、森林植被、有機(jī)肥等均會影響土壤中的微生物數(shù)量,進(jìn)而影響溶解有機(jī)碳(dissolved organic carbon,DOC)含量[10-13]。研究證明細(xì)菌微生物群落在碳循環(huán)中發(fā)揮重要的作用,并對土壤中DOC 的豐度產(chǎn)生重要影響[14],且第二代測序技術(shù)應(yīng)用的普及為利用細(xì)菌微生物操作分類單元(operational taxonomic units,OTU)豐度數(shù)據(jù)預(yù)測所產(chǎn)生的溶解有機(jī)碳提供了可能。OTU 豐度單元是最常用的依據(jù)微生物組數(shù)據(jù)利用機(jī)器學(xué)習(xí)預(yù)測目標(biāo)情況的輸入特征,在生物信息學(xué)中為了便于對菌群進(jìn)行分析,需要人為地對原始16S rRNA基因數(shù)據(jù)進(jìn)行聚類操作。根據(jù)不同的相似度水平,對所有的測序數(shù)據(jù)進(jìn)行OTU 劃分,一般情況下序列間相似性>97%可以認(rèn)定為同一個(gè)種,即一個(gè)OTU 都是同屬一個(gè)種的微生物。但是微生物組數(shù)據(jù)樣本的數(shù)量一般遠(yuǎn)小于OTU 豐度數(shù)據(jù),造成數(shù)據(jù)高維的特點(diǎn),傳統(tǒng)的統(tǒng)計(jì)學(xué)方法難以有效地對高維數(shù)據(jù)進(jìn)行處理,而機(jī)器學(xué)習(xí)可以從復(fù)雜、高維、大量的數(shù)據(jù)中進(jìn)行學(xué)習(xí),進(jìn)而用于闡明微生物菌群與目標(biāo)屬性之間的聯(lián)系[15]。

        本研究應(yīng)用常見的12 種機(jī)器學(xué)習(xí)模型,根據(jù)細(xì)菌微生物菌群豐度預(yù)測來自植物凋落物分解的DOC 含量,其中細(xì)菌微生物菌群的豐度被視為模型特征/自變量,DOC 含量被視為模型的目標(biāo)/因變量。所有數(shù)據(jù)用于機(jī)器學(xué)習(xí),選擇預(yù)測精度較優(yōu)的前3 種機(jī)器學(xué)習(xí)模型作為基模型,利用包裝法、嵌套法及包裝-嵌套融合方法進(jìn)行特征選擇,選取對DOC 含量影響最大的特征子集,基于篩選出來的最優(yōu)特征子集構(gòu)建溶解有機(jī)碳估測模型,發(fā)現(xiàn)梯度提升決策樹(gradient boosting decision tree,GBDT)模型具有最高精度,并對模型參數(shù)進(jìn)行網(wǎng)格參數(shù)搜索優(yōu)化,建立了DOC 估測模型,以期為利用細(xì)菌微生物估測DOC含量提供新方法。

        1 GBDT建模與方法

        1.1 GBDT建模

        GBDT 算法是一種使用分類與回歸樹(calssification and regression tree,CART)作為決策樹的Boosting 集成學(xué)習(xí)算法,既可以處理回歸問題也可以處理分類問題,是利用加法模型和前向分布算法實(shí)現(xiàn)學(xué)習(xí)的優(yōu)化過程,即GBDT 是一系列CART 回歸樹的加法組合,通過新建一棵樹來擬合之前預(yù)測值與目標(biāo)值的“殘差”,即Boosting 集成學(xué)習(xí)的核心思想為將一系列弱學(xué)習(xí)器進(jìn)行組合,構(gòu)成一個(gè)強(qiáng)學(xué)習(xí)器。GBDT建模如下。

        式中,N為模型訓(xùn)練數(shù)據(jù)的樣本數(shù);yi˙為模型輸出值;c為使得損失函數(shù)達(dá)到最小的常數(shù)。

        令迭代次數(shù)為m=1,2,…,M

        ①對樣本i=1,2,…,N,計(jì)算損失函數(shù)在負(fù)梯度的值,作為殘差估計(jì)。

        式中,yi˙為模型輸出值;f(xi)為迭代次數(shù)m次的上一次預(yù)測值。

        ②對rmi擬合一個(gè)回歸樹,得到第m棵樹的葉節(jié)點(diǎn)區(qū)域Rmi,j=1,2,…,J,用以擬合殘差近似值。

        ③對j=1,2,…,J,利用線性搜索估計(jì)葉節(jié)點(diǎn)區(qū)域的值,使損失函數(shù)極小化。

        式中,yi˙為模型輸出值;fm-1(xi)為迭代次數(shù)m次的上一次第i個(gè)樣本的預(yù)測值;γm為迭代次數(shù)m次時(shí)的節(jié)點(diǎn)殘差擬合值。

        ④更新回歸樹,計(jì)算公式如公式(4)。

        式中,fm-1(x) 為迭代m-1 次的預(yù)測值;γmj為迭代m次第j個(gè)葉節(jié)點(diǎn)的殘差擬合值;I為指示函數(shù)。

        最終輸出模型,見公式(5)。

        式中,fM(x)為迭代M次最終的預(yù)測模型。

        1.2 數(shù)據(jù)與方法

        1.2.1數(shù)據(jù)預(yù)處理 本研究使用的數(shù)據(jù)來源于Johansen 等[16]研究土壤微生物在植物凋落物分解產(chǎn)生的碳流量作用相關(guān)實(shí)驗(yàn),數(shù)據(jù)已存入NCBI序列檔案(序列號:SRP151768)。在Johansen 等[16]的研究中,將收集到的土壤樣本中的微生物群落,接種到3 個(gè)含有無菌沙粒和松木凋落物的相同微環(huán)境中,并在25 ℃下孵育44 d。第44 天,測定微環(huán)境中DOC 含量,從相同微環(huán)境的一個(gè)子集中提取DNA,并在Illumina MiSeq 上對16S rRNA 基因擴(kuò)增子進(jìn)行測序,通過對308 個(gè)樣品的細(xì)菌群落譜進(jìn)行細(xì)化,得到了1 023 條序列,共2 521 個(gè)OTU豐度(表1)。

        表1 OTU部分樣表Table 1 OTU partial sample table

        首先對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。原始OTU數(shù)據(jù)具有高維、稀疏的特征,也造就了大量空值,將原始數(shù)據(jù)中所有樣本共有的OTU 豐度單元數(shù)據(jù)為0 的列進(jìn)行刪除,刪除空缺列后得到1 709 個(gè)特定分類單元的豐度數(shù)據(jù),因在原始的數(shù)據(jù)中OTU 豐度有的高達(dá)上萬,有的為零,很容易出現(xiàn)“大數(shù)吃小數(shù)”的問題,在機(jī)器學(xué)習(xí)中算法模型容易忽略豐度較小的OTU 特征,因此需要將原始數(shù)據(jù)進(jìn)行歸一化處理,見公式(6)。

        式中,x*為經(jīng)過歸一化后得到的數(shù)據(jù);x為特征數(shù)據(jù);xmin為特征數(shù)據(jù)的最小值;xmax為特征數(shù)據(jù)的最大值。將數(shù)據(jù)進(jìn)行歸一化處理之后可以消除量級的影響,使結(jié)果映射到[0,1]之間,進(jìn)行歸一化后的數(shù)據(jù)用于機(jī)器學(xué)習(xí)訓(xùn)練,可以有效提高模型的收斂速度及預(yù)測精度。

        1.2.2特征選擇 本研究中主要使用了Embedded 嵌入法中的特征重要性度量(feature importance select,F(xiàn)IS)、Wrapper 包裝法中的遞歸消除特征(recursive feature elimination,RFE)及包裝法-嵌入法融合這3種特征選擇方法。

        嵌入法首先使用基學(xué)習(xí)模型進(jìn)行訓(xùn)練,利用基學(xué)習(xí)模型得到特征的權(quán)值系數(shù),然后根據(jù)權(quán)值系數(shù)從大到小的選擇特征。嵌入法是一種可以自己選擇使用哪些特征的方法,即算法訓(xùn)練和篩選特征同時(shí)進(jìn)行(圖1)。

        圖1 嵌入法特征選擇過程Fig. 1 Feature selection process of embedding method

        包裝法與嵌入法類似,也是通過自身算法對特征進(jìn)行選擇,通過目標(biāo)函數(shù)來獲得特征的重要性,并在每次迭代時(shí)保留最佳特征或者剔除最差特征,并在下一次迭代時(shí)使用以前未使用過的特征來構(gòu)建模型,直至將所有特征用盡,然后根據(jù)保留或剔除特征的順序來選擇一個(gè)最佳特征子集(圖2)。

        圖2 包裝法特征選擇過程Fig. 2 Feature selection process of wrapper method

        嵌入法考慮單個(gè)特征對目標(biāo)的影響,模型簡單,計(jì)算開銷比較小,包裝法考慮特征子集對目標(biāo)的影響程度,彌補(bǔ)了嵌入法針對特征篩選不足的情況,但是反復(fù)構(gòu)建模型計(jì)算開銷比較大。因此本研究首先使用嵌入法篩選出對目標(biāo)變量影響比較大的特征,然后利用包裝法對嵌入法篩選出來的特征進(jìn)行二次特征篩選(圖3)。

        圖3 包裝-嵌套融合法特征選擇過程Fig. 3 Feature selection process of wrapper-embedded fusion method

        圖4 10折交叉驗(yàn)證示意圖Fig. 4 10-fold cross-validation schematic diagram

        1.2.3交叉驗(yàn)證 交叉驗(yàn)證法(cross validation)是將數(shù)據(jù)集D 均勻的劃為k份且互斥的子集,循環(huán)每次用k-1 個(gè)子集的并集當(dāng)作訓(xùn)練集,余下的子集作為測試集,即可進(jìn)行k次訓(xùn)練和測試。交叉驗(yàn)證相比較原始的一次性劃分?jǐn)?shù)據(jù)有諸多優(yōu)點(diǎn),如可以明顯降低一次劃分所造成的隨機(jī)性;模型進(jìn)行k次訓(xùn)練可以充分的利用原始數(shù)據(jù)并且提高模型的泛化能力。

        1.2.4評價(jià)指標(biāo) 評價(jià)指標(biāo)采用均方根誤差(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)及線性擬合優(yōu)度(coefficient of determination,R2)來評價(jià)本研究的模型。

        RMSE 為預(yù)測值和真實(shí)值之間誤差平方和的平均數(shù)的平方根,用來衡量預(yù)測值同真值之間的偏差,見公式(7)。

        式中,y為真實(shí)值;y^ 為預(yù)測值;m為數(shù)據(jù)量;yi為第i條數(shù)據(jù)的DOC 實(shí)測值;y^i為第i條數(shù)據(jù)的DOC預(yù)測值。

        MAE表示預(yù)測值和真實(shí)值之間絕對誤差的平均值,能反映預(yù)測值誤差的實(shí)際情況,見公式(8)。

        式中,y為真實(shí)值;y^ 為預(yù)測值;m為數(shù)據(jù)量;yi為第i條數(shù)據(jù)的DOC 實(shí)測值;y^i為第i條數(shù)據(jù)的DOC預(yù)測值。

        R2的取值范圍為[0,1]之間,越接近于1,說明模型的擬合效果越好,見公式(9)。

        式中,m為數(shù)據(jù)量;yi為第i條數(shù)據(jù)的DOC 實(shí)測值;y^i為第i條數(shù)據(jù)的DOC 預(yù)測值,yˉ為m條數(shù)據(jù)的DOC平均值。

        1.2.5實(shí)驗(yàn)方案 ①將人工剔除空值的OTU 豐度數(shù)據(jù)(共1 709 個(gè)特征)歸一化后應(yīng)用于初始的12 種機(jī)器學(xué)習(xí)方法。將308 個(gè)樣本按照10 倍交叉驗(yàn)證法分成訓(xùn)練集和測試集,訓(xùn)練集用于機(jī)器學(xué)習(xí)訓(xùn)練,測試集用于評估機(jī)器學(xué)習(xí)模型,由于數(shù)據(jù)量小而且特征多,因此為了避免過擬合現(xiàn)象的發(fā)生,使用10 倍交叉驗(yàn)證的方式應(yīng)用于原始數(shù)據(jù)進(jìn)行模型參數(shù)調(diào)參,可以檢測模型的泛化性和穩(wěn)定性,讓模型的輸出結(jié)果更為可靠。如果只將數(shù)據(jù)進(jìn)行簡單的人為劃分,則會增加樣本劃分的偶然性,使得預(yù)測模型變得不準(zhǔn)確。將數(shù)據(jù)進(jìn)行10折劃分后,所有的數(shù)據(jù)都可用于模型訓(xùn)練,增加了數(shù)據(jù)利用率,同時(shí)通過10 折交叉驗(yàn)證來確定模型的參數(shù),是經(jīng)過10 次比較得出的相對最優(yōu)模型,可以一定程度上防止過擬合和欠擬合現(xiàn)象的發(fā)生[17]。所有機(jī)器學(xué)習(xí)模型構(gòu)建使用Python 語言,應(yīng)用Pycharm 軟件結(jié)合sklearn 庫,各機(jī)器學(xué)習(xí)模型使用默認(rèn)參數(shù)。②將初始的12 種機(jī)器學(xué)習(xí)方法,依照RMSE、MAE、R2這3 種評價(jià)指標(biāo)選擇前3 種較優(yōu)的機(jī)器學(xué)習(xí)模型作為基學(xué)習(xí)模型用于特征選擇,結(jié)合包裝法、嵌入法、包裝-嵌入融合方法選取最優(yōu)的特征子集。③將選取的最優(yōu)特征子集用于初始訓(xùn)練表現(xiàn)最好的機(jī)器學(xué)習(xí)模型,使用網(wǎng)格搜索(grid search,GS)參數(shù)優(yōu)化方法進(jìn)行參數(shù)尋優(yōu),從而確定預(yù)測模型的最優(yōu)參數(shù)。

        2 結(jié)果與分析

        2.1 機(jī)器學(xué)習(xí)預(yù)測結(jié)果

        由表2 可知,應(yīng)用12 種機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測,GBDT 表現(xiàn)最優(yōu),選取較優(yōu)的3 種模型,即GBDT、隨機(jī)森林(random forest,RF)和極限樹(extratree,ET)作為基模型用于包裝法的遞歸消除特征(recursive feature elimination,RFE),選擇GBDT用于嵌入法的特征重要性度量(feature importance select,F(xiàn)IS)以及嵌入-包裝融合法(RFE-FIS)作為對比。

        表2 多種機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果Table 2 Prediction results of multiple machine learning models

        2.2 基模型不同的遞歸消除特征結(jié)果

        以GBDT 為基模型的遞歸消除特征得到112個(gè)OTU 豐度單元評分最高(圖5)。以RF 為基模型的遞歸消除特征得到88 個(gè)OTU 豐度單元評分最高(圖6)。以ET 為基模型的遞歸消除特征得到141 個(gè)OTU 豐度單元評分最高(圖7)。以上結(jié)果表明基模型不同則通過遞歸消除特征選取的最佳特征子集不同,應(yīng)用遞歸消除特征來進(jìn)行特征選擇時(shí),基模型選擇至關(guān)重要。

        圖5 RFE(GBDT)特征選擇Fig. 5 RFE (GBDT) feature selection

        圖6 RFE(RF)特征選擇Fig. 6 RFE (RF) feature selection

        圖7 RFE(ET)特征選擇Fig. 7 RFE (ET) feature selection

        2.3 融合模型選擇特征結(jié)果

        使用GBDT 作為基模型用于特征重要性選擇[FIS(GBDT)]得到246 個(gè)OTU 豐度單元特征最為重要,然后使用遞歸消除特征以GBDT 為基模型進(jìn)行二次特征選擇得到140個(gè)OTU豐度單元評分最高(圖8)。篩選得到的140 個(gè)菌群操作分類單元具體編號如表3所示。結(jié)果表明,經(jīng)過特征重要性度量篩選后,對DOC有影響的特征有246個(gè),但是特征重要性度量只考慮了單個(gè)特征對DOC的影響,未考慮多特征對DOC的影響,因此使用遞歸消除特征進(jìn)行二次特征選擇,可對特征進(jìn)一步縮減,得到了包含140 個(gè)特征的最優(yōu)特征子集。圖8 也表明140個(gè)特征子集的模型交叉驗(yàn)證得分最高。

        圖8 RFE-FIS(GBDT)特征選擇Fig. 8 RFE-FIS (GBDT) feature select

        表3 REF-FIS(GBDT)特征選擇OTU表Table 3 RFE-FIS (GBDT) feature selection OTU table

        2.4 預(yù)測結(jié)果分析

        將篩選之后得到的特征用于較優(yōu)的GBDT、RF 及ET 模型可得如表4 所示的預(yù)測結(jié)果。進(jìn)一步分析表明,GBDT 算法模型應(yīng)用經(jīng)過二次特征選擇的140 個(gè)特征取得較優(yōu)的預(yù)測結(jié)果,利用網(wǎng)格參數(shù)搜索法進(jìn)一步提升模型的精度,網(wǎng)格搜索法在GBDT 模型的參數(shù)空間中對參數(shù)值進(jìn)行分割,化為網(wǎng)格,以嘗試每種參數(shù),獲得模型的最優(yōu)參數(shù)解。sklearn 庫中GBDT 算法模型的默認(rèn)參數(shù)學(xué)習(xí)率(learning_rate)為0.1,構(gòu)造回歸樹的數(shù)量(n_estimators)為100,最大數(shù)深(max_depth)為3,對模型影響較大的3 種參數(shù)使用網(wǎng)格搜索如表5所示。經(jīng)過網(wǎng)格搜索得到GBDT 算法模型的最優(yōu)參數(shù)為學(xué)習(xí)率0.07,樹的數(shù)量574,最大深度3,優(yōu)化前后的對比精度如表6 所示,優(yōu)化后預(yù)測結(jié)果與真實(shí)值對比如圖9 所示,經(jīng)歷過特征選擇和參數(shù)優(yōu)化后的GBDT 模型預(yù)測值與真實(shí)值的線性擬合效果如圖10 所示。以上結(jié)果表明,經(jīng)歷過特征選擇及參數(shù)優(yōu)化的算法模型對比初始模型的預(yù)測精度明顯提高。根據(jù)測試數(shù)據(jù)可知,在3 種評價(jià)指標(biāo)下進(jìn)行過數(shù)據(jù)特征選擇以及模型參數(shù)優(yōu)化后的GBDT 模型達(dá)到了最優(yōu)的預(yù)測精度,相比應(yīng)用最初原始的1 709個(gè)特征,經(jīng)過二次特征選擇及參數(shù)優(yōu)化后的GBDT 模型精度得到顯著提高,篩選出了對DOC 影響至關(guān)重要的140 個(gè)OTU 豐度特征,降低了特征數(shù),使得該模型的預(yù)測值最為接近實(shí)際值。

        圖9 預(yù)測值與真實(shí)值對比圖Fig. 9 Comparison figure between predicted and true values

        圖10 線性擬合效果圖Fig. 10 Linear fitting effect draw

        表4 模型預(yù)測結(jié)果Table 4 Model prediction results

        表5 模型參數(shù)網(wǎng)格搜索范圍Table 5 Model parameter grid search range

        表6 參數(shù)優(yōu)化后精度對比Table 6 Precision comparison after parameter optimization

        3 討論

        Johansen 等[16]的研究證明,細(xì)菌群落相比真菌群落與溶解有機(jī)碳之間有更強(qiáng)的聯(lián)系;Thompson 等[18]利用Johansen 等[16]的數(shù)據(jù)通過隨機(jī)森林的特征重要性度量、人工神經(jīng)網(wǎng)絡(luò)以及指示種分析3 種特征選擇方法,得到共有的86 個(gè)OTU 特征。應(yīng)用隨機(jī)森林結(jié)合篩選得到的86 個(gè)特征預(yù)測DOC 的含量,預(yù)測值與真實(shí)值的皮爾遜相關(guān)系數(shù)為0.636,線性擬合優(yōu)度為0.404 5,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)得到的預(yù)測值與真實(shí)值的皮爾遜相關(guān)系數(shù)為0.676,線性擬合優(yōu)度為0.456 9。本研究的結(jié)果與Thompson 等[18]的結(jié)果相似,證明機(jī)器學(xué)習(xí)可以作為高維稀疏微生物數(shù)據(jù)的特征選擇工具,以及利用細(xì)菌微生物菌群反推溶解有機(jī)碳含量的一種技術(shù)手段,并取得了較好的效果,也從側(cè)面印證了Johansen等[16]研究結(jié)果的科學(xué)性。

        本研究與先前研究不同點(diǎn)在于:通過對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和特征選擇,并構(gòu)建了12 種機(jī)器學(xué)習(xí)模型進(jìn)行對比分析,超過了Thompson 等[18]研究的2種機(jī)器學(xué)習(xí)方法;使用了5種特征選擇方法,多于Thompson 等[18]使用的3 種方法;Thompson 等[18]將數(shù)據(jù)特征降低到86 個(gè),本研究將數(shù)據(jù)特征降低到140 個(gè),經(jīng)過參數(shù)優(yōu)化后的GBDT 模型表現(xiàn)最優(yōu),DOC 預(yù)測值與真實(shí)值的皮爾遜相關(guān)系數(shù)為0.812,線性擬合優(yōu)度為0.659 9,優(yōu)于Thompson 等[18]的研究;Thompson 等[18]的研究選擇了257個(gè)樣本作為訓(xùn)練集,51個(gè)樣本作為測試集,這樣簡單的劃分具有較大的隨意性,本研究為了減少樣本劃分對實(shí)驗(yàn)?zāi)P偷挠绊?,同時(shí)降低模型過擬合的風(fēng)險(xiǎn)使用了十折交叉驗(yàn)證,使得結(jié)果更具有說服力。

        通過網(wǎng)格搜索對GBDT 模型進(jìn)行參數(shù)優(yōu)化,最優(yōu)參數(shù)為學(xué)習(xí)率0.07,樹的數(shù)量574,數(shù)模型的最大深度3,此時(shí)模型10 折交叉驗(yàn)證的均方根誤差為1.722 0,平均絕對誤差為1.293 4,線性回歸擬合優(yōu)度為0.659 9,模型預(yù)測精度比參數(shù)優(yōu)化前明顯提高。從機(jī)器學(xué)習(xí)的角度解釋了細(xì)菌微生物菌群中特定的140 個(gè)操作分類單元與溶解有機(jī)碳有較強(qiáng)的關(guān)系,證明僅依靠140 個(gè)OTU 豐度數(shù)據(jù)即可較好地得到溶解有機(jī)碳的估測值,該模型在一定程度上解決了數(shù)據(jù)特征問題,而且也簡化了研究人員的實(shí)驗(yàn)環(huán)節(jié),但是該模型也只是估測,無法達(dá)到Johansen 等[16]真實(shí)實(shí)驗(yàn)所得到的數(shù)據(jù),所以與真實(shí)結(jié)果略有不同,但也為利用細(xì)菌微生物估測溶解有機(jī)碳提供了一種新的方法。

        本研究對細(xì)菌微生物菌群與溶解有機(jī)碳進(jìn)行了初步探索,但仍存在許多重要的問題值得進(jìn)一步研究,如本實(shí)驗(yàn)的數(shù)據(jù)是在實(shí)驗(yàn)室人為設(shè)定條件下得到的測量值,無法真實(shí)模擬野外環(huán)境;雖然樣本數(shù)量足夠微生物學(xué)家研究使用,但是機(jī)器學(xué)習(xí)使用還略有不足;研究數(shù)據(jù)僅考慮細(xì)菌豐度對溶解有機(jī)碳的影響,未考慮時(shí)間進(jìn)程和細(xì)菌豐度之間綜合影響溶解有機(jī)碳含量的關(guān)系等。未來研究需進(jìn)行更多實(shí)地研究以更好地了解野外環(huán)境下的細(xì)菌微生物與溶解有機(jī)碳之間的關(guān)系,以佐證本實(shí)驗(yàn)結(jié)果。隨著實(shí)驗(yàn)樣本量的增加,新興的深度學(xué)習(xí)可以更好地?cái)M合大數(shù)據(jù),發(fā)現(xiàn)更深層次的特征,取得比機(jī)器學(xué)習(xí)更好的預(yù)測效果[19],使得未來依據(jù)細(xì)菌微生物來推測一段時(shí)間內(nèi)溶解有機(jī)碳的變化趨勢成為一種可能。

        綜上所述,未來機(jī)器學(xué)習(xí)將會成為分析微生物菌群與其所產(chǎn)生的影響的一個(gè)重要工具,研究者應(yīng)積極利用新技術(shù),探索兩者之間的結(jié)合點(diǎn),并借助計(jì)算機(jī)強(qiáng)大的計(jì)算能力,使其成為未來微生物菌群分析的重要工具。

        猜你喜歡
        特征模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        EMA伺服控制系統(tǒng)研究
        抓住特征巧觀察
        亚洲av成熟国产一区二区| 国产又色又爽又黄的| 欧美人牲交| vr成人片在线播放网站| 欧美日韩亚洲色图| 亚洲av熟女天堂系列| 日本精品久久不卡一区二区| 品色堂永远免费| 国产精品女同一区二区| av在线免费观看你懂的| 少妇高潮久久蜜柚av| 人人摸人人搞人人透| 蜜臀av免费一区二区三区| 亚洲国产精品国语在线| japanese色国产在线看视频| 国产高清女主播在线观看| 色综合久久中文娱乐网| 亚洲精品无码人妻无码| 特一级熟女毛片免费观看| av在线高清观看亚洲| 亚洲av日韩av天堂久久| 丰满少妇人妻无码专区| 久久婷婷色香五月综合激情| 日韩成人高清不卡av| 国产无套乱子伦精彩是白视频| 国产超碰人人爽人人做人人添| 亚洲精品成人网久久久久久| 国产三级自拍视频在线| 一区二区国产av网站| 性色做爰片在线观看ww| 亚洲国产精品嫩草影院久久| 精品国产午夜久久久久九九| 中文字幕 在线一区二区| 在线观看一区二区三区在线观看| 亚洲av综合色区无码另类小说| 无码人妻精一区二区三区| 婷婷色国产精品视频一区 | 亚洲AV永久青草无码性色av| 青青草视频在线免费视频| 国产精品久久精品第一页| 无码一区二区波多野结衣播放搜索|