亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多組學(xué)數(shù)據(jù)整合分析和應(yīng)用研究綜述

        2021-12-12 02:49:42鐘雅婷林艷梅陳定甲彭昱忠曾遠(yuǎn)鵬
        關(guān)鍵詞:組學(xué)聚類預(yù)測(cè)

        鐘雅婷,林艷梅,陳定甲,彭昱忠,曾遠(yuǎn)鵬

        南寧師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院 科學(xué)計(jì)算與智能信息處理廣西高校重點(diǎn)實(shí)驗(yàn)室,南寧 530100

        隨著人類基因組計(jì)劃的提出及實(shí)施,新的組學(xué)數(shù)據(jù)測(cè)序技術(shù)不斷涌現(xiàn),如,高通量測(cè)序技術(shù)[1],能快速地獲得高維多組學(xué)數(shù)據(jù),為生物醫(yī)學(xué)領(lǐng)域的研究提供了數(shù)據(jù)來(lái)源。

        早期,許多研究都是對(duì)單一組學(xué)進(jìn)行整合分析。然而,由于生物系統(tǒng)本身的復(fù)雜性,無(wú)法通過(guò)單一組學(xué)進(jìn)行完全描述。如:基因組學(xué)雖然已經(jīng)能揭示癌癥患者基因改變的情況,但并不是所有基因變異都會(huì)引起其表達(dá)及功能的改變[2]。因此,簡(jiǎn)單地研究某一層次生物分子變化,難以深入理解復(fù)雜的生物學(xué)過(guò)程,在復(fù)雜疾病中這種情況顯得尤為突出。多組學(xué)數(shù)據(jù)整合分析方法從此孕育而生,它有利于對(duì)生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行全面深入的研究,甚至可以補(bǔ)充任何單一組學(xué)中缺失或不可靠的信息。各種因素促使了組學(xué)研究從單組學(xué)分析向多組學(xué)數(shù)據(jù)整合分析的方向發(fā)展。

        多組學(xué)整合技術(shù)是指結(jié)合兩種或者兩種以上組學(xué)數(shù)據(jù)集,包括基因組學(xué)、表觀基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、微生物組學(xué)、影像組學(xué)等,對(duì)生物樣本進(jìn)行系統(tǒng)研究,從而探究生物系統(tǒng)中多種物質(zhì)之間相互作用。當(dāng)前,國(guó)內(nèi)外已有許多研究者探究了一些先進(jìn)有效的多組學(xué)數(shù)據(jù)整合方法,將多組學(xué)數(shù)據(jù)進(jìn)行整合,能夠從大量而繁雜的多組學(xué)數(shù)據(jù)中找到多源數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),幫助人們?nèi)娴卣J(rèn)識(shí)生命系統(tǒng),對(duì)研究生命科學(xué)問(wèn)題具有重要意義。

        本文綜述了近年來(lái)多組學(xué)數(shù)據(jù)整合分析的方法與應(yīng)用研究進(jìn)展。

        1 數(shù)據(jù)整合方法的概念組織

        數(shù)據(jù)整合是指通過(guò)整合不同類型和不同來(lái)源(如兩個(gè)不同的癌癥數(shù)據(jù)集)的數(shù)據(jù),并使用語(yǔ)義技術(shù)將它們合并為有意義或有價(jià)值的信息。本章按數(shù)據(jù)類型和整合時(shí)機(jī)兩個(gè)角度概述數(shù)據(jù)整合方法。

        1.1 按數(shù)據(jù)類型分類

        按數(shù)據(jù)類型分類,可將組學(xué)數(shù)據(jù)整合方法分為垂直數(shù)據(jù)整合和水平數(shù)據(jù)整合[3-4],如圖1所示。

        圖1 垂直數(shù)據(jù)整合和水平數(shù)據(jù)整合示意圖Fig.1 Schematic diagram of vertical and horizontal data integration

        (1)垂直數(shù)據(jù)整合

        垂直數(shù)據(jù)整合指整合同一實(shí)驗(yàn)、不同組學(xué)數(shù)據(jù),從而關(guān)聯(lián)不同的知識(shí)。

        (2)水平數(shù)據(jù)整合

        水平數(shù)據(jù)整合指整合不同實(shí)驗(yàn)、同一組學(xué)數(shù)據(jù),從而關(guān)聯(lián)不同的知識(shí)。

        1.2 按整合時(shí)機(jī)分類

        從技術(shù)上講,根據(jù)整合時(shí)機(jī)分類,數(shù)據(jù)整合可分為早期整合、中期整合和后期整合三種不同類型,表1為三類方法的過(guò)程步驟及優(yōu)缺點(diǎn)對(duì)比。

        (1)早期整合

        早期整合指先將數(shù)據(jù)集轉(zhuǎn)換為單個(gè)基于特征的表或基于圖的表示,然后采用原始或降維處理后的不同數(shù)據(jù)組合,最后輸入機(jī)器學(xué)習(xí)模型得到預(yù)測(cè)結(jié)果[5]。它的優(yōu)點(diǎn)是只要數(shù)據(jù)無(wú)冗余,都能夠考慮特征之間的相關(guān)性。缺點(diǎn)是它忽略了每種組學(xué)數(shù)據(jù)類型的獨(dú)特分布,權(quán)重需要規(guī)范化,增加了輸入數(shù)據(jù)的維度。因此,利用早期整合方法整合多組學(xué)數(shù)據(jù)時(shí),必須設(shè)法減輕這些問(wèn)題的影響。如文獻(xiàn)[6]提出對(duì)組學(xué)數(shù)據(jù)預(yù)先進(jìn)行特征選擇并降維的方法,解決該問(wèn)題。

        (2)中期整合

        中期整合是指保留數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu),并僅在分析階段合并它們,是一種通過(guò)聯(lián)合模型將其融合的算法,能夠解決數(shù)據(jù)集多樣性問(wèn)題[5]。該方法的優(yōu)點(diǎn)是具有較高的性能,缺點(diǎn)是不能與現(xiàn)在的軟件一起使用,需要研發(fā)新的算法組合數(shù)據(jù)。

        (3)后期整合

        后期整合指先讓每個(gè)組學(xué)數(shù)據(jù)類型分別學(xué)習(xí)特征,形成多個(gè)第一級(jí)訓(xùn)練模型,然后將第一級(jí)訓(xùn)練得到的特征整合,用作分類器或回歸器的輸入[7]。它的優(yōu)點(diǎn)是每種數(shù)據(jù)類型采用單組學(xué)標(biāo)準(zhǔn)化,不會(huì)增加輸入空間的維度。缺點(diǎn)是可靠性低,僅將每種組學(xué)的預(yù)測(cè)結(jié)果整合,挖掘能整合的特征開(kāi)銷大。

        2 多組學(xué)數(shù)據(jù)整合分析方法

        組學(xué)數(shù)據(jù)多是異質(zhì)的,具有不同的類型和格式,因而難以整合[8-9]。探究多組學(xué)數(shù)據(jù)整合的方法,有助于研究生命科學(xué)問(wèn)題,挖掘其中的重要信息。在本章中,將從計(jì)算方法角度綜述近年來(lái)基于統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的多組學(xué)數(shù)據(jù)整合方法。更進(jìn)一步的劃分方法如圖2所示。

        2.1 基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)

        統(tǒng)計(jì)方法是早期人們對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行收集、整合、分析后,根據(jù)其所反應(yīng)的問(wèn)題給出一定結(jié)論的方法。該方法被許多領(lǐng)域廣泛地應(yīng)用,生物學(xué)領(lǐng)域也不例外。

        表1 早、中、后期數(shù)據(jù)整合方法對(duì)比Table 1 Comparison of early,middle and late data integration methods

        圖2 多組學(xué)數(shù)據(jù)整合分析方法分類Fig.2 Classification of multi-omics data integrationanalysis methods

        為整合多組學(xué)數(shù)據(jù),研究者嘗試采用統(tǒng)計(jì)方法進(jìn)行研究,取得了不錯(cuò)的成果。如,Argelaguet等人[10]提出多組學(xué)因子分析的統(tǒng)計(jì)方法(Multi-Omics Factor Analysis,MOFA),根據(jù)幾個(gè)數(shù)據(jù)矩陣在重疊的樣本集上測(cè)量多組學(xué)數(shù)據(jù)類型,由隱藏因素推斷出可解釋的低維數(shù)據(jù)表示,最終能有效地識(shí)別疾病變異的主要驅(qū)動(dòng)因素。

        然而,上述方法遺漏了特征間的非線性關(guān)系,為彌補(bǔ)其不足,許多研究者提出采用最小二乘法及其擴(kuò)展提高性能。Rohart等人[11]擴(kuò)展了偏最小二乘法(Partial Least Squares,PLS)用于多組學(xué)數(shù)據(jù)特征選擇和整合分析的mixOmics R函數(shù)包,專門(mén)用于生物數(shù)據(jù)集的多元分析,以探測(cè)異構(gòu)組學(xué)數(shù)據(jù)集之間的關(guān)系。楊海濤[12]提出GA-CKPLS方法,該方法基于核偏最小二乘法(Kernel Partial Least Squares,KPLS)框架進(jìn)行融合,并使用遺傳算法(Genetic Algorithm,GA)優(yōu)化核參數(shù)和核權(quán)重,提高了整合性能,但其面對(duì)大規(guī)模數(shù)據(jù)時(shí),計(jì)算速度慢。Rantalainen等人[13]基于正交偏最小二乘法(Orthogonal Projection to Latent Structure,OPLS)提出整合代謝組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù)的矩陣方法,發(fā)現(xiàn)了蛋白質(zhì)和代謝物之間存在多種相關(guān)性,它的優(yōu)點(diǎn)是能挖掘被忽略的因素,缺點(diǎn)是不能提供安全可靠的檢測(cè)結(jié)果。

        除了最小二乘法這種統(tǒng)計(jì)方法外,還有許多的統(tǒng)計(jì)方法也被用于多組學(xué)數(shù)據(jù)整合,如計(jì)算相似度矩陣、核函數(shù)等人方法。李啟雄[14]提出MV-SSNMTF(Multi-View Simultaneous Symmetric Non-Negative Matrix Tri-Factorization)算法,該方法采用不同的相似性度量方法生成多個(gè)相似度矩陣,然后將其分解為子矩陣,最后融合不同的公共子矩陣以獲得相似性連接圖,并使用圖切割算法從中準(zhǔn)確地識(shí)別出子類型。其不足之處在于過(guò)度壓縮信息,且隨機(jī)性導(dǎo)致每次結(jié)果不一致。Zhang等人[15]提出線性鄰域正則化的稀疏特征學(xué)習(xí)集成方法(SFLLN)。該方法先通過(guò)稀疏特征學(xué)習(xí)將不同特征空間中藥物的組學(xué)數(shù)據(jù)映射到共同的交互空間中,然后,引入線性鄰域正則化來(lái)描述藥物間的相互作用,其優(yōu)點(diǎn)是具有較高的精度,缺點(diǎn)是調(diào)參耗時(shí)長(zhǎng),這就說(shuō)明了算法仍需改進(jìn)。Li等人[16]提出自適應(yīng)套索的多核懲罰線性混合模型(MKpLMM),不僅可以從組學(xué)數(shù)據(jù)的每一層獲取預(yù)測(cè)效果,還可以通過(guò)多個(gè)核函數(shù)來(lái)獲取組學(xué)數(shù)據(jù)的交互作用,預(yù)測(cè)多層組學(xué)數(shù)據(jù)復(fù)雜性。其優(yōu)點(diǎn)是可容納各種類型的數(shù)據(jù),有助于提高預(yù)測(cè)精度,尤其是同時(shí)應(yīng)用于藥物和ANDI數(shù)據(jù)集時(shí),MKpLMM比其他方法的效果更好。將上述基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)的原理、優(yōu)勢(shì)、局限性和適用場(chǎng)景整理成表2所示。

        表2 基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)對(duì)比Table 2 Integration of multi-omics data comparison based on statistical methods

        綜上所述,基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)在一定程度上比單一組學(xué)數(shù)據(jù)研究的準(zhǔn)確率和分類精度高,有助于挖掘影響生命問(wèn)題的因素。

        然而,不同的統(tǒng)計(jì)方法對(duì)實(shí)驗(yàn)結(jié)果存在一定的影響,如穩(wěn)定性差、計(jì)算速度慢、抗壓能力差、可靠性低等問(wèn)題。除此之外,受計(jì)算資源的限制,統(tǒng)計(jì)方法往往處理的是中小規(guī)模的數(shù)據(jù)集,在大型任務(wù)的處理過(guò)程中仍然需要人為地對(duì)特征進(jìn)行處理。

        因此,為解決統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)的不足,一些研究者開(kāi)始探討將傳統(tǒng)的機(jī)器學(xué)習(xí)方法應(yīng)用于多組學(xué)數(shù)據(jù)的整合。

        2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法

        機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要組成部分,為生物信息學(xué)領(lǐng)域研究生命現(xiàn)象和規(guī)律提供了技術(shù)支持。本節(jié)將從聚類算法、隨機(jī)森林算法、其他機(jī)器學(xué)習(xí)方法等角度綜述基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法。

        2.2.1 基于聚類算法整合多組學(xué)數(shù)據(jù)

        聚類算法(Cluster)的核心是對(duì)一堆觀測(cè)數(shù)據(jù)進(jìn)行劃分,使簇內(nèi)的數(shù)據(jù)彼此相似,而簇間數(shù)據(jù)的相似度盡可能小。對(duì)組學(xué)數(shù)據(jù)進(jìn)行聚類分析,從中發(fā)現(xiàn)規(guī)律,在疾病分型、精準(zhǔn)醫(yī)療、藥物研究等方面具有十分重要的意義。

        一些研究者通過(guò)K均值聚類(K-means)及其變種算法整合多組學(xué)數(shù)據(jù)取得了不錯(cuò)的成果。如,張旭等人[17]采用基因芯片顯著性分析算法(SAM)和K-means等方法分析了兩組與結(jié)核病相關(guān)的組學(xué)數(shù)據(jù),其核心是先選擇同簇內(nèi)最相似的基因,再分組比較,最終選出了典型的結(jié)核病的14個(gè)候選易感基因,從而縮短了研究結(jié)核病的時(shí)間開(kāi)銷,降低成本。沈思鵬[18]研究出一種無(wú)監(jiān)督類別多組學(xué)整合預(yù)測(cè)模型的算法(Random Partition Fusion Based onK-Means,RPFKM),能夠預(yù)測(cè)腫瘤患者的生存結(jié)果。該方法分為兩個(gè)步驟:第一,隨機(jī)抽取變量進(jìn)行K-means聚類,計(jì)算相似度矩陣;第二,進(jìn)行相似性矩陣整合。它的優(yōu)點(diǎn)在于整體的分類效果比其他聚類效果好,但其預(yù)測(cè)能力有限,只能對(duì)微觀分子生物多組學(xué)數(shù)據(jù)進(jìn)行整合,無(wú)法將臨床特征,外界環(huán)境等因素考慮進(jìn)去。

        聚類方法多種多樣,部分研究者將聚類算法與其他的一些算法融合,效果顯著。如,Nicora等人[19]綜述了兩種聚類方法,分別為基于鄰域的多組學(xué)聚類(Neighborhood based multi-omics clustering,Nemo)和親和網(wǎng)絡(luò)融合算法(Affinity Network Fusion,ANF)。Nemo是通過(guò)徑向基函數(shù)核計(jì)算每個(gè)組學(xué)間的相似性矩陣,對(duì)得到的平均相似度矩陣進(jìn)行譜聚類。ANF則是將圖聚類應(yīng)用于包含多個(gè)視圖信息的親和矩陣,對(duì)于每個(gè)組元,經(jīng)過(guò)特征選擇后計(jì)算距離。這兩種方法都能在多個(gè)TCGA癌癥數(shù)據(jù)集檢測(cè)出癌癥亞型,聚類性能優(yōu)于其在單組學(xué)中的應(yīng)用。

        此外,王星等人[20]通過(guò)基于基因網(wǎng)絡(luò)正則化的雙聚類算法(Network Regularized Bi-Clustering algorithm,NetRBC),利用基因間的相互作用網(wǎng)絡(luò)構(gòu)建正則化項(xiàng)約束,指導(dǎo)基因簇進(jìn)行矩陣分解,有效提升了預(yù)測(cè)癌癥亞型聚類精度。但癌癥的生長(zhǎng)發(fā)育受多方面因素的影響,僅利用不同實(shí)驗(yàn)間的基因組數(shù)據(jù)整合難以對(duì)癌癥的高度異質(zhì)性進(jìn)行全面的了解。

        綜上所述,基于聚類算法整合多組學(xué)數(shù)據(jù)可取的主要因素有以下四個(gè):第一,可以降低實(shí)驗(yàn)噪聲和生物噪聲對(duì)數(shù)據(jù)的影響,降低時(shí)間和成本開(kāi)銷;第二,能有效提升組學(xué)整合預(yù)后結(jié)果的準(zhǔn)確性和分類精度,揭示不同的細(xì)胞方面,如,在基因組和表觀基因組水平上的影響;第三,在相同的分子方面,每個(gè)組可以包含其他組學(xué)沒(méi)有的數(shù)據(jù),如,突變和拷貝數(shù);第四,組學(xué)可以代表來(lái)自不同生物體水平的數(shù)據(jù),如,基因表達(dá)和微生物組組成。其不足之處在于無(wú)法全面考慮外界因素的影響,可靠性有待提高。因此,基于聚類算法整合多組學(xué)數(shù)據(jù)也在不斷深入研究。

        2.2.2 基于隨機(jī)森林算法整合多組學(xué)數(shù)據(jù)

        隨機(jī)森林算法(Random Forest,RF)首先基于bootstrap方法有放回地抽取樣本,然后基于決策樹(shù)信息增益等人指標(biāo)用每個(gè)bootstrap樣本生成樹(shù),并整合多棵樹(shù)的預(yù)測(cè)信息,通過(guò)投票得出最終的預(yù)測(cè)結(jié)果[21]。

        隨機(jī)森林算法被廣泛應(yīng)用于高維組學(xué)數(shù)據(jù)整合中[22-24]。如何進(jìn)行整合預(yù)測(cè),以下研究者給出了不同的思路。齊惠穎等人[25]提出一種整合四種組學(xué)數(shù)據(jù)的隨機(jī)森林乳腺癌生存預(yù)測(cè)方法,該方法先用PLS對(duì)原始數(shù)據(jù)進(jìn)行歸一化和特征降維處理,之后放入RF預(yù)測(cè)得到預(yù)測(cè)結(jié)果,能有效地提高預(yù)測(cè)性能,但在噪音較大的分類或者回歸問(wèn)題上會(huì)出現(xiàn)過(guò)擬合的情況。Roman等人[26]比較了五種隨機(jī)森林算法,得出塊森林(block forest)方法在組學(xué)整合上的效果更好。該方法核心是向標(biāo)準(zhǔn)的RF中添加了一個(gè)額外化組件“塊選擇”,其優(yōu)點(diǎn)是解決了塊直接重疊預(yù)測(cè)信息的問(wèn)題,還考慮了所有臨床協(xié)變量,從而提高了性能。Acharjee等人[27]采用隨機(jī)森林回歸法,整合轉(zhuǎn)錄組學(xué)、代謝組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù),對(duì)馬鈴薯4個(gè)品質(zhì)性狀進(jìn)行預(yù)測(cè),從而找到與表型性狀相關(guān)的遺傳和代謝途徑,但其不能在缺乏有關(guān)所調(diào)查性狀的基因、代謝物或蛋白質(zhì)的先驗(yàn)知識(shí)的情況下進(jìn)行驗(yàn)證。Li等人[28]利用隨機(jī)森林特征方法整合多組學(xué)數(shù)據(jù),以識(shí)別調(diào)控因子檢測(cè)基因表達(dá),構(gòu)建全基因組基因調(diào)控網(wǎng)絡(luò)。通過(guò)計(jì)算關(guān)鍵候選基因的異?;蚣g的相似性作為距離度量,采用基于密度的聚類算法得到包含20個(gè)基因的癌癥相關(guān)基因模塊。該方法的優(yōu)點(diǎn)能有效地區(qū)分高危和低危人群。缺點(diǎn)是對(duì)于小樣本數(shù)據(jù)集不適用,且研究都集中在靜態(tài)網(wǎng)絡(luò)上,沒(méi)有考慮時(shí)間維度。

        在針對(duì)分類問(wèn)題時(shí),隨機(jī)森林算法與其他算法融合能夠提高模型的性能。Mohammed等人[29]提出結(jié)合RF和SVM,對(duì)不同組織類型的正常和癌癥樣本進(jìn)行分類,該方法靈敏度和特異性超過(guò)現(xiàn)有的生物標(biāo)記來(lái)識(shí)別潛在的癌癥生物標(biāo)記,準(zhǔn)確率高達(dá)97.89%。Xu等人[30]提出一種新的分層集成深度靈活神經(jīng)森林框架HIDFNForest,該方法先采用堆疊自編碼器(Stacked Autoencoder,SAE)學(xué)習(xí)組學(xué)數(shù)據(jù)的復(fù)雜表示,再將其用于DFNForest模型將患者的癌癥亞型分類。該方法不僅能夠?qū)⒔M學(xué)數(shù)據(jù)獨(dú)立,且其采用的SAE比傳統(tǒng)的PCA、NMF的降維效果更好,提高了模型的分類性能。

        綜上所述,隨機(jī)森林算法能有效地對(duì)多組學(xué)數(shù)據(jù)進(jìn)行整合,但可能存在過(guò)擬合、缺乏數(shù)據(jù)造成無(wú)法驗(yàn)證、生存期數(shù)據(jù)變化等多種因素影響預(yù)測(cè)性能的問(wèn)題。

        2.2.3 基于其他機(jī)器學(xué)習(xí)方法整合多組學(xué)數(shù)據(jù)

        通過(guò)前面兩類機(jī)器學(xué)習(xí)算法的研究發(fā)現(xiàn),由于組學(xué)數(shù)據(jù)規(guī)模大、多樣性等特點(diǎn),單一算法對(duì)數(shù)據(jù)整合的效果不如多種算法融合的性能好。因而,一些研究者開(kāi)始探究如何將機(jī)器學(xué)習(xí)領(lǐng)域的其他方法進(jìn)行融合,提高數(shù)據(jù)整合分析的性能。

        Gerdes等人[31]開(kāi)發(fā)了一種基于機(jī)器學(xué)習(xí)的藥物排序方法(Drug Ranking Using ML,DRUML),該方法能將蛋白質(zhì)組學(xué)和磷蛋白組學(xué)特征的組合,得出降低癌細(xì)胞增殖方面療效的生成藥物排名列表。它不必與參考樣本比較,就可以在癌細(xì)胞群體中預(yù)測(cè)藥物排名,且其使用內(nèi)部歸一化藥物反應(yīng)的距離度量、降維等方式減少噪聲,增加了預(yù)測(cè)模型的穩(wěn)健性。

        Hasan等人[32]提出一種基于機(jī)器學(xué)習(xí)的新型藥物-靶點(diǎn)相互作用預(yù)測(cè)模型(Prediction of Drug-Target Interactions,PreDTIS),該模型首先將組學(xué)數(shù)據(jù)結(jié)合,然后用欠采樣技術(shù)解決藥靶數(shù)據(jù)集高度不平衡的問(wèn)題;其次,用改良的增量特征選擇算法選擇最優(yōu)特征,去除噪聲和冗余特征,提高預(yù)測(cè)準(zhǔn)確性;最后,用LightGBM分類器預(yù)測(cè)藥靶相互作用。結(jié)果表明,該方法顯著優(yōu)于其他現(xiàn)有方法。

        王昕[33]提出一種基于極限學(xué)習(xí)機(jī)的癌癥質(zhì)譜分類方法(Extreme Learning Machine,ELM)和一種基于粒子群算法結(jié)合極限學(xué)習(xí)機(jī)方法(Particle Swarm Optimization-Extreme Learning Machine,PSO-ELM),以代謝組學(xué)和蛋白質(zhì)學(xué)組學(xué)為數(shù)據(jù),分別進(jìn)行癌癥分類和提取高維質(zhì)譜數(shù)據(jù)特征的實(shí)驗(yàn)。兩者的共同優(yōu)點(diǎn)是準(zhǔn)確率高,誤診率低,分類效果及可行性好。前者的缺點(diǎn)是固定參數(shù)忽略對(duì)算法本身的研究,后者則引入PSO解決了這一不足。

        李明達(dá)等人[34]提出一種中級(jí)融合分類方法,該方法先引入PLS分別對(duì)各種組學(xué)數(shù)據(jù)進(jìn)行降維,然后利用支持向量機(jī)(Support Vector Machine,SVM)對(duì)融合后的數(shù)據(jù)進(jìn)行分類。該方法優(yōu)點(diǎn)是能有效降低數(shù)據(jù)維度,且分類準(zhǔn)確率能有效提高,缺點(diǎn)是可進(jìn)行實(shí)驗(yàn)的數(shù)據(jù)量少,普遍適用性有待提高。

        Gui等人[35]結(jié)合了多組學(xué)數(shù)據(jù)結(jié)合的分析,研究了腎透明細(xì)胞癌(ccRCC)缺氧與免疫的相互作用。首先,使用t-SNE和ssGSEA研究三種亞型在遺傳和表觀特征的缺氧免疫差異,隨后基于LASSO和Cox構(gòu)建預(yù)后模型。該模型的預(yù)后性能好并能預(yù)測(cè)患者對(duì)免疫治療的反應(yīng),準(zhǔn)確性較高,但實(shí)驗(yàn)僅僅是建立在TCGA數(shù)據(jù)集上,覆蓋的數(shù)據(jù)集不全面。

        Malik等人[36]提出基于多組學(xué)整合的肺腺癌生存預(yù)測(cè)模型。首先,用鄰域成分分析方法(Neighborhood Component Analysis,NCA)對(duì)組學(xué)數(shù)據(jù)進(jìn)行特征選擇,選擇最佳特征組合,并將其整合輸入到SVM、神經(jīng)網(wǎng)絡(luò)模式識(shí)別器、RUSBoost算法構(gòu)建生存預(yù)測(cè)模型。該方法可以有效地將肺腺癌患者劃分為兩個(gè)生存類別,準(zhǔn)確率達(dá)92.9%,但其訓(xùn)練和驗(yàn)證集的樣本較少,限制了預(yù)測(cè)能力。

        Yuan等人[37]提出一種新的ML方法(LncRNA-Gene-Disease association networks,LGDLDA)。該方法首先計(jì)算lncRNA、基因和疾病的相似度矩陣,利用非線性特征學(xué)習(xí)將鄰域信息整合到相似矩陣中;然后,使用嵌入節(jié)點(diǎn)表示來(lái)逼近觀測(cè)矩陣;最后,對(duì)候選lncRNA-疾病對(duì)進(jìn)行排序,選擇潛在的疾病相關(guān)lncRNA。它的優(yōu)點(diǎn)是穩(wěn)定性比較高,能有效預(yù)測(cè)潛在的癌癥相關(guān)lncRNA,缺點(diǎn)是數(shù)據(jù)集小,易過(guò)擬合。

        Wang等人[38]提出一個(gè)DeepDRK框架,它首先將癌癥組學(xué)數(shù)據(jù)轉(zhuǎn)為相似性矩陣,然后利用化合物的化學(xué)特征和藥靶相互作用分別計(jì)算兩個(gè)抗癌藥物的相似矩陣,形成抗癌藥物的整合表示,最后構(gòu)建一個(gè)二分圖標(biāo)記癌細(xì)胞和抗癌藥物之間的關(guān)系。其優(yōu)點(diǎn)是準(zhǔn)確性和魯棒性比SVM和RF高,缺點(diǎn)是藥物數(shù)據(jù)集小限制了性能提升。

        通過(guò)對(duì)上述幾種機(jī)器學(xué)習(xí)方法的總結(jié),可以發(fā)現(xiàn),利用多種機(jī)器學(xué)習(xí)方法融合,能提高多組學(xué)數(shù)據(jù)整合的性能。上述幾種方法的共同優(yōu)點(diǎn)在于分類準(zhǔn)確率得到提高,能夠減少噪聲對(duì)實(shí)驗(yàn)的影響,解決數(shù)據(jù)高度不平衡問(wèn)題,增加了模型預(yù)測(cè)的穩(wěn)健性。缺點(diǎn)是數(shù)據(jù)集少且易過(guò)擬合、普遍適用性較低。

        2.2.4 小結(jié)

        綜上所述,聚類算法、隨機(jī)森林算法以及其他機(jī)器學(xué)習(xí)方法為多組學(xué)數(shù)據(jù)整合提供了廣泛的技術(shù)支持,上述基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法的原理、優(yōu)勢(shì)、局限性和適用場(chǎng)景如表3所示。

        簡(jiǎn)而言之,這些機(jī)器學(xué)習(xí)方法的共同優(yōu)點(diǎn)是具有較高的準(zhǔn)確率。缺點(diǎn)分別為,隨機(jī)森林算法是在某些噪音較大的分類器或回歸問(wèn)題上過(guò)擬合;聚類算法的缺點(diǎn)則是對(duì)孤立點(diǎn)比較敏感,結(jié)果不穩(wěn)定;其他方法存在參數(shù)固定不能進(jìn)一步提高準(zhǔn)確率,數(shù)據(jù)樣本小限制了預(yù)測(cè)能力等問(wèn)題。為彌補(bǔ)機(jī)器學(xué)習(xí)方法的局限,提升性能,一些研究者將深度學(xué)習(xí)方法應(yīng)用于多組學(xué)數(shù)據(jù)整合。

        表3 基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法對(duì)比Table 3 Comparison of multi-omics data integration methods based on traditional machine learning

        2.3 基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法

        深度學(xué)習(xí)(Deep Learning,DL)是一種使用深度神經(jīng)網(wǎng)絡(luò)的新興機(jī)器學(xué)習(xí)方法,迄今在各領(lǐng)域引發(fā)了突破性的變革。其采用的深度神經(jīng)網(wǎng)絡(luò)是具有多層隱藏層的神經(jīng)網(wǎng)絡(luò),利用神經(jīng)網(wǎng)絡(luò)中每一層進(jìn)行數(shù)據(jù)處理,逐層進(jìn)行特征學(xué)習(xí),使神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到深層抽象的特征數(shù)據(jù)。

        常用的深度網(wǎng)絡(luò)模型有深度前饋網(wǎng)絡(luò)(Deep Feedforward Network,DFN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、自編碼器(AutoEncoder,AE)和圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)及其變體等[39]。近年來(lái),深度學(xué)習(xí)在多組學(xué)整合分析領(lǐng)域取得了成果,吸引了大量研究者對(duì)此進(jìn)行研究[40]。本節(jié)將從深度前饋網(wǎng)絡(luò)、自編碼器、圖神經(jīng)網(wǎng)絡(luò)等角度綜述基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法。

        2.3.1 基于深度前饋網(wǎng)絡(luò)整合多組學(xué)數(shù)據(jù)

        深度前饋網(wǎng)絡(luò)是最具代表的深度學(xué)習(xí)模型。它定義了映射y=f(x;θ),指信息流從輸入x,經(jīng)過(guò)中間計(jì)算f(x;θ)后得到輸出y,整個(gè)過(guò)程中不存在從輸出到輸入的反向連接。

        近年來(lái),許多研究者將深度前饋網(wǎng)絡(luò)應(yīng)用于多組學(xué)數(shù)據(jù)整合分析取得很好的效果。

        Deng等人[41]提出一個(gè)多模態(tài)深度學(xué)習(xí)框架DDIMDL,將藥物的多種組學(xué)特征放入到DFN中訓(xùn)練,實(shí)驗(yàn)結(jié)果顯示,DDIMDL模型能有效預(yù)測(cè)藥物交互事件,尋找潛在有效的藥物。但對(duì)于某些事件,存在交互次數(shù)不夠?qū)е逻^(guò)擬合問(wèn)題,這也說(shuō)明了未來(lái)可通過(guò)擴(kuò)充數(shù)據(jù)集、增加交互次數(shù)解決該問(wèn)題。

        一些學(xué)者利用深度前饋網(wǎng)絡(luò)從兩種或多種數(shù)據(jù)集找出相應(yīng)的特征,并融合進(jìn)行統(tǒng)一表示,獲得了比較好的分類預(yù)測(cè)效果。如,Hossein等人[42]提出了集成多組學(xué)數(shù)據(jù)的方法MOLI(Multi-Omics Late Integration method)。該方法先將多個(gè)前饋編碼子網(wǎng)絡(luò)與每個(gè)組學(xué)數(shù)據(jù)相對(duì)應(yīng),將其編碼到一個(gè)特征空間后串聯(lián)進(jìn)行整合,最后將其作為分類子網(wǎng)絡(luò)的輸入以預(yù)測(cè)藥物的反應(yīng)。其優(yōu)于單組學(xué)預(yù)測(cè)性能,且可減少過(guò)擬合和數(shù)據(jù)分布不平衡問(wèn)題,不足之處在于沒(méi)有考慮或比較基線中不同組學(xué)數(shù)據(jù)類型的基因之間的相互作用。

        上述的方法是通過(guò)一個(gè)模型得到特征后融合,以下則是不同的模型得出的特征融合。如,Malik等人[43]提出后期綜合深度前饋網(wǎng)絡(luò)多組學(xué)框架來(lái)構(gòu)建乳腺癌患者生存和藥物反應(yīng)預(yù)測(cè)模型,先用NCA從多組學(xué)數(shù)據(jù)集中選擇相關(guān)特征,然后分別放入DFN與K-means進(jìn)行分類,結(jié)果顯示,該模型能有效地將患者分為兩類,并且可以避免過(guò)擬合。

        除了上述兩種融合方法外,還可以采取先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的方法,將其整理為同類型的輸入。如,Zhao等人[44]提出DeepOmix方法,該方法集成了不同組學(xué)數(shù)據(jù)作為輸入基因?qū)?,基因?qū)庸?jié)點(diǎn)根據(jù)輸入定義的路徑或功能模塊的先驗(yàn)信息與功能層連接,最終能夠?qū)颖痉譃楦唢L(fēng)險(xiǎn)和低風(fēng)險(xiǎn)兩組。其優(yōu)點(diǎn)是能夠解決高維度的問(wèn)題,且可解釋性、穩(wěn)定性、魯棒性較高。

        此外,Huang等人[45]利用2型糖尿病多組學(xué)數(shù)據(jù),闡明胰島素抵抗與多組學(xué)特征之間的關(guān)系,并開(kāi)發(fā)了基于深度神經(jīng)網(wǎng)絡(luò)解釋算法,以解釋微生物組特征對(duì)胰島素分類的影響,且利用集成分類器和DFN分類器驗(yàn)證了降維特征的合理性。

        通過(guò)深度前饋網(wǎng)絡(luò)整合多組學(xué)數(shù)據(jù),能更好地挖掘影響生命問(wèn)題的潛在因素,防止?jié)撛诘闹匾畔G失,有效地提高了準(zhǔn)確率。其缺點(diǎn)是數(shù)據(jù)集不平衡會(huì)影響實(shí)驗(yàn)結(jié)果。

        受上述研究者的啟發(fā),可以通過(guò)數(shù)據(jù)集擴(kuò)充等技術(shù)避免過(guò)擬合,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理或者采取不同的方式對(duì)模型融合,從而提高數(shù)據(jù)整合的性能。

        2.3.2 基于自編碼器整合多組學(xué)數(shù)據(jù)

        自編碼器(AE)是一種數(shù)據(jù)壓縮算法,通過(guò)訓(xùn)練后能將輸入復(fù)制到輸出,主要是便于數(shù)據(jù)去噪和降維。自編碼器分為兩個(gè)組件:第一個(gè)組件是編碼(encoder),一般是多層網(wǎng)絡(luò),將輸入的數(shù)據(jù)壓縮成一個(gè)向量,從而降低維度;第二個(gè)組件是解碼(decoder),主要是重建與原始輸入一樣的數(shù)據(jù),以達(dá)到壓縮還原的作用。它在深度學(xué)習(xí)發(fā)展的過(guò)程中也出現(xiàn)了很多變體,如,去噪自編碼器(DAE)、變分自編碼器(VAE)、去耦變分自編碼器(DVEA)等。

        由前所述可知,多組學(xué)數(shù)據(jù)具有高維、量大、有噪聲等特點(diǎn),通過(guò)自編碼器后輸出數(shù)據(jù)維度一般遠(yuǎn)小于輸入數(shù)據(jù)維度,適合解決高維數(shù)據(jù)的整合問(wèn)題,減輕了高維度數(shù)據(jù)對(duì)模型的壓力。因此,一些學(xué)者研究利用自編碼器對(duì)多組學(xué)數(shù)據(jù)進(jìn)行整合。如,Kumardeep等人[46]利用AE整合肝癌患者的多組學(xué)數(shù)據(jù),然后使用方差分析(Analysis of Variance,ANOVA)特征選擇方法來(lái)識(shí)別生物標(biāo)志物,最后基于SVM構(gòu)建了肺癌亞型預(yù)測(cè)模型,能夠劃分具有生存期敏感的肝癌亞型。該方法在文獻(xiàn)[47]得到驗(yàn)證,能夠劃分高低風(fēng)險(xiǎn)兩類患者,比傳統(tǒng)的方法更有效。

        Yang等人[48]提出一種基于多模態(tài)深度自編碼器的藥物表示方法DDI-MDAE(Multi-modal Deep Auto-Encoders Based Drug Representation Learning Method),該方法可以同時(shí)學(xué)習(xí)具有多種藥物組學(xué)特征的統(tǒng)一表示,然后用4個(gè)算子表示藥物-藥物對(duì),并采用隨機(jī)森林分類器訓(xùn)練模型來(lái)預(yù)測(cè)藥物相互作用。該方法的優(yōu)點(diǎn)在于可對(duì)大規(guī)模的、有噪聲的、稀疏的、特征不完整的藥物數(shù)據(jù)進(jìn)行預(yù)測(cè),準(zhǔn)確率較高。這表明將網(wǎng)絡(luò)拓?fù)浜驼Z(yǔ)義信息結(jié)合起來(lái)用于藥物表示可能會(huì)提高預(yù)測(cè)性能。

        曹業(yè)偉等人[49]提出一種基于深度自編碼器的多組學(xué)數(shù)據(jù)整合方法DAEMI(Deep Autoencoder for Multiomics Integration,DAEMI),該方法先將三種組學(xué)數(shù)據(jù)直接拼接作為輸入,然后從瓶頸層提取所需的壓縮特征,學(xué)習(xí)多組學(xué)數(shù)據(jù)的特征表示。最后,使用K均值算法對(duì)新特征樣本進(jìn)行聚類,得到了不同癌癥亞型。實(shí)驗(yàn)結(jié)果表明,它在不同癌癥數(shù)據(jù)集上表現(xiàn)更可靠,抗噪能力強(qiáng),聚類有效性和穩(wěn)定性優(yōu)于現(xiàn)有方法,但目前不適用于高維度小樣本數(shù)據(jù)集。

        Park等人[50]提出三重?fù)p失進(jìn)行監(jiān)督特征提取學(xué)習(xí)方法Super.FELT(Supervised Feature Extraction Learning using Triplet loss),該方法首先基于肘方法的方差閾值和三重?fù)p失函數(shù)監(jiān)督編碼器分別進(jìn)行特征選擇和特征編碼,然后將結(jié)果輸入分類器進(jìn)行整合,最后訓(xùn)練一個(gè)損失函數(shù)為二進(jìn)制交叉熵函數(shù)的神經(jīng)網(wǎng)絡(luò)分類器,用于藥物反應(yīng)預(yù)測(cè)。其優(yōu)點(diǎn)是采用的特征選擇方法提高了性能,即使沒(méi)有給定藥物的體內(nèi)數(shù)據(jù)集,也能用于預(yù)測(cè)患者的藥物反應(yīng)。

        Chai等人[51]提出DCAP框架整合癌癥風(fēng)險(xiǎn)評(píng)估的多組學(xué)數(shù)據(jù),以更準(zhǔn)確估計(jì)癌癥預(yù)后。該方法核心是將高維的組學(xué)特征輸入到DAE網(wǎng)絡(luò)中獲得代表性的特征,并將其放入Cox模型估計(jì)患者的風(fēng)險(xiǎn),XGboos模型擬合估計(jì)的風(fēng)險(xiǎn),最后確定與癌癥高度相關(guān)的預(yù)后標(biāo)記。該方法的優(yōu)點(diǎn)是預(yù)測(cè)精度比以前的方法提高了6.5%,缺點(diǎn)是忽略了腫瘤純度和臨床因素等會(huì)影響預(yù)測(cè)的精度。

        Chung等人[52]基于長(zhǎng)短期記憶的變分自編碼器(Long Short-Term Memory Based Variational Auto-Encoder,LSTM-VAE)對(duì)時(shí)間序列數(shù)字?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練;然后利用LSTM-VAE提取的低維嵌入進(jìn)行聚類;最后,將深度卷積嵌入聚類(Deep Convolutional Embedded Clustering,DCEC)應(yīng)用于時(shí)間趨勢(shì)圖像,對(duì)圖像重建和聚類分配進(jìn)行聯(lián)合優(yōu)化。其缺點(diǎn)是本實(shí)驗(yàn)中采用的多元組數(shù)據(jù)不平衡,在一定程度上影響了性能,這也說(shuō)明了未來(lái)可以從解決數(shù)據(jù)不平衡這一角度提高預(yù)測(cè)精度。

        Ma等人[53]提出了一種基于網(wǎng)絡(luò)約束的多視角因子分解自編碼器方法(Multi-view factorization Auto-Encoder,MAE),該方法由多個(gè)分解AE組成,并提供了一種將圖形約束集成到模型中的自然方法,可以有效地整合分子相互作用網(wǎng)絡(luò)與多組學(xué)數(shù)據(jù),該模型泛化能力好,能解決高維特征小樣本的過(guò)擬合問(wèn)題。

        Zhang等人[54]采用AE來(lái)集成多組學(xué)數(shù)據(jù),并將其與K-means聚類相結(jié)合,能區(qū)分超高危亞群和高危神經(jīng)母細(xì)胞瘤,該分類方法優(yōu)于主成分分析(PCA)與iCluster聚類法,對(duì)高危神經(jīng)母細(xì)胞瘤的綜合分類可以幫助臨床醫(yī)生制定個(gè)性化的治療方案。

        另外,自編碼器還可以隨機(jī)生成與訓(xùn)練數(shù)據(jù)類似的數(shù)據(jù),常被稱作生成模型(Generative Model,GM),有助于生成打標(biāo)簽的數(shù)據(jù),提高實(shí)驗(yàn)的準(zhǔn)確率。如,Jia等人[55]利用變分自編碼器(Variational AutoEncoder,VAE)生成大于1 000細(xì)胞系中的基因表達(dá)譜,并基于表達(dá)譜的隱向量訓(xùn)練了藥物反應(yīng)的預(yù)測(cè)模型,挖掘出33種腫瘤類型中與藥物反應(yīng)相關(guān)的分子特征,能解決癌癥樣品中藥物反應(yīng)譜的新特征遺漏和過(guò)擬合問(wèn)題。具有穩(wěn)健性和準(zhǔn)確性高等優(yōu)點(diǎn),其缺點(diǎn)是該模型對(duì)于一些藥物,無(wú)法提高預(yù)測(cè)精度,找出潛在的混雜因素。

        綜上所述,基于自編碼器整合多組學(xué)數(shù)據(jù),能解決高維度、稀疏數(shù)據(jù)、過(guò)擬合的問(wèn)題,能更好地提高模型的效率、預(yù)測(cè)準(zhǔn)確率和穩(wěn)健性。這也說(shuō)明了未來(lái)可將重心放在深度學(xué)習(xí)自編碼器方法解決多組學(xué)整合的問(wèn)題上。

        2.3.3 基于圖神經(jīng)網(wǎng)絡(luò)整合多組學(xué)數(shù)據(jù)

        傳統(tǒng)的深度學(xué)習(xí)方法被應(yīng)用在提取歐氏空間數(shù)據(jù)的特征方面取得了巨大的成功,但在許多實(shí)際應(yīng)用場(chǎng)景中的數(shù)據(jù)都是從非歐式空間生成的,傳統(tǒng)的深度學(xué)習(xí)方法在處理非歐式空間數(shù)據(jù)上的表現(xiàn)難以使人滿意,于是圖神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。部分研究者也探索用能夠處理非歐式空間的圖神經(jīng)網(wǎng)絡(luò)進(jìn)行多組學(xué)數(shù)據(jù)分析。如,高創(chuàng)等人[56]提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的藥物靶標(biāo)作用關(guān)系預(yù)測(cè)方法,該方法首先構(gòu)造一個(gè)結(jié)合多種藥靶相關(guān)信息的異質(zhì)信息網(wǎng)絡(luò),然后采用GCN在此異質(zhì)信息網(wǎng)絡(luò)上學(xué)習(xí),得到能精確表達(dá)每個(gè)節(jié)點(diǎn)拓?fù)涮卣骷班従犹卣餍畔⒌牡途S向量表征,最后利用這些向量信息通過(guò)向量空間投影預(yù)測(cè)節(jié)點(diǎn)間概率的評(píng)分。該方法的優(yōu)點(diǎn)是能解決樣本不平衡的問(wèn)題,能挖掘未知藥靶關(guān)系。

        Wang等人[57]提出了多組學(xué)圖卷積網(wǎng)絡(luò)(Multi-Omics Graph cOnvolutional NETworks,MOGONET)整合方法,用于生物醫(yī)學(xué)分類。該方法可概括為三個(gè)部分:首先是對(duì)每種組學(xué)數(shù)據(jù)類型進(jìn)行預(yù)處理和特征選擇,然后通過(guò)GCN進(jìn)行特定組學(xué)學(xué)習(xí),最后通過(guò)VCDN進(jìn)行多組學(xué)集成。它的優(yōu)點(diǎn)是加入的VCDN模型可以更好地對(duì)數(shù)據(jù)分類,其實(shí)驗(yàn)結(jié)果也具有良好的可解釋性。

        Althubaiti等人[58]開(kāi)發(fā)了一個(gè)用于多組學(xué)癌癥分析的框架DeepMOCCA,該框架由圖卷積神經(jīng)網(wǎng)絡(luò)和圖注意力機(jī)制構(gòu)成,能夠預(yù)測(cè)33種癌癥類型的樣本的生存時(shí)間,優(yōu)于大多數(shù)現(xiàn)有的方法,且注意力機(jī)制能夠用于識(shí)別患者中的驅(qū)動(dòng)因素和預(yù)后標(biāo)記,其不足在于缺乏許多癌癥的準(zhǔn)確預(yù)后標(biāo)記。

        當(dāng)然,圖神經(jīng)網(wǎng)絡(luò)除了能夠解決非歐式空間的問(wèn)題外,還能通過(guò)保留圖的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)內(nèi)容信息,將圖中頂點(diǎn)表示為低維向量,以便于使用簡(jiǎn)單算法進(jìn)行處理。受此啟發(fā),Wang等人[59]提出一種基于圖卷積網(wǎng)絡(luò)(Integrating Genomic Data and Clinical Data by Graph Convolutional Network,GCGCN)的融合多基因組數(shù)據(jù)和臨床數(shù)據(jù)的癌癥生存預(yù)測(cè)方法,該方法利用相似性網(wǎng)絡(luò)融合算法(SNF)和最小冗余最大相關(guān)算法分別對(duì)組學(xué)數(shù)據(jù)融合,進(jìn)行特征選擇操作,生成樣本相似矩陣和樣本特征矩陣,然后放入到GCGCN訓(xùn)練。它的優(yōu)點(diǎn)是準(zhǔn)確率高,分類效果好,能考慮特征相關(guān)性,缺點(diǎn)是可用樣本少,適用性不夠強(qiáng)。

        綜上所述,圖神經(jīng)網(wǎng)絡(luò)中的每個(gè)數(shù)據(jù)樣本(節(jié)點(diǎn))都會(huì)有邊與圖中其他實(shí)數(shù)據(jù)樣本(節(jié)點(diǎn))相關(guān),這些信息可用于捕獲多組學(xué)樣本之間的相互依賴關(guān)系,具有很好的適應(yīng)性和可解釋性。因而,圖神經(jīng)網(wǎng)絡(luò)適于多組學(xué)數(shù)據(jù)整合。

        2.3.4 小結(jié)

        深度學(xué)習(xí)中的方法為組學(xué)整合研究提供了新思路,它的優(yōu)點(diǎn)是在特征學(xué)習(xí)方面性能較高,能有效避免分割和手工設(shè)計(jì)特征提取給模型帶來(lái)的誤差。但是,也存在了一些缺點(diǎn),如,因數(shù)據(jù)高維、訓(xùn)練數(shù)據(jù)集小、交互次數(shù)不夠,不同事件數(shù)據(jù)集數(shù)量不平衡及大量噪聲導(dǎo)致過(guò)擬合問(wèn)題,數(shù)據(jù)異質(zhì)性、特異性導(dǎo)致預(yù)測(cè)精度無(wú)法提高的問(wèn)題。

        為解決以上的不足,文獻(xiàn)[56]在數(shù)據(jù)集的所有樣本中,將某一特征的值從最小值到最大值進(jìn)行替換,而其他特征保持不變,重復(fù)這個(gè)過(guò)程,直到考慮每個(gè)樣本的所有特征,從而解決特定特征對(duì)結(jié)果的造成的影響。文獻(xiàn)[60]提出前饋網(wǎng)絡(luò)和自動(dòng)編碼器采用了dropout,batch歸一化,將每組組學(xué)數(shù)據(jù)獨(dú)立地放入三個(gè)自動(dòng)編碼器獨(dú)立訓(xùn)練以使輸入和輸出的差異最小,從而避免過(guò)擬合。

        當(dāng)前,基于自編碼器和深度前饋網(wǎng)絡(luò)在多組學(xué)整合方面的研究成果較多,而圖神經(jīng)網(wǎng)絡(luò)在多組學(xué)整合方面的研究成果還較少,這也提供了新的研究方向,未來(lái)可以探究如何用其他的圖神經(jīng)網(wǎng)絡(luò)方法提高多組學(xué)數(shù)據(jù)整合的性能。上述基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法的原理、優(yōu)勢(shì)、局限性和適用場(chǎng)景如表4所示。

        2.4 多組學(xué)數(shù)據(jù)整合分析方法小節(jié)

        近年來(lái),探究多組學(xué)數(shù)據(jù)的整合分析方法較為火熱。本節(jié)基于統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)對(duì)多組學(xué)數(shù)據(jù)整合方法進(jìn)行了簡(jiǎn)單的梳理和概述,并總結(jié)了每種方法的優(yōu)勢(shì)以及局限性??偠灾@三類方法各有側(cè)重點(diǎn)。通過(guò)分析,將這三種不同類型多組學(xué)數(shù)據(jù)整合方法的優(yōu)勢(shì)、局限性整理成表5所示。

        3 多組學(xué)數(shù)據(jù)整合分析的應(yīng)用

        3.1 醫(yī)學(xué)領(lǐng)域

        在醫(yī)學(xué)領(lǐng)域研究中,多組學(xué)數(shù)據(jù)的整合分析應(yīng)用十分廣泛。它為精準(zhǔn)醫(yī)療與醫(yī)藥研發(fā)提供了有效的途徑,能獲取更全面的相關(guān)信息,彌補(bǔ)單組學(xué)數(shù)據(jù)的片面性,幫助醫(yī)生進(jìn)行更精準(zhǔn)的診療與研發(fā)。本節(jié)綜述了近年來(lái)多組學(xué)整合分析在醫(yī)學(xué)領(lǐng)域的一些應(yīng)用案例。

        3.1.1 腫瘤多組學(xué)應(yīng)用

        腫瘤是一種復(fù)雜的系統(tǒng)性疾病,涉及到了DNA、RNA、蛋白質(zhì)和代謝物水平等多種異常。因此,探究組學(xué)數(shù)據(jù)之間的關(guān)系能夠幫助醫(yī)生探究生命機(jī)理與早期診療。

        當(dāng)前,基因組學(xué)、蛋白質(zhì)組學(xué)及代謝組學(xué)等組學(xué)數(shù)據(jù)已經(jīng)被用于腫瘤分析,但是通過(guò)單組學(xué)進(jìn)行腫瘤診斷還存在局限性。如,單組學(xué)在食管癌早期篩查與診斷存在局限性,原因在于單組學(xué)數(shù)據(jù)展現(xiàn)的只是生命對(duì)象的一個(gè)視角,會(huì)引起以偏概全診斷腫瘤[61]。

        多組學(xué)數(shù)據(jù)的整合分析能更深入地了解腫瘤從一個(gè)組學(xué)級(jí)別到下一個(gè)組學(xué)級(jí)別信息流的變化,有可能揭露更多的生物學(xué)信息[2]。一些研究者已開(kāi)展了多組學(xué)整合分析在腫瘤方面的研究。如,文獻(xiàn)[62-64]運(yùn)用聚類法整合多組學(xué)數(shù)據(jù),揭示了不同的肝癌分子亞型。Fu等人[65]運(yùn)用深度轉(zhuǎn)移學(xué)習(xí)方法,采用癌癥的基因組、轉(zhuǎn)錄組為數(shù)據(jù),結(jié)果顯示,該方法可以準(zhǔn)確地對(duì)29種癌癥類型分類。Li等人[66]研究發(fā)現(xiàn),MRI定量影像組學(xué)特征與多種基因檢測(cè)聯(lián)合可有效評(píng)估乳腺癌的復(fù)發(fā)風(fēng)險(xiǎn)。Mun等人[67]采用多層組學(xué)聯(lián)合分析的方法,研究80對(duì)癌和癌旁配對(duì)樣本的蛋白、基因組圖譜,為慢性胃癌的治療提供了更直接的參考。Rusch等人[68]提取78例臨床腫瘤樣本的組學(xué)數(shù)據(jù)進(jìn)行整合,找到與腫瘤相關(guān)的結(jié)構(gòu)變異、體細(xì)胞突變、致病性突變等原因。Li等人[69]采用罕見(jiàn)的變異檢驗(yàn)方法STAAR整合了多組學(xué)數(shù)據(jù),從大規(guī)模全基因組測(cè)序數(shù)據(jù)中找到了常見(jiàn)疾病與罕見(jiàn)疾病的關(guān)聯(lián)。Hoadley等人[70]使用iCluster對(duì)腫瘤樣本中的四種組學(xué)數(shù)據(jù)進(jìn)行了整合分析,識(shí)別出28個(gè)社團(tuán)。文昱琦[71]提出了基于異質(zhì)網(wǎng)絡(luò)重啟隨機(jī)游走的多組學(xué)數(shù)據(jù)整合算法,應(yīng)用于TCGA癌癥的多組學(xué)數(shù)據(jù)也取得了較現(xiàn)有算法更優(yōu)的效果。郭茂祖等人[72]利用聚類法集成多組學(xué)生物數(shù)據(jù),發(fā)現(xiàn)了關(guān)鍵基因模塊及其異常調(diào)控的基因集合,有助于癌癥研究。Yang等人[73]提出一種Subtype-GAN深度對(duì)抗學(xué)習(xí)方法,通過(guò)多層的神經(jīng)網(wǎng)絡(luò)提取子類型的特征,然后使用共識(shí)聚類和高斯混合模型來(lái)識(shí)別腫瘤樣本的分子亞型,準(zhǔn)確率高。Jonathan等人[74]使用VAE對(duì)結(jié)腸腺癌進(jìn)行癌癥分型,得到5種分子亞型。

        表4 基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法對(duì)比Table 4 Comparison of multi-omics data integration methods based on deep learning

        綜上,多組學(xué)數(shù)據(jù)的整合分析在腫瘤疾病的研究方面取得了不錯(cuò)的成效。因此,有理由相信在基因組、轉(zhuǎn)錄組、蛋白組、代謝組等生命組學(xué)數(shù)據(jù)的共同支持下,未來(lái)在腫瘤識(shí)別診斷的性能和效率會(huì)更高。

        表5 不同類型多組學(xué)數(shù)據(jù)整合方法優(yōu)缺點(diǎn)對(duì)比Table 5 Comparison of advantages and disadvantages of different types of multi-omics data integration methods

        3.1.2 傳染病診療應(yīng)用

        傳染病具有傳播速度快、感染性強(qiáng)、死亡率高等特點(diǎn),細(xì)數(shù)2020年,新型冠狀病毒?。–OVID-19)迅速蔓延成為全球健康挑戰(zhàn),截至2020年10月中旬,報(bào)告病例超過(guò)3 800萬(wàn)例,相關(guān)死亡人數(shù)超過(guò)100萬(wàn)[75]。

        當(dāng)前,利用多組學(xué)數(shù)據(jù)進(jìn)行整合分析有利于傳染病的診療。以今年影響最大的COVID-19的研究為例,Su等人[75]對(duì)139例COVID-19患者的臨床檢測(cè)、免疫細(xì)胞和血漿多組學(xué)(代謝組、蛋白組)進(jìn)行了綜合分析,可解析輕度和中度COVID-19之間的急劇變化狀態(tài),中度COVID-19可能為治療干預(yù)提供最有效的環(huán)境。Song等人[76]經(jīng)研究COVID-19患者的血漿脂質(zhì)組和代謝組發(fā)現(xiàn),用10種血漿代謝物有效區(qū)分COVID-19患者與健康者。Zhao等人[77]通過(guò)采用從4名COVID-19產(chǎn)婦和2名健康產(chǎn)婦分娩后3天的初乳樣本中得到蛋白質(zhì)組學(xué)、脂質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù),揭示了與新冠肺炎相關(guān)的母乳蛋白和代謝的顯著變化。Shen等人[78]對(duì)血清樣本中的蛋白和代謝物的相對(duì)濃度進(jìn)行了全景式的測(cè)定,從而揭露了重癥患者體內(nèi)多種獨(dú)特的分子調(diào)控。Chen等人[79]對(duì)83名受試者(16名重度病例,50名輕度病例和17名健康對(duì)照)的外周血和血漿樣本進(jìn)行了轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)分析,表明以基因、蛋白質(zhì)和外泌體RNA作為潛在的生物標(biāo)志物,可能有助于預(yù)測(cè)SARS-CoV-2感染。Thomas等人[80]運(yùn)用了最新的多組學(xué)整合方法,研究了COVID-19對(duì)23名健康受試者和29名新冠肺炎患者紅細(xì)胞的影響,結(jié)果表明,SARS-CoV-2感染會(huì)影響紅細(xì)胞結(jié)構(gòu)膜蛋白和脂質(zhì)水平穩(wěn)態(tài)。

        綜上,多組學(xué)數(shù)據(jù)的整合分析利于傳染病的診斷和治療,隨著多組學(xué)整合技術(shù)的提高,將對(duì)傳染病的診斷和治療做出巨大貢獻(xiàn)。

        3.1.3 藥物研發(fā)應(yīng)用

        新藥研發(fā)是一個(gè)成本高昂、周期漫長(zhǎng)、充滿風(fēng)險(xiǎn)的過(guò)程。通常,一個(gè)新藥物從實(shí)驗(yàn)室啟動(dòng)研發(fā)到獲批上市銷售大約需要10到15年的時(shí)間[81]。在這過(guò)程中,需要分析測(cè)試數(shù)百萬(wàn)個(gè)候選分子,但最終只有一個(gè)可以成藥且獲批上市銷售[82-83]。

        從分子層面深入挖掘微生物組、基因組、代謝組和蛋白質(zhì)組數(shù)據(jù),結(jié)合生理學(xué)指標(biāo)檢測(cè),可有助于藥物研發(fā)。如,Deng等人[41]提出的DDIMDL框架,利用藥物的多種組學(xué)特征,預(yù)測(cè)了藥物交互事件,從而尋找潛在有效的藥物,經(jīng)實(shí)驗(yàn)結(jié)果顯示,DDIMDL優(yōu)于現(xiàn)有的方法。Geonhee等人[84]提出一種新的深度學(xué)習(xí)模型,用1 597種藥物特征組合而成的三種相似度輪廓作為實(shí)驗(yàn)的數(shù)據(jù),結(jié)果顯示,所提出的新深度學(xué)習(xí)模型可更準(zhǔn)確地預(yù)測(cè)藥物間的相互作用。李杰[85]提出網(wǎng)絡(luò)醫(yī)學(xué)等人數(shù)據(jù)挖掘方法挖掘多組學(xué)數(shù)據(jù),該方法能夠應(yīng)用于復(fù)雜疾病治療靶標(biāo)預(yù)測(cè)及藥物基因組學(xué)研究。曼瓊等人[86]利用多組學(xué)整合方法對(duì)中醫(yī)藥毒性進(jìn)行研究,有助于發(fā)現(xiàn)中藥和復(fù)方與人體生物效應(yīng)間復(fù)雜系統(tǒng)的關(guān)系。Hu等人[87]采用卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地找到藥物和靶標(biāo)之間的相互作用,提取藥物間的細(xì)微特征。Chiu等人[88]利用DeepDR模型學(xué)習(xí)藥物組學(xué)特征,預(yù)測(cè)腫瘤的藥物反應(yīng),能確定新藥的耐藥性,助于新藥研發(fā)。

        綜上,在多組學(xué)數(shù)據(jù)整合方法的支持下,未來(lái)將會(huì)提高復(fù)雜疾病的藥物研發(fā)效率,助于社會(huì)醫(yī)療水平的提升。

        3.2 植物生理病理領(lǐng)域

        植物的基本組成物質(zhì)由蛋白質(zhì)、糖、脂肪和核酸以及它們的代謝物組成,這些都可以通過(guò)組學(xué)測(cè)序技術(shù)測(cè)出對(duì)應(yīng)的組學(xué)數(shù)據(jù),為植物的生理學(xué)和植物病理學(xué)方面的研究提供了數(shù)據(jù)源。本節(jié)綜述近年來(lái)多組學(xué)數(shù)據(jù)整合分析在植物生理病理領(lǐng)域的一些應(yīng)用案例。

        3.2.1 植物生理學(xué)的應(yīng)用

        植物細(xì)胞在轉(zhuǎn)錄、翻譯、代謝水平上的變化往往都會(huì)影響植物的生長(zhǎng)和發(fā)育。多組學(xué)數(shù)據(jù)整合分析可以從不同的維度獲取植物生長(zhǎng)發(fā)育的動(dòng)態(tài)變化情況,更好地展示細(xì)胞生命過(guò)程,進(jìn)而研究植物的生長(zhǎng)發(fā)育復(fù)雜機(jī)制,提高了育種的效率。

        如,湯冰倩等人[89]采用轉(zhuǎn)錄組、代謝組數(shù)據(jù)預(yù)測(cè)植物表型,結(jié)果表明,多組學(xué)聯(lián)合分析提高了雜交水稻的產(chǎn)量。史關(guān)燕等人[90]綜述了基于多組學(xué)技術(shù)解析作物雜種優(yōu)勢(shì)機(jī)制研究的最新動(dòng)態(tài),總結(jié)出不同遺傳背景材料和不同性狀的雜種優(yōu)勢(shì)遺傳基礎(chǔ)解釋并不相同,單一的模式并不能完全解釋其遺傳機(jī)制。Yang等人[91]將轉(zhuǎn)錄組和代謝組聯(lián)合分析,闡明RDI(調(diào)節(jié)灌溉技術(shù))對(duì)赤霞珠漿果花青素生物合成和代謝的影響機(jī)制,RDI可以提高葡萄的花青素含量,有助于提高葡萄酒的質(zhì)量。Hu等人[92]利用多組學(xué)聯(lián)合分析揭示了褪黑素通過(guò)抑制茉莉酸的生物合成促進(jìn)銅脅迫下瓜根發(fā)育。豐美靜等人[93]用多組學(xué)聯(lián)合分析從不同的角度獲取植物生長(zhǎng)發(fā)育各個(gè)時(shí)期的動(dòng)態(tài)變化情況,為紅豆杉細(xì)胞培養(yǎng)、紫杉醇以及紫杉醇類似物的大規(guī)模工業(yè)生產(chǎn)提供了理論基礎(chǔ)。Chen等人[94]關(guān)注水稻籽粒中發(fā)生的代謝和轉(zhuǎn)錄變化,并降低可能受到多溴二苯醚污染的農(nóng)田中的作物健康風(fēng)險(xiǎn)。Ichihashi等人[95]采用多組學(xué)綜合分析,表明有機(jī)氮通過(guò)充當(dāng)?shù)春蜕锘钚曰衔镏苯釉黾恿酥参锏纳锪?。馬愛(ài)民等人[96]利用多組學(xué)探索出番茄生長(zhǎng)過(guò)程中代謝物變化,找到影響其生產(chǎn)重量的原因,為改良品質(zhì)做出貢獻(xiàn)。馬婷玉[97]通過(guò)組學(xué)整合對(duì)青蒿素合成的因素進(jìn)行分析,為青蒿素培育奠定了基礎(chǔ)。Zhao等人[98]整合小麥的轉(zhuǎn)錄組和代謝組數(shù)據(jù),找到調(diào)節(jié)植物鉀饑餓耐受性的候選基因,有助于研究小麥根系適應(yīng)缺鉀的分子變化。

        綜上,利用多組學(xué)整合分析能有效地研究植物的生長(zhǎng)發(fā)育變化情況,有益于提高植物的育種效率,提高農(nóng)作物的產(chǎn)量,為世界人們帶來(lái)了很大的福音。

        3.2.2 植物病理學(xué)的應(yīng)用

        植物病理學(xué)以植物病害為研究對(duì)象,在生物化學(xué)等方面挖掘其發(fā)病的原因以及感染過(guò)程。在自然系統(tǒng)中,許多植物病原體與宿主共同進(jìn)化出拮抗關(guān)系,植物病害是調(diào)節(jié)植物種群的重要力量[99]。

        近年來(lái),利用多組學(xué)整合分析能夠挖掘出影響植物生長(zhǎng)的病菌,從而預(yù)防病菌對(duì)植物的影響,提高了植物的生產(chǎn)率。如,鞏校東[100]運(yùn)用多組學(xué)整合技術(shù),對(duì)大斑病菌侵染過(guò)程中玉米葉片在各個(gè)組學(xué)上的變化進(jìn)行研究,找到了與玉米響應(yīng)大斑病菌侵染過(guò)程密切相關(guān)的功能基因和代謝途徑,初步探究了玉米與大斑病菌互作過(guò)程的分子機(jī)制。畢凱[101]利用多組學(xué)整合技術(shù)深入地了解根腫菌的休眠、生長(zhǎng)、發(fā)育和致病等生命活動(dòng),從而提出了新的根腫病的綠色防控技術(shù),減少了經(jīng)濟(jì)損失。周瑤等人[102]采用基因編輯和標(biāo)記輔助選擇策略操控等方法對(duì)多組學(xué)數(shù)據(jù)整合,從中了解小麥赤霉病寄主抗性機(jī)制,進(jìn)一步改良小麥赤霉病抗性,保障食品安全。李婷婷等人[103]運(yùn)用多組學(xué)整合技術(shù)分析得出花生中miR156::SPL的表達(dá)差異是造成在感病和抗病花生品種中類黃酮物質(zhì)代謝差異的主要原因。David等人[104]利用多組學(xué)方法挖掘出保護(hù)細(xì)胞對(duì)系統(tǒng)獲得抗藥性響應(yīng)的分子機(jī)制,增強(qiáng)植物抗病能力。Chin等人[105]利用多組學(xué)整合比較檸檬和柑橘對(duì)“亞洲白念珠菌”感染后的變化差異,有助于培育更多的品種。Kang等人[106]對(duì)小麥根的中的芽孢桿菌的多組學(xué)數(shù)據(jù)進(jìn)行分析,找到延長(zhǎng)全蝕性疾病的發(fā)病時(shí)間。

        綜上,多組學(xué)整合分析為研究植物病害背后更復(fù)雜的機(jī)制,揭示植物疾病的多維視角,預(yù)防病害對(duì)植物生長(zhǎng)的影響提供了技術(shù)支持。

        4 多組學(xué)數(shù)據(jù)整合分析方法存在的問(wèn)題及未來(lái)展望

        隨著組學(xué)研究的不斷深入,多組學(xué)數(shù)據(jù)整合分析已經(jīng)成為發(fā)展趨勢(shì),在精準(zhǔn)醫(yī)療、植物生理病理等領(lǐng)域的研究具有十分重要的意義。

        本文通過(guò)對(duì)三個(gè)階段多組學(xué)整合方法的研究,對(duì)不同的方法進(jìn)行分類,并總結(jié)其優(yōu)勢(shì)、局限以及適用場(chǎng)景性,以及應(yīng)用情況。通過(guò)對(duì)統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法整合多組學(xué)數(shù)據(jù)的總結(jié)及對(duì)比,可以發(fā)現(xiàn)其中存在的問(wèn)題。下面將討論多組學(xué)數(shù)據(jù)整合分析方法存在的主要問(wèn)題與未來(lái)研究方向。

        (1)數(shù)據(jù)集

        多組學(xué)整合分析需要用到多種組學(xué)的數(shù)據(jù)集,如,代謝組、轉(zhuǎn)錄組、基因組等組學(xué)數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)不同,數(shù)據(jù)類型也不同,如何能夠統(tǒng)一地表示并有效地運(yùn)用起來(lái),是未來(lái)將要探索的一個(gè)方向。

        此外,組學(xué)數(shù)據(jù)的采集會(huì)涉及生命體的隱私與安全問(wèn)題,因而目前公開(kāi)的數(shù)據(jù)集較少。多組學(xué)數(shù)據(jù)進(jìn)行整合分析需要大量的組學(xué)數(shù)據(jù),如何得到大量的組學(xué)數(shù)據(jù),依目前比較先進(jìn)的技術(shù)有遷移學(xué)習(xí)、對(duì)抗生成學(xué)習(xí)等方法。但是這種模仿生成的數(shù)據(jù)不一定能準(zhǔn)確地反應(yīng)出真實(shí)的狀況,所以提高數(shù)據(jù)共享與安全是未來(lái)一個(gè)重要的研究方向。

        (2)算法模型

        組學(xué)數(shù)據(jù)具有高維度、多噪音、數(shù)據(jù)稀疏、異質(zhì)性的特點(diǎn)以及實(shí)驗(yàn)中存在數(shù)據(jù)集不平衡的問(wèn)題,都會(huì)影響模型預(yù)測(cè)的精度。因此,要將不同、復(fù)雜且大規(guī)模的組學(xué)數(shù)據(jù)進(jìn)行整合,對(duì)算法模型和計(jì)算平臺(tái)的分析能力提出了較高要求。如,對(duì)于高維度、多噪音的數(shù)據(jù),目前主要方法有通過(guò)主成分分析法或自編碼器進(jìn)行降維、降噪;對(duì)于稀疏和異質(zhì)的數(shù)據(jù)需要轉(zhuǎn)換,目前可以通過(guò)回歸方法解決,但是這些方法都有著自身的缺陷,在未來(lái)仍然需要對(duì)上述問(wèn)題進(jìn)行大量研究。

        現(xiàn)有的組學(xué)數(shù)據(jù)整合分析方法和算法模型已獲得一定的成功,但多是將各組學(xué)數(shù)據(jù)獨(dú)立分析后,再將結(jié)果進(jìn)行整合,其整合分析能力有限。因此,如何采用有效、高效的整合方法或算法模型對(duì)組學(xué)數(shù)據(jù)進(jìn)行統(tǒng)一整合,挖掘多組學(xué)數(shù)據(jù)中隱含的知識(shí)和規(guī)律,成為一個(gè)亟待解決的問(wèn)題。

        (3)評(píng)估方法

        對(duì)于單一的組學(xué)模型訓(xùn)練出來(lái)的結(jié)果,使用的評(píng)估方法是可以根據(jù)單一的特征需求進(jìn)行評(píng)估的,但是對(duì)多組學(xué)數(shù)據(jù)而言,不同組學(xué)數(shù)據(jù)之間存在著差異性,這些差異性導(dǎo)致了評(píng)估模型的方法也不一樣,如何設(shè)置能夠兼容這些差異的評(píng)估方法成為一個(gè)比較關(guān)鍵的研究方向。

        (4)實(shí)驗(yàn)結(jié)果的可解釋性

        多組學(xué)數(shù)據(jù)整合方法的研究,主要是為精準(zhǔn)醫(yī)學(xué)、動(dòng)植物病理學(xué)等服務(wù),這些實(shí)際工作要求的可解釋性是非常高的,出現(xiàn)差錯(cuò)造成的后果將難以想象。目前的整合方法多是通過(guò)計(jì)算方法得出,不能直接應(yīng)用于這些領(lǐng)域,所以對(duì)實(shí)驗(yàn)結(jié)果的可解釋性探究也是一個(gè)重要的研究方向。

        猜你喜歡
        組學(xué)聚類預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        口腔代謝組學(xué)研究
        基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
        基于DBSACN聚類算法的XML文檔聚類
        不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
        基于改進(jìn)的遺傳算法的模糊聚類算法
        代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        成午夜福利人试看120秒| av天堂线上| 96精品在线| 日韩精品久久久中文字幕人妻| 亚洲av色香蕉一区二区蜜桃| 亚洲av自偷自拍亚洲一区| 免费在线观看播放黄片视频| 男人女人做爽爽18禁网站| 国产成人无码免费网站| 亚洲欧洲一区二区三区波多野| 国产精品一区二区三区三| 国产一区二区精品亚洲| 欧美日韩精品一区二区视频| 中文无码久久精品| а中文在线天堂| 在线天堂中文一区二区三区| 国产在线观看黄片视频免费| 国产精品久久精品第一页| 国产精品高潮呻吟av久久4虎| 欧美成人高清手机在线视频 | 欧美精品中文字幕亚洲专区| 国产美女a做受大片免费| 国产久色在线拍揄自揄拍| 久久精品99国产精品日本| 全球av集中精品导航福利| 久久青草免费视频| 高清少妇一区二区三区| 亚洲视频免费一区二区| 少女韩国电视剧在线观看完整| 亚洲欧美日韩精品高清| 国产真实乱对白在线观看| 午夜婷婷国产麻豆精品| 国产人妖乱国产精品人妖| 国产精品美女一区二区三区| 2021av在线| 黄页国产精品一区二区免费| 友田真希中文字幕亚洲| 消息称老熟妇乱视频一区二区 | 中文字幕乱码亚洲无线精品一区| 精品女同av一区二区三区| 国产精品婷婷久久爽一下|