邱 越,邢 卓,孫筱松,何宇騰
(中南大學湘雅醫(yī)學院,湖南 長沙 410012)
近年來,對基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組和脂質(zhì)組的大規(guī)模研究積累了大量數(shù)據(jù),使在分子水平上研究疾病成為可能。多組學數(shù)據(jù)分析旨在結(jié)合多個組學數(shù)據(jù)進行分析,以確定生物過程的機制。多組學數(shù)據(jù)的綜合分析可以幫助科學家了解基因調(diào)控的條件或患者特異性機制。在這篇綜述中,我們討論了將各種類型的組學數(shù)據(jù)組合在一起并使用各種機器學習模型進行分析的挑戰(zhàn)、方法及其應(yīng)用。
多組學通過跨越不同的組織層(例如,來自DNA、RNA、蛋白質(zhì)、代謝物等)來識別與生物過程相關(guān)的分子標記。多組學數(shù)據(jù)分析面臨數(shù)據(jù)降維、數(shù)據(jù)異質(zhì)性與整合的挑戰(zhàn)。
在多組學數(shù)據(jù)的綜合分析中,經(jīng)常會遇到樣本數(shù)量少,但要研究的變量數(shù)量多,造成樣本數(shù)量不足以獲得統(tǒng)計顯著結(jié)果的情況。例如,在根據(jù)DNA甲基化、miRNA表達和基因表達測量(變量)對卵巢癌患者(樣本)進行分層時,變量的數(shù)量可能大大高于樣本的數(shù)量(只有幾百個患者,但有數(shù)千個變量),出現(xiàn)了維度問題。維度問題會使大多數(shù)機器學習方法容易過擬合,即在訓(xùn)練數(shù)據(jù)上非常準確而對測試數(shù)據(jù)的泛化能力較差。通過降低數(shù)據(jù)的維度并保持相同數(shù)量的樣本,可以應(yīng)用統(tǒng)計技術(shù)和機器學習來提取有用的信息。特征提取或特征選擇是常用的數(shù)據(jù)降維方法。特征提取將數(shù)據(jù)從高維空間投影到低維空間,而特征選擇通過僅識別原始特征的相關(guān)子集來降低維數(shù)。
對于多組學數(shù)據(jù)分析,數(shù)據(jù)異質(zhì)性是另一個挑戰(zhàn),因為這些數(shù)據(jù)是由不同的技術(shù)(如測序與MS、微陣列與MS)和平臺(如靶向與非靶向、高分辨率與單細胞)。組學數(shù)據(jù)以多種形式存在,包括序列(如RNA-Seq、轉(zhuǎn)座酶可接近的染色質(zhì)測序)、圖表(如代謝途徑、調(diào)控網(wǎng)絡(luò))、幾何信息(如結(jié)合位點、蛋白質(zhì)折疊)和空間成分(如細胞室)。生物變量可以連續(xù)或離散地測量或分類[1]。ROHART等人[2]開發(fā)了一個名為MixOmics的程序,用于數(shù)據(jù)探索、縮小和可視化多組學數(shù)據(jù)。然而,由于這些數(shù)據(jù)的異質(zhì)性和多態(tài)性,將這些不同的數(shù)據(jù)類型整合到一個單一的預(yù)測模型中是一項挑戰(zhàn)。
機器學習是人工智能的主要領(lǐng)域之一,它是一種算法框架,可提供對數(shù)據(jù)的智能處理,同時促進推理并提供確定函數(shù)關(guān)系的初始設(shè)置。機器學習的主要優(yōu)勢是無需人工干預(yù)即可學習和制定算法的能力。此外,機器學習的準確性隨著訓(xùn)練數(shù)據(jù)的增加而增加。在機器學習的數(shù)據(jù)分析過程中,首先需要選擇對預(yù)測輸出貢獻最大的特征變量;其次,通過機器學習的不同方法對選定的特征進行分析,整合所有特征形成預(yù)測模型。
機器學習在多組學數(shù)據(jù)分析中的主要應(yīng)用有以下四個部分:①患者分層以發(fā)現(xiàn)人類疾病的各種亞型并發(fā)現(xiàn)不同的治療/預(yù)后結(jié)果;②通過生物標志物發(fā)現(xiàn),研究各種疾病狀態(tài)下組學特征的檢測;③通過通路分析,發(fā)現(xiàn)各組之間的關(guān)系,例如基因或蛋白質(zhì)在正常和疾病狀態(tài)下的各自狀態(tài);④通過藥物再利用和發(fā)現(xiàn),以確定新藥或原來為其他疾病開發(fā)的現(xiàn)有有效藥物用于其他疾病研究的療效。
基于機器學習的多組學數(shù)據(jù)分析允許將患者分類為疾病的各種亞型。LIST等人[3]結(jié)合甲基化和基因表達數(shù)據(jù)構(gòu)建分類模型,對乳腺癌亞型進行分類,并將其與基于金標準PAM50的模型進行比較。TAKAHASHI等人[4]開發(fā)了一種使用多組學數(shù)據(jù)準確預(yù)測肺癌患者生存率的新方法,他們通過無監(jiān)督學習技術(shù),使用來自癌癥基因組圖譜(TCGA)的六類多組學數(shù)據(jù)集,探索了多組學分析在準確預(yù)測各種亞型肺癌患者預(yù)后方面的新潛力。
通過基于機器學習的多組學數(shù)據(jù)分析可以發(fā)現(xiàn)新的生物標志物。FORTINO等人[5]使用綜合轉(zhuǎn)錄組學分析和通過機器學習方法發(fā)現(xiàn)共89個生物標志物,破譯了疾病相關(guān)的特征基因。XU等人[6]系統(tǒng)地描述了一種通過常用機器學習方法從蛋白質(zhì)組學數(shù)據(jù)中發(fā)現(xiàn)蛋白質(zhì)生物標志物的策略。
為了通過基于機器學習的多組學數(shù)據(jù)分析發(fā)現(xiàn)個體組學之間的關(guān)系,F(xiàn)RIDLEY等人[7]提出了一種整合模型,將通路分析和隨機搜索變量選擇結(jié)合到貝葉斯分層模型中,該模型同時識別對表型的直接和間接基因組影響。
通過基于機器學習的多組學數(shù)據(jù)分析,OH等人[8]提出目前的藥物基因組學數(shù)據(jù)分析可以向兩個方向擴展,以拓寬對藥物反應(yīng)的理解。第一個方向是進行通路水平分析,很難在個體基因水平上分析藥物反應(yīng)的生物學變異性,難以解釋和解釋基因-藥物關(guān)聯(lián)。因此,藥物基因組學研究的重點正在轉(zhuǎn)變?yōu)樵谏锿緩剿缴涎芯慷喾N基因產(chǎn)物。第二個方向是進行多組學水平的分析,XU等人[9]通過整合多種遺傳和表觀遺傳(基因表達、拷貝數(shù)變異和DNA甲基化)改變的組合效應(yīng),確定了個體抗癌藥物反應(yīng)的亞途徑特征。多組學數(shù)據(jù)整合分析有助于開展精準醫(yī)學研究,揭示復(fù)雜的生物學機制。
多組學數(shù)據(jù)是使用多個平臺生成的數(shù)據(jù),因此在數(shù)據(jù)存儲和格式上存在顯著差異,并且大多數(shù)多組學集成和分析工具要求數(shù)據(jù)為特定格式,因此需要對個體組學數(shù)據(jù)進行預(yù)處理。由于大多數(shù)多組學數(shù)據(jù)分析的集成方法計算量大,并且受到維數(shù)災(zāi)難的影響,因此需要減少輸入數(shù)據(jù)集的大小。然而,由于缺乏通用標準,決定適當?shù)倪^濾標準具有挑戰(zhàn)性。隨著高通量測序技術(shù)的進步和多種組學數(shù)據(jù)的出現(xiàn),收集各種組學數(shù)據(jù)變得越來越具有成本效益,并將變得越來越有用。在本文中,概述了機器學習模型、相關(guān)工具和基于機器學習的人類相關(guān)疾病多組學數(shù)據(jù)分析的最新成果,并強調(diào)了當前的挑戰(zhàn)和成就,基于機器學習的多組學數(shù)據(jù)分析在疾病中的應(yīng)用。