亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機器學習在多組學數(shù)據(jù)分析中的應(yīng)用

2021-11-27 17:53:54孫筱松何宇騰

科技與創(chuàng)新 2021年24期

邱越，邢卓，孫筱松，何宇騰

（中南大學湘雅醫(yī)學院，湖南長沙 410012）

近年來，對基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組和脂質(zhì)組的大規(guī)模研究積累了大量數(shù)據(jù)，使在分子水平上研究疾病成為可能。多組學數(shù)據(jù)分析旨在結(jié)合多個組學數(shù)據(jù)進行分析，以確定生物過程的機制。多組學數(shù)據(jù)的綜合分析可以幫助科學家了解基因調(diào)控的條件或患者特異性機制。在這篇綜述中，我們討論了將各種類型的組學數(shù)據(jù)組合在一起并使用各種機器學習模型進行分析的挑戰(zhàn)、方法及其應(yīng)用。

1 基于機器學習的多組學數(shù)據(jù)分析的挑戰(zhàn)

多組學通過跨越不同的組織層（例如，來自DNA、RNA、蛋白質(zhì)、代謝物等）來識別與生物過程相關(guān)的分子標記。多組學數(shù)據(jù)分析面臨數(shù)據(jù)降維、數(shù)據(jù)異質(zhì)性與整合的挑戰(zhàn)。

1.1 數(shù)據(jù)降維

在多組學數(shù)據(jù)的綜合分析中，經(jīng)常會遇到樣本數(shù)量少，但要研究的變量數(shù)量多，造成樣本數(shù)量不足以獲得統(tǒng)計顯著結(jié)果的情況。例如，在根據(jù)DNA甲基化、miRNA表達和基因表達測量（變量）對卵巢癌患者（樣本）進行分層時，變量的數(shù)量可能大大高于樣本的數(shù)量（只有幾百個患者，但有數(shù)千個變量），出現(xiàn)了維度問題。維度問題會使大多數(shù)機器學習方法容易過擬合，即在訓(xùn)練數(shù)據(jù)上非常準確而對測試數(shù)據(jù)的泛化能力較差。通過降低數(shù)據(jù)的維度并保持相同數(shù)量的樣本，可以應(yīng)用統(tǒng)計技術(shù)和機器學習來提取有用的信息。特征提取或特征選擇是常用的數(shù)據(jù)降維方法。特征提取將數(shù)據(jù)從高維空間投影到低維空間，而特征選擇通過僅識別原始特征的相關(guān)子集來降低維數(shù)。

1.2 數(shù)據(jù)異構(gòu)與集成

對于多組學數(shù)據(jù)分析，數(shù)據(jù)異質(zhì)性是另一個挑戰(zhàn)，因為這些數(shù)據(jù)是由不同的技術(shù)（如測序與MS、微陣列與MS）和平臺（如靶向與非靶向、高分辨率與單細胞）。組學數(shù)據(jù)以多種形式存在，包括序列（如RNA-Seq、轉(zhuǎn)座酶可接近的染色質(zhì)測序）、圖表（如代謝途徑、調(diào)控網(wǎng)絡(luò)）、幾何信息（如結(jié)合位點、蛋白質(zhì)折疊）和空間成分（如細胞室）。生物變量可以連續(xù)或離散地測量或分類[1]。ROHART等人[2]開發(fā)了一個名為MixOmics的程序，用于數(shù)據(jù)探索、縮小和可視化多組學數(shù)據(jù)。然而，由于這些數(shù)據(jù)的異質(zhì)性和多態(tài)性，將這些不同的數(shù)據(jù)類型整合到一個單一的預(yù)測模型中是一項挑戰(zhàn)。

2 機器學習在多組學數(shù)據(jù)分析中的應(yīng)用

2.1 機器學習

機器學習是人工智能的主要領(lǐng)域之一，它是一種算法框架，可提供對數(shù)據(jù)的智能處理，同時促進推理并提供確定函數(shù)關(guān)系的初始設(shè)置。機器學習的主要優(yōu)勢是無需人工干預(yù)即可學習和制定算法的能力。此外，機器學習的準確性隨著訓(xùn)練數(shù)據(jù)的增加而增加。在機器學習的數(shù)據(jù)分析過程中，首先需要選擇對預(yù)測輸出貢獻最大的特征變量；其次，通過機器學習的不同方法對選定的特征進行分析，整合所有特征形成預(yù)測模型。

機器學習在多組學數(shù)據(jù)分析中的主要應(yīng)用有以下四個部分：①患者分層以發(fā)現(xiàn)人類疾病的各種亞型并發(fā)現(xiàn)不同的治療/預(yù)后結(jié)果；②通過生物標志物發(fā)現(xiàn)，研究各種疾病狀態(tài)下組學特征的檢測；③通過通路分析，發(fā)現(xiàn)各組之間的關(guān)系，例如基因或蛋白質(zhì)在正常和疾病狀態(tài)下的各自狀態(tài)；④通過藥物再利用和發(fā)現(xiàn)，以確定新藥或原來為其他疾病開發(fā)的現(xiàn)有有效藥物用于其他疾病研究的療效。

2.2 人類疾病各亞型的分類

基于機器學習的多組學數(shù)據(jù)分析允許將患者分類為疾病的各種亞型。LIST等人[3]結(jié)合甲基化和基因表達數(shù)據(jù)構(gòu)建分類模型，對乳腺癌亞型進行分類，并將其與基于金標準PAM50的模型進行比較。TAKAHASHI等人[4]開發(fā)了一種使用多組學數(shù)據(jù)準確預(yù)測肺癌患者生存率的新方法，他們通過無監(jiān)督學習技術(shù)，使用來自癌癥基因組圖譜（TCGA）的六類多組學數(shù)據(jù)集，探索了多組學分析在準確預(yù)測各種亞型肺癌患者預(yù)后方面的新潛力。

2.3 生物標志物發(fā)現(xiàn)

通過基于機器學習的多組學數(shù)據(jù)分析可以發(fā)現(xiàn)新的生物標志物。FORTINO等人[5]使用綜合轉(zhuǎn)錄組學分析和通過機器學習方法發(fā)現(xiàn)共89個生物標志物，破譯了疾病相關(guān)的特征基因。XU等人[6]系統(tǒng)地描述了一種通過常用機器學習方法從蛋白質(zhì)組學數(shù)據(jù)中發(fā)現(xiàn)蛋白質(zhì)生物標志物的策略。

2.4 通路分析

為了通過基于機器學習的多組學數(shù)據(jù)分析發(fā)現(xiàn)個體組學之間的關(guān)系，F(xiàn)RIDLEY等人[7]提出了一種整合模型，將通路分析和隨機搜索變量選擇結(jié)合到貝葉斯分層模型中，該模型同時識別對表型的直接和間接基因組影響。

2.5 藥物發(fā)現(xiàn)和再利用

通過基于機器學習的多組學數(shù)據(jù)分析，OH等人[8]提出目前的藥物基因組學數(shù)據(jù)分析可以向兩個方向擴展，以拓寬對藥物反應(yīng)的理解。第一個方向是進行通路水平分析，很難在個體基因水平上分析藥物反應(yīng)的生物學變異性，難以解釋和解釋基因-藥物關(guān)聯(lián)。因此，藥物基因組學研究的重點正在轉(zhuǎn)變?yōu)樵谏锿緩剿缴涎芯慷喾N基因產(chǎn)物。第二個方向是進行多組學水平的分析，XU等人[9]通過整合多種遺傳和表觀遺傳（基因表達、拷貝數(shù)變異和DNA甲基化）改變的組合效應(yīng)，確定了個體抗癌藥物反應(yīng)的亞途徑特征。多組學數(shù)據(jù)整合分析有助于開展精準醫(yī)學研究，揭示復(fù)雜的生物學機制。

3 討論

多組學數(shù)據(jù)是使用多個平臺生成的數(shù)據(jù)，因此在數(shù)據(jù)存儲和格式上存在顯著差異，并且大多數(shù)多組學集成和分析工具要求數(shù)據(jù)為特定格式，因此需要對個體組學數(shù)據(jù)進行預(yù)處理。由于大多數(shù)多組學數(shù)據(jù)分析的集成方法計算量大，并且受到維數(shù)災(zāi)難的影響，因此需要減少輸入數(shù)據(jù)集的大小。然而，由于缺乏通用標準，決定適當?shù)倪^濾標準具有挑戰(zhàn)性。隨著高通量測序技術(shù)的進步和多種組學數(shù)據(jù)的出現(xiàn)，收集各種組學數(shù)據(jù)變得越來越具有成本效益，并將變得越來越有用。在本文中，概述了機器學習模型、相關(guān)工具和基于機器學習的人類相關(guān)疾病多組學數(shù)據(jù)分析的最新成果，并強調(diào)了當前的挑戰(zhàn)和成就，基于機器學習的多組學數(shù)據(jù)分析在疾病中的應(yīng)用。