亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器學習在多組學數(shù)據(jù)分析中的應(yīng)用

        2021-11-27 17:53:54孫筱松何宇騰
        科技與創(chuàng)新 2021年24期
        關(guān)鍵詞:生物分析模型

        邱 越,邢 卓,孫筱松,何宇騰

        (中南大學湘雅醫(yī)學院,湖南 長沙 410012)

        近年來,對基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組和脂質(zhì)組的大規(guī)模研究積累了大量數(shù)據(jù),使在分子水平上研究疾病成為可能。多組學數(shù)據(jù)分析旨在結(jié)合多個組學數(shù)據(jù)進行分析,以確定生物過程的機制。多組學數(shù)據(jù)的綜合分析可以幫助科學家了解基因調(diào)控的條件或患者特異性機制。在這篇綜述中,我們討論了將各種類型的組學數(shù)據(jù)組合在一起并使用各種機器學習模型進行分析的挑戰(zhàn)、方法及其應(yīng)用。

        1 基于機器學習的多組學數(shù)據(jù)分析的挑戰(zhàn)

        多組學通過跨越不同的組織層(例如,來自DNA、RNA、蛋白質(zhì)、代謝物等)來識別與生物過程相關(guān)的分子標記。多組學數(shù)據(jù)分析面臨數(shù)據(jù)降維、數(shù)據(jù)異質(zhì)性與整合的挑戰(zhàn)。

        1.1 數(shù)據(jù)降維

        在多組學數(shù)據(jù)的綜合分析中,經(jīng)常會遇到樣本數(shù)量少,但要研究的變量數(shù)量多,造成樣本數(shù)量不足以獲得統(tǒng)計顯著結(jié)果的情況。例如,在根據(jù)DNA甲基化、miRNA表達和基因表達測量(變量)對卵巢癌患者(樣本)進行分層時,變量的數(shù)量可能大大高于樣本的數(shù)量(只有幾百個患者,但有數(shù)千個變量),出現(xiàn)了維度問題。維度問題會使大多數(shù)機器學習方法容易過擬合,即在訓(xùn)練數(shù)據(jù)上非常準確而對測試數(shù)據(jù)的泛化能力較差。通過降低數(shù)據(jù)的維度并保持相同數(shù)量的樣本,可以應(yīng)用統(tǒng)計技術(shù)和機器學習來提取有用的信息。特征提取或特征選擇是常用的數(shù)據(jù)降維方法。特征提取將數(shù)據(jù)從高維空間投影到低維空間,而特征選擇通過僅識別原始特征的相關(guān)子集來降低維數(shù)。

        1.2 數(shù)據(jù)異構(gòu)與集成

        對于多組學數(shù)據(jù)分析,數(shù)據(jù)異質(zhì)性是另一個挑戰(zhàn),因為這些數(shù)據(jù)是由不同的技術(shù)(如測序與MS、微陣列與MS)和平臺(如靶向與非靶向、高分辨率與單細胞)。組學數(shù)據(jù)以多種形式存在,包括序列(如RNA-Seq、轉(zhuǎn)座酶可接近的染色質(zhì)測序)、圖表(如代謝途徑、調(diào)控網(wǎng)絡(luò))、幾何信息(如結(jié)合位點、蛋白質(zhì)折疊)和空間成分(如細胞室)。生物變量可以連續(xù)或離散地測量或分類[1]。ROHART等人[2]開發(fā)了一個名為MixOmics的程序,用于數(shù)據(jù)探索、縮小和可視化多組學數(shù)據(jù)。然而,由于這些數(shù)據(jù)的異質(zhì)性和多態(tài)性,將這些不同的數(shù)據(jù)類型整合到一個單一的預(yù)測模型中是一項挑戰(zhàn)。

        2 機器學習在多組學數(shù)據(jù)分析中的應(yīng)用

        2.1 機器學習

        機器學習是人工智能的主要領(lǐng)域之一,它是一種算法框架,可提供對數(shù)據(jù)的智能處理,同時促進推理并提供確定函數(shù)關(guān)系的初始設(shè)置。機器學習的主要優(yōu)勢是無需人工干預(yù)即可學習和制定算法的能力。此外,機器學習的準確性隨著訓(xùn)練數(shù)據(jù)的增加而增加。在機器學習的數(shù)據(jù)分析過程中,首先需要選擇對預(yù)測輸出貢獻最大的特征變量;其次,通過機器學習的不同方法對選定的特征進行分析,整合所有特征形成預(yù)測模型。

        機器學習在多組學數(shù)據(jù)分析中的主要應(yīng)用有以下四個部分:①患者分層以發(fā)現(xiàn)人類疾病的各種亞型并發(fā)現(xiàn)不同的治療/預(yù)后結(jié)果;②通過生物標志物發(fā)現(xiàn),研究各種疾病狀態(tài)下組學特征的檢測;③通過通路分析,發(fā)現(xiàn)各組之間的關(guān)系,例如基因或蛋白質(zhì)在正常和疾病狀態(tài)下的各自狀態(tài);④通過藥物再利用和發(fā)現(xiàn),以確定新藥或原來為其他疾病開發(fā)的現(xiàn)有有效藥物用于其他疾病研究的療效。

        2.2 人類疾病各亞型的分類

        基于機器學習的多組學數(shù)據(jù)分析允許將患者分類為疾病的各種亞型。LIST等人[3]結(jié)合甲基化和基因表達數(shù)據(jù)構(gòu)建分類模型,對乳腺癌亞型進行分類,并將其與基于金標準PAM50的模型進行比較。TAKAHASHI等人[4]開發(fā)了一種使用多組學數(shù)據(jù)準確預(yù)測肺癌患者生存率的新方法,他們通過無監(jiān)督學習技術(shù),使用來自癌癥基因組圖譜(TCGA)的六類多組學數(shù)據(jù)集,探索了多組學分析在準確預(yù)測各種亞型肺癌患者預(yù)后方面的新潛力。

        2.3 生物標志物發(fā)現(xiàn)

        通過基于機器學習的多組學數(shù)據(jù)分析可以發(fā)現(xiàn)新的生物標志物。FORTINO等人[5]使用綜合轉(zhuǎn)錄組學分析和通過機器學習方法發(fā)現(xiàn)共89個生物標志物,破譯了疾病相關(guān)的特征基因。XU等人[6]系統(tǒng)地描述了一種通過常用機器學習方法從蛋白質(zhì)組學數(shù)據(jù)中發(fā)現(xiàn)蛋白質(zhì)生物標志物的策略。

        2.4 通路分析

        為了通過基于機器學習的多組學數(shù)據(jù)分析發(fā)現(xiàn)個體組學之間的關(guān)系,F(xiàn)RIDLEY等人[7]提出了一種整合模型,將通路分析和隨機搜索變量選擇結(jié)合到貝葉斯分層模型中,該模型同時識別對表型的直接和間接基因組影響。

        2.5 藥物發(fā)現(xiàn)和再利用

        通過基于機器學習的多組學數(shù)據(jù)分析,OH等人[8]提出目前的藥物基因組學數(shù)據(jù)分析可以向兩個方向擴展,以拓寬對藥物反應(yīng)的理解。第一個方向是進行通路水平分析,很難在個體基因水平上分析藥物反應(yīng)的生物學變異性,難以解釋和解釋基因-藥物關(guān)聯(lián)。因此,藥物基因組學研究的重點正在轉(zhuǎn)變?yōu)樵谏锿緩剿缴涎芯慷喾N基因產(chǎn)物。第二個方向是進行多組學水平的分析,XU等人[9]通過整合多種遺傳和表觀遺傳(基因表達、拷貝數(shù)變異和DNA甲基化)改變的組合效應(yīng),確定了個體抗癌藥物反應(yīng)的亞途徑特征。多組學數(shù)據(jù)整合分析有助于開展精準醫(yī)學研究,揭示復(fù)雜的生物學機制。

        3 討論

        多組學數(shù)據(jù)是使用多個平臺生成的數(shù)據(jù),因此在數(shù)據(jù)存儲和格式上存在顯著差異,并且大多數(shù)多組學集成和分析工具要求數(shù)據(jù)為特定格式,因此需要對個體組學數(shù)據(jù)進行預(yù)處理。由于大多數(shù)多組學數(shù)據(jù)分析的集成方法計算量大,并且受到維數(shù)災(zāi)難的影響,因此需要減少輸入數(shù)據(jù)集的大小。然而,由于缺乏通用標準,決定適當?shù)倪^濾標準具有挑戰(zhàn)性。隨著高通量測序技術(shù)的進步和多種組學數(shù)據(jù)的出現(xiàn),收集各種組學數(shù)據(jù)變得越來越具有成本效益,并將變得越來越有用。在本文中,概述了機器學習模型、相關(guān)工具和基于機器學習的人類相關(guān)疾病多組學數(shù)據(jù)分析的最新成果,并強調(diào)了當前的挑戰(zhàn)和成就,基于機器學習的多組學數(shù)據(jù)分析在疾病中的應(yīng)用。

        猜你喜歡
        生物分析模型
        一半模型
        生物多樣性
        天天愛科學(2022年9期)2022-09-15 01:12:54
        生物多樣性
        天天愛科學(2022年4期)2022-05-23 12:41:48
        上上生物
        隱蔽失效適航要求符合性驗證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        第12話 完美生物
        航空世界(2020年10期)2020-01-19 14:36:20
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        日本高清中文字幕一区二区三区| 免费a级毛片在线播放| 2019最新中文字幕在线观看| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交 | 色婷婷七月| 国产成人综合久久三区北岛玲| 日韩av一区二区三区精品久久| 丁香婷婷激情综合俺也去| 国产精品高潮呻吟av久久4虎 | 人妻少妇中文字幕,久久精品| 久久精品女人天堂av免费观看| 亚洲av久久无码精品九九| 国产精品福利久久香蕉中文| 日本在线免费不卡一区二区三区 | 99亚洲男女激情在线观看| 在线成人福利| 免费av在线视频播放| 国产精品一区二区日本| 另类老妇奶性生bbwbbw| 亚洲中文字幕无码久久2018| 日本黄色特级一区二区三区| 2019nv天堂香蕉在线观看| 97se亚洲国产综合自在线| 亚洲av成人在线网站| 日韩精品免费视频久久| 国产精品美女久久久久av福利| 中文字幕喷水一区二区| 久久久精品亚洲懂色av| 日本一二三区在线观看视频| 无码午夜成人1000部免费视频| 久久国产影视免费精品| 白色白在线观看免费2| 久久96国产精品久久久| 国语对白做受xxxxx在线中国| 白白色发布永久免费观看视频| 免费视频无打码一区二区三区| 亚洲亚洲人成综合网络| 精品九九视频| 在线观看免费不卡网站| 人与动牲交av免费| 91综合在线|