亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生物醫(yī)學數(shù)據(jù)分析方法與應用

        2019-11-29 06:00:52曾興興魯艷柳
        遵義醫(yī)科大學學報 2019年5期
        關鍵詞:數(shù)據(jù)挖掘分類數(shù)據(jù)庫

        劉 浩,曾興興,魯艷柳

        (遵義醫(yī)科大學 基礎藥理教育部重點實驗室暨特色民族藥教育部國際合作聯(lián)合實驗室,貴州 遵義 563099)

        近年來伴隨著科學技術,尤其是高通量組學技術(high-throughput omics technologies)的快速發(fā)展,生物醫(yī)學已經(jīng)進入大數(shù)據(jù)時代。生物醫(yī)學和大數(shù)據(jù)的結合,產(chǎn)生了生物醫(yī)學數(shù)據(jù)。作為最活躍的科學研究領域之一,生物醫(yī)學數(shù)據(jù)備受關注[1]。隨著數(shù)據(jù)逐漸地積累,研究者對數(shù)據(jù)的關注點已經(jīng)由數(shù)據(jù)的生成,轉(zhuǎn)變?yōu)閷?shù)據(jù)的分析。從生物醫(yī)學數(shù)據(jù)庫可以獲得海量的數(shù)據(jù),如何從龐大的數(shù)據(jù)中收集、挖掘可利用的信息,并找出其中事先未被發(fā)現(xiàn)的聯(lián)系和規(guī)律,這些不僅為生物醫(yī)學研究帶來了機遇和挑戰(zhàn),且更具有重要意義[2-4]。本文主要綜述了近年來生物醫(yī)學數(shù)據(jù)的分析方法及其應用。

        1 生物醫(yī)學數(shù)據(jù)

        生物醫(yī)學與大數(shù)據(jù)的結合,形成生物醫(yī)學數(shù)據(jù)。生物醫(yī)學是一門前沿的交叉學科,其主要是通過綜合醫(yī)學、生命科學和生物學的理論及方法而發(fā)展起來的。隨著對生命的整體性和疾病的復雜性認識的加深[5],以及高通量組學技術的蓬勃發(fā)展[6]和全球信息化的迅速發(fā)展,生物醫(yī)學進入了大數(shù)據(jù)的時代[7]。生物醫(yī)學數(shù)據(jù)包括轉(zhuǎn)錄組學、代謝組學、基因組學、蛋白質(zhì)組學等[8]。近年著名的生物醫(yī)學數(shù)據(jù)項目有千人基因組計劃[9]、DNA元件百科全書計劃[10]、表觀組學路線圖計劃[11]、細胞印記整合網(wǎng)絡數(shù)據(jù)[12]、基因表達數(shù)據(jù)庫[13]、癌癥基因組圖譜計劃[14]、全基因組關聯(lián)分析等。

        現(xiàn)今,生物醫(yī)學數(shù)據(jù)主要應用于組學研究和不同組學間的關聯(lián)研究,也為快速鑒別生物標志物、藥物的研發(fā)、未知病原的快速篩檢和可疑致病微生物的發(fā)現(xiàn)提供有力支持[15]。同時,生物醫(yī)學數(shù)據(jù)還能夠檢測人群疾病譜的變化,開展健康管理[16],進行生物監(jiān)測和公共衛(wèi)生監(jiān)測[17]。

        生物醫(yī)學數(shù)據(jù)庫主要包括3類:首先是核酸序列數(shù)據(jù)庫;其次是DNA序列相關數(shù)據(jù)庫,比如密切參與DNA復制、轉(zhuǎn)錄、修復等過程的相關因子數(shù)據(jù)庫;第三類是基于蛋白質(zhì)序列、結構、功能及相互作用建立的數(shù)據(jù)庫[18]。常用的與人相關的生物醫(yī)學數(shù)據(jù)庫及其鏈接如表1。

        表1與人相關的生物醫(yī)學數(shù)據(jù)庫

        名稱網(wǎng)址類別1000 Genomeshttp://www.1000genomes.orgDNAAFND http://www.allelefrequencies.netdbSNP http://www.ncbi.nlm.nih.gov/snpDEGhttp://www.essentialgene.orgEGAhttp://www.ebi.ac.uk/egaEnsembl http://www.ensembl.orgGeneCardshttp://www.genecards.orgChIPBase http://deepbase.sysu.edu.cn/chipbaseRNADARNEDhttp://darned.ucc.ieGENCODE http://www.gencodegenes.orglncRNAdbhttp://www.lncrnadb.orgRNAcentralhttp://rnacentral.orgCATH http://cath.biochem.ucl.ac.ukProteinDIPhttp://dip.doe-mbi.ucla.eduInterPro http://www.ebi.ac.uk/interproPROSITEhttp://www.expasy.org/prositeSysPTMhttp://lifecenter.sgst.cn/SysPTM

        1000 Genomes 數(shù)據(jù)庫建立了至今為止最詳細的人類遺傳變異的深度目錄,可以通過明確疾病群中的外顯子序列從而篩選致病變異體,也可以篩選非致病性的常見種系變異,為進一步研究基因型和表型之間的關系以及人類疾病的遺傳基礎提供數(shù)據(jù)[19]。GeneCards 是一個以基因為中心的綜合數(shù)據(jù)庫,目前整合了125個來源的152704個人類的基因數(shù)據(jù),可搜索到人類基因的注解,并呈現(xiàn)在人類基因網(wǎng)絡中,旨在通過基因注解,簡單快速地獲得數(shù)據(jù)[20]。ChIPBase 是一個新興數(shù)據(jù)庫,支持對lncRNAs、miRNAs、基因和路徑的探索,主要是從ChIP-Seq數(shù)據(jù)中全面注解和發(fā)現(xiàn)lncRNAs 和 miRNAs的結合圖譜及轉(zhuǎn)錄調(diào)控關系[21]。GENCODE數(shù)據(jù)庫的特征是通過計算分析、人工注釋和實驗驗證的結合,高精度地注解人類基因組中所有基因,系統(tǒng)地描繪轉(zhuǎn)錄區(qū)域、轉(zhuǎn)錄因子結合、染色質(zhì)結構和組蛋白修飾等[22]。CATH是一個可公開訪問的在線資源,主要提供蛋白質(zhì)的結構分類,包括超過30萬個結構域的結構和超過5300萬個蛋白質(zhì)的結構。CATH通過識別蛋白質(zhì)結構域的3D結構,將具有進化相似性的結構域分配給同一超家族[23]。PROSITE是蛋白質(zhì)家族和結構域的數(shù)據(jù)庫,可以對蛋白名稱的起源、分類、功能、3D結構、結構域的結構及大小、序列的主要特征等提供數(shù)據(jù)[24]。

        2 主要挖掘方法

        生物醫(yī)學數(shù)據(jù)預測型數(shù)據(jù)挖掘主要包括主成分分析(Principal Component Analysis,PCA)、分類分析(classification)、偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)[25]、回歸分析(regression analysis)和時間序列分析(time series analysis)等,描述型數(shù)據(jù)挖掘方法包括聚類(clustering)、關聯(lián)規(guī)則分析(association rule analysis)和序列分析(sequence analysis)等[26]。

        2.1 主成分分析 由于生物醫(yī)學數(shù)據(jù)通常具有高維度特征,但又具有相對較少的實例,大量高維度數(shù)據(jù)集中在低維空間中,因此,降低維度在生物醫(yī)學數(shù)據(jù)處理中已經(jīng)變得十分重要[27],維度的解決也成為數(shù)據(jù)處理中的一個主要問題[28]。PCA作為經(jīng)典的降維方法[29],是迄今為止最廣泛的多維數(shù)據(jù)分析技術[30],應用范圍涵蓋藥理學和生物醫(yī)學科學的所有主題[31]。PCA是通過選擇特殊構造數(shù)據(jù)矩陣的特征值和相應的特征向量來實現(xiàn)維數(shù)的降低[32],即通過建立數(shù)學轉(zhuǎn)換,在不損失或盡量少損失信息的前提下,將原始的多個變量轉(zhuǎn)為少數(shù)的幾個綜合性變量,這幾個綜合性變量即為主成分。每個主成分都是各原始變量的集合,不同的主成分之間并不相關,通常認為主成分能更好的描述數(shù)據(jù)的特點。通過建立能夠簡化數(shù)據(jù)的數(shù)學模型,可以在處理復雜數(shù)據(jù)的同時防止冗余信息的干擾、獲得主要信息,從而提高分析問題的效率[33]。 研究高脂飲食模型小鼠膽汁酸代謝調(diào)控通路基因表達的實驗中,首先采用PCA數(shù)據(jù)挖掘方法,發(fā)現(xiàn)高脂飲食使得小鼠肝臟中膽酸、鵝脫氧膽酸水平均顯著下降,再通過RT-PCR技術檢測相關基因的表達,發(fā)現(xiàn)膽汁酸代謝調(diào)控通路中的Cyp3a11、Nr0b2等基因表達水平顯著下調(diào),而Cyp39a1、Scp2等基因表達水平顯著上調(diào)。得出結論,高脂飲食對C57BL/6J小鼠膽汁酸代謝調(diào)控通路基因的表達,有顯著影響[34]。

        2.2 回歸分析 回歸分析能夠研究自變量和因變量之間的關系,可根據(jù)已知的自變量預測和估計因變量的總平均值。因此,回歸分析在統(tǒng)計分析的應用中,是最廣泛的分支之一,也是醫(yī)學數(shù)據(jù)分析的重要統(tǒng)計方法之一。它能夠識別和表征多個因素之間的關系,還能夠識別、預測相關的風險因素?;貧w分析包括了回歸參數(shù)的估計、回歸模型的建立等[35-36]。按變量的多少,回歸分析可分為線性回歸、邏輯回歸、回歸樹等。邏輯回歸常用在存在多個變量情況下,通過分析所有變量的關聯(lián),避免混淆效應[37]。在對乳腺癌風險預測的研究中,利用Spearman相關系數(shù)進行影響因子的分析,結果顯示Perimeter、Texture和Concave points對乳腺癌致病影響大。此結果對乳腺癌風險的監(jiān)督及預測有著重要意義,對于乳腺癌發(fā)病的風險具有一定參考價值[38]。

        2.3 分類分析 分類分析是根據(jù)已知類別成員的觀察值的集合,確定新觀察值所屬哪種類別的方法。在機器學習的術語中,分類分析通常被認為是監(jiān)督學習的一個實例,即在正確識別了觀察的集合可用的情況下的學習。相應的無監(jiān)督程序則被稱為聚類分析[39]。分類分析的第一步是將數(shù)據(jù)分成兩部分,第二步是模型的建立及使用[40]。在生物醫(yī)學領域,分類的常用方法有決策樹方法(ID3、ID4.5、CART、CHAID、QUEST)、貝葉斯分類、神經(jīng)網(wǎng)絡、K-最鄰近分類、支持向量機(SVM)等。SVM以統(tǒng)計學理論為基礎,被認為是在數(shù)據(jù)挖掘的算法中最穩(wěn)健與準確的方法,K-最鄰近分類是一種基于實例的方法,而貝葉斯分類則是建立一種只包含已知向量而不包含已知類別的未知物類別判定規(guī)則[41]。在乳腺癌預后分析的研究中,首先基于邏輯回歸估計患者陽性淋巴結比率,而后運用貝葉斯方法構建動態(tài)Cox模型進行預后分析,可以反映臨床病理指標對患者預后的影響且預測準確率較高[42]。

        2.4 偏最小二乘判別分析和正交差最小二乘判別分析 PLS-DA 在降低數(shù)據(jù)維度的同時,能夠結合回歸模型,并利用判別閾值對回歸結果進行判別分析,因此成為當前使用最多的分析方法之一。PLS-DA通過最大化自變量X和因變量Y之間的協(xié)方差,構建正交得分向量(即潛變量或主成分),進一步擬合出自變量和因變量之間可能存在的線性關系[43]。不同于經(jīng)典的PCA降維方法,PLS-DA不僅能夠分解自變量X、因變量Y的矩陣,還能同時利用協(xié)方差信息,更有效的提取組間變異信息[44]。正交差最小二乘判別分析(orthogonal projection to latent structures discriminant analysis,OPLS-DA)是對PLS-DA的擴展。OPLS-DA通過正交信號校正技術,將自變量X矩陣的信息分解成兩類,一類與因變量Y相關,另一類和因變量Y不相關。除去與分類無關的信息后,其中的相關信息即可被預測,主要集中于第一個預測成分中?;谝合嗌V-質(zhì)譜聯(lián)用代謝組學研究平臺,在篩選乳腺癌轉(zhuǎn)移相關代謝標志物的研究中,對乳腺癌未轉(zhuǎn)移者組、乳腺癌轉(zhuǎn)移者組和健康志愿者組進行分析,結果顯示3組的OPLS-DA模型具有良好的判別能力,鑒別出用于乳腺癌轉(zhuǎn)移的8種標志物,可供用于區(qū)分3組的差異,為乳腺癌的早期預防、診斷提供了科學依據(jù)[45]。

        2.5 聚類分析 聚類分析是將待處理的數(shù)據(jù)集中,各元素之間按照相似度,分為若干個子集合。每一個聚類所包括的數(shù)據(jù)代表著在被選特征以及相似準則意義下比較接近的物體,而不相似的則屬于不同的類別。再通過歸納劃分為同類的共性和劃分為不同類的差異性,就能揭示新的規(guī)律[46]。聚類分析是一種定量方法,能夠從數(shù)據(jù)分析的角度,將復雜的數(shù)據(jù)按某些相似性度量規(guī)則進行挖掘,總結出一個更加準確、細致的分類[14]。聚類分析主要建立在多元統(tǒng)計基礎之上,應用于模式識別、數(shù)據(jù)挖掘等多個領域,尤其適用于分析模式、類別、數(shù)目均不明確的情況。對于相似基因表達模塊[47]、蛋白質(zhì)功能組[48]等研究大有裨益。傳統(tǒng)的聚類方法包括了劃分聚類和層次聚類。劃分聚類主要包括K-均值聚類、K-中心點聚類等。而層次聚類主要包括基于距離的分層聚類及基于概率的分層聚類。近年來,隨著生物技術的迅速發(fā)展和大數(shù)據(jù)的累積,同樣還產(chǎn)生了多種新型的聚類方法[49],如譜聚類、雙聚類、模糊聚類、二次聚類、自組織映射神經(jīng)網(wǎng)絡聚類、并行聚類方法等[50]。在基于超高效液相-質(zhì)譜靶向脂質(zhì)組學的研究中,運用聚類分析,可以找出糖尿病患者和健康志愿者的差異生物標志物[51]。

        3 分析方法的應用

        在挖掘生物醫(yī)學數(shù)據(jù)的過程中,不論是預測型還是描述型的數(shù)據(jù)分析方法,往往不會單獨使用,通常都會結合起來應用,從而得到更加全面的數(shù)據(jù)。

        在代謝組學中的應用。二陳湯在大鼠高脂血癥以及早期動脈粥樣硬化模型中不僅僅對脂質(zhì)代謝紊亂具有調(diào)節(jié)的作用,還可改善膽堿類物質(zhì)的代謝異常,在得到的代謝組學的數(shù)據(jù)中,首先采用PCA對其進行處理,再進一步運用PLS-DA,反證出高脂血癥以及動脈粥樣硬化病理早中期的主要病機[52]。運用PLS-DA 技術,比較分析卵巢癌患者、良性卵巢腫瘤患者以及子宮肌瘤患者尿液樣本的代謝組學數(shù)據(jù),成功鑒定出了多種卵巢癌生物標志物[44]。在描述肝細胞癌的脂質(zhì)代謝紊亂中,基于PCA、OPLS-DA的脂質(zhì)組學分析結果,對肝細胞癌的研究提供新的見解[53]。同樣的,運用脂質(zhì)組學探索不同肝纖維化的病理生理學特點,基于PCA、聚類分析提出了不同部位纖維化引起改變的見解[54]。

        在蛋白組學中的應用。在膿毒癥大鼠模型中,運用了蛋白質(zhì)組學方法,鑒定出100多種蛋白質(zhì),為篩選出更有價值的生物標志物,對有差異的蛋白進行邏輯回歸分析,找出了與膿毒癥密切相關的生物標志物,為膿毒癥的臨床診斷以及治療提供了新思路和線索[55]。運用聚類分析等方法對所得到的蛋白質(zhì)組學數(shù)據(jù)進行分析,分析了VSMCs蛋白質(zhì)磷酸化的表達模式,及其在不同的時間點表達差異的磷酸化蛋白參與了的細胞功能以及信號通路,構建了動態(tài)的磷酸化信號通路[56]。

        在基因組學及轉(zhuǎn)錄組學中的應用?;诨虻谋磉_對腫瘤臨床的診斷標志物進行研究,根據(jù)所提取的數(shù)據(jù)特征屬性,運用分類分析中決策樹算法,構建分類樹,然后對其進行修整得到新的預測數(shù)據(jù),此方法使得肺癌微陣列數(shù)據(jù)分類的識別率最高能夠達到97%,且篩選出了STD1、MAPK13等基因,推斷這些基因?qū)τ谀[瘤疾病的產(chǎn)生起到了關鍵性作用[57]。基于分類分析的方法,對癌癥數(shù)據(jù)進行分析,指出了一個表觀遺傳治療的靶點,對后期研究提供極大幫助[58]。同樣,在肝硬化的轉(zhuǎn)錄組學研究中,對得到的mRNA進行轉(zhuǎn)錄組分析,運用聚類分析的方法,篩選出差異表達的mRNA,而后對其進行其他生物學分析,篩選研究價值的基因進而找出與肝硬化相關的基因[59]。

        在多個組學交叉研究中的應用。對于阿爾茲海默癥等復雜疾病,分析整合基因組學、轉(zhuǎn)錄組學、蛋白組學和代謝組學的數(shù)據(jù)對于全面了解該疾病至關重要,基于這幾種組學提出了與阿爾茲海默癥相關的新的病理機制并與其它疾病的關聯(lián)性[60]。

        4 軟件應用

        當前,針對生物醫(yī)學數(shù)據(jù)分析開發(fā)的軟件很多,每個軟件均有自己的優(yōu)勢與特點,常用的軟件列舉如表2。Enterprise具有多種強大的統(tǒng)計分析工具,能夠提供豐富的方法支持數(shù)據(jù)挖掘,并能快速構建大量的模型,提高預測的準確性[61]。Miner是一個快速、集成的數(shù)據(jù)挖掘軟件,能夠進行高效率的數(shù)據(jù)計算和靈活的多語言集成,具有面向?qū)ο蟮臄U展模塊[62]。Weka是基于JAVA的集成多種機器學習方法的系統(tǒng),具有開放式源碼的特點,可提供無監(jiān)督的聚類分析[63]??梢圆捎肦語言編程,支持多種數(shù)據(jù)的分析與統(tǒng)計[64]。OracleDATA同樣能夠集成多種數(shù)據(jù)挖掘算法,與Oracle數(shù)據(jù)庫緊密結合[62]。MineSet具有強大的可視化工具、樹可視化工具、圖可視化工具和多維數(shù)據(jù)可視化工具,用于實現(xiàn)數(shù)據(jù)和數(shù)據(jù)挖掘結果的可視化[65]。

        表2常用生物醫(yī)學數(shù)據(jù)分析軟件

        名稱廠家EnterpriseSASMinerSPSSWekaUniversity of WaicatoR語言Bell laboratoriesOracleDATAOracleMineSetSGI

        5 結束語

        隨著科學技術的發(fā)展,生物醫(yī)學數(shù)據(jù)的研究將會受到越來越多的重視,合理使用分析方法,從海量的數(shù)據(jù)中收集、挖掘可利用的信息,尋找內(nèi)在的聯(lián)系和規(guī)律,將為生物醫(yī)學研究帶來史無前例的機遇。在我國,雖然生物醫(yī)學數(shù)據(jù)已較為豐富,但運用數(shù)據(jù)分析方法進行處理和挖掘尚處于起步階段。本文綜述了生物醫(yī)學數(shù)據(jù)分析方法及其運用,以期幫助加深對其的理解,更好地推進“大數(shù)據(jù)”在生物醫(yī)學研究中的應用。

        猜你喜歡
        數(shù)據(jù)挖掘分類數(shù)據(jù)庫
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        波多野结衣免费一区视频| 亚洲黄片久久| 熟妇人妻丰满少妇一区| 日本精品少妇一区二区| 国产18禁黄网站免费观看| 久久99国产精品久久99| 中文人妻熟妇乱又伦精品| 永久免费观看国产裸体美女| 男人和女人高潮免费网站| 人妻在线中文字幕| 欧美中出在线| 91国内偷拍一区二区三区| 丝袜美腿制服诱惑一区二区| 成熟丰满熟妇av无码区| 99精品一区二区三区无码吞精| 91免费播放日韩一区二天天综合福利电影| 亚洲欧洲日产国码久在线| 一区二区中文字幕蜜桃| 日韩精品久久中文字幕| 国产 字幕 制服 中文 在线| 日韩欧美亚洲综合久久影院d3 | 亚洲综合婷婷久久| 欧美激情精品久久999| 亚洲性日韩一区二区三区| 国产亚洲成人av一区| 欧美性猛交xxxx乱大交3| 91久久精品无码人妻系列| 亚洲综合伊人久久综合| 人人妻人人澡人人爽人人精品av| 久久久久亚洲av无码专区首jn| 99久久久久国产| 久久亚洲精精品中文字幕早川悠里| 亚洲免费观看视频| 97精品人妻一区二区三区香蕉| 欧美精品aaa久久久影院| 亚洲产在线精品亚洲第一页| 无套无码孕妇啪啪| 中文字幕无码av激情不卡| 欧美精品高清在线xxxx| 成人影院在线观看视频免费| 久久亚洲色一区二区三区|