亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的基因表達芯片研究

        2022-05-30 15:09:40張燕盧倩楠
        客聯(lián) 2022年5期
        關(guān)鍵詞:生物學(xué)數(shù)據(jù)挖掘

        張燕 盧倩楠

        摘 要:取合適基因表達芯片數(shù)據(jù)庫,預(yù)處理后,去掉殘缺、異質(zhì)數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),進行序列分析、結(jié)構(gòu)預(yù)測及進化分析等??蓱?yīng)用于生物學(xué)和腫瘤學(xué)的研究,觀察疾病所引起的基因表達變化,找出作用重要的治病基因,揭示生命現(xiàn)象的本質(zhì)。

        關(guān)鍵詞:基因表達芯片;數(shù)據(jù)挖掘;生物學(xué)

        一、背景

        在TCGA、GEO等基因表達數(shù)據(jù)庫中選擇合適的基因表達芯片數(shù)據(jù)[1],做去殘缺、異質(zhì)數(shù)據(jù)處理后采用數(shù)據(jù)挖掘方法應(yīng)用到基因表達芯片數(shù)據(jù)中,從不同角度對數(shù)據(jù)進行挖掘,并結(jié)合以建立表示基因之間相互影響的模型,進行序列分、結(jié)構(gòu)預(yù)測和進化分析。

        立足基因,主要研究從基因表達芯片數(shù)據(jù)中提取有效的數(shù)據(jù),從而可以更好地解決海量生物信息數(shù)據(jù)的存儲、處理、計算和分析等問題。通過準(zhǔn)確對基因表達芯片數(shù)據(jù)進行測序分析并預(yù)測,及時應(yīng)用到白血病、乳腺癌等疾病的臨床診斷中,可使得該技術(shù)及早造福社會,帶來經(jīng)濟效益。

        基因表達芯片數(shù)據(jù)有形形色色的數(shù)據(jù)庫,其中有些數(shù)據(jù)庫更新速度慢,本項目旨在研究最新發(fā)現(xiàn)的有代表性的數(shù)據(jù),構(gòu)建網(wǎng)絡(luò)模型,可廣泛應(yīng)用于生物學(xué)和腫瘤學(xué)的研究,觀察疾病所引起的基因表達變化,并找出作用重要的治病基因,對揭示生命現(xiàn)象的本質(zhì)有重要意義。

        二、基因表達芯片的特點

        1.數(shù)據(jù)的高維性。在生物信息學(xué)領(lǐng)域,基因表達芯片技術(shù)的進步已經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達數(shù)據(jù)。具有時間分量或空間分量的數(shù)據(jù)集也通常具有很高的維度。例如,考慮包含不同地區(qū)的溫度測量結(jié)果的數(shù)據(jù)集,如果在一個相當(dāng)長的時間周期內(nèi)反復(fù)地測量,則維數(shù)(特征數(shù))的增長正比于測量的次數(shù)。為低維數(shù)據(jù)開發(fā)的傳統(tǒng)數(shù)據(jù)分析技術(shù)通常不能很好地處理這類高維數(shù)據(jù),如維災(zāi)難問題。此外,對于某些數(shù)據(jù)分析算法,隨著維數(shù)(特征數(shù))的增加,計算復(fù)雜度會迅速增加。

        2.采用算法的可伸縮性。由于數(shù)據(jù)產(chǎn)生和采集技術(shù)的進步,數(shù)太字節(jié)(TB)、數(shù)拍字節(jié)(PB)甚至數(shù)艾字節(jié)(EB)的數(shù)據(jù)集越來越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是可伸縮的。許多數(shù)據(jù)挖掘算法采用特殊的搜索策略來處理指數(shù)級的搜索問題。為實現(xiàn)可伸縮可能還需要實現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能以有效的方式訪問每個記錄。

        3.處理異構(gòu)數(shù)據(jù)和復(fù)雜數(shù)據(jù)的迫切性。通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在生物信息學(xué)、醫(yī)學(xué)和腫瘤學(xué)領(lǐng)域的作用越來越大,越來越需要能夠處理異構(gòu)屬性的技術(shù)。近年來,出現(xiàn)了更復(fù)雜的數(shù)據(jù)對象,如具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù),這些數(shù)據(jù)迫切需要處理。

        三、常用數(shù)據(jù)挖掘方法

        1.決策樹法。決策樹是通過一系列的規(guī)則對數(shù)據(jù)進行分類的過程。它提供了一種在給定條件下會得到給定的值的類似規(guī)則的方法,并著眼于從一組無次序無規(guī)則的事例中推理出使用決策樹表示形式的分類規(guī)則,它通常用來形成分類器和預(yù)測模型,并可以對未知數(shù)據(jù)進行分類、預(yù)測等。它是以自頂向下的遞歸方式,使決策樹的內(nèi)部結(jié)點進行屬性值的比較,根據(jù)不同的屬性值從根結(jié)點向下分支,葉結(jié)點表示的是要學(xué)習(xí)劃分的類,從根結(jié)點到葉結(jié)點的一條路徑就可以看成是一條分類規(guī)則,而整個決策樹就對應(yīng)著一組吸取表達式規(guī)則。決策樹的分類方法首先要利用訓(xùn)練數(shù)據(jù)集建立起決策樹的模型,并根據(jù)該模型進行輸入數(shù)據(jù)的分類。其中的關(guān)鍵問題是決策樹的構(gòu)建過程,這包括建樹(Tree Building)和剪枝(Tree Pruning)。其中建樹是通過遞歸過程,最終得到一棵決策樹;剪枝則是為了降低噪聲數(shù)據(jù)對分類正確率的影響。本研究應(yīng)用決策樹的建樹算法來確定各結(jié)點的順序。

        決策樹方法廣泛應(yīng)用在分類、預(yù)測和規(guī)則提取等領(lǐng)域中,尤其Quinlan JR 提出經(jīng)典ID3算法以后,決策樹進一步應(yīng)用在機器學(xué)習(xí)、知識發(fā)現(xiàn)領(lǐng)域并得到了巨大的發(fā)展。ID3算法是一種以信息熵為基礎(chǔ)的決策樹學(xué)習(xí)算法,它是決策樹方法的代表,目前大部分的決策樹算法都是在它的基礎(chǔ)上加以改進實現(xiàn)的。ID3算法把Shannon信息論應(yīng)用到了決策樹算法中,并采用分治策略,使得在決策樹的各級結(jié)點上選擇屬性時檢測所有的屬性,并選擇信息增益最大的屬性作為決策樹的結(jié)點,由該屬性的不同取值建立幾個分支,再對分支的子集遞歸調(diào)用這種方法建立決策樹結(jié)點的分支,如此反復(fù)一直持續(xù)到所有子集僅包含同一類別的數(shù)據(jù)為止。最后得到一棵決策樹,這棵決策樹可以對新的樣本進行分類。ID3由于其理論比較清晰、方法簡單且學(xué)習(xí)能力較強,很適合于處理大規(guī)模的學(xué)習(xí)問題,是數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域中的一個較好的范例,同時也是一種知識獲取的有力工具。

        Quinlan針對ID3存在的一些缺點提出了C4.5算法,它是ID3算法的繼承,同時也成為后來許多決策樹算法的基礎(chǔ)。在ID3的基礎(chǔ)上,C4.5算法融入了對連續(xù)型屬性、屬性值空缺的處理,并對樹剪枝有了比較良好的方法。C4.5使用基于信息增益率來選擇測試屬性,(信息增益率等于信息增益對分割信息量的比值)。

        2.神經(jīng)網(wǎng)絡(luò)法。神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型,它將每一個連接看做一個處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點是具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶功能,對復(fù)雜情況能得到精確的預(yù)測結(jié)果;缺點首先是不適合處理高維變量,不能觀察中間的學(xué)習(xí)過程,具有“黑箱”性,輸出結(jié)果也難以解釋;其次是需要較長的學(xué)習(xí)時間。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘的聚類技術(shù)中。

        3.遺傳算法。遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的、基于進化理論的機器學(xué)習(xí)方法。它的基本觀點是“適者生存”原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要的優(yōu)點是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù);缺點是需要的參數(shù)太多,編碼困難,一般計算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),能夠解決其他技術(shù)難以解決的問題。

        4.數(shù)據(jù)離散化方法

        數(shù)據(jù)的離散化過程,是指將一個連續(xù)的屬性劃分成為若干個屬性值區(qū)間后并使用一個離散型數(shù)值代表每一區(qū)間的過程。根據(jù)貝葉斯網(wǎng)絡(luò)的數(shù)學(xué)原理要求可知,使用連續(xù)變量構(gòu)建起來的貝葉斯網(wǎng)絡(luò)沒有使用離散變量構(gòu)建的準(zhǔn)確性高。所以在建模之前一定要將待分析數(shù)據(jù)離散化。數(shù)據(jù)離散化的方法在機器學(xué)習(xí)中起了非常重要的作用。和連續(xù)型數(shù)據(jù)比較,離散的數(shù)據(jù)準(zhǔn)確性高、更強的抗數(shù)據(jù)噪聲的能力和更小的存儲空間需求;更接近知識表達層次,更容易被理解、解釋、應(yīng)用;從離散數(shù)據(jù)中學(xué)得的知識形式更為簡潔;相比于連續(xù)型數(shù)據(jù),離散數(shù)據(jù)可在更廣泛的領(lǐng)域中使用,比如關(guān)聯(lián)規(guī)則、粗糙集分析、支持向量機等的機器學(xué)習(xí)方法,只能處理離散數(shù)據(jù)。貝葉斯網(wǎng)絡(luò)支持離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù),只是由于連續(xù)型數(shù)據(jù)的實際意義往往無法明確,而數(shù)據(jù)離散化可明顯提高網(wǎng)絡(luò)學(xué)習(xí)精度。數(shù)據(jù)離散化方法很多,基因表達芯片數(shù)據(jù)中經(jīng)常使用的離散化方法有固定值法、Z值法等等。

        5.構(gòu)建等價類法。如果不同的有向無環(huán)圖表示了相同的聯(lián)合概率分布,可以稱這些有向無環(huán)圖構(gòu)成了貝葉斯等價類。如果將有向無環(huán)圖中的有向弧視為無向弧,則這些圖有完全相同的網(wǎng)絡(luò)結(jié)構(gòu)。

        定義:馬爾科夫等價:不同的網(wǎng)絡(luò)之間存在等價關(guān)系,等價的網(wǎng)絡(luò)表示的聯(lián)合概率分布相同,這樣的等價關(guān)系稱為馬爾科夫等價。

        參考文獻:

        [1] Lu Yue, Qi Yao, Li Li, et al. Gene Expression of PSORI-CM01 and Yinxieling in the Treatment of Psoriasis Vulgaris[J]. Evidence-Based Complementary and Alternative Medicine, 2021.

        猜你喜歡
        生物學(xué)數(shù)據(jù)挖掘
        谷稗的生物學(xué)特性和栽培技術(shù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        初中生物學(xué)糾錯本的建立與使用
        初中生物學(xué)糾錯本的建立與使用
        Keller-Segel生物學(xué)方程組周期解的爆破
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        PEDF抗腫瘤的生物學(xué)作用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        久久狼精品一区二区三区| 亚洲狼人社区av在线观看| 好爽要高潮了在线观看| 久久本道久久综合伊人| 猫咪av成人永久网站在线观看| 国产小受呻吟gv视频在线观看| 国产成人久久精品激情91| 国产精品又爽又粗又猛又黄 | 男女激情视频网站在线| 欧美69久成人做爰视频| 免费无码肉片在线观看| 亚洲精品2区在线观看| 二区久久国产乱子伦免费精品| 亚洲一区二区三区亚洲| 欧美xxxxx高潮喷水麻豆| 啪啪无码人妻丰满熟妇| 国产精品天天看大片特色视频| 少妇我被躁爽到高潮在线影片| 亚洲女av中文字幕一区二区| 亚洲av成人噜噜无码网站| 久久久久亚洲av无码尤物| 日产精品一区二区三区免费| 一区二区三区四区中文字幕av| 色综合色狠狠天天综合色| 日韩在线看片| 麻豆成人久久精品二区三区91| 亚洲色偷偷综合亚洲avyp| 欧美丰满大屁股ass| 亚洲色欲色欲www成人网| 日本亚洲中文字幕一区| 亚洲精品乱码8久久久久久日本| 999国产精品视频| 国产精品二区三区在线观看| 亚洲自偷自拍另类第1页| 久久99精品久久久久久hb无码| 2022AV一区在线| 日韩有码中文字幕在线观看| 乱人伦中文无码视频在线观看| 日本一区二区三区中文字幕最新| 日韩av一区二区不卡在线| 品色堂永远免费|