劉妍
摘要 近年來,數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,已經(jīng)同生物信息技術(shù)完美的結(jié)合在一起,并取得突破性的進(jìn)展,生物學(xué)的研究方法也發(fā)生著較大的變化。伴隨著強有力的數(shù)據(jù)分析技術(shù),數(shù)據(jù)挖掘技術(shù)已經(jīng)逐步成為現(xiàn)代生物數(shù)據(jù)庫發(fā)展的關(guān)鍵,在大規(guī)模數(shù)據(jù)處理方面具有卓越的能力。本文詳細(xì)總結(jié)了數(shù)據(jù)挖掘技術(shù)在基因組圖譜數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫和腫瘤數(shù)據(jù)庫中的大量應(yīng)用,并討論了數(shù)據(jù)挖掘技術(shù)在未來的發(fā)展?jié)摿Α?/p>
關(guān)鍵詞 生物數(shù)據(jù)庫;數(shù)據(jù)挖掘;蛋白質(zhì)
隨著現(xiàn)代生物技術(shù)的高速發(fā)展,量子力學(xué)、蛋白質(zhì)生物學(xué)方面產(chǎn)生的大量數(shù)據(jù),可以為基礎(chǔ)醫(yī)學(xué)研究提供了可參考的理論依據(jù),而數(shù)據(jù)庫挖掘技術(shù)的產(chǎn)生為獲得和處理這些數(shù)據(jù)提供了新的創(chuàng)造性追溯機制。蛋白質(zhì)結(jié)構(gòu)的多樣性,分子量的巨大都超出傳統(tǒng)分析和查找技術(shù),為了可以提高分析和推理速度,將數(shù)據(jù)挖掘技術(shù)引用到大分子量蛋白質(zhì)的數(shù)據(jù)處理方面,其卓越的能力可見一斑。伴隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,基因技術(shù)在生物研究中的作用越發(fā)顯著,但是其所需要處理的分子量巨大也對其發(fā)展造成一定的影響。
1生物數(shù)據(jù)庫挖掘技術(shù)簡介
數(shù)據(jù)挖掘(Data Mining),被用于從數(shù)據(jù)庫中提取、發(fā)現(xiàn)和預(yù)測數(shù)據(jù)等,經(jīng)常用于發(fā)現(xiàn)搜尋、分類、分析、關(guān)聯(lián)加工大量有用數(shù)據(jù)。Shapiro在1989年首次提出數(shù)據(jù)挖掘技術(shù),隨后,數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用在各個領(lǐng)域,包括銀行、保險、醫(yī)療、物流和生物等,并都取得了較好的效果。
近年來,隨著數(shù)據(jù)挖掘技術(shù)在臨床合理用藥方面的應(yīng)用,降低了我國住院人員藥物不良反應(yīng)的人數(shù),使臨床工作人員可以根據(jù)疾病種類、病人狀況和藥理學(xué)理論選擇最佳用藥及用量,同時給予患者最優(yōu)治療方案,如用灸法治療、火針以及中醫(yī)臨床方面的應(yīng)用,包括小兒肺炎、頸椎病、補益脾腎和老年病等的治療。此外,數(shù)據(jù)挖掘技術(shù)在對基因表達(dá)譜的分析中也發(fā)揮著顯著的作用,這主要使由于基因表達(dá)譜具有大量的數(shù)據(jù)、分析需求多樣性等需求。在目前已知的數(shù)據(jù)挖掘技術(shù)中,聚類法是應(yīng)用最為廣泛的一種挖掘技術(shù),主要應(yīng)用在腫瘤疾病數(shù)據(jù)庫的創(chuàng)建方面。
2數(shù)據(jù)挖掘中存在的問題
大多數(shù)的數(shù)據(jù)庫具有一定的關(guān)聯(lián)性,因此如何能更有效的利用這些具有一定關(guān)聯(lián)性的數(shù)據(jù)庫成為一個迫在眉睫的問題。領(lǐng)域間的差異,以及系統(tǒng)、編碼和結(jié)構(gòu)的多樣性,為通用的數(shù)據(jù)挖掘系統(tǒng)提供了更大的挑戰(zhàn)。同時,為了應(yīng)對數(shù)據(jù)庫的動態(tài)更新特性,還必須提供一套實時檢測算法,有效的應(yīng)對這些大量更新的數(shù)據(jù)。
3常用生物數(shù)據(jù)庫挖掘技術(shù)及應(yīng)用
目前,在市場上出現(xiàn)了大量的數(shù)據(jù)挖掘軟件,而這些軟件一般都是基于一個數(shù)據(jù)庫的統(tǒng)計和分析工具,其結(jié)合了:計算機數(shù)據(jù)庫、統(tǒng)計學(xué)、白分析、白適應(yīng)、神經(jīng)網(wǎng)絡(luò)、遺傳算法和信號處理等。并且,很多科研機構(gòu)和技術(shù)開發(fā)公司都先后成立了獨立的數(shù)據(jù)信息挖掘部門,其中,美國國家生物技術(shù)信息中心、歐洲生物信息研究所和日本信息生物中心。這些研究機構(gòu)或?qū)W術(shù)組織致力于研究數(shù)據(jù)采集工具,同時將傳統(tǒng)的統(tǒng)計方法結(jié)合先進(jìn)的白適應(yīng)算法,如自學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、卡爾曼濾波、模糊邏輯和簇聚等。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用在基因表達(dá)圖譜上可以為疾病的治療、檢測和預(yù)防提供了高效的理論依據(jù)。從基因表達(dá)圖譜計劃到蛋白質(zhì)組學(xué)的研究都可以引入數(shù)據(jù)挖掘技術(shù),特別是在蛋白質(zhì)序列的表達(dá)及其結(jié)構(gòu)預(yù)測方面。蛋白質(zhì)組學(xué)在很大程度上依靠數(shù)據(jù)庫技術(shù),目前全球有大量的蛋白質(zhì)組學(xué)數(shù)據(jù)庫使用數(shù)據(jù)庫挖掘技術(shù)。蛋白質(zhì)組學(xué)的主要任務(wù)之一就是描述基因組中蛋白質(zhì)編碼所執(zhí)行的功能,并確立蛋白質(zhì)的相互作用和蛋白質(zhì)之間的關(guān)聯(lián)結(jié)構(gòu)。從而將從中獲得的蛋白質(zhì)數(shù)據(jù)分析出來,并且可以在其中自動添加蛋白質(zhì)注釋。基因數(shù)據(jù)庫也都應(yīng)用了數(shù)據(jù)挖掘技術(shù),包括GenBank是美國國家生物技術(shù)信息中心(National Center for BiotechnologyInformation,NCBI)建立的DNA序列數(shù)據(jù)庫、序列文件,索引文件以及70 000多種生物的核苷酸序列;Uesc(University of Calibornia Santa Cruz)數(shù)據(jù)庫中包含人類、小鼠等多個物種的基因草圖,并提供一系列分析工具,數(shù)據(jù)挖掘技術(shù)就是其中之一。用戶可以通過數(shù)據(jù)庫白帶的挖掘技術(shù)高效和快速的瀏覽基因組的相關(guān)信息,并且可以獲得關(guān)于這部分基因組的注釋。例如已知基因、預(yù)測基因、表達(dá)序列標(biāo)簽、RNA、克隆組裝間隙和重疊,染色體帶型,小鼠同源性等,使用者可以根據(jù)自身情況添加或者修改相關(guān)注釋內(nèi)容;而Ensembl就是使用Ucsc的數(shù)據(jù)庫中的人類基因序列草圖為研究基礎(chǔ),兼顧真核生物基因組進(jìn)行自動詮釋并加以維護。相對于蛋白質(zhì)數(shù)據(jù)庫UniProt,它是整合了Swiss Prot、TrEMBL和PIR PSD三大數(shù)據(jù)庫的數(shù)據(jù)組成。數(shù)據(jù)挖掘技術(shù)主要用于基因組測序項目完成后,后續(xù)獲得的蛋白質(zhì)序列。它包含大量來自文獻(xiàn)的蛋白質(zhì)生物功能的信息。而在腫瘤數(shù)據(jù)庫Tcga中數(shù)據(jù)挖掘技術(shù)也蘊藏著難以想象的功能,在腫瘤的特殊類別或發(fā)展的不同方面都伴隨這基因組的特異變化,正是由于這些基因組的改變導(dǎo)致細(xì)胞分化、發(fā)育和生長通路的不正常,從而引發(fā)細(xì)胞不正常地失控增值和生長。而Tcga數(shù)據(jù)庫采用的數(shù)據(jù)挖掘技術(shù)正試圖通過應(yīng)用基因組分析技術(shù)特別是采用大規(guī)模的基因組測序,將癌癥的基因組變異圖譜繪制出來。通過數(shù)據(jù)挖掘技術(shù)系統(tǒng)的分析,從而找到所有致癌或抑制癌癥基因的微變化。了解癌細(xì)胞發(fā)生、發(fā)展的機制,在此基礎(chǔ)上取得新的診斷和治療方法,最后可以創(chuàng)立治療癌癥的最優(yōu)詞略。Tcga迄今為止已經(jīng)成為世界上最大一項基因工程,其繪制的癌癥基因圖譜有助于把研究人員從目前逐個追蹤基因的大量勞動中解放出來,可以快速開發(fā)和設(shè)計最優(yōu)抗癌藥物。目前已經(jīng)將肺癌、神經(jīng)酵母細(xì)胞瘤和卵巢癌三種頭號癌癥和腫瘤的基因組譜確立研究的重點。然后利用數(shù)據(jù)挖掘技術(shù),在Tcga數(shù)據(jù)庫中系統(tǒng)的找出并明確與癌癥相關(guān)的基因變異以及其他變異。在數(shù)據(jù)庫KEGG中為了了解高級功能和生物系統(tǒng),尤其是大型分子型數(shù)據(jù)集成生成的基因組測序和其他高通量試驗技術(shù)的使用程序數(shù)據(jù)庫資源。在后基因時代一個重大的挑戰(zhàn)就是如何利用細(xì)胞在計算機上完整的表達(dá)和預(yù)測,同時利用挖掘技術(shù)對較高層次和復(fù)雜細(xì)胞活動做出正確的計算預(yù)測。所給出的大量染色體信息中,蛋白質(zhì)相互作用的網(wǎng)絡(luò)預(yù)測提供高校的計算方法。
4總結(jié)和展望
隨著大數(shù)據(jù)和網(wǎng)絡(luò)時代的到來,數(shù)據(jù)挖掘技術(shù)逐漸演變成大規(guī)模數(shù)據(jù)庫中數(shù)據(jù)分析和提取的重要手段之一。將生物學(xué)與信息挖掘技術(shù)相結(jié)合已經(jīng)逐漸成為生物數(shù)據(jù)庫發(fā)展進(jìn)程的關(guān)鍵技術(shù)之一。本文主要研究大型數(shù)據(jù)庫技術(shù)和數(shù)據(jù)挖掘技術(shù)在基因數(shù)據(jù)庫、腫瘤數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫中的應(yīng)用,總結(jié)了數(shù)據(jù)挖掘技術(shù)在生物數(shù)據(jù)處理方面的應(yīng)用特點,發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)以適應(yīng)生物數(shù)據(jù)連續(xù)、大量及網(wǎng)絡(luò)性等特點,在基因表達(dá)、蛋白質(zhì)預(yù)測、醫(yī)療診斷等方面發(fā)揮著突出貢獻(xiàn)。endprint