張燕 胡剛
摘 要:貝葉斯網(wǎng)絡(luò)方法將概率理論知識(shí)與圖論結(jié)合,其有圖形化表示、因果關(guān)系清晰以及不確定性推理等優(yōu)點(diǎn), 將貝葉斯網(wǎng)絡(luò)引入到高通量基因表達(dá)譜數(shù)據(jù)中并進(jìn)行概率推理,從概率角度描述了各基因間的依賴關(guān)系,從而闡明了整個(gè)基因組之間的調(diào)控網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)模型本身具有強(qiáng)大的推理機(jī)制和解釋功能,通過測(cè)定DNA序列,分析基因表達(dá)譜數(shù)據(jù),完成序列分析、結(jié)構(gòu)預(yù)測(cè)及進(jìn)化分析等,實(shí)現(xiàn)了貝葉斯網(wǎng)絡(luò)在生物信息學(xué)領(lǐng)域的應(yīng)用。
關(guān)鍵詞:貝葉斯網(wǎng)絡(luò);基因;生物信息學(xué)
一、引言
生物信息學(xué)是隨著人類基因組計(jì)劃的啟動(dòng)而興起的一門新的交叉學(xué)科,主要涉及生物學(xué)、數(shù)學(xué)及計(jì)算機(jī)科學(xué)等。它的研究對(duì)象是分子生物學(xué)數(shù)據(jù)庫,通過使用多種學(xué)科理論及工具,對(duì)海量的原始序列數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、加工、處理、解釋和傳播并從中發(fā)現(xiàn)新的規(guī)律而獲取生物學(xué)新知識(shí),進(jìn)而揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律”[1]。
隨著測(cè)序技術(shù)的發(fā)展,測(cè)序成本不斷降低,使得高通量測(cè)序逐漸成為生命科學(xué)研究的常規(guī)實(shí)驗(yàn)。然而測(cè)序產(chǎn)生的高通量基因表達(dá)譜數(shù)據(jù)正以爆炸式的速度增長(zhǎng),研究者們?cè)噲D從對(duì)這些數(shù)據(jù)的分析中得到傳統(tǒng)生物學(xué)方法無法得到或難以得到的信息。隨著基因表達(dá)譜數(shù)據(jù)量的增大,生物計(jì)算對(duì)于運(yùn)算速度、數(shù)據(jù)存儲(chǔ)、計(jì)算成本等方面的要求也越來越高。而貝葉斯網(wǎng)絡(luò)[2]解決了這一問題。貝葉斯網(wǎng)絡(luò)方法將概率理論知識(shí)與圖論結(jié)合,其有圖形化表示、因果關(guān)系清晰以及不確定性推理等優(yōu)點(diǎn),很好地滿足了這些要求。
高通量基因表達(dá)譜數(shù)據(jù)由于驚人的增長(zhǎng)速度而形成的對(duì)存儲(chǔ)能力和計(jì)算能力超常規(guī)的增長(zhǎng)要求,使得生物信息學(xué)領(lǐng)域區(qū)別于其他行業(yè),對(duì)技術(shù)有更高要求,也使得越來越多的數(shù)學(xué)家、生物學(xué)家和計(jì)算機(jī)學(xué)家認(rèn)識(shí)到準(zhǔn)確處理生物信息的必要性和迫切性。
將貝葉斯網(wǎng)絡(luò)引入到高通量基因表達(dá)譜數(shù)據(jù)中并進(jìn)行概率推理,從概率角度描述了各基因間的依賴關(guān)系,從而闡明了整個(gè)基因組之間的調(diào)控網(wǎng)絡(luò)。同時(shí)貝葉斯網(wǎng)絡(luò)模型本身具有強(qiáng)大的推理機(jī)制和解釋功能[3],通過測(cè)定DNA序列,分析基因表達(dá)譜數(shù)據(jù),完成序列分析、結(jié)構(gòu)預(yù)測(cè)及進(jìn)化分析等,實(shí)現(xiàn)了貝葉斯網(wǎng)絡(luò)在生物信息學(xué)領(lǐng)域的應(yīng)用。
基因表達(dá)譜數(shù)據(jù)是“天然”的大數(shù)據(jù),計(jì)算分析的價(jià)值會(huì)超過測(cè)序本身,與貝葉斯網(wǎng)絡(luò)和大數(shù)據(jù)技術(shù)的結(jié)合是大勢(shì)所趨。作為國內(nèi)測(cè)序巨頭,華大基因股份有限公司CEO尹燁說過,“基因測(cè)序?yàn)樯锛夹g(shù)帶來的改變,為生命創(chuàng)造的價(jià)值,值得我們?yōu)橹Α薄?/p>
二、國內(nèi)外研究現(xiàn)狀分析
生物信息學(xué)概念的萌芽最早起源于1956年在美國田納西州蓋特林堡舉辦的“生物學(xué)中的信息理論研討會(huì)”上,該會(huì)議探討了生物學(xué)和信息理論研究的結(jié)合問題。1977年Sanger通過他發(fā)明的DNA序列快速測(cè)定法確定了第一個(gè)完整生物的DNA順序。隨著DNA序列數(shù)據(jù)的日益增長(zhǎng),如何有效地存儲(chǔ)加工分析利用日益增多的DNA序列數(shù)據(jù)成了迫切需要解決的問題。
近幾年,一系列數(shù)據(jù)庫的誕生和互聯(lián)網(wǎng)的推廣應(yīng)用使得存儲(chǔ)大規(guī)模序列數(shù)據(jù)的物質(zhì)條件基本成熟, 對(duì)于大規(guī)模數(shù)據(jù)的服務(wù)和利用也取得了實(shí)際經(jīng)驗(yàn)。隨著人類基因組計(jì)劃的順利進(jìn)行,基因組研究的重心已經(jīng)轉(zhuǎn)移到了功能基因組學(xué), 而基因表達(dá)譜數(shù)據(jù)為此提供了最好的技術(shù)平臺(tái),利用基因表達(dá)譜數(shù)據(jù)進(jìn)行的表達(dá)水平檢測(cè)可自動(dòng)、快速、高效地檢測(cè)成千上萬個(gè)基因的表達(dá)情況。通過檢測(cè)基因表達(dá)譜數(shù)據(jù)的表達(dá)水平, 可以進(jìn)行腫瘤診斷、類型預(yù)測(cè)、基因調(diào)控網(wǎng)絡(luò)等研究。
隨著微陣列技術(shù)的發(fā)展和微陣列實(shí)驗(yàn)數(shù)據(jù)的不斷積累,研究者們轉(zhuǎn)向通過對(duì)基因間相互關(guān)系的研究,重構(gòu)基因調(diào)控網(wǎng)絡(luò), 進(jìn)一步找到是哪些基因的共同或相互作用導(dǎo)致了這一個(gè)基因的表達(dá)異常,從而探索疾病發(fā)生、發(fā)展的根源和機(jī)制。
迄今為止,研究基因網(wǎng)絡(luò)的模型很多,也有不同的分類方法:離散網(wǎng)絡(luò)模型(如Boolean network model)和連續(xù)網(wǎng)絡(luò)模型(如Corelation metric construction, CMC),確定型網(wǎng)絡(luò)模型和隨機(jī)網(wǎng)絡(luò)模型,定量網(wǎng)絡(luò)模型和定性網(wǎng)絡(luò)模型等[4]。
目前國外許多學(xué)者和研究結(jié)構(gòu)都對(duì)貝葉斯網(wǎng)絡(luò)進(jìn)行了深入的研究主要集中在以下幾個(gè)方面:基于貝葉斯網(wǎng)絡(luò)的推理;基于貝葉斯網(wǎng)絡(luò)的學(xué)習(xí);基于貝葉斯網(wǎng)絡(luò)的應(yīng)用;數(shù)據(jù)挖掘中貝葉斯網(wǎng)絡(luò)的建造。
目前,隨著高通量測(cè)序技術(shù)的快速發(fā)展,生物信息學(xué)進(jìn)入組學(xué)時(shí)高通量基因表達(dá)譜數(shù)據(jù)海量生物數(shù)據(jù)的存儲(chǔ)和分析等問題亟待需要利用貝葉斯網(wǎng)絡(luò)來解決。
貝葉斯理論起源于Reverend Thomas Bayes 發(fā)表的論文“關(guān)于幾率性問題求解的評(píng)論”。20世紀(jì)50年代, 以Robbins為代表提出了將經(jīng)驗(yàn)貝葉斯方法和經(jīng)典方法相結(jié)合, 這引起統(tǒng)計(jì)界的廣泛關(guān)注。1958年英國歷史最悠久的統(tǒng)計(jì)學(xué)雜志Biometrika又一次全文刊登了Bayes的論文。之后,Pearl等提出了貝葉斯網(wǎng)絡(luò),并且將貝葉斯網(wǎng)絡(luò)應(yīng)用到人工智能方面進(jìn)行概率推理,在此基礎(chǔ)上并將貝葉斯網(wǎng)絡(luò)成功應(yīng)用于專家系統(tǒng)等領(lǐng)域, 使得貝葉斯網(wǎng)絡(luò)成為不確定專家知識(shí)和推理的重要方法之一,這是十多年來在這些領(lǐng)域的一個(gè)研究熱點(diǎn)。近幾年,貝葉斯方法成為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)、用戶智能交互、信息重獲、醫(yī)療診斷等的一個(gè)重要研究方向。
貝葉斯網(wǎng)絡(luò)的發(fā)展經(jīng)歷了以下幾個(gè)階段:首先,建立了貝葉斯網(wǎng)絡(luò)的基礎(chǔ)理論知識(shí)體系和對(duì)不確定性推理的研究; 其次,研究了如何根據(jù)數(shù)據(jù)以及專家知識(shí)建立貝葉斯網(wǎng)絡(luò)的問題,并研究出許多經(jīng)典的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法; 最后,人們將許多領(lǐng)域的實(shí)際問題引入到貝葉斯網(wǎng)絡(luò)中。目前,貝葉斯網(wǎng)絡(luò)已經(jīng)被廣泛地用于解決許多領(lǐng)域的大量實(shí)際問題中,并且取得了較好的效果。
三、結(jié)論
貝葉斯網(wǎng)絡(luò)模型本身具有強(qiáng)大的推理機(jī)制和解釋功能,通過測(cè)定DNA序列,分析基因表達(dá)譜數(shù)據(jù),完成序列分析、結(jié)構(gòu)預(yù)測(cè)及進(jìn)化分析等,實(shí)現(xiàn)了貝葉斯網(wǎng)絡(luò)在生物信息學(xué)領(lǐng)域的應(yīng)用。
參考文獻(xiàn):
[1] 陳竺, 基因組科學(xué)與人類疾病 [M], 北京: 科學(xué)出版社, 2000.
[2] Gao Meihan, Cong Haibo, Li Chuancheng, et al. Comparison of Efficacy and Safety of Complementary and Alternative Therapies for scapulohumeral periarthritis: A protocol for Bayesian network meta-analysis[J]. Medicine, 100(18): 57--69, 2021.
[3] Chen Cheng, Chen Qiuwen, Li Gang, et al. A novel multi-source data fusion method based on Bayesian inference for accurate estimation of chlorophyll-a concentration over eutrophic lakes[J]. Environmental Modelling & Software, 141: 105--117, 2021.
[4] 王翼飛, 史定華, 生物信息學(xué)[M], 化學(xué)工業(yè)出版社, 260--262, 2006.