昂清,王衛(wèi)東,王國靜,彭福來
1 解放軍總醫(yī)院醫(yī)學(xué)工程保障中心生物醫(yī)學(xué)工程研究室,北京市,100853
2 北京理工大學(xué)信息與電子學(xué)院,北京市,100081
2001年2月12日,美國Celera公司與人類基因組分別在《科學(xué)》[1]和《自然》[2]雜志上公布了人類基因組精細(xì)圖譜及其初步分析結(jié)果。兩個(gè)不同的組織使用不同的方法實(shí)現(xiàn)了共同的目標(biāo):完成對整個(gè)人類基因組的測序工作,并且兩者的結(jié)果驚人的相似。整個(gè)人類基因組測序工作的基本完成,為人類生命科學(xué)開辟了一個(gè)新紀(jì)元。它對生命本質(zhì)、人類進(jìn)化、生物遺傳、個(gè)體差異、發(fā)病機(jī)制、疾病防治、新藥開發(fā)、健康長壽等領(lǐng)域,以及對整個(gè)生物學(xué)都具有深遠(yuǎn)的影響和重大意義,標(biāo)志著人類生命科學(xué)一個(gè)新時(shí)代的來臨。
人類基因組測序計(jì)劃[3]完成后,國內(nèi)外學(xué)術(shù)界掀起了如火如荼的基因組學(xué)研究。這表明人類探索自身的進(jìn)程由數(shù)據(jù)采集發(fā)展到了數(shù)據(jù)分析和挖掘的新階段,標(biāo)志著現(xiàn)代醫(yī)學(xué)基礎(chǔ)和臨床研究正在逐步走向縱深。
隨著數(shù)據(jù)采集的新理論、新技術(shù)和新設(shè)備的不斷涌現(xiàn),原始基因數(shù)據(jù)的維數(shù)不斷增加,隨之而來的就是數(shù)據(jù)處理和分析方面的問題。為了切實(shí)提高基因數(shù)據(jù)處理的效率,增加數(shù)據(jù)挖掘結(jié)果對疾病早期預(yù)警、診斷和個(gè)體化治療方案制定的有效性[4],基因數(shù)據(jù)特征選擇和挖掘方法的確定就顯得至關(guān)重要。以往的研究大多是在對原始數(shù)據(jù)進(jìn)行簡單預(yù)處理后,僅從統(tǒng)計(jì)學(xué)[5]、人工智能[6-7]或機(jī)器學(xué)習(xí)[8]的單一角度出發(fā)開展研究。本文在參閱大量文獻(xiàn)資料的基礎(chǔ)上,提出了基于信息學(xué)理論的特征選擇方法,同時(shí)利用流形學(xué)習(xí)理論中非線性降維ISOMAP算法建立數(shù)學(xué)模型,初步實(shí)現(xiàn)了基于基因數(shù)據(jù)的疾病智能分類研究。
基因數(shù)據(jù)是一種較為常見的臨床醫(yī)學(xué)數(shù)據(jù)類型。由于醫(yī)學(xué)數(shù)據(jù)采集儀器和設(shè)備的快速發(fā)展,導(dǎo)致基因數(shù)據(jù)量和維數(shù)的大幅增加。但因各種主客觀原因,例如儀器設(shè)備的精度、人為因素等的影響,數(shù)據(jù)中存在著一定的誤差、錯(cuò)誤甚至冗余。
誤差在一定的精度范圍內(nèi)難以避免,錯(cuò)誤則可以通過修正加以改正,而冗余問題則較難避免或修正。冗余的存在,不僅會(huì)降低數(shù)據(jù)處理的效率,而且會(huì)對處理結(jié)果產(chǎn)生一些影響,甚至?xí)?dǎo)致其偏離研究的目標(biāo)。由于版面限制,下圖1僅顯示了部分原始淋巴瘤基因數(shù)據(jù)[9]。
圖1 部分原始基因數(shù)據(jù)(淋巴瘤)Fig.1 Part of raw gene data (lymphoma)
為了提高處理效率和增加處理結(jié)果的可解釋性,迫切需要在現(xiàn)有研究方法的基礎(chǔ)上,根據(jù)基因數(shù)據(jù)的特點(diǎn)設(shè)計(jì)適合的處理和分析方法。
作為知識發(fā)現(xiàn)(KDD, Knowledge Discovery in Databases)的重要組成部分,依照數(shù)據(jù)挖掘的一般過程,基因數(shù)據(jù)挖掘也可以大致分為以下幾個(gè)基本步驟,如圖2所示。
圖2 基因數(shù)據(jù)挖掘基本流程Fig.2 Basic flow of gene data mining
對原始數(shù)據(jù)進(jìn)行預(yù)處理,就是為了清洗、完善、補(bǔ)全甚至歸一化數(shù)據(jù),從而為后續(xù)的數(shù)據(jù)挖掘鋪平道路。在本研究中,將基因的表達(dá)離散化為三個(gè)狀態(tài),用-1、0、1來表示。
圖3 預(yù)處理后的基因數(shù)據(jù)(淋巴瘤)Fig.3.Preprocessing data of raw gene (lymphoma)
高維是基因數(shù)據(jù)的基本特點(diǎn)之一,但這并不意味著所有數(shù)據(jù)都是有效的,有很大一部分基因數(shù)據(jù)對于疾病分類和診斷來說是無效的,因此在開展研究時(shí)需要剔除這部分?jǐn)?shù)據(jù),以降低計(jì)算量和難度。特征選擇可以實(shí)現(xiàn)高維數(shù)據(jù)向低維數(shù)據(jù)的轉(zhuǎn)變,它其實(shí)是預(yù)處理的一個(gè)重要步驟,將其單列出來就是為了強(qiáng)調(diào)它的重要性。通過選擇適當(dāng)?shù)奶卣髯蛹蕹哂嗟幕蛱卣?,在降低分析和處理的?jì)算量和難度的同時(shí),利于發(fā)現(xiàn)與疾病早期預(yù)警和診斷高度相關(guān)的特異性基因表達(dá),因此開展基因特征選擇是非常必要的。
信息學(xué)理論的概念和方法,在信號處理與分析的眾多領(lǐng)域發(fā)揮著舉足輕重的作用,將其應(yīng)用于基因數(shù)據(jù)的挖掘研究,必將推動(dòng)信息學(xué)與醫(yī)學(xué)的融合與共同發(fā)展。
運(yùn)用信息學(xué)理論來理解基因間的關(guān)系:若兩個(gè)基因高度相關(guān),當(dāng)其中一個(gè)基因與疾病分類有強(qiáng)聯(lián)系時(shí),另一個(gè)必然與疾病分類存在強(qiáng)聯(lián)系;在特征子集選擇時(shí)就要避免同時(shí)選擇這兩個(gè)基因,否則在子集維數(shù)一定情況下會(huì)導(dǎo)致有效維數(shù)的減少。因此,開展特征選擇時(shí),應(yīng)使子集中的特征基因間盡可能地不相關(guān),即以冗余最小化來提高特征子集的有效性。選擇互信息作為衡量基因間冗余程度的參數(shù)進(jìn)行定量計(jì)算,互信息最小意味著所選擇的子集在特征數(shù)目一定的情況下能夠更全面地代表整個(gè)數(shù)據(jù)集。對于離散數(shù)據(jù),計(jì)算公式如下:
其中:S代表所選擇的基因特征子集,m是特征子集中特征基因的個(gè)數(shù),I(gi,gj)代表第i個(gè)基因與第j個(gè)基因的互信息。I(gi,gj)可用公式(2)來進(jìn)行計(jì)算:
當(dāng)一個(gè)基因在不同類型或亞型的疾病間表達(dá)特異性越高時(shí),則其與疾病的相關(guān)性越大,找到了這個(gè)基因就能從一定程度上判斷疾病的狀態(tài),這個(gè)基因在某種程度上可以被稱為疾病的標(biāo)記。因此,選擇特征子集時(shí),需要盡可能地選擇與疾病相關(guān)性最大的基因。運(yùn)用信息學(xué)理論來定量計(jì)算基因與疾病間的相關(guān)性:
其中:S與和m公式(1)中含義相同,h代表類別變量即疾病的類型,I(gi,h)表示第i個(gè)基因與類別變量h的互信息。
當(dāng)公式(1)和公式(3)同時(shí)滿足時(shí),所獲得的子集即為本研究所選擇的特征子集。為了簡化判別條件,假定公式(1)與公式(3)在特征選擇時(shí)所占的影響比重相等,合并后得到公式(4):
其中,Ω代表整個(gè)基因數(shù)據(jù)集,ΩS代表原始數(shù)據(jù)集選出特征子集Ω后剩余的子集。
文獻(xiàn)[10]認(rèn)為:特征基因的選擇方法,可按照基因在不同表現(xiàn)型中的特異表達(dá)對其進(jìn)行排序,并且選擇排在前面的50個(gè)基因作為特征基因。大量特征選擇實(shí)踐表明,在特征數(shù)目的確定方面沒有明確或公式可依的定量方法,盡管有少量研究表明根據(jù)數(shù)據(jù)分布的特點(diǎn)可以設(shè)置特征的數(shù)目,但到目前為止主要還是依靠經(jīng)驗(yàn)、直覺進(jìn)行判斷,絕大部分原因在于難以把握原始數(shù)據(jù)的分布特點(diǎn)。本研究將在實(shí)驗(yàn)結(jié)果部分顯示不同數(shù)目特征基因的建模分析結(jié)果。
流形(Manifold)的概念源自拓?fù)鋵W(xué),它表示一個(gè)局部處為歐幾里德的拓?fù)淇臻g[11]。局部具有歐式空間特性意味著對于空間上任一點(diǎn)都有一個(gè)鄰域,在這個(gè)鄰域中的拓?fù)淇臻g與m維歐式空間中的開放單位圓相同,即流形是一個(gè)局部可解析的拓?fù)淇臻g。
流形學(xué)習(xí)(Manifold Learning)的基本思想是:假設(shè)數(shù)據(jù)是均勻采樣于一個(gè)高維歐式空間中的低維流形,流形學(xué)習(xí)就是從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),并求出相應(yīng)的嵌入映射,以實(shí)現(xiàn)降維或者數(shù)據(jù)可視化。它是從觀測數(shù)據(jù)中尋找事物的本質(zhì),挖掘其內(nèi)在的規(guī)律,與醫(yī)學(xué)數(shù)據(jù)挖掘的目的相一致。
測地線(Geodesic)是流形中一個(gè)很重要的概念,它起源于大地測量學(xué)(Geodesy),被定義為空間中兩點(diǎn)的局域最短路徑。在測地線概念的基礎(chǔ)上,研究者發(fā)展了多種流形學(xué)習(xí)算法,Tenenbaum等人提出的ISOMAP算法[12]就是其中的一種。ISOMAP算法首先使用最近鄰圖中的最短路徑得到近似的測地線距離,代替不能表示內(nèi)在流形結(jié)構(gòu)的歐式距離,然后輸入多維尺度分析(MDS, Multidimensional Scaling)中進(jìn)行處理。其目的在于發(fā)現(xiàn)嵌入在高維數(shù)據(jù)集的內(nèi)在低維結(jié)構(gòu),屬于非線性降維范疇,已經(jīng)在圖像處理如人臉圖像、手寫數(shù)字圖像等方面得到了應(yīng)用。
具體的ISOMAP計(jì)算步驟如下:
1)計(jì)算每個(gè)點(diǎn)的近鄰點(diǎn) (用k近鄰或 口 鄰域);
2)在樣本集上定義一個(gè)賦權(quán)無向圖,如果Xi和Xj互為近鄰點(diǎn),則邊的權(quán)值為dX(i,j);
3)計(jì)算圖中兩點(diǎn)間的最短距離,記所得的距離矩陣為DG= {dG(i,j)} ;
4)用MDS求低維嵌入流形,代價(jià)函數(shù):
低維嵌入是τ(D)的第2小到第 d+1小的特征值所對應(yīng)的特征向量。
本文在對原始基因數(shù)據(jù)進(jìn)行特征選擇的基礎(chǔ)上,選用流形學(xué)習(xí)方法進(jìn)行建模研究。
實(shí)驗(yàn)原始數(shù)據(jù):淋巴瘤數(shù)據(jù)來自Alizadeh et al[9],96*4026,共96位患者,9個(gè)疾病亞類;來自NCI(National Cancer Institute, 美國國家癌癥研究院)的Ross et al[13]和Scherf et al[14],60*9703,共60位患者,9個(gè)疾病亞類;肺癌數(shù)據(jù)來自該院的Garber et al[15],73*918,共73位患者,7個(gè)疾病亞類;白血病數(shù)據(jù)來自該院的Golub et al[10],72*7070,72位患者,2個(gè)疾病亞類;結(jié)腸癌數(shù)據(jù)來自該院的Alon et al[16],62*2000,62個(gè)采樣樣本,分為腫瘤和正常兩類。
下圖4-8分別顯示5個(gè)原始基因數(shù)據(jù)集在經(jīng)過特征選擇和流形學(xué)習(xí)的建模過程后,不同特征數(shù)目情況下所顯示的低維流形。通過對比分析發(fā)現(xiàn):在原始數(shù)據(jù)維數(shù)遠(yuǎn)遠(yuǎn)大于特征數(shù)目的情況下,從m=50開始就逐漸顯示出流形學(xué)習(xí)的分類特性,間接證明了文獻(xiàn)[10]的特征數(shù)目確定理論;但是隨著特征數(shù)目的增加,又會(huì)出現(xiàn)疾病類別合并的現(xiàn)象。
圖4 淋巴瘤數(shù)據(jù)在不同數(shù)目特征基因的情況下的流形分析結(jié)果圖Fig.4.Manifold learning results of lymphoma under different number of characteristics
圖5 NCI數(shù)據(jù)在不同數(shù)目特征基因的情況下的流形分析結(jié)果圖Fig.5 Manifold learning results of nci under different number of characteristics
通過本研究設(shè)計(jì)的系統(tǒng)模型對基因數(shù)據(jù)進(jìn)行處理和分析,能夠在降低計(jì)算量和提高疾病分類準(zhǔn)確度方面獲得進(jìn)展,但是在以下幾個(gè)方面仍存在可改進(jìn)和完善之處:
圖6 肺癌數(shù)據(jù)在不同數(shù)目特征基因的情況下的流形分析結(jié)果圖Fig.6.Manifold learning results of lung under different number of characteristics
圖7 白血病數(shù)據(jù)在不同數(shù)目特征基因的情況下的流形分析結(jié)果圖Fig.7.Manifold learning results of leukemia under different number of characteristics
圖8 結(jié)腸癌數(shù)據(jù)在不同數(shù)目特征基因的情況下的流形分析結(jié)果圖Fig.8.Manifold learning results of colon under different number of characteristics
1) 在特征選擇的條件約束制定方面,本文中假設(shè)公式(1)和公式(3)對選擇的影響比重相等,但實(shí)際情況未必如此。因此,后續(xù)的研究將引入一個(gè)影響比重變量,根據(jù)建模結(jié)果進(jìn)行反饋調(diào)節(jié),以期發(fā)現(xiàn)更為合適的比重因子。
2) 從本質(zhì)上說,ISOMAP方法適合于處理內(nèi)部平坦的低維流形,不適于學(xué)習(xí)有較大內(nèi)在曲率的流形。因此,在原始基因數(shù)據(jù)內(nèi)部結(jié)構(gòu)是否平坦這一問題未知的情況下,開展研究存在一定的風(fēng)險(xiǎn)。隨著噪聲的增大,ISOMAP算法的可視化出現(xiàn)不穩(wěn)定現(xiàn)象,即低維流形中不同鄰域的數(shù)據(jù)點(diǎn)在投影后出現(xiàn)混雜現(xiàn)象。后續(xù)研究將改進(jìn)這一方法,使模型具有更強(qiáng)的普適性,從而能夠適用于更廣泛的醫(yī)學(xué)數(shù)據(jù)分析和處理問題。
總體說來,本文所設(shè)計(jì)的系統(tǒng)模型在基因數(shù)據(jù)分析和處理方面,具有一定的實(shí)用性和有效性,但其精確度和可解釋性仍有待進(jìn)一步提高。
[1]Venter, J.C, Adams, M.D, Myers, E.et al.The sequence of the human genome[J].Science, 2001, 291(5507): 1304-1351.
[2]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature, 2001,409(6822): 860-921.
[3]余國鷹.人類基因組測序草圖完成十年[J].中國心臟起搏與心電生理雜志, 2010, 24(3): 269.
[4]昂清, 王衛(wèi)東.生物標(biāo)記物的數(shù)據(jù)挖掘在臨床醫(yī)學(xué)中的研究[J].科學(xué)技術(shù)與工程, 2007, 7(6): 1237-1239, 1247.
[5]Wei Zhang, Ilya Shmulevich.Computational and statistical approaches to genomics[M].kluwer academic publishers, norwell,Massachusetts 02061 USA, 2002
[6]陳志宏, 嚴(yán)壯.人工神經(jīng)網(wǎng)絡(luò)在基因組信息學(xué)中的應(yīng)用[J].國外醫(yī)學(xué)(生物醫(yī)學(xué)工程分冊), 2002, 25(4): 145-149.
[7]昂清, 王衛(wèi)東.自組織特征映射在人群健康風(fēng)險(xiǎn)評估中的應(yīng)用研究[J].科學(xué)技術(shù)與工程, 2007, 7(9):2037-2041, 2057.
[8]詹超, 胡江洪.SVM在基因表達(dá)數(shù)據(jù)分類中的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2006, 16(3): 107-109.
[9]Alizadeh AA, Eisen MB, Vavis Re, et al.Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling[J].Nature, 2000, 403(6769): 503-511.
[10]Golub TR, Slonim DK, Tainayo P, et al.Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J].Science,1999, 286(5439): 531-537.
[11]徐蓉, 姜峰, 姚鴻勛.流形學(xué)習(xí)概述[J].智能系統(tǒng)學(xué)報(bào), 2006, 1(1):44-51.
[12]Tenenbaum JB, de Silva V, Langford JC.A global geometric framework for nonlinear dimensionality reduction.Science, 2000,290 (5500): 2319-2323.
[13]Ross DT, Scherf U, Eisen MB, et al.Systematic variation in gene expression patterns in human cancer cell lines[J].Nat Genet 2000,24(3): 227-235.
[14]Scherf, U, Ross, D.T, Waltham M.et al.A cDNA microarray gene expression database for the molecular pharmacology of cancer[J].Nat Genet, 2000, 24(3): 236-244.
[15]Garber ME, Troyanskaya OG, Schluers K.et al.Diversity of gene expression in adenocarcinoma of the lung[J].PNAS USA,2001,98(24):13784-13789.
[16]Alon U, Barkai N, Notterman DA, et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissue probed by oligonucleotide arrays[J].PNAS USA,1999, 96(12): 6745-6750.