譚 俊, 袁少勛, 明文龍, 孫 嘯
東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院, 生物電子學(xué)國家重點(diǎn)實(shí)驗(yàn)室, 南京 210096
2015年,美國提出了“精準(zhǔn)醫(yī)學(xué)計(jì)劃(Precision Medicine Initative)”,旨在通過整合患者的個(gè)性化信息加速人類對復(fù)雜疾病的研究,精準(zhǔn)醫(yī)學(xué)也迅速成為全球醫(yī)學(xué)界熱議和關(guān)注的焦點(diǎn)。相較于傳統(tǒng)標(biāo)準(zhǔn)治療方案的制定,精準(zhǔn)醫(yī)療需要考慮到個(gè)體的差異,而個(gè)體的差異里既包含了遺傳性的差異,也包含了生活環(huán)境等的差異。廣義上的精準(zhǔn)醫(yī)療是應(yīng)用現(xiàn)代遺傳技術(shù)和生物醫(yī)學(xué)信息技術(shù)結(jié)合患者的生活環(huán)境和臨床數(shù)據(jù),實(shí)現(xiàn)精準(zhǔn)的疾病分類和診斷,制定具有個(gè)性化的疾病預(yù)防和診療方案。
隨著生物信息技術(shù)的發(fā)展,如DNA芯片、DNA測序技術(shù),產(chǎn)生了大規(guī)模的組學(xué)數(shù)據(jù),尤其是以DNA測序?yàn)楹诵?,衍生出各種生物組學(xué)檢測技術(shù),獲取的數(shù)據(jù)包括基因組、轉(zhuǎn)錄組、表觀基因組等,為研究者從分子水平認(rèn)識(shí)疾病提供了數(shù)據(jù)支撐。目前我們可以獲得的組學(xué)數(shù)據(jù)比較系統(tǒng)和全面,因此基因型數(shù)據(jù)是精準(zhǔn)的,并且能夠體現(xiàn)個(gè)體差異。
表型研究相對較復(fù)雜,它是基因表達(dá)和環(huán)境作用以及兩者間相互作用的共同結(jié)果,一直以來都難以進(jìn)行定量研究。影像數(shù)據(jù)可以作為一種內(nèi)表現(xiàn)(endophenotype)用于定量表型研究[1]。醫(yī)學(xué)影像數(shù)據(jù)不僅能提供病變組織的形態(tài)和結(jié)構(gòu)信息,還可以刻畫病變組織在一定時(shí)空序列內(nèi)功能變化的動(dòng)態(tài)信息。在過去的十多年中,醫(yī)學(xué)影像領(lǐng)域飛速發(fā)展,相比于分子診斷,以核磁共振成像(magnetic resonance imaging,MRI)、計(jì)算機(jī)斷層成像(computed tomography,CT)和正電子發(fā)射斷層成像(positron emission tomography,PET)等各種新技術(shù)為代表的醫(yī)學(xué)成像技術(shù)以其非侵入性、高分辨率、時(shí)空連續(xù)性等特點(diǎn),在展現(xiàn)復(fù)雜疾病表型差異的過程中具有獨(dú)特的優(yōu)勢,逐步突顯出了影像診斷技術(shù)在臨床上的重要作用。
因此我們可以將影像學(xué)和基因組學(xué)的數(shù)據(jù)融合起來,進(jìn)行綜合分析和系統(tǒng)挖掘,這樣形成了一個(gè)新的研究方向,即影像基因組學(xué)(imaging genomics)。影像基因組學(xué)重點(diǎn)研究醫(yī)學(xué)影像數(shù)據(jù)與疾病分子特征之間的聯(lián)系[2],圖1(彩圖見圖版一)展示了影像基因組學(xué)研究與應(yīng)用整體框架圖,從生物組學(xué)數(shù)據(jù)(包括基因組、轉(zhuǎn)錄組學(xué)和表觀組學(xué)等)中提取基因型特征,從多模態(tài)影像數(shù)據(jù)(包括CT、MRI 和PET等)中提取能反應(yīng)個(gè)體健康狀態(tài)的定量影像表型特征,通過統(tǒng)計(jì)學(xué)或者機(jī)器學(xué)習(xí)的方法完成基因型特征與定量表型特征的關(guān)聯(lián)與融合分析,從而更好地實(shí)現(xiàn)對疾病的非侵入式診斷、預(yù)后預(yù)測和療效評(píng)估。近年來,影像基因組學(xué)在腫瘤和精神疾病等復(fù)雜疾病的研究領(lǐng)域不斷發(fā)展,基因型與定量影像表型的關(guān)聯(lián)分析研究已經(jīng)證明了影像基因組學(xué)分析方法的有效性[3]。
圖1 影像基因組學(xué)研究與應(yīng)用整體框架圖Fig.1 Schematic diagram of study and appilication of imaging genomics.(彩圖見圖版一)
最早報(bào)道結(jié)合基因組數(shù)據(jù)和影像數(shù)據(jù)的研究出現(xiàn)在2000年,德國波鴻魯爾大學(xué)的Heinz教授等聯(lián)合單光子發(fā)射計(jì)算機(jī)斷層成像術(shù)(single-photon emission computed tomography,SPECT)和基因的功能變異來衡量遺傳對大腦多巴胺代謝的影響[4]。隨后,越來越多的學(xué)者也開始研究基因數(shù)據(jù)和影像數(shù)據(jù)的關(guān)聯(lián)分析,例如加州大學(xué)醫(yī)學(xué)院的研究者首次通過fMRI來研究阿爾茨海默癥的基因變異與核磁共振成像的關(guān)系,通過對感興趣區(qū)域(region of interesting,ROI)進(jìn)行任務(wù)范例的選擇以及分析,發(fā)現(xiàn)攜帶不同單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)的候選基因(APOE基因)的受試者的海馬、額葉和頂葉等腦區(qū)的激活強(qiáng)度有差異[5]。德國海德堡大學(xué)心理健康研究所的研究人員應(yīng)用影像遺傳學(xué)來篩選導(dǎo)致大腦功能連接改變的SNP多態(tài)性位點(diǎn),發(fā)現(xiàn)精神分裂癥易感基因ZNF804A的rs1344706等位基因A/C的頻率與前額葉皮層厚度和海馬體積大小相關(guān)[6]。
這也形成了一個(gè)新的研究方法——影像遺傳學(xué)(imaging genetics)。 影像遺傳學(xué)是一種關(guān)聯(lián)分析方法,是結(jié)合多模態(tài)神經(jīng)影像學(xué)和遺傳學(xué)方法,檢測腦結(jié)構(gòu)及與精神疾病、認(rèn)知和情緒調(diào)節(jié)等行為相關(guān)腦功能的遺傳變異。此外,許多學(xué)者也開始把基因-影像關(guān)聯(lián)分析方法應(yīng)用于腫瘤疾病的研究,在2003年歐洲治療放射學(xué)與腫瘤學(xué)學(xué)會(huì)的一篇文章中提出了“Radiogenomics”這個(gè)名詞[7],當(dāng)時(shí)的目的是為了研究腫瘤組織放療效果和遺傳基因的關(guān)系。隨后,Segal等[8~10]學(xué)者在此方面做了一系列研究,尋找通過非侵入性影像技術(shù)獲得的腫瘤形態(tài)和生理學(xué)特征與基因表達(dá)的特定模式的相關(guān)性,將“影像基因組學(xué)”定義為一種建立在全基因組水平的基因組特征同放射影像學(xué)特征間關(guān)聯(lián)的新興技術(shù)。許多研究表明,應(yīng)用影像基因組學(xué)的方法有助于診斷腫瘤分型、預(yù)測預(yù)后和腫瘤對某種治療的反應(yīng)[11,12]。影像基因組學(xué)將影像組學(xué)與基因組學(xué)數(shù)據(jù)整合起來,可以更深入地了解疾病的生物學(xué)機(jī)制,研究影像表型與基因組學(xué)特征之間的關(guān)系。
影像基因組學(xué)的核心思想是將體現(xiàn)分子水平活動(dòng)的基因組數(shù)據(jù)與反映疾病定量表型的影像數(shù)據(jù)融合起來,在分別分析和提煉疾病相關(guān)基因組信息和影像信息的基礎(chǔ)上,建立基因組特征與影像特征之間的聯(lián)系,從而深刻認(rèn)識(shí)疾病的遺傳背景及發(fā)展?fàn)顟B(tài)。
分析基因組數(shù)據(jù)(包括其他生物組數(shù)據(jù)),可在分子水平上認(rèn)識(shí)影響疾病的關(guān)鍵因素,提取疾病相關(guān)的基因組特征,了解疾病發(fā)生和發(fā)展機(jī)制。生物組學(xué)數(shù)據(jù)包括基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、表觀遺傳組數(shù)據(jù)、蛋白質(zhì)組和代謝組數(shù)據(jù)等多維度、多種類的數(shù)據(jù)信息,能夠系統(tǒng)全面的刻畫出復(fù)雜疾病內(nèi)在的生物分子活動(dòng)狀態(tài)和規(guī)律。目前,在影像基因組學(xué)的研究領(lǐng)域內(nèi),以SNP位點(diǎn)、拷貝數(shù)變異(copy number variation,CNV)為代表的基因變異數(shù)據(jù)和以基因表達(dá)譜、蛋白質(zhì)表達(dá)譜為代表的轉(zhuǎn)錄組數(shù)據(jù),是最主要的數(shù)據(jù)分析對象。
SNP是指在基因組水平上,由單個(gè)核苷酸變異所引起的DNA序列多態(tài)性。SNP在人類基因組中廣泛存在,目前已知人類基因組中大約有30萬個(gè)SNP。SNP作為第三代遺傳標(biāo)志,與人類個(gè)體差異、疾病易感性、耐藥性等多種表型和功能密切相關(guān)。通常我們選擇具有已知生物學(xué)功能、參與生物表型表達(dá)的SNP位點(diǎn),這類SNP位點(diǎn)一般位于結(jié)構(gòu)基因、調(diào)節(jié)基因或者在生化代謝途徑中影響性狀表達(dá)的基因,也有可能是位于基因非編碼區(qū)、影響基因剪切或者基因表達(dá)的基因位點(diǎn)。對于上述這些具有潛在SNP位點(diǎn)的基因,一般都是通過臨床實(shí)驗(yàn)或者數(shù)據(jù)庫注釋等對其功能進(jìn)行確定。在篩選獲取到大量與疾病相關(guān)的SNP位點(diǎn)的基礎(chǔ)上,我們可以使用基于數(shù)據(jù)驅(qū)動(dòng)的方法對SNP進(jìn)行數(shù)據(jù)處理。目前主流的處理方式是以全基因組關(guān)聯(lián)分析(GWAS)為代表的分析策略,GWAS能在群體數(shù)據(jù)中挖掘出與某種表型或疾病狀態(tài)存在強(qiáng)相關(guān)性的SNP位點(diǎn),進(jìn)而將高維的SNP位點(diǎn)信息有效地降低到低維的同時(shí)又盡量避免信息的丟失。通常經(jīng)過處理后得到的特定SNP組合,是與某種表型或疾病狀態(tài)具有最強(qiáng)關(guān)聯(lián)的SNP組合,能代表這種表型或疾病狀態(tài)在SNP位點(diǎn)層面上的特性。此外,還有基于純粹數(shù)據(jù)驅(qū)動(dòng)的SNP分析方法,比如:主成分分析(principal component analysis,PCA)、多因子降維(multifactor dimensionality reduction,MDR)、獨(dú)立成分分析(independent component algorithm,ICA)、主坐標(biāo)分析(principal co-ordinates analysis,PCOA)和非度量多維尺度分析(nonmetric multidimensional scaling,NMDS)等[13]。這些方法在沒有先驗(yàn)信息的情況下可以進(jìn)行純粹的數(shù)據(jù)驅(qū)動(dòng)分析,強(qiáng)調(diào)嵌入在數(shù)據(jù)集中的遺傳模式來捕獲SNP上位性和多基因性,比如:PCA通常用于全基因組的SNP數(shù)據(jù)分析,提取出最有可能呈現(xiàn)有利于人群分類的群體結(jié)構(gòu)[14];多因子降維(multifactor dimensionality reduction,MDR)用于識(shí)別預(yù)測表型的基因-基因和基因-環(huán)境因素[15]。
對于基因表達(dá)譜數(shù)據(jù)的分析,主要是通過差異表達(dá)基因分析獲取某一特定組織或病理組織,與其他組織或健康組織的顯著性差異表達(dá)的基因列表相比較。對于獲得的基因列表,可以單獨(dú)的作為一個(gè)基因組數(shù)據(jù)特征用于后續(xù)的融合分析,也可以對基因列表進(jìn)行信息挖掘之后再進(jìn)行后續(xù)分析。即分析這些顯著差異表達(dá)基因,找到它們所在的基因通路,或者將它們按照某種相同功能劃分成不同的基因集合,再或者挖掘它們更深層次的共同表達(dá)趨勢,按照共同的表達(dá)趨勢劃分成不同的基因模塊。分析差異表達(dá)基因的通路,可以使用GO富集分析或者KEGG富集分析方法,得到這些基因在生化反應(yīng)、生理功能等多方面的網(wǎng)絡(luò)信息,了解這些富集后基因之間的相對關(guān)系和功能聯(lián)系。基于GO和KEGG的富集分析具有一些弊端,比如富集假陽性很高,因此在實(shí)際分析過程中多使用基因富集分析方法(gene set enrichment analysis,GSEA)進(jìn)行基因通路或基因集合的挖掘[16]。傳統(tǒng)的基因富集分析方法分為兩個(gè)大類:一類基于基因表達(dá)譜數(shù)據(jù),一類基于基因間相互關(guān)系。GSEA首先被引入到癌癥研究中,隨后應(yīng)用到精神疾病等其他的一些疾病中[17]。無論是GO或KEGG富集分析方法,得到的基因通路或者基因集合都是基于先驗(yàn)知識(shí)的,具有一定的主觀性,加權(quán)基因共表達(dá)網(wǎng)絡(luò)構(gòu)建(weighted gene co-expression network analysis, WGCNA)是一種從高通量數(shù)據(jù)中挖掘模塊(module)信息的算法,能夠從基因表達(dá)譜數(shù)據(jù)中挖掘具有相同或相似表達(dá)趨勢的基因模塊,具有生物學(xué)意義和更高的可信度[18]。
實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)需要精準(zhǔn)的基因型和精準(zhǔn)的表型,高通量基因組數(shù)據(jù)提供了精準(zhǔn)的基因型,而醫(yī)學(xué)影像數(shù)據(jù)則是精準(zhǔn)表型的一個(gè)重要來源,分析影像數(shù)據(jù)可以獲得疾病相關(guān)的定量表型,提煉影像特征。從1895年倫琴發(fā)現(xiàn) X 射線到后來分子影像的出現(xiàn),數(shù)字化醫(yī)學(xué)影像學(xué)已經(jīng)成為現(xiàn)代醫(yī)學(xué)不可或缺的手段和重要的組成部分。2012年荷蘭學(xué)者Lambin提出影像組學(xué)(Radiomics)[19]這一名詞,其強(qiáng)調(diào)的深層次含義是指從影像(CT、MRI、PET等)中高通量地提取大量影像信息,實(shí)現(xiàn)腫瘤分割、特征提取與模型建立,憑借對海量影像數(shù)據(jù)信息進(jìn)行更深層次的挖掘、預(yù)測和分析來輔助醫(yī)師做出最準(zhǔn)確的診斷。傳統(tǒng)的影像診斷主要依賴于醫(yī)師的判斷,而影像組學(xué)基于數(shù)據(jù)進(jìn)行分析,提取高維圖像特征作為新的生物影像標(biāo)記物來幫助臨床決策[20]。影像數(shù)據(jù)分析過程主要包括四個(gè)部分:①圖像數(shù)據(jù)的獲取。結(jié)構(gòu)性和功能性影像學(xué)技術(shù)常用于復(fù)雜疾病的研究。結(jié)構(gòu)性影像技術(shù)主要包括CT和MRI;功能影像技術(shù)包括PET、單光子發(fā)射計(jì)算機(jī)斷層成像術(shù)(single photon emission computed tomography,SPECT)等;②圖像分割。將圖像分割成如腫瘤、正常組織和其他解剖結(jié)構(gòu)的感興趣區(qū)是最關(guān)鍵的部分,為接下來的數(shù)據(jù)分析奠定了基礎(chǔ)。許多腫瘤邊界不清,使得影像分析在復(fù)雜疾病研究中仍存在部分障礙,因此需要發(fā)展自動(dòng)化、可重復(fù)的醫(yī)學(xué)圖像分割算法。常用的分割算法包括區(qū)域增長法(region-growing methods)、水平設(shè)置法、圖像切割法、動(dòng)態(tài)輪廓(蛇形)算法[active contours(snake)algorithms]以及半自動(dòng)分割法(semiautomatic segmentations),如livewires法、基于容量CT的分割法(volumetric CT based segmentation)等[21];③特征提取與量化。圖像分割完成后,即可以提取感興趣區(qū)域影像特征,包括統(tǒng)計(jì)學(xué)特征、紋理特征、形態(tài)學(xué)特征等。評(píng)估這些特征有效性需滿足三個(gè)條件:病理學(xué)相關(guān)、高度可重復(fù)性和信息量豐富且非冗余[22];④數(shù)據(jù)分析及建立預(yù)測模型。通過運(yùn)用一些機(jī)器學(xué)習(xí)算法可以將提取到的定量影像特征用于疾病的分類和診斷。
在分析基因組數(shù)據(jù)和影像數(shù)據(jù)、提取疾病相關(guān)的基因組特征和影像特征的基礎(chǔ)上,需要進(jìn)一步將兩大類數(shù)據(jù)融合起來,進(jìn)行基因型與表型的關(guān)聯(lián)分析?;诮y(tǒng)計(jì)學(xué)的遺傳變異和影像關(guān)聯(lián)分析,包括單變量融合分析和多變量融合分析。單變量的融合分析方法只考慮了單個(gè)SNP位點(diǎn)與特定影像表型之間的關(guān)聯(lián)程度。例如Pearson卡方檢驗(yàn)應(yīng)用于定性表型與遺傳數(shù)據(jù)融合分析,線性回歸應(yīng)用于定量表型與遺傳數(shù)據(jù)的融合分析中。Stein等[23]發(fā)明了基于體素的全基因組關(guān)聯(lián)分析方法(voxelwiseGWAS,vGWAS),檢驗(yàn)了每個(gè)SNP與每個(gè)大腦體素的關(guān)聯(lián)顯著性,并對結(jié)果進(jìn)行了多重檢驗(yàn)校正。在單變量的基因影像關(guān)聯(lián)分析研究中,有些研究者已經(jīng)發(fā)布了相關(guān)的統(tǒng)計(jì)分析軟件,如Plink[24]。但單變量融合分析忽略了多位點(diǎn)對特定影像表型的聯(lián)合效應(yīng),而多變量分析方法充分考慮了多個(gè)位點(diǎn)與特定影像表型之間的關(guān)聯(lián)性。當(dāng)面對大量遺傳變異如全基因組SNPs和大腦中的大量體素時(shí),典型相關(guān)分析(canonical correlation analysis,CCA)[25]是一個(gè)常用的雙多變量模型。該模型尋找使遺傳數(shù)據(jù)和影像數(shù)據(jù)之間最大相關(guān)的線性組合,可以較好地解決多變量基因與多變量影像關(guān)聯(lián)分析這一問題。其他類似的方法還有偏最小二乘回歸(partial least squares,PLS)、降秩回歸(reduced rank regression,RRR)和并行獨(dú)立主成分分析(parallel independent component analysis,PICA)等[26~28]。它們從遺傳和影像數(shù)據(jù)中提取潛在變量,這些潛在的變量數(shù)據(jù)成為新的基因型和表型,并且使用不同的代價(jià)函數(shù)來最大化基因型-表型的關(guān)聯(lián)。另外針對影像基因組學(xué)中的高維數(shù)據(jù),這些算法還有改進(jìn)的版本,包括稀疏PLS、稀疏CCA和稀疏RRR[29~31]。通過增加變量的稀疏度不僅能使結(jié)果的解釋變得更加合理,而且可以通過避免過擬合問題來增加結(jié)果的穩(wěn)定性。
基因表達(dá)與影像特征的關(guān)聯(lián)分析可以用來篩選能夠反應(yīng)基因表達(dá)活動(dòng)的影像標(biāo)志物,這類標(biāo)志物可以用作疾病的篩查、診斷和預(yù)后。Zhou等[32]搜集了113個(gè)非小細(xì)胞肺癌患者的CT影像特征數(shù)據(jù)與轉(zhuǎn)錄組測序數(shù)據(jù),并構(gòu)建了CT腫瘤語義特征與基于轉(zhuǎn)錄組的分子通路特征之間的Spearman相關(guān)性矩陣。結(jié)果發(fā)現(xiàn)存在能夠反應(yīng)分子通路的影像特征,可以非侵入性的反映某些非小細(xì)胞肺癌病灶的分子活性變化。研究者進(jìn)一步在其他的幾個(gè)公共數(shù)據(jù)集中進(jìn)行驗(yàn)證,發(fā)現(xiàn)篩選的特征表現(xiàn)出了區(qū)分度良好的預(yù)后效果。在2015年Zhu等[33]從KEGG數(shù)據(jù)庫中獲取乳腺癌相關(guān)的基因通路,利用GSEA方法,對提取的38個(gè)影像特征進(jìn)行了基因富集分析,尋找與影像表型變化相關(guān)的KEGG基因通路。研究結(jié)果表明很多KEGG通路的表達(dá)水平與38個(gè)影像特征均存在統(tǒng)計(jì)學(xué)上的顯著關(guān)聯(lián),尤其和病灶體積、有效直徑、表面積和最大線性尺寸這4種影像特征存在密切的正相關(guān),和邊緣銳度、徑向梯度直方圖方差存在顯著的負(fù)相關(guān)。
隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)算法也被廣泛的應(yīng)用于影像基因組學(xué)?;蚪M特征數(shù)據(jù)與影像特征數(shù)據(jù)的融合作為算法的輸入,輸出的是疾病診斷、疾病風(fēng)險(xiǎn)或預(yù)后預(yù)測的結(jié)果。例如,通過支持向量機(jī)對遺傳和功能磁共振成像特征融合,能夠更好地對精神分裂癥患者分類,比單獨(dú)使用遺傳或者影像數(shù)據(jù)準(zhǔn)確率更高,這表明遺傳和大腦功能影像捕獲不同但互補(bǔ)的精神分裂癥特征[34]。另外,Wang等[35]提出了一種多模態(tài)多任務(wù)學(xué)習(xí)算法,結(jié)合了基因和多模態(tài)影像特征,同時(shí)預(yù)測診斷結(jié)果和認(rèn)知功能。在該算法中,聯(lián)合分類和回歸,利用一組L1范數(shù)正則化進(jìn)行特征選擇,將異構(gòu)的影像和遺傳數(shù)據(jù)進(jìn)行整合。這種方法的優(yōu)勢之一是確定與診斷和認(rèn)知功能相關(guān)的遺傳標(biāo)記和影像生物標(biāo)志物。Ge等[36]使用機(jī)器學(xué)習(xí)中的核方法(kernel-base,KB)研究多個(gè)SNP與影像表型之間的關(guān)聯(lián)程度。Kohannim等[37]使用Lasso回歸方法分析阿爾茨海默病多個(gè)位點(diǎn)與特定表型之間的關(guān)聯(lián)程度,發(fā)現(xiàn)22個(gè)位點(diǎn)與額葉皮層體積改變有關(guān)。
臨床上要想對腫瘤和精神疾病等復(fù)雜疾病進(jìn)行個(gè)性化治療,首先就必須要進(jìn)行精確診斷。斯坦福大學(xué)的Itakura[38]對265例膠質(zhì)母細(xì)胞瘤(glioblastoma multiforme,GBM)患者進(jìn)行了影像基因組學(xué)的研究(其中121例來自斯坦福大學(xué)醫(yī)學(xué)院,144例來自TCIA數(shù)據(jù)庫),提取了388個(gè)MR影像特征進(jìn)行一致性聚類分析,得到3個(gè)影像表型聚類。然后融合TCGA數(shù)據(jù)庫相對應(yīng)的基因表達(dá)數(shù)據(jù)和拷貝數(shù)變異數(shù)據(jù),利用PARADIGM算法,分析這三類影像表型和分子信號(hào)通路之間的關(guān)聯(lián)。研究結(jié)果表明,基于影像特征的GBM亞型能夠刻畫潛在的分子活動(dòng),實(shí)現(xiàn)基于醫(yī)學(xué)影像特征的非侵入式診斷。Yamamoto等[39]在2014年應(yīng)用影像基因組學(xué)的方法分析非小細(xì)胞肺癌,診斷準(zhǔn)確率達(dá)到78.8%,通過分子和CT影像特征結(jié)合時(shí),可以區(qū)分肺癌亞型。另外,Yamamoto等[40]在2015年還進(jìn)行了乳腺癌的影像基因組學(xué)研究,將定量影像特征和RNA表達(dá)進(jìn)行關(guān)聯(lián)分析,他的研究顯示影像基因組學(xué)具有應(yīng)用于非入侵式腫瘤早期診斷的潛力。
現(xiàn)階段,疾病的預(yù)后預(yù)測在臨床上越來越受重視,然而醫(yī)生只能憑借個(gè)人經(jīng)驗(yàn)來給出預(yù)測。2014年,Aerts等[41]在1 019例肺癌和頭頸癌患者的CT數(shù)據(jù)中,提取了440個(gè)定量影像特征,再根據(jù)強(qiáng)度、形狀、紋理、小波等特征建立標(biāo)簽,進(jìn)行定量分析。研究結(jié)果表明,影像特征具有顯著的預(yù)后價(jià)值,并與基因表達(dá)模式顯著相關(guān)。他們利用影像基因組學(xué)的方法,通過融合影像、基因和病理特征建立影像基因組學(xué)標(biāo)簽,揭示了影像與患者的預(yù)后聯(lián)系。
對疾病治療效果的評(píng)判也是影像基因組學(xué)臨床應(yīng)用的一個(gè)重要方向。惡性腫瘤具高度異質(zhì)性,即使是組織學(xué)類型、病理分期、甚至分子分型都相同的癌癥對放化療的反應(yīng)都不一定相同,目前尚無公認(rèn)的可以有效預(yù)測癌癥放化療療效的臨床指標(biāo)。腫瘤的表型與基因表達(dá)決定了腫瘤對放化療的反應(yīng),因此可以利用影像基因組學(xué)的方法,將癌癥臨床分期、分子分型和生物學(xué)因子等進(jìn)行整合,對腫瘤的治療反應(yīng)及療效進(jìn)行評(píng)估。雖然目前尚無相關(guān)報(bào)道,但影像基因組學(xué)作為一種無創(chuàng)、可定量、可重復(fù)的方法,在臨床上應(yīng)用于疾病的療效評(píng)估必將成為一種趨勢。
隨著生物醫(yī)學(xué)信息技術(shù)的迅速發(fā)展,我們將得到通量更高、內(nèi)容更全面的基因型數(shù)據(jù),以第二代測序技術(shù)為基礎(chǔ)產(chǎn)生了包括基因組測序數(shù)據(jù)、轉(zhuǎn)錄組測序數(shù)據(jù)、表觀遺傳組測序數(shù)據(jù)和宏基因組測序數(shù)據(jù)為主的多組學(xué)數(shù)據(jù)?;蚪M測序數(shù)據(jù)使研究者能夠分析個(gè)體基因組之間的遺傳差異,從而進(jìn)一步認(rèn)識(shí)由這種差異導(dǎo)致的復(fù)雜疾病預(yù)防、診斷和治療的差異。轉(zhuǎn)錄組研究以基因的功能與結(jié)構(gòu)為出發(fā)點(diǎn),通過檢測新的轉(zhuǎn)錄本、轉(zhuǎn)錄水平以及非編碼RNA,可以進(jìn)一步解讀不同生理或病理?xiàng)l件下基因表達(dá)與結(jié)構(gòu)的差異。表觀遺傳組研究如何對基因組進(jìn)行修飾與組裝,包括DNA甲基化、組蛋白修飾、基因印記和染色質(zhì)重塑等都可以對基因進(jìn)行調(diào)控,此外環(huán)境的變化也可以導(dǎo)致基因表觀修飾的變化。宏基因組研究人體基因組與腸道微生物之間的關(guān)系,腸道微生物群落在人類營養(yǎng)代謝、感染抵抗和藥物應(yīng)答等過程中發(fā)揮著重要的作用,已有研究證實(shí)許多疾病都與腸道宏基因組有關(guān)。利用基因組、轉(zhuǎn)錄組、表觀組和宏基因組多組學(xué)整合的大數(shù)據(jù)研究,可以從不同層次對疾病進(jìn)行致病機(jī)制以及防治技術(shù)的研究。
醫(yī)學(xué)影像技術(shù)的發(fā)展帶來了大量的臨床表型數(shù)據(jù),我們可以從其中提煉精準(zhǔn)的定量表型。此外,分子影像技術(shù)的快速發(fā)展使得傳統(tǒng)的醫(yī)學(xué)診斷方式發(fā)生了巨大的變化,傳統(tǒng)影像學(xué)檢查只能從器官或者組織檢測疾病的發(fā)生情況,顯示的是疾病最終的影像狀態(tài),分子影像技術(shù)使得我們可以對生物過程進(jìn)行細(xì)胞以及分子水平的非侵入式的定量實(shí)時(shí)研究,從而了解疾病的發(fā)生機(jī)制與分子生物學(xué)特征。此外,電子病歷也是臨床表型數(shù)據(jù)的重要來源,其涵蓋了以疾病診斷表型、環(huán)境因素、家族史、藥物治療、臨床檢驗(yàn)等為主的數(shù)字記錄,包含了患者豐富的醫(yī)療健康信息。這類數(shù)據(jù)通常為非結(jié)構(gòu)化的文本數(shù)據(jù),通過自然語言處理與文本挖掘技術(shù)可將其轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),其所能提供的表型和疾病數(shù)據(jù)更加精準(zhǔn)。
人工智能(artificial intelligence,AI)技術(shù)將在基因組數(shù)據(jù)和醫(yī)學(xué)影像數(shù)據(jù)的融合、分析和挖掘方面發(fā)揮巨大的作用。無論是深入挖掘基因特征與影像特征之間的關(guān)聯(lián)關(guān)系,還是建立疾病診斷模型或健康風(fēng)險(xiǎn)預(yù)測模型,都需要AI和深度學(xué)習(xí)技術(shù)的支撐。目前AI在精準(zhǔn)醫(yī)學(xué)領(lǐng)域的應(yīng)用越來越廣泛,IBM開發(fā)的基因組學(xué)智能計(jì)算平臺(tái)(watson for genomics)可以讀取基因組測序數(shù)據(jù),并將這些數(shù)據(jù)與大量的臨床、科學(xué)和藥理數(shù)據(jù)庫進(jìn)行比較,從而幫助醫(yī)生發(fā)現(xiàn)與患者腫瘤基因突變匹配的潛在治療方案。IBM Watson for Oncology腫瘤診療系統(tǒng),通過分析醫(yī)學(xué)大數(shù)據(jù),包括醫(yī)學(xué)文獻(xiàn)、病人健康記錄、臨床試驗(yàn)和醫(yī)學(xué)影像數(shù)據(jù)等,為癌癥病人制定個(gè)性化、有權(quán)威依據(jù)的治療建議。另外,IBM Watson Health 正在開發(fā)基于多元生物醫(yī)學(xué)大數(shù)據(jù)融合的復(fù)雜疾病風(fēng)險(xiǎn)預(yù)測模型,建立面向精準(zhǔn)醫(yī)療的生物醫(yī)學(xué)數(shù)據(jù)處理和分析平臺(tái)。