覃桂敏,劉佳妍,殷 雨,楊璐瓊
(西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西西安710071)
復(fù)雜疾病是一類不服從孟德爾遺傳定律的疾病,其發(fā)生過程涉及多個(gè)復(fù)雜的生物學(xué)過程,并由多種遺傳物質(zhì)協(xié)同控制。近年來,關(guān)于復(fù)雜疾病的癌癥標(biāo)記物研究層出不窮。隨著高通量技術(shù)的發(fā)展,越來越多的生物數(shù)據(jù),譬如基因表達(dá)數(shù)據(jù)、體細(xì)胞突變數(shù)據(jù)、蛋白質(zhì)互作用數(shù)據(jù)等被證實(shí)可以應(yīng)用于癌癥標(biāo)記物的預(yù)測中。
在生物醫(yī)學(xué)界對癌癥發(fā)病機(jī)制的認(rèn)知進(jìn)入到分子層面后,逐漸有其他相關(guān)領(lǐng)域的研究人員對癌癥標(biāo)記物進(jìn)行了多種多樣的分析。文獻(xiàn)[1]以食管癌(ESophageal CArcinoma,ESCA)為背景檢測了50例食管癌樣本和20例正常樣本,發(fā)現(xiàn)HOTAIR分子的異常表達(dá)可用于食管癌的早期診斷。除此以外,對于曾經(jīng)被證實(shí)和一些特定癌癥的特異過程相關(guān)的分子,也進(jìn)行了重新探討。SLC52A3一直被認(rèn)為可以促進(jìn)核黃素的吸收,調(diào)節(jié)機(jī)體的代謝過程。然而文獻(xiàn)[2]表明,SLC52A3在轉(zhuǎn)錄過程中因?yàn)檗D(zhuǎn)錄起始位點(diǎn)的不同,會產(chǎn)生兩個(gè)轉(zhuǎn)錄變體SLC52A3a和SLC52A3b。其中的SLC52A3a在食管癌中表達(dá)機(jī)制異常,具體表現(xiàn)為促進(jìn)食管癌細(xì)胞的增殖。
胃癌(STomach ADenocarcinoma,STAD)和食管癌這些惡性腫瘤屬于復(fù)雜疾病。胃癌和食管癌早期沒有明顯癥狀,而確診后往往已經(jīng)是中晚期癌細(xì)胞擴(kuò)散后,因此,致死率極高。故關(guān)于胃癌和食管癌的病理學(xué)研究一直在進(jìn)行中。文獻(xiàn)[3]整合基因表達(dá)綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO)中的大量胃癌基因表達(dá)譜,提取出在胃癌中差異表達(dá)的433個(gè)基因,并將這些基因構(gòu)建為共表達(dá)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)層面的分析,成功地驗(yàn)證COL1A2在胃癌中明顯高表達(dá),并且這一特性不隨患者年齡、性別以及腫瘤前后期變化。
筆者以胃癌和食管癌為生物背景提出了一種新的方法,用于預(yù)測在基因調(diào)控網(wǎng)絡(luò)中的相關(guān)致病模塊以及致病模塊中的潛在癌癥標(biāo)記物。具體過程如圖1所示,整合基因表達(dá)譜、miRNA表達(dá)譜、脫氧核糖核苷酸(DeoxyriboNucleic Acid,DNA)甲基化譜,對基因和miRNA進(jìn)行初步篩選,結(jié)合miRNA、轉(zhuǎn)錄因子和基因三者之間的轉(zhuǎn)錄關(guān)系、蛋白質(zhì)磷酸化修飾關(guān)系分別構(gòu)建胃癌和食管癌的特異性基因調(diào)控網(wǎng)絡(luò)。對兩個(gè)網(wǎng)絡(luò)進(jìn)行加權(quán)共表達(dá)分析,進(jìn)行層次聚類和動態(tài)切割,不斷地調(diào)整優(yōu)化參數(shù)使其呈現(xiàn)出最優(yōu)的模塊性。借助于已知的癌癥標(biāo)記物在網(wǎng)絡(luò)中的連通特性,計(jì)算每個(gè)模塊的第一主成分和已知癌癥標(biāo)記物的相關(guān)性最大-最小差值,使用該值排名選出特異性的模塊,分析模塊內(nèi)部的生物通路和模塊之間的關(guān)系。在特異性的模塊中,使用5種不同的距離度量方法識別潛在的癌癥標(biāo)記物。結(jié)果表明,在基于距離和基于相關(guān)性的兩類方法中,基于相關(guān)性的方法識別潛在癌癥標(biāo)記物時(shí)準(zhǔn)確率更高。具體而言,在胃癌和食管癌識別中,皮爾遜相關(guān)系數(shù)的結(jié)果優(yōu)于斯皮爾曼相關(guān)系數(shù)的結(jié)果。
圖1 胃癌與食管癌的癌癥標(biāo)記物研究流程圖
已知的癌癥標(biāo)記物數(shù)據(jù)來源于多個(gè)數(shù)據(jù)庫。從在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)和癌癥體細(xì)胞突變目錄數(shù)據(jù)庫(Catalogue Of Somatic Mutations In Cancer,COSMIC)中收集分別與胃癌和食管癌相關(guān)的基因,從miR2Disease、PhenomiR和人類miRNA疾病數(shù)據(jù)庫(Human Microrna Disease Database,HMDD)中收集分別與胃癌和食管癌相關(guān)的miRNA分子。將來源不同的數(shù)據(jù)進(jìn)行合并后獲得的胃癌和食管癌相關(guān)基因分別有30個(gè)和17個(gè),相關(guān)miRNA分別有381個(gè)和186個(gè)。這些基因和miRNA都將作為癌癥標(biāo)記物在后續(xù)的網(wǎng)絡(luò)分析中發(fā)揮作用。
基因表達(dá)譜、miRNA表達(dá)譜和DNA甲基化譜均來源于癌癥基因圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫。對于基因表達(dá)譜和miRNA表達(dá)譜,將其涉及的樣本統(tǒng)一為相同的患者,并且要求同時(shí)擁有癌癥組織和癌旁正常組織樣本。除此以外,還需要對基因和miRNA表達(dá)譜數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,對基因表達(dá)譜的清洗過程為去除在50%的樣本上表達(dá)值小于1的基因。經(jīng)過該過程,將胃癌基因表達(dá)譜的規(guī)模從20 531個(gè)基因和450個(gè)樣本降為17 059個(gè)基因和32對樣本;將食管癌基因表達(dá)譜的規(guī)模從20 531個(gè)基因和196個(gè)樣本降為17 150個(gè)基因和10對樣本。miRNA表達(dá)譜的清洗分為兩部分:對于已知的癌癥標(biāo)記物miRNA,去除在50%的樣本上表達(dá)值缺失的分子;對于其余分子,則去除在90%的樣本上有缺失值的分子。篩選過的miRNA表達(dá)譜中仍然存在一部分缺失值,在本實(shí)驗(yàn)中使用最小二乘插值法處理。經(jīng)過上述步驟,胃癌miRNA表達(dá)譜的規(guī)模為477個(gè)分子和32對樣本;食管癌miRNA表達(dá)譜的規(guī)模為471個(gè)分子和10對樣本。在DNA甲基化譜中,位點(diǎn)和分子之間是多對多的映射關(guān)系。在此,將甲基化位點(diǎn)對應(yīng)為基因和miRNA分子,方法為均值法,即對每個(gè)分子所涉及的位點(diǎn)甲基化值取均值,以該值為對應(yīng)分子的甲基化值。處理后的甲基化譜分為基因甲基化譜和miRNA甲基化譜兩個(gè)部分。胃癌的基因甲基化譜包含20 162個(gè)基因和137個(gè)樣本,胃癌miRNA甲基化譜包含1 504個(gè)miRNA和137個(gè)樣本。食管癌的基因甲基化譜包含20 164個(gè)基因和80個(gè)樣本,食管癌的miRNA甲基化譜包含1 507個(gè)miRNA和80個(gè)樣本。
基因表達(dá)調(diào)控模式中的轉(zhuǎn)錄調(diào)控包含:miRNA對基因的調(diào)控、miRNA對轉(zhuǎn)錄因子的調(diào)控、轉(zhuǎn)錄因子對基因的調(diào)控以及轉(zhuǎn)錄因子對miRNA的調(diào)控。在構(gòu)建基因調(diào)控網(wǎng)絡(luò)中,調(diào)控關(guān)系是重要的一環(huán),它提供了轉(zhuǎn)錄因子、miRNA和基因之間的連接關(guān)系。從miRanda、PITA、TargetScan、基于句子的文本挖掘轉(zhuǎn)錄調(diào)控關(guān)系(Transcriptional Regulatory Relationships Unraveled by Sentence-based Text mining,TRRUST)、人類轉(zhuǎn)錄調(diào)控相互作用(Human Transcriptional Regulation Interactions,HTRI)、Mirtrans和TransmiR數(shù)據(jù)庫中收集了上述的4種調(diào)控關(guān)系。為了提升數(shù)據(jù)的可靠性和準(zhǔn)確性,只選擇同時(shí)在兩個(gè)數(shù)據(jù)庫出現(xiàn)的miRNA-轉(zhuǎn)錄因子和miRNA-基因調(diào)控關(guān)系。在經(jīng)過該過程后,調(diào)控關(guān)系中miRNA-轉(zhuǎn)錄因子的調(diào)控關(guān)系數(shù)量是13 768,miRNA-基因的調(diào)控關(guān)系數(shù)量是123 493,轉(zhuǎn)錄因子-基因的調(diào)控關(guān)系數(shù)量是53 855,轉(zhuǎn)錄因子-miRNA的調(diào)控關(guān)系數(shù)量是7 036,轉(zhuǎn)錄因子-轉(zhuǎn)錄因子的調(diào)控關(guān)系數(shù)量是5 462。
蛋白質(zhì)磷酸化關(guān)系與細(xì)胞中的代謝調(diào)節(jié)有關(guān)。磷酸化關(guān)系中代謝酶的濃度和反應(yīng)時(shí)間都可以調(diào)節(jié)細(xì)胞的代謝。在PhosphoSitePlus數(shù)據(jù)庫中收錄了大量人類激酶的已知底物。除此以外,PhosphoNetworks數(shù)據(jù)庫也收錄了全面的磷酸化關(guān)系數(shù)據(jù)集,不僅包括從蛋白質(zhì)微陣列分析得到的高通量數(shù)據(jù),還有從權(quán)威文獻(xiàn)中選出的磷酸化關(guān)系對。將這兩個(gè)數(shù)據(jù)庫中的磷酸化關(guān)系進(jìn)行匯總,共選出9 463條磷酸化關(guān)系。
首先,分別獲取在兩種癌癥中甲基化異常的分子。甲基化異常包括高甲基化和低甲基化兩種類型。某些DNA的低甲基化會導(dǎo)致致癌基因轉(zhuǎn)錄激活,另一些抑癌基因的高甲基化也被證實(shí)和它的低表達(dá)相關(guān)。為了構(gòu)建的網(wǎng)絡(luò)更具特異性,選擇甲基化特異的分子作為該網(wǎng)絡(luò)的節(jié)點(diǎn),即分子的甲基化值大于0.8或者小于0.2。然后,使用這些分子對調(diào)控關(guān)系和磷酸化關(guān)系進(jìn)行選擇,選擇的具體條件如下:如果某一條調(diào)控關(guān)系或者磷酸化關(guān)系涉及的兩個(gè)分子中存在基因或者miRNA,則它必須是甲基化異常分子;如果某一條調(diào)控關(guān)系涉及的兩個(gè)分子中存在轉(zhuǎn)錄因子,則該分子必須在表達(dá)譜中存在表達(dá)值向量。經(jīng)過選擇的調(diào)控關(guān)系和磷酸化關(guān)系視為基因調(diào)控網(wǎng)絡(luò)的連邊。
經(jīng)過上述步驟,兩個(gè)特異性網(wǎng)絡(luò)的節(jié)點(diǎn)和連邊都已經(jīng)確定,網(wǎng)絡(luò)屬性為無權(quán)無向網(wǎng)絡(luò)。為了加強(qiáng)網(wǎng)絡(luò)的緊密性和準(zhǔn)確性,對目前的網(wǎng)絡(luò)進(jìn)行加權(quán)和進(jìn)一步調(diào)整優(yōu)化連邊。結(jié)合網(wǎng)絡(luò)與表達(dá)譜,為網(wǎng)絡(luò)中現(xiàn)有的每條連邊計(jì)算兩個(gè)節(jié)點(diǎn)的斯皮爾曼相關(guān)系數(shù)。如果p<0.05且斯皮爾曼相關(guān)系數(shù)的絕對值大于0.3,則在網(wǎng)絡(luò)中保留該連邊,并且將該斯皮爾曼相關(guān)系數(shù)作為該連邊的權(quán)值。對所有的連邊都進(jìn)行此操作后,去除了聯(lián)系不緊湊的連邊。如果某個(gè)節(jié)點(diǎn)和它的鄰居節(jié)點(diǎn)之間的連邊都被去除后,則該節(jié)點(diǎn)作為孤立節(jié)點(diǎn)也將被去除。兩個(gè)網(wǎng)絡(luò)均屬于無向有權(quán)網(wǎng)絡(luò),且連邊權(quán)值均大于0.3。
加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(Weighted Gene Co-expression Network Analysis,WGCNA)一般用于分析多個(gè)樣本基因的表達(dá)模式,可以用于在網(wǎng)絡(luò)中尋找高度相關(guān)的類簇和模塊[4]。以拓?fù)渲丿B矩陣作為加權(quán)基因共表達(dá)網(wǎng)絡(luò)的輸入,相比于鄰接矩陣,拓?fù)渲丿B矩陣加入了一階相關(guān)的關(guān)系,提升了對網(wǎng)絡(luò)的描述準(zhǔn)確度。拓?fù)渲丿B矩陣中元素wij的計(jì)算公式為
(1)
對構(gòu)造的胃癌和食管癌基因調(diào)控特異性網(wǎng)絡(luò)進(jìn)行加權(quán)基因共表達(dá)網(wǎng)絡(luò)模塊分割的方法分為兩個(gè)步驟:首先對網(wǎng)絡(luò)進(jìn)行層次聚類,然后對層次聚類樹進(jìn)行動態(tài)切割。在進(jìn)行層次聚類之前,先將特異性網(wǎng)絡(luò)的鄰接矩陣變?yōu)橥負(fù)渲丿B矩陣,降低原網(wǎng)絡(luò)中的噪音與假相關(guān),得到相異性拓?fù)渲丿B矩陣再進(jìn)行層次聚類。在本實(shí)驗(yàn)中,使用 average-linkage 方法進(jìn)行聚類,計(jì)算兩個(gè)分組每個(gè)數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)的距離,將所有距離的均值作為兩個(gè)分組之間的距離。這種方法對每個(gè)類簇中的大部分分子都有代表性,可以得到有代表性的結(jié)果。設(shè)置每個(gè)模塊最少的分子數(shù)量為30個(gè),對兩個(gè)網(wǎng)絡(luò)分別進(jìn)行動態(tài)混合切割,一方面尋找所有滿足以下條件的模塊:模塊中分子個(gè)數(shù)滿足設(shè)定的最低數(shù)量,從模塊中移除距離過遠(yuǎn)的分支,模塊由中心分子緊密連接;另一方面將沒有歸屬的分子分配進(jìn)與它最近的初始模塊。最終,胃癌被分為14個(gè)模塊,食管癌分為10個(gè)模塊。
在已經(jīng)劃分為模塊的基礎(chǔ)上,選擇特異性較強(qiáng)的模塊進(jìn)行重點(diǎn)分析。對每個(gè)模塊用第一主成分法計(jì)算模塊的特征向量基因(Module Eigengene,ME)。每個(gè)模塊的特征向量基因是由該模塊中分子表達(dá)值向量線性組合而來,其值與整個(gè)模塊內(nèi)的分子表達(dá)高度相關(guān)。計(jì)算整理的所有已知癌癥標(biāo)記物與模塊特征向量基因的斯皮爾曼相關(guān)系數(shù),使用最大最小法計(jì)算每個(gè)模塊的絕對相關(guān)系數(shù)的最大值與最小值之差。絕對值之差越大,表明該模塊在抑制癌癥標(biāo)記物上越有差異性。筆者挑選每個(gè)網(wǎng)絡(luò)中排名前三的模塊并且對模塊內(nèi)的分子進(jìn)行候選癌癥標(biāo)記物排序。
候選癌癥標(biāo)記物是指特異性模塊中的非已知癌癥標(biāo)記物,將模塊的特征向量基因與所有候選癌癥標(biāo)記物的表達(dá)向量進(jìn)行相似性度量。某個(gè)分子與模塊的特征向量基因相關(guān)性越大,說明該分子越有可能是該模塊的中心分子。在每個(gè)特異性模塊中每種相似性度量方法產(chǎn)生一種排序,取每種方法排名前10的分子進(jìn)行分析驗(yàn)證。相似性評估方法可以分為兩類:基于距離的度量以及基于相關(guān)性的度量。在此使用的基于距離的度量方法包括歐幾里得距離、曼哈頓距離和切比雪夫距離;基于相關(guān)性的度量方法包括皮爾遜相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)。
將調(diào)控關(guān)系與磷酸化關(guān)系的范圍收縮至甲基化異常的分子范圍內(nèi),構(gòu)造的胃癌特異性基因調(diào)控網(wǎng)絡(luò)的規(guī)模為905個(gè)節(jié)點(diǎn)和1 597條連邊,包含67個(gè)miRNA和838個(gè)基因(包括轉(zhuǎn)錄因子),其中45個(gè)miRNA 和4個(gè)基因均是胃癌分子標(biāo)記物。食管癌特異性基因調(diào)控網(wǎng)絡(luò)規(guī)模為783個(gè)節(jié)點(diǎn)和1 309條連邊,包含68個(gè)miRNA和715個(gè)基因,其中18個(gè)miRNA 和1個(gè)基因是已知食管癌分子標(biāo)記物。
通過最大最小法選擇的特異性模塊的特性、模塊中分子的數(shù)量和這些分子中的已知癌癥標(biāo)記物數(shù)量如表1所示。對兩種疾病的6個(gè)模塊進(jìn)行富集分析,包括京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)、基因本體(Gene Oncology,GO)、Canonical Pathways以及Reactome Pathway這4種形式的分析。
表1 胃癌與食管癌特異性模塊分子數(shù)量
表2表示了富集條目和特異性模塊的關(guān)系。經(jīng)分析發(fā)現(xiàn):在ESCAmodule3和ESCAmodule1中,包含較多的與細(xì)胞中的轉(zhuǎn)錄和調(diào)節(jié)有關(guān)的富集通路。ESCAmodule1中顯著富集的是PERK介導(dǎo)的未折疊蛋白反應(yīng)(GO:0036499),該過程由腫瘤壞死因子引導(dǎo)激活。在ESCAmodule3中還有MRNA失活(R-HSA-429947)和RNA代謝(R-HSA-8953854)顯著富集,這二者同屬于信號反應(yīng)通路。還有模塊ESCAmodule1、ESCAmodule3、STADmodule1和STADmodule2,都參與到了翻譯初始化的調(diào)節(jié)過程中(GO:0006446)。
表2 富集條目和特異性模塊對照關(guān)系
模塊的富集結(jié)果表明, 經(jīng)過動態(tài)切割后生成的模塊具有明顯的功能性。STADmodule3和ESCAmodule1與免疫系統(tǒng)和腫瘤的發(fā)展有關(guān)。STADmodule1和ESCAmodule2富集的通路基本上重疊,說明這兩個(gè)模塊涉及的功能也近似。STADmodule2和ESCAmodule3參與到了細(xì)胞的分裂和增殖階段,其中STADmodule2控制調(diào)節(jié)轉(zhuǎn)錄和翻譯過程,ESCAmodule3則在核分裂方面表現(xiàn)突出。
圖2 表示了每個(gè)特異性模塊之間的關(guān)系,連線表示模塊之間的基因分子重疊或者基因與基因之間存在功能相關(guān)。STADmodule2和ESCAmodule3有較多的分子重疊,包括FTSJ2、 CITED2和LRP10。而STADmodule1只和ESCAmodule2有分子重疊,比如DNAJB4,該基因已經(jīng)被證實(shí)在轉(zhuǎn)移性黑色素瘤、乳腺癌和非小細(xì)胞肺癌中作為癌癥標(biāo)記物存在(PMID:29722524,PMID:28521415,PMID:28481734)。
圖2 特異性模塊關(guān)系圖
使用5種相似性度量方法,對胃癌的3個(gè)特異性模塊和食管癌的3個(gè)特異性模塊進(jìn)行候選分子排序。將每個(gè)模塊中的每種方法排名前10的分子提取出來進(jìn)行對比和數(shù)據(jù)庫驗(yàn)證。除已經(jīng)被COSMIC和OMIM收錄的癌癥標(biāo)記物以外,一些近期公開發(fā)表的研究中提及的在癌癥中特異表達(dá)的分子作為癌癥標(biāo)記物也具有一定可信度。
圖3表示在胃癌的3個(gè)特異性模塊中使用5種不同相似性度量方法的前10名分子中,可以得到文本驗(yàn)證的數(shù)量。
在STADmodule1中基于距離的方法得到驗(yàn)證的分子完全相同,即每種方法都有2個(gè)分子驗(yàn)證成功,且這2個(gè)分子同時(shí)出現(xiàn)在3種方法中。斯皮爾曼相關(guān)系數(shù)和皮爾遜相關(guān)系數(shù)方法各有4個(gè)分子得到驗(yàn)證,其中3個(gè)分子重合。斯皮爾曼相關(guān)系數(shù)方法中預(yù)測出的TPR分子,文獻(xiàn)[5]采用TPR探針對胃癌患者進(jìn)行分析,就已經(jīng)發(fā)現(xiàn)TPR對胃癌有抑制作用。而只在皮爾遜相關(guān)系數(shù)方法中出現(xiàn)的分子是UBQLN2,UBQLN2在原癌細(xì)胞中表達(dá)水平高于癌旁組織[6]。
STADmodule2中基于距離的方法和基于相關(guān)性的方法在結(jié)果上有明顯區(qū)分。歐幾里得距離和切比雪夫距離都只有一個(gè)相同的分子得到驗(yàn)證,而曼哈頓距離在前兩者的基礎(chǔ)上多了SOCS1分子。在關(guān)于SOCS1的抗腫瘤機(jī)制研究中表明,SOCS1可以抑制80%的胃癌細(xì)胞系增殖,這意味著SOCS1可以作為一種新型治療胃癌的方法[7]。斯皮爾曼相關(guān)系數(shù)在STADmodule2中表現(xiàn)突出,有6個(gè)分子完全得到驗(yàn)證,皮爾遜相關(guān)系數(shù)也有5個(gè)分子得到驗(yàn)證,與斯皮爾曼相關(guān)系數(shù)方法比較只缺少了TIMM17B。
STADmodule3中基于距離的方法表現(xiàn)欠佳,3種方法均只有1個(gè)相同的分子hsa-miR-454-3p得到驗(yàn)證。hsa-miR-454-3p在胃癌細(xì)胞系中通過介導(dǎo)HDAC3來調(diào)節(jié)胃癌細(xì)胞的生長[8]。而斯皮爾曼相關(guān)系數(shù)結(jié)果中有3個(gè)分子得到成功驗(yàn)證,皮爾遜相關(guān)系數(shù)方法在STADmodule3中優(yōu)于所有方法,有4個(gè)分子驗(yàn)證成功。
在ESCAmodule1中,3種基于距離的度量結(jié)果中均有2個(gè)分子得到驗(yàn)證,分別是hsa-miR-191-3p和hsa-miR-29b-2-5p。文獻(xiàn)[9]通過聚合酶鏈?zhǔn)椒磻?yīng)檢測在93例食管癌組織中hsa-miR-191-3p的表達(dá)情況,檢驗(yàn)得知hsa-miR-191-3p的過度表達(dá)可以導(dǎo)致食管癌細(xì)胞的增殖和侵襲。文獻(xiàn)[10]也證實(shí)hsa-miR-29b-2-5p能抑制食管癌的增殖,可以作為食管癌的抑癌分子在預(yù)后治療中發(fā)揮作用。在ESCAmodule1的兩種基于相關(guān)性的度量方法中,各有5個(gè)分子得到驗(yàn)證,并且這兩種方法的5個(gè)分子完全相同,但其排名順序不同。hsa-miR-191-3p出現(xiàn)在這5種排名中,表明該分子作為癌癥標(biāo)記物的可能性極大。
圖3 特異性模塊驗(yàn)證分子數(shù)量對比圖
在ESCAmodule2中,3種基于距離的度量方法得到的分子也完全相同,有2個(gè)分子可以得到驗(yàn)證,排名不相同。HNRNPA2B1在基于相關(guān)性的兩種方法中都排在前列[11]。在皮爾遜相關(guān)系數(shù)的排名結(jié)果中還包括hsa-miR-191-5p,該分子與ESCAmodule1的5種方法中均預(yù)測出的hsa-miR-191-3p關(guān)系密切,兩個(gè)分子源于同一個(gè)miRNA前體hsa-miR-191[9]。
ESCAmodule3中基于距離的方法和基于相關(guān)性的方法驗(yàn)證成功的分子數(shù)量相差甚小。歐幾里得距離和曼哈頓距離均有4個(gè)分子驗(yàn)證成功,切比雪夫方法相較于前兩者并沒有成功預(yù)測出RAD51。RAD51可以通過自噬調(diào)節(jié)CHK1的穩(wěn)定性,促進(jìn)食管癌細(xì)胞的生長[12]。斯皮爾曼相關(guān)系數(shù)和皮爾遜相關(guān)系數(shù)中也同樣包含RAD51,不過皮爾遜相關(guān)系數(shù)在斯皮爾曼相關(guān)系數(shù)的基礎(chǔ)上增加了H2AFX分子。H2AFX被證實(shí)在食管癌的細(xì)胞株中表達(dá)值顯著增加[13]。在ESCAmodule3中,RAD51在4種方法中都出現(xiàn)了,可以作為該模塊的核心候選癌癥標(biāo)記物。
實(shí)驗(yàn)結(jié)果顯示,在5個(gè)模塊中,基于距離的測量方法不如基于相關(guān)性的方法表現(xiàn)出彩。而在3種基于距離的測量方法中,曼哈頓方法在每個(gè)模塊中都不輸于其他兩種。在兩種基于相關(guān)性的測量方法中,皮爾遜相關(guān)系數(shù)法在5個(gè)模塊中優(yōu)于斯皮爾曼相關(guān)系數(shù)法。
筆者結(jié)合多種數(shù)據(jù)分別構(gòu)建胃癌和食管癌的特異性網(wǎng)絡(luò)。使用轉(zhuǎn)錄因子和miRNA之間的相互調(diào)控關(guān)系、轉(zhuǎn)錄因子對基因的調(diào)控和miRNA對基因的調(diào)控,并考慮蛋白質(zhì)的磷酸化修飾關(guān)系,以這些關(guān)系作為特異性網(wǎng)絡(luò)的連邊,以在胃癌中和食管癌中甲基化異常的分子作為網(wǎng)絡(luò)的節(jié)點(diǎn),這樣的操作可以使網(wǎng)絡(luò)的規(guī)模精簡。甲基化在表觀遺傳學(xué)中至關(guān)重要,對于癌癥標(biāo)記物研究有極大幫助[14]。筆者提出對特異性模塊內(nèi)部進(jìn)行候選癌癥標(biāo)記物預(yù)測,結(jié)合模塊的特征基因使用5種相似性度量方法計(jì)算候選分子的排名。比較5種相似性評估的方法,通過文獻(xiàn)驗(yàn)證方法,評估這5種方法的準(zhǔn)確率。實(shí)驗(yàn)證明,在基于距離和基于相關(guān)性的方法中,基于相關(guān)性的方法表現(xiàn)更為出色。進(jìn)一步,在兩種基于相關(guān)性的方法中,皮爾遜相關(guān)系數(shù)方法在此實(shí)驗(yàn)的數(shù)據(jù)下表現(xiàn)優(yōu)于斯皮爾曼相關(guān)系數(shù)方法。在以后可以將類似的方法應(yīng)用于其他的復(fù)雜疾病上,探討復(fù)雜疾病的分子機(jī)制。