楊天濠 王新贈
(1.中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 青島 266580)
(2.山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院 青島 266580)
腫瘤轉(zhuǎn)移是指惡性腫瘤細(xì)胞從原發(fā)部位,經(jīng)淋巴道、血管或體腔等途徑,到達(dá)其他部位繼續(xù)生長的過程[1]。惡性腫瘤的轉(zhuǎn)移通常發(fā)生在癌癥晚期,是導(dǎo)致癌癥患者死亡的主要原因之一。其中,肺癌的轉(zhuǎn)移是一個較為復(fù)雜、由多基因參與的過程,它嚴(yán)重影響肺癌患者治療的療效和預(yù)后。骨是肺癌遠(yuǎn)處轉(zhuǎn)移常見的靶部位之一,臨床發(fā)現(xiàn),約40%的晚期肺癌患者會發(fā)生骨轉(zhuǎn)移,同時會引發(fā)多種并發(fā)癥[2~3]。生物學(xué)研究證明,特定的遺傳背景對癌癥轉(zhuǎn)移有重要的影響,有些基因可能參與骨轉(zhuǎn)移發(fā)展的進(jìn)程。因此,對肺癌骨轉(zhuǎn)移相關(guān)候選基因的鑒定和篩選對于肺癌患者的診斷和治療具有迫切而重要的意義。
目前,腫瘤轉(zhuǎn)移相關(guān)基因的鑒定和驗(yàn)證主要依賴于臨床醫(yī)學(xué)及生物學(xué)實(shí)驗(yàn),需要花費(fèi)大量的時間和成本,限制了發(fā)現(xiàn)的能力。隨著生物信息學(xué)的發(fā)展,一些計(jì)算方法被應(yīng)用于識別疾病相關(guān)基因及其驅(qū)動因子[4~6]。相對于臨床醫(yī)學(xué)和生物學(xué)實(shí)驗(yàn),計(jì)算方法具有高效、低成本的優(yōu)點(diǎn)。
針對惡性腫瘤轉(zhuǎn)移關(guān)鍵基因的發(fā)現(xiàn)問題,我們提出了一種基于蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPIN)的癌癥轉(zhuǎn)移基因識別方法,將其應(yīng)用于肺癌骨轉(zhuǎn)移關(guān)鍵候選基因的鑒定。首先利用隨機(jī)游動重啟(RWR)算法對基因進(jìn)行分析和預(yù)選,然后通過置換檢驗(yàn)規(guī)則消除網(wǎng)絡(luò)結(jié)構(gòu)的影響,并利用交互得分規(guī)則和富集分析對基因進(jìn)一步篩選,最終獲得了12 個可能與肺癌骨轉(zhuǎn)移有關(guān)的關(guān)鍵基因。根據(jù)文獻(xiàn)挖掘的結(jié)果,這些基因中有9 個基因已被證實(shí)與肺癌骨轉(zhuǎn)移的形成或發(fā)展有關(guān),并揭示了這些基因可能參與的潛在分子過程,為利用計(jì)算方法研究腫瘤轉(zhuǎn)移機(jī)制提供了新的思路。
肺癌和骨癌相關(guān)基因主要來源于Oncomine 數(shù)據(jù)庫和TCGA 數(shù)據(jù)庫。Oncomine 數(shù)據(jù)庫是一個整合了264個獨(dú)立的數(shù)據(jù)集,涉及35種癌癥類型的綜合型癌癥數(shù)據(jù)庫。TCGA 數(shù)據(jù)庫是目前為止可以獲得的公開數(shù)據(jù)庫里面數(shù)據(jù)相對全面的一個,在各個領(lǐng)域得到了廣泛的應(yīng)用。通過對兩個數(shù)據(jù)庫的檢索,我們最終得到了412 個肺癌相關(guān)基因,其集合用S1表示;以及348 個骨癌相關(guān)基因,其集合用S2表示。
通過對STRING 數(shù)據(jù)庫(版本11.0)的檢索,我們得到了5,879,727 個涵蓋19,354 種蛋白質(zhì)的人類PPI(蛋白質(zhì)相互作用)。研究證明這些PPI反映了蛋白質(zhì)之間的直接(物理)和間接(功能)關(guān)聯(lián)。其中每個PPI 包含兩個Ensembl ID,分別代表蛋白質(zhì)pa和pb,以及一個范圍在150 和999 的得分S( )pa,pb,代表它們的相互作用強(qiáng)度?;谶@些數(shù)據(jù),我們構(gòu)造了一個無向加權(quán)的PPIN,包含19,354個節(jié)點(diǎn)和5,879,727條邊。
在本研究中,我們提出了一種基于PPIN 的癌癥轉(zhuǎn)移基因識別方法,以鑒定肺癌骨轉(zhuǎn)移特異性關(guān)鍵基因。首先,結(jié)合收集的肺癌和骨癌基因數(shù)據(jù),在PPIN 上執(zhí)行RWR 算法,對基因進(jìn)行預(yù)選。然后,通過置換檢驗(yàn)消除網(wǎng)絡(luò)結(jié)構(gòu)的影響,得到候選基因集。最后,利用交互得分規(guī)則和富集分析對基因篩選,增強(qiáng)結(jié)果的準(zhǔn)確性,得到肺癌骨轉(zhuǎn)移關(guān)鍵基因集。整個方法的過程如圖1所示。
圖1 方法流程圖
RWR 算法是一種經(jīng)典的排序算法,它從一些種子節(jié)點(diǎn)開始,模擬其在網(wǎng)絡(luò)中隨機(jī)游走和重啟,同時更新所有節(jié)點(diǎn)的概率得分并對節(jié)點(diǎn)進(jìn)行排名[7]。它已被用于解決疾病基因的發(fā)現(xiàn)和藥物重定位等問題[5~6]。RWR算法的主要過程如下:
輸入:PPIN 的列歸一化的鄰接矩陣A,初始概率得分向量P0={Ps1,Ps2,…,Psn} (n=19354)
初始化:將S1與S2中基因整合并刪去重復(fù)的基因,得到682 個節(jié)點(diǎn)作為種子節(jié)點(diǎn),它們在P0中的概率得分設(shè)為1/682,其他節(jié)點(diǎn)的初始得分設(shè)為0;令重啟概率r=0.8
過程:Fori=0 do
十月懷胎,真的不容易。盡管小心翼翼,在懷孕期間還是出現(xiàn)了高血壓和其它并發(fā)癥,經(jīng)過保胎治療,兩個孩子在子宮內(nèi)生長發(fā)育著,這讓我飽含憧憬。
執(zhí)行迭代Pi+1=(1 -r)APi+rP0(1)
直到‖Pi+1-Pi‖L1<10-6
End
輸出:Pi+1中概率得分大于閾值10-5的節(jié)點(diǎn)對應(yīng)的基因集合
算法的最終結(jié)果表示種子節(jié)點(diǎn)在網(wǎng)絡(luò)中隨機(jī)游走到其他節(jié)點(diǎn)的概率,體現(xiàn)了種子節(jié)點(diǎn)與其他節(jié)點(diǎn)在PPIN 中的相似性。因此,具有較高概率得分的基因與已驗(yàn)證的骨癌和肺癌基因更相關(guān),從而更有可能是轉(zhuǎn)移相關(guān)基因。概率得分大于閾值10-5的基因最終被篩選出來,這些基因統(tǒng)稱為RWR基因。
通過RWR 算法得到的基因可能會受到PPIN結(jié)構(gòu)的影響,從而存在很多與癌癥轉(zhuǎn)移無關(guān)的基因。為了盡可能排除這些基因,我們提出了置換檢驗(yàn)規(guī)則。
首先,我們將總置換數(shù)設(shè)為1000,即隨機(jī)構(gòu)建了1000 個Ensembl IDs 集合,記為E1,E2,…,E1000,每個集合包含682 個隨機(jī)的基因Ensembl IDs。然后,通過將Ei(1 ≤i≤1000 )中的682 個基因設(shè)置為種子節(jié)點(diǎn),在PPIN 上執(zhí)行RWR 算法以獲取每個RWR 基因的概率得分。對于每個RWR 基因,存在一個真實(shí)概率得分Ps(g)和1000 個隨機(jī)概率得分Psi(g)。最后,對每一個RWR 基因g,計(jì)算p-value值如下:
如果隨機(jī)概率得分Psi(g)普遍大于真實(shí)概率得分Ps(g),說明g更可能是因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)而被選出來的假陽性基因。顯然,p-value 值很高的RWR基因并不是與肺癌骨轉(zhuǎn)移特異性相關(guān)的基因,應(yīng)當(dāng)被刪除。由于0.05 是作為被廣泛接受的統(tǒng)計(jì)學(xué)檢驗(yàn)傳統(tǒng)顯著性水平的閾值,我們選擇p-value 值小于0.05的RWR基因作為肺癌骨轉(zhuǎn)移的潛在候選基因做進(jìn)一步分析。
根據(jù)研究證明,PPI 中交互得分高的兩個蛋白質(zhì)更有可能具有相似功能[8]。我們可以利用這一信息篩選出同時與肺癌和骨癌基因在功能上相似的候選基因。對于每個候選基因g,計(jì)算它的最大-最小交互得分MMIS:
其中,S1與S2分別表示2.1節(jié)中的肺癌相關(guān)基因集合與骨癌相關(guān)基因集合,因此MMIS 較高的候選基因至少同時與一個已驗(yàn)證的肺癌相關(guān)基因和骨癌相關(guān)基因密切相關(guān)。在STRING 數(shù)據(jù)庫中,900 是蛋白質(zhì)之間的最高置信度值,因此選擇MMIS 得分不小于900的候選基因做進(jìn)一步研究。
基因本體論(GO)可以從分子功能、生物學(xué)過程和細(xì)胞成分三個方面描述給定的基因及其產(chǎn)物;京都基因與基因組百科全書(KEGG)數(shù)據(jù)庫提供了多個基因之間的生物學(xué)代謝途徑。與已知肺癌和骨癌基因共享相同或相似的GO terms 和KEGG通路的候選基因更有可能是與轉(zhuǎn)移相關(guān)的基因[9]。首先,根據(jù)富集分析的結(jié)果計(jì)算每個候選基因g與所有GO terms 和KEGG 通路的關(guān)系值,得到向量ES(g)。對 于 兩 個 基 因g與g′ 在GO terms 和KEGG 通路上的富集分析相似性得分可以通過余弦定理計(jì)算:
具有更高Δ(g,g' )值的兩個基因通常在分子功能和生物學(xué)過程等方面有很強(qiáng)的相關(guān)性。對于每個候選基因g,再計(jì)算最大-最小富集得分MMES:
在本研究中,我們嘗試將0.9 作為MMES 的閾值,即篩選出MMES 大于0.9 的候選基因作為最終的轉(zhuǎn)移關(guān)鍵基因。在整個方法中,對于由RWR 算法和置換檢驗(yàn)規(guī)則產(chǎn)生肺癌骨轉(zhuǎn)移候選基因,通過交互得分規(guī)則和富集分析進(jìn)行評估,選擇MMIS 不小于900 并且MMES 大于0.9 的基因作為肺癌骨轉(zhuǎn)移關(guān)鍵基因,這些基因被認(rèn)為在肺癌骨轉(zhuǎn)移中發(fā)揮了重要作用。
如3.1 節(jié)所述,我們將與肺癌和骨癌相關(guān)的682 個基因作為種子節(jié)點(diǎn),在PPIN 上執(zhí)行RWR 算法,篩選概率得分大于10-5的基因后,得到了6850個RWR 基因。其次,我們采取了置換檢驗(yàn)規(guī)則來消除網(wǎng)絡(luò)結(jié)構(gòu)對結(jié)果的影響,得到了964個p-value值小于0.05的候選基因做進(jìn)一步研究。
為了更準(zhǔn)確地識別肺癌骨轉(zhuǎn)移相關(guān)基因,我們通過交互得分規(guī)則和富集分析測試對候選基因進(jìn)行了評估與篩選。通過計(jì)算,對于每個侯選基因得到了一個MMIS 和MMES,我們選擇MMIS 不小于900 并且MMES 大于0.9 的12 個基因作為肺癌骨轉(zhuǎn)移關(guān)鍵基因,如表1 所示。文獻(xiàn)挖掘的結(jié)果證明這些關(guān)鍵基因基因大部分參與了肺癌骨轉(zhuǎn)移的發(fā)展過程,與肺癌骨轉(zhuǎn)移特異性顯著相關(guān)。
表1 12個肺癌骨轉(zhuǎn)移關(guān)鍵基因及其概率得分、P-value、MMIS及MMES值
在獲得的12個肺癌骨轉(zhuǎn)移關(guān)鍵基因中,有9個基因已被證實(shí)與肺癌骨轉(zhuǎn)移的形成或發(fā)展有關(guān),其中包括骨髓毛細(xì)血管的侵襲和外滲,對趨化因子的反應(yīng)以及對骨細(xì)胞外基質(zhì)的粘附等。根據(jù)以往的研究,肺癌細(xì)胞的上皮細(xì)胞-間質(zhì)細(xì)胞轉(zhuǎn)化(EMT)過程和骨微環(huán)境的改變被認(rèn)為是肺癌形成骨轉(zhuǎn)移的關(guān)鍵因素[10~11]。大多數(shù)潛在的關(guān)鍵基因都直接或間接地參與了這兩個過程,體現(xiàn)了它們在肺癌骨轉(zhuǎn)移中的特殊作用。
根據(jù)12 個肺癌骨轉(zhuǎn)移關(guān)鍵基因的基因家族,我們將它們分為5個簇,如圖2所示,并進(jìn)行了相應(yīng)的分析。其中,MDM2 與許多癌癥的發(fā)病機(jī)制有關(guān),它刺激基質(zhì)金屬蛋白酶(MMPs)的表達(dá),促進(jìn)骨髓竇細(xì)胞外滲,有利于肺癌細(xì)胞通過新生血管進(jìn)入血液循環(huán),對肺癌骨轉(zhuǎn)移有特異性作用[12~13]。此外,CD44 同樣上調(diào)了MMPs 的表達(dá),對肺癌細(xì)胞在骨骼組織中的適應(yīng)性和侵襲性起著重要作用[14]。
圖2 12個關(guān)鍵基因的基因家族分布
EMT過程發(fā)生在肺癌骨轉(zhuǎn)移的初始階段,有利于降低細(xì)胞間黏附力,加速相鄰細(xì)胞脫落。其中,BMP7、CTBP1 基因調(diào)控并參與肺癌細(xì)胞的EMT 過程[15~16],表明了它們在肺癌骨轉(zhuǎn)移過程中的影響。骨微環(huán)境是調(diào)節(jié)骨組織并維持其動態(tài)平衡的重要環(huán)境,肺癌骨微環(huán)境的改變在骨轉(zhuǎn)移的進(jìn)展中起著重要的作用。其中,APC、PROCR 及IL6 基因參與了骨微環(huán)境的改變過程[17~18],為骨轉(zhuǎn)移瘤提供生長所需營養(yǎng)物質(zhì),有利于肺癌細(xì)胞在骨組織中的生長和擴(kuò)散。此外,原癌基因MET 可以激活骨微環(huán)境中RANK 信號通路,誘導(dǎo)破骨細(xì)胞的活化,最終導(dǎo)致溶骨性轉(zhuǎn)移的發(fā)生[19]。RAF1 是一種參與RAS信號通路的功能性原癌基因,被廣泛報(bào)道參與癌癥轉(zhuǎn)移過程[20]。
在尚未確定的3 個基因中,UBE2C 是與泛素相關(guān)的基因,編碼細(xì)胞周期進(jìn)展所需的蛋白質(zhì),在骨髓中廣泛表達(dá)[21]。NOTCH3 在調(diào)控腫瘤細(xì)胞的凋亡、增殖的分化中起著重要作用,是多種腫瘤治療的潛在靶標(biāo)[22]。PAK1 參與細(xì)胞粘附、遷移、增殖、凋亡、有絲分裂等多種細(xì)胞生物學(xué)過程,促進(jìn)肺癌細(xì)胞的增殖及侵襲能力[23]。這些基因可能是潛在的肺癌骨轉(zhuǎn)移相關(guān)基因,值得進(jìn)一步研究。
腫瘤轉(zhuǎn)移是一個復(fù)雜的過程,通常是促進(jìn)腫瘤加重的主要原因。腫瘤轉(zhuǎn)移相關(guān)基因的鑒定可為腫瘤轉(zhuǎn)移的治療提供分子靶點(diǎn),有助于癌癥患者的治療和預(yù)后。在本研究中,基于兩種相互作用更強(qiáng)的蛋白質(zhì)更可能具有相似功能的假設(shè),我們在PPIN 上設(shè)計(jì)了一種綜合方法來識別癌癥轉(zhuǎn)移相關(guān)的基因。我們將該方法運(yùn)用于肺癌骨轉(zhuǎn)移相關(guān)基因的鑒定,最終獲得了12 個潛在的肺癌骨轉(zhuǎn)移關(guān)鍵基因并進(jìn)行了廣泛分析。結(jié)果表明,大多數(shù)鑒定的基因已被證實(shí)有助于肺癌骨轉(zhuǎn)移的進(jìn)程,體現(xiàn)了該方法的有效性和合理性。我們希望這一貢獻(xiàn)將有助于識別腫瘤轉(zhuǎn)移特異性基因,并為腫瘤轉(zhuǎn)移的機(jī)理研究提供啟示。