張英郎 張偉 武燕龍 包國昌
(赤峰學院附屬醫(yī)院泌尿外科赤峰市泌尿外科研究所,內(nèi)蒙古 赤峰 024000)
前列腺癌(PC)是困擾全世界男性的主要癌癥,好發(fā)于中老年人,國際癌癥研究機構統(tǒng)計了2020年全球癌癥發(fā)病率與死亡率,其中約有140萬PC新發(fā)病例,37.5萬人死亡。北歐,西歐,加勒比,澳大利亞/新西蘭和北美位列發(fā)病率前5位〔1〕。我國由于人口老齡化加劇,生活方式及飲食結構的改變,其發(fā)病率也呈明顯上升趨勢。PC起病隱匿,臨床發(fā)現(xiàn)時多伴有遠處臟器及淋巴結,預后較差。生物信息學分析是基于組織細胞的芯片或高通量測序微陣列數(shù)據(jù),將信息學與表達譜分析技術相結合,作為一個強有力的方法從成千上萬個基因中挖掘有價值的基因,有助于解析癌癥的潛在分子機制。GEO收錄了世界各國研究機構提交的芯片或高通量表達數(shù)據(jù),屬于獲得倫理批準的公共數(shù)據(jù)庫。用戶可以檢索他人上傳的一些實驗測序數(shù)據(jù)并免費下載進行研究,所以不存在倫理問題和其他利益沖突。本研究采用此方法從中有效的篩選出了25個差異表達基因(DEGs),識別了4個與PC預后相關的篩選樞紐(Hub)基因,這些基因可能作為將來抗腫瘤藥物開發(fā)及腫瘤發(fā)生發(fā)展機制研究的靶點,被進一步研究。
1.1數(shù)據(jù)獲取與DEGs的鑒定 在GEO數(shù)據(jù)庫中(https://www.ncbi.nlm.nih.gov)下載PC的mRNA微陣列芯片數(shù)據(jù)GSE46602〔2〕和GSE104749〔3〕,前者包含通過激光切除術獲取的36例PC組織和14例正常組織,后者包含通過細針穿刺活檢獲取的4例PC組織和4例正常組織,檢測平臺均為GPL570 Affymetrix Human Genome U133 Plus 2.0 Array。應用Limma包對數(shù)據(jù)進行分析,設置篩選標準(P<0.01,|logFC|>2)后得到顯著DEGs,以logFC為正值表示該基因在癌中高表達,為負值表示其在癌中低表達,通過網(wǎng)絡工具Venn diagram(http://bioinformatics.psb.ugent.be/webtools/Venn/)獲得兩個數(shù)據(jù)集重疊的DEGs。
1.2蛋白互作(PPI)網(wǎng)絡構建及hub基因的篩選 STRING 11.0 Version (http://string-db.org)是一個整合已知的和預測的蛋白質(zhì)-蛋白質(zhì)關聯(lián)數(shù)據(jù)庫,該數(shù)據(jù)庫可應用于2 031個物種,包含960萬種蛋白和1 380萬條蛋白質(zhì)之間的相互作用,有助于挖掘核心的調(diào)控基因。在Homo sapiens中查詢25個DEGs。利用Cytoscape獲得可視化的PPI網(wǎng)絡圖,選擇馬修斯相關系數(shù)(MCC)拓撲分析方法在PPI網(wǎng)絡中對關鍵蛋白的進行預測得到degree前5位的Hub基因。
1.3差異基因本體化(GO)功能和京都基因與基因組百科全書(KEGG)通路富集分析 Metascape(http://metascape.org)是一個強大的基因功能注釋分析工具,它能夠去除功能冗余的富集通路,用簡單明了的條形圖顯示出最主要的結果,富集的通路也能以網(wǎng)絡形式呈現(xiàn),更易于理解通路或生物學過程之間的關系。將DEGs及Hub基因輸入到此網(wǎng)站,進行GO功能和KEGG通路富集分析。隨后通過GeneCards網(wǎng)站(https://www.genecards.org/)對每一個Hub基因進行詳細的GO和KEGG通路富集注釋。
1.4Hub基因表達差異驗證及預后分析 我們分別在GEO和腫瘤與癌癥基因組圖譜(TCGA,https://portal.gdc.cancer.gov) 數(shù)據(jù)庫下載了兩個芯片的series Matrix file(s)數(shù)據(jù)及TCGA_GTEX-PRAD TPM格式的RNAseq數(shù)據(jù),應用3.6.3 R包進行統(tǒng)計學計算及可視化,分析hub基因在癌組織中對比正常組織的表達差異及與臨床變量〔Gleason評分、前列腺特異性抗原(PSA)水平和淋巴結轉(zhuǎn)移狀態(tài)〕的相關性。為了鑒定與預后相關的基因,利用GEPIA(http://gepia.cancer-pku.cn)進行總生存(OS)和無病生存(DFS)分析,以P<0.05篩選與預后相關的基因,進一步通過R包統(tǒng)計分析Hub基因之間的相關性。
1.5Hub基因預測生存效能評價 下載TCGA_GTEX-PRAD隊列中的表達數(shù)據(jù),篩選出包含5年生存狀態(tài)資料的患者79例,其中4例5年內(nèi)因腫瘤原因死亡,75例5年時仍存活;建立索引獲得患者Hub基因的表達水平數(shù)據(jù),采用pROC R包和ggplot2 R包構建受試者工作特征(ROC)曲線,計算曲線下面積(AUC)預測5年疾病特異性生存與否的能力,以AUC>0.7表示具有一定的預測效能。
1.6統(tǒng)計學處理 采用SPSS22.0軟件進行獨立樣本t檢驗、單因素方差分析、Kaplan-Meier生存分析、Log-rank檢驗。
2.1DEGs的識別 應用limma包分析,以P<0.05,|logFC|>1為標準,相比于正常組織,GSE4-6602隊列共篩選了372個高表達及641個低表達的DEGs,GSE104749隊列則有134個高表達及175個低表達的DEGs,見圖1。進一步以|logFC|>2為篩選標準,GSE46602隊列共篩選了159個下調(diào)及74個上調(diào)的DEGs,GSE104749隊列有93個下調(diào)及82個上調(diào)的DEGs,Ven圖獲得兩個數(shù)據(jù)集中9個共同上調(diào)和16個下調(diào)的DEGs。其中上調(diào)的基因為DLX1,RRM2,ITGBL1,ASPN,TRPM4,TOP2A,INHBA,BICD1,AURKA;下調(diào)的基因為NEFH,SLC14A1,TRIM29,LIN00844,VSNL1,CYP3A5,COL4A6,DSC3,ID4,AOX1,PDE8B,HOXD10,GATA3,FOXQ1,ANGPT1,ARMCX1。
圖1 差異表達基因火山圖
2.2差異基因的PPI網(wǎng)絡構建和Hub基因的篩選 將25個DEGs導入到STRING數(shù)據(jù)庫中,得到了包含24個節(jié)點,9條互作關系線的PPI網(wǎng)絡,PPI富集P<0.002 07,見圖2。應用Cytohubba進一步篩選了排名前5位的Hub基因,分別為TOP2A,AURKA,RRM2,COL4A6,BICD1。
圖2 25個DEGs的PPI網(wǎng)絡
2.3差異基因的GO功能和KEGG通路富集分析 Metascape富集分析結果表明這25個DEGs共富集到7個GO生物學功能和1個KEGG信號通路上,主要集中神經(jīng)元凋亡過程調(diào)控,激素水平調(diào)節(jié),細胞周期負調(diào)控,藥物代謝;5個Hub基因富集在細胞周期,有絲分裂通路中,見圖3。GeneCards在線數(shù)據(jù)庫對Hub基因分別進行詳細的GO和KEGG注釋,見表1。
表1 GeneCards網(wǎng)站分析Hub基因主要參與的生物學功能和信號通路
圖3 差異基因的GO和KEGG富集分析
2.4Hub基因在PC中的表達 基于GSE46602和GSE104749的芯片原始數(shù)據(jù),將Hub基因的表達差異繪制成了散點圖,見圖4A。接著在TCGA_GTEX-PRAD大數(shù)據(jù)集中驗證了這些基因在PC中的表達,結果顯示,相比于正常前列腺組織,TOP2A,AURKA,RRM2及BICD1在PC組織中高表達,COL4A6在PC組織中低表達,見圖4B~F,這與芯片結果相符。同時分析還表明TOP2A,AURKA及RRM2表達水平越高,其Gleason評分,PSA水平及淋巴結轉(zhuǎn)移率越高(均P<0.05),COL4A6表達水平越低,Gleason評分,PSA水平及淋巴結轉(zhuǎn)移越低(均P<0.05),見表2~4。
表2 Hub基因表達與PC患者Gleason評分的關系(M)
表3 Hub基因表達與PC患者PSA水平的關系(M)
表4 Hub基因表達與PC患者淋巴結轉(zhuǎn)移的關系(M)
A:GSE46602和GSE104749數(shù)據(jù)集(PC組織n=40,正常組織n=18);B~F:TCGA_GTEx-PRAD數(shù)據(jù)集(PC組織n=496,正常組織n=152)
2.5Hub基因在PC中的預后分析及各基因的相關性分析 通過GEPIA網(wǎng)站對Hub進行生存分析,以中位數(shù)作為截斷值分為高低表達兩組,結果顯示所有Hub基因在PC中的表達與患者OS無相關性(P>0.05),見圖5,但與患者DFS顯著相關。TOP2A,AURKA及RRM2在PC中高表達與PC患者更短的DFS顯著相關(P<0.05),COL4A6在癌中低表達與較短的DFS顯著相關(P<0.05),見圖6。隨后通過R在TCGA-PRAD-RNAseq數(shù)據(jù)集中對TOP2A,AURKA及RRM2的表達數(shù)據(jù)進行Shapiro-Wilk正態(tài)性檢驗,結果不滿足正態(tài)分布(P<0.05)。隨后用Spearman秩相關進行相關分析,結果顯示TOP2A與AURKA及RRM2之間呈顯著正相關(r=0.890、0.890,均P<0.001),RRM2與AURKA之間呈顯著正相關(r=0.850,P<0.001)。
圖5 Hub基因與OS的關系生存
圖6 Hub基因與DFS的關系生存
2.6Hub基因在PC患者5年疾病特異性生存與否中的預測效能 在TCGA_GTEx-PRAD隊列中,TOP2A(AUC=0.754),AURKA(AUC=0.765),RRM2(AUC=0.826)及COL4A6(AUC=0.901)均表明在預測PC患者5年后是否生存有一定的準確性,其中RRM2表現(xiàn)最優(yōu),見圖7。
圖7 Hub基因預測PC患者5年疾病特異性生存的ROC曲線
基因表達數(shù)據(jù)反映的是直接或間接測量得到的基因轉(zhuǎn)錄產(chǎn)物mRNA在組織細胞中的豐度,生物信息學可以利用這些數(shù)據(jù)分析哪些基因的表達發(fā)生了改變,基因之間有何相關性,在不同條件下基因的活動是如何受影響的,這在揭示疾病內(nèi)在機制、發(fā)現(xiàn)治療靶點、輔助診斷、藥物療效判斷、預測疾病預后等方面有重要的作用。本研究的主要思路基于“挑”篩選DEGs、“圈”功能聚類、“聯(lián)”蛋白互作、“靠”臨床意義這四個維度,識別了4個具有臨床意義的Hub基因。分析發(fā)現(xiàn)TOP2A,AURKA,RRM2在PC中高表達,而COL4A6在PC中表達降低,且這些基因的表達與PC患者Gleason評分,PSA水平及淋巴結轉(zhuǎn)移具有顯著相關性,提示它們與PC的侵襲能力及惡性程度相關,這對于腫瘤發(fā)生發(fā)展機制研究及后續(xù)藥物靶點的研發(fā)有一定的參考價值。生存分析顯示TOP2A,AURKA,RRM2作為致病性基因,其高表達與PC患者較短的DFS顯著相關,而COL4A6作為保護性基因,其高表達與PC患者較長的DFS顯著相關。而這些基因表達與OS無統(tǒng)計學差異,可能因前列腺癌預后良好,OS作為研究終點不易獲得有關。表達譜分析中,經(jīng)常會用到相關性分析,探索一組基因間的共表達特征。如這些基因間的表達是否存在較強的協(xié)同性,一個基因表達值的改變是否與另一個基因表達值改變顯著相關,它們之間是共激活還是抑制關系等。本研究結果表明,TOP2A,AURKA及RRM2之間在PC中存在顯著正相關,提示他們可能在相似的生物學過程中發(fā)揮作用。ROC曲線揭示這些基因在預測PC患者5年疾病特異性存活狀態(tài)中均具有較高的敏感度和特異度。GO和KEGG富集分析進一步揭示它們共同參與細胞周期,有絲分裂,為深入研究分子機制提供了方向。
TOP2A全名脫氧核糖核酸拓撲異構酶(DNA Topoisomerase Ⅱ Alpha),編碼基因定位于17q21.2,主要通過參與DNA分裂、修復、重組、復制、轉(zhuǎn)錄及染色體分離濃縮等過程調(diào)節(jié)DNA拓撲結構〔4〕。TOP2A通過調(diào)控DNA鏈的斷裂和重新連接,從而影響DNA的拓撲狀態(tài)和復制〔5〕,這種機制在腫瘤的增殖、轉(zhuǎn)移和化療藥物耐藥性等方面發(fā)揮重要作用〔6〕。TOP2A在人類大部分腫瘤中高表達,誘導癌細胞的持續(xù)增殖,并導致轉(zhuǎn)移,影響患者的生存預后。Del Moral-Hernández等〔7〕利用免疫組化分析了1 485例宮頸刮片及活組織切片的細胞學樣本,發(fā)現(xiàn)TOP2A/MCM2表達隨宮頸上皮內(nèi)麟狀病變程度而升高,其高靈敏度和特異度是識別并預測宮頸癌前病變進展風險的最佳生物標志物,可普及臨床應用于女性宮頸病變篩查中。Du等〔8〕通過生信分析并結合實驗發(fā)現(xiàn)TOP2A在人肺腺癌(LUAD)中高表達并與患者OS預后相關,機制上通過細胞外調(diào)節(jié)蛋白激酶(ERK)/C-Jun氨基末端激酶(JNK)/p-P38/C/EBP同源蛋白(CHOP)信號通路促進腫瘤的進展,TOP2A可能會成為LUAD患者的預后標志物和潛在治療靶點。Ren等〔9〕研究顯示,TOP2A蛋白在不同亞型乳腺癌中均有顯著表達,其在高增殖亞型乳腺癌〔如基底樣、Luminal B、人表皮生長因子受體(HER)2陽性〕中表達更高,TOP2A高表達的乳腺癌患者預后較差。Won等〔10〕提出TOP2A可作為腋窩淋巴結陽性乳腺癌的預測標志物。Resende等〔11〕報道,TOP2A蛋白表達與較高的Gleason評分和術前PSA水平相關,且TOP2A水平較高的患者無生化復發(fā)生存期(BRFS)較短,在多因素Cox回歸分析中,TOP2A仍然是BRFS的獨立預后因素,這與本研究結果一致。此外以TOP2A為靶點的靶向藥物研究也已應用于臨床〔12,13〕,Jain等〔14〕在mRNA及蛋白層面同時驗證了TOP2A在腎上腺皮質(zhì)癌(ACC)中高表達,細胞實驗表明TOP2A抑制劑阿柔比星具有最顯著的抗癌細胞活性,阿柔比星可能是未來臨床試驗中用于局部晚期和轉(zhuǎn)移性ACC患者有效的候選靶向藥。Liu等〔15〕實驗表明,TOP2A抑制劑氯化兩面針堿可能成為治療肝細胞癌的直接靶點。一項最新研究〔16〕顯示,TOP2A抑制劑依托泊苷(VP-16)在CRPC模型中是有效的,侵襲性變異性PC患者的特定亞群可以從VP-16治療中獲益,TOP2A也是預測VP-16反應的良好生物標志物,雄激素受體(AR)信號通路也和VP-16之間存在緊密的聯(lián)系,需要進一步深入研究。
AURKA是一種絲氨酸/蘇氨酸激酶,編碼基因定位于20q13.2,在細胞有絲分裂過程中發(fā)揮重要調(diào)控作用。AURKA作為一種癌基因,已經(jīng)被發(fā)現(xiàn)在多種類型的癌癥中發(fā)揮致癌基因的作用,包括實體腫瘤和惡性血液腫瘤,并可作為有效的治療靶點〔17,18〕?;驍U增、轉(zhuǎn)錄激活和蛋白降解抑制可促進癌組織中AURKA表達的升高。AURKA通過參與癌細胞增殖、上皮-間充質(zhì)轉(zhuǎn)化(EMT)、凋亡和癌癥干細胞的自我更新促進腫瘤發(fā)生。AURKA已被證實可調(diào)控多種癌癥相關的信號通路,包括磷脂酰肌醇3激酶/蛋白激酶B(PI3K/Akt)、哺乳動物雷帕霉素靶蛋白(mTOR)、β-catenin/Wnt和核因子(NF)-κB通路,腫瘤發(fā)生需要多種信號通路之間的相互作用,提示AURKA在這些過程和通路中的重要意義〔19〕。一些高選擇性的AURKA小分子抑制劑如MLN8273已被證明通過抑制有絲分裂、誘導細胞周期阻滯和自噬、加速癌細胞凋亡和衰老來抑制細胞增殖,目前正處于Ⅰ/Ⅱ/Ⅲ期臨床實驗中〔20~22〕。MLN8237能顯著增加腫瘤細胞對化療藥物或放療的敏感性〔23,24〕。新型內(nèi)分泌治療藥物阿比龍或蒽雜魯安問世能夠直接靶向AR治療PC,然而,接受AR定向治療的PC人群可能進展為晚期CRPC,最終發(fā)展為神經(jīng)內(nèi)分泌前列腺癌(NEPC),這些患者喪失AR信號依賴或AR表達而對治療產(chǎn)生耐藥性,導致治療選擇受限。Ton等〔25〕通過深入的研究,設計了一種能同時抑制N-Myc和AURKA靶點的化合物,通過實驗證明可以有效的作為神經(jīng)內(nèi)分泌PC的潛在治療藥物,但需要更廣泛的優(yōu)化及臨床實驗。由此可見以AURKA為靶點的抗癌藥物研發(fā)擁有巨大的潛力。
RRM2又名核糖核苷酸還原酶調(diào)節(jié)亞基M2,編碼基因定位于2p25.1,是DNA合成和修復的關鍵酶,RRM2同樣參與了多種癌癥的進展。Ma等〔26〕通過生信分析發(fā)現(xiàn),無論在TCGA還是其他隊列中,高RRM2表達是LUAD OS期、疾病特異性生存期和無進展生存期的獨立危險因素,且RRM2與B細胞、CD8+及CD4+T細胞等免疫細胞浸潤也顯著相關,為未來研究提供更多的可能性和方向。Wang等〔27〕研究表明,在口腔鱗狀細胞癌(OSCC)中,RRM2表達明顯升高,過表達RRM2能夠促進OSCC細胞的增殖和遷移,抑制細胞凋亡。且其高表達與更晚的病理分級和OSCC復發(fā)密切相關,RRM2高表達患者的OS率較低表達短。Lee等〔28〕等指出,RRM2可作為肝細胞癌根治性切除術后監(jiān)測早期復發(fā)的敏感指標。Zhang等〔29〕通過PCR的方法檢測了21例腹膜后脂肪肉瘤(RLPS)和10例正常對照組織,發(fā)現(xiàn)RRM2在癌組織中高表達,細胞實驗表明沉默RRM2可經(jīng)Akt/mTOR/4EBP1通路抑制細胞增、遷移和侵襲,促進細胞凋亡。體外裸鼠實驗,RRM2抑制劑能夠縮小腫瘤體積,有望成為治療RLPS的有效靶點。Mazzu等〔30〕報道了RRM2能夠通過Akt/mTOR,信號傳導及轉(zhuǎn)錄激活蛋白(STAT),P53,DNA損傷修復,細胞周期,細胞凋亡等多種信號通路在PC中發(fā)揮致癌作用,并能導致EMT過程促進腫瘤侵襲及轉(zhuǎn)移。另外RRM2過表達導致基因組不穩(wěn)定性增加〔31〕,通過基因組改變的比例(FGA)測量的拷貝數(shù)變異已被證明與Gleason評分和PC患者轉(zhuǎn)移的發(fā)展有關〔32〕,Taylor等〔33〕隊列中也觀察到RRM2水平與Gleason評分呈顯著正相關,這也證實了本研究結論。
Ⅳ型膠原是存在于血管周圍基底膜和皮膚真皮表皮連接處的主要膠原,由內(nèi)皮細胞和周細胞合成,有助于血管的穩(wěn)態(tài)和重構,包含個膠原鏈(α1至α6)〔34〕?;啄ぴ谝种颇[瘤中起著至關重要的作用,當基底膜受損時,可促進癌癥進展和轉(zhuǎn)移〔35〕。COL4A6又名Ⅳ型膠原α6,編碼基因定位于Xq22.3。研究〔36〕顯示,COL4A6在PC中呈顯著低表達及其啟動子高甲基化,其表達下調(diào)可激活p-FAK/MMP-9信號通路促進腫瘤細胞的進展和轉(zhuǎn)移,然而還需體外動物實驗進一步驗證及大規(guī)模PC患者隊列評價。
綜上,當前針對這些靶點的靶向藥物研究正逐步被探索,以期挽救難治性及特殊亞型的PC患者,但其有效性還需開展大規(guī)模、開放性、多中心的臨床實驗得以推廣應用??傊?生物信息學方法對數(shù)據(jù)庫高效能的分析能力使得挖掘的結果具有極大參考意義,該方法有助于人類從基因組學、轉(zhuǎn)錄組學、蛋白組學、免疫組學、代謝組學、修飾組學及藥理組學等多組學全面洞悉疾病機制,攻克疾病,可以合理利用現(xiàn)有信息資源,縮短科研周期,降低科研成本。