劉 樺,劉妙妙,鄧豪余,趙雅潔,李 燦
(中南大學(xué)湘雅醫(yī)院核醫(yī)學(xué)科,長沙 410008)
甲狀腺癌是一種常見的內(nèi)分泌系統(tǒng)惡性腫瘤[1,2],其發(fā)病率呈逐年上升的趨勢[3,4]。甲狀腺癌的不同階段具有不同的分子特征[5-7],探索甲狀腺癌相關(guān)因子,用以評估甲狀腺癌患者疾病風(fēng)險程度,對制定個性化和更有效的診斷和治療策略不可或缺。
隨著高通量測序和基因芯片技術(shù)的發(fā)展,越來越多的研究表明,基于甲狀腺癌中差異基因(Differentially Expressed Genes,DEGs)表達水平的特征,在預(yù)測甲狀腺癌患者預(yù)后中具有很大的潛力[8-10]。本研究通過分析來自基因表達綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO)和癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)中的數(shù)據(jù)集,篩選甲狀腺癌相關(guān)DEGs。隨后,進行LASSO分析并構(gòu)建了甲狀腺癌相關(guān)DEGs組成的風(fēng)險模型,同時建立甲狀腺癌相關(guān)Nomogram圖預(yù)測疾病轉(zhuǎn)歸,觀察甲狀腺癌相關(guān)DEGs組成的風(fēng)險模型與甲狀腺癌患者總體生存期的關(guān)系,為甲狀腺癌患者預(yù)后預(yù)測提供一個潛在選擇。
1.1 芯片數(shù)據(jù)的選擇與分析基于GEO數(shù)據(jù)庫中甲狀腺癌相關(guān)芯片(GSE35570、GSE33630、GSE29265、GSE3467、GSE5364和GSE58545),分析甲狀腺癌表達譜,然后篩選甲狀腺癌相關(guān)DEGs。隨后結(jié)合Kaplan-Meier生存分析和TCGA數(shù)據(jù)庫分析,篩選與甲狀腺癌患者生存期顯著相關(guān)的DEGs。
1.2 DEGs組成的風(fēng)險模型分析通過LASSO回歸分析甲狀腺癌患者生存相關(guān)DEG,最終獲得甲狀腺癌患者生存相關(guān)DEG組成的風(fēng)險模型。
1.3 甲狀腺癌DEGs組成的風(fēng)險模型預(yù)測能力分析通過Kaplan-Meier生存分析和單因素多因素Cox風(fēng)險回歸分析,檢測甲狀腺癌DEGs組成的風(fēng)險模型得分對甲狀腺癌患者預(yù)后總體生存期的預(yù)測能力。構(gòu)建一個包含風(fēng)險模型得分的Nomogram圖,檢測風(fēng)險模型得分對甲狀腺癌患者預(yù)后預(yù)測能力。
2.1 甲狀腺癌DEGs芯片分析基于6套GEO數(shù)據(jù)庫的甲狀腺癌芯片,分析甲狀腺癌中的DEGs(|logFC|>1,P<0.05),獲得了105個交疊的DEGs。隨后通過進一步Kaplan-Meier生存分析,發(fā)現(xiàn)上述105個交疊的DEGs中有ANK2、CDH3、ENTPD1、GAS1、GHR、GLT8D2等16個DEGs與TCGA數(shù)據(jù)庫中甲狀腺癌患者的總體生存期顯著相關(guān)(P<0.05)。
2.2 甲狀腺癌DEGs組成的風(fēng)險模型分析利用LASSO分析16個生存相關(guān)的DEGs,最終獲得由ID3、OGDHL、HBB、NRCAM等4個DEGs組成的風(fēng)險模型[Risk_score= 1.31×Exp(ID3)+0.53×Exp(OGDHL)-0.54×Exp(HBB)-0.75×Exp(NRCAM](圖1)。由該模型可以看出,高水平的ID3和OGDHL與甲狀腺癌的不良預(yù)后相關(guān)。
圖1 A:由4個DEGs組成的風(fēng)險模型:利用LASSO分析16個生存相關(guān)的DEGs;B:由4個DEGs組成的風(fēng)險模型
2.3 DEGs組成的風(fēng)險模型驗證圖2 Kaplan-Meier生存分析顯示,風(fēng)險得分與甲狀腺癌患者預(yù)后其總體生存期成負相關(guān),風(fēng)險得分越高的甲狀腺癌患者預(yù)后其總體生存期(Overall survival,OS)較差。多因素Cox風(fēng)險回歸分析顯示,風(fēng)險得分與甲狀腺癌患者的總體生存期顯著相關(guān)(P<0.01),結(jié)果見圖3。
圖2 A:風(fēng)險得分與甲狀腺癌患者總體生存期的相關(guān)性;B:基于風(fēng)險得分的甲狀腺癌患者分布示意圖
圖3 甲狀腺癌患者生存期相關(guān)多因素Cox風(fēng)險回歸分析
2.4 DEGs組成的風(fēng)險模型預(yù)測能力驗證構(gòu)建一個基于甲狀腺癌患者年齡、性別、臨床分級、風(fēng)險得分的Nomogram(圖4),該Nomogram圖顯示,風(fēng)險得分對于甲狀腺癌患者的預(yù)后具有良好的預(yù)測能力(C-index:0.93)。
圖4 包含風(fēng)險得分的Nomogram圖
現(xiàn)今,甲狀腺癌已經(jīng)成為內(nèi)分泌系統(tǒng)中最常見的惡性腫瘤,其發(fā)病率高于其它所有癌癥[11,12]。早期對甲狀腺癌進行風(fēng)險等級評定,對避免低?;颊咭虿槐匾倪^度治療帶來的副作用和精準預(yù)測患者的預(yù)后情況都具有重要意義[13,14]。隨著高通量測序技術(shù)的飛速發(fā)展,基于芯片數(shù)據(jù)分析的生物信息學(xué)已被廣泛應(yīng)用于人類疾病致病機制的研究和診治靶向分子的篩選,例如Li等利用GEO和TCGA數(shù)據(jù),綜合分析肺鱗癌的轉(zhuǎn)錄組和功能網(wǎng)絡(luò)特征,確定了肺鱗癌的差異基因,為LUSC的治療靶點和生物標志物提供指導(dǎo)[15]。除此之外,Shen等利用TCGA和GEO數(shù)據(jù)集,分析篩選了頭頸部鱗狀細胞癌的潛在生物標志物,同時進行了生存分析,確定了四個最重要的小分子,為頭頸部鱗狀細胞癌的早期診斷和個體化控制提供更可靠的生物標志物[16]。因此,篩選與甲狀腺癌相關(guān)的差異基因,并在此基礎(chǔ)上構(gòu)建甲狀腺癌風(fēng)險模型,不僅可以實現(xiàn)對甲狀腺癌患者進行風(fēng)險評分,還可以實現(xiàn)對甲狀腺癌患者的預(yù)后情況進行有效預(yù)測。
本研究基于6套甲狀腺癌GEO,篩選獲得了105個交疊的DEGs。進一步通過Kaplan-Meier生存分析,發(fā)現(xiàn)在上述105個DEGs中,有16個DEGs與TCGA數(shù)據(jù)庫中510例甲狀腺癌患者的總體生存期顯著相關(guān)。隨后,基于這16個生存相關(guān)的DEGs,利用LASSO分析最終獲得了由4個DEGs(HBB、NRCAM、ID3和OGDHL)組成的風(fēng)險模型。已有研究發(fā)現(xiàn),HBB是常見的β-珠蛋白基因突變,檢測該基因可用于篩查β-地中海貧血[17];NRCAM是阿爾茨海默病ADAM10底物選擇性激活的標志物[18];ID3被發(fā)現(xiàn)可促進肝內(nèi)膽管癌的干細胞特征和預(yù)測化療反應(yīng)[19];OGDHL是乳腺癌的潛在風(fēng)險因子,可作為乳腺癌篩查的標志因子[20],表明這4個基因與人類多種疾病的發(fā)生發(fā)展具有重要聯(lián)系。由于甲狀腺癌是一種高度異質(zhì)性的疾病,腫瘤的進展涉及一個復(fù)雜的網(wǎng)絡(luò),包括多種信號通路。因此,相較于單一的標志物,多個基因的結(jié)合的預(yù)測模型能更準確地反映甲狀腺癌的生物學(xué)特性和預(yù)后情況。
通過進一步Kaplan-Meier生存分析和單因素多因素Cox風(fēng)險回歸分析發(fā)現(xiàn),風(fēng)險得分與甲狀腺癌患者的OS顯著相關(guān),風(fēng)險得分越高的患者其OS顯著較差。最后構(gòu)建了基于甲狀腺癌患者的年齡、性別、臨床分級、風(fēng)險得分的Nomogram圖。Nomogram圖分析結(jié)果顯示,由4個DEGs(HBB、NRCAM、ID3和OGDHL)組成的風(fēng)險模型得分對甲狀腺癌患者的預(yù)后具有良好的預(yù)測能力。
綜上,本研究確定了一個4個基因的特征的風(fēng)險模型,可以有效預(yù)測甲狀腺癌患者預(yù)后情況,為甲狀腺癌個體化治療以及甲狀腺癌的篩查、預(yù)防、診斷和監(jiān)測提供新方法。