張帆,李澤東,彭禹,陳勝,周鈞
(1.中南大學(xué)湘雅二醫(yī)院 急診醫(yī)學(xué)科,湖南 長沙 410011;2.湖南省湘西自治州人民醫(yī)院 普外一科,湖南 吉首416000)
胰腺癌是第七常見的惡性腫瘤,在中國,也是導(dǎo)致癌癥相關(guān)死亡的第六位因素[1]。其5年生存率僅有5%~10%,在確診胰腺癌后,患者的中位生存時間約為5~6個月[2-3]。實際上,絕大多數(shù)胰腺癌患者都出現(xiàn)了局部進展,甚至是遠處轉(zhuǎn)移(80%~85%),只有極少數(shù)患者是可以手術(shù)切除的(15%~20%)[4-5]。胰腺癌的不良預(yù)后原因眾多,例如,系統(tǒng)免疫炎癥指數(shù)可能是胰腺癌患者預(yù)后不良的獨立危險因素[6],早期階段的檢測率低,具有遠處轉(zhuǎn)移的高風(fēng)險,以及化療的效果較差等[7],手術(shù)僅在診斷為早期胰腺癌的15%~20%的患者中被認為是可行的[8],由于胰腺癌患者往往到了晚期,才開始出現(xiàn)少量癥狀,因而,開發(fā)能夠早期診斷胰腺癌的工具是有重大意義的[9]。血清碳水化合物抗原19-9(CA19-9)是目前用作評估胰腺癌臨床治療療效的標(biāo)志物,盡管它低靈敏度和低特異性,但它仍然是胰腺癌中唯一獲得美國食品藥品監(jiān)督管理局批準(zhǔn)的標(biāo)志物,其他抗原(例如CEA和CA125)作為早期標(biāo)記完全無效,但一些腫瘤學(xué)家仍將其用作治療反應(yīng)性的標(biāo)記[10]。因此,尋找更為有效的胰腺癌診斷分子標(biāo)志物,依舊是個值得深入探討的課題。
microRNA(miRNA)是長度約為18~25個核苷酸的非編碼RNA,發(fā)揮著調(diào)控基因表達和RNA沉默中的功能。異常的miRNA在多種腫瘤及良性疾病中被發(fā)現(xiàn),并且發(fā)揮著重要的作用[11]。研究發(fā)現(xiàn),許多miRNA可以在血漿、血清等體液中穩(wěn)定存在,這也使得研究循環(huán)miRNA以檢測疾病的進展成為可能[12-13]。由于miRNA可以在體液(例如血清或血漿)中檢測到,因此它們已成為潛在的有用的生物標(biāo)志物,用于風(fēng)險評估,診斷和預(yù)后[14]。例如,Martínez-Hernández等[15]的研究發(fā)現(xiàn)血清miR-19b和miR-26b可能用于預(yù)測免疫介導(dǎo)的炎癥性疾病的發(fā)生,Huang等[16]發(fā)現(xiàn)循環(huán)中的miR-487a,miR-493-5p,miR-501-3p和miR-502-5p是骨肉瘤的新型潛在診斷生物標(biāo)志物??梢姡錷iRNA作為預(yù)測疾病的生物標(biāo)志物的巨大潛力。
決策樹是一種用于判別分析的監(jiān)督式機器學(xué)習(xí)算法,它易于理解和解釋。它允許通過以分層樹或規(guī)則集的形式生成可理解的知識結(jié)構(gòu)并以圖形直觀的方式呈現(xiàn)它們,從而從數(shù)據(jù)中提取知識[17]。決策樹也已用于鑒定癌癥中的生物標(biāo)志物,例如,利用miRNA表達數(shù)據(jù)進行肺癌診斷和亞型分型[18],使用核受體表達定義一組肺癌的預(yù)后生物標(biāo)志物[19]等。本研究旨在通過分析GEO(Gene Expression Omnibus)數(shù)據(jù)庫中血清miRNA的測序數(shù)據(jù),將決策樹的方法應(yīng)用于胰腺癌的預(yù)測中,確定胰腺癌的生物標(biāo)志物。
這項研究中我們比較了來自GEO數(shù)據(jù)庫的胰腺癌患者和健康對照人群的血清miRNA表達譜。其中納入研究的數(shù)據(jù)集包括:GSE113486,包含40例胰腺癌患者血清miRNA樣本,和100例非腫瘤對照樣本;GSE85589包含19例健康對照和88例胰腺癌患者血清樣本。GEOquery R包用于下載臨床信息及表達譜。
由于本研究下載的表達譜數(shù)據(jù)是經(jīng)過預(yù)先處理及標(biāo)準(zhǔn)化的,這里無需進一步處理,但由于GSE113486及GSE85589非同批次測序結(jié)果,這里需要進一步去除批次效應(yīng),以利進一步研究。批次效應(yīng)是指表示測序樣本在不同的批次處理和測量時引入的與生物狀態(tài)不相關(guān)的系統(tǒng)性的技術(shù)偏差。本研究采用sva R包的ComBat函數(shù)移除批次效應(yīng),并使用主成分分析(principal component analysis,PCA)評估批次效應(yīng)移除前后的差異。
LASSO(least absolute shrinkage and selection operator)回歸是擬合高維廣義線性模型的一種流行的變量選擇方法,通過構(gòu)造懲罰函數(shù)以減少變量數(shù)并有效避免過度擬合,可以得到更精細的模型。為了篩選出用于鑒別腫瘤與非腫瘤樣本的關(guān)鍵miRNA,本研究通過R軟件中的glmnet軟件包,使用LASSO回歸分析篩選重要的miRNA。
R語言中的set.seed函數(shù)及sample函數(shù)可用于生成隨機數(shù)并用于隨機抽樣分組,本研究基于以上兩個函數(shù),通過隨機抽樣,將247例樣本,隨機分為訓(xùn)練集(60%)和測試集(40%),LASSO回歸分析篩選的關(guān)鍵miRNA用于訓(xùn)練集中決策樹的構(gòu)建。本研究使用rpart R包實現(xiàn)決策樹算法,rpart函數(shù)用于決策樹的生成,選擇交叉驗證誤差最小的樹即最優(yōu)的樹。predict函數(shù)用于測試集中觀測點的分類,使用ROC曲線分析評價決策樹的預(yù)測效果,InformationValue R包的plotROC函數(shù)用于ROC曲線繪制。
為了對比正常血清樣本和胰腺癌血清樣本中關(guān)鍵miRNA的表達差異,本研究利用Wilcoxon檢驗對比了關(guān)鍵miRNA分別在GSE113486 及GSE85589數(shù)據(jù)集中正常與腫瘤樣本的表達差異,以及在全部樣本中正常與腫瘤樣本的表達差異。
為進一步了解關(guān)鍵miRNA所涉及的功能,本研究利用miRDB、miRTarBsae及TargetScan3種數(shù)據(jù)庫,預(yù)測miRNA的靶向mRNA。其中,在3 種數(shù)據(jù)庫中均有預(yù)測到的靶向mRNA將被用于富集分析,注釋關(guān)鍵miRNA可能涉及的功能,clusterProfiler R包用于富集分析(enrichment analysis)[20]。
去除批次效應(yīng)前,首先利用主成分分析評估兩數(shù)據(jù)集之前的批次效應(yīng),分析結(jié)果如圖1 A所示,兩數(shù)據(jù)集呈現(xiàn)分別聚類,差異明顯。經(jīng)過ComBat函數(shù)移除批次效應(yīng)后的主成分分析結(jié)果如圖1B,兩數(shù)據(jù)集之間表達量沒有出現(xiàn)分別聚類。
圖1 PCA 圖 A:批次效應(yīng)校正前PCA;B:批次效應(yīng)校正后PCAFigure 1 PCA plots A:PCA before batch effect adjustment;B:PCA after batch effect adjustment
去除批次效應(yīng)后,納入研究的有247例樣本(119例健康對照和128例胰腺癌),共2526個miRNA。對2526個miRNA進行LASSO回歸分析,采用10倍交叉驗證,結(jié)果顯示最佳的λ=0.0272212(圖2),其對應(yīng)變量為33,即33個miRNA具有鑒別腫瘤樣本及正常樣本的潛力。
圖2 關(guān)鍵miRNA 的篩選 A:LASSO 篩選變量動態(tài)過程圖;B:交叉驗證參數(shù)λ 的選擇過程圖Figure 2 Screening process of the hub miRNAs A:Dynamic process variable screening by LASSO;B:Dynamic process of selection of cross validation parameter λ
為了通過血清miRNA中關(guān)鍵miRNA表達區(qū)分腫瘤與正?;颊撸狙芯考{入LASSO回歸篩選出的33個關(guān)鍵miRNA,構(gòu)建決策樹并驗證決策樹的預(yù)測效果。研究中將247例樣本按6:4的比例進行隨機分組,分為訓(xùn)練集(71例正常,77例腫瘤)和測試集(48例正常,51例腫瘤)。將rpart算法應(yīng)用于訓(xùn)練集,獲得了一個簡單的決策樹模型,模型包含兩個miRNA,分別是miR-4532和miR-4668-5p(圖3)。
圖3 決策樹模型Figure 3 The decision tree model
使用測試數(shù)據(jù)集(占總數(shù)據(jù)的40%)來測量分類樹的性能。然后通過曲線下的面積來評價該分類器的判別力。結(jié)果如圖4,在訓(xùn)練集中ROC曲線下面積(AUC)為0.9481,測試集中AUC為0.9024。即由miR-4532和miR-4668-5p構(gòu)成的決策樹在訓(xùn)練集及測試集中均表現(xiàn)出良好的區(qū)分腫瘤與正常樣本的能力。
通過W i l c o x o n 檢驗對比了關(guān)鍵miRNA在胰腺癌血清樣本和正常血清樣本中的差異,結(jié)果表明,兩組樣本差異有統(tǒng)計學(xué)意義 (P<0.05)(圖5)。
圖5 關(guān)鍵miRNA 胰腺癌血清樣本和正常血清樣本中差異Figure 5 Differences of the hub miRNAs in pancreatic and normal serum samples
利用3 種數(shù)據(jù)庫分別預(yù)測m i R-4532 和miR-4668-5p的靶向mRNA,結(jié)果顯示,miR-4532在3種數(shù)據(jù)庫中均預(yù)測到的mRNA有6個,miR-4668-5p在3種數(shù)據(jù)庫中均預(yù)測到的mRNA有73個。利用clusterProfiler R包進行GO(Gene Ontology)富集分析,及KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集。GO富集主要包括細胞組分(cellular component,CC)、分子功能(molecular function,MF)、生物過程(biological process,BP)。結(jié)果如圖6所示,關(guān)鍵miRNA的靶基因可能與轉(zhuǎn)錄調(diào)節(jié)復(fù)合物,核染色質(zhì),轉(zhuǎn)錄阻遏物復(fù)合體,巨核細胞分化的調(diào)控,黏著劑組裝,細胞-底物連接組織,巨核細胞分化,黏著斑組裝的負調(diào)節(jié)等功能有關(guān)。其KEGG結(jié)果表明,關(guān)鍵miRNA的靶基因主要富集于癌癥中的轉(zhuǎn)錄失調(diào),F(xiàn)oxO信號通路,黏附連接,胰腺癌,乙型肝炎,肝細胞癌,TGF-β信號通路,MAPK信號通路等信號通路中。
圖6 GO 及KEGG 分析Figure 6 GO and KEGG enrichment analysis
miRNA參與了發(fā)育和各種生理過程,其失調(diào)可能會導(dǎo)致多種疾病的進展[21]。有研究表明,miRNA可以反映病理過程,因而被認為可以用于診斷及鑒別不同的腫瘤類型,甚至是良性疾病的識別。例如,血清miRNA對用于高度準(zhǔn)確和特異性地篩查肉瘤[22],Zou等[23]研究發(fā)現(xiàn)5 種血清miRNA可用作為鼻咽癌的潛在生物標(biāo)志物,Zarecki等[24]發(fā)現(xiàn)血清miRNA作為骨質(zhì)疏松性椎體骨折的新型生物標(biāo)志物等。
使用來自健康個體,胰腺癌和胰腺炎患者的胰腺組織的活檢樣品進行的比較miRNA表達譜差異的研究,清楚地表明了與正常細胞相比,各種miRNA在癌細胞中的差異表達,預(yù)示了miRNA在胰腺癌診斷,預(yù)后和抗癌治療中的潛在作用[25]。Hong等[26]研究發(fā)現(xiàn)與鄰近的正常胰腺組織相比,胰腺癌組織中共發(fā)現(xiàn)了158個miRNA差異表達,例如miR-200,miR-96和miR-217。在胰腺癌患者中,除了胰腺細胞和組織中miRNA的異常表達外,在全身循環(huán)中也觀察到miRNA失調(diào)。例如,一些研究報告了miR-18a,miR-21,miR-22,miR-24,miR-25,miR-99a,miR-155,miR-185,miR-191,miR-196a在胰腺癌血液中的差異表達[27],miR-486-5p通過作用于體內(nèi)多種信號通路參與胰腺腺癌的發(fā)生發(fā)展[28],胰腺癌細胞中miR-519d減低,且對于胰腺癌細胞增殖和侵襲能力有所增強[29]。
在本研究中,通過LASSO回歸發(fā)現(xiàn)了33個具有鑒定胰腺癌腫瘤潛力的血清miRNA,并通過機器學(xué)習(xí)的方法構(gòu)建了決策樹,用于區(qū)分胰腺癌腫瘤患者和正常對照,其中miR-4532和miR-4668-5p這兩個血清miRNA被認為是有效觀測點。同樣的,在本研究的訓(xùn)練集和測試集中,該決策樹表現(xiàn)出了良好的預(yù)測效果,即AUC值分別為0.9481和0.9024,miR-4532和miR-4668-5p在腫瘤和正常樣本中也表現(xiàn)出了明顯差異,即腫瘤樣本血清中表達相對較高。實際上,已經(jīng)有研究表明hsamiR-4532在腫瘤中發(fā)揮重要作用,hsa-miR-4532下調(diào)癌癥中的高甲基化可能促進乳腺癌細胞中的阿霉素抗性[30],攜帶hsa-miR-4532的急性髓樣白血病細胞衍生的外泌體可以通過激活LDOC1依賴性STAT3信號通路抑制正常的造血干細胞的造血作用等[31]。也有研究表明miR-4668-3p參與結(jié)直腸癌的細胞增殖,遷移,侵襲和上皮細胞-間充質(zhì)轉(zhuǎn)化過程[32],miR-4668-5p在預(yù)測舒尼替尼治療轉(zhuǎn)移性腎細胞癌反應(yīng)方面具有預(yù)測潛力[33]。
決策樹在醫(yī)學(xué)上的應(yīng)用已經(jīng)頗為廣泛,例如,用于肝癌肝切除手術(shù)方式選擇的決策樹[34],基于MRI的決策樹用于黃疸型嬰兒的膽道閉鎖診斷中[35]。隨著基因組學(xué)的發(fā)展和二代測序的成本降低,越來越多的測序可供我們進一步研究,將基因組學(xué)數(shù)據(jù)和決策樹結(jié)合起來,將是一個很好的思路,用于癌癥研究。Sherafatian等[18]基于數(shù)據(jù)庫中miRNA表達數(shù)據(jù)構(gòu)建決策樹進行肺癌診斷和亞型分型。本研究發(fā)現(xiàn)miR-4532和miR-4668-5p在胰腺癌患者的血清中相對表達較高,并通過構(gòu)建決策樹,用于區(qū)分正常血清樣本和胰腺癌患者血清樣本。這將有益于胰腺癌患者的早期診斷,甚至有可能通過進一步研究,取代傳統(tǒng)的診斷方法,為胰腺癌的診斷提供一個簡單準(zhǔn)確的策略。同時,miR-4532和miR-4668-5p的預(yù)測作用也顯示出了其在胰腺癌進程中的重要作用,有可能作為潛在的治療靶點,值得進一步研究。