武樂(lè) 閔開(kāi)元 柳江楓 梁萬(wàn)豐 楊曄宏 胡剛 楊俊濤
摘要:目的 應(yīng)用隨機(jī)森林(RF)、極限梯度提升算法(XGBoost)、輕量的梯度提升機(jī)(LightGBM)、類(lèi)別型特征提升(CatBoost)4種機(jī)器學(xué)習(xí)算法分析浸潤(rùn)性乳腺癌轉(zhuǎn)錄組表達(dá)數(shù)據(jù),篩選與浸潤(rùn)性乳腺癌預(yù)后相關(guān)的生物標(biāo)志物。方法 通過(guò)癌癥基因組圖譜公共數(shù)據(jù)庫(kù)下載浸潤(rùn)性乳腺癌的表達(dá)數(shù)據(jù),采用DESeq2程序包、t檢驗(yàn)及Cox單因素分析,對(duì)人類(lèi)浸潤(rùn)性乳腺癌樣本中與生存預(yù)后相關(guān)的差異蛋白質(zhì)編碼基因進(jìn)行篩選?;赗F、XGBoost、LightGBM、CatBoost等機(jī)器學(xué)習(xí)模型的構(gòu)建與比較,挖掘浸潤(rùn)性乳腺癌預(yù)后相關(guān)的蛋白質(zhì)編碼基因標(biāo)志物,并使用基因表達(dá)綜合數(shù)據(jù)庫(kù)的乳腺癌表達(dá)數(shù)據(jù)作為外部測(cè)試進(jìn)行驗(yàn)證。結(jié)果 共獲得151個(gè)與生存預(yù)后相關(guān)的差異蛋白質(zhì)編碼基因,其中由C3orf80、UGP2和SPC25 3個(gè)基因構(gòu)建的機(jī)器學(xué)習(xí)模型效果較好。結(jié)論 篩選出3個(gè)(UGP2、C3orf80、SPC25)與浸潤(rùn)性乳腺癌預(yù)后相關(guān)的生物標(biāo)志物,為診斷和治療浸潤(rùn)性乳腺癌提供了新的方向。
關(guān)鍵詞:浸潤(rùn)性乳腺癌;生物標(biāo)志物;蛋白質(zhì)編碼基因;UGP2;C3orf80;SPC25
中圖分類(lèi)號(hào): R730.49文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào):1000-503X(2024)02-0147-07
DOI:10.3881/j.issn.1000-503X.15717
Identification of Protein-Coding Gene Markers in Breast Invasive Carcinoma Based on Machine Learning
WU Yue1,MIN Kaiyuan2,LIU Jiangfeng2,LIANG Wanfeng1,YANG Yehong2,HU Gang1,YANG Juntao2
1School of Statistics and Data Science,Nankai University,Tianjin 300071,China
2State Key Laboratory of Common Mechanism Research for Major Diseases,Institute of Basic Medical Sciences,CAMS and PUMC,Beijing 100005,China
Corresponding authors:HU Gang Tel:022-23503423,E-mail:huggs@nankai.edu.cn;
YANG Juntao Tel:010-69156420,E-mail:yangjt@pumc.edu.cn
ABSTRACT:Objective To screen out the biomarkers linked to prognosis of breast invasive carcinoma based on the analysis of transcriptome data by random forest (RF),extreme gradient boosting (XGBoost),light gradient boosting machine (LightGBM),and categorical boosting (CatBoost).Methods We obtained the expression data of breast invasive carcinoma from The Cancer Genome Atlas and employed DESeq2,t-test,and Cox univariate analysis to identify the differentially expressed protein-coding genes associated with survival prognosis in human breast invasive carcinoma samples.Furthermore,RF,XGBoost,LightGBM,and CatBoost models were established to mine the protein-coding gene markers related to the prognosis of breast invasive cancer and the model performance was compared.The expression data of breast cancer from the Gene Expression Omnibus was used for validation.Results A total of 151 differentially expressed protein-coding genes related to survival prognosis were screened out.The machine learning model established with C3orf80,UGP2,and SPC25 demonstrated the best performance.Conclusions Three protein-coding genes (UGP2,C3orf80,and SPC25) were screened out to identify breast invasive carcinoma.This study provides a new direction for the treatment and diagnosis of breast invasive carcinoma.
Key words:breast invasive carcinoma;biomarker;protein-coding genes;UGP2;C3orf80;SPC25
Acta Acad Med Sin,2024,46(2):147-153
在全世界范圍內(nèi),癌癥是人類(lèi)死亡和延長(zhǎng)預(yù)期壽命的首要影響因素[1]。Sung等[2]研究顯示,在很多國(guó)家,癌癥是70歲前導(dǎo)致死亡的最重要原因。女性乳腺癌發(fā)病率已超過(guò)肺癌,成為最常被診斷的癌癥[2]。浸潤(rùn)性乳腺癌是乳腺癌的一種重要的組織學(xué)類(lèi)型[3],且此類(lèi)癌癥患者的預(yù)后較差。浸潤(rùn)性乳腺癌是指上皮細(xì)胞異常增生且突破基底膜的一種惡性腫瘤,浸潤(rùn)性小葉癌和浸潤(rùn)性導(dǎo)管癌是兩種常見(jiàn)的浸潤(rùn)性乳腺癌[4]。一般可以通過(guò)癥狀體征、影像學(xué)檢查、病理學(xué)檢查、腫瘤標(biāo)志物檢查、免疫組織化學(xué)檢查等方式對(duì)浸潤(rùn)性乳腺癌進(jìn)行評(píng)估,其中病理學(xué)檢查是浸潤(rùn)性乳腺癌診斷的金標(biāo)準(zhǔn)。雌激素受體、孕激素受體和人類(lèi)表皮生長(zhǎng)因子2(human epidermal growth factor receptor 2,HER2)等因子對(duì)浸潤(rùn)性乳腺癌的發(fā)生發(fā)展有重要意義,比如浸潤(rùn)性小葉癌通常具有較強(qiáng)的雌激素受體/孕激素受體陽(yáng)性[4]。盡管近年已有許多治療方式被應(yīng)用于乳腺癌的治療[5-6],但缺乏有效標(biāo)志物是有效治療的主要原因,也是預(yù)后不良的主要原因[7]。新發(fā)現(xiàn)的生物標(biāo)志物在浸潤(rùn)性乳腺癌患者的治療中展示出了極好的價(jià)值。例如,檢測(cè)CD133和乙醛脫氫酶1在浸潤(rùn)性導(dǎo)管乳腺癌中的表達(dá)有助于更準(zhǔn)確地預(yù)測(cè)侵襲性,確定最佳治療方案[8]。近年來(lái),應(yīng)用機(jī)器學(xué)習(xí)算法建立預(yù)測(cè)模型并鑒別癌癥中的生物標(biāo)志物已成為趨勢(shì)[9],特別是基于樹(shù)算法的機(jī)器學(xué)習(xí)分類(lèi)模型被廣泛應(yīng)用。機(jī)器學(xué)習(xí)分類(lèi)模型可以較為準(zhǔn)確地分析預(yù)測(cè)高維度、復(fù)雜、信息互補(bǔ)的生物數(shù)據(jù)[10]。盡管大多數(shù)的機(jī)器學(xué)習(xí)算法都很難解釋模型是如何工作的,但基于樹(shù)的機(jī)器學(xué)習(xí)算法具有規(guī)則提取和臨床可解釋性的優(yōu)勢(shì)[11-12]。極限梯度提升算法(extreme gradient boosting,XGBoost)、輕量的梯度提升機(jī)(light gradient boosting machine,LightGBM)和類(lèi)別型特征提升(categorical boosting,Catboost)是基于梯度提升樹(shù)代表性的3個(gè)算法,隨機(jī)森林(random forest,RF)是一種基于套袋法的集成學(xué)習(xí)方法,它們?cè)谔幚泶笠?guī)模數(shù)據(jù)時(shí)的訓(xùn)練速度和準(zhǔn)確率表現(xiàn)都很好。因此,本研究應(yīng)用4種常用的基于樹(shù)的機(jī)器學(xué)習(xí)算法挖掘浸潤(rùn)性乳腺癌蛋白質(zhì)編碼基因表達(dá)數(shù)據(jù),建立機(jī)器學(xué)習(xí)預(yù)測(cè)模型,篩選新的預(yù)后相關(guān)蛋白質(zhì)編碼基因標(biāo)志物,為浸潤(rùn)性乳腺癌的臨床診斷和治療提供新的策略。
1 資料和方法
1.1 樣本信息及數(shù)據(jù)處理
2023年2月從癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)公共數(shù)據(jù)庫(kù)獲得原始計(jì)數(shù)和每百萬(wàn)條讀數(shù)的轉(zhuǎn)錄本兩種類(lèi)型的浸潤(rùn)性乳腺癌轉(zhuǎn)錄組測(cè)序數(shù)據(jù)作為訓(xùn)練集及測(cè)試集(浸潤(rùn)性乳腺癌組織樣本1101例,正常乳腺組織樣本113例)。2023年9月從基因表達(dá)綜合數(shù)據(jù)庫(kù)下載乳腺癌表達(dá)數(shù)據(jù)(GSE42568)作為外部測(cè)試集(乳腺癌組織樣本104例,正常乳腺組織樣本17例);10月從基因表達(dá)綜合數(shù)據(jù)庫(kù)下載不同分子類(lèi)型的乳腺癌表達(dá)數(shù)據(jù)(GSE80999)作為外部測(cè)試集(三陰性乳腺癌組織樣本36例,HER2過(guò)表達(dá)型乳腺癌組織樣本32例,腔面A型乳腺癌組織樣本121例,腔面B型乳腺癌組織樣本69例,正常乳腺組織樣本25例)。將從TCGA數(shù)據(jù)庫(kù)獲得的數(shù)據(jù)集以7∶3比例以分層采樣方式分為訓(xùn)練集和測(cè)試集。每百萬(wàn)條讀數(shù)的轉(zhuǎn)錄本類(lèi)型數(shù)據(jù)經(jīng)過(guò)log2轉(zhuǎn)換后,對(duì)訓(xùn)練集和測(cè)試集分別進(jìn)行異常值處理,即將極端異常值替換為上四分位數(shù)加上3倍的四分位距(Q3+3IQR)或下四分位數(shù)減去3倍的四分位距(Q1-3IQR),以及0~1歸一化處理。對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行采樣后,采用特征遞歸消除進(jìn)行特征選擇,使用特征選擇后的特征構(gòu)建機(jī)器學(xué)習(xí)模型,采用十折交叉驗(yàn)證方式進(jìn)行參數(shù)的調(diào)整與優(yōu)化。使用測(cè)試集及外部測(cè)試集數(shù)據(jù)驗(yàn)證模型。
1.2 機(jī)器學(xué)習(xí)分析
采用mlr3verse和mlr3extralearners包實(shí)現(xiàn)RF、XGBoost、LightGBM、CatBoost算法篩選與浸潤(rùn)性乳腺癌預(yù)后相關(guān)的生物標(biāo)志物。
1.3 統(tǒng)計(jì)學(xué)處理
使用R軟件(V4.2.0)的 DESeq2程序包和t檢驗(yàn)分別對(duì)訓(xùn)練集原始計(jì)數(shù)類(lèi)型和每百萬(wàn)條讀數(shù)的轉(zhuǎn)錄本類(lèi)型數(shù)據(jù)進(jìn)行差異分析。采用Cox單因素分析對(duì)預(yù)后相關(guān)基因進(jìn)行分析。P<0.05或校正后P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2 結(jié)果
2.1 生存預(yù)后相關(guān)的差異表達(dá)基因識(shí)別
從TCGA數(shù)據(jù)庫(kù)獲得浸潤(rùn)性乳腺癌的原始計(jì)數(shù)和每百萬(wàn)條讀數(shù)的轉(zhuǎn)錄本類(lèi)型的轉(zhuǎn)錄組表達(dá)數(shù)據(jù),并對(duì)兩種類(lèi)型的訓(xùn)練集數(shù)據(jù)分別進(jìn)行差異表達(dá)分析,結(jié)果顯示對(duì)于原始計(jì)數(shù)類(lèi)型,采用∣log差異倍數(shù)∣>1和校正后P<0.001的納入標(biāo)準(zhǔn),共獲得2736個(gè)在浸潤(rùn)性乳腺癌組織和正常乳腺組織之間差異表達(dá)的基因,其中表達(dá)水平上調(diào)基因1535個(gè),表達(dá)水平下調(diào)基因1201個(gè)(圖1A);對(duì)于每百萬(wàn)條讀數(shù)的轉(zhuǎn)錄本類(lèi)型,采用∣log差異倍數(shù)∣>0.5849和校正后P<0.05的納入標(biāo)準(zhǔn),共獲得6703個(gè)在浸潤(rùn)性乳腺癌組織和正常乳腺組織之間差異表達(dá)的基因,其中表達(dá)水平上調(diào)基因3825個(gè),表達(dá)水平下調(diào)基因2878個(gè)(圖1B);共獲得2594個(gè)相同上調(diào)和下調(diào)的差異表達(dá)基因(圖1C)。排除正常乳腺組織樣本,采用TCGA數(shù)據(jù)庫(kù)中每百萬(wàn)條讀數(shù)的轉(zhuǎn)錄本類(lèi)型的訓(xùn)練集數(shù)據(jù)分析浸潤(rùn)性乳腺癌基因高、低表達(dá)組與浸潤(rùn)性乳腺癌患者預(yù)后之間的關(guān)聯(lián),結(jié)果顯示Cox單因素分析篩選出736個(gè)高表達(dá)但生存率較差的基因(圖1D)。將此736個(gè)基因與上述獲得的2594個(gè)差異基因取交集,共獲得生存預(yù)后相關(guān)的差異表達(dá)基因151個(gè)進(jìn)行下一步分析。
2.2 機(jī)器學(xué)習(xí)模型的構(gòu)建
由于浸潤(rùn)性乳腺癌組織樣本與正常乳腺組織樣本不平衡,對(duì)訓(xùn)練集樣本(浸潤(rùn)性乳腺癌組織樣本771例、正常乳腺組織樣本80例)進(jìn)行過(guò)采樣得到平衡樣本后進(jìn)行機(jī)器學(xué)習(xí)模型的構(gòu)建。為了建立蛋白質(zhì)編碼基因特征,使用訓(xùn)練集過(guò)采樣樣本的數(shù)據(jù)對(duì)151個(gè)生存預(yù)后相關(guān)的差異基因采用遞歸特征消除方式進(jìn)行特征選擇,進(jìn)一步篩選得到9個(gè)基因(ABHD12、C3orf80、CKS2、KLF11、PCLAF、SPC25、TYRO3、UBE2T、UGP2),然后,基于上步得到的9個(gè)基因分別使用RF、XGBoost、LightGBM、CatBoost算法建立訓(xùn)練模型,F(xiàn)1分?jǐn)?shù)分析顯示,RF和LightGBM訓(xùn)練模型的F1的十折平均分?jǐn)?shù)(0.997)顯著高于XGBoost和CatBoost模型的F1的十折平均分?jǐn)?shù)(0.996、0.994)。采用RF算法(決策樹(shù)數(shù)量為8個(gè),葉節(jié)點(diǎn)上允許最小樣本數(shù)為18個(gè))進(jìn)一步訓(xùn)練模型,根據(jù)解釋變量按重要性進(jìn)行排序的結(jié)果顯示,使用前3個(gè)解釋變量(C3orf80、UGP2和SPC25)建立生存預(yù)后相關(guān)基因簽名時(shí),訓(xùn)練模型的效果更好。
2.3 機(jī)器學(xué)習(xí)模型的評(píng)價(jià)
將3個(gè)基因(C3orf80、UGP2和SPC25)作為特征使用RF模型進(jìn)行訓(xùn)練,結(jié)果顯示在訓(xùn)練集和測(cè)試集中3個(gè)基因組合的受試者工作特征曲線(xiàn)下的面積(area under curve,AUC)結(jié)果最優(yōu)(圖2A、2B),在訓(xùn)練集中3個(gè)基因組合的AUC值為1.000,C3orf80和SPC25單個(gè)基因模型的AUC值均為1.000,UGP2單個(gè)基因模型的AUC值為0.999;在測(cè)試集中3個(gè)基因組合的AUC值為0.996,C3orf80、UGP2及SPC25單個(gè)基因的AUC值分別為0.865、0.851、0.978。在外部測(cè)試集中(GSE42568),3個(gè)基因組合的AUC值為0.850(圖2C)。此外,三陰性乳腺癌、HER2過(guò)表達(dá)型、腔面A型、腔面B型乳腺癌的主要分子分型在外部測(cè)試集中(GSE80999)的3個(gè)基因組合的AUC值分別為0.801、0.926、0.665、0.912(圖2C)。
2.4 蛋白質(zhì)編碼基因分析
在浸潤(rùn)性乳腺癌的全部數(shù)據(jù)集中,對(duì)C3orf80、UGP2和SPC25基因的表達(dá)進(jìn)行分析。結(jié)果顯示C3orf80和SPC25基因在腫瘤組織中的表達(dá)高于正常乳腺組織,而UGP2基因在腫瘤組織中的表達(dá)低于正常乳腺組織(P均<0.001)(圖3A)?;谥鞒煞址治龊蜔釄D顯示,C3orf80、UGP2和SPC25蛋白質(zhì)編碼基因可以區(qū)分浸潤(rùn)性乳腺癌與正常組織(圖3B、3C)。采用Kaplan-Meier方法,探討C3orf80、UGP2和SPC25基因表達(dá)水平在浸潤(rùn)性乳腺癌患者預(yù)后中的價(jià)值,結(jié)果顯示浸潤(rùn)性乳腺癌患者的C3orf80(P=0.029)、UGP2(P=0.005)和SPC25(P=0.030)基因高、低表達(dá)的生存率差異均有統(tǒng)計(jì)學(xué)意義,高表達(dá)患者的總生存期預(yù)后較差(圖3D)。
3 討論
盡管近年乳腺癌患者的診斷和預(yù)后水平有所提高,但仍然是癌癥相關(guān)死亡的主要原因,到2020年,女性乳腺癌在全球約有226萬(wàn)新發(fā)病例和68萬(wàn)死亡病例[2]。本研究將統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)算法與生物學(xué)原理相結(jié)合進(jìn)行分析,旨在識(shí)別和驗(yàn)證浸潤(rùn)性乳腺癌預(yù)后相關(guān)的生物標(biāo)志物,以提高浸潤(rùn)性乳腺癌的診斷和生存率。本研究從TCGA數(shù)據(jù)庫(kù)獲得浸潤(rùn)性乳腺癌的蛋白質(zhì)編碼基因表達(dá)數(shù)據(jù),將浸潤(rùn)性乳腺癌樣本分為訓(xùn)練集及測(cè)試集,使用訓(xùn)練集數(shù)據(jù)比較浸潤(rùn)性乳腺癌組織和正常乳腺組織基因表達(dá)的差異,對(duì)浸潤(rùn)性乳腺癌組織樣本進(jìn)行生存分析,得到151個(gè)預(yù)后相關(guān)的差異基因。使用訓(xùn)練集數(shù)據(jù)進(jìn)行特征選擇后,分別建立RF、XGBoost、LightGBM、CatBoost模型進(jìn)行比較,選擇RF最優(yōu)算法模型,并使用測(cè)試集數(shù)據(jù)對(duì)最優(yōu)算法模型進(jìn)行驗(yàn)證,篩選出C3orf80、UGP2和SPC25蛋白質(zhì)編碼基因。C3orf80、UGP2和SPC25可能是浸潤(rùn)性乳腺癌患者新的生物標(biāo)志物,為浸潤(rùn)性乳腺癌的有效診斷和個(gè)體化治療提供依據(jù)。
研究顯示機(jī)器學(xué)習(xí)算法已經(jīng)越來(lái)越多地被用于癌癥預(yù)測(cè)、篩選癌癥相關(guān)的生物標(biāo)志物[13-14],更可以有效地預(yù)測(cè)乳腺癌的生物標(biāo)志物[15],可以通過(guò)LASSO特征選擇機(jī)器學(xué)習(xí)和生物信息學(xué)分析鑒定三陰性乳腺癌關(guān)鍵預(yù)后基因[16],利用生物信息學(xué)和機(jī)器學(xué)習(xí)技術(shù)鑒定和探索乳腺癌熱分解相關(guān)分子亞型[17],但本研究采用的4種機(jī)器學(xué)習(xí)算法篩選新的生物標(biāo)志物的研究較少。此外,UGP2是膽囊癌發(fā)展和預(yù)后不良的生物標(biāo)志物,UGP2陽(yáng)性表達(dá)與增殖標(biāo)志物表達(dá)顯著相關(guān)[18],UGP2在人腦膠質(zhì)瘤中異常過(guò)表達(dá)且與病理分級(jí)呈正相關(guān),是人類(lèi)膠質(zhì)瘤細(xì)胞生長(zhǎng)和運(yùn)動(dòng)進(jìn)展標(biāo)志物[19],急性髓系白血病的UGP2高表達(dá)與較差的生存率明顯相關(guān)[20];SPC25是組成核分裂循環(huán)80復(fù)合體的4個(gè)蛋白質(zhì)之一,SPC25在乳腺癌組織中轉(zhuǎn)錄組表達(dá)上調(diào),高表達(dá)水平與乳腺癌患者復(fù)發(fā)概率增加和生存率降低有關(guān)[21],SPC25在非小細(xì)胞肺腺癌中表達(dá)上調(diào),獨(dú)立預(yù)測(cè)較差的生存率[22],SPC25過(guò)表達(dá)促進(jìn)腫瘤增殖,是肝細(xì)胞癌生存率差的預(yù)后因素[23]。然而,UGP2和C3orf80在乳腺癌的類(lèi)型中相關(guān)報(bào)道較少。本研究為進(jìn)一步探討浸潤(rùn)性乳腺癌相關(guān)診斷與治療提供了新的指標(biāo)。
綜上,本文使用機(jī)器學(xué)習(xí)方法從151個(gè)與預(yù)后相關(guān)的差異基因中鑒定出3個(gè)診斷生物標(biāo)志物,即C3orf80、UGP2和SPC25基因,可能在浸潤(rùn)性乳腺癌的進(jìn)展中具有重要影響。此外,本研究顯示UGP2和C3orf80是診斷和治療浸潤(rùn)性乳腺癌新的潛在預(yù)后相關(guān)的生物標(biāo)志物。然而,這些基因在浸潤(rùn)性乳腺癌發(fā)生發(fā)展過(guò)程中的分子機(jī)制尚需進(jìn)一步闡明。
利益沖突 所有作者聲明無(wú)利益沖突
作者貢獻(xiàn)聲明 胡剛、楊俊濤:對(duì)論文進(jìn)行選題、設(shè)計(jì)并審閱修訂論文的關(guān)鍵問(wèn)題;武樂(lè):分析數(shù)據(jù)、起草并修改論文;閔開(kāi)元:提供數(shù)據(jù)分析支持、撰寫(xiě)論文;柳江楓:對(duì)蛋白質(zhì)組數(shù)據(jù)提供分析支持并撰寫(xiě)相關(guān)內(nèi)容;梁萬(wàn)豐:對(duì)數(shù)據(jù)進(jìn)行生存分析并撰寫(xiě)相關(guān)內(nèi)容;楊曄宏:對(duì)外部測(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證分析并撰寫(xiě)相關(guān)內(nèi)容
參 考 文 獻(xiàn)
[1]Bray F,Laversanne M,Weiderpass E,et al.The ever-increasing importance of cancer as a leading cause of premature death worldwide[J].Cancer,2021,127(16):3029-3030.DOI:10.1002/cncr.33587.
[2]Sung H,F(xiàn)erlay J,Siegel RL,et al.Global cancer statistics 2020:globocan estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA Cancer J Clin,2021,71(3):209-249.DOI:10.3322/caac.21660.
[3]Lebeau A,Denkert C.Updated WHO classification of tumors of the breast:the most important changes[J].Pathologe,2021,42(3):270-280.DOI:10.1007/s00292-021-00934-9.
[4]Thomas M,Kelly ED,Abraham J,et al.Invasive lobular breast cancer:a review of pathogenesis,diagnosis,management,and future directions of early stage disease[J].Semin Oncol,2019,46(2):121-132.DOI:10.1053/j.seminoncol.2019.03.002.
[5]Pondé NF,Zardavas D,Piccart M.Progress in adjuvant systemic therapy for breast cancer[J].Nat Rev Clin Oncol,2019,16(1):27-44.DOI:10.1038/s41571-018-0089-9.
[6]Kerr AJ,Dodwell D,McGale P,et al.Adjuvant and neoadjuvant breast cancer treatments:a systematic review of their effects on mortality[J].Cancer Treat Rev,2022(105):102375.DOI:10.1016/j.ctrv.2022.102375.
[7]Nandagopal S,Misra S,Sankanagoudar S,et al.Long non coding RNA in triple negative breast cancer:a promising biomarker in tumorigenesis[J].Asian Pac J Cancer Prev,2023,24(1):49-59.DOI:10.31557/APJCP.2023.24.1.49.
[8]Mansour SF,Atwa MM.Clinicopathological significance of CD133 and ALDH1 cancer stem cell marker expression in invasive ductal breast carcinoma[J].Asian Pac J Cancer Prev,2015,16(17):7491-7496.DOI:10.7314/apjcp.2015.16.17.7491.
[9]Jagga Z,Gupta D.Machine learning for biomarker identification in cancer research-developments toward its clinical application[J].Per Med,2015,12(4):371-387.DOI:10.2217/pme.15.5.
[10]Deo RC.Machine learning in medicine[J].Circulation,2015,132(20):1920-1930.DOI:10.1161/CIRCULATIONAHA.115.001593.
[11]Sherafatian M.Tree-based machine learning algorithms identified minimal set of miRNA biomarkers for breast cancer diagnosis and molecular subtyping[J].Gene,2018(677):111-118.DOI:10.1016/j.gene.2018.07.057.
[12]Basu S,F(xiàn)aghmous JH,Doupe P.Machine learning methods for precision medicine research designed to reduce health disparities:a structured tutorial[J].Ethn Dis,2020,30(Suppl1):217-228.DOI:10.18865/ed.30.S1.217.
[13]Cruz JA,Wishart DS.Applications of machine learning in cancer prediction and prognosis[J].Cancer Inform,2007(2):59-77.
[14]Li C,Dong X,Yuan Q,et al.Identification of novel characteristic biomarkers and immune infiltration profile for the anaplastic thyroid cancer via machine learning algorithms[J].J Endocrinol Invest,2023,46(8):1633-1650.DOI:10.1007/s40618-023-02022-6.
[15]Rodrigues-Ferreira S,Nahmias C.Predictive biomarkers for personalized medicine in breast cancer[J].Cancer Lett,2022(545):215828.DOI:10.1016/j.canlet.2022.215828.
[16]Chen DL,Cai JH,Wang CCN.Identification of key prognostic genes of triple negative breast cancer by lasso-based machine learning and bioinformatics analysis[J].Genes (Basel),2022,13(5):902.DOI:10.3390/genes13050902.
[17]Zhang L,Chu XF,Xu JW,et al.Identification and exploration of the pyroptosis-related molecular subtypes of breast cancer by bioinformatics and machine learning[J].Am J Transl Res,2022,14(9):6521-6535.
[18]Wang Q,Yang ZL,Zou Q,et al.SHP2 and UGP2 are biomarkers for progression and poor prognosis of ggallbladder cancer[J].Cancer Invest,2016,34(6):255-264.DOI:10.1080/07357907.2016.1193745.
[19]Zeng C,Xing W,Liu Y.Identification of UGP2 as a progression marker that promotes cell growth and motility in human glioma[J].J Cell Biochem,2019,120(8):12489-12499.DOI:10.1002/jcb.28515.
[20]de Jonge HJ,Woolthuis CM,Vos AZ,et al.Gene expression profiling in the leukemic stem cell-enriched CD34+fraction identifies target genes that predict prognosis in normal karyotype AML[J].Leukemia,2011,25(12):1825-1833.DOI:10.1038/leu.2011.172.
[21]Wang Q,Zhu Y,Li Z,et al.Up-regulation of SPC25 promotes breast cancer[J].Aging (Albany NY),2019,11(15):5689-5704.DOI:10.18632/aging.102153.
[22]Chen J,Chen H,Yang H,et al.SPC25 upregulation increases cancer stem cell properties in non-small cell lung adenocarcinoma cells and independently predicts poor survival[J].Biomed Pharmacother,2018(100):233-239.DOI:10.1016/j.biopha.2018.02.015.
[23]Zhang B,Zhou Q,Xie Q,et al.SPC25 overexpression promotes tumor proliferation and is prognostic of poor survival in hepatocellular carcinoma[J].Aging (Albany NY),2020,13(2):2803-2821.DOI:10.18632/aging.202329.
(收稿日期:2023-06-09)