高 云,楊勝利,何 蓉,何興平,彭明堯,代 軍,朱江紅,胡 軍,蘇 敏,龐 潔
(四川省攀枝花市中心醫(yī)院,四川 攀枝花 617067)
鼻咽癌是我國南方常見的惡性腫瘤之一,惡性程度高,局部生長快,遠(yuǎn)處轉(zhuǎn)移率高。放射治療(以下簡稱放療)是治療鼻咽癌的首選方法,目前該技術(shù)有了顯著進(jìn)步,但患者5年生存率仍徘徊在60%左右。如果能比較準(zhǔn)確地預(yù)測不同患者的預(yù)后,也就為臨床決策的個體化提供了可能,從而實現(xiàn)臨床決策的科學(xué)化,并進(jìn)一步提高鼻咽癌的控制率及患者的生存率。涉及鼻咽癌患者5年生存狀態(tài)的指標(biāo)多種多樣,產(chǎn)生的大量數(shù)據(jù)和海量信息已遠(yuǎn)遠(yuǎn)超出了人的分析和處理能力。采用何種手段對海量信息進(jìn)行分析、綜合,發(fā)現(xiàn)數(shù)據(jù)間潛在的關(guān)系,最終形成可供臨床使用的決策知識已成當(dāng)務(wù)之急,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生[1-2]。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)和支持向量機(jī)(support vector machine,SVM)是數(shù)據(jù)挖掘中廣泛采用于建立預(yù)測模型的方法[3]。本研究旨在利用ANN和SVM建立預(yù)測模型來判斷患者5年后的生存狀態(tài),并對兩種模型的預(yù)測效能進(jìn)行評估,探索鼻咽癌預(yù)后研究的新方法。
初選2005年1月至2007年12月我院診治的鼻咽癌患者155例。入組標(biāo)準(zhǔn):經(jīng)鼻咽鏡活檢病理證實為鼻咽癌;初診患者;接受放療;研究所需各項臨床資料齊全;從治療結(jié)束隨訪滿5年。共130例患者入組。其中男97例,女33例,男∶女=3∶1;年齡31~75歲,中位數(shù)56歲;隨訪截止時間2007年12月17日,至隨訪終止時共有46例死亡,死亡率為35.38%。將入組患者按照入院時間順序和4∶1的比例分為兩組,一組作為訓(xùn)練樣本,用于篩選變量及建立預(yù)測模型,計104例;一組作為驗證樣本,用于評價模型效果,計26例。
放療方案:所有患者均接受放療,以60Co或直線加速器6~8 MV的X線為主,輔以深部X線,鼻咽劑量66~76 Gy,6~8周完成;頸部劑量 50~70 Gy,5~7周完成;每次2 Gy,每天1次,每周5 d照射。
化療方案:130例患者中有29例未接受化療,其余101例接受化療的患者中61例接受同步放化療(放化療同時進(jìn)行),40例接受序貫放化療(放療結(jié)束后再化療)。均采用PF方案,順鉑(DDP,注射劑,規(guī)格為每支30 mg,江蘇豪森藥業(yè)股份有限公司)30 mg/m2,靜脈滴注,第1~3天給藥;氟尿嘧啶(5-Fu,注射劑,規(guī)格為每支0.25 g,天津金耀氨基酸有限公司)500~750 mg/m2,靜脈滴注,第1~5天給藥;21 d為1個周期,總共4~6個周期。
觀察指標(biāo)包括性別、年齡、T分期、N分期、M分期、92福州分期、卡氏生活質(zhì)量評分(KPS評分)、家族史、病理分化類型、有無顱底骨質(zhì)破壞、有無顱神經(jīng)損傷、有無咽旁間隙侵犯、頸部最大淋巴結(jié)直徑、頸部淋巴結(jié)數(shù)目、頸部淋巴結(jié)活動度、確診到放療時間、完成放療時間、放療是否連續(xù)、放療前血紅蛋白(Hb)含量、放療末Hb含量、鼻咽放療劑量、頸部放療劑量、鼻咽療效、頸部淋巴結(jié)療效、放化療聯(lián)合方式、化療周期數(shù)、EB病毒VCA-IgA滴度、血清LDH水平以及治療后5年生存狀態(tài)共29項。以治療后第5年末的生存狀態(tài)作為因變量,而以其余的28項觀察指標(biāo)作為自變量。
首先對訓(xùn)練樣本的上述觀察指標(biāo)進(jìn)行單因素分析,篩選出組間差異有統(tǒng)計學(xué)意義的指標(biāo),作為建模變量。采用SPSS 2.0版統(tǒng)計軟件,對計量資料進(jìn)行正態(tài)性分析,采用獨立樣本t檢驗;對計數(shù)或等級資料使用 χ2檢驗,如果出現(xiàn)行×列表資料中有格子的理論頻數(shù)(T)<1或1≤T<5的格子數(shù)超過格子總數(shù)的20%,則使用Fisher精確概率法。
ANN是醫(yī)學(xué)領(lǐng)域中廣泛用于建立預(yù)測模型的方法,是在現(xiàn)代神經(jīng)生物學(xué)研究成果的基礎(chǔ)上發(fā)展起來的一種模擬人腦信息處理機(jī)制的信息分析處理系統(tǒng)[4]。本研究利用軟件MATLAB R2012a 中的神經(jīng)網(wǎng)絡(luò)工具箱(neural network toolbox 7.0.3)來進(jìn)行ANN預(yù)測模型的建模、訓(xùn)練和仿真。采用前饋型反向傳播神經(jīng)網(wǎng)絡(luò)(BP網(wǎng)絡(luò)),網(wǎng)絡(luò)結(jié)構(gòu)為3層,包括輸入層、隱含層和輸出層。輸入層神經(jīng)元為單因素分析確定的有統(tǒng)計學(xué)差異的觀察指標(biāo),輸出層神經(jīng)元為5年生存狀態(tài)(生或死),隱含層神經(jīng)元數(shù)目由經(jīng)驗公式及多次試驗確定。經(jīng)驗公式為其中ni為輸入層神經(jīng)元數(shù)目,n0為輸出層神經(jīng)元數(shù)目,a為常數(shù),且1<a<10。
SVM由Vapnik在20世紀(jì)90年代中期提出,是一種廣泛用于模式識別和分類問題的一種監(jiān)督式機(jī)器學(xué)習(xí)技術(shù)。支持向量機(jī)的基本思想是將樣本數(shù)據(jù)映射到一個更高維的空間,然后在這樣的樣本空間或特征空間里建立一個最大間隔超平面,使得超平面與不同類樣本集之間的距離最大,這個距離叫做間隔(margin),邊緣上的點叫做支持向量(support vector,見圖1),從而達(dá)到將樣本進(jìn)行分類的目的[5]。與ANN相比,SVM具有很強(qiáng)的泛化能力、訓(xùn)練速度較快、能獲得全局最優(yōu)解等優(yōu)點。本研究采用臺灣大學(xué)林智仁開發(fā)設(shè)計的被全球廣泛應(yīng)用的SVM工具箱(libsvm 3.14)來進(jìn)行SVM模型的訓(xùn)練、建模和預(yù)測工作。預(yù)測鼻咽癌患者5年生存狀態(tài)的問題本質(zhì)上是一個分類問題,SVM方法采用C-支持向量分類機(jī)(C-SVC),建模的核函數(shù)采用徑向基核函數(shù)(RBF):K(u,v)=exp(-r|u-v|^2),并采用交叉驗證(CV)來選擇CSVC的懲罰參數(shù)C以及RBF的參數(shù)γ的最佳取值。交叉驗證采用K-折交叉驗證(K-fold CV),由于本研究樣本規(guī)模不大,K取值為4。
圖1 SVM原理—間隔及支持向量
年齡、頸部最大淋巴結(jié)直徑等10項計量資料指標(biāo)經(jīng)正態(tài)性檢驗,結(jié)果均符合正態(tài)分布,采用獨立樣本t檢驗,組間差異有統(tǒng)計學(xué)意義的為年齡、確診到放療時間(P<0.05)。對性別、T分期等18項計數(shù)或等級資料指標(biāo)采用 χ2檢驗及Fisher精確概率法,組間差異有統(tǒng)計學(xué)意義的為T分期、N分期、M分期、92福州分期、KPS評分、有無顱底骨質(zhì)破壞、有無顱神經(jīng)損傷、有無咽旁間隙侵犯、鼻咽療效、頸部淋巴結(jié)療效(P<0.05)。單因素分析篩選出此12項指標(biāo)作為建模變量。
ANN預(yù)測模型輸入層神經(jīng)元為12個(即單因素分析篩選出的組間差異有統(tǒng)計學(xué)意義的12項指標(biāo)),隱含層神經(jīng)元由經(jīng)驗公式及多次試驗確定為5個,輸出層神經(jīng)元為1個(即患者5年生存狀態(tài)),最終確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。經(jīng)過網(wǎng)絡(luò)迭代計算至MSE<0.001時,達(dá)到精度要求并保存模型參數(shù),建立ANN預(yù)測模型。將驗證樣本代入確立的ANN預(yù)測模型求得其預(yù)測值并評估其效能(表1)。ANN模型預(yù)測患者5年生存狀態(tài)的準(zhǔn)確率、敏感度、特異度及 Youden 指數(shù)分別為 88.5% ,87.5% ,90.0% 和0.78,ROC 曲線下面積為 0.897(圖 2)。
表1 5年生存狀態(tài)預(yù)測模型效果評價
圖2 5年生存狀態(tài)預(yù)測模型ROC曲線
SVM預(yù)測模型輸入變量為12個(即單因素分析篩選出的組間差異有統(tǒng)計學(xué)意義的12項指標(biāo)),輸出變量為1個(即患者5年生存狀態(tài)),經(jīng)4-fold交叉驗證,確定參數(shù)C以及r的最佳取值為C=32、r=10.5561,最終建立 SVM預(yù)測模型。將驗證樣本代入確立的SVM預(yù)測模型求得其預(yù)測值并評估其效能(表1)。SVM模型預(yù)測患者5年生存狀態(tài)的準(zhǔn)確率、敏感度、特異度及Youden 指數(shù)分別為 96.2% ,93.8% ,100% 和 0.94,ROC 曲線下面積為0.969(圖2),優(yōu)于ANN模型。
本研究建立預(yù)測模型所使用的ANN及SVM均是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的常用技術(shù),已在醫(yī)學(xué)領(lǐng)域獲得了廣泛應(yīng)用[6-9]。
ANN是近年來迅速發(fā)展起來的一門集神經(jīng)科學(xué)、計算機(jī)科學(xué)、信息科學(xué)、工程科學(xué)為一體的邊緣交叉學(xué)科,具有獨特的信息存儲方式、良好的容錯性、大規(guī)模的并行處理方式以及強(qiáng)大的自組織、自學(xué)習(xí)和自適應(yīng)能力。中山大學(xué)腫瘤防治中心的華貽軍等[10]報道,利用ANN預(yù)測鼻咽癌患者5年生存狀態(tài)的準(zhǔn)確率、敏感度、特異度及 Youden 指數(shù)分別為 86.3% ,80% ,89.47% 和 0.664 3,與本研究所建立的ANN模型相比,準(zhǔn)確率和特異度類似,但敏感性稍差,可能與建模指標(biāo)選擇有關(guān)。
SVM是從Vapnik的統(tǒng)計學(xué)習(xí)理論發(fā)展而來的,主要針對小樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)、分類和預(yù)測的一種方法。與ANN相比,SVM具有以下主要的優(yōu)點:傳統(tǒng)的統(tǒng)計模式識別方法只有在樣本趨向無窮大時,其性能才有理論的保證,而SVM是專門針對有限樣本情況的,從而能在小樣本條件下建立較好的預(yù)測模型;SVM算法最終將轉(zhuǎn)化成為一個二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點,解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題;SVM算法將實際問題通過非線性變換轉(zhuǎn)換到高維的特征空間(Feature Space),在高維空間中構(gòu)造線性判別函數(shù)來實現(xiàn)原空間中的非線性判別函數(shù),通過結(jié)構(gòu)風(fēng)險最小化原則,極大地增強(qiáng)了模型的推廣能力,從而能解決神經(jīng)網(wǎng)絡(luò)不能解決的過度學(xué)習(xí)問題。本研究結(jié)果表明,與ANN模型相比,SVM模型能更好地整合各種影響患者5年生存狀態(tài)的信息,所建立的預(yù)測模型也具有更高的準(zhǔn)確率、敏感度及特異度,也就是說SVM模型具有更好的預(yù)測能力,能為臨床決策提供更有力的支撐。
綜上所述,采用SVM預(yù)測模型能較好地判斷鼻咽癌患者5年后的生存狀態(tài),為個體化地預(yù)測患者的預(yù)后提供了一種新方法,其效能優(yōu)于ANN預(yù)測模型。
[1]Nada Lavracea.Data mining and visualization for decision support and modeling of public health - care resources[J].Journal of Biomedical Informatics,2007,40:438 - 447.
[2]Riccardo Bella zziea.Predictive data mining in clinical medicine:Current issues and guidelines[J].International Journal of Medical Informatics,2008,77:81 -97.
[3]Kim SY,Moon SK.Preoperative prediction of advanced prostatic cancer using clinical decision support systems:accuracy comparison between support vector machine and artificial neural network[J].Korean J Radiol,2011,12(5):588-594.
[4]陳新平,張陽德.臨床醫(yī)學(xué)中的神經(jīng)網(wǎng)絡(luò)技術(shù)[J].中國現(xiàn)代醫(yī)學(xué)雜志,2003,13(9):46 -50.
[5]Yu W,Liu T,Valdez R,et al.Application of support vector machine modeling for prediction of common diseases:the case of diabetes and pre-diabetes[J].BMC Med Inform Decis Mak,2010,10:16.
[6]王之龍,高 云,張曉鵬,等.人工神經(jīng)網(wǎng)絡(luò)模型基于胃癌生物學(xué)行為的MSCT影像信息判斷淋巴結(jié)轉(zhuǎn)移[J].中國醫(yī)學(xué)影像技術(shù),2011,27(6):1 218-1 222.
[7]Zhang XP,Wang ZL,Tang L,et al.Support vector machine model for diagnosis of lymph node metastasis in gastric cancer with multidetector computed tomography:a preliminary study[J].BMC Cancer,2011,11:10.
[8]Kim W,Kim KS,Lee JE,et al.Development of novel breast cancer recurrence prediction model using support vector machine[J].J Breast Cancer,2012,15(2):230 -238.
[9]Furey TS,Cristianini N,Duffy N,et al.Support vector machine classification and validation of cancer tissue samples using microarray expression data[J].Bioinformatics,2000,16(10):906 - 914.
[10]華貽軍,洪明晃,郭 靈,等.應(yīng)用人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測鼻咽癌患者5年生存狀態(tài)[J].腫瘤學(xué)雜志,2006,12(4):300-304.