摘 要:根據(jù)不同特征對(duì)分型準(zhǔn)確率的影響,使用Logistic回歸分析進(jìn)行特征選擇及優(yōu)選實(shí)驗(yàn)研究,并采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法對(duì)常見(jiàn)的周圍型肺癌進(jìn)行分型比較。通過(guò)實(shí)驗(yàn),說(shuō)明了神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)在肺癌分型的應(yīng)用方法,比較了兩種模式識(shí)別方法在肺癌分型中的運(yùn)用情況,驗(yàn)證了支持向量機(jī)在小樣本情況下比神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的泛化能力。
關(guān)鍵詞:肺癌分型; 支持向量機(jī); 神經(jīng)網(wǎng)絡(luò); Logistic回歸
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-373X(2010)10-0083-03
Comparision of Lung Cancer Grouping Based on Pattern Recognition
LIU Lu1,2, MA Jun-lei1, LI Yun3, DONG Yong-qing4, LIU Wan-yu2
(1. School of Automation, Harbin University of Science and Technology, Harbin 150080, China;
2. HIT-INSA Sino-French United Biomedicine Image Research Centre,Harbin Institute of Technology, Harbin 150001, China;
3. Beijing Filiale of China Combined Network Communication Ltd., Beijing 100052, China;
4. Changbai Wireless KTLA of Jilin Province, Changbai 134400, China)
Abstract: Taking account ofthe influence of different features on the grouping accuracy, the charactesistic selection and optimal experiment were performed by adopting the logistic regression analysis method, and the grouping comparison of the common peripheral lung cancer was carried out by methods of neural network and support vector machine. During the experiments, the application of both the neural network and the support vector Machine methods was adopted, and also the two methods in the application of lung cancer grouping were compared. The experimental results prove that under condition of small sample, the support vector machine method has a stronger generalizability than the neural network method.
Keywords: lung cancer grouping; support vector machine; neural network; Logistic regression
0 引 言
近年來(lái),隨著計(jì)算機(jī)軟、硬件基礎(chǔ)的提升以及人工智能技術(shù)的發(fā)展,統(tǒng)計(jì)方法和模式識(shí)別方法在醫(yī)學(xué)研究領(lǐng)域得到了廣泛的應(yīng)用。分類是模式識(shí)別方法的一個(gè)重要方面,目的是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠用該模型預(yù)測(cè)類別未知的對(duì)象所屬的類[1]。用于醫(yī)學(xué)研究領(lǐng)域的分類方法主要包括統(tǒng)計(jì)方法,如Logistic回歸分析以及模式識(shí)別方法如支持向量機(jī)方法、神經(jīng)網(wǎng)絡(luò)方法等。
周圍型肺癌常見(jiàn)病癥分為3種:腺癌、鱗癌、小細(xì)胞癌。本文主要采用統(tǒng)計(jì)方法和模式識(shí)別的理論對(duì)周圍型肺癌的3種病癥的一些臨床表現(xiàn)進(jìn)行分析和分類判別。實(shí)現(xiàn)了特征的優(yōu)選以及基于不同模式識(shí)別分類器的周圍型肺癌診斷方法,并比較和分析幾種分類器在肺癌分型中的特點(diǎn)。
1對(duì)象和方法
1.1 對(duì)象
選擇哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院2006年12月~2007年12月期間的周圍型肺癌101例,其中男66例,女35例;鱗癌42例,腺癌52例,小細(xì)胞癌7例。
納入本次研究標(biāo)準(zhǔn):
(1) 病理學(xué)或細(xì)胞學(xué)診斷的肺癌患者(鱗癌、腺癌、小細(xì)胞癌)。
(2) 均有醫(yī)院統(tǒng)一詳盡的臨床診斷資料。
1.2 判別分析
在所選的101例周圍型肺癌中選擇臨床上有特征性的客觀指標(biāo)共10個(gè),對(duì)其按SPSS 11.5軟件包進(jìn)行處理,并將101例患者逐一進(jìn)行量化[2]:性別(男1,女2),年齡(<50歲=0,≥50歲=1),咳嗽(無(wú)0,有1),血痰(無(wú)0,有1),胸痛(無(wú)0,有1),位置(左側(cè)=1,右側(cè)=2),轉(zhuǎn)移(無(wú)0,有1),腫物大小(≤3 cm=1,>3 cm=2),吸煙與否(無(wú)=0,有=1),T分期(T1=1,T2=2),組織學(xué)分型(鱗癌=1,腺癌=2,小細(xì)胞癌=3)。
判別分析是對(duì)若干個(gè)指標(biāo)的觀測(cè)結(jié)果判定其應(yīng)屬于哪一類的統(tǒng)計(jì)學(xué)方法,其在醫(yī)學(xué)領(lǐng)域有著廣泛的應(yīng)用。
Bayes判別:當(dāng)對(duì)各類別的比例分布情況有一定先驗(yàn)信息,就可以利用這些先驗(yàn)信息得到相關(guān)類別的判別系數(shù)。它的基本思想是認(rèn)為所有P個(gè)類別都是空間中互斥的子域,每個(gè)觀測(cè)都是空間中的一點(diǎn)。它在考慮先驗(yàn)概率的前提下利用Bayes公式,按照一定的準(zhǔn)則構(gòu)造一個(gè)判別函數(shù),分別計(jì)算該樣品落入各個(gè)子域的概率,所有概率中最大的一類就被認(rèn)為是該樣品所屬類別[3]。
Bayes公式:
P(BkA)=P(ABk)P(A)=P(Bk)P(ABk)∑ni=1P(Bi)P(ABi)
判別函數(shù)的形式為:
Y=a1X1+a2X2+…+anXn
式中:Y為判別指標(biāo);X1,X2,…,Xn為反映研究對(duì)象特征的變量,a1,a2,…,an為各變量系數(shù),也稱判別系數(shù)。
判別函數(shù)效果的驗(yàn)證方法:
(1) 自身驗(yàn)證
即將訓(xùn)練樣本依次帶入判別函數(shù),來(lái)評(píng)測(cè)錯(cuò)判情況是否嚴(yán)重。
(2) 交叉驗(yàn)證
在建立判別函數(shù)時(shí)依次去掉1例,然后用建立起來(lái)的判別函數(shù)對(duì)該列進(jìn)行判別。
肺癌的臨床診斷病理分型判別模式結(jié)果如下:
Y1(鱗癌)=-29.961+8.260X1+9.580X2+5.489X3+2.650X4+1.138X5+3.205X6+3.975X7+7.864X8+4.434X9+1.361X10;
Y2(腺癌)=-28.684+9.490X1+9.079X2+4.739X3+2.534X4+2.352X5+3.470X6+3.827X7+6.819X8+3.539X9+1.458X10;
Y3(小細(xì)胞癌)=-28.955+8.281X1+10.248X2+4.464X3+3.074X4+1.330X5+2.293X6+5.803X7+6.989X8+3.875X9+1.442X10
經(jīng)Bayes判別分析后得出了肺癌各病理類型的判別函數(shù)。自我驗(yàn)證的準(zhǔn)確率為57.4%,對(duì)鱗癌的驗(yàn)證準(zhǔn)確率最高(59.5%),腺癌和小細(xì)胞癌分別為55.8%,57.1%。說(shuō)明函數(shù)對(duì)肺癌分型診斷具有一定作用。由結(jié)果顯示函數(shù)實(shí)際效能不是很理想,這與該研究中的樣本數(shù)較少有關(guān),待進(jìn)一步擴(kuò)大樣本數(shù),收集詳盡的臨床相關(guān)資料以校正、完善該模型,進(jìn)一步提高診斷的準(zhǔn)確率。
診斷病理分型判別模式驗(yàn)證結(jié)果如表1所示,自身驗(yàn)證結(jié)果:正確率為57.4%;交叉驗(yàn)證結(jié)果為52.5%。
由于該次研究采集的小細(xì)胞癌數(shù)量較少,用于模式識(shí)別分類的小細(xì)胞癌樣本數(shù)量不足,故在后續(xù)的分類方法中只對(duì)腺癌和鱗癌進(jìn)行分型對(duì)比,來(lái)比較和分析幾種分類器在肺癌分型中的特點(diǎn)。
1.3 特征優(yōu)選與分類
Logistic回歸屬于概率型非線性回歸,它是研究二分類觀察結(jié)果與一些影響因素之間關(guān)系的一種多變量分析方法。Logistic回歸用途極為廣泛,幾乎已形成了醫(yī)學(xué)中最常用的分析方法,將以上10個(gè)客觀指標(biāo)的不同病理類型的特征差異采用卡方檢驗(yàn),對(duì)其進(jìn)行單因素指標(biāo)分析,P<0.05為有統(tǒng)計(jì)學(xué)意義,P<0.01為有顯著統(tǒng)計(jì)學(xué)意義。為保證模型的穩(wěn)定,將利用單因素假設(shè)檢驗(yàn)找出的P<0.05的自變量(性別、咳嗽、血痰、胸痛、吸煙、大小)代入回歸方程,并進(jìn)行Logistic回歸分析[4]。
利用所建立的Logistic回歸模型對(duì)所有樣本進(jìn)行診斷測(cè)試如表2所示,診斷的腺癌正確率為76.9%(40/52),鱗癌的正確率為69%(29/42),總的正確率為73.4%(69/94)。用SPSS 11.5軟件進(jìn)行Logistic回歸分析得到腺、鱗癌之間差異性最大的4個(gè)特征,分別為性別(P=0.001)、胸痛(P=0.028)、吸煙(P=0.043)、大小(P=0.046)。以此作為模式識(shí)別分類的樣本特征。
表2 Logistic回歸模型對(duì)樣本的測(cè)試結(jié)果
ObservedPredicted
ResultsPercentage
1.002.00Correct
Results
1.00291369.0
2.00124076.9
Overall Percentage73.4
人工神經(jīng)網(wǎng)絡(luò)(ANN)是現(xiàn)代生物學(xué)研究人腦組織所取得的成果基礎(chǔ)上提出來(lái)的,用大量簡(jiǎn)單的神經(jīng)元廣泛連接組成的復(fù)雜網(wǎng)絡(luò)來(lái)模擬人類大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和行為,能夠模擬人腦的結(jié)構(gòu)以及記憶和處理信息的方式,具有自學(xué)習(xí)、自適應(yīng)的特點(diǎn)能夠任意逼近非線性函數(shù),廣泛應(yīng)用于模式識(shí)別和分類等領(lǐng)域[5]。ANN模型拓?fù)浣Y(jié)構(gòu)分3層:輸入層、隱含層和輸出層,輸入層包含4個(gè)神經(jīng)元,分別對(duì)應(yīng)由卡方檢驗(yàn)進(jìn)行單因素指標(biāo)分析P<0.05的差異性顯著的四項(xiàng)臨床指標(biāo)(性別,胸痛,腫塊大小,吸煙);隱含層神經(jīng)元數(shù)目根據(jù)經(jīng)驗(yàn)定位3;輸出層包含1個(gè)神經(jīng)元,對(duì)應(yīng)診斷結(jié)果(腺癌0、鱗癌1)。利用Matlab 7.0軟件編程實(shí)現(xiàn)ANN的訓(xùn)練與測(cè)試[6],隨即選取腺、鱗癌各10例樣本作為測(cè)試樣本,其余74例作為訓(xùn)練樣本,使用有動(dòng)量的梯度下降法進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,最大訓(xùn)練次數(shù)為300,學(xué)習(xí)率為0.05,動(dòng)量因子為0.9。經(jīng)過(guò)測(cè)試得到的正確率為13/20(65%)。
支持向量機(jī)是有Vapnik提出的一種新興的模式識(shí)別分類方法[7-8],它最常用于解決兩類模式識(shí)別問(wèn)題[9]。支持向量機(jī)方法是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,針對(duì)小樣本、以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的一種優(yōu)秀學(xué)習(xí)算法。即使是由有限訓(xùn)練樣本得到的解,在求解問(wèn)題時(shí)仍能得到較小的誤差。從線性可分模式的情況看,它的主要思想就是建立一個(gè)超平面作為決策面,該決策面不但能夠?qū)⑺杏?xùn)練樣本正確分類,而且使訓(xùn)練樣本中離分類面最近的點(diǎn)到分類面距離最大。圖1給出了線性可分模式下二維輸入空間中最優(yōu)超平面的幾何結(jié)構(gòu)。其中實(shí)心點(diǎn)和空心點(diǎn)代表兩類樣本,H為分類線,H1,H2分別為過(guò)各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔。此時(shí),H1,H2上的點(diǎn)距分類線H的距離均為1/‖w‖,分類間隔[10]為2/‖w‖。
圖1 二維輸入空間中最優(yōu)超平面的幾何結(jié)構(gòu)圖
在此使用libsvm軟件包對(duì)腺、鱗癌的樣本進(jìn)行訓(xùn)練和測(cè)試,測(cè)試樣本各選10例,其余的74例都作為訓(xùn)練樣本。樣本為所選的經(jīng)Logistic回歸分析得出差異性最大的性別、胸痛、腫塊大小和吸煙與否4項(xiàng)作為訓(xùn)練的特征。在此設(shè)定腺癌為-1,鱗癌為1,即輸出向量為[-1,1],核函數(shù)為徑向基核函數(shù),RBF=0.5,迭代次數(shù)41,共找到支持向量61個(gè),測(cè)試正確率為14/20即70%,正確率要高于神經(jīng)網(wǎng)絡(luò)的測(cè)試結(jié)果。
2 結(jié) 語(yǔ)
神經(jīng)網(wǎng)絡(luò)是基于風(fēng)險(xiǎn)最小化為網(wǎng)絡(luò)優(yōu)化目標(biāo),是在樣本無(wú)窮大時(shí)的漸進(jìn)理論,支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理。針對(duì)小樣本,以統(tǒng)計(jì)學(xué)理論基礎(chǔ)的學(xué)習(xí)算法,由于兩者在理論基礎(chǔ)和優(yōu)化目標(biāo)以及學(xué)習(xí)算法方面的不同,導(dǎo)致兩者的逼近能力、泛化能力以及適用范圍存在差異。
通過(guò)利用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)對(duì)腺、鱗癌分型的診斷研究表明:
(1) 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法都能實(shí)現(xiàn)對(duì)腺、鱗癌的分型,并得到較高的診斷正確率;
(2) 在小樣本情況下,支持向量機(jī)比神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的泛化能力,更適用于腺、鱗癌的診斷。
參考文獻(xiàn)
[1]邊肇棋,張學(xué)工.模式識(shí)別[M].北京:清華大學(xué)出版社,2000.
[2]胡南均.109例肺癌的病理與臨床及CT相關(guān)性分析[D].吉林:吉林大學(xué),2008.
[3]王樂(lè)三.SPSS在醫(yī)學(xué)科研中的應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2007.
[4]陳廣,陳景武.Logistic回歸分析的判別預(yù)測(cè)功能及其應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2007,20(3):280-281.
[5]陳永鋒.基于仿生模式識(shí)別的孤立性肺結(jié)節(jié)診斷研究[D].重慶:重慶大學(xué),2007.
[6]董長(zhǎng)虹.Matlab神經(jīng)網(wǎng)絡(luò)與應(yīng)用[M].2版.北京:國(guó)防工業(yè)出版社,2007.
[7]WANG L P. Support vector machine:theory and application[M]. New York: Springer Verlag, 2005: 1-66.
[8]劉露,劉宛予,楚春雨,等.胸部CT圖像中孤立性肺結(jié)節(jié)良惡性快速分類[J].光學(xué)精密工程,2009,17(8):2062-2068.
[9]LIU Lu, LIU Wan-yu, SUN Xiao-ming. Automated detection of pulmonary nodules in CT images with support vector machines[C]//Proceedings of SPIEthe International Society for Optical Engineering Fifth International Symposium on Instrumentation Science and Technology. Shenyang: ISIST, 2008,7133: 26-30.
[10]CRISTIANINI Nello,SHAWE-TAYOR John.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社,2004.