李 卉
(中北大學(xué) 理學(xué)院,山西 太原 030051)
近年我國(guó)乳腺癌發(fā)病率的增長(zhǎng)速度不容樂(lè)觀,高出高發(fā)國(guó)家1~2個(gè)百分點(diǎn)。尤其在相對(duì)比較發(fā)達(dá)的東部地區(qū),乳腺癌的發(fā)病率及死亡率呈明顯的增長(zhǎng)趨勢(shì)。因此,運(yùn)用科學(xué)的方法,根據(jù)乳腺腫瘤病灶組織的細(xì)胞核顯微圖像對(duì)乳腺腫瘤屬于良性或惡性進(jìn)行診斷顯得尤為重要[1]。對(duì)乳腺癌的診斷不是簡(jiǎn)單的線性組合,因此本文提出用BP神經(jīng)網(wǎng)絡(luò)的強(qiáng)大的分類(lèi)功能對(duì)乳腺癌進(jìn)行診斷,即將待診斷乳腺腫瘤信息通過(guò)BP神經(jīng)網(wǎng)絡(luò)映射到“良性”或者“惡性”這兩種診斷結(jié)果上,進(jìn)而得出乳腺腫瘤診斷結(jié)果。因?yàn)?,BP神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)值和閾值不好找到,本文提出用生物地理學(xué)優(yōu)化算法(Biogeography-based optimization algorithm,BBO)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),得到最優(yōu)權(quán)值及閾值,使得BP神經(jīng)網(wǎng)絡(luò)的分類(lèi)功能更強(qiáng)大,診斷結(jié)果更準(zhǔn)確。
生物地理學(xué)優(yōu)化算法(BBO)是一種進(jìn)化算法,于2008年提出。受到物種的遷入和遷出趨勢(shì)的啟發(fā)。在生物地理學(xué)算法中,每一個(gè)解被看做一個(gè)帶有棲息地適宜性指數(shù)(HSI)的棲息地。高的HIS解往往與低的HIS解分享他們的特征。低HIS解從高HIS解中接收大量的新特征。每一個(gè)解有自己的遷入率λ和遷出率μ。一個(gè)好的解有高的μ和低的λ,反之亦然。遷入率和遷出率是種群規(guī)模的函數(shù)。為了理解BBO的原理,考慮一組由設(shè)計(jì)變量表示的解決方案。針對(duì)特定種群的每個(gè)設(shè)計(jì)變量都被認(rèn)為是該種群成員的適應(yīng)性索引變量(SIV)。目標(biāo)函數(shù)值表示特定種群的HSI。每一種解的遷入和遷出率都被用于在棲息地之間的隨機(jī)的共享信息。如果一個(gè)給定的解被選中被修改,那么它的遷入率就會(huì)被用來(lái)對(duì)每個(gè)SIV進(jìn)行隨機(jī)的修改。如果在一個(gè)給定解Sl中的SIV被選中為修改后,使用其他解的遷出率μ在概率上決定哪一個(gè)解應(yīng)該遷移它隨機(jī)選擇了SIV來(lái)解決問(wèn)題。上面的現(xiàn)象在BBO被稱(chēng)為遷移。遷移后的解進(jìn)行變異現(xiàn)象。變異過(guò)程既改變低HIS解也改變高HIS解[2-5]。
下面給出了BBO偽代碼:
BBO算法可用于BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)采用誤差反向傳播來(lái)調(diào)整網(wǎng)絡(luò)連接權(quán)值,該方法容易陷入局部最優(yōu)解,而B(niǎo)BO算法可以在更大的空間內(nèi)搜索,在一定程度上避免了以上問(wèn)題。將神經(jīng)網(wǎng)絡(luò)各層的連接權(quán)值編碼成棲息地,適應(yīng)度值則為使用該組權(quán)值時(shí)的網(wǎng)絡(luò)輸出均方誤差,利用之前描述的BBO算法,在預(yù)設(shè)的迭代次數(shù)內(nèi)搜索最優(yōu)的網(wǎng)絡(luò)權(quán)值。
為了對(duì)乳腺癌進(jìn)行診斷,本文提出了用BBO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的診斷方法,其主要思想是:
本文利用威斯康辛大學(xué)醫(yī)學(xué)院的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中包含了細(xì)胞核圖像的10個(gè)量化特征(細(xì)胞核半徑、質(zhì)地、周長(zhǎng)、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱(chēng)度、斷裂度),這些特征與腫瘤的性質(zhì)有密切關(guān)系,因此,本文提出用BBO優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)來(lái)描述數(shù)據(jù)庫(kù)中各個(gè)量化特征與腫瘤性質(zhì)的關(guān)系,也就是利用BP神經(jīng)網(wǎng)絡(luò)的非線性映射能力把細(xì)胞核顯微圖像的量化特征映射到乳腺腫瘤是良性還是惡性?xún)蓚€(gè)類(lèi)別上[1]。
將乳腺腫瘤病灶組織的核細(xì)胞顯微圖像的10個(gè)量化特征作為網(wǎng)絡(luò)的輸入,良性乳腺腫瘤和惡性腫瘤作為網(wǎng)絡(luò)輸出。用訓(xùn)練集數(shù)據(jù)對(duì)設(shè)計(jì)的BBOBP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后對(duì)測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試并對(duì)測(cè)試結(jié)果進(jìn)行分析。
根據(jù)上述思想,問(wèn)題解決步驟如圖1所示。
圖1設(shè)計(jì)步驟流程圖
威斯康星大學(xué)醫(yī)學(xué)院的乳腺癌數(shù)據(jù)集共包括569個(gè)病例,其中,良性357例,惡性212例。本文隨機(jī)選取500組數(shù)據(jù)作為訓(xùn)練集,剩余69組數(shù)據(jù)作為測(cè)試集。
每個(gè)病例的一組數(shù)據(jù)包括采樣組織中各細(xì)胞核的10個(gè)特征量的平均值、標(biāo)準(zhǔn)差和最壞值共30個(gè)數(shù)據(jù)。數(shù)據(jù)文件中每組數(shù)據(jù)共分32個(gè)字段,第1個(gè)字段為病例編號(hào);第2個(gè)字段為確診結(jié)果,B為良性,M為惡性;第3~12個(gè)字段是該病例腫瘤病灶組織的各細(xì)胞核顯微圖像的10個(gè)量化特征的平均值;
第13~22個(gè)字段是相應(yīng)的標(biāo)準(zhǔn)差;第23~32個(gè)字段是相應(yīng)的最壞值。
本文利用MATLAB2016a自帶的神經(jīng)網(wǎng)絡(luò)工具箱中的函數(shù)構(gòu)建BBOBP神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真實(shí)驗(yàn)。
BBOBP神經(jīng)網(wǎng)絡(luò)仿真結(jié)果如下:
病例總數(shù):569 良性:357 惡性:212
訓(xùn)練集病例總數(shù):500 良性:316 惡性:184
測(cè)試集病例總數(shù):69 良性:41 惡性:28
良性乳腺腫瘤確診:40 誤診:1 確診率p1=97.561%
惡性乳腺腫瘤確診:26 誤診:2 確診率p2=92.8571%
BP神經(jīng)網(wǎng)絡(luò)仿真結(jié)果如下:
病例總數(shù):569 良性:357 惡性:212
訓(xùn)練集病例總數(shù):500 良性:310 惡性:190
測(cè)試集病例總數(shù):69 良性:47 惡性:22
良性乳腺腫瘤確診:43 誤診:4 確診率p1=91.4894%
惡性乳腺腫瘤確診:15 誤診:7 確診率p2=68.1818%3.
從仿真實(shí)驗(yàn)可以看出BBOBP神經(jīng)網(wǎng)絡(luò)有較高的分類(lèi)能力,誤診率較低,而未經(jīng)優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)分類(lèi)能力相對(duì)較差,誤診率相對(duì)較高。
BP神經(jīng)網(wǎng)絡(luò)有較好的分類(lèi)能力,但是其結(jié)構(gòu),比如權(quán)值和閾值的最優(yōu)值比較難以得到,因此本文提出用生物地理學(xué)優(yōu)化算法(BBO)對(duì)其結(jié)構(gòu)進(jìn)行優(yōu)化,從而得到其最優(yōu)權(quán)值與閾值,提高BP神經(jīng)網(wǎng)絡(luò)的分類(lèi)能力,并通過(guò)乳腺癌診斷這一實(shí)例進(jìn)行仿真驗(yàn)證,結(jié)果表明經(jīng)過(guò)BBO優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)有較低的誤診率,其診斷結(jié)果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。