李 卉
(中北大學(xué) 理學(xué)院,山西 太原 030051)
近年我國乳腺癌發(fā)病率的增長速度不容樂觀,高出高發(fā)國家1~2個百分點。尤其在相對比較發(fā)達的東部地區(qū),乳腺癌的發(fā)病率及死亡率呈明顯的增長趨勢。因此,運用科學(xué)的方法,根據(jù)乳腺腫瘤病灶組織的細(xì)胞核顯微圖像對乳腺腫瘤屬于良性或惡性進行診斷顯得尤為重要[1]。對乳腺癌的診斷不是簡單的線性組合,因此本文提出用BP神經(jīng)網(wǎng)絡(luò)的強大的分類功能對乳腺癌進行診斷,即將待診斷乳腺腫瘤信息通過BP神經(jīng)網(wǎng)絡(luò)映射到“良性”或者“惡性”這兩種診斷結(jié)果上,進而得出乳腺腫瘤診斷結(jié)果。因為,BP神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)值和閾值不好找到,本文提出用生物地理學(xué)優(yōu)化算法(Biogeography-based optimization algorithm,BBO)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),得到最優(yōu)權(quán)值及閾值,使得BP神經(jīng)網(wǎng)絡(luò)的分類功能更強大,診斷結(jié)果更準(zhǔn)確。
生物地理學(xué)優(yōu)化算法(BBO)是一種進化算法,于2008年提出。受到物種的遷入和遷出趨勢的啟發(fā)。在生物地理學(xué)算法中,每一個解被看做一個帶有棲息地適宜性指數(shù)(HSI)的棲息地。高的HIS解往往與低的HIS解分享他們的特征。低HIS解從高HIS解中接收大量的新特征。每一個解有自己的遷入率λ和遷出率μ。一個好的解有高的μ和低的λ,反之亦然。遷入率和遷出率是種群規(guī)模的函數(shù)。為了理解BBO的原理,考慮一組由設(shè)計變量表示的解決方案。針對特定種群的每個設(shè)計變量都被認(rèn)為是該種群成員的適應(yīng)性索引變量(SIV)。目標(biāo)函數(shù)值表示特定種群的HSI。每一種解的遷入和遷出率都被用于在棲息地之間的隨機的共享信息。如果一個給定的解被選中被修改,那么它的遷入率就會被用來對每個SIV進行隨機的修改。如果在一個給定解Sl中的SIV被選中為修改后,使用其他解的遷出率μ在概率上決定哪一個解應(yīng)該遷移它隨機選擇了SIV來解決問題。上面的現(xiàn)象在BBO被稱為遷移。遷移后的解進行變異現(xiàn)象。變異過程既改變低HIS解也改變高HIS解[2-5]。
下面給出了BBO偽代碼:
BBO算法可用于BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)采用誤差反向傳播來調(diào)整網(wǎng)絡(luò)連接權(quán)值,該方法容易陷入局部最優(yōu)解,而BBO算法可以在更大的空間內(nèi)搜索,在一定程度上避免了以上問題。將神經(jīng)網(wǎng)絡(luò)各層的連接權(quán)值編碼成棲息地,適應(yīng)度值則為使用該組權(quán)值時的網(wǎng)絡(luò)輸出均方誤差,利用之前描述的BBO算法,在預(yù)設(shè)的迭代次數(shù)內(nèi)搜索最優(yōu)的網(wǎng)絡(luò)權(quán)值。
為了對乳腺癌進行診斷,本文提出了用BBO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的診斷方法,其主要思想是:
本文利用威斯康辛大學(xué)醫(yī)學(xué)院的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像數(shù)據(jù)庫。數(shù)據(jù)庫中包含了細(xì)胞核圖像的10個量化特征(細(xì)胞核半徑、質(zhì)地、周長、面積、光滑性、緊密度、凹陷度、凹陷點數(shù)、對稱度、斷裂度),這些特征與腫瘤的性質(zhì)有密切關(guān)系,因此,本文提出用BBO優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)來描述數(shù)據(jù)庫中各個量化特征與腫瘤性質(zhì)的關(guān)系,也就是利用BP神經(jīng)網(wǎng)絡(luò)的非線性映射能力把細(xì)胞核顯微圖像的量化特征映射到乳腺腫瘤是良性還是惡性兩個類別上[1]。
將乳腺腫瘤病灶組織的核細(xì)胞顯微圖像的10個量化特征作為網(wǎng)絡(luò)的輸入,良性乳腺腫瘤和惡性腫瘤作為網(wǎng)絡(luò)輸出。用訓(xùn)練集數(shù)據(jù)對設(shè)計的BBOBP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,然后對測試集數(shù)據(jù)進行測試并對測試結(jié)果進行分析。
根據(jù)上述思想,問題解決步驟如圖1所示。
圖1設(shè)計步驟流程圖
威斯康星大學(xué)醫(yī)學(xué)院的乳腺癌數(shù)據(jù)集共包括569個病例,其中,良性357例,惡性212例。本文隨機選取500組數(shù)據(jù)作為訓(xùn)練集,剩余69組數(shù)據(jù)作為測試集。
每個病例的一組數(shù)據(jù)包括采樣組織中各細(xì)胞核的10個特征量的平均值、標(biāo)準(zhǔn)差和最壞值共30個數(shù)據(jù)。數(shù)據(jù)文件中每組數(shù)據(jù)共分32個字段,第1個字段為病例編號;第2個字段為確診結(jié)果,B為良性,M為惡性;第3~12個字段是該病例腫瘤病灶組織的各細(xì)胞核顯微圖像的10個量化特征的平均值;
第13~22個字段是相應(yīng)的標(biāo)準(zhǔn)差;第23~32個字段是相應(yīng)的最壞值。
本文利用MATLAB2016a自帶的神經(jīng)網(wǎng)絡(luò)工具箱中的函數(shù)構(gòu)建BBOBP神經(jīng)網(wǎng)絡(luò)進行仿真實驗。
BBOBP神經(jīng)網(wǎng)絡(luò)仿真結(jié)果如下:
病例總數(shù):569 良性:357 惡性:212
訓(xùn)練集病例總數(shù):500 良性:316 惡性:184
測試集病例總數(shù):69 良性:41 惡性:28
良性乳腺腫瘤確診:40 誤診:1 確診率p1=97.561%
惡性乳腺腫瘤確診:26 誤診:2 確診率p2=92.8571%
BP神經(jīng)網(wǎng)絡(luò)仿真結(jié)果如下:
病例總數(shù):569 良性:357 惡性:212
訓(xùn)練集病例總數(shù):500 良性:310 惡性:190
測試集病例總數(shù):69 良性:47 惡性:22
良性乳腺腫瘤確診:43 誤診:4 確診率p1=91.4894%
惡性乳腺腫瘤確診:15 誤診:7 確診率p2=68.1818%3.
從仿真實驗可以看出BBOBP神經(jīng)網(wǎng)絡(luò)有較高的分類能力,誤診率較低,而未經(jīng)優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)分類能力相對較差,誤診率相對較高。
BP神經(jīng)網(wǎng)絡(luò)有較好的分類能力,但是其結(jié)構(gòu),比如權(quán)值和閾值的最優(yōu)值比較難以得到,因此本文提出用生物地理學(xué)優(yōu)化算法(BBO)對其結(jié)構(gòu)進行優(yōu)化,從而得到其最優(yōu)權(quán)值與閾值,提高BP神經(jīng)網(wǎng)絡(luò)的分類能力,并通過乳腺癌診斷這一實例進行仿真驗證,結(jié)果表明經(jīng)過BBO優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)有較低的誤診率,其診斷結(jié)果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。