李 卉
(中北大學 理學院,山西 太原 030051)
近年我國乳腺癌發(fā)病率的增長速度不容樂觀,高出高發(fā)國家1~2個百分點。尤其在相對比較發(fā)達的東部地區(qū),乳腺癌的發(fā)病率及死亡率呈明顯的增長趨勢。因此,運用科學的方法,根據(jù)乳腺腫瘤病灶組織的細胞核顯微圖像對乳腺腫瘤屬于良性或惡性進行診斷顯得尤為重要[1]。對乳腺癌的診斷不是簡單的線性組合,因此本文提出用BP神經(jīng)網(wǎng)絡的強大的分類功能對乳腺癌進行診斷,即將待診斷乳腺腫瘤信息通過BP神經(jīng)網(wǎng)絡映射到“良性”或者“惡性”這兩種診斷結果上,進而得出乳腺腫瘤診斷結果。因為,BP神經(jīng)網(wǎng)絡的最優(yōu)權值和閾值不好找到,本文提出用生物地理學優(yōu)化算法(Biogeography-based optimization algorithm,BBO)優(yōu)化BP神經(jīng)網(wǎng)絡的結構,得到最優(yōu)權值及閾值,使得BP神經(jīng)網(wǎng)絡的分類功能更強大,診斷結果更準確。
生物地理學優(yōu)化算法(BBO)是一種進化算法,于2008年提出。受到物種的遷入和遷出趨勢的啟發(fā)。在生物地理學算法中,每一個解被看做一個帶有棲息地適宜性指數(shù)(HSI)的棲息地。高的HIS解往往與低的HIS解分享他們的特征。低HIS解從高HIS解中接收大量的新特征。每一個解有自己的遷入率λ和遷出率μ。一個好的解有高的μ和低的λ,反之亦然。遷入率和遷出率是種群規(guī)模的函數(shù)。為了理解BBO的原理,考慮一組由設計變量表示的解決方案。針對特定種群的每個設計變量都被認為是該種群成員的適應性索引變量(SIV)。目標函數(shù)值表示特定種群的HSI。每一種解的遷入和遷出率都被用于在棲息地之間的隨機的共享信息。如果一個給定的解被選中被修改,那么它的遷入率就會被用來對每個SIV進行隨機的修改。如果在一個給定解Sl中的SIV被選中為修改后,使用其他解的遷出率μ在概率上決定哪一個解應該遷移它隨機選擇了SIV來解決問題。上面的現(xiàn)象在BBO被稱為遷移。遷移后的解進行變異現(xiàn)象。變異過程既改變低HIS解也改變高HIS解[2-5]。
下面給出了BBO偽代碼:
BBO算法可用于BP神經(jīng)網(wǎng)絡結構優(yōu)化,傳統(tǒng)的BP神經(jīng)網(wǎng)絡采用誤差反向傳播來調(diào)整網(wǎng)絡連接權值,該方法容易陷入局部最優(yōu)解,而BBO算法可以在更大的空間內(nèi)搜索,在一定程度上避免了以上問題。將神經(jīng)網(wǎng)絡各層的連接權值編碼成棲息地,適應度值則為使用該組權值時的網(wǎng)絡輸出均方誤差,利用之前描述的BBO算法,在預設的迭代次數(shù)內(nèi)搜索最優(yōu)的網(wǎng)絡權值。
為了對乳腺癌進行診斷,本文提出了用BBO優(yōu)化BP神經(jīng)網(wǎng)絡的診斷方法,其主要思想是:
本文利用威斯康辛大學醫(yī)學院的乳腺腫瘤病灶組織的細胞核顯微圖像數(shù)據(jù)庫。數(shù)據(jù)庫中包含了細胞核圖像的10個量化特征(細胞核半徑、質(zhì)地、周長、面積、光滑性、緊密度、凹陷度、凹陷點數(shù)、對稱度、斷裂度),這些特征與腫瘤的性質(zhì)有密切關系,因此,本文提出用BBO優(yōu)化的BP神經(jīng)網(wǎng)絡來描述數(shù)據(jù)庫中各個量化特征與腫瘤性質(zhì)的關系,也就是利用BP神經(jīng)網(wǎng)絡的非線性映射能力把細胞核顯微圖像的量化特征映射到乳腺腫瘤是良性還是惡性兩個類別上[1]。
將乳腺腫瘤病灶組織的核細胞顯微圖像的10個量化特征作為網(wǎng)絡的輸入,良性乳腺腫瘤和惡性腫瘤作為網(wǎng)絡輸出。用訓練集數(shù)據(jù)對設計的BBOBP神經(jīng)網(wǎng)絡進行訓練,然后對測試集數(shù)據(jù)進行測試并對測試結果進行分析。
根據(jù)上述思想,問題解決步驟如圖1所示。
圖1設計步驟流程圖
威斯康星大學醫(yī)學院的乳腺癌數(shù)據(jù)集共包括569個病例,其中,良性357例,惡性212例。本文隨機選取500組數(shù)據(jù)作為訓練集,剩余69組數(shù)據(jù)作為測試集。
每個病例的一組數(shù)據(jù)包括采樣組織中各細胞核的10個特征量的平均值、標準差和最壞值共30個數(shù)據(jù)。數(shù)據(jù)文件中每組數(shù)據(jù)共分32個字段,第1個字段為病例編號;第2個字段為確診結果,B為良性,M為惡性;第3~12個字段是該病例腫瘤病灶組織的各細胞核顯微圖像的10個量化特征的平均值;
第13~22個字段是相應的標準差;第23~32個字段是相應的最壞值。
本文利用MATLAB2016a自帶的神經(jīng)網(wǎng)絡工具箱中的函數(shù)構建BBOBP神經(jīng)網(wǎng)絡進行仿真實驗。
BBOBP神經(jīng)網(wǎng)絡仿真結果如下:
病例總數(shù):569 良性:357 惡性:212
訓練集病例總數(shù):500 良性:316 惡性:184
測試集病例總數(shù):69 良性:41 惡性:28
良性乳腺腫瘤確診:40 誤診:1 確診率p1=97.561%
惡性乳腺腫瘤確診:26 誤診:2 確診率p2=92.8571%
BP神經(jīng)網(wǎng)絡仿真結果如下:
病例總數(shù):569 良性:357 惡性:212
訓練集病例總數(shù):500 良性:310 惡性:190
測試集病例總數(shù):69 良性:47 惡性:22
良性乳腺腫瘤確診:43 誤診:4 確診率p1=91.4894%
惡性乳腺腫瘤確診:15 誤診:7 確診率p2=68.1818%3.
從仿真實驗可以看出BBOBP神經(jīng)網(wǎng)絡有較高的分類能力,誤診率較低,而未經(jīng)優(yōu)化的BP神經(jīng)網(wǎng)絡分類能力相對較差,誤診率相對較高。
BP神經(jīng)網(wǎng)絡有較好的分類能力,但是其結構,比如權值和閾值的最優(yōu)值比較難以得到,因此本文提出用生物地理學優(yōu)化算法(BBO)對其結構進行優(yōu)化,從而得到其最優(yōu)權值與閾值,提高BP神經(jīng)網(wǎng)絡的分類能力,并通過乳腺癌診斷這一實例進行仿真驗證,結果表明經(jīng)過BBO優(yōu)化的BP神經(jīng)網(wǎng)絡有較低的誤診率,其診斷結果優(yōu)于BP神經(jīng)網(wǎng)絡。