閔新港 黃邵祺 游少杰 戴博
關(guān)鍵詞:微生物識(shí)別;圖像分割;粒子群算法;支持向量機(jī)
中圖分類號(hào):X 835 文獻(xiàn)標(biāo)志碼:A
引言
水源微生物廣泛分布于自然與人工水體環(huán)境中,它們無法用肉眼直接觀察,例如水中的原生動(dòng)物和真菌的大小通常介于0.1~100 μm,只能在顯微鏡下進(jìn)行觀察。作為水質(zhì)的關(guān)鍵評(píng)價(jià)指標(biāo)之一,水源微生物的繁殖情況可以很好地反映水體的污染程度。因此,推進(jìn)水源微生物分類識(shí)別的相關(guān)研究對(duì)于水源的生物安全性監(jiān)測、水環(huán)境治理等具有非常重要的意義。
考慮到傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)圖形處理單元的要求較低,能夠以較低成本部署在設(shè)備中,且所需的樣本量小,訓(xùn)練時(shí)間短,許多學(xué)者仍在利用機(jī)器學(xué)習(xí)方法來提高微生物檢測的準(zhǔn)確性。Rahmayuna 等[1] 提出了一種利用支持向量機(jī)實(shí)現(xiàn)細(xì)菌種類的屬級(jí)分類技術(shù),對(duì)4 種細(xì)菌的預(yù)測準(zhǔn)確率達(dá)到了90.33%。Dhindsa 等[2] 利用像素聚類和Kirsch 濾波分割圖像中的微生物,對(duì)不同分類器提取相應(yīng)的特征,再比較分類回歸樹等多種分類算法,結(jié)果表明,分類回歸樹算法最優(yōu),對(duì)10 種微生物的識(shí)別準(zhǔn)確率達(dá)到了98%。本研究通過邊緣檢測來提取圖像中的微生物,并提取多種圖像特征并優(yōu)化了部分特征參數(shù),基于多特征融合的方法制作微生物數(shù)據(jù)集,采用粒子群優(yōu)化算法的支持向量機(jī)( support vector machineoptimized by particle swarm optimization, PSOSVM)來訓(xùn)練識(shí)別模型,并將其與網(wǎng)格搜尋支持向量機(jī)( grid search support vector machine, GSSVM)[3]、誤差反向傳播算法(back propagationneural network, BP)和集成支持向量機(jī)(ensembleSVM)[4] 比較,建立了一種高效的微生物識(shí)別方法。
1 水樣采集與微生物圖像集制作
微生物采集于浦東威立雅自來水公司,由于夏季是微生物繁殖的高峰期,所以選擇該時(shí)期進(jìn)行采樣工作,采樣類型包括過濾水和出廠水。首先將濾袋放置在出水管道上,持續(xù)富集3 d,之后將采樣帶回實(shí)驗(yàn)室并轉(zhuǎn)移到培養(yǎng)皿中,在Axio Vert.A1 型倒置顯微鏡(德國卡爾·蔡司公司)下觀察,照明光源為顯微鏡自帶的明場光源,顯微物鏡放大倍率為5×。使用Canon EOS80D 相機(jī)(日本佳能株式會(huì)社)對(duì)微生物進(jìn)行拍照,ISO 速度為800,曝光時(shí)間為1/200 s,圖像分辨率為4 000×6 000。最終得到8 種微生物,共640 張圖像(每種80 張),圖1 展示了這8 種微生物的實(shí)例。采用每種微生物的50 張圖像用作訓(xùn)練集,30 張圖像用作測試集,為減小計(jì)算量,提高后續(xù)的處理速率,圖像尺寸統(tǒng)一調(diào)整為600×900。用Sefexa 軟件來繪制評(píng)價(jià)標(biāo)準(zhǔn)圖像。
2 水源微生物識(shí)別系統(tǒng)整體流程
提出了一種水源微生物自動(dòng)識(shí)別系統(tǒng),該系統(tǒng)的整體流程如圖2 所示。首先,輸入制作完成的微生物圖像集,通過自編寫的圖像分割算法對(duì)微生物圖像執(zhí)行圖像增強(qiáng)、平滑濾波、邊緣檢測、形態(tài)學(xué)處理等操作,獲得目標(biāo)微生物的二值掩膜,并提取目標(biāo)微生物所在區(qū)域,得到分割后的微生物圖像。隨后,對(duì)分割后的圖像提取6 種特征描述子,包括幾何特征、內(nèi)部結(jié)構(gòu)直方圖、傅里葉描述子、胡不變矩、灰度共生矩陣和旋轉(zhuǎn)不變局部二值模式。由于6 種特征的總維數(shù)不高,通過連接的方式進(jìn)行特征融合。接下來,導(dǎo)入融合后的特征數(shù)據(jù),通過粒子群算法優(yōu)化SVM 訓(xùn)練參數(shù),建立優(yōu)化后的微生物識(shí)別模型,最終由該模型輸出微生物的識(shí)別結(jié)果。
3 微生物圖像分割與特征提取
3.1 微生物圖像分割
設(shè)計(jì)了兩種微生物圖像分割方法,分別是全自動(dòng)圖像分割方法與半自動(dòng)圖像分割方法。半自動(dòng)分割方法是在全自動(dòng)分割方法基礎(chǔ)上,新增了可以手動(dòng)畫出感興趣的分割區(qū)域的功能,并只在該區(qū)域內(nèi)進(jìn)行后續(xù)的圖像分割,這樣可以在復(fù)雜環(huán)境中更加準(zhǔn)確地分割出目標(biāo)微生物。針對(duì)不同的環(huán)境復(fù)雜程度可采用不同的分割方法,例如:在流動(dòng)的水體中,微生物和雜質(zhì)密度較低,適合全自動(dòng)分割方法;在富集的水樣中,目標(biāo)微生物會(huì)被大量雜質(zhì)覆蓋,適合半自動(dòng)分割方法。
對(duì)于全自動(dòng)分割方法,首先輸入原始微生物圖像,再將原始圖像轉(zhuǎn)化為灰度圖,之后通過點(diǎn)運(yùn)算增強(qiáng)對(duì)比度, 高斯濾波去噪, 隨后用Canny 邊緣檢測算子[5] 來檢測微生物邊界,通過形態(tài)學(xué)處理閉合邊緣圖像并獲得最終的分割結(jié)果。對(duì)于半自動(dòng)分割方法,其流程如圖3 所示:第1 步,讀取原始圖像;第2 步,用戶通過光標(biāo)指針手動(dòng)畫出感興趣的區(qū)域;第3 步,將原始圖像轉(zhuǎn)化為灰度圖,高斯平滑處理,點(diǎn)運(yùn)算增強(qiáng)對(duì)比度;第4 步,裁剪出所畫的感興趣區(qū)域,并求出其他區(qū)域的灰度均值,用來填充黑色背景區(qū)域;第5 步,用Canny 雙閾值邊緣檢測提取微生物邊緣輪廓,并使用形態(tài)學(xué)處理方法閉合邊界;最后,填充微生物區(qū)域內(nèi)部以獲得分割后的微生物圖像。
Canny 邊緣檢測是最常用的邊緣檢測方法之一,它有著良好的抗噪聲干擾性,對(duì)圖像的弱邊緣檢測能力較好?;谔荻壤碚揫6],假定f(x, y)代表微生物圖像中坐標(biāo)(x, y)處的灰度值。則該坐標(biāo)處的梯度被定義為
該坐標(biāo)處的梯度方向?yàn)?/p>
式中,Gx 和Gy 分別為橫軸x 方向和縱軸y 方向的梯度分量。根據(jù)式(2)和(3),可以得到整幅圖像所有像素點(diǎn)的梯度幅值和方向。隨后Canny 算子在0°、45°、90°和135° 4 個(gè)梯度方向上對(duì)數(shù)據(jù)執(zhí)行非極大值抑制,對(duì)于中心像素點(diǎn)(x, y),選定其周圍的8 鄰域像素范圍,得到該點(diǎn)的梯度方向所在直線與鄰域相交的兩個(gè)端點(diǎn)。由于實(shí)際圖像是離散二維矩陣,端點(diǎn)不一定真實(shí)存在,需要進(jìn)行插值。將點(diǎn)(x, y)與兩個(gè)端點(diǎn)比較,若中心點(diǎn)梯度幅值是3 個(gè)點(diǎn)中的最大值則保留,反之置0。隨后設(shè)定適當(dāng)?shù)牡烷撝蹬c和高閾值,若像素點(diǎn)梯度幅值小于低閾值則舍棄;若梯度幅值大于高閾值則保留;若梯度幅值介于兩者之間,則求出該點(diǎn)的8 鄰域像素的梯度幅值,如果梯度幅值高于高閾值,則保留該點(diǎn),否則舍棄。
3.2 圖像分割評(píng)價(jià)
對(duì)于以上兩種圖像分割方法,采用相似度( similarity) 、靈敏度( sensitivity) 以及特異度(specificity)3 個(gè)指標(biāo)進(jìn)行評(píng)價(jià),評(píng)價(jià)時(shí)的分割圖像與評(píng)價(jià)標(biāo)準(zhǔn)圖像均為二值圖像,1 代表感興趣像素,0 代表背景像素。其相似度式定義分別為
式中:Vsim 表示分割圖像與評(píng)價(jià)標(biāo)準(zhǔn)圖像的相似度; Tp 表示被正確標(biāo)記的像素總數(shù); Fp 表示被錯(cuò)誤標(biāo)記為感興趣像素的背景像素總數(shù); Fn 表示被錯(cuò)誤標(biāo)記為背景像素的感興趣像素總數(shù)。
3.3 微生物特征提取
從分割后的微生物圖像中提取幾何特征、內(nèi)部結(jié)構(gòu)直方圖特征、傅里葉描述子、胡不變矩、灰度共生矩陣和旋轉(zhuǎn)不變局部二值模式,共6 種圖像特征。
幾何特征( geometrical feature, GF) 包括:(1)微生物的面積A;(2)微生物邊界輪廓的周長P; ( 3) 微生物的圓度( circularity) 4πA/P2;(4)與微生物區(qū)域具有相同歸一化二階中心矩的橢圓長軸長度l1 和短軸長度l2。
內(nèi)部結(jié)構(gòu)直方圖(internal structure histogram,ISH)特征:如圖4 所示,在微生物邊界輪廓上標(biāo)記K 個(gè)等距分布的采樣點(diǎn),將任意3 個(gè)點(diǎn)組合,計(jì)算它們的內(nèi)部結(jié)構(gòu)角(例如圖4 所示的角θ),并將所有能得到的內(nèi)切角按照一定的角度范圍進(jìn)行計(jì)數(shù),由此可以得到ISH 特征。
4.3 粒子群優(yōu)化算法的支持向量機(jī)(PSO-SVM)
在此項(xiàng)研究中,使用PSO 算法優(yōu)化支持向量機(jī)的核參數(shù)γ 以及懲罰因子C,建立PSOSVM識(shí)別模型。其流程如圖5 所示,具體步驟為:(1)輸入微生物的特征數(shù)據(jù)集;(2)PSO 算法參數(shù)設(shè)定,包括粒子群的粒子總數(shù)、最大迭代次數(shù)、慣性權(quán)重、局部和全局學(xué)習(xí)因子、待優(yōu)化參數(shù)C 和γ 的限制范圍;(3)初始化粒子群,隨機(jī)初始化粒子的速度和位置,迭代次數(shù)置零;(4)循環(huán)執(zhí)行步驟6 到步驟9,每循環(huán)一次則迭代次數(shù)加1; ( 5) 利用PSO 優(yōu)化的SVM 參數(shù)C 和γ 建立微生物圖像特征的SVM 分類模型,并評(píng)估測試集的識(shí)別準(zhǔn)確率;(6)計(jì)算每個(gè)粒子的適應(yīng)度;(7)計(jì)算粒子的個(gè)體和全局優(yōu)化適應(yīng)度,并根據(jù)式(13)和式(14)更新每個(gè)粒子的速度和位置;(8)判斷循環(huán)是否終止,如果達(dá)到兩代之間的最小誤差或者最大迭代次數(shù),則終止循環(huán),反之則返回步驟5;(9)輸出最優(yōu)的參數(shù)C 和γ;(10)建立優(yōu)化的SVM 模型;(11)輸出微生物分類識(shí)別結(jié)果。
5 結(jié)果與討論
5.1 特征參數(shù)優(yōu)化
為了獲得客觀的評(píng)估結(jié)果,使用評(píng)價(jià)標(biāo)準(zhǔn)圖像進(jìn)行特征參數(shù)的優(yōu)化。表1 展示了在不同采樣點(diǎn)數(shù)量以及不同角度統(tǒng)計(jì)范圍下提取的ISH 特征的識(shí)別準(zhǔn)確率,結(jié)果表明,采樣點(diǎn)為100 個(gè),角度分區(qū)范圍為{0~15°, ···, 165°~180°}時(shí)的準(zhǔn)確率最高,達(dá)到了79.41%,此時(shí)的特征維數(shù)為12 維。表2 展示了在不同采樣點(diǎn)數(shù)量下提取的FD 特征的識(shí)別準(zhǔn)確率,結(jié)果表明,當(dāng)采樣點(diǎn)數(shù)量為150 個(gè)時(shí),準(zhǔn)確率最高,達(dá)到88.50%,此時(shí)的特征維數(shù)為75 維。表3 展示了不同鄰域半徑和采樣點(diǎn)個(gè)數(shù)條件下RI-LBP 特征的識(shí)別準(zhǔn)確率,當(dāng)鄰域半徑為1,采樣點(diǎn)為8 個(gè)時(shí),準(zhǔn)確率最高,達(dá)到72.16%,此時(shí)特征維數(shù)為256 維。
5.2 圖像分割評(píng)價(jià)
圖6 展示了兩種分割方法的實(shí)際分割效果以及評(píng)價(jià)標(biāo)準(zhǔn)圖,第1 行是原始圖像,第2 行是評(píng)價(jià)標(biāo)準(zhǔn)圖像,第3 行是全自動(dòng)分割圖像,第4 行是半自動(dòng)分割圖像。原始圖像中目標(biāo)微生物的周圍有不同程度的雜質(zhì)干擾,通過半自動(dòng)分割方法可以將目標(biāo)微生物非常精準(zhǔn)地分割出來,分割后的圖像形態(tài)與評(píng)價(jià)標(biāo)準(zhǔn)圖像非常接近,而全自動(dòng)分割方法無法去除與目標(biāo)微生物緊挨著的大體積雜質(zhì),分割效果較差。
由式(4)—(6)可計(jì)算得到全自動(dòng)分割圖像與半自動(dòng)分割圖像相較于評(píng)價(jià)標(biāo)準(zhǔn)圖像的相似度、靈敏度和特異度。評(píng)價(jià)結(jié)果如表4 所示:半自動(dòng)分割圖像與評(píng)價(jià)標(biāo)準(zhǔn)圖的相似度為90.94%,比全自動(dòng)分割方法提升了4.96%;半自動(dòng)分割圖像的靈敏度為97.24%,比全自動(dòng)分割方法提升了0.70%;半自動(dòng)分割圖像的特異度為99.89%,比全自動(dòng)分割方法提升了0.27%。因此,半自動(dòng)分割方法可以更好地分割微生物圖像。
為了進(jìn)一步評(píng)估分割性能,將以上兩種不同分割方法分割后的微生物圖像制成特征數(shù)據(jù)集,利用SVM 訓(xùn)練和測試,求出單類別特征的識(shí)別準(zhǔn)確率,訓(xùn)練過程采用5 折交叉驗(yàn)證[17],實(shí)驗(yàn)重復(fù)10 次,取平均值。結(jié)果如圖7 所示,除RI-LBP 特征以外,半自動(dòng)分割方法的其他所有特征的識(shí)別準(zhǔn)確率均高于全自動(dòng)方法,其中GF 的識(shí)別結(jié)果最優(yōu),其準(zhǔn)確率為90.84%。與評(píng)價(jià)標(biāo)準(zhǔn)圖相比,半自動(dòng)分割圖像的GF、Hu、GLCM 3 種特征的識(shí)別準(zhǔn)確率差異均在1% 以內(nèi),ISH 的準(zhǔn)確率差異約3%,RI-LBP 的準(zhǔn)確率差異約4%。此外,對(duì)于半自動(dòng)分割圖像,其所有6 種特征的平均準(zhǔn)確率為77.35%,與評(píng)價(jià)標(biāo)準(zhǔn)圖的相應(yīng)值相比僅低了2.62%;全自動(dòng)分割方法的所有特征平均準(zhǔn)確率與評(píng)價(jià)標(biāo)準(zhǔn)圖的相應(yīng)值比較,低了7.35%。因此,對(duì)拍攝于富集后的水體微生物圖像,適用于半自動(dòng)分割方法。因?yàn)榇罅康奈⑸锱c雜質(zhì)堆積在一起,分割難度非常大,而通過手動(dòng)選擇感興趣區(qū)域,可以有效降低圖像噪聲的影響,實(shí)現(xiàn)對(duì)目標(biāo)微生物的精準(zhǔn)分割。對(duì)于拍攝于流動(dòng)水體的微生物圖像,則適合全自動(dòng)圖像分割方法,因?yàn)樵摲椒o需人工干預(yù),能實(shí)時(shí)處理圖像,且微生物和雜質(zhì)的密度較低,大多數(shù)微生物能被正確地分割。
5.3 PSO-SVM 微生物識(shí)別模型
評(píng)價(jià)標(biāo)準(zhǔn)圖提取的微生物的6 種特征數(shù)據(jù),經(jīng)過特征融合后作為特征數(shù)據(jù)集。利用PSO 算法優(yōu)化SVM 的核參數(shù)γ 以及懲罰因子C,得到PSO-SVM 微生物識(shí)別模型。 PSO 算法的參數(shù)設(shè)置如下:粒子的種群大小為24;加速常數(shù)C1 與C2 均為1.5;慣性權(quán)重為0.6;最大迭代次數(shù)為100。在PSO 優(yōu)化過程中,使用SVM 模型的識(shí)別準(zhǔn)確率作為粒子適應(yīng)度。
利用PSO 優(yōu)化SVM 參數(shù)過程中的適應(yīng)度曲線如圖8 所示,適應(yīng)度隨著粒子的迭代次數(shù)增加而逐漸收斂,在第72 代時(shí)達(dá)到最大值,由此獲得最優(yōu)的SVM 參數(shù)C = 21.165 2,γ = 0.025 504。隨后利用訓(xùn)練完成的PSO-SVM 模型對(duì)8 種微生物的測試集進(jìn)行分類識(shí)別,采用5 折交叉驗(yàn)證,測試10 次,取平均值作為最終測試結(jié)果,并將其與GS-SVM、BP、Ensemble SVM 3 種識(shí)別方法的測試結(jié)果比較。
結(jié)果如圖9 所示,PSO-SVM 識(shí)別方法對(duì)于此8 種微生物具有最好的分類性能,平均識(shí)別率為98.60%,其中:月形腔輪蟲的識(shí)別率為99.19%;溞的識(shí)別率為98.13%;猛水蚤的識(shí)別率為98.77%;鉤狀狹甲輪蟲的識(shí)別率為97.17%;未知微生物1 的識(shí)別率為97.92%;未知微生物2 的識(shí)別率為97.60%;紅蟲和顫藻的識(shí)別率最高,均為100%。GS-SVM 模型的平均識(shí)別率為96.28%,比PSO-SVM 低了2.32%;Ensemble SVM 的識(shí)別率為91.57%,比PSO-SVM 低了7.03%;BP神經(jīng)網(wǎng)絡(luò)的平均識(shí)別率為81.33%,在4 種算法中最低,這是因?yàn)槲⑸飿颖緮?shù)量較少所致。
實(shí)驗(yàn)結(jié)果表明,PSO-SVM 識(shí)別方法的識(shí)別性能優(yōu)于其他3 種分類算法,更適用于水源微生物識(shí)別。利用全自動(dòng)分割圖像提取的特征數(shù)據(jù)建立的PSO-SVM 模型平均識(shí)別率為92.25%,相較于評(píng)價(jià)標(biāo)準(zhǔn)圖低了6.35%,這是由于本文中的原始微生物圖像均采集于富集后的水樣,其微生物與雜質(zhì)比較密集,微生物圖像的全自動(dòng)分割效果較差所致。利用半自動(dòng)分割圖像提取的特征數(shù)據(jù)建立的PSO-SVM 模型,其平均識(shí)別率為97.08%,僅比評(píng)價(jià)標(biāo)準(zhǔn)圖的識(shí)別率低1.52%。
6 結(jié)論
提出了一種基于多特征融合和PSO-SVM 的水源微生物自動(dòng)識(shí)別方法??紤]到水源環(huán)境的不同復(fù)雜程度,設(shè)計(jì)了全自動(dòng)和半自動(dòng)分割兩種微生物圖像分割方法,分別適用于流動(dòng)水體中拍攝的微生物圖像以及水體富集后拍攝的微生物圖像。針對(duì)8 種微生物優(yōu)化了ISH、FD、RI-LBP的特征參數(shù),通過連接的方式將所有特征融合起來,最后利用該特征數(shù)據(jù)建立了PSO 算法優(yōu)化的SVM 模型,實(shí)現(xiàn)對(duì)8 種水源微生物的分類和識(shí)別。實(shí)驗(yàn)結(jié)果表明,該模型能夠準(zhǔn)確地識(shí)別其中的每一種微生物, 平均識(shí)別準(zhǔn)確率達(dá)到97.08%。因此,該技術(shù)有望用于水源微生物的高效自動(dòng)檢測,以提高居民用水的安全保障和水源環(huán)境監(jiān)測效率。