秦穎博,孫 杰,陳 平
(1.天津理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,天津300191;2.天津理工大學(xué) 電子信息工程學(xué)院 薄膜電子與通信器件天津市重點(diǎn)實(shí)驗(yàn)室,天津300191)
尿液檢查以其簡便、快捷、標(biāo)本易得而被臨床檢查所廣泛采用,是目前醫(yī)院臨床常規(guī)檢測項(xiàng)目之一。尿液成分的形態(tài)表征是對腎臟實(shí)質(zhì)性變化及其他累及病變的客觀表達(dá)。因而,如何快速準(zhǔn)確的統(tǒng)計(jì)出尿液中各類細(xì)胞的種類及含量成為人們的研究重點(diǎn)。
長期以來人們對醫(yī)學(xué)圖像的分析主要是依靠人工目測完成的,因而存在著效率低、工作強(qiáng)度大、易疲勞、人為誤差頻繁等缺點(diǎn)。本文將支持向量機(jī) (SVM)技術(shù)應(yīng)用于尿液細(xì)胞自動識別及分類[1-2],通過對不同特征參數(shù)的識別準(zhǔn)確率、識別效率進(jìn)行對比,得出采用SVM方法的細(xì)胞識別分類效果良好,達(dá)到輔助醫(yī)務(wù)人員分析和識別尿液細(xì)胞圖像的目的。本方法可給出病理檢查重要信息,對疾病診斷、治療監(jiān)測及健康普查具有重要的臨床意義。
細(xì)胞識別與分類研究技術(shù)是圖像處理,模式識別和人工智能技術(shù)相結(jié)合的產(chǎn)物,采用SVM對數(shù)字化細(xì)胞圖像進(jìn)行自動處理分析和分類的主要方法是運(yùn)用圖像處理分析技術(shù)提取細(xì)胞的特征信息,在這些特征信息的基礎(chǔ)上采用SVM對細(xì)胞進(jìn)行識別分類。
SVM細(xì)胞識別與分類原理流程圖如圖1所示。
圖1 SVM識別與分類流程
支持向量機(jī)是近幾年出現(xiàn)的一種統(tǒng)計(jì)模式識別方法[4]。在解決小樣本非線性及高維識別中有特有的優(yōu)勢,具有極強(qiáng)的泛化能力和其它機(jī)器學(xué)習(xí)方法不可比擬的優(yōu)勢。其原理是用最優(yōu)超平面作為分離訓(xùn)練數(shù)據(jù)的線性函數(shù),解決線性分類問題。所謂最優(yōu)超平面是指,若訓(xùn)練樣本 (xi,yi),i=1,...,l,x∈Rd,y∈ {+1,-1},可以被超平面無差錯分開,且超平面附近的向量離超平面距離最大,這樣的超平面即為最優(yōu)超平面[3]。
式 (1)中w是到超平面的法向量,b是偏移量。求距離最大值等同于求w的最小值
超平面:x·w+b=0要求
式中:C——懲罰因子,ξi——松弛變量.判決結(jié)果方程如下
式中:αi——拉格朗日乘子常數(shù),其值在優(yōu)化過程中確定。sv——支持向量集合,在很多實(shí)際情況下,訓(xùn)練數(shù)據(jù)集是線性不可分。例如在一維空間中,沒有任何一個線性函數(shù)能解決下述劃分問題,即圖2所示:一維空間中,實(shí)線、虛線各代表一類數(shù)據(jù),我們無法用線性函數(shù)將這兩類數(shù)據(jù)區(qū)分開,可見線性判別函數(shù)有一定的局限性。
圖2 一維空間數(shù)據(jù)
完全可以建立一個二次判別函數(shù)
用來很好的解決上圖中線性不可分的問題。決策分類規(guī)則是:如果g(x)>0,則判定x屬于C1,如果g(x)<0,則判定x屬于C2,如果g(x)=0,則可以拒絕判定。如圖3所示。
圖3 二維空間的數(shù)據(jù)
二次判別函數(shù)g(x)= (x-a)(x-b)可以寫成如下形式
新建向量
這樣判別函數(shù)就可以寫成
于是,非線性函數(shù)就轉(zhuǎn)換成了四維空間里的線性函數(shù)。
在SVM中也是利用類似的思路解決非線性問題的,利用核函數(shù)將低維空間中的線性不可分?jǐn)?shù)據(jù)映射成高維特征空間中的線性可分?jǐn)?shù)據(jù)。在支持向量機(jī)中使用的核函數(shù)主要有:線性核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù)、Sigmoid核函數(shù)四類。其中RBF核函數(shù)在實(shí)際使用中效果良好,因而本文采用RBF核函數(shù)作為SVM核函數(shù)。
在RGB色彩坐標(biāo)系統(tǒng)中,任意顏色都可看作是3個基本顏色——紅 (R,red),綠 (G,green)和藍(lán) (B,blue)的不同組合。
在HSI色彩坐標(biāo)系統(tǒng)中色調(diào)H:由角度表示,它反映了顏色最接近什么樣的光譜波長。飽和度S:表征顏色的深淺程度,飽和度越高,顏色越深。亮度I:是表示光照強(qiáng)度或稱為亮度。本文選擇HSI作為顏色特征。HSI在許多處理中有其獨(dú)特的優(yōu)勢。首先,在HSI中,亮度分量與色度是分開的,I分量與圖像的彩色信息無關(guān)。其次,在HSI中,色調(diào)H和飽和度S的概念相互獨(dú)立并與人的視覺系統(tǒng)最為接近。這些特點(diǎn)使得HSI被優(yōu)先用于彩色圖像分析算法中。
從RGB到HSI的轉(zhuǎn)換公式如下[5]
細(xì)胞圖像是一種彩色物體,就單純一個像素點(diǎn)而言,它所包含的信息量不僅僅指的是是其顏色或色度信息,還有該像素點(diǎn)的空間信息,即該像素點(diǎn)所處的空間位置或者該像素點(diǎn)周圍像素的信息。因而在特征參數(shù)的選取上,僅有顏色參數(shù)是不可能表達(dá)像素的所有信息,有必要加入空間特征參數(shù)。為了提取某一像素點(diǎn)周圍像素的信息,我們以該像素點(diǎn)周圍5×5領(lǐng)域?yàn)檠芯繉ο?,求取該像素點(diǎn)鄰域中所有像素點(diǎn)顏色特征的平均值作為空間特征。從理論上而言,這種處理更加充分地利用了細(xì)胞圖像所包含的信息。實(shí)驗(yàn)結(jié)果表明,加入空間特征能夠更好地識別不同種類的細(xì)胞。
SVM的分類性能主要由兩個參數(shù)確定,即:懲罰因子c和核函數(shù)的參數(shù)[6]。懲罰因子c用于調(diào)節(jié)學(xué)習(xí)機(jī)器置信范圍和經(jīng)驗(yàn)風(fēng)險(xiǎn)間的比例,使學(xué)習(xí)機(jī)器的推廣能力達(dá)到最好。選取時(shí)由具體的問題而定,并取決于數(shù)據(jù)中噪聲的數(shù)量。核函數(shù)和其參數(shù)對分類性能有很大影響,這里我們使用的是RBF核函數(shù)以及其參數(shù)g。SVM的參數(shù)確定過程實(shí)質(zhì)上就是一個優(yōu)化的過程。目前SVM參數(shù)確定方法主要有:經(jīng)驗(yàn)選擇法、實(shí)驗(yàn)試湊法、梯度下降法、交叉驗(yàn)證法[7]、Bayesian法等。本文提出網(wǎng)格搜索交叉驗(yàn)證法確定兩個SVM參數(shù):懲罰因子c和RBF核函數(shù)的參數(shù)g。
10-折交叉驗(yàn)證法是一種典型的SVM性能評價(jià)準(zhǔn)則。其主要思想為:將訓(xùn)練樣本集隨機(jī)分為10個互不相交的子集合,即s1,s2,…s10。對其中的9個子集作為訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,求出判決函數(shù),即可對剩下的一個子集合進(jìn)行樣本測試。記其中的錯誤分類樣本數(shù)為li,該過程重復(fù)10次,取10次過程中的測試錯誤的平均值來估計(jì)期望泛化誤差。利用網(wǎng)格搜索遍歷所有可能的 (c,g)對值,然后進(jìn)行10-折交叉驗(yàn)證,找出使交叉驗(yàn)證錯誤率最小的(c0,g0)對,就為最優(yōu)參數(shù)。具體步驟如下:
(1)首先根據(jù)網(wǎng)格法搜索法初步設(shè)定參數(shù)變化范圍,將所有不同參數(shù)組合按10-折交叉驗(yàn)證求得識別率。
(2)根據(jù)前述參數(shù)范圍進(jìn)一步細(xì)分網(wǎng)格,得到更精確的參數(shù)值,根據(jù)10-折交叉驗(yàn)證平均正確率排序,選擇分類正確率最高的參數(shù)組合作為模型的最優(yōu)參數(shù)。
尿液細(xì)胞識別分類過程如下:
(1)將尿液細(xì)胞樣本圖片中每一類細(xì)胞的特征參數(shù)作為一類樣本,并以專門的格式存儲于數(shù)據(jù)庫中。
(2)讀取這些特征樣本分量作為SVM的訓(xùn)練樣本進(jìn)行訓(xùn)練,生成支持向量機(jī)分類器。
(3)使用已生成的支持向量機(jī)分類器對待檢測的細(xì)胞圖片所有像素點(diǎn)進(jìn)行預(yù)測分類,最終達(dá)到識別分類的目的。
以上過程操作簡單,只需使用少量樣本訓(xùn)練一次,生成分類器后,就可對多種細(xì)胞同時(shí)進(jìn)行識別分類。
程序軟件由C++語言編寫,同時(shí)結(jié)合SQL Server數(shù)據(jù)庫[8],設(shè)計(jì)出操作簡單,實(shí)用性強(qiáng)的尿液細(xì)胞識別分類程序。其中SVM部分是基于LIBSVM發(fā)展而來,LIBSVM是臺灣大學(xué)林志仁教授開發(fā)的一套快速高效的SVM模式識別與回歸的開源程序包[9]。
軟件環(huán)境:操作系統(tǒng) Microsoft Windows XP Professional sp3,開發(fā)軟件visual studio 2010,release版本。
硬 件 環(huán) 境: 處 理 器 Pentium4,2.40GHZ, 內(nèi) 存1GB RAM。
(1)利用圖像預(yù)處理對待檢測細(xì)胞圖像進(jìn)行處理。
利用高斯濾波法對待檢測細(xì)胞圖像去噪[4,10],有效的過濾掉圖像中的散粒噪聲,保留了細(xì)胞圖像的細(xì)節(jié)信息,進(jìn)而改善了細(xì)胞圖像質(zhì)量,如圖4、圖5所示。
(2)分割細(xì)胞圖像結(jié)構(gòu),提取細(xì)胞特征參數(shù)。
在RGB顏色空間中R,G,B值作為顏色特征參數(shù),ave_r,ave_g,ave_b作為空間特征參數(shù)。
在HSI顏色空間中H,S,I值作為顏色特征參數(shù),ave_h(yuǎn),ave_s,ave_i作為空間特征參數(shù)。將以上所有特征參數(shù)儲存于SQL Server數(shù)據(jù)庫中用于后續(xù)處理。圖6為樣本特征參數(shù)的選取過程。
為了方便用戶對SQL Server數(shù)據(jù)庫進(jìn)行必要的管理,我們編寫了數(shù)據(jù)庫管理界面,如圖7所示。
圖6 樣本特征選取
圖7 樣本特征參數(shù)管理界面
(3)從數(shù)據(jù)庫中讀取特征值進(jìn)行SVM訓(xùn)練,通過網(wǎng)格搜索交叉驗(yàn)證法確定SVM最優(yōu)參數(shù),然后根據(jù)SVM訓(xùn)練結(jié)果及參數(shù)進(jìn)行細(xì)胞識別分類。分類結(jié)果如圖8所示。
圖8 RGB色彩系及HSI色彩系下識別實(shí)驗(yàn)
從圖8中可以明顯地看出,圖8(b)、圖8(c)中的識別效果比圖8(a)好,而圖8(d)中的識別效果要好于圖8(b)和圖8(c)。在整幅圖中圖8(d)的識別效果最好,即HSI色彩系下加入空間特征方法的識別效果最好。
本實(shí)驗(yàn)一共選取16張圖片,圖片大小為800×600,細(xì)胞種類為6類,共107個,分別為白細(xì)胞、紅細(xì)胞、上皮細(xì)胞、細(xì)胞管型、結(jié)晶、背景和雜質(zhì)歸為一類,一共六類。我們以RGB值作為特征參數(shù)為例,經(jīng)過大量的實(shí)驗(yàn)測試,比較不同SVM參數(shù)下的識別效果,其中(c0,g0)為選取的最優(yōu)參數(shù)對,并分別統(tǒng)計(jì)了各種細(xì)胞的識別率,見表1。
表1 不同SVM參數(shù)下識別結(jié)果比較 (%)
以上結(jié)果表明,當(dāng)特征參數(shù)一定時(shí),懲罰因子c和RBF核函數(shù)的參數(shù)g對SVM的性能起到?jīng)Q定作用,由網(wǎng)格搜索和交叉驗(yàn)證法確定SVM最優(yōu)參數(shù)得到了理想的識別分類效果。
在SVM最優(yōu)參數(shù)確定后,通過對不同的方法進(jìn)行訓(xùn)練和測試,統(tǒng)計(jì)并對比所得到識別分類的結(jié)果和所消耗的時(shí)間。其中樣本訓(xùn)練時(shí)間和識別時(shí)間由程序自動生成,時(shí)間單位為毫秒 (ms),結(jié)果見表2、表3。
表2 不同特征參數(shù)下識別結(jié)果比較 (%)
表3 不同特征參數(shù)下識別效率比較 (ms)
從識別的準(zhǔn)確度來看,利用圖像綜合特征的分類方法是可行的,采用HSI顏色系作為顏色參數(shù)所取得的效果要比采用RGB顏色系要好。另外加入空間特征參數(shù)要比采用單純顏色特征的分類效果要好,這說明圖像像素點(diǎn)的信息,不是僅僅用該像素點(diǎn)的顏色就能表達(dá)的還與該像素點(diǎn)周圍的像素有關(guān)。
從識別的效率來看,由于HSI顏色參數(shù)是根據(jù)RGB顏色參數(shù)由轉(zhuǎn)換公式計(jì)算而來,因而計(jì)算量的增加導(dǎo)致樣本訓(xùn)練和識別時(shí)間也會相應(yīng)增加。在加入?yún)?shù)特征空間后,計(jì)算量也隨之相應(yīng)增加。準(zhǔn)確度與效率一直以來就是矛盾的,如果過高的追求精確度,則效率會有比較大的下降,只能從二者之間取一個平衡。從程序反饋的消耗時(shí)間來看,我們在付出較小效率的代價(jià)下,提高了識別準(zhǔn)確度。
實(shí)驗(yàn)結(jié)果表明:在利用SVM對尿液細(xì)胞進(jìn)行識別分類的過程中,我們所提出的在HSI顏色空間選取顏色特征參數(shù)和空間特征參數(shù),同網(wǎng)格搜索交叉驗(yàn)證法選取SVM最優(yōu)參數(shù)相結(jié)合的方法得到很好的驗(yàn)證,取得了理想的實(shí)驗(yàn)結(jié)果。
本文選取符合人類視覺感知的HSI顏色空間作為主要特征參數(shù),有效避免了RGB顏色空間的弊端。加入空間特征參數(shù)后,細(xì)胞圖像信息更完整。使用具有廣泛應(yīng)用前景的支持向量機(jī)為基礎(chǔ)的改進(jìn)算法,并采用網(wǎng)格搜索交叉驗(yàn)證法選取最佳的核函數(shù)和相關(guān)參數(shù),最終達(dá)到理想的分類效果。還同時(shí)重點(diǎn)考慮算法的實(shí)用性,便利性和可擴(kuò)展性。以visual c++為平臺設(shè)計(jì)軟件,使其具有良好的兼容性,方便用戶使用。使用SQL Server數(shù)據(jù)庫保存特征數(shù)據(jù),為以后的尿液細(xì)胞識別分類的網(wǎng)絡(luò)化應(yīng)用打下基礎(chǔ)。
:
[1]GU Yaxiang,DING Shifei. Advances of support vector machine [J].Computer Science,2011,38 (2):14-17 (in Chinese).[顧亞祥,丁世飛.支持向量機(jī)的研究進(jìn)展 [J].計(jì)算機(jī)科學(xué),2011,38 (2):14-17.]
[2]WANG Yongfeng,HUANG Siming,XU Jing.A gradient method for choosing kernel parameters for SVM [J].Mathematics In Practice and Theory,2011,41 (1):7-13 (in Chinese). [王永峰,黃思明,徐晶.一種通用的基于梯度的SVM核參數(shù)選取算法[J].北京:數(shù)學(xué)的實(shí)踐與認(rèn)識,2011,41 (1):7-13.]
[3]Serafeim Moustakidis,Giorgos Mallinis,Nikos Koutsias,et al.SVM-based fuzzy decision trees for classification of high spa-tial resolution remote sensing images [J].IEEE Transactions on Geoscience and Remote Sensing,2012,50 (1):149-168.
[4]Mila Sonka,Vaclav Hlavac,Roger Boyle.Image processing,analysis and machine vision [M].CL-Engineering,2008.
[5]YE Xiaoling,LIU Yucheng,ZHANG Yingchao.Cell recognition research based on colorimetry and morphology [J].Computer Engineering and Design,2009,30 (6):1495-1498 (in Chinese).[葉小玲,劉玉成,張穎超.基于色度學(xué)與形態(tài)學(xué)相結(jié)合的細(xì)胞識別研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(6):1495-1498.]
[6]Dheeba J,Tamilselvi.Classification of malignant and benign MICRO-calcification using SVM classifier [C]//IEEE Proceedings of Icetect,2011:686-690.
[7]FENG Heguo.Parameter optimizing for support vector machines classification [J].Computer Engineering and Applications,2011,47 (3):123-125 (in Chinese). [奉和國.SVM分類核函數(shù)及參數(shù)選擇比較 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (3):123-125.]
[8]QU Yang.Visual C++實(shí)效編程280例 [M].Beijing:Posts& Telecom Press,2009 (in Chinese). [曲揚(yáng).Visual C++實(shí)效編程280例 [M].北京:人民郵電出版社,2009.]
[9]Hsu Chih wei,Changchih chung,Lin Chih jena.Practical guide to support vector classification [EB/OL].[2012-05-05].http://www.csie.ntu.edu.tw/cjlin.
[10]WANG Zhanquan,XU Hu.Digital image processing technology and engineering case for Visual C+ + [M].Beijing:Post and Telecom Post,2009 (in Chinese).[王占全,徐慧.Visual C++數(shù)字圖像處理技術(shù)與工程案例 [M].北京:人民郵電出版社,2009.]