摘 要:醫(yī)學(xué)上,人體細(xì)胞直接關(guān)系到人體各項指標(biāo)的性能。目前都是采用人工方法進(jìn)行細(xì)胞計數(shù),效率低。為此,根據(jù)細(xì)胞特征的不同,研制了一套基于計算機(jī)模式識別的細(xì)胞自動統(tǒng)計系統(tǒng),本文采用MATLAB軟件,利用最近鄰分類算法,對紅細(xì)胞進(jìn)行自動分類識別。
關(guān)鍵詞:紅細(xì)胞;NNC算法;應(yīng)用研究
中圖分類號:TP18
尿常規(guī)檢查是醫(yī)學(xué)臨床最常見的檢驗項目,是反映身體健康狀況的基本指標(biāo)之一。在尿常規(guī)分析中,我們經(jīng)常會根據(jù)紅細(xì)胞的指標(biāo)來判斷病人身體狀況,傳統(tǒng)方法是在顯微鏡下采用電阻原理及光散射法,由于受光線和視覺效果的影響,不僅費時,而且準(zhǔn)確率不高。本文就是基于這樣的背景下,對尿液中的紅細(xì)胞進(jìn)行分析研究,將尿液中原始細(xì)胞圖像進(jìn)行預(yù)處理,再分割定位紅細(xì)胞,將定位后的虹吸進(jìn)行特征提取,針對模式特征的不同選擇及判別決策方法的不同,采用最近鄰分類算法(NNC)進(jìn)行識別和分類。
1 NNC算法
1.1 算法思想
鄰近算法,也叫K最近鄰分類(kNNc,k-Nearest Neighbor Classification)算法,在圖像處理過程中,每個樣本都可以用它最接近的k個鄰居來代表。kNNC算法的核心思想是通過計算樣本之間的相似度,建立相似矩陣加速KNN算法中尋找K近鄰。由于kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法比其他方法更為適合本系統(tǒng)的分類識別。
本文采用常用的最近鄰距離(NNC)分類器來分類識別樣本。對于任意兩個特征矩陣Y1=[y1(1),y2(2),…,yd(1)]和Y2=[y1(2),y2(2),…,yd(2)],它們之間的距離定義為: ,式中||yk(1)-yk(2)||2表示兩個投影向量yk(1)和yk(2)之間的歐氏距離。對于一個給定的待識別樣本Y,若 ,且Yk=ωc(ωc表示第c個細(xì)胞類別),則識別結(jié)果Yk=ωc。
根據(jù)紅細(xì)胞在尿液中的特征,結(jié)合KNNC算法分類方法,我們在算法編程之前,就已經(jīng)設(shè)定好本算法的識別方法,我們把紅細(xì)胞和非細(xì)胞在算法中分別規(guī)定為“1”和“0”,根據(jù)分類規(guī)則,依次來識別尿液中的紅細(xì)胞與非紅細(xì)胞。
1.2 算法的缺點
該算法在分類時有個主要的不足是,黨樣本不平衡時,該算法不能很好地進(jìn)行識別,而且當(dāng)兩個樣本之間的距離相隔較遠(yuǎn)時,而其他類樣本容量很小時,有可能導(dǎo)致當(dāng)輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數(shù)。
1.3 算法改進(jìn)方法
在NNC算法實驗研究處理過程中,所有的臨近K值對結(jié)果點的影響效果是一樣的,而在實際應(yīng)用中,我們可以采取附加權(quán)值的方法,放大臨近點對結(jié)果的影響,同時對事先對已知樣本點進(jìn)行權(quán)衡,先去除對分類作用不大的樣本。
2 實驗結(jié)果及分析
本實驗圖像庫中共有100幅圖(820個樣本),其中60幅作為訓(xùn)練集(520個樣本);40幅圖作為測試集(300個樣本)。取樣本的過程如下圖所示:
圖1 細(xì)胞分類定位前圖像的
圖2 細(xì)胞分類定位后坐標(biāo)圖像
圖1是紅細(xì)胞分類前的原始圖像,圖2是細(xì)胞分類定位后的坐標(biāo)圖像。由圖我們可以看出,定位分類后形成的細(xì)胞定位空間,每個目標(biāo)為定位空間坐標(biāo),即(x,y),我們一共檢測到8個細(xì)胞,其中目標(biāo)細(xì)胞是7個(它們坐標(biāo)值是{(301,189),(613,205),(338,210),(330,270),(221,357),(131,523),(361,525)}),非目標(biāo)細(xì)胞是1個(即顯示為0)。每個目標(biāo)細(xì)胞都有一個峰值,峰值是表明檢測細(xì)胞圖像的真實性,峰值越大,就代表失真越小,由圖像我們可以看出,坐標(biāo)為(330,270)的目標(biāo)細(xì)胞,它的峰值是18182,說明它是此次紅細(xì)胞定位最準(zhǔn)確的一個細(xì)胞,可以判斷,該細(xì)胞是紅細(xì)胞的準(zhǔn)確率可達(dá)到99%以上,基本上就可以確定是我們實驗要求的紅細(xì)胞。坐標(biāo)為(613,205)的目標(biāo)細(xì)胞,它的峰值為4927,是該幅圖定位峰值最小的目標(biāo)細(xì)胞,我們不能判斷它為非紅細(xì)胞,但該目標(biāo)細(xì)胞失真性較大,我們還將繼續(xù)研究該類目標(biāo)細(xì)胞的特征,進(jìn)而判斷是否為我們實驗要求的紅細(xì)胞。檢測到“0”的這個坐標(biāo),因為不符合實驗要求,因此我們可以判斷它是非紅細(xì)胞。還有沒有檢測到的坐標(biāo)(在圖2中沒有出現(xiàn)的坐標(biāo)),我們完全可以確定為非紅細(xì)胞,依此方法類推,即可得到圖像庫中所有的樣本,從而達(dá)到計算機(jī)模式識別自動分類的目的。
本章研究了尿液顯微鏡圖像中紅細(xì)胞分類,根據(jù)算法分類規(guī)則,判斷是否是紅細(xì)胞和非紅細(xì)胞。在實驗研究分析過程中,我們發(fā)現(xiàn)NNC算法還是存在某些局限性,如圖2,我們看到有些目標(biāo)坐標(biāo)峰值比較小,說明失真性較大,對于判斷是否為目標(biāo)細(xì)胞有點困難,同時該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。圖1可以看到,還有些雜質(zhì)或者是形體不規(guī)則的晶體,還有是黑點或半橢圓等雜質(zhì),我們都不能完全檢測出來,在以后的研究中,我們還將進(jìn)一步完善該算法,繼續(xù)挖掘紅細(xì)胞的新特征,做更深入的研究,爭取達(dá)到更好的實驗效果。本文實驗結(jié)果是在windows XP/Matlab7.0.1環(huán)境下運行得到。
參考文獻(xiàn):
[1]容觀澳.計算機(jī)圖像處理[M].北京:清華大學(xué)出版社,2000.
[2]何佳洲,周志華,高陽,陳世福.基于新型神經(jīng)網(wǎng)絡(luò)分類器的故障診斷模型[D].南京大學(xué),2001.
[3]王相海,秦鋸鰲,方玲玲.基于感興趣區(qū)域AdaBoost分類器的視頻車輛檢測研究[D].遼寧師范大學(xué),2014.
[4]鍋艷玲,模式識別技術(shù)在企業(yè)信息工作中的應(yīng)用研究[J].圖書館學(xué)研究應(yīng)用版,2010(01).
[5]徐雅斌,李卓,陳俊伊.基于改進(jìn)K最近鄰分類算法的不良網(wǎng)頁并行識別[J].計算機(jī)應(yīng)用研究,2013(12).
[6]郭金玉,劉玉芹,苑瑋琦.基于最近相關(guān)性分類器的單樣本掌紋識別[M].光電子?激光,2012(08).
作者簡介:鐘彩(1982.08-),男,湖南湘陰人,講師,碩士,研究方向:計算機(jī)圖像處理。
作者單位:常德職業(yè)技術(shù)學(xué)院,湖南常德 415000