尹寧,劉富,張玉
(吉林大學(xué)通信工程學(xué)院,吉林長春130025)
隨著人類基因組計(jì)劃(human genome project)的提出以及實(shí)施[1],很多生物信息學(xué)的相關(guān)技術(shù)得到了飛速的發(fā)展.特別是基因芯片技術(shù)由于其強(qiáng)大的基因組信息分析功能,應(yīng)用于生物科學(xué)的眾多領(lǐng)域,成為許多研究機(jī)構(gòu)研究的重點(diǎn).在過去幾年中,國外已經(jīng)出現(xiàn)了一批商業(yè)或科研用的基因芯片圖像處理與分析軟件.而國內(nèi)成型的軟件產(chǎn)品不多,主要軟件技術(shù)都被國外大型軟件公司掌握,如Bluefuse、GenePix、ScanAlyze、QuantArray 等.這些軟件對芯片圖像的處理與分析或者采用手工、半自動的樣點(diǎn)定位方法,或者將樣點(diǎn)的形狀假定為圓形;由于實(shí)際的樣點(diǎn)圖像很少完全是圓形,有的呈現(xiàn)橢圓形,有的呈現(xiàn)空心形,因此這些商用軟件讀取信號的準(zhǔn)確率并不非??煽?
由于基因芯片圖像容易受到制備和掃描過程中玻片不潔、光線不均以及雜交反應(yīng)不徹底等因素的影響[2],如何濾除噪聲,并且完整地保留基因樣點(diǎn)的邊緣特征是基因芯片圖像分析的關(guān)鍵步驟.目前基因樣點(diǎn)分割算法[3]主要有模板匹配[4-5]、閾值分割以及特殊理論(如形態(tài)學(xué)分割[6]、模糊聚類分割算法[7])等.通過對一些算法的比較,本文選用了最小誤差閾值分割算法對基因樣點(diǎn)進(jìn)行分割處理得到了較好的效果.尤其是針對基因芯片圖像中基因樣點(diǎn)模糊、與背景對比度不清晰的情況,分割處理的效果良好,可以完整地分割基因樣點(diǎn)并保留其邊緣細(xì)節(jié)特征,大大提高了基因芯片識別的效果.
最小誤差閾值法[8]是基于Bayes理論,由Kittler和Illingworth提出的,國際上有很多學(xué)者對該算法進(jìn)行了研究,目前已經(jīng)提出了很多最小誤差閾值算法的改進(jìn)算法以及二維擴(kuò)展算法等.通常為了更加清楚地描述該方法,大多選用信息論中的相對熵的概念進(jìn)行解釋.
設(shè)I為一幅大小為M×N的數(shù)字圖像,圖像上各點(diǎn)的像素值由函數(shù)f(x,y)來表示,x、y為該點(diǎn)的橫縱坐標(biāo)值,且 f(x,y)∈G={0,1,…,L -1}.圖像的灰度直方圖用p(g)來表示,它可以看成是由目標(biāo)和背景2個區(qū)域像素組成的混合總體的概率密度函數(shù):
式中:Pi是子分布的先驗(yàn)概率,p(g)的2個子分布p(g/i)分別服從均值為μi、方差為σi的正態(tài)分布:
對于閾值t∈G,最小誤差閾值方法給出函數(shù):
式中:
最佳閾值選為使 J(t)最小化的 t*,t*=.本文根據(jù)上述的分割算法原理,對基因芯片圖像進(jìn)行圖像分割處理.圖1為上述算法與其他常見的基因芯片圖像分割算法的實(shí)驗(yàn)對比圖.
針對基因芯片圖像的特點(diǎn)進(jìn)行仿真實(shí)驗(yàn),綜合觀察3種閾值分割方法得到的圖像,可以看出迭代法和最大類間差閾值分割算法(Ostu算法)[9]較為簡單,處理速度快;但是得到的分割圖片中,基因樣點(diǎn)的缺損比較多,對于與背景灰度靠近的樣點(diǎn)往往不能識別.最小閾值分割算法雖然有些復(fù)雜但是能得到較好的效果,能夠更完整地分割出基因芯片中的基因樣點(diǎn)區(qū)域,為后續(xù)求得基因樣點(diǎn)的平均灰度值提供了很好的支持.
圖1 幾種分割算法的比較Fig.1 Comparison of several segmentation algorithms
應(yīng)用上述的最小誤差閾值算法,本文構(gòu)建了一個基因芯片分析體系,主要分為圖像預(yù)處理、圖像識別以及數(shù)據(jù)提取和分析3個步驟.為了測試基因芯片分析結(jié)果,選用凡敏等制備完成的基因芯片(基孔肯亞病毒與辛德畢斯病毒特異性檢測基因芯片[10])作為實(shí)驗(yàn)樣本,具體處理步驟如下.
通過芯片掃描儀得到的基因芯片圖像是彩色圖像,如圖2所示.為了便于后續(xù)處理并且提高圖像質(zhì)量,首先要進(jìn)行圖像預(yù)處理,其中包括圖像灰度化、自適應(yīng)中值濾波[11-12]以及適當(dāng)?shù)膶Ρ榷仍鰪?qiáng)處理.圖3為圖2(a)所示的基因芯片圖像預(yù)處理之后的結(jié)果.
實(shí)驗(yàn)得到預(yù)處理之后的芯片圖像,再經(jīng)過基因樣點(diǎn)網(wǎng)格定位和圖像分割2個處理過程之后,就可以把基因芯片圖像中的每個基因樣點(diǎn)都分離出來.采用基于功率譜的投影網(wǎng)格定位算法[13]以及上面介紹的最小誤差閾值分割算法處理芯片圖像,得到如圖4的結(jié)果.
圖2 彩色基因芯片圖像Fig.2 Color cDNA microarray images
圖3 基因芯片圖像預(yù)處理結(jié)果Fig.3 Pretreatment with cDNA microarray image
圖4 圖像識別結(jié)果Fig.4 Image recognition results
網(wǎng)格定位確定了每個基因樣點(diǎn)圖像的具體位置,圖像分割又把每個小區(qū)域內(nèi)的基因樣點(diǎn)與背景成功地分離出來,接下來按照基因樣點(diǎn)的分布把圖4(b)分割成若干個小圖片.
通過觀察基因樣點(diǎn)的形態(tài)和亮度特性,選擇應(yīng)用基因樣點(diǎn)的平均灰度、面積、周長以及圓度4個特征參數(shù)來描述基因樣點(diǎn).因此,基因樣點(diǎn)的圖像信息就成功地轉(zhuǎn)化成了數(shù)據(jù)信息,把這些信息整理成數(shù)據(jù)集,通過一系列的模糊聚類和層次聚類分析[14]可以成功地把病毒樣點(diǎn)和對照樣點(diǎn)區(qū)分開來.聚類分析的可視化結(jié)果如圖5所示,其中圖5(a)橫坐標(biāo)表示各基因樣點(diǎn)的平均灰度,單位為灰階,縱坐標(biāo)表示各基因樣點(diǎn)的周長,單位是像素點(diǎn)個數(shù);圖5(b)橫坐標(biāo)表示樣點(diǎn)標(biāo)號,縱坐標(biāo)表示各數(shù)據(jù)集之間的歐式距離.
圖5 聚類分析結(jié)果Fig.5 Results of cluster analysis
根據(jù)最小誤差分割算法建立的基因芯片分析體系,能得到符合基因樣點(diǎn)信息的分類結(jié)果.并且依據(jù)現(xiàn)有的一些基因芯片檢測圖像,按照病毒類別和濃度的不同,把眾多基因樣點(diǎn)分類得到的結(jié)果與已知的基因芯片制備設(shè)計(jì)的樣點(diǎn)分類情況進(jìn)行比較,即可以計(jì)算出測試分類的準(zhǔn)確率(正確區(qū)分的基因樣點(diǎn)個數(shù)/待區(qū)分的基因樣點(diǎn)總數(shù)).通過多組圖片的分類實(shí)驗(yàn),分別計(jì)算準(zhǔn)確率,最終求得準(zhǔn)確率的平均值結(jié)果如表1.
表1 分類準(zhǔn)確率匯總Table 1 Accuracy summary
從表1可以看出,受到基因芯片制備條件和處理算法的影響,每組實(shí)驗(yàn)結(jié)果的準(zhǔn)確率有很大的不同.總體來看,對于同一組小芯片中不同基因樣點(diǎn)的分類結(jié)果要好于不同組小芯片中基因樣點(diǎn)的分類.基因樣點(diǎn)病毒間差異的分類結(jié)果要優(yōu)于同病毒不同濃度的分類結(jié)果.尤其是針對樣點(diǎn)信號和背景圖像對比不大的情況,算法的分割效果較好.
上述實(shí)驗(yàn)表明,應(yīng)用最小誤差閾值分割算法設(shè)計(jì)的基因樣點(diǎn)識別系統(tǒng)能夠成功地把基因芯片中大量的基因樣點(diǎn)區(qū)分出來,并且計(jì)算描述基因樣點(diǎn)的特征參量數(shù)值.通過分析這些數(shù)據(jù)基因芯片系統(tǒng)實(shí)現(xiàn)了基因樣點(diǎn)分類的功能,但準(zhǔn)確率還不是很高,對于基因樣點(diǎn)間的細(xì)微差別還是無法識別,有待于今后在算法上進(jìn)一步完善.
同時,由于基因芯片種類較多,制備方法不盡相同,而且基因芯片掃描儀型號各異,因此不同種類基因芯片圖像存在很大的差異.本文基因芯片圖像來源有限,很多類型的基因芯片圖像還未應(yīng)用到本文描述的基因芯片識別系統(tǒng)進(jìn)行分析處理.今后還需多方搜集實(shí)驗(yàn)樣本,檢測該系統(tǒng)的性能,使其不斷完善以及有更廣泛的適用范圍.
[1]MALEKINEJAD H,SCHOEVERS E J,DAEMEN J,et a1.Exposure oocytes to the Fusarium toxins zearalenone and deoxynivalenol causes aneuploidy and abnormal embryo development in pigs[J].Biology of Reproduction,2007,77(5):840-847.
[2]WIESE K C,EICHER C.Graph drawing tools for bioinformatics research:an overview computer based medical systems[C]//Proceedings of the 19th IEEE Symposium on Computer-Based Medical Systems.Washington,DC,USA:IEEE Computer Society,2006:653-658.
[3]張晶,王黎,高曉蓉,等.數(shù)字圖像處理中的圖像分割技術(shù)及其應(yīng)用[J].信息技術(shù),2010(11):33-39.ZHANG Jing,WANG Li,GAO Xiaorong,et al.The image segmentation technology and its application in digital image processing[J].Information Technology,2010(11):33-39.
[4]CECCARELLI M,ANTONIOL G.A deformable grid-matching approach for microarray images[J].IEEE Transactions on Image Processing,2006,15(10):3178-3188.
[5]BAJCSY P.An overview of DNA microarray grid alignment and foreground separation approaches[J].EURASIP Journal on Applied Signal Processing,2006,2006(1):080163.
[6]王宇,陳殿仁,沈美麗,等.基于形態(tài)學(xué)梯度重構(gòu)和標(biāo)記提取的分水嶺圖像分割[J].中國圖象圖形學(xué)報(bào),2008,13(11):2176-2180.WANG Yu,CHEN Dianren,SHEN Meili,et al.Watershed segmentation based on morphological gradient reconstruction and marker extraction[J].Journal of Image and Graphics,2008,13(11):2176-2180.
[7]劉華軍,任明武,楊靜宇.一種改進(jìn)的基于模糊聚類的圖像分割方法[J].中國圖象圖形學(xué)報(bào),2006,11(9):1312-1316.LIU Huajun,REN Mingwu,YANG Jingyu.An improved image segmentation method based on fuzzy clustering[J].Journal of Image and Graphics,2006,11(9):1312-1316.
[8]范九倫,雷博.二維直線型最小誤差閾值分割法[J].光電工程,2009,31(8):1801-1806.FAN Jiulun,LEI Bo.Two-dimensional linear-type minimum error threshold segmentation method[J].Journal of Electronics & Information Technology,2009,31(8):1801-1806.
[9]譚優(yōu),王澤勇.圖像閾值分割算法實(shí)用技術(shù)研究與比較[J].計(jì)算機(jī)信息,2007,23(24):233,298-299.TAN You,WANG Zeyong.Study on applied technology arithmetic of image threshold segmentation[J].Microcomputer Information,2007,23(24):233,298-299.
[10]凡敏,田明堯,趙權(quán),等.基孔肯亞病毒和辛德畢斯病毒檢測基因芯片的建立[J].中國獸醫(yī)學(xué)報(bào),2012,32(10):1493-1497.FAN Min,TIAN Mingrao,ZHAO Quan,et al.Establishment and application of gene chip for Chikungunya virus and Sindbis virus[J].Chinese Journal of Veterinary Science,2012,32(10):1493-1497.
[11]王曉凱,李峰.改進(jìn)的自適應(yīng)中值濾波[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(3):175-176,218.WANG Xiaokai,LI Feng.Improved adaptive median filte-ring[J].Computer Engineering and Applications,2010,46(3):175-176,218.
[12]郭海霞,謝凱.一種改進(jìn)的自適應(yīng)中值濾波算法[J].中國圖象圖形學(xué)報(bào),2007,12(7):1185-1188.GUO Haixia,XIE Kai.An improved method of adaptive median filter[J].Journal of Image and Graphics,2007,12(7):1185-1188.
[13]胡園園,孫嘯,何農(nóng)躍,等.基于圖像投影的基因芯片圖像網(wǎng)格定位[J].生物醫(yī)學(xué)工程學(xué)雜志,2005,22(4):668-671.HU Yuanyuan,SUN Xiao,HE Nongyue,et al.A genechip image grid localization method based on profiles of image[J].Journal of Biomedical Engineering,2005,22(4):668-671.
[14]李明華,劉全,劉忠,等.數(shù)據(jù)挖掘中聚類算法的新發(fā)展[J].計(jì)算機(jī)應(yīng)用研究,2008,25(1):13-17.LI Minghua,LIU Quan,LIU Zhong,et al.New developments of clustering methods in data mining[J].Application Research of Computers,2008,25(1):13-17.