李鐵軍,孫 躍,邵桂芳,上官亞力,吳順祥
(1.重慶大學(xué)自動化學(xué)院,重慶400044;2.廈門大學(xué)航空航天學(xué)院,福建廈門361005)
基于主動分析的基因芯片圖像網(wǎng)格定位
李鐵軍1,孫 躍1,邵桂芳2*,上官亞力2,吳順祥2
(1.重慶大學(xué)自動化學(xué)院,重慶400044;2.廈門大學(xué)航空航天學(xué)院,福建廈門361005)
基因芯片圖像處理對解讀成千上萬個基因點的雜交信息,建立可信疾病預(yù)測具有重要的意義,其分析的可靠性和準(zhǔn)確性將直接影響到芯片的推廣與使用.而基因芯片制備過程復(fù)雜,圖像種類多樣,單一的網(wǎng)格定位方法無法滿足各種類型基因芯片圖像處理的需求.在分析現(xiàn)有網(wǎng)格定位方法的基礎(chǔ)上,基于“仿人”思想,將認知科學(xué)的主動分析引入到圖像處理中,提出通過自主感知來明確基因芯片圖像處理過程中不確定性因素的存在及其程度,并采取相應(yīng)方法來降低或消除不確定因素的影響.最后通過6個數(shù)據(jù)集上的384幅網(wǎng)格圖像實驗,證明所提出的自動對比度增強和自適應(yīng)網(wǎng)格定位調(diào)整方法無需參數(shù)輸入和人工干預(yù),能較大程度提高網(wǎng)格定位準(zhǔn)確率.
基因芯片;圖像處理;網(wǎng)格定位
重大疾病(如癌癥)的預(yù)防與控制是世界各國面臨的重大科技難題[1].例如,全球每年大約有100萬新發(fā)大腸癌病例,至少50萬患者死亡,而中國大腸癌發(fā)病率以4.71%的速度逐年遞增[2].傳統(tǒng)的儀器檢測篩查方法具有介入性、單疾病、費用高和周期長等諸多缺點.20世紀(jì)90年代發(fā)展來的基因芯片(cDNA microarray)以高通量、微型化、自動化及低成本等優(yōu)點成為后基因組時代最重要的基因檢測工具之一,能夠有效地應(yīng)用于基因測序、生物學(xué)研究和疾病預(yù)防與控制[3].包括《Science》和《Nature》在內(nèi)的國際權(quán)威刊物近年來發(fā)表了大量應(yīng)用基因芯片進行癌癥預(yù)防與控制的研究成果.基因芯片分析包含樣本采集、芯片制備、掃描成像、圖像處理、數(shù)據(jù)分析和生物學(xué)應(yīng)用等[4],如圖1所示.
基因芯片的圖像處理是提取基因表達水平信息的關(guān)鍵步驟,其準(zhǔn)確性和可靠性將直接影響基因表達譜數(shù)據(jù)的有效性,并最終決定生物學(xué)分析和病理分析的成敗.因此,基因芯片圖像處理對解讀成千上萬個基因點的雜交信息,建立可信疾病預(yù)測具有重要的意義,其分析的可靠性和準(zhǔn)確性將直接影響到芯片的推廣與使用.基因芯片圖像處理包括圖像增強、網(wǎng)格定位、基因點分割和信息點提取4個步驟[5],其目的是提取基因表達譜數(shù)據(jù),建立基因與其對應(yīng)功能的關(guān)聯(lián),用于后續(xù)基因數(shù)據(jù)分析.基因芯片圖像處理是以整個芯片為單位的(每張芯片可能包含12×4或4×4個子網(wǎng)格,每個子網(wǎng)格又包含22×22、40×40或14×18個基因點不等),即輸入是2幅基因芯片圖像(對應(yīng)熒光標(biāo)記Cy3和Cy5),輸出是芯片里每一個基因點的表達值,一次輸出結(jié)果可能包含23 232或12 096個基因點不等(與不同芯片制備公司相關(guān)).由于基因芯片圖像處理過程存在眾多不確定性,如芯片制作過程復(fù)雜(會帶來操作失誤或儀器誤差),圖像質(zhì)量多變(會出現(xiàn)噪聲等級不同、基因點形態(tài)各異和基因點分布疏密不一),圖像分析方法多樣等,對基因芯片圖像處理造成巨大挑戰(zhàn).
針對網(wǎng)格定位問題,以完全自動化處理為目標(biāo),其算法經(jīng)歷了如下發(fā)展歷程(如圖2所示):
1)Angulo等[5]將二維圖像處理問題轉(zhuǎn)換為一維信號處理,提出一種最簡單快速的形態(tài)學(xué)投影法,但該方法容易受噪聲影響;
2)Katzer等[6]提出馬爾科夫隨機場法,該方法需要輸入網(wǎng)格的行列參數(shù);
圖1 基因芯片分析流程圖Fig.1 The flowchart for cDNA microarray analysis
圖2 網(wǎng)格定位方法發(fā)展趨勢Fig.2 Development trend of gridding methods
3)齊飛等[7]和Ceccarelli等[8]通過高斯混合模型和貝葉斯推理方式辨識參數(shù)來實現(xiàn)網(wǎng)格定位,但需要有參考模板;
4)Rueda等[9]和Zacharia等[10]將網(wǎng)格定位問題轉(zhuǎn)化為優(yōu)化問題,提出分別利用爬山法和遺傳算法來求解,該類方法比較耗時并且受算法初始參數(shù)設(shè)置影響;
5)很多學(xué)者[11-20]考慮在算法內(nèi)加入最優(yōu)閾值搜索功能,提出一系列具有自適應(yīng)調(diào)節(jié)能力的完全自動處理方法.
雖然不斷有各種網(wǎng)格定位方法涌現(xiàn),但由于基因芯片圖像的復(fù)雜不確定性,導(dǎo)致每種方法都無法取得精確結(jié)果.因此,本研究在分析基因芯片圖像特點的基礎(chǔ)上,依據(jù)近5年來從事基因芯片圖像處理研究的經(jīng)驗,分析了影響其結(jié)果的原因,并引入“仿人”思想,建立基于主動分析的網(wǎng)格定位方法.該方法能基于四階矩進行圖像自動對比度自動感知與增強,并利用最大內(nèi)間方差法(Otsu)進行閾值的自動獲取,初步實現(xiàn)網(wǎng)格定位后,依據(jù)結(jié)果的統(tǒng)計分析進行自調(diào)整.在6個數(shù)據(jù)集上通過對比本文方法與投影法[5]和最大類間方差方法[16]的網(wǎng)格定位效果,證明了主動分析引入的有效性和必要性.
1.1基因芯片圖像分析
基因芯片圖像具有顯著不同于其他圖像處理問題的特點,決定了其處理分析的不確定性.這些特點主要有:
1)全局性,即關(guān)注每個基因點區(qū)域.不同于人臉識別和目標(biāo)檢測等問題,由于基因點相對均勻地分布在圖像中的每一個區(qū)域,所以整幅圖像都是算法關(guān)注的焦點.
2)多樣性,算法要同時處理多個芯片、多個網(wǎng)格或多個基因點,但是不同芯片、不同網(wǎng)格或不同基因點上的圖像都存在各種動態(tài)變化的特點.
3)精確性,要求結(jié)果完全準(zhǔn)確.基因芯片圖像處理,不是根據(jù)特征去尋找圖像中的某個目標(biāo)或區(qū)域,而是提取每一個基因點上的信息,來精確地估計基因表達水平.
近5年的研究實踐表明[16,21],造成基因芯片圖像處理結(jié)果不確定的來源雖然可能是多方面的,但可以分為以下兩個層面:
1)數(shù)據(jù)層面,即圖像質(zhì)量,與實驗設(shè)備、實驗設(shè)計及材料等有關(guān),如針對不同病癥、不同病人群體,采用不同技術(shù)不同手段制備的基因芯片.由于芯片制備廠商不同,以及芯片制備過程中的取樣、標(biāo)記、雜交條件和掃描儀器等帶來的誤差影響,導(dǎo)致實際基因芯片圖像質(zhì)量各異,圖3展示了部分具有不同質(zhì)量的子網(wǎng)格圖像和基因點圖像.這些質(zhì)量差異可以從以下3個方面來看:
(i)基因芯片層面.(a)分布各異,即每個芯片圖像包含的子網(wǎng)格數(shù)不同,每個子網(wǎng)格包含的基因點數(shù)也不同;(b)分辨率各異,即芯片圖像和基因點均具有不同的分辨率,如一幅基因芯片圖像大小為4 325像素×11 388像素,其基因點大概為25像素×25像素.
圖3 子網(wǎng)格及各類基因點示意Fig.3 Examples of sub-grids and spots
(ii)子網(wǎng)格角度.(a)基因點分布疏密不一,有的基因點排列非常緊湊,網(wǎng)格定位時容易壓到基因點邊緣,而有的基因點分布很稀疏,容易受噪聲影響;(b)噪聲等級不同,有的包含少量噪聲,有的包含大量噪聲;(c)噪聲類型也不同,如塊狀噪聲、彗星尾噪聲等,而且噪聲有些是和基因點混在一起的,導(dǎo)致基因點無法分割或影響其表達值計算;(d)缺失基因點比例不同;(e)有時會存在傾斜,整個子網(wǎng)格傾斜或部分基因點區(qū)域傾斜.
(iii)基因點自身.(a)基因點形態(tài)各異,其基本形態(tài)可能因基因芯片制備公司的不同,有圓形、方形和三角形等;(b)即使基本形態(tài)固定,也會有峰形、火山形、半月形、斷裂形和環(huán)形等變化;(c)基因點粘連,有些基因點可能會連在一起,導(dǎo)致無法分割.
上述眾多不確定因素可能會同時發(fā)生在一次處理過程中,造成基因芯片圖像質(zhì)量動態(tài)變化,導(dǎo)致基因芯片圖像處理精度低.
2)方法層面.研究者采用的不同圖像處理算法,具有局限適應(yīng)性(適用于某類圖像或某種處理)等差異,難以適應(yīng)基因芯片圖像處理的復(fù)雜過程,增加了基因芯片圖像處理的難度.基因芯片圖像處理具有串行分級特性,即前面步驟是后面的基礎(chǔ),其誤差會向后累積,使得僅采用單一方法來解決全局處理具有極大的挑戰(zhàn)性.同時,已有的圖像處理方法在某些方面表現(xiàn)出獨特的優(yōu)勢是值得借鑒的.
與基因芯片數(shù)據(jù)的復(fù)雜性形成鮮明對比的是,現(xiàn)有的圖像處理方法只能針對單個或若干個問題,盡可能地提升處理過程的單一目標(biāo)或者多個目標(biāo)的準(zhǔn)確率,而不適用于其他問題或其他圖像區(qū)域,無法滿足基因芯片圖像處理的特殊要求.
我們認為,想從根本上防止或降低基因芯片圖像處理中的不確定性,僅改進或提高局部算法的性能是不夠的.提高基因芯片圖像處理精確性的有效辦法應(yīng)該是結(jié)合實際問題的特點,對造成結(jié)果不確定的內(nèi)在原因進行深入挖掘和分析,有針對性的采取方法進行處理,即不同問題不同對待,實現(xiàn)從“被動分析”到“主動處理”的轉(zhuǎn)變.
1.2網(wǎng)格定位的主動分析
主動分析網(wǎng)格定位框架如圖4所示.
為實現(xiàn)主動分析,基因芯片網(wǎng)格定位主要包括3個環(huán)節(jié):1)自適應(yīng)對比度增強,根據(jù)圖像自身數(shù)據(jù)感知其對比度情況,并進行增強;2)網(wǎng)格定位,依據(jù)自適應(yīng)閾值方法進行分割;3)網(wǎng)格定位結(jié)果的自調(diào)整,即依據(jù)分割結(jié)果的統(tǒng)計分析,自動判斷分割結(jié)果正確與否,并進行調(diào)整.
圖4 網(wǎng)格定位主動分析框架Fig.4 The active analysis flowchart for gridding
1.3自適應(yīng)對比度增強
因為基因芯片圖像普遍存在對比度較低現(xiàn)象,并且低對比度對網(wǎng)格定位影響較大.為此,本研究引入四階矩來建立圖像對比度自動感應(yīng)與增強算法[21].設(shè)含有N個像素點的基因芯片圖像灰度值可用f(x,y)表示,首先將二維圖像信號轉(zhuǎn)換為一維列信號x= f(:),再通過下式得到自動增強后的圖像g(x,y):
上述操作有如下優(yōu)點:1)不需要任何參數(shù)輸入; 2)自適應(yīng)實現(xiàn)對比度增強;3)可大幅度提高基因芯片圖像處理精度;4)適應(yīng)性廣,可以適用于各種類型基因芯片圖像.
1.4網(wǎng)格定位結(jié)果自調(diào)整
由于采用任何網(wǎng)格定位方法,都無法達到100%準(zhǔn)確率,為此研究提出網(wǎng)格定位結(jié)果的自調(diào)整,即統(tǒng)計分析網(wǎng)格定位結(jié)果,得到每個網(wǎng)格圖像的網(wǎng)格線平均間距,計算每根網(wǎng)格線誤差及方差,從而判斷該網(wǎng)格線定位正確與否,并進行調(diào)整.
以水平網(wǎng)格定位為例,hj代表網(wǎng)格定位獲取的垂直方向網(wǎng)格線坐標(biāo),p為垂直方向網(wǎng)格線數(shù),可統(tǒng)計出網(wǎng)格線間距并得到其平均距離從而計算網(wǎng)格線誤差和方差
1)der(m)<0,|der(m-1)|<ε,|der(m+1)|<ε,多出來一條線,如圖5(a)所示;
2)der(m)>0,|der(m-1)|<ε,|der(m+1)|<ε,少了一條線,如圖5(b)所示;
3)畫錯了位置der(m)>0,der(m+1)>0或der(m)>0,der(m+1)<0,如圖5(c)所示.
其中,ε用于描述示網(wǎng)格線間距與平均網(wǎng)格線間距之間的差異程度,取值為如前所述平均網(wǎng)格間距和網(wǎng)格線方差dmse是根據(jù)每次網(wǎng)格定位結(jié)果自動統(tǒng)計出來的,故ε無需人工設(shè)置.
圖5 網(wǎng)格線分割錯誤示意Fig.5 Examples of wrong gridding lines
為驗證本研究方法的有效性,分別在來自6個不同數(shù)據(jù)集的基因芯片圖像上進行了對比實驗(Stanford Microarray Database,SMD;University of California,San Francisco,UCSF;Gene Expression Omnibus,GEO;Computational Cancer Genomics group of the Swiss Institute of Bioinformatics,SIB; Joe DeRisi′s individual tiff files;Baylor College of Medicine,BCM)[16].圖6給出了在加入主動分析前后基于形態(tài)學(xué)硬閾值和Otsu自適應(yīng)閾值的網(wǎng)格定位準(zhǔn)確率對比情況.
圖6 加入主動分析前后的網(wǎng)格定位準(zhǔn)確率對比Fig.6 Comparison of gridding accuracy when applied active analysis or not
可以看出主動分析的引入較大程度提高網(wǎng)格定位準(zhǔn)確率,GEO和SMD數(shù)據(jù)集準(zhǔn)確率提高最大.此外,Otsu自適應(yīng)閾值網(wǎng)格定位比基于形態(tài)學(xué)的硬閾值具有更高準(zhǔn)確率.并且在6個數(shù)據(jù)集上,GEO和SMD準(zhǔn)確率相對較低,主要原因是其圖像對比度普遍很低.圖7展示了GEO數(shù)據(jù)集下網(wǎng)格定位效果,可以看出受低對比度及噪聲影響,只有在引入主動分析的Otsu網(wǎng)格定位方法上才取得了準(zhǔn)確定位.
SIB數(shù)據(jù)集上的網(wǎng)格定位準(zhǔn)確率也比較低,主要是其基因點分布比較稀疏,使得網(wǎng)格定位很容易受噪聲影響,如圖8所示,只有引入主動分析的Otsu網(wǎng)格定位方法取得了準(zhǔn)確定位.
而圖9展示了BCM數(shù)據(jù)集圖像網(wǎng)格定位結(jié)果,由于該數(shù)據(jù)集基因點比較密集,分辨率較大,因此,即使有噪聲影響,各種方法也都能取得準(zhǔn)確定位.換句話說,就是主動分析對BCM數(shù)據(jù)集的作用比較小.
圖7 GEO數(shù)據(jù)集網(wǎng)格定位示例Fig.7 Examples of gridding on GEO data set
圖8 SIB數(shù)據(jù)集網(wǎng)格定位示例Fig.8 Examples of gridding on SIB data set
圖10給出了UCSF數(shù)據(jù)集圖像網(wǎng)格定位結(jié)果,由于該數(shù)據(jù)集原始圖像對比度很低,在引入主動分析,特別是對比度增強后,網(wǎng)格定位準(zhǔn)確率明顯提高.
基因芯片圖像的網(wǎng)格定位對基因點表達譜分析具有重要作用,而基因芯片圖像獲取過程復(fù)雜,圖像類型多樣,導(dǎo)致網(wǎng)格定位方法準(zhǔn)確率不高.此外,目前大多數(shù)網(wǎng)格定位方法僅考慮了圖像去噪的預(yù)處理.為此,本研究在分析導(dǎo)致基因芯片圖像網(wǎng)格定位準(zhǔn)確率不高的原因及現(xiàn)有網(wǎng)格定位方法發(fā)展的基礎(chǔ)上,提出引入主動分析,即通過對圖像自身數(shù)據(jù)的挖掘分析,進行自動增強處理.通過在來自6個數(shù)據(jù)集的不同類型基因芯片圖像上對比實驗,證明了引入主動分析的有效性.本研究提出的主動分析方法不需要人工干預(yù)及參數(shù)輸入,可以適應(yīng)各類圖像,準(zhǔn)確率也較未加入主動分析方法有較大提高.后續(xù)工作將針對噪聲等級進行自動分析,并建立快速有效的去噪方法.
圖9 BCM數(shù)據(jù)集網(wǎng)格定位示例Fig.9 Examples of gridding on BCM data set
圖10 UCSF數(shù)據(jù)集網(wǎng)格定位示例Fig.10 Examples of gridding on UCSF data set
[1] 夏俊芳,劉箐.生物芯片應(yīng)用概述[J].生物技術(shù)通報,2010 (7):73-77.
[2] 王媛媛.大腸癌干細胞基因表達譜特點及其信號通路的篩選鑒定[D].廣州:南方醫(yī)科大學(xué),2011:1-9.
[3] 博思數(shù)據(jù)研究中心.2011—2015年中國生物芯片行業(yè)深度調(diào)研與投資前景研究報告[R/OL].[2011-03-01] [2015-11-15].http:∥www.bosidata.com/dianzi1103/ V2504375TQ.html.
[4] BAJCSY P.An overview of DNA Microarray image requirements for automated processing[C]∥Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Los Alamitos: IEEE,2005:147-149.
[5] ANGULO J,SERRA J.Automatic analysis of DNA microarray images using mathematical morphology[J]. Bioinformatics,2003,19(5):553-562.
[6] DEMIRKAYA O,ASYALI M H,SHOUKRI M M.Segmentation of cDNA microarray spots using markov random field modeling[J].Bioinformatics,2005,21(13): 2994-3000.
[7] QI F,LUO Y,HU D.Recognition of perspectively distorted planar grids[J].Pattern Recognition Letters, 2006,27(14):1725-1731.
[8] CECCARELLI M,ANTONIOL G.A deformable grid matching approach for microarray images[J].IEEE Transactions on Image Processing,2006,15(10): 3178-3188.
[9] RUEDA L,VIDYADHARAN V.A hill-climbing approach for automatic gridding of cDNA microarray images[J].IEEE Transactions on Computational Biology and Bioinformatics,2006,3(1):72-83.
[10] ZACHARIA E,MAROULIS D.An original genetic approach to the fully automatic gridding of microarray images[J].IEEE Transaction on Medical Imaging,2008, 27(6):805-813.
[11] WANG Y,MA M,ZHANG K,et al.A hierarchical refinement algorithm for fully automatic gridding in spotted DNA microarray image processing[J].Information Sciences,2008,177(4):1123-1135.
[12] BARIAMIS D,IAKOVIDIS D,MAROULIS D.M3G: maximum margin microarray gridding[J].BMC Bioinformatics,2010,11:49.
[13] RUEDA L,REZAEIAN I.A fully automatic gridding method for cDNA microarray images[J].BMC Bioinformatics,2011,12(113):1-17.
[14] DEEPA J,TESSAMMA T.A new gridding technique forhigh density microarray images using intensity projection profile of best sub image[J].Computer Engineering and Intelligent Systems,2013,4(1):7-18.
[15] FOUAD I A,MABROUK M S,SHARAWY A A.A new method to grid noisy cdna microarray images utilizing denoising techniques[J].International Journal of Computer Applications,2013,63(9):36-44.
[16] SHAO G F,YANG F,ZHANG Q,et al.Using the maximum between-class variance for automatic gridding of cdna microarray images[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2013,10 (1):181-192.
[17] THAMARAIMANALAN P,DHINESH K D,NIRMALAKUMARI K.Effective gridding and segmentation for microarray images[J].International Journal of Computer Science and Mobile Computing,2014,3(2): 353-360.
[18] AHMAD M M,JAMBEK A B,MASHOR M Y.A study on microarray image gridding techniques for DNA analysis[C]∥2ndInternational Conference on Electronic Design.Penang:IEEE,2014:171-175.
[19] HARIKIRAN J,AVINASH B,LAKSHMI P V,et al. Automatic gridding method for microarray images[J]. Journal of Theoretical and Applied Information Technology,2014,65(1):235-241.
[20] BELEAN B,TEREBES R,BOT A.Low-complexity PDE-based approach for automatic microarray image processing[J].Medical and Biological Engineering and Computing,2015,53(2):99-110.
[21] SHAO G F,LI T J,ZUO W D,et al.A combinational clustering based method for cDNA microarray image segmentation[J].PLoS ONE,2015,10(8):1-23.
An Active Analysis Method for Microarray Image Gridding
LI Tiejun1,SUN Yue1,SHAO Guifang2*,SHANGGUAN Yali2,WU Shunxiang2
(1.School of Automation,Chongqing University,Chongqing 400044,China; 2.School of Aerospace Engineering,Xiamen University,Xiamen 361005,China)
Image processing is a key aspect of cDNA microarrays analysis and the aim of the whole experimental procedure is to obtain meaningful biological conclusions,which depend on the accuracy of this stage.Unfortunately,because the complicated hybridization procedure of microarrays will result in dynamic changing of microarray image quality,results of existing methods can not meet the need of overall accuracy and batch processing.Therefore,through analyzing the current gridding methods and inspired by the human simulated theory,we introduce the active analysis into image processing.First,via autonomous perception,we make sure the existence and degree of uncertainty factors in image processing procedure.Then we reduce or eliminate the affection by adopting corresponding methods.Finally,experiments on 384 sub-grids drawn from six different data sets prove that the effectiveness of the proposed automatic contrast enhancement method and gridding result self-adjusting.In addition,the proposed method needs no human intervention and parameter setting,and can improve the gridding accuracy to a large extent.
microarray;image processing;gridding
TP 391.41
A
0438-0479(2016)06-0888-07
10.6043/j.issn.0438-0479.201511006
2015-11-04 錄用日期:2016-06-28
國家自然科學(xué)基金(61403318);福建省自然科學(xué)基金(2013J01255)
gfshao@xmu.edu.cn
李鐵軍,孫躍,邵桂芳,等.基于主動分析的基因芯片圖像網(wǎng)格定位[J].廈門大學(xué)學(xué)報(自然科學(xué)版),2016,55(6): 888-894.
LI T J,SUN Y,SHAO G F,et al.An active analysis method for microarray image gridding[J].Journal of Xiamen University(Natural Science),2016,55(6):888-894.(in Chinese)