馬帥營(yíng)
(大連民族學(xué)院現(xiàn)代教育技術(shù)中心,遼寧大連 116605)
基于回歸分析的基因芯片圖像傾斜校正方法
馬帥營(yíng)
(大連民族學(xué)院現(xiàn)代教育技術(shù)中心,遼寧大連 116605)
基因芯片圖像的傾斜校正對(duì)圖像分析有著重要意義。利用投影信號(hào)對(duì)圖像進(jìn)行行列分割,對(duì)僅包括單行(列)樣點(diǎn)的子圖像運(yùn)用回歸分析完成初步傾斜校正,利用樣點(diǎn)的質(zhì)心進(jìn)行直線擬合,完成精確校正。實(shí)驗(yàn)表明,對(duì)基因芯片圖像的傾斜校正有很高的準(zhǔn)確性,且算法簡(jiǎn)單易行。
基因芯片圖像;投影信號(hào);回歸分析;傾斜校正
基因芯片的檢測(cè)與分析是基因芯片技術(shù)研究中的重要組成部分,其可靠性、準(zhǔn)確性直接影響芯片的推廣與使用。其中包括了圖像預(yù)處理、網(wǎng)格定位、背景濾除、熒光信號(hào)提取等[1]。要進(jìn)行芯片分析,首要任務(wù)就是進(jìn)行網(wǎng)格定位[2-4],也就是在基因芯片圖像上確定各探針的雜交信號(hào)點(diǎn)的位置,在此基礎(chǔ)上準(zhǔn)確地提取各探針的雜交信號(hào)。網(wǎng)格定位是進(jìn)行后續(xù)芯片分析的前提。而在基因芯片圖像的采集中不可避免地會(huì)存在圖像的旋轉(zhuǎn),圖像存在傾斜角。傾斜角的角度判定及校正對(duì)后續(xù)的網(wǎng)格定位研究意義重大。
目前的網(wǎng)格定位方法中,文獻(xiàn)[2]提出了基于數(shù)學(xué)形態(tài)學(xué)的方法,利用基因芯片圖像在水平方向和豎直方向的投影信號(hào),將二維圖像分析問(wèn)題轉(zhuǎn)化為一維信號(hào)處理問(wèn)題,完成網(wǎng)格定位。文獻(xiàn)[3]對(duì)該方法做了進(jìn)一步的改進(jìn),其中提到“這里所處理的圖像均已經(jīng)過(guò)一定的旋轉(zhuǎn)處理”。所以這種方法只對(duì)無(wú)傾斜的圖像才有效,對(duì)存在傾斜的圖像的校正是該研究的前提。
文獻(xiàn)[4]中采用變形模板匹配法,通過(guò)構(gòu)造一個(gè)感興趣物體的模板,將模板進(jìn)行各種變形,包括位移、旋轉(zhuǎn)、縮放。然后將變形模板與圖像的對(duì)應(yīng)區(qū)域比較,使模板與圖像的匹配達(dá)到最佳。該方法在計(jì)算圖像模板與圖像相似度時(shí)計(jì)算量很大,因?yàn)槟0逍D(zhuǎn)計(jì)算的時(shí)間復(fù)雜度和空間復(fù)雜度較大,相對(duì)于位移和縮放占主要計(jì)算量。所以對(duì)圖像進(jìn)行傾斜校正后,將避免模板的旋轉(zhuǎn)匹配計(jì)算,大大減少該方法的計(jì)算量。
目前,基因芯片圖像的研究已經(jīng)取得一定進(jìn)展,但如何更加有效地提高網(wǎng)格定位的精確度和速度非常值得研究。本文在前人研究的基礎(chǔ)上提出基因芯片圖像的傾斜校正,可以完善一些研究的前提條件,減少某些研究的算法計(jì)算量等等。
本文在對(duì)基因芯片圖像的傾斜校正時(shí),包括三個(gè)步驟:
(1)通過(guò)水平投影信號(hào)將基因芯片圖像進(jìn)行行列分割;
(2)采用回歸分析法,快速的對(duì)分割出的行列計(jì)算傾斜角及均值,進(jìn)行初步的傾斜校正;
(3)重復(fù)(1),計(jì)算基因芯片行列子圖像中樣點(diǎn)的質(zhì)心,對(duì)質(zhì)心采取直線擬合的方法,完成精確的傾斜校正。
1.1 基于投影信號(hào)的基因芯片圖像的行列分割
首先對(duì)基因芯片圖像進(jìn)行預(yù)處理,包括濾波、腐蝕、膨脹等數(shù)學(xué)形態(tài)學(xué)運(yùn)算,濾除噪聲,提高圖像質(zhì)量。然后對(duì)圖像進(jìn)行自適應(yīng)閥值分割,將基因芯片圖像變?yōu)槎祱D像,如圖1(圖像中包含10行、10列樣點(diǎn))。
圖1 預(yù)處理后的圖像
在對(duì)圖像進(jìn)行回歸分析前,需要對(duì)圖像進(jìn)行行列分割,獲得只包含單行或單列樣點(diǎn)的子圖像,據(jù)此估算各行(列)的傾斜角。本文采用投影方法,對(duì)二值圖像f(x,y)沿水平方向計(jì)算投影信號(hào),如圖2。投影信號(hào)計(jì)算公式為
式中,n為圖像f(x,y)的寬度。
投影信號(hào)圖中具有波峰波谷特性,其中波谷代表了各行樣點(diǎn)的行間隔。通過(guò)對(duì)投影信號(hào)進(jìn)行曲線擬合,求出曲線的各個(gè)極小值,用其所代表的波谷位置來(lái)分割相鄰的兩行樣點(diǎn)圖像,最終分割出芯片陣列的行列子圖像,如圖3。這里,在對(duì)列的處理時(shí),將圖像旋轉(zhuǎn)90°,轉(zhuǎn)化為對(duì)行計(jì)算,簡(jiǎn)化計(jì)算,避免列的斜率為無(wú)窮大。
當(dāng)圖像傾斜角較大時(shí)(10°以上),無(wú)法直接根據(jù)投影信號(hào)的波峰波谷準(zhǔn)確分割出行列子圖像,如圖4。將圖像進(jìn)行垂直分割,利用部分圖像投影信號(hào)獲得行列子圖像(取圖像的中間1/3部分,如圖5),進(jìn)而估算傾斜角,以便完成初步的傾斜校正。這種方法,雖然行列子圖像的有效樣點(diǎn)數(shù)量較少,傾斜角的估計(jì)準(zhǔn)確性隨之降低,但作為粗略的傾角估計(jì)仍是可行的。在根據(jù)估計(jì)出的傾角進(jìn)行校正后,繼續(xù)步驟(1)的行列投影,能夠比較好的分割出行列的樣點(diǎn)子圖像,為下一步的精確傾角計(jì)算做準(zhǔn)備。
回歸泛指變量之間的一般數(shù)量關(guān)系,一元線性回歸通過(guò)找到一條擬合直線,用直線上的點(diǎn)來(lái)代表散布圖上所有相關(guān)點(diǎn)。滿足“離差平方和最小”條件的直線使得回歸直線與所有檢測(cè)數(shù)據(jù)誤差的平方和達(dá)到極小值[5]。一元線性回歸方程的一般形式為
式中,表示是從回歸直線上取得的與xi對(duì)應(yīng)的yi的計(jì)算值;是擬和直線的截距;是擬和直線的斜率。離差δi為任一分析點(diǎn)(xi,yi)偏離回歸直線縱坐標(biāo)方向的距離。離差平方和為
回歸直線應(yīng)是所有直線中離差平方和最小的一條直線,根據(jù)極值原理,對(duì)斜率求偏導(dǎo),并使之為零,解得
針對(duì)本文的行列二值圖像,上式中n為文檔圖像中白色像素的個(gè)數(shù),(xi,yi)表示每個(gè)白色像素點(diǎn)的x坐標(biāo)和y坐標(biāo),i=1……n。傾斜角θ=tan-1(弧度)。這樣,分別對(duì)行列子圖像計(jì)算傾斜角及均值,按照平均傾斜角對(duì)圖像進(jìn)行初步校正。
本實(shí)驗(yàn)采用模擬的方法,將原基因芯片圖像進(jìn)行一定角度的旋轉(zhuǎn),然后按本文的方法進(jìn)行傾斜校正,實(shí)驗(yàn)結(jié)果見(jiàn)表1。從表中結(jié)果可以看到,當(dāng)傾斜角較小時(shí)(10°以下),該方法準(zhǔn)確性較高;當(dāng)傾斜角較大時(shí),誤差較大,需要進(jìn)一步的精確校正。
表1 初步校正結(jié)果
值得注意的是,當(dāng)圖像的傾斜角較大時(shí),比如表1中15°傾斜角,所分割出的行子圖像中包含了相鄰行的部分樣點(diǎn),對(duì)回歸分析的傾斜角估計(jì)有較大影響,所以誤差較大。
經(jīng)步驟(1)(2)后,原基因芯片圖像完成初步傾斜校正,校正后的圖像傾斜角一般較小。為了進(jìn)一步的精確校正,再重復(fù)步驟(1),此處所獲得行列分割子圖像一般僅包含單個(gè)行列的樣點(diǎn),而相鄰行列的樣點(diǎn)不會(huì)被包含進(jìn)入。為了更加精確地計(jì)算傾斜角,取各子圖像中樣點(diǎn)的質(zhì)心(如圖6),公式為
式中xi,yi為白色樣點(diǎn)坐標(biāo)。
采用直線擬合如圖7,得到直線的斜率及傾斜角。對(duì)所有行列的傾斜角求均值,完成精確的傾斜校正。
對(duì)于表1中15°傾斜角經(jīng)初步校正后,采用質(zhì)心的直線擬合計(jì)算出傾斜角為6.9385°。
本文提出基因芯片圖像中存在傾斜的問(wèn)題,而對(duì)于網(wǎng)格定位,有些方法中傾斜校正是必要的前提,同時(shí)也會(huì)減少某些算法(如變形模板匹配法)的運(yùn)算量。根據(jù)預(yù)處理后的基因芯片圖像,運(yùn)用行列分割子圖像的回歸分析,初步校正圖像,繼而完成質(zhì)心直線擬合的精確校正。
[1]邢克禮,丁紅軍.基于MATLAB的基因芯片圖像預(yù)處理[J].醫(yī)療衛(wèi)生裝備,2008(4):9-11.
[2]HIRATA J R,BARRERA J,HASHI MOTO R F,et al. Microarray gridding by mathematical morphology[C]. Proceedings of the 14th Brazilian Symposium on Computer Grahics and I mage Processing,Brazil,2001:112-119.
[3]胡園園,孫嘯,何農(nóng)躍,等.基于圖像投影的基因芯片圖像網(wǎng)格定位[J].生物醫(yī)學(xué)工程學(xué)雜志,2005,22 (4):668-671.
[4]李興珊,孫嘯,袁春偉.基于遺傳算法的基因芯片圖像網(wǎng)格定位[J].生物物理學(xué)報(bào),2002(2):223-226.
[5]孔祥玲.直線回歸分析及其數(shù)據(jù)控制評(píng)定[J].計(jì)量與測(cè)試技術(shù),2007(10):15-17.
A Gene-chip Image Tilt Correction Approach Based on Regression Analysis
MA Shua i-ying
(Modern Educational Technology Center,Dalian NationalitiesUniversity,Dalian Liaoning 116605,China)
Gene-chip image tilt correction isof great significance to i mage analysis.We divided the gene-chip image into rows and columns by projection signals,before using regression analysis to preli minarily correcting sub-images that each includes a single row(or column)of sample points.We finally performed linear fittingwith the centroids of the sample points to complete precise correction.The experiment showed that thismethod has a high accuracy of tilt correction for gene-chip images alongwith a simple and easy-to-use algorithm.
gene-chip image;projection signal;regression analysis;tilt correction
TP391
A
1009-315X(2010)01-0065-03
2009-06-12
馬帥營(yíng)(1980-),男,河南洛陽(yáng)人,助工,主要從事神經(jīng)網(wǎng)絡(luò)、模式識(shí)別等研究。
(責(zé)任編輯 劉敏)