毛晚堆 劉海敬 孔偌琳
摘要:將考生試卷掃描成圖像的過(guò)程中,難免會(huì)出現(xiàn)試卷圖像的傾斜,繼而影響后續(xù)試卷信息的識(shí)別結(jié)果的準(zhǔn)確度以及識(shí)別精度。為提高試卷處理的工作效率,通過(guò)對(duì)試卷圖像進(jìn)行傾斜校正,以節(jié)省返工時(shí)間或手動(dòng)處理時(shí)間。為此本文結(jié)合具體環(huán)境,通過(guò)初次檢測(cè)與深度檢測(cè)相結(jié)合的方法,在確保時(shí)間效率的情況下提高檢測(cè)的準(zhǔn)確度,實(shí)驗(yàn)表明,該方法能快速準(zhǔn)確測(cè)量出試卷圖像的傾斜角度。
Abstract: In the process of scanning the test paper into images, it is inevitable that the image of the test paper will be tilted, which will affect the accuracy and recognition accuracy of the subsequent information of the test paper. In order to improve the efficiency of paper processing, by tilting the paper image to save rework time or manual processing time. For this reason, in combination with the specific environment and through the combination of initial detection and depth detection, the paper improves the detection accuracy in consideration of the time efficiency. Experiments show that this method can quickly and accurately measure the tilt angle of examination paper images.
關(guān)鍵詞:傾斜校正;Hough變換;網(wǎng)上閱卷
Key words: tilt correction;Hough transformation;online marking
中圖分類(lèi)號(hào):TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2018)35-0230-02
0? 引言
網(wǎng)上閱卷系統(tǒng)中文本圖像的自動(dòng)識(shí)別與處理技術(shù)的發(fā)展越來(lái)越成熟,而對(duì)文本圖像識(shí)別的準(zhǔn)確率和效率的要求也越來(lái)越高。在考生試卷的掃描過(guò)程中,不可避免地會(huì)出現(xiàn)試卷圖像的傾斜,而試卷圖像的傾斜給后續(xù)試題分割帶來(lái)困難,影響閱卷老師評(píng)閱試卷。
目前圖像傾斜檢測(cè)方法有Hough變換法、基于投影的方法、最近鄰聚類(lèi)的方法、基于小波變換的方法。其中基于Hough變換的方法通過(guò)檢測(cè)圖像中直線從而估計(jì)出傾斜角,取得了很好的精度[1]。
1? Hough變換
Hough變換利用圖像空間和參數(shù)空間點(diǎn)-線對(duì)偶性質(zhì),將共線的點(diǎn)變換為相交于同一點(diǎn)的曲線,將直線提取問(wèn)題轉(zhuǎn)化為計(jì)數(shù)問(wèn)題[2]。
Hough變換不僅抗噪能力較強(qiáng),而且具有較強(qiáng)的魯棒性,在較低的信噪比下也能得到較好的效果,但其較高的時(shí)間復(fù)雜度和空間復(fù)雜度影響了它的使用。
一些科研工作者根據(jù)具體的應(yīng)用環(huán)境,提出基于Hough變換算法的改進(jìn)方法以適應(yīng)環(huán)境要求。邱力為等人提出基于兩點(diǎn)組合原理的Hough變換直線檢測(cè)算法,能夠有效克服參數(shù)空間的量化誤差,具有較高的檢測(cè)精度以及較低的內(nèi)存消耗等優(yōu)點(diǎn),但在信噪比較高的情況下檢測(cè)精度較低[3];瞿洋等人使用了變分辨率金字塔的策略,不僅減少了算法的計(jì)算量,而且也提高了算法的抗噪能力[4];芮挺等提出采用輪廓跟蹤方法去除牌照?qǐng)D像中和校正無(wú)關(guān)的所有冗余信息并采用分級(jí)檢測(cè)的策略,最大程度減少校正過(guò)程的運(yùn)算量,提高算法運(yùn)行速度[5];梁添才等人提出對(duì)圖像進(jìn)行水平軌跡線平滑處理后再采用分級(jí)Hough變換的思想實(shí)現(xiàn)傾角的檢測(cè)[6]。
2? 試卷傾斜校正算法
考生試卷中存在大量的文本信息和邊框線,其中文本走向或表格線的方向則反映出整個(gè)文本圖像的傾斜角度。在本文所涉及的環(huán)境下,只需檢測(cè)出傾斜角度信息,則可對(duì)傾斜試卷進(jìn)行校正處理。根據(jù)圖像數(shù)據(jù),圖像出現(xiàn)倒置或90°傾斜,通過(guò)其他方法處理即可。
本文在Hough變換檢測(cè)直線原理的基礎(chǔ)上,結(jié)合研究環(huán)境,采用初次與深度相結(jié)合的方法進(jìn)行傾角的檢測(cè)。傾斜校正方法如下:
①計(jì)數(shù)變量n的初始值為0。將標(biāo)準(zhǔn)試卷圖像兩者分別在x軸和y軸進(jìn)行投影,可得到圖像分別在x軸和y軸的投影分布區(qū)間;將標(biāo)準(zhǔn)試卷圖像投影在x軸左起第一個(gè)大于閾值Rs的坐標(biāo)記為x1,并將最后一個(gè)小于閾值R0坐標(biāo)記為x2。將標(biāo)準(zhǔn)試卷圖像投影在y軸左起第一個(gè)大于閾值R0的坐標(biāo)記為y1,并將最后一個(gè)小于閾值R0坐標(biāo)記為y2。
②若計(jì)數(shù)變量n的值小于等于1,轉(zhuǎn)③,否則轉(zhuǎn)⑨;
⑦)利用傾斜校正算法計(jì)算圖像的傾斜角度,并將計(jì)數(shù)變量n的值增1,并對(duì)圖像進(jìn)行旋轉(zhuǎn)處理,然后轉(zhuǎn)②;
⑧傾斜校正程序結(jié)束;
⑨將考生試卷作為特殊試卷手動(dòng)處理,結(jié)束。
在待檢測(cè)區(qū)域中每隔t個(gè)長(zhǎng)度選取一個(gè)點(diǎn)作為待檢測(cè)點(diǎn),并將待檢測(cè)點(diǎn)的坐標(biāo)存入數(shù)組pos中。定義兩個(gè)數(shù)組angArr和graArr,變量i初始值為1。
①如果i ④i=i+1,轉(zhuǎn)②; ⑤遍歷angArr和graArr兩個(gè)數(shù)組,找出出現(xiàn)次數(shù)最多的數(shù)值,若存在多個(gè)值出現(xiàn)次數(shù)相同,將多個(gè)值從小到大進(jìn)行排序,計(jì)算相鄰兩個(gè)值之間的差距a,若a小于等于閾值m,則取這多個(gè)值的中間值為傾斜角度,否則t=t/2,轉(zhuǎn)①; ⑥結(jié)束。 3? 實(shí)驗(yàn)結(jié)果與總結(jié) 為檢測(cè)算法效果,本文對(duì)1385份考生試卷進(jìn)行了總體測(cè)試,在實(shí)際環(huán)境下檢測(cè)準(zhǔn)確率在98%以上,優(yōu)于目前若干個(gè)商業(yè)軟件。 本文提出的基于改進(jìn)Hough變換的試卷圖像校正方法,通過(guò)初次檢測(cè)與深度檢測(cè)相結(jié)合的方法,在追求高準(zhǔn)確度的要求下也達(dá)到節(jié)省時(shí)間的目的。實(shí)驗(yàn)結(jié)果表明,該算法實(shí)現(xiàn)了試卷傾斜角度的檢測(cè)和校正。 參考文獻(xiàn): [1]劉侃.基于分層隨機(jī)Hough變換的文本圖像傾斜檢測(cè)[J].中國(guó)體視學(xué)與圖像分析,2010,15(4):382-386. [2]謝忠紅.采摘機(jī)器人圖像處理系統(tǒng)中的關(guān)鍵算法研究[D].南京:南京農(nóng)業(yè)大學(xué),2013. [3]邱力為.直線參數(shù)檢測(cè)的快速哈夫變換[J].北京航空航天大學(xué)學(xué)報(bào),2003,29(8):741-744. [4]瞿洋.Hough變換OCR圖象傾斜矯正方法[J].中國(guó)圖象圖形學(xué)報(bào),2001,6(2):178-181. [5]芮挺.車(chē)牌識(shí)別中傾斜牌照的快速矯正算法[J].計(jì)算機(jī)工程,2004,30(13):122-123. [6]梁添才.基于Hough變換的列車(chē)客運(yùn)票圖像傾斜校正[J].華南理工大學(xué)學(xué)報(bào),2007,35(5):35-40.