朱道遠,鄭 勝,,曾祥云,徐高貴(.三峽大學 計算機與信息學院,湖北 宜昌 44300;.三峽大學 理學院,湖北 宜昌 44300)
手繪太陽黑子圖手寫字符分割方法研究
朱道遠1,鄭 勝1,2,曾祥云2,徐高貴2
(1.三峽大學 計算機與信息學院,湖北 宜昌 443002;2.三峽大學 理學院,湖北 宜昌 443002)
利用固定區(qū)域坐標提取固定區(qū)域的單行數(shù)據(jù)字符塊;基于高斯模糊提取隨機手寫黑子信息字符區(qū);結(jié)合Hough變換與投影技術(shù)完成隨機手寫區(qū)域中包含多個黑子記錄字符塊的分割,并將包含單個黑子記錄字符塊分割為3個僅包含單行數(shù)據(jù)的字符塊;利用顏色填充分割算法分割出單行數(shù)據(jù)字符塊中的單個字符和粘連字符,結(jié)合平均字符寬度信息進一步分割粘連字符。實驗結(jié)果表明,每幅手繪太陽黑子圖的固定區(qū)域和隨機區(qū)域的字符分割平均正確率分別達到95.5%和79.6%。
Hough變換;投影算法;顏色填充分割算法;粘連字符;字符寬度
在光球觀測照相之前,太陽黑子觀測長期以來一直采用投影法手工描跡黑子的大小、形狀和位置[1]。對手繪太陽黑子圖進行數(shù)字化具有極為重要的意義,可降低珍貴數(shù)據(jù)丟失的風險,快捷簡單地查詢有關(guān)黑子的信息,匯聚各個天文臺的觀測數(shù)據(jù)進行有效的整理,為科學家和用戶提供數(shù)據(jù)服務。
國際上較早開展了手繪太陽黑子圖的數(shù)字化研究工作,西班牙和比利時分別開發(fā)出了HSUNSPOTS和DigiSun的手繪太陽黑子圖數(shù)字化軟件。中國自20世紀30年代末開始太陽黑子觀測,云南天文臺已積累圖1所示的手繪太陽黑子圖[2]達20 000多張。由圖1可見,手寫黑子信息可分為固定區(qū)域和隨機區(qū)域兩部分,分別如圖1中類似矩形框標記部分和類似橢圓框標記部分。提取手寫記錄信息并保存在計算機中是手繪太陽黑子圖數(shù)字化的重要內(nèi)容,因此手寫字符的提取和分割是其中一個重要的環(huán)節(jié)。
目前關(guān)于手寫字符分割的方法有很多[3-5]?;谕队昂洼喞卣鞯姆椒▽唧w的應用對象缺乏針對性,如投影分析法對字符發(fā)生嚴重傾斜或交錯的情況無法處理;外輪廓分析法在字符間粘連筆劃為直線的情況下,因找不到輪廓線上的凹點而不太適用?;诮Y(jié)構(gòu)特征的方法由于缺乏識別的指導,往往導致分割質(zhì)量不高?;谀0遄R別的方法是以字符識別器提供的置信度作為分割的度量,選取真實反映識別結(jié)果的置信度是提高分割正確率的關(guān)鍵??紤]上述字符分割方法的缺點和復雜性,以及隨機手寫黑子信息區(qū)字符中帶有圓圈的特殊性,本文研究圖1所示的固定區(qū)域和隨機區(qū)域手寫字符的提取與分割方法。
圖1 云南天文臺手繪太陽黑子圖的局部圖
1.1 基于坐標的固定區(qū)域手寫字符區(qū)提取
將原始圖進行大小歸一化,每幅圖中各固定區(qū)域的相對位置相同,計算出圖中各固定區(qū)域橫縱坐標最小和最大兩像素點,提取兩坐標點確定矩形框中原始圖像的像素值,即字符塊,如圖2(a)所示。
1.2 基于CFS算法與平均字符寬度的固定區(qū)域字符分割
利用顏色填充分割[6](Color Filling Segmentation,CFS)算法進行分割,若字符寬度小于最小字符寬度43,則為干擾字符(小數(shù)點、度符號、撇符號和等號),刪除;若字符寬度大于最大字符寬度61,則為粘連字符,結(jié)合平均字符寬度利用投影分割粘連字符,若其中存在干擾字符,刪除;其他則為單個字符。部分結(jié)果如圖2(b)所示。
圖2 固定區(qū)域部分字符塊的提取與分割
2.1 基于高斯模糊的隨機區(qū)域手寫字符區(qū)提取
對提取出固定區(qū)域字符塊后的圖利用全局閾值轉(zhuǎn)換為黑白圖,利用高斯模糊算法[7],使用大小為901×901、標準偏差為300的高斯模糊算子進行卷積運算,尋找所有的八鄰接連通域,刪除面積小于一定閾值的連通域,通過標注連接分量標記所有的連通域,利用標號尋找各連通域中橫縱坐標最小和最大兩像素點,提取稍大于兩坐標點確定矩形框范圍中原始圖像像素點的值,即字符塊,部分結(jié)果如圖3所示。
圖3 隨機區(qū)域部分手寫字符塊提取
2.2 基于Hough變換與投影的隨機區(qū)域字符塊分割
2.2.1 包含多個黑子記錄字符塊的分割
部分類似圖3(b)所示字符塊含有多個黑子記錄,需將其分割為類似圖3(a)所示僅包含單個黑子記錄的字符塊,利用Hough變換[8]來檢測圖中的圓圈,利用圓心坐標來判斷黑子的分布結(jié)構(gòu)。若兩圓心縱坐標差的絕對值遠大于兩圓心橫坐標差的絕對值,則為上下結(jié)構(gòu),以第二個圓圈圓心縱坐標減去半徑值為投影分割點進行垂直投影分割;反之,則為左右結(jié)構(gòu),以第二個圓圈圓心橫坐標減去半徑值為投影分割點進行水平投影分割。
2.2.2 包含單個黑子記錄字符塊的分割
由于圓圈的高度大于緊隨其后的行數(shù)據(jù)高度,對具有單個黑子記錄的字符塊進行垂直投影分割前需將圓圈去除;通過Hough變換檢測圓圈,利用圓心和半徑提取圓圈及圓圈中數(shù)據(jù),為第一行數(shù)據(jù);通過垂直投影選取合適的局部極小值點作為分割點,對剩余字符塊進行分割得到單行數(shù)據(jù)字符塊,分別為第二行數(shù)據(jù)和第三行數(shù)據(jù)字符塊,部分結(jié)果如圖4所示。
圖4 部分包含單個黑子記錄字符塊的分割
2.3 基于CFS算法與平均字符寬度的隨機區(qū)域字符分割
利用CFS算法進行分割,若第二行字符塊中字符滿足寬度<13或者>31且高度均≤100且字符面積處于574~2 170之間或者第三行字符塊中字符滿足高度≥42且字符面積處于574~2 170之間,則認為單個字符或者粘連字符,保留并判斷字符的寬度,若寬度>62,則為是粘連字符,結(jié)合平均字符寬度利用投影對粘連字符分割,若其中存在干擾字符,刪除;反之,則為是單個字符,部分結(jié)果如圖5所示。
圖5 部分包含單行數(shù)據(jù)字符塊的分割
選取中國科學院云南天文臺2000年2月至4月共43張分辨率達到5 000×6 000的手繪太陽黑子圖,人工統(tǒng)計共有13 717個字符,固定區(qū)域共有2 279個字符,隨機手寫區(qū)域共有11 438個字符。利用投影和本文方法分別對固定區(qū)域和隨機區(qū)域的手寫字符進行分割,以人工對比和確認的方式對字符分割的結(jié)果進行統(tǒng)計。
采用投影算法進行字符分割,固定區(qū)域字符分割正確的字符共2 156個,分割錯誤的字符共123個,分割正確率達94.6%;隨機區(qū)域字符分割正確的字符共8 716個,分割錯誤的字符共2 722個,正確分割率達76.2%。采用本文方法進行字符分割,固定區(qū)域字符分割正確的字符共2 176個,分割錯誤的字符共103個,分割正確率達95.5%;隨機手寫區(qū)域字符分割正確的字符共9 109個,分割錯誤的字符共2 329個,正確分割率達79.6%。
本文方法使固定區(qū)域字符和隨機區(qū)域字符分割平均正確率分別提高了0.9%和3.4%,表明采用方法得當,能較好地將包含單行數(shù)據(jù)的字符塊分割為多個完整的單個字符。
[1]劉學富.太陽黑子觀測[J].天文愛好者,1999(6):24-26.
[2]云南天文臺太陽觀測數(shù)據(jù)服務系統(tǒng)[EB/OL].(2015-05-25).http://www1.ynao.ac.cn/~solar/datadownload.php.
[3]丁杰,楊靜宇.一種基于模糊規(guī)則的手寫體粘連數(shù)字串分割[J].中國圖象圖形學報,2009,14(11):2292-2298.
[4]胡濤,呂紅,孫小虎,等.基于水平垂直灰度開運算的車牌字符分割算法[J].電子技術(shù)應用,2012,38(10):109-111.
[5]高慶吉,王曉華,趙為平.對粘連和缺損數(shù)字串分割的研究[J].模式識別與人工智能,2000,13(1):99-1021.
[6]YAN J,AHMAD A S E.A low-cost attack on a Microsoft CAPTCHA[C].Proceedings of the 15th ACM Conference on Computer and Communications Security,2008:543-554.
[7]丁怡心,廖勇毅.高斯模糊算法優(yōu)化及實現(xiàn)[J].現(xiàn)代計算機,2010(8):76-78.
[8]姜文,盧朝陽,李靜.基于Hough變換的手寫體維文字符傾斜校正算法[J].微型機與應用,2013,32(8):29-31.
Research on handwritten character segmentation method of hand-drawn sunspot image
Zhu Daoyuan1,Zheng Sheng1,2,Zeng Xiangyun2,Xu Gaogui2
(1.College of Computer and Information Technology,China Three Gorges University,Yichang 443002,China;2.College of Science,China Three Gorges University,Yichang 443002,China)
Using fixed region coordinates to obtain a single row character data block of fixed region.Based on Gaussian blur to extract handwritten sunspot random region.Using projection and Hough transform to complete segmentation of character block included some sunspot records and divide single sunspot records character block into three character blocks which contains only a single row data.Using color filling segmentation algorithm to split a single character or adhesion character from a single row character data block,and implement further segmentation of adhesion characters based on average character width.Experimental results show that character segmentation correct rate of fixed region and random region reached separately an average of 95.5%and 79.6%.
Hough transform;projection algorithm;color filling segmentation algorithm;adhesion characters;character width
TP319
A
1674-7720(2015)20-0033-03
朱道遠,鄭勝,曾祥云,等.手繪太陽黑子圖手寫字符分割方法研究[J].微型機與應用,2015,34(20):33-35.
2015-06-25)book=39,ebook=43