楊娜娜, 哈力旦·阿布都熱依木, 伊力亞爾·達吾提
(新疆大學 電氣工程學院,新疆 烏魯木齊830047)
維吾爾語是新疆維吾爾自治區(qū)一種重要的少數(shù)民族語言,其識別技術(shù)將被運用到文檔識別、網(wǎng)絡(luò)安全監(jiān)控、檔案管理、視頻會議和文獻檢索等各個領(lǐng)域,由于維吾爾語文字本身的書寫和句法構(gòu)成方式的特殊性,其識別方法與相對成熟的漢語、英語識別方法不盡相同,因此,維吾爾語的文字識別研究具有重要意義。目前的維吾爾語識別方法主要有:文獻[1]提出了運用決策方法對抽取到的樣本特征與樣本庫進行匹配的方法,該方法識別率并不太理想;文獻[2]提出了基于字符歸一化的雙投影互相關(guān)性匹配識別算法,這種算法對特定情況下的識別效果良好,但是識別樣本與匹配樣本有字體、灰度、傾斜角度等差異時,識別效果不佳,文獻[3]提出了基于 HMM的維吾爾語識別方法,該法具有不錯的識別效果,該法需要對維吾爾語常用詞建模,訓練樣本需求量大,迭代運算量大且識別時間長。
由加拿大英屬哥倫比亞大學的Lowe D G教授提出的尺度不變特征 SIFT 算法因其良好的特性,近年來已成為國內(nèi)外圖像處理和計算機視覺研究領(lǐng)域的熱點之一[4]?;赟IFT描述子的匹配方法已被成功地應(yīng)用到了很多領(lǐng)域,如目標識別、全景圖拼接,從運動恢復(fù)結(jié)構(gòu)等[5]。
統(tǒng)一尺度的字符樣本模板無法解決自然場景或光學圖像中提取的維吾爾語字符尺度差異大造成的匹配困難問題,因此,本文首先對測試圖像進行預(yù)處理,然后提取其水平和垂直灰度投影相關(guān)性和筆畫數(shù)特征進行預(yù)分類,對預(yù)分類結(jié)果與測試圖像進行基于SIFT尺度不變特征的圖像配準。
本文的識別對象是圖像中的維吾爾語字符,因此,要將句子切分成以字符為單位的圖像。句子中既有獨立形式的字符(不與其他字符相連)也有連寫字符構(gòu)成的連體段。首先統(tǒng)計原始圖像的垂直方向灰度直方圖分布,垂直投影的像素點空白區(qū)域為一級切點,對切分后的圖像進行連通域標記,一般連體段連通域長度為獨立字符連通域長度的2倍以上,然后對連體段再次進行垂直投影,選擇垂直投影密度最小的區(qū)域為二級切點。經(jīng)過2次切分后得到以字符為單位的維吾爾語文字圖像,然后對字符圖像進行降噪與灰度化處理并歸一化為統(tǒng)一尺寸。字符切分如圖1。
圖1 維吾爾語字符切分
提取字符圖像的水平、垂直方向灰度分布投影相關(guān)性特征和筆畫特征作預(yù)分類。
維吾爾語包含32個字母,大部分字母由于其在詞語中位置的不同又分別具有獨寫、首寫、中寫和尾寫4種形式,這樣32個字母就衍生出128種字符[6]。首先,建立包含所有維吾爾語字符的樣本庫,樣本庫中的字符字體均為最常用的維吾爾語字UkijTuz,存儲標號為該字母在維吾爾語字母表中對應(yīng)的位置序號。
然后提取測試圖像和樣本字符的水平與垂直方向灰度積分投影,測試圖像及其雙投影如圖2所示。
圖2 維吾爾語字符a的首寫形式及其垂直和水平方向投影
將測試圖像雙方向投影與樣本圖像雙方向投影的相關(guān)性,雙投影相關(guān)性曲線如圖3所示。
圖3 測試圖像與樣本字符雙投影相關(guān)性曲線
將這2個投影相關(guān)性序列按元素大小降序排列,分別取2個序列前30位元素的交集為預(yù)選結(jié)果。
維吾爾語書寫過程中一個完整的筆畫在字符圖像中表現(xiàn)為一個連通域,筆畫數(shù)特征是對歸一化后的字符圖像進行二值化和連通域標記,連通域個數(shù)即為筆畫數(shù)。筆畫數(shù)特征檢測如圖4所示。
圖4 筆畫數(shù)特征
維吾爾語字符最少由1筆構(gòu)成,最多由5筆構(gòu)成。提取雙投影相關(guān)性檢測后的候選結(jié)果的筆畫數(shù)特征,并與測試圖像的筆畫特征對比,排除不同筆畫數(shù)的圖像,其余樣本字符為預(yù)分類結(jié)果。
在對原始文字圖像進行降噪處理和字符切分的過程中,難免會造成失真,而且不同的原始圖像中切分出的字符圖像尺度差異很大。尤其測試圖像與樣本字符字體不同時,預(yù)分類方法無法準確得出唯一的識別結(jié)果。圖像尺度差異和字體差異會影響識別效果,因此,將測試圖像與預(yù)分類結(jié)果依次進行基于SIFT的圖像配準,最終可獲得更佳的識別效果。
基于 SIFT 算法的特征圖像配準可大致分為關(guān)鍵點的檢測、描述子的構(gòu)造和匹配3個過程。
為了使特征具有尺度不變性,關(guān)鍵點檢測是在多尺度空間完成的,高斯卷積核是實現(xiàn)尺度變換的唯一線性變換核,一幅圖像在不同尺度下的尺度空間定義為圖像I(x,y)與高斯核G(x,y,σ)的卷積[5,7],如下式所示
L(x,y,σ)=G(x,y,σ)?I(x,y).
(1)
為有效檢測出尺度空間中的穩(wěn)定特征點,引入高斯差分函數(shù)D(x,y,σ),相減得到DOG (difference of Gaussians)金字塔多尺度空間表示。對DOG尺度空間每個點與相鄰尺度和相鄰位置的點比較,得到的局部極值位置即為關(guān)鍵點所處的位置和對應(yīng)的尺度,如式(2)所示
D(x,y,σ)=L(x,y,kσ)-L(x,y,σ).
(2)
其中,k為一個常量。
方向描述子的構(gòu)造包括特征點的方向分配和生成特征描述子。
關(guān)鍵點坐標為(x,y)處的梯度幅值M(x,y)和方向θ(x,y)分別由如式(2)、式(3)[7,8]計算得出
M(x,y)=
(3)
(4)
在以特征點為中心的鄰域窗口內(nèi),采用梯度方向直方圖表示其鄰域像素的梯度方向統(tǒng)計值。梯度方向范圍為 0°~360°,其中每 10°在直方圖中表示一個柱,共有 36 柱。梯度方向直方圖的峰值是該特征點的主方向。當梯度方向直方圖中存在主峰值能量 80 %的以上的峰值時,該峰值所對應(yīng)的方向作為輔方向。特征點可以有一個主方向和多個輔方向,這樣可以提高特征匹配的穩(wěn)定性。
對任意一個關(guān)鍵點,在其所在的尺度空間 (即高斯金字塔結(jié)構(gòu)的某一層),取以關(guān)鍵點為中心的16像素×16像素大小的鄰域,采用高斯加權(quán)法在 4×4的圖像小塊上計算 8 個方向的梯度方向直方圖,然后對其根據(jù)位置依次排序,這樣就構(gòu)成了一個4×4×8=128維的向量,該向量就是SIFT描述子。
測試圖像的SIFT方向描述子如圖5所示。
圖5 測試圖像的SIFT方向描述子圖像
利用特征點的特征描述符向量之間的 Euclid 距離作為特征點的匹配度量,Euclid 距離最小的2個特征點可以認為是匹配的候選點對[5]。然后,用最小的Euclid 距離除以第二小的Euclid 距離,如果其比值小于一定閾值,則認為候選點對就是匹配點對;否則,認為是錯誤的匹配點對。
識別過程如圖6所示。
圖6 維吾爾語識別流程
圖7以與樣本字符不同字體的字母f為例說明此過程。
圖7 字母f的獨寫形式識別過程
測試圖片中字符字體和樣本字符字體在筆畫結(jié)尾處有幾何形態(tài)差異(圖8),經(jīng)過雙投影相關(guān)性檢測,標號為053,057,117的樣本圖像保留下來,這3個樣本的水平和垂直投影是與測試圖片的雙投影最相關(guān)的,然后對這3個樣本與測試圖像進行筆畫數(shù)特征比對,035和117號樣本與測試圖片筆畫特征相同,均為2筆,而057號樣本為3筆,因此,剔除057號樣本。最后預(yù)分類樣本依次與測試圖像進行基于SIFT方向描述子的配準(圖9),測試圖片與053號樣本的匹配點數(shù)為32,與117號樣本匹配點數(shù)為28,不但匹配點數(shù)相對較少并且無匹配率高,因此,053號樣本圖像視為正確的匹配結(jié)果,輸出對應(yīng)的維吾爾語字符為識別結(jié)果。
當從圖片中切分出的測試圖像尺度與樣本字符差異較大時[9](如圖8所示),一些特征點提取算法,如Harris[10]無法捕捉到測試圖像的特征,而SIFT算法仍然可以提取到關(guān)鍵點。
圖8 尺度差異
圖9 切分圖像的SIFT特征描述子
在100幅包含不同尺度和字體的測試圖像中,利用本文方法可以成功識別出其中83幅,該方法的識別周期為預(yù)分類的時間(0.998 624 s)加SIFT圖像配準的時間(0.077 s)共約1.076 s,耗時少,且識別效率高。
本文利用SIFT特征對旋轉(zhuǎn)、尺度縮放、亮度變化的保持不變性,解決了在維吾爾語識別過程中切分字符尺度不統(tǒng)一帶來的模板匹配困難問題。首先對測試圖片和模板字符進行雙投影相關(guān)性檢測,然后對與測試圖像相關(guān)性較高的模板字符進行筆畫數(shù)特征提取,得到預(yù)分類結(jié)果,最后將預(yù)分類結(jié)果依次與測試圖片進行SIFT特征檢測及配準得到識別結(jié)果,實驗表明該方法具有良好的識別效果。
參考文獻:
[1] 曹志宏.維吾爾文字聯(lián)機手寫體識別系統(tǒng)的研究與實現(xiàn)[D].烏魯木齊:新疆大學,2007.
[2] 萬金娥.基于字符歸一化雙投影互相關(guān)性匹配識別算法[J].計算機應(yīng)用,2013,33(3) : 645-647.
[3] 皮桂林.基于 HMM 的聯(lián)機手寫維文單詞識別方法研究[D].烏魯木齊:新疆大學,2012.
[4] Lowe D G.Distinctive image features from scale-invariant key-points[J].International Journal of Computer Vision,2004,60(2):91-110.
[5] 王程冬.SIFT 算法在點云配準中的應(yīng)用[J].傳感器與微系統(tǒng),2012,31(2):149-152.
[6] 艾力·居麥,哈力旦·A,黃 浩.視頻圖像中維吾爾文字的識別研究[J].計算機工程與應(yīng)用,2011,47(36):190-192.
[7] Zhao Wanlei,Rennes Inria.Flip-invariant SIFT for copy and object detection[J].Image Processing,2012,22(3):980-991.
[8] Mikolajczyk K,Schmid C.Scale & affine invariant interest point detectors[J].International Journal of Computer Vision,2004,200(1):63-86.
[9] 鄧任任,哈力旦·A.維吾爾文字自適應(yīng)角度定位[J].計算機工程與設(shè)計,2013,34(3):1121-1125.
[10] 馮政壽,王美清.基于Harris與改進SIFT算法的圖像匹配算法[J].福州大學學報:自然科學版,2012,40(2):176-180.