付鵬斌,劉鵬輝,楊惠榮,董澳靜
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
中英文混合文本識別是一個涉及字符切分、分類和識別的復(fù)雜上下文問題。目前,對于印刷體中英文混合文本識別的研究成果較多,且識別率較高[1-2]。在手寫文本識別方面,文獻[3]將輸入的手寫中文文本行切分為字符片段,動態(tài)構(gòu)建候選序列,并通過結(jié)合多種上下文信息搜索最佳路徑,實時得到識別結(jié)果。文獻[4]基于半馬爾科夫條件隨機場構(gòu)建識別候選序列,自然融合候選片段置信度、幾何和語義得分進行路徑評價,并提出一種前后向陣列修剪算法,減少使用語言模型訓(xùn)練的計算量。文獻[5]提出一種結(jié)合三元語言模型緊湊的CNNBLSTM 方法,使用多階段訓(xùn)練方法實現(xiàn)多感受野機制,該方法達到了業(yè)界前沿的效果。文獻[6]開發(fā)了“谷歌”在線手寫識別系統(tǒng),支持22 種腳本和97 種語言,實現(xiàn)了快速、高準確度的識別。文獻[7]開發(fā)了在線手寫識別系統(tǒng),支持102 種語言,識別效果較好。但上述在線手寫文本識別方法的研究[8]以及相關(guān)識別的研究[9-11]僅能支持單一語言的文本識別,缺乏對中英文混合手寫文本識別的支持。在商業(yè)領(lǐng)域,絕大多數(shù)國內(nèi)輸入法不支持中英文混合手寫識別。法國公司Myscript 開發(fā)的手寫筆記軟件nebo 支持中英文混合手寫識別,且識別效果在業(yè)界處于較高水平,但軟件收費且核心識別技術(shù)不對外公開。因此,亟待研究一種有實用價值的在線中英文混合手寫識別技術(shù)。
本文提出一種在線中英文混合手寫文本識別方法,使用基于多重規(guī)則的切分算法得到字符片段,并在分類算法中進行中英文片段分類。在此基礎(chǔ)上,結(jié)合自然語言模型和動態(tài)規(guī)劃算法得到字符序列,分別送入基于CNN 的在線手寫識別模型,最終得到中英文混合手寫文本識別結(jié)果。
聯(lián)機手寫數(shù)據(jù)通常是通過手寫板、手寫筆或鼠標得到的按書寫筆畫排序的點數(shù)據(jù)序列。在無約束情況下,手寫文本常常會出現(xiàn)字符粘連、交錯、噪聲點以及文本行書寫傾斜的情況,影響識別效果。特別是文本行的傾斜,會對后續(xù)文本切分和識別帶來嚴重的影響,因此預(yù)處理階段的重要工作除了降噪外就是進行文本行的傾斜矯正。由于文本行的字符中心大致符合直線擬合趨勢,因此采用最小二乘法對手寫文本行進行傾斜矯正。
令每個筆畫的點坐標序列為P[(x0,y0),(x1,y1),…,(xn,yn)],則該筆畫中心點為。對文本行中所有筆畫中心點(xi,yi),0
結(jié)合最小二乘法思想:
求得擬合直線后,計算文本行中心點,計算公式如式(6)所示:
其中:xmin,xmax分別為文本行點坐標序列中x的最小值和最大值。
擬合直線與水平面的夾角為α,文本行圍繞中心點進行中心旋轉(zhuǎn)α度。傾斜矯正效果如圖1 所示。
圖1 傾斜矯正效果Fig.1 Tilt correction effect
由于預(yù)處理后得到的筆畫序列包含中、英文字符且可能存在字符重疊、粘連問題,因此需要進行字符切分,且字符切分算法的好壞將直接影響文本識別結(jié)果。欠切分方法得到的字符片段可能包含多個字符,會導(dǎo)致識別錯誤,而過切分方法得到的字符片段通常包含單個字符或單個字符的子片段,可通過合并算法獲得正確字符。因此,本文結(jié)合字符筆畫的幾何特征和空間特征,設(shè)計了基于多重規(guī)則和路徑評價的中英文混合文本分割算法。
對于在線手寫文本而言,文本的切分就是筆畫序列的正確分割和整合。本文結(jié)合水平相對位置、垂直重疊率、面積重疊率對筆畫進行整合,相關(guān)定義如下:
定義1垂直重疊率是相鄰兩個筆畫在垂直方向重疊的比率。
根據(jù)定義1 進行筆畫整合的示意圖如圖2(a)所示,其中:lo為兩筆畫重疊長度;la為筆畫a1的長度;lb為筆畫b1的長度。
定義2面積重疊率是相鄰兩個筆畫或筆畫組合片段的最小外包矩形面積的重疊部分與兩塊面積中較小者的比值,其計算公式如式(8)所示:
根據(jù)定義2進行筆畫整合的示意圖如圖2(b)所示,其中:So為重疊面積;Sc為筆畫c的最小外包矩形的面積;Sd為筆畫組合片段d的最小外包矩形的面積。
圖2 筆畫整合示意圖Fig.2 Schematic diagram of stroke integration
切分算法使用相鄰兩筆策略,假設(shè)2 個相鄰筆畫a和b,a書寫在前,b書寫在后,手寫文本的筆畫序列使用如下規(guī)則進行整合:
規(guī)則1水平相對位置規(guī)則。若筆畫b的最右端在筆畫a最右端的左側(cè),則認為2 個筆畫屬于同一字符片段,進行筆畫整合,如圖2(a)中a1和b1。
規(guī)則2垂直重疊率規(guī)則。若筆畫a和筆畫b的垂直重疊率超過閾值(本文取50%),則認為2 個筆畫屬于同一字符片段,進行筆畫整合,如圖2(a)a2和b2所示。
根據(jù)上述兩個規(guī)則,筆畫序列中的某些筆畫已完成了整合,稱為筆畫組合片段;若2 個相鄰筆畫或筆畫組合片段c和d不滿足規(guī)則1、2,如圖2(b)所示,則需使用如下規(guī)則進一步整合:
規(guī)則3面積重疊率規(guī)則。若c和d的面積重疊率超過閾值(本文取40%),認為2 個筆畫或筆畫組合片段屬于同一字符片段,進行筆畫整合。
筆畫整合完成之后,若筆畫組合片段的寬度值超過閾值(本文取筆畫片段高度的1.8 倍),則認為該筆畫存在連筆情況,應(yīng)進行切分。
根據(jù)大量統(tǒng)計和相關(guān)文獻[12]的研究可知,中文字符中的大部分連筆筆畫均具有一個明顯的特征,即存在一個較長的、方向穩(wěn)定的筆畫,且筆畫的書寫方向為從左下方到右上方。不僅中文連筆字符具有這個特征,而且英文也具有同樣特征。另外,英文還有一種連筆情況,即字符筆畫的書寫方向為從左上方到右上方。連筆筆畫還具有相同的位置特征,即連筆筆畫的位置位于整個筆畫的中間部位。依據(jù)這2 個特征就可以找到字符連筆筆畫并進行切分。
本文使用八方向特征來處理字符連筆的切分。八方向特征是特征提取中常用的方法[13],它是四方向特征(水平、垂直、斜上、斜下)的細化,能夠較好地提取8 個方向的筆畫,八方向分解圖如圖3 所示,字符連筆情況多出現(xiàn)在D7、D8 的方向特征圖中。
圖3 八方向分解Fig.3 8-direction decomposition
八方向特征圖是通過計算字符點序列中每個點的方向生成。給定某一字符中的某個坐標點pk,前一點為pk-1,后一點為pk+1,它的方向向量計算公式如下:
得到方向向量Vk后,將其投影到8 個方向上并進行向量分解,得到八方向特征圖。
針對字符連筆書寫情況,本文設(shè)計了一種檢測連筆筆畫并切分的方法,具體步驟如下:
步驟1連筆檢測。計算字符筆畫或筆畫組合片段的寬度值,如果寬度值大于閾值,那么認為該筆畫或筆畫組合片段存在連筆情況,篩選出該筆畫或筆畫組合片段,如圖4 所示,其中詞組“中國”是一筆寫出來的。
圖4 筆畫篩選示意圖Fig.4 Diagrammatic sketch of stroke filter
步驟2根據(jù)篩選出的連筆筆畫生成對應(yīng)的八方向特征圖,并根據(jù)連筆方向情況選擇D7、D8 方向圖,如圖5 所示。
圖5 特征方向圖搜索Fig.5 Search for feature direction diagrams
步驟3搜索連筆筆畫。在特征方向圖中,搜索到的范圍內(nèi)較長的連續(xù)點序列即為連筆筆畫,W為特征方向圖的寬度。
步驟4連筆筆畫切分。在現(xiàn)有研究中,切分點大多采用連筆筆畫的中點,且在切分過程中并不會刪除連筆區(qū)域的冗余點坐標數(shù)據(jù),即只做切分,不做其他處理。但是,冗余的點坐標數(shù)據(jù)對字符識別準確率有一定影響。因此,本文定位2 個切分點,并刪除連筆部分的冗余筆跡,即2 個切分點中間的點坐標數(shù)據(jù)做刪除處理。切分點的位置定在筆畫的除連筆部分剩余其他部分的最小外包矩形與字符筆跡的交點上,如圖6 所示,圖中圓圈為確定的2 個切分點。
圖6 確定切分點示意圖Fig.6 Schematic diagram of determining the point of division
經(jīng)過以上步驟,得到字符連筆切分的效果如圖7所示。
圖7 連筆切分效果圖Fig.7 Effect drawing of continuous pen segmentation
預(yù)處理完成的手寫文本筆畫序列通過水平相對位置、垂直重疊率、面積重疊率3 個規(guī)則進行整合,之后進行連筆檢測并切分,最終得到切分完成的中英文字符片段序列,切分算法如算法1 所示。
算法1基于多重規(guī)則的中英文手寫切分算法
由于兩種語言類別數(shù)相差較大、字符結(jié)構(gòu)不同、相關(guān)度不高,混合識別不能達到較好的效果。因此,通過基于多重規(guī)則的切分算法得到的字符片段需要進行中英文分離,把分離后的中、英文字符片段序列進行合并,之后分別送入單語言模型進行識別。中英文混合字符片段的分離通過基于筆畫個數(shù)、寬高比、中心偏離距離、平滑度等幾何特征和字符片段識別置信度相結(jié)合的分類算法來完成。
如圖8 所示,本文提取的字符片段幾何特征包括字符片段的寬度、高度、寬高比、筆畫個數(shù)、字符間距、中心偏移距離、平滑度。具體定義如下:
圖8 幾何特征提取Fig.8 Geometric feature extraction
h:字符片段的高度值。
w:字符片段的寬度值。
hw:字符片段的寬高比值。
n:字符片段的筆畫個數(shù)。
d:字符片段間的距離。
定義4文本行高度估計值H。對所有筆畫按高度值升序排序;如果輸入筆畫數(shù)小于閾值β,則H取所有筆畫中的高度值最大的筆畫高度。如果輸入筆畫數(shù)大于閾值β,則H取筆畫序列中高度值較大的1/2 筆畫的平均值。設(shè)置閾值β(本文為10)是為了防止輸入筆畫過少,導(dǎo)致H估算偏差較大。
定義5中心偏移距離z。字符片段中心點與文本行中心線的距離,字符片段中心點在文本行中心線下方為負值,在文本行中心線上方為正值。
定義6字符片段的筆跡平滑度k,反映了書寫筆跡的彎曲程度。每個筆畫上隨機選擇5 個點,計算每個點的局部曲率值,假設(shè)筆畫L由坐標點構(gòu)成,則對應(yīng)的方程為y=f(x),筆畫L在點M(x,y)處切線的斜率為y′=tanα,則
定義7識別置信度是為了估計字符識別結(jié)果的準確性。本文識別置信度為卷積神經(jīng)網(wǎng)絡(luò)輸出的Softmax 概率值。
根據(jù)以上特征,本文設(shè)計了基于幾何特征的粗分類器和基于識別置信度的細分類器。
將以下4 個特征作為粗分類器的主要依據(jù):
1)中文字符片段的筆畫個數(shù)明顯多于英文字符片段;
2)中文字符片段的高度高于英文字符;
3)英文字符片段筆跡的平滑度高于中文字符;
4)英文字符中心點位于文本行中心線下方。
粗分類器能夠?qū)⒋蟛糠肿址握_分類,而無法分類的字符片段將進入細分類器。細分類器包含了基于CNN 的在線手寫英文識別模型和在線手寫漢字識別模型。進入細分類器后,每個字符片段將會得到2 個模型對應(yīng)的識別置信度,若手寫漢字識別模型的識別置信度較大,則歸為中文片段,否則歸為英文片段。具體的字符片段分類算法如算法2所示。
算法2基于幾何特征和識別置信度的分類算法
針對算法2 中分類器的限定條件作如下說明:在一般情況下,英文字符的筆畫最多為3 個,若n≥5,可以認為該字符片段為中文;若hw<1,z<0,d≥行高,即字符片段的寬度小于高度、字符片段的中心點位于文本行中心線的下方且字符片段間的距離相對較大,可以認為該字符片段為英文;經(jīng)過對大量英文字符的平均曲率進行計算統(tǒng)計,發(fā)現(xiàn)k的最小值約為0.4,若k≥0.6,可以認為該字符片段為英文,若k≤0.2,則認為該字符片段為中文。
通過上述文本切分和字符片段分類的算法,得到了字符串基本切分片段,由于中文字符筆畫數(shù)多、結(jié)構(gòu)復(fù)雜,且大部分字符不能一筆完成,因此字符片段中存在欠合并的現(xiàn)象。所以,本文結(jié)合自然語言模型和動態(tài)規(guī)劃的路徑評價算法搜索最優(yōu)的字符合并路徑?;谧址巫R別框架,首先將一個字符串切分為基本片段,接著將一個或者多個基本片段合并為候選字符,生成候選識別網(wǎng)絡(luò),如圖9 所示。候選字符首先被基于CNN 的在線手寫中、英文字符識別模型進行識別并得到識別置信度;然后結(jié)合自然語言模型,通過路徑評價算法得到路徑評分;最后,使用路徑搜索算法選出評分最優(yōu)的合并路徑,得到合并完成的待識別字符序列。
圖9 部分候選識別網(wǎng)絡(luò)Fig.9 Part of the candidate identification network
對于自然語言概率模型而言,假設(shè)文本行S的識別結(jié)果為R=(R1,R2,…,Rn),以P(S)代表該識別結(jié)果的概率,則概率評估函數(shù)為:
根據(jù)鏈式法則,概率評估函數(shù)可轉(zhuǎn)化為:
由于輸入法對識別時間要求較高,考慮到計算量以及語料庫的大小,本文使用N-gram 模型的二元語言模型來計算式(16)的概率,因此:
其中:每個字符出現(xiàn)的概率只取決于前一個字符。
本文訓(xùn)練的自然語言概率模型所使用的數(shù)據(jù)庫為搜狗實驗室公開發(fā)布的搜狐新聞數(shù)據(jù)(SogouCS)以及全網(wǎng)新聞數(shù)據(jù)(SogouCA)。在不考慮其他模型的情況下,自然語言模型概率最大的字符組合即為最佳的識別路徑。如圖10 所示,為字符片段通過計算自然語言模型概率得到的最優(yōu)識別路徑。
圖10 二元語言模型路徑Fig.10 Binary language model path
對字符片段組合加以規(guī)則約束,可以減少候選片段組合的數(shù)量,進而提高路徑搜索效率。本文定義規(guī)則如下:
1)候選字符合并個數(shù)不超過3 個;
2)候選字符合并后的寬度不超過高度的2 倍;
3)待合并的2 個候選字符的水平距離不超過候選字符寬度的1.5 倍。
基于規(guī)則的組合策略,對候選字符片段進行組合,一次組合稱為路徑s。組合后的片段分別提取特征得到X=(x1,x2,…,xn),如果假設(shè)字符串識別結(jié)果為R=(r1,r2,…,rn),那么該識別結(jié)果的后驗概率[14]為:
其中:P(s|X)代表在獲取特征X的情況下組合路徑s的后驗概率,P(R|Xs)代表在獲取組合路徑s的情況下識別結(jié)果R的后驗概率。
考慮到字符片段組合后包含大量的路徑以及能夠避免大量的計算,最優(yōu)結(jié)果可以近似計算為:
其中:P(s|X)以判斷該字符是否有效切分來表示當前路徑的概率。由于本文使用的文本行數(shù)據(jù)庫沒有切分點數(shù)據(jù),以及加入了基于規(guī)則的組合策略,因此本文沒有使用該分類器的概率值。
因為本文識別技術(shù)主要應(yīng)用于輸入法,沒有考慮符號、數(shù)字等其他字符,所以沒有使用幾何模型,僅使用了單字符識別概率值和自然語言模型。P(R|Xs)可以表示為:
其中:p為常數(shù);p(ri|xi)為字符分類的結(jié)果;p(R)為自然語言模型的結(jié)果。
考慮到不同分類器的權(quán)重問題以及克服路徑長度的影響,本文使用了修正的片段寬度加權(quán)方法,通過公式兩邊取對數(shù),并在每一項前加入權(quán)值來解決權(quán)重問題;通過歸一化字符片段寬度以及語言模型對整個長度做歸一化來克服路徑長度的影響。計算公式如下:
其中:wi代表第i個路徑中片段的寬度;代表單字符分類器概率結(jié)果的對數(shù)值;代表自然語言模型的概率結(jié)果的對數(shù)值;λ1為自然語言模型參數(shù)。
通過路徑評價算法得到本次組合的評分,接下來,要從所有組合路徑中選擇一條評分最高的路徑。雖然采用了基于規(guī)則的組合策略對字符片段組合加以約束,但仍有大量的組合方式。若對全部的組合方式進行計算,文本識別性能將會變得極為低效。所以,快速有效的路徑搜索算法對提高文本識別的性能至關(guān)重要。路徑評價函數(shù)是計算所有候選字符得分的加和值,取最大加和值的字符路徑為最優(yōu)路徑,因此可以使用動態(tài)規(guī)劃算法進行路徑搜索,在搜索的中間節(jié)點中保留一條最優(yōu)路徑,從而使路徑搜索快速且有效。路徑搜索的算法如算法3 所示。
算法3路徑搜索算法
在文字識別領(lǐng)域,CNN 模型取得了巨大的成功[15-17]。本文把前述分割得到的中、英文字符序列分別送入CNN 模型并進行訓(xùn)練識別。
單字符的識別采用了經(jīng)典的CNN模型LeNet-5[18-19],并在其基礎(chǔ)上進行改進:
1)輸入輸出層:輸入尺寸修改為本文輸入尺寸,后續(xù)各層的尺寸相應(yīng)改變,在輸出層添加Softmax 激活函數(shù),從而加速模型收斂,緩解Sigmoid 函數(shù)發(fā)生梯度消失的問題。
2)卷積層、池化層:當分類數(shù)越大時,模型所需要的特征信息也相對增多,于是增加模型的層數(shù)和特征圖數(shù)量;按照兩層卷積層、一層池化層的組合排列,添加了6 層卷積層和2 層池化層,特征圖的數(shù)量從50 到400 逐層增加。卷積層采用3×3 大小的濾波器,池化層采用2×2 的濾波器。
3)全連接層:本文采用2 個全連接層,每層有1 024 個單元。由于訓(xùn)練樣本有限、模型參數(shù)過多、模型層次過深,導(dǎo)致訓(xùn)練時易發(fā)生過擬合現(xiàn)象。為避免該現(xiàn)象的發(fā)生,本文加入了dropout 算法。
基于以上改進,本文設(shè)計并實現(xiàn)了14 層CNN 模型,模型包括8 層卷積層、4 層池化層、2 層全連接層,如圖11 所示。
圖11 CNN 模型結(jié)構(gòu)Fig.11 Structure of CNN model
由于英文字符類別數(shù)較少,因此本文將提取的單字符特征圖作為網(wǎng)絡(luò)模型的輸入。
對手寫字符進行線性插值、平滑、歸一化等預(yù)處理后,通過計算該字符的最小外包矩形得到字符邊界,將其平均分為12×12=144 塊,使該字符的所有點坐標落入小方塊中,統(tǒng)計每個小方塊中字符點坐標的個數(shù),若個數(shù)大于0,則該方塊的特征值為1,否則為0;得到12×12 的特征圖,特征圖提取過程如圖12所示。最終,把得到的特征圖作為CNN 的輸入。
圖12 特征圖提取Fig.12 Feature map extraction
模型訓(xùn)練的數(shù)據(jù)集為哈爾濱工業(yè)大學(xué)收集的HIT-OR3C[20]中的Letter 子集以及華南理工大學(xué)收集的SCUT-COUCH2009[21]英文字母子集。
文中用于在線手寫中文漢字識別的流程大致分為3 個步驟:預(yù)處理,特征提取,CNN 訓(xùn)練識別。
首先,對字符進行預(yù)處理。主要有長寬比映射關(guān)系歸一化、平滑、線性插值、加入虛擬筆畫等,加入虛擬筆畫有助于字形的區(qū)分(這里的虛擬筆畫是指上一筆結(jié)束點和下一筆起始點之間的連線,也就是當書寫完成當前筆畫后準備書寫下一筆畫時,筆尖脫離紙面在空中劃出的軌跡),如圖13 所示。
圖13 虛擬筆畫Fig.13 Virtual stroke
然后,將預(yù)處理后得到的字符點坐標序列進行方向分解,生成D1~D8 這8 個方向的特征,即點坐標的八方向特征圖提取。
雖然CNN 在數(shù)據(jù)處理時,不需要顯式構(gòu)造特征,但原圖輸入最具有代表性,且將對最終的分類結(jié)果產(chǎn)生積極的影響。因此,本文把8 方向特征圖加上原圖構(gòu)成9 通道特征圖(由9 張32×32 像素的圖組成)作為CNN 的輸入,如圖14 所示。
圖14 9 通道特征圖Fig.14 9 channel characteristic diagram
模型訓(xùn)練的數(shù)據(jù)集為中科院收集的CASIAOLHWDB 1.0[22]、CASIA-OLHWDB 1.1 以及HIT-OR3C的中文子集。
本文所提在線中英文混合手寫文本識別方法通過預(yù)處理、文本切分、字符片段分類、字符片段合并以及單字符識別,最終得到文本識別結(jié)果,識別流程如圖15 所示。
圖15 本文方法識別流程Fig.15 Identification procedure of the method in this paper
選用公開的在線手寫中文文本數(shù)據(jù)集CASIAOLHWDB2.0-2.2[23]以及本文采集的在線混合手寫中英文文本行數(shù)據(jù)集OH-C_E_TextDB,并將常用中文字詞和英文單詞隨機重組為文本樣本,共計3 000條,30 名采集人員(大學(xué)生10 名,研究生10 名,教師10 名)進行手寫數(shù)據(jù)采集,每人隨機采集100 條。部分文本樣本如表1 所示。
表1 部分樣本數(shù)據(jù)Table 1 Partial sample data
本文通過切分正確率Rc和切分有效率Rν來驗證過切分算法的性能,計算公式如下:
其中:Mc表示真實切分點與正確切分點的匹配個數(shù),即正確切分個數(shù);Mt表示真實切分點總數(shù);Mz表示所有切分點的個數(shù)。Rc的值越大說明命中正確切分點的數(shù)量越多,Rν的值越大說明字符出現(xiàn)過切分的情況更少。
表2 和表3 分別給出了本文切分算法及其他切分算法在CASIA-OLHWDB 2.0-2.2 數(shù)據(jù)集、OH-C_E_TextDB 數(shù)據(jù)集上的切分性能測試結(jié)果。
表2 不同方法在CASIA-OLHWDB 2.0-2.2 數(shù)據(jù)集下的切分對比實驗結(jié)果Table 2 Experimental results of segmentation comparison of different methods under CASIA-OLHWDB 2.0-2.2 data set
表3 不同方法在OH-C_E_TextDB 數(shù)據(jù)集下的切分對比實驗結(jié)果Table 3 Experimental results of segmentation comparison of different methods under OH-C_E_TextDB data set
通過表2 和表3 的對比實驗結(jié)果可以發(fā)現(xiàn),本文切分算法相比其他切分算法的切分正確率、切分有效率均有所提高,并且減少了切分耗時。相比表2,本文切分算法在表3 的切分正確率、切分有效率有所提升,而其他2 種切分算法均有所下降。究其原因,發(fā)現(xiàn)OH-C_E_TextDB 數(shù)據(jù)集中有大量的英文連筆和中文連筆數(shù)據(jù),而其他2 種算法對字符連筆情況處理效果較差,尤其是英文連筆的切分。圖16 給出了3 種切分方法在實際數(shù)據(jù)中的對比圖。通過實驗結(jié)果可知,本文切分算法不僅對在線手寫中文文本行切分有效,而且對包含字符連筆的在線混合手寫中英文文本行切分有較好的切分效果。
圖16 不同切分方法在實際數(shù)據(jù)中的對比Fig.16 Comparison of different segmentation methods in actual data
為證明本文方法的有效性,采用字符串編輯距離的思想,具體用了3 個評判標準:文本行識別率(Row Rate,RR),文本正確率(Correct Rate,CR),文本精確率(Accurate Rate,AR),計算公式如下:
其中:Tr代表識別完全正確的文本行數(shù);Tz代表識別的總文本行數(shù);Nt代表每行真實文本個數(shù);De代表真實字符與識別結(jié)果對比的刪除錯誤數(shù)目;Se代表真實字符與識別結(jié)果對比的替換錯誤數(shù)目;Ie代表真實字符與識別結(jié)果對比的插入錯誤數(shù)目。
在OH-C_E_TextDB 數(shù)據(jù)集上的實驗結(jié)果表明,本文方法對在線混合手寫中英文文本的識別正確率、文本識別精確率以及文本行識別率分別可達93.67%、92.25%、91.53%,驗證了本文在線中英文混合手寫文本識別方法的有效性。
把本文識別方法應(yīng)用到在線輸入系統(tǒng)中,該系統(tǒng)利用動態(tài)維護候選字符序列的思想,進行實時切分識別。對系統(tǒng)進行實時性分析發(fā)現(xiàn),每當新筆畫輸入時,系統(tǒng)動態(tài)更新筆畫序列并進行切分、分類、合并以及識別,當抬筆時間超過1 s 時,系統(tǒng)判定字符輸入結(jié)束并立即輸出識別結(jié)果。系統(tǒng)識別效果如圖17所示。圖18展示了輸入“online 手寫中English 混合識別”的具體識別過程。由圖18 可知,字符連筆可以被正確分割并識別;在書寫中文字符“識”的過程中,先寫‘讠’,系統(tǒng)更容易認為是英文字符‘i’,而當把另一部分‘只’書寫完成后,正確識別為“識”。
圖17 在線中英文手寫識別效果Fig.17 Online Chinese and English handwriting recognition effect
圖18 文本識別過程Fig.18 Text recognition process
針對多數(shù)在線輸入法不支持中英文混合手寫文本識別的問題,本文提出一種在線中英文混合手寫文本識別的新方法。通過切分文本得到字符片段,并使用分類算法對字符片段進行分類。此外,結(jié)合自然語言模型和動態(tài)規(guī)劃算法將字符片段合并為字符序列,并通過在線手寫識別模型得到中英文混合手寫文本識別結(jié)果。實驗結(jié)果表明,相比其他切分算法,本文算法對在線手寫中文文本行及包含字符連筆的在線混合手寫中英文文本行均能較好地進行切分,在線中英文混合手寫文本識別正確率達93.67%。但本文研究的文本識別方法沒有考慮標點符號、數(shù)字等特殊字符,下一步將通過研究中文、英文、數(shù)字、符號4 種類別的識別方法,完善本文模型。