基于CNN 圖像識別與語義可靠性的路徑搜索方法

2021-01-15 07:18:20李宇霞孫永奇朱衛(wèi)國

計算機工程 2021年1期

李宇霞，孫永奇，閆茹，朱衛(wèi)國

（北京交通大學計算機與信息技術學院，北京 100044）

0 概述

票據是一種重要的資金交易憑證，其在購物、餐飲與交通等日常活動中大量使用。在記錄資金交易時，票據中有單位名稱、賬號以及金額等重要信息，這些信息的準確存檔對于銀行的統(tǒng)計、結算等工作至關重要。由于票據信息錄入是一項繁瑣、重復且容易出錯的工作［1］，因此，票據的頻繁使用給財務人員的工作帶來巨大挑戰(zhàn)。光學字符識別（Optical Character Recognition，OCR）技術在票據中的使用不僅能有效提高工作效率，而且可減輕財務人員的勞動強度。

票據中包括漢字和數字，漢字可分為印刷體和手寫體兩大類。相比數字與印刷體漢字，手寫體漢字的識別難度主要體現(xiàn)在以下3 個方面：一是漢字的字符集遠大于數字集合且結構復雜，二是與印刷體漢字相比，手寫體漢字風格多變且不規(guī)范，使得單個字符的識別難度大幅增加，三是手寫體漢字書寫時可能出現(xiàn)重疊和粘連等情況，導致漢字分割難度較大。此外，實際票據都含有復雜背景，采用圖像處理方法去除背景后經常出現(xiàn)字符模糊不清的情況。因此，本文主要對識別票據上的手寫公司名技術進行深入研究，采用基于過分割、組合和路徑搜索的識別框架，并在識別后采用多種字形相似度結合的方法對其進行糾錯，且在糾錯過程中利用語言模型LSTM 進行語義評估，以提高出現(xiàn)模糊字符時的手寫公司名識別準確率。

1 相關工作

關于手寫漢字文本識別（Handwritten Chinese Text Recognition，HCTR）的研究中，目前主要有兩大主流方法：基于過分割、組合和路徑搜索的方法以及基于深度學習的不分割方法［2］。前者先對文本進行過分割、組合，再利用字符分類器進行識別，并采用語言模型來搜索路徑［3］。然而，基于深度學習的方法不分割文本，而是直接利用神經網絡進行識別。

關于過分割的文本識別方法，文獻［4］提出一種識別日語郵件地址的算法，該算法采用過分割、組合方式，利用字符分類器進行識別，在路徑搜索過程中使用數據庫檢索和Trie 前綴樹實現(xiàn)實時識別，使得字符識別準確率達到83.68%。文獻［5］通過在生成字符識別候選項后加入詞候選項，利用詞的合法性進一步篩選，并在路徑搜索過程中使用字符級別與詞級別混合的語言模型進行剪枝的動態(tài)編程搜索，該方法在HIT-HW 數據集上的識別準確率達到77.84%。文獻［6］通過將圖像識別概率、幾何信息與語義相整合以提高手寫文本識別性能，該方法在路徑搜索階段使用集束搜索（Beam Search）方式，且在CASIA-HWDB［7］數據集上的字符識別準確率達到91.39%。文獻［8］采用與文獻［6］相同的系統(tǒng)框架，并對比了神經網絡語言模型（NNLMs）和BLMs 語言模型的性能，且在大型語料上訓練字符級別的3-gram、4-gram 和5-gram 模型。研究結果表明，在CASIA-HWDB 數據集上，NNLMs 模型和BLMs 語言模型表現(xiàn)相當，且可通過插值NNLMs 和BLMs 的混合模型顯著提高其識別性能。文獻［9］提出一種新的文本識別框架，在過分割后未直接進行組合，而是重新調整在行中心線上方或下方的過分割項的高度并使之穿過中心線。接下來，使用異構CNN 對所有組合項進行識別，再結合CNN 識別結果和語言模型進行動態(tài)路徑搜索。文獻［10］提出一種基于半馬爾可夫條件隨機場（semi-CRFs）的手寫文本識別方法，通過在格子上定義semi-CRFs 直接估計分割-識別假設的后驗概率，其中字符識別、幾何和語義信息均被定義為特征函數。文獻［11］提出使用3 個不同CNN 模型分別替換傳統(tǒng)的字符分類器、過分割與幾何模型，并使用循環(huán)神經網絡（Recurrent Neural Network，RNN）語言模型對搜索路徑進行語義評估，該算法在CASIA-HWDB 數據集上的字符識別準確率達到95.95%。

隨著深度學習的不斷發(fā)展，端到端的識別方法得到廣泛應用。比如，文獻［12］將LSTM-RNN 和CTC（Connectionist Temporal Classification）訓練框架應用于大類別（3 755 類）中文文本的識別研究中，提出一種多維LSTM 循環(huán)神經網絡與CTC 相結合的算法，并用于端到端的手寫中文文本識別。由于LSTM 提取的長期依賴關系存在計算耗時較長等問題，文獻［13］提出使用殘差塊代替循環(huán)結構來利用上下文信息，這是因為中文文本行識別可以基于鄰居區(qū)域而非整個上下文信息，且從鄰域中提取的信息僅是對目標字符區(qū)域中提取信息的補充。

近年來，基于隱馬爾可夫模型（Hidden Markov Model，HMM）的深度神經網絡（Deep Neural Network，DNN）被廣泛應用于HCTR，且在ICDAR-2013 競賽數據集上獲得良好的性能。文獻［14］在HMM 基礎上引入DNN，通過卷積結構自動學習手寫文本圖像的特征，以取代DNN-HMM 中的手工梯度特征，并使用高階N-gram 語言模型評估語義，在CASIAHWDB 數據集上的字符識別錯誤率達到4.07%。因為基于HMM 的方法中每個字符都需使用統(tǒng)一且固定數量的隱藏狀態(tài)進行建模，然而漢字的詞匯量較大，所以需要很多的存儲和計算資源。為解決該問題，文獻［15］提出簡單的DNN-HMM 模型，利用漢字間的相似性度量生成關聯(lián)狀態(tài)池，并通過關聯(lián)狀態(tài)的數據共享和減少狀態(tài)類間的混淆來提高識別精度，使得字符識別錯誤率降低6.2%。

在基于過分割、組合和路徑搜索的文本識別方法中，為提高識別準確率，通常采用自然語言的方法對結果進行后處理，并基于語言模型對其進行糾正。文獻［16］使用字符級別的N-gram 模型進行檢錯，若某個字的概率低于閾值，則認為該字為錯誤字符。接下來，將對基于拼音和字形的相似度進行糾錯。其中，在字形相似度度量方面，文獻［17］提出一種擴展的倉頡（Cangjie）碼計算字形相似度，該相似度是在Cangjie 碼的基礎上加入漢字組件布局。文獻［18］提出一種基于N-gram 語言模型和結巴（Jieba）中文分詞［19］的方法進行檢錯與糾錯，通過判斷連續(xù)孤立字檢錯，利用字符間的拼音、字形相似度和N-gram 評估語義進行糾錯，該方法在檢錯和糾錯上均取得顯著效果。

2 基于區(qū)間可靠性的公司名識別

本文方法可分為過分割、組合及字符分類器識別、路徑搜索、語言模型評估與字符檢錯糾錯4 個步驟。

步驟1過分割是將圖像過度分割成字符的基本組成元素，并稱這些元素為過分割項。

步驟2組合及識別是對可能屬于同一個字符的過分割項進行合并，利用字符分類器對合并后的候選項進行識別，從而得到合并識別項。然后，根據所有合并識別項識別結果的可靠性以及局部區(qū)間的語義可靠性，得到所有局部區(qū)間的可靠性。

步驟3路徑搜索是根據局部區(qū)間的可靠性進行路徑擴展，并利用剪枝策略對擴展過程中的路徑進行過濾。

步驟4采用語言模型評估所有候選路徑，并對評分最高的識別結果進行驗證與糾錯。

采用自然語言處理方法對字符進行檢錯與糾錯，手寫中文文本公司名識別流程如圖1 所示。

圖1 手寫中文文本公司名識別流程Fig.1 Procedure of handwritten Chinese text recognition for company names

2.1 過分割算法

文獻［4］中詳細地描述了過分割算法，該算法主要包括連通區(qū)分析、連通區(qū)粗粒度合并與粘連筆畫分割3 個步驟。首先，通過連通區(qū)分析可以初步得到漢字的筆畫或部件。其次，根據相鄰連通區(qū)的重疊度進行合并。最后，因為手寫不規(guī)范而造成有些字符間會連筆，所以這些字符會出現(xiàn)在一個連通區(qū)中，即筆畫粘連。為此，本文使用平均行高H與過分割項的寬、高信息檢測粘連過分割項，并對其進行分割，從而得到最終過分割項。

對于每個粘連過分割項，需要檢測每一列像素中橫向筆畫出現(xiàn)的次數。如果沿垂直方向切分，則橫向筆畫的像素特點是連續(xù)的黑色區(qū)域且該黑色區(qū)域的高度較小。當某一區(qū)域的橫向筆畫數量少于給定閾值時，則確定在該位置進行粘連筆畫分割，最終可得到一系列過分割項。圖2 舉例說明了過分割算法的具體過程，其中，圖2（c）中的豎線與漢字交叉的區(qū)域即為檢測到可用于分割的橫向筆畫。

圖2 過分割算法過程Fig.2 Process of over-segmentation algorithm

2.2 過分割項的組合及識別

由于過分割項通常只是漢字的一部分，如果要得到完整的漢字，則需要嘗試組合連續(xù)的過分割項，并利用字符分類器對其進行識別。

2.2.1 分割項組合

根據過分割項的寬、高和面積等先驗信息將其分為小型、中型和大型3 類。其中：小型對應漢字筆畫中的點狀或者細小部分，該形狀通常是其他漢字的一部分，且不能作為完整的漢字單獨出現(xiàn)；中型是細高狀或中等大小的方形過分割項，可能是漢字的偏旁，也可能是單獨構成的漢字；大型則是較大的方形過分割項，一般是漢字的主體部分，同時也有可能單獨構成漢字。過分割項的寬度和高度分別表示為w和h，所有過分割項的最大寬度與最大高度分別表示為W與H。如果過分割項的wθ3，則將其定義為中型；若以上條件均不滿足，但w<θ4×H，則也將其定義為中型；其余情形均被定義為大型，且參數θ1、θ2、θ3和θ4值均由實驗來確定。

根據漢字的結構特點，本文進行如下規(guī)定：

1）連續(xù)2 個大型項不允許組合。

2）當組合一個大型項后，不再連續(xù)組合大型或中型項。

3）每個過分割項至多組合3 個中型項。

4）小型項總是與其他項相組合。

5）若合并項寬度大于設定閾值，則不組合。

一個合并項至多保留前n個識別結果Rk（k=1，2，…，n），且用概率的形式表示。為降低空間復雜度并加快處理速度，在保證至少有一個識別結果的前提下，后面的識別結果Rk（k>1）若不滿足Rk>R1/3 且Rk>T，則將會被過濾掉，其中，T為設定閾值。

每個合并識別項都可用五元組（I，C，P，S，E）表示。其中，I是合并項的圖像信息，C是字符分類器的識別結果，P對應于C中每一個識別結果的概率，S和E分別是構成該合并項的起始、結束過分割項的位置信息。圖2（d）中部分過分割項（第8 項～第13 項）的組合方式以及識別結果可以形式化描述為圖3 所示，展示了上述五元組的后4 個元素（C，P，S，E），如（實，0.99，8，8）。此外，（8，中型）表示第8 個分割項是中型。

圖3 過分割項組合與識別結果示例Fig.3 Example of over-segmented items combination and recognition results

2.2.2 字符分類器

本文以10 層卷積神經網絡作為字符分類器，包括7 個卷積層、7 個池化層和3 個全連接層，且網絡結構如表1 所示。

表1 本文網絡結構類型及參數設置Table 1 Type and parameter setting of the network structure in this paper

將原始圖像大小調整為96×96 并作為網絡輸入，所有卷積層都使用3×3 的小卷積核，步長為1。該網絡結構與文獻［20］提出的VGGNet 相似，不同之處是，本文網絡結構在每個卷積層后都增加了最大池化層，池化窗口大小為3×3，步長為2。同時，為加快收斂速度，本文網絡結構在每個卷積層和池化層間加入批歸一化（Batch Normalization，BN）層與Scale 層，減少Dropout 的使用。文獻［21］表明，含有參數的ReLU（Parameteric Rectified Linear Unit，PReLU）激活函數在ImageNet model A 中的訓練效果優(yōu)于ReLU，因此本文使用PReLU 替換VGGNet 中的ReLU，且參數設置為默認值0.25。在3 個全連接層中，第一個全連接層FC1使用BN 和Scale 代替原來的Dropout，第二個全連接層FC2同時使用BN、Scale和Dropout。為了使模型學習到更多的特征，并保證原始圖像在網絡輸入層調整大小后前景字符仍然保持原始形狀，在輸入網絡結構之前，本文需要對原始圖像進行二值化、背景填充等預處理。

2.3 路徑搜索

每個過分割項在嘗試組合后都有一種或多種組合情況，且每種組合情況還會有一個或多個識別結果。本節(jié)將對首尾相連的合并識別項進行路徑搜索，并使用語言模型評估語義，最終得到合理的路徑。在路徑搜索階段，如果使用窮舉法，則時間復雜度為指數級，將導致計算量過大，因此需要邊剪枝、邊搜索。為此，本文提出一種可靠性優(yōu)先的集束搜索（Reliable First Beam Search，RFBS）方法，在搜索過程中不斷對路徑進行評估和剪枝，以抑制搜索空間增長過快。本文沒有采用傳統(tǒng)的從前到后的搜索方式，而是先通過合并項識別的可靠性與區(qū)間局部語義的可靠性來確定各個區(qū)間的可靠性，并在搜索過程中優(yōu)先考慮當前最可靠的區(qū)間。其中，所使用的區(qū)間用過分割項的序號來表示，例如［1，5］區(qū)間是指從第1 個過分割項到第5 個過分割項。

公司名的結構一般遵循“地名+特殊字符+行業(yè)+固定后綴”，比如在“寧夏天勝空調設備有限公司”中，“寧夏”是地名，“天勝”是特殊字符，“空調設備”是行業(yè)，“有限公司”是后綴。根據該結構特點，本文利用地名和固定后綴的先驗知識在路徑搜索前推斷識別錯誤的項，并在搜索后對路徑中有語義的行業(yè)信息進行進一步驗證與糾錯。

2.3.1 前后綴推斷

在公司名中，地名一般包括“北京”“上?！钡?，固定后綴一般是“有限公司”“有限責任公司”等。根據這些先驗知識可推斷字符分類器對于地名和后綴識別失敗的合并項，從而提升后續(xù)搜索過程的準確率。在進行推斷時，本文主要考慮以下3 個因素：字符位置，地名語料或后綴集合與字形相似度，本節(jié)使用的字形相似度將在2.4 節(jié)中詳細分析。

在推斷前綴的地名時，因為多數地名只有2 個字，所以本文主要考慮地名有2 個字的情形。先建立地名語料庫，令地名集合為L，地名第一個字的集合為L1，第二個字的集合為L2，L1與L2之間的映射關系分別為f1：L1→L2和f2：L2→L1。f1（x）=｛y|（x，y）∈L，x∈L1，y∈L2｝，例如f1（南）=｛京，昌，寧｝；f2（y）=｛x|（x，y）∈L，x∈L1，y∈L2｝，例如f2（京）=｛北，南｝。在接下來的識別過程中，結合f1（R1）值對識別結果的正確性進行判斷，如果判斷出識別結果不正確，則需要結合字形相似度決定選擇f1（Rj）中哪一個元素進行替換，且替換時還需計算Rj+1與f1（Rj）中所有字的相似度，并選擇相似度最高的元素進行替換。同理，如果R1的識別結果不正確，則利用f2函數進行糾正。

針對后綴推斷，本文主要是推斷出“公司”“有限公司”“有限責任公司”三類公司名后綴。當確定最后一個字為“司”時，則可對“公司”“有限公司”“有限責任公司”后綴進行區(qū)分。因為上述3 種后綴的重要區(qū)分在于路徑的倒數第三個字符，所以主要考慮“公”所在區(qū)間的前一個合并項識別結果。如果該結果中元素與“限”“任”的字形相似度均小于閾值，則該公司名的后綴為“公司”；否則，判斷其與“限”或“任”哪一個字形相似度更高，從而確定是“有限公司”還是“有限責任公司”。

2.3.2 基于圖像識別的可靠性分析

基于圖像識別的可靠性分析是根據每個合并項的識別結果分析該合并項組合方式的可靠性。由于合并項是由過分割項組合而成，對于區(qū)間［i，j］，以第i個過分割項開始的組合方式有多種，不妨假設共有n種。用表示區(qū)間［i，j］中以第i個過分割項開始的第k種組合方式，1≤k≤n；用表示組合方式識別結果的最大置信度n｝，即所有中的最大值；Ps表示所有中的次大值。將合并項組合方式的可靠性按如下方法分為4 個等級：

4）不可靠：剩余的其他情形。

2.3.3 基于語義的區(qū)間可靠性分析

基于語義的可靠性分析是利用語言模型對區(qū)間內的搜索路徑進行評估。常用的語言模型包括基于統(tǒng)計的二元文法（Bi-gram）和神經網絡語言模型。本文選擇Bi-gram 的主要原因是：對于公司名的局部區(qū)間僅需分析很短的字符串，不需要考慮較長的上下文信息；為了實現(xiàn)動態(tài)剪枝，在語義分析時會頻繁調用語言模型，然而Bi-gram 模型的算法復雜度較低。

定義過分割項集合為O，區(qū)間的最大長度為lm=α×|O|。對于每個長度不大于lm的區(qū)間［i，j］，取出該區(qū)間中所有合并項的識別結果并進行路徑搜索，再根據搜索結果按如下方式確定區(qū)間［i，j］的語義可靠性：

1）路徑不存在或路徑唯一且長度為1，則該區(qū)間的可靠性為0。

2）對于［i，j］中長度大于1 的單條或多條路徑，利用Bi-gram 進行語義評估時，選擇最佳評估結果作為該區(qū)間的可靠性。

在第3 節(jié)實驗中，閾值α通過漢字結構特點、帶語義詞的特點和參數優(yōu)化實驗確定為0.4。利用矩陣Rsem保存所有區(qū)間基于語義的可靠性，Rsem［i］［j］表示區(qū)間［i，j］的語義可靠性。為了將語義可靠性與圖像識別的可靠性組合使用，本文將其歸一化到［0，4］。

2.3.4 可靠性優(yōu)先的集束搜索

本節(jié)將結合圖像識別的可靠性和語義可靠性給出區(qū)間的最終可靠性。由于rimg［i］［k］是區(qū)間［i，j］中以第i個過分割項開始的第k個合并項的圖像識別可靠性，而Rsem［i］［j］是基于語義區(qū)間［i，j］的可靠性，因此在對其組合前根據rimg［i］［k］按如下公式計算出區(qū)間［i，j］圖像的識別可靠性Rimg［i］［j］：

其中，rimg［s］［k］為區(qū)間［i，j］中合并項的可靠性，Csum為該區(qū)間中可靠性大于0 的合并項總數。將2 種區(qū)間可靠性按如下公式加權組合得到區(qū)間［i，j］的最終可靠性Ry［i］［j］：

其中，系數p通過優(yōu)化實驗后確定為0.33，即圖像識別可靠性和語義可靠性的權重比約為1∶2。

圖4 為按加權可靠性劃分的區(qū)間示例，（0-2，3.02）中0-2 代表區(qū)間［0，2］，3.02 代表該區(qū)間的可靠性?？煽繀^(qū)間優(yōu)先是在搜索過程優(yōu)先處理可靠的部分，再處理不可靠的部分。在劃分區(qū)間時，很可能出現(xiàn)區(qū)間邊界將一個完整漢字拆分成兩個部分的情況，如圖4（b）所示，區(qū)間［5，11］與［12，13］將漢字“設”拆成兩部分。為解決該問題，本文引入滑動邊界的概念，即在原始區(qū)間的起始和結束邊界進行一定范圍的左右滑動，以保證過分割項的正確組合。根據漢字的結構特點將邊界滑動范圍設定為［-2，2］。例如，圖5 中區(qū)間的邊界中心是［5，11］，在進行局部路徑（LocPaths）搜索時，左邊界可以是［3，7］之間的位置，右邊界可以是［9，13］之間的位置。

圖4 基于圖像識別和語義可靠性的區(qū)間劃分示例Fig.4 Examples of interval partition based on image recognition and semantic reliabilities

圖5 滑動邊界示例Fig.5 Example of sliding boundary

本文在引入滑動邊界后，將會導致該區(qū)間內局部路徑增多，甚至導致路徑數量呈指數級增長。因此，在擴展之前采用Bi-gram 對該區(qū)間的局部路徑剪枝，并針對不同可靠性的區(qū)間動態(tài)設定剪枝閾值。同樣，區(qū)間與區(qū)間組合時也會存在路徑數量過多的問題，由于這種情況下擴展路徑較長，因此采用LSTM［22］進行剪枝。LSTM 是基于TensorFlow框架搭建的一個三層單向RNN 結構，網絡輸入序列X=｛x0，x1，…，xm｝，輸出序列Y=｛y1，y2，…，ym，ym+1｝（xi、yi對應時刻ti的字符）。網絡中每個隱藏狀態(tài)的輸入為上一時刻的輸出狀態(tài)hi-1和當前時刻的輸入xi，該隱藏狀態(tài)的輸出hi繼續(xù)作為下一時刻隱藏狀態(tài)的輸入，通過前向計算使得序列中每一時刻字符出現(xiàn)的概率依賴于前面所有字符。在訓練時，所有公司名序列長度必須一致，隱藏層的神經元個數為300，初始學習率設為0.001，利用交叉熵計算Y=｛y1，y2，…，ym，ym+1｝與真值序列X′=｛x1，x2，…，xm，xm+1｝的損失函數并進行反向傳播。

此外，本文還需解決區(qū)間的重疊問題。任何路徑都可用一個五元組（s，Sc，Ec，Sf，Ef）表示，其中，s是字符串，Sc、Ec是該區(qū)間的原始邊界位置，Sf、Ef則是邊界滑動后的實際邊界位置。當在已有區(qū)間的擴展路徑（ExpPaths）上擴展LocPaths 時，為避免路徑重疊需要遵循以下2 個原則：

1）LocPaths 的Sc、Ec與ExpPaths 中已有區(qū)間的Sf、Ef不能重疊。

2）如果LocPaths 的Sc、Ec與ExpPaths 中某個區(qū)間的Sc、Ec位置相鄰，則必須保證該LocPaths 與ExpPaths 之間沒有空隙。

綜合上述方法，基于可靠性優(yōu)先的路徑搜索過程如圖6 所示。

圖6 基于可靠性優(yōu)先的路徑搜索過程Fig.6 Process of path search based on reliability first

2.4 路徑評估及糾正

路徑搜索結束后將得到多條符合要求的完整路徑。針對得到的完整路徑，需要先通過路徑評估找出最佳路徑，再利用自然語言處理方法進行檢錯和糾錯。

首先，由于公司名的半語義特征使得完全依靠語言模型來選擇最佳路徑得到的結果不理想。因此，本節(jié)在篩選完整路徑時將綜合考慮單個字的識別概率、寬度標準差以及LSTM 語義評估結果，并對三者歸一化處理后加權得到最終評估結果。通過實驗確定當平均識別概率、寬度標準差、語義評分的權重比為1∶2∶3 時，評估效果最佳。

其次，針對公司名的檢錯，以“北京天勝設備有限公司”為例，“天勝”是語義較弱的特殊字符，其余字符均含有較強的語義信息。依據該特點，可采用Jieba 工具對公司名進行分詞。在分詞結果中非特殊字符位置出現(xiàn)孤立字，則認為是識別錯誤或組合錯誤。對于以上兩種錯誤，通過孤立字的位置以及連續(xù)長度進行區(qū)分。當孤立字不在地名后面時，如果連續(xù)孤立字長度為2，則認為是拼寫錯誤；如果長度為3，則需對該區(qū)域重新進行過分割項組合與路徑搜索，例如“涂料”被識別成“涂米斗”；如果長度超過3，則將其拆分成多種情況再進行上述方法處理。

最后，是關于公司名的糾錯。針對拼寫錯誤，常見的錯誤類型包括相似拼音、相似形狀與相似語義。在OCR 中，識別錯誤基本都是形狀相似的拼寫錯誤。文獻［18］中的糾正形狀相似拼寫錯誤的方法會導致候選項區(qū)分度不顯著，難以選擇。針對這種情況，本文在該方法基礎上加入漢字的部件相似度，該漢字部件庫來自文獻［23］。漢字是由一個或多個部件構成，如“智”由“矢”“口”“日”構成。因此，本文的相似度計算方法如式（3）所示：

其中，Ssj（x，y）、Ssn（x，y）、Simg（x，y）和Scom（x，y）分別為四角碼、筆畫數量、字體圖像和部件相似度，且其計算方法分別為：

其中：Edit（a，b）為文本a與b的編輯距離；Jx、Nx、Ix、Cx分別為字符x的四角碼、筆畫數量、字體圖像與部件集合；Size（C）為集合C的大小。

4 種相似度按式（3）加權得到總相似度Sw（x，y），權重參數w1、w2、w3、w4分別設為0.2、0.2、0.3、0.3。通過相似度得到的候選項需要加入原始路徑相應位置進行語言模型評估。

3 實驗驗證與分析

本節(jié)將通過消融實驗驗證本文所提方法的有效性。先介紹實驗使用的數據集與評價指標，再驗證本文方法對公司名的識別準確率和字符糾錯效果。

3.1 數據集與評價指標

實驗數據集可分為公司名語料庫和單字符數據集2 種，前者是用于訓練LSTM、Bi-gram 和文本糾錯模型的公司名語料，后者用于訓練CNN 模型。因為目前沒有專門用于票據識別的語料庫，所以通過網絡爬蟲構建包含75 萬條的公司名語料庫。單字符數據集使用中科院的手寫漢字數據集CASIAHWDB1.0-1.3，該數據集包含1 020 個作者書寫的7 200 多種漢字，且有3 755 個漢字是GB 2312-80 定義的一級漢字。實驗實際抽取了5 546 個漢字，包括全部一級漢字和部分二級漢字，且每個漢字約有1 000 張圖像。在這1 020 個作者中，816 個作者的手寫漢字作為CNN 模型訓練集，204 個作者的手寫漢字作為測試集。本文系統(tǒng)使用的測試樣本來自模擬票據中裁剪的只包含公司名的400 張圖像數據。

在識別實驗中，以所有測試樣本的字符識別準確率（Character Recognition Accuracy，CRA）和整條識別準確率（Line Recognition Accuracy，LRA）為評估標準。CRA 表示識別正確的字符數占總字符數的比例，LRA 表示圖像中所有字符均識別正確的樣本條數占所有測試樣本數量的比例。一般情況下，CRA 高于LRA。

關于字符糾錯實驗，本文對從公司名識別結果中選取的300 條存在錯誤漢字的數據進行糾正。用E表示檢測出錯誤漢字的總量，E1表示其中真正的錯誤漢字的數量，E2表示其中被誤檢為錯誤漢字的數量，D1表示真正錯誤的漢字被正確糾正的數量，D2表示誤檢錯誤漢字被錯誤糾正的數量，則定義rate1=D1/E1，rate2=D2/E2為字符糾錯方法的評價指標。rate1越高說明該方法對錯誤漢字的糾錯性能越好，rate2越低說明該方法的魯棒性越強。

為驗證本文所提糾錯方法的魯棒性，本文從ICDAR 2013［24］競賽數據集中隨機抽取圖像組合成4 000 條公司名。通過對圖像增加高斯噪聲和均值濾波進行模糊處理，其中，高斯分布的均值和標準差參數分別為3、0.4，均值濾波的核大小為3×3。實驗在對處理后的公司名圖像進行識別時，對比分析前后綴推斷以及糾錯方法的有效性。

3.2 實驗結果與分析

本節(jié)實驗分為以下2 個部分：第一部分是橫向對比傳統(tǒng)搜索與可靠性優(yōu)先搜索對識別結果的影響以及分析前后綴推斷策略對識別效果的提升，研究縱向分析語言模型對剪枝策略以及可靠區(qū)間搜索的影響；第二部分是對比漢字部件相似度以及語言模型對糾正公司名識別錯誤的效果。

3.2.1 第一部分實驗分析結果

表2 為不同搜索方法的識別準確率對比。從表2 可以看出：集束搜索方法的CRA 和LRA 均低于可靠區(qū)間優(yōu)先搜索策略，這是因為集束搜索是單向搜索，當遇到較長或者較混亂的不可靠區(qū)間時，會對語言模型產生一定干擾，導致錯誤區(qū)間后面的部分受到較大影響；相比集束搜索方法，基于圖像識別的可靠性優(yōu)先方法的CRA 提高2.11 個百分點，這表明可靠性優(yōu)先策略的有效性；由于手寫體不規(guī)范，CNN的分類結果并不是正確結果，僅依靠圖像可靠性存在一定的局限性。相比集束搜索方法，基于語義的可靠性優(yōu)先方法的CRA 和LRA 分別提高3.4、4.32 個百分點，且比基于圖像識別的可靠性優(yōu)先方法也有所提高，這表明在保留多種組合方式以及CNN 的前n種識別結果的情況下，語言模型能夠準確評估所有路徑的語義，找到能夠代表區(qū)間可靠性的最佳路徑；將圖像識別和語義的可靠性相結合的本文方法RFBS 的識別準確率最高，且當兩者的權重比為1∶2時達到最佳識別效果。

表2 不同搜索方法識別準確率對比Table 2 Comparison of recognition accuracy of different search methods %

表3 為前后綴推斷對識別準確率的影響。從表3 可以看出，加入前后綴推斷后，CRA 和LRA 分別提高6.04、22.46 個百分點，LRA 的提高幅度較大，這說明在整條識別錯誤結果中，至少1/3 的錯誤來源于前后綴字符，且是由CNN 識別錯誤導致的。

表3 前后綴推斷對識別準確率的影響Table 3 Effect of pre-suffixes on the recognition accuracy %

3.2.2 字符糾錯方法效果

字符糾錯使用的詞表來自公司名語料庫。通過rate1和rate2驗證部件相似度在糾錯中的效果，并對比分析基于公司名語料訓練的LSTM 和Bi-gram 對糾錯結果的影響。

表4 為不同字符相似度對糾錯結果的影響。從表4 可以看出：去除拼音相似度（Spy）后的rate1有所提高，然而rate2降低，這說明拼音特征不適合OCR 糾錯；第三種組合方式是在第二種組合三種相似度的基礎上加入部件相似度，使得rate1提高了8.49 個百分點，rate2降低了1.38 個百分點。因此，第三種方法能夠將真正錯誤的字符正確糾正過來，且不會糾正誤檢字符，從而保證方法的魯棒性；OCR 產生的錯誤字符除了形似導致的識別錯誤外，還有一部分來源于過分割后的組合錯誤，從而導致部分漢字缺少偏旁部首，但仍然是完整的漢字。對于這種情況，加入部件相似度（Scom）后可減少候選項的干擾，提高缺少偏旁部首的漢字與完整漢字之間的相似度。

表4 3 種字符相似度組合對糾錯結果的影響Table 4 Effect of three character similarity combinations on the error correction results %

表5 為相似度結合字符級別的N-gram、詞級別的N-gram 和LSTM 語言模型對糾錯結果的影響。其中，SSIC 為Ssj、Ssn、Simg與Scom的相似度組合。從表5可以看出：基于詞級別的N-gram 的糾錯效果明顯高于基于字符級別的N-gram，這是因為在公司名中大部分是專屬名詞且多數是以詞為單位拼接，如果拆分成字，則評估時很難得到正確的語義；相比詞級別的N-gram，使用LSTM 的rate1提高5.34 個百分點，rate2降低1.76 個百分點，這是因為LSTM 從全局角度考慮每個字在整條公司名中的語義，彌補了Ngram 僅考慮局部語義的不足。

表5 3 種語言模型對糾錯結果的影響Table 5 Effect of three language models on the error correction results %

表6 為字符糾錯方法對公司名識別準確率的影響。從表6 可以看出，加入字符糾錯后，CRA 和LRA分別提高1.23、8.46 個百分點，LRA 提高幅度較大，這說明本文所提糾錯方法可有效正確糾正語義較強的字符。

表6 字符糾錯方法對識別準確率的影響Table 6 Effect of character error correction methods on recognition accuracy %

表7 為ICDAR 2013 組合公司名圖像經過模糊處理后，前后綴推斷和SSIC 方法對識別結果的影響?？梢钥闯觯何墨I［25］提出的GSLRE 方法在原始圖像上的識別準確率較高，但經過模糊處理后，CRA和LRA 分別下降11.22、38.01 個百分點；在加入前后綴推斷和糾錯方法后，CRA 和LRA 分別提高7.58、28.34 個百分點，從而驗證了本文所提前后綴推斷和糾錯方法的有效性。

表7 糾錯方法對識別準確率的影響Table 7 Effect of error correction methods on recognition accuracy %

4 結束語

由于票據背景復雜以及手寫體不規(guī)范，導致傳統(tǒng)的從前向后路徑搜索方法對票據的識別效果較差，因此本文提出一種基于CNN 圖像識別與語義可靠性的路徑搜索RFBS 方法，以提高出現(xiàn)模糊字符時的手寫公司名識別準確率，且與傳統(tǒng)集束搜索方法相比，該方法的CRA 和LRA 均有大幅提高。此外，本文根據公司名的結構特點提出前后綴推斷策略，該策略能夠有效解決CNN 在識別公司名時出現(xiàn)前后綴識別錯誤的問題。為解決手寫體不規(guī)范導致的識別錯誤與組合錯誤問題，本文結合公司名特點提出一種檢錯與糾錯方法，該方法通過Jieba 分詞對孤立字的判斷進行檢錯，對組合錯誤重新進行過分割項組合、路徑搜索，并采用改進后的字形相似度方法對識別錯誤進行糾正，以提高公司名識別準確率。雖然本文所提糾錯方法可有效糾正公司名中語義較強的前后綴及行業(yè)信息，但是其對語義較弱的特殊字符糾錯效果還有待提高。因此，下一步將采用深度學習技術繼續(xù)對糾錯方法進行改進，以提高其對語義較弱特殊字符的糾錯效果。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放