鄭祖兵,盛冠群,,謝 凱,唐新功,文 暢,李長(zhǎng)晟
1.長(zhǎng)江大學(xué) 電工電子國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,湖北 荊州434000
2.長(zhǎng)江大學(xué) 電子信息學(xué)院,湖北 荊州434023
3.油氣資源與勘探技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(長(zhǎng)江大學(xué)),武漢430100
4.長(zhǎng)江大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州434023
隨著現(xiàn)代社會(huì)醫(yī)療水平的提高,每天有大量醫(yī)療票據(jù)需要錄入計(jì)算機(jī)存儲(chǔ)與處理。傳統(tǒng)方式為人工將票據(jù)中數(shù)據(jù)錄入計(jì)算機(jī),其成本高、效率低,票據(jù)錄入工作任務(wù)重、強(qiáng)度大,極易導(dǎo)致錄入人員疲勞致使工作出錯(cuò)。醫(yī)療行業(yè)迫切需要一種自動(dòng)票據(jù)識(shí)別錄入方法。
在票據(jù)識(shí)別領(lǐng)域:Wei等[1]提出了通過(guò)集成稀疏編碼和矢量量化(VQ)技術(shù)開發(fā)的緊湊型MQDF分類器,在沒(méi)有精度損失的情況下實(shí)現(xiàn)了低存儲(chǔ)空間的手寫漢字分類;Song等[2]提出了應(yīng)用圖像濾波的銀行票據(jù)單號(hào)識(shí)別方法,對(duì)彩色紙幣圖像進(jìn)行圖像增強(qiáng)處理,應(yīng)用模式匹配方法對(duì)單號(hào)信息進(jìn)行準(zhǔn)確地提??;謝文彬等[3]通過(guò)建立一種基于結(jié)構(gòu)特征的分類器,根據(jù)票據(jù)中每個(gè)單號(hào)的結(jié)構(gòu)特征值,能對(duì)發(fā)票單號(hào)進(jìn)行分類識(shí)別;薛峰[4]提出了一種針對(duì)銀行票據(jù)的自動(dòng)識(shí)別系統(tǒng),用以提取票據(jù)中部分信息。目前國(guó)內(nèi)外學(xué)者對(duì)于票據(jù)識(shí)別的研究較少,上述票據(jù)識(shí)別方法只能識(shí)別票據(jù)中部分信息(如票據(jù)單號(hào)),無(wú)法完成對(duì)全部信息的提取識(shí)別,且現(xiàn)階段票據(jù)識(shí)別方法均是針對(duì)標(biāo)準(zhǔn)的打印字體,其字體規(guī)范、無(wú)斷點(diǎn)、易于辨認(rèn),而醫(yī)用針式打印機(jī)打印出字符筆畫含有斷點(diǎn)、分辨率低,如圖1所示,現(xiàn)有的方法難以準(zhǔn)確識(shí)別此類不規(guī)范的字體。
圖1 針式打印字體效果圖
在深度學(xué)習(xí)領(lǐng)域:Yang等[5]從實(shí)例感知分割角度提出了一種端到端場(chǎng)景文本檢測(cè)器IncepText,并引入了可變形的PSROI池化層來(lái)處理面向多向的文本檢測(cè),解決了場(chǎng)景文本中的寬高比、比例和方向不確定造成的識(shí)別精度低的問(wèn)題;Zhu等[6]提出了滑動(dòng)線點(diǎn)回歸(SLPR)方法,以檢測(cè)自然場(chǎng)景中的任意形狀的文本;Dai等[7]提出了面向多向場(chǎng)景的神經(jīng)網(wǎng)絡(luò)文本檢測(cè)方法,在特征提取過(guò)程中結(jié)合了多級(jí)網(wǎng)絡(luò)的特征,使得模型具有更精細(xì)的特征表達(dá);Zhang等[8]提出了一種新的基于軌跡的激進(jìn)分析網(wǎng)絡(luò)(TRAN),利用字符的固有結(jié)構(gòu)特點(diǎn),首先識(shí)別自由基并同時(shí)分析基團(tuán)之間的二維結(jié)構(gòu),然后通過(guò)基于內(nèi)部自由基的分析來(lái)識(shí)別漢字;李偉山等[9]以Faster-RCNN算法為基礎(chǔ),對(duì)候選區(qū)域網(wǎng)絡(luò)(RPN)結(jié)構(gòu)進(jìn)行了改進(jìn),提出了一種“金字塔RPN”結(jié)構(gòu)來(lái)解決井下行人檢測(cè)存在的多尺度問(wèn)題,同時(shí)算法中加入了特征融合技術(shù),將不同卷積層輸出的特征圖進(jìn)行融合,增強(qiáng)煤礦井下模糊、遮擋和小目標(biāo)行人檢測(cè)的性能;史凱靜等[10]提出一種基于FasterRCNN的前方車輛檢測(cè)方法,能準(zhǔn)確定位與識(shí)別出不同交通環(huán)境場(chǎng)景下的前方車輛。上述方法應(yīng)用神經(jīng)網(wǎng)絡(luò)于字符、圖像識(shí)別領(lǐng)域,能實(shí)現(xiàn)快速準(zhǔn)確的識(shí)別,雖然識(shí)別目標(biāo)受環(huán)境的影響較大,但神經(jīng)網(wǎng)絡(luò)模型具有較強(qiáng)的魯棒性,模型均能維持穩(wěn)定較好的識(shí)別效果。
目前國(guó)內(nèi)外尚無(wú)成熟的醫(yī)療票據(jù)處理系統(tǒng),且傳統(tǒng)票據(jù)識(shí)別大多采用模板匹配方法,靈活性差;深度學(xué)習(xí)的應(yīng)用廣泛,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究較為深入,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法基于單網(wǎng)絡(luò)進(jìn)行物體的定位與識(shí)別,對(duì)于簡(jiǎn)單且類別數(shù)較少的分類任務(wù),單網(wǎng)絡(luò)方法能減小網(wǎng)絡(luò)的參數(shù)量和復(fù)雜度,但對(duì)于復(fù)雜背景下的多目標(biāo)檢測(cè)任務(wù),如字符識(shí)別任務(wù),其需要進(jìn)行大規(guī)模的定位與識(shí)別,單網(wǎng)絡(luò)的同一參數(shù)值既難以描述位置信息又難以描述類別信息,且普通的淺層網(wǎng)絡(luò)難以實(shí)現(xiàn)此類復(fù)雜需求,隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)的參數(shù)量呈幾何倍數(shù)增加,當(dāng)參數(shù)量過(guò)大、層數(shù)過(guò)深時(shí)導(dǎo)致網(wǎng)絡(luò)龐大、難以訓(xùn)練。
基于以上分析,本方法將深度學(xué)習(xí)與票據(jù)識(shí)別相結(jié)合,提出了基于FasterRCNN與深度卷積神經(jīng)網(wǎng)絡(luò)的雙網(wǎng)絡(luò)模型針式打印字體醫(yī)療票據(jù)識(shí)別方法,分步實(shí)現(xiàn)定位與識(shí)別,避免了因網(wǎng)絡(luò)層數(shù)過(guò)深導(dǎo)致的梯度消失或梯度爆炸的問(wèn)題,針對(duì)票據(jù)中的全部信息進(jìn)行準(zhǔn)確識(shí)別。此外,本文還提出了自適應(yīng)學(xué)習(xí)策略與新型票據(jù)矯正方法以提高雙網(wǎng)絡(luò)模型的性能。
本文采用FasterRCNN與深度卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的雙網(wǎng)絡(luò)模型進(jìn)行票據(jù)中字符的定位識(shí)別。層數(shù)較深的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練的時(shí)候容易出現(xiàn)梯度消失(gradient vanishing problem)或梯度爆炸(gradient exploding problem)的問(wèn)題,且隨著網(wǎng)絡(luò)層數(shù)的增加變得越來(lái)越明顯,這是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)在反向傳播的過(guò)程中,根據(jù)鏈?zhǔn)角髮?dǎo)法則[11],梯度會(huì)隨著反向傳播層數(shù)的增加而呈指數(shù)衰減或增長(zhǎng)趨勢(shì),從而導(dǎo)致梯度消失或梯度爆炸。在復(fù)雜特征多分類任務(wù)上,本文方法通過(guò)使用雙模型來(lái)降低網(wǎng)絡(luò)深度。
圖2 使用雙網(wǎng)絡(luò)模型進(jìn)行票據(jù)識(shí)別算法原理圖
本方法只需標(biāo)記不同區(qū)域的類別與位置就能生成文本定位訓(xùn)練集,字符識(shí)別訓(xùn)練集由程序基于字體文件自動(dòng)生成,數(shù)據(jù)集制作難度低、工作量小。
利用雙網(wǎng)絡(luò)模型進(jìn)行票據(jù)識(shí)別的算法流程如圖2所示,主要分為:(1)構(gòu)建文本定位網(wǎng)絡(luò)模型;(2)構(gòu)建字符識(shí)別網(wǎng)絡(luò)模型;(3)票據(jù)圖像處理與基于雙網(wǎng)絡(luò)模型的票據(jù)識(shí)別。
2.1.1 票據(jù)數(shù)據(jù)集制作
醫(yī)療票據(jù)中的信息分為出廠印刷內(nèi)容和后期打印內(nèi)容。在構(gòu)建票據(jù)識(shí)別系統(tǒng)時(shí),固定格式的出廠印刷內(nèi)容預(yù)先導(dǎo)入數(shù)據(jù)庫(kù),識(shí)別階段只需處理后期打印的醫(yī)療信息。本方法預(yù)先采集了3 000張具有完整信息的醫(yī)療票據(jù)圖像用以制作數(shù)據(jù)集,根據(jù)票據(jù)的版面信息標(biāo)定文本位置并標(biāo)注所屬類別,如圖3,以生成用于文本定位網(wǎng)絡(luò)訓(xùn)練的票據(jù)訓(xùn)練集。
圖3 文本位置標(biāo)定示意圖
2.1.2 構(gòu)建文本定位網(wǎng)絡(luò)
文本定位模塊采用基于VGG16[12]的FasterRCNN,其包含13個(gè)卷積層,如圖4,適中深度的卷積層既能保證網(wǎng)絡(luò)有足夠的參數(shù)擬合字符的深層次特征,又避免了網(wǎng)絡(luò)過(guò)深引起的網(wǎng)絡(luò)難收斂的現(xiàn)象。
圖4 基于VGG16的FasterRCNN中的卷積層
FasterRCNN使用候選區(qū)域網(wǎng)絡(luò)(Region Proposal Network,RPN)來(lái)生成檢測(cè)目標(biāo)的建議框,較傳統(tǒng)的選擇性搜索(Selective Search)建議框生成算法性能更優(yōu)。RPN能學(xué)習(xí)預(yù)測(cè)建議框A與真實(shí)標(biāo)記框G之間的差異,通過(guò)對(duì)建議框微調(diào)得到輸出框G′,如圖5,從而準(zhǔn)確預(yù)測(cè)文本的位置。
圖5 建議框位置回歸示意圖
針對(duì)票據(jù)中字符位置、大小不固定的特點(diǎn),本方法對(duì)FasterRCNN網(wǎng)絡(luò)結(jié)構(gòu)做出了改進(jìn),使用多個(gè)1×1,3×3的卷積核來(lái)代替?zhèn)鹘y(tǒng)的3×3固定大小的卷積核,如圖6,多尺度卷積核可有效融合圖像不同尺寸的相鄰區(qū)域的特征,大卷積核提取圖像的全局性特征,小卷積核提取圖像的局部特征,使網(wǎng)絡(luò)捕獲圖像特征的能力更強(qiáng),模型的文本檢測(cè)能力大幅提升。
圖6 多尺度卷積核示意圖
2.1.3 網(wǎng)絡(luò)訓(xùn)練與測(cè)試
在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,將票據(jù)訓(xùn)練集作為網(wǎng)絡(luò)的輸入,記網(wǎng)絡(luò)的輸入為?(Ai),平移量為(tx,ty),尺度因子為(tw,th),學(xué)習(xí)率為λ,網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)為w,則損失函數(shù)[13]表示為(*表示x,y,w,h):
網(wǎng)絡(luò)的優(yōu)化目標(biāo)為:
則網(wǎng)絡(luò)通過(guò)反復(fù)迭代,利用誤差的反向傳播來(lái)更新網(wǎng)絡(luò)參數(shù)w*。
本文提出了基于inv學(xué)習(xí)策略[14]改進(jìn)的自適應(yīng)學(xué)習(xí)策略(adaptive learning rate),其規(guī)定了網(wǎng)絡(luò)在第iter次迭代時(shí)的學(xué)習(xí)率lriter可表示為:
其中,baselrgamma power均為人工設(shè)定值,baselr為網(wǎng)絡(luò)初始學(xué)習(xí)率,gamma為控制曲線下降的速率,power為控制曲線在飽和狀態(tài)下學(xué)習(xí)率可達(dá)的最低值,iter表示網(wǎng)絡(luò)當(dāng)前迭代次數(shù)。
自適應(yīng)學(xué)習(xí)策略的優(yōu)勢(shì)在于學(xué)習(xí)率在每次迭代時(shí)都會(huì)有細(xì)微變化,當(dāng)loss下降時(shí)學(xué)習(xí)率會(huì)減小,而當(dāng)loss上升時(shí)學(xué)習(xí)率會(huì)增大,由于隨機(jī)梯度下降法[15](Stochastic Gradient Descent)在更新參數(shù)時(shí)不一定會(huì)按照正確的方向進(jìn)行,自適應(yīng)學(xué)習(xí)率能在loss上升時(shí)增大學(xué)習(xí)率,較大的學(xué)習(xí)率有利于跳出局部最小值,到達(dá)全局最低點(diǎn),從而使網(wǎng)絡(luò)能更快地找到梯度下降最快的方向。選取的參數(shù):gamma=0.01,power=0.75。
當(dāng)網(wǎng)絡(luò)進(jìn)行了15000次反復(fù)迭代時(shí),誤差小于1×10-3,此時(shí)認(rèn)為網(wǎng)絡(luò)已經(jīng)擬合,停止網(wǎng)絡(luò)訓(xùn)練。利用測(cè)試集測(cè)試網(wǎng)絡(luò)性能,模型能對(duì)字符所在位置進(jìn)行精準(zhǔn)的標(biāo)注。
2.2.1 字庫(kù)數(shù)據(jù)集制作
本方法采用國(guó)標(biāo)一級(jí)字庫(kù)和醫(yī)療術(shù)語(yǔ)字庫(kù)共4 200類字符,通過(guò)程序自動(dòng)生成字庫(kù)圖像,并聯(lián)合高斯模糊、腐蝕等多種圖像處理方法處理字庫(kù)圖像,模擬針式打印字體,使得用于訓(xùn)練的字庫(kù)數(shù)據(jù)集最大程度地接近真實(shí)票據(jù)中的字體,再對(duì)字符圖像進(jìn)行類別標(biāo)注,生成用于字符識(shí)別網(wǎng)絡(luò)訓(xùn)練的字庫(kù)訓(xùn)練集(圖7為算法實(shí)現(xiàn)流程圖),貼近真實(shí)票據(jù)字體的訓(xùn)練集訓(xùn)練得到的網(wǎng)絡(luò)模型的識(shí)別率高。
圖7 字庫(kù)數(shù)據(jù)集的制作流程圖
2.2.2 構(gòu)建字符識(shí)別網(wǎng)絡(luò)
字符識(shí)別網(wǎng)絡(luò)通過(guò)增加網(wǎng)絡(luò)的層數(shù)來(lái)增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,從而獲得更好的特性表征。網(wǎng)絡(luò)采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)優(yōu)化算法[16],Adam算法綜合考慮梯度的一階矩估計(jì)[16](First Moment Estimation)和二階矩估計(jì)[16](Second Moment Estimation)來(lái)動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)中每個(gè)參數(shù)的學(xué)習(xí)率,設(shè)mt與vt分別為梯度一階矩估計(jì)與二階矩估計(jì),學(xué)習(xí)率為η,為防止分母為零設(shè)置ε為平滑項(xiàng),則對(duì)于t+1時(shí)刻,其參數(shù)更新規(guī)則可表示為:
Adam優(yōu)化算法下網(wǎng)絡(luò)通常僅需微調(diào)其超參數(shù)就能擬合,選取的參數(shù)為:學(xué)習(xí)率α=0.001、一階矩估計(jì)的指數(shù)衰減率β1=0.9、二階矩估計(jì)的指數(shù)衰減率β2=0.999和參數(shù)ε=1×10-8。
字符識(shí)別網(wǎng)絡(luò)采用“標(biāo)簽平滑歸一化”(Label Smoothing Regularization)方法[17]對(duì)真實(shí)標(biāo)簽進(jìn)行改造,使其不再是one-hot形式。在one-hot形式下,4 200分類任務(wù)中某類標(biāo)簽的表示形式為:
網(wǎng)絡(luò)輸出的預(yù)測(cè)概率為:
其中,zi為未被歸一化的對(duì)數(shù)概率,q為樣本的真實(shí)類別標(biāo)簽概率,則交叉熵?fù)p失表示為:
訓(xùn)練目標(biāo)是最小化損失函數(shù),網(wǎng)絡(luò)需要用預(yù)測(cè)概率去擬合真實(shí)概率,因?yàn)閛ne-hot中全概率和零概率使得本類別與其他類別的差距達(dá)到最大值,當(dāng)訓(xùn)練充分時(shí),網(wǎng)絡(luò)容易過(guò)擬合,最終會(huì)造成模型過(guò)于相信預(yù)測(cè)的類別。為防止模型把預(yù)測(cè)結(jié)果偏向于概率較大類別上,“標(biāo)簽平滑歸一化”方法將零概率替換為一個(gè)較小的數(shù)ε,將全概率替換為較接近的數(shù)1-ε,而使得網(wǎng)絡(luò)不會(huì)完全貼近訓(xùn)練數(shù)據(jù),從而降低了網(wǎng)絡(luò)過(guò)擬合的風(fēng)險(xiǎn)。
2.2.3 網(wǎng)絡(luò)訓(xùn)練與測(cè)試
在網(wǎng)絡(luò)訓(xùn)練階段,將票據(jù)訓(xùn)練集作為網(wǎng)絡(luò)的輸入,采用“Xavier”方法[18]初始化網(wǎng)絡(luò)權(quán)重,使得網(wǎng)絡(luò)參數(shù)能獲得一個(gè)合適的初值以利于網(wǎng)絡(luò)中傳遞信息的流通。設(shè)定權(quán)重初始化的范圍為[-a,a],“Xavier”方法需使得網(wǎng)絡(luò)每一層輸出的方差盡量相等,則方差為:
設(shè)第k層網(wǎng)絡(luò)有n個(gè)參數(shù),則采用“Xavier”方法會(huì)將參數(shù)初始化為內(nèi)的均勻分布。
當(dāng)網(wǎng)絡(luò)進(jìn)行了10 000次反復(fù)迭代時(shí),誤差小于1×10-4,此時(shí)認(rèn)為網(wǎng)絡(luò)已經(jīng)擬合,停止網(wǎng)絡(luò)訓(xùn)練。利用測(cè)試集測(cè)試網(wǎng)絡(luò)性能,模型能對(duì)字符進(jìn)行準(zhǔn)確的分類。
票據(jù)識(shí)別的流程如圖8所示。
2.3.1 票據(jù)校正
本文設(shè)計(jì)了的新型票據(jù)校正方法,其算法流程如圖9所示。
圖8 票據(jù)識(shí)別流程圖
圖9 票據(jù)校正方法流程圖
Roberts算子定位邊緣精度高,但其抗噪聲能力弱,而在票據(jù)的邊緣檢測(cè)過(guò)程中,票據(jù)中字符、折痕、污漬、拍攝時(shí)產(chǎn)生的噪點(diǎn)等都可能成為噪音而干擾票據(jù)邊緣的檢測(cè)。在進(jìn)行邊緣檢測(cè)之前先采用高斯濾波對(duì)圖像進(jìn)行平滑處理,濾除噪音。記σ為正態(tài)分布的標(biāo)準(zhǔn)差,參數(shù)σ決定了平滑程度,則對(duì)于圖像中任意一點(diǎn)(x,y),二維高斯濾波的如公式(8)所示:
對(duì)于降噪后的圖像,采用Roberts算子檢測(cè)圖像中票據(jù)的邊緣。最后對(duì)圖像中票據(jù)邊緣所在的直線進(jìn)行霍夫變換(Hough Transform),將原始票據(jù)圖像的邊緣直線映射為參數(shù)空間的一個(gè)點(diǎn)。于是笛卡爾坐標(biāo)系中的直線檢測(cè)問(wèn)題轉(zhuǎn)換為在極坐標(biāo)下尋找對(duì)應(yīng)數(shù)量的曲線的交點(diǎn)的問(wèn)題,如圖10,由交點(diǎn)在極坐標(biāo)系中的位置可求得票據(jù)的傾斜角度。
圖10 霍夫變換檢測(cè)邊緣結(jié)果圖
2.3.2 檢測(cè)定位
本方法使用FasterRCNN模型進(jìn)行文本定位,將預(yù)處理后的票據(jù)圖像輸入網(wǎng)絡(luò),模型將定位出不同類別字塊的位置信息,根據(jù)文本定位結(jié)果對(duì)票據(jù)圖像進(jìn)行切分,實(shí)現(xiàn)了票據(jù)圖像中的待識(shí)別的文本與無(wú)關(guān)背景的分離。由于文本的定位功能由FasterRCNN模型單獨(dú)實(shí)現(xiàn),因此對(duì)于不同類型的票據(jù)的識(shí)別,無(wú)需重構(gòu)整個(gè)系統(tǒng),只需采集少量票據(jù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào),就能遷移至不同類型的票據(jù)的識(shí)別,模塊化的設(shè)計(jì)增強(qiáng)了系統(tǒng)的靈活性。
2.3.3 文本分割與處理
對(duì)字塊圖像進(jìn)行顏色分割[19],只保留后期打印內(nèi)容,進(jìn)行平均法灰度化與閾值法二值化處理,獲得清晰的字符輪廓。
進(jìn)行基于垂直投影直方圖的字符分割,按照投影的間隔切分字塊為單字符圖像,如圖11所示。
圖11 垂直投影切割示意圖
2.3.4 字符識(shí)別
利用字符識(shí)別網(wǎng)絡(luò)模型對(duì)單字符圖像進(jìn)行識(shí)別,該網(wǎng)絡(luò)學(xué)習(xí)了針式打印字體的深層特征,網(wǎng)絡(luò)的參數(shù)量足夠龐大,因此即使字符類別數(shù)較多,在不同參數(shù)學(xué)習(xí)到不同目標(biāo)的特征的情況下,網(wǎng)絡(luò)仍然能準(zhǔn)確地進(jìn)行數(shù)千類字符的分類。因?yàn)樵谖谋径ㄎ浑A段保留了票據(jù)原始的版面信息,所以識(shí)別結(jié)果仍可按照票據(jù)版面中的個(gè)人信息、金額等進(jìn)行結(jié)構(gòu)化分類存儲(chǔ)于數(shù)據(jù)庫(kù)之中。
雙網(wǎng)絡(luò)模型的具體應(yīng)用方法如圖12所示,分為離線部分與在線部分,離線部分通過(guò)GPU運(yùn)算服務(wù)器進(jìn)行模型的訓(xùn)練,在線部分通過(guò)醫(yī)院端采集發(fā)票信息,上傳至服務(wù)器后進(jìn)行識(shí)別,識(shí)別結(jié)果傳回醫(yī)院端顯示。
本實(shí)驗(yàn)采用的硬件平臺(tái)及軟件平臺(tái)見(jiàn)表1所示。
表1 實(shí)驗(yàn)運(yùn)行平臺(tái)配置
本實(shí)驗(yàn)的流程如圖13所示。
3.2.1 不同學(xué)習(xí)率對(duì)測(cè)試準(zhǔn)確率的影響
本實(shí)驗(yàn)利用現(xiàn)場(chǎng)采集的票據(jù)圖片,測(cè)試了不同學(xué)習(xí)率下模型的識(shí)別準(zhǔn)確率,見(jiàn)圖14,學(xué)習(xí)率太大會(huì)導(dǎo)致梯度爆炸或者震蕩劇烈,學(xué)習(xí)率太小會(huì)導(dǎo)致參數(shù)更新緩慢且難以找到梯度下降最快的方向,依據(jù)實(shí)驗(yàn)結(jié)果,網(wǎng)絡(luò)采用的學(xué)習(xí)率為0.001,使模型的識(shí)別準(zhǔn)確率最高。
圖12 具體應(yīng)用方法圖
圖13 實(shí)驗(yàn)流程圖
圖14 不同學(xué)習(xí)率下的模型測(cè)試正確率
3.2.2 不同激活函數(shù)對(duì)網(wǎng)絡(luò)收斂速度的影響
ReLU函數(shù)[20](公式(9))在輸入x為正數(shù)的時(shí)候,不存在梯度飽和問(wèn)題,且只存在線性關(guān)系,而Sigmoid函數(shù)[21](公式(10))和Tanh函數(shù)[22](公式(11))都存在指數(shù)關(guān)系,在前向傳播與反向傳播過(guò)程中,ReLU函數(shù)速度也是最快的。實(shí)驗(yàn)測(cè)試了不同激活函數(shù)對(duì)網(wǎng)絡(luò)收斂速率的影響,見(jiàn)圖15,根據(jù)實(shí)驗(yàn)結(jié)果,本方法采用了使網(wǎng)絡(luò)收斂最快的ReLU激活函數(shù)。
圖15 不同激活函數(shù)對(duì)網(wǎng)絡(luò)收斂速度的影響
圖16所示為幾種不同算子的票據(jù)邊緣檢測(cè)效果對(duì)比結(jié)果??梢钥闯鯮oberts算子在邊緣檢測(cè)方面的效果更好,邊緣輪廓更明顯,結(jié)合本文對(duì)票據(jù)邊緣精確檢測(cè)的需要,選用Roberts算子來(lái)檢測(cè)圖像中票據(jù)的邊緣。
圖16 不同邊緣檢測(cè)算子的檢測(cè)效果對(duì)比圖
實(shí)驗(yàn)將本文圖像校正方法、旋轉(zhuǎn)投影法[23]和Radon變換法[24-25]進(jìn)行對(duì)比分析,結(jié)果見(jiàn)表2,其中,以水平方向?yàn)闃?biāo)準(zhǔn)位置,數(shù)值為正表示校正后的順時(shí)針角度誤差,反之為逆時(shí)針誤差。
表2 在不同票據(jù)圖像狀態(tài)下的校正結(jié)果
本文設(shè)計(jì)的校正方法選取Roberts算子檢測(cè)邊緣,為霍夫變換提供了清晰的邊緣直線,使得變換結(jié)果中峰值明顯。由表2可知,本文校正方法的校正效果比傳統(tǒng)方法更精準(zhǔn)。
利用現(xiàn)場(chǎng)采集的50張票據(jù)測(cè)試本方法性能,測(cè)試結(jié)果如表3所示。
文本定位網(wǎng)絡(luò)使用了多尺度的卷積核,其能學(xué)習(xí)目標(biāo)不同粗細(xì)粒度的特征,使得定位時(shí)不會(huì)遺漏目標(biāo);網(wǎng)絡(luò)中PRN層利用卷積神經(jīng)網(wǎng)絡(luò)提取特征并生成目標(biāo)建議框,經(jīng)過(guò)充分訓(xùn)練后其參數(shù)學(xué)習(xí)了目標(biāo)的深層特征,更能貼合實(shí)際數(shù)據(jù),能在復(fù)雜環(huán)境下精確定位目標(biāo),由表3可知,定位精度達(dá)98.6%;文本定位網(wǎng)絡(luò)采用的自適應(yīng)學(xué)習(xí)率策略,能夠根據(jù)loss的變化動(dòng)態(tài)地調(diào)整學(xué)習(xí)率的大小,合適的學(xué)習(xí)率使得網(wǎng)絡(luò)迅速找到梯度下降最快的方向,并且一定程度上避免了網(wǎng)絡(luò)陷入梯度的局部最小值情況的出現(xiàn),因此,網(wǎng)絡(luò)訓(xùn)練所需的時(shí)間大幅降低。
表3 待識(shí)別文本定位正確率
字符識(shí)別網(wǎng)絡(luò)采用了深度卷積神經(jīng)網(wǎng)絡(luò),其參數(shù)量大,大量參數(shù)能夠準(zhǔn)確擬合到字符的深層次特征,網(wǎng)絡(luò)采用“Xavier”方法初始化權(quán)重,使得網(wǎng)絡(luò)在初始狀態(tài)就具有較合適的初始權(quán)重,節(jié)省了通過(guò)反復(fù)迭代調(diào)整權(quán)重所需的時(shí)間,網(wǎng)絡(luò)訓(xùn)練時(shí)的速度有明顯提升;“標(biāo)簽平滑歸一化”方法使得網(wǎng)絡(luò)在充分貼合訓(xùn)練數(shù)據(jù)的同時(shí)避免了過(guò)擬合,因此網(wǎng)絡(luò)可以充分訓(xùn)練以學(xué)習(xí)到每個(gè)字符的特征,使得識(shí)別精度維持在較高水平;上述傳統(tǒng)的方法只利用了圖像的淺層特征,由表4可知,本方法的字符識(shí)別精度較傳統(tǒng)方法提升了約3%~8%;由于神經(jīng)網(wǎng)絡(luò)只需通過(guò)對(duì)輸入圖像進(jìn)行數(shù)學(xué)計(jì)算可直接得到最終結(jié)果,由表5可知,本方法識(shí)別速度優(yōu)于其他方法。由于文本定位網(wǎng)絡(luò)幾乎能定位出所有字符,且字符識(shí)別的精度較高,由表7可知,在正常情況下本方法的字符識(shí)別召回率達(dá)92.7%。
表4 與傳統(tǒng)字符識(shí)別方法的精度對(duì)比
表5 與傳統(tǒng)字符識(shí)別方法的速度對(duì)比
訓(xùn)練數(shù)據(jù)集中不可能包含各種干擾下拍攝的票據(jù)圖片,而在實(shí)際應(yīng)用過(guò)程中,部分票據(jù)表面存在折痕與污漬,票據(jù)圖像曝光不均衡,票據(jù)中字符打印內(nèi)容相對(duì)于規(guī)定位置有不同程度的偏離,可見(jiàn)在實(shí)際過(guò)程中輸入網(wǎng)絡(luò)的數(shù)據(jù)攝動(dòng)較大,如表6、表7所示,在不同的干擾環(huán)境下,票據(jù)識(shí)別的準(zhǔn)確率浮動(dòng)不超過(guò)2.4個(gè)百分點(diǎn),召回率穩(wěn)定維持在90%以上,當(dāng)輸入的信息發(fā)生有限范圍的變化時(shí),神經(jīng)網(wǎng)絡(luò)仍能維持穩(wěn)定的輸入、輸出關(guān)系,這是由于雙網(wǎng)絡(luò)模型聯(lián)合了兩個(gè)網(wǎng)絡(luò)模型分別實(shí)現(xiàn)定位與識(shí)別,而定位與識(shí)別模型均利用了圖像的深層特征,數(shù)據(jù)的攝動(dòng)被分散到兩個(gè)模型上,因此輸入數(shù)據(jù)的攝動(dòng)對(duì)于結(jié)果的影響被限定在一定量的較小的程度上,使得網(wǎng)絡(luò)具備較強(qiáng)的泛化能力與魯棒性,并且由于數(shù)據(jù)攝動(dòng)的影響被分散,使得單個(gè)網(wǎng)絡(luò)模型的性能不會(huì)受到太大的影響,最終使得疊加的雙模型識(shí)別精度高。
表6 在不同環(huán)境下的識(shí)別準(zhǔn)確率
表7 在不同環(huán)境下的識(shí)別召回率
本文詳細(xì)地描述了雙網(wǎng)絡(luò)模型下的票據(jù)識(shí)別方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。實(shí)驗(yàn)結(jié)果表明,本方法識(shí)別準(zhǔn)確率可達(dá)95.4%,召回率達(dá)92.7%,識(shí)別速度達(dá)0.76 s/張,且模型具有較強(qiáng)的泛化能力。醫(yī)療票據(jù)識(shí)別系統(tǒng)搭建在高性能的GPU云端服務(wù)器上,任何具備圖像錄入功能的可聯(lián)網(wǎng)設(shè)備均可作為客戶端,實(shí)現(xiàn)了成本控制下的醫(yī)療票據(jù)識(shí)別。下一步的工作方向主要將為研究通用票據(jù)檢測(cè)系統(tǒng),以實(shí)現(xiàn)不同行業(yè)不同種類的票據(jù)的識(shí)別。