(國(guó)網(wǎng)浙江省電力有限公司舟山供電公司,浙江 舟山 316021)
隨著移動(dòng)設(shè)備新技術(shù)的發(fā)展,文檔圖像獲取途徑突破了掃描儀的限制,手機(jī)拍攝越來(lái)越受到歡迎。在電力運(yùn)維檢修現(xiàn)場(chǎng),手機(jī)拍攝操作票更方便快捷。與掃描儀得到的干凈規(guī)整圖像不同,手機(jī)拍攝的文檔圖像存在光照變化強(qiáng)烈、清晰度低、筆跡潦草等特點(diǎn)。手寫字體與印刷字體差異性大,書寫習(xí)慣因人而異,缺乏規(guī)范性,橫豎不直、撇捺不斜、筆畫不清等加大了文字識(shí)別的難度[1]。OCR(傳統(tǒng)光學(xué)字符識(shí)別)技術(shù)能夠準(zhǔn)確識(shí)別清晰成像的操作票印刷文字,但在其他場(chǎng)景,尤其是手寫字體的識(shí)別上存在較大困難,為實(shí)現(xiàn)操作票電子化管理帶來(lái)了挑戰(zhàn)。20 世紀(jì)90 年代,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型受到了學(xué)術(shù)界的重視,逐漸發(fā)展成熟,在自然語(yǔ)言處理、模式識(shí)別、圖像識(shí)別等領(lǐng)域涌現(xiàn)了大量前沿方法。DBN(深度信念網(wǎng)絡(luò))[2]、SAE(堆疊自動(dòng)編碼器)[3]、CNN(卷積神經(jīng)網(wǎng)絡(luò))[4-5]、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))[6]等方法為文字識(shí)別難題提供了新的解決思路。近年來(lái),研究者提出了很多基于深度學(xué)習(xí)的文字識(shí)別方法。針對(duì)卷積神經(jīng)網(wǎng)絡(luò),本文將文字識(shí)別方法歸納為以下3 類。
一是直接基于CNN 的文字識(shí)別方法:使用手寫漢字圖片樣本集,通過(guò)CNN 方法直接訓(xùn)練得到文字分類模型,用于文字識(shí)別。
Ciresan 等人[7]第一次提出使用CNN 方法訓(xùn)練文字分類模型,實(shí)現(xiàn)了其在大類別手寫漢字識(shí)別應(yīng)用,準(zhǔn)確度遠(yuǎn)高于SVM,Boosting,MLP 等傳統(tǒng)機(jī)器學(xué)習(xí)方法。Ciresan 等人后續(xù)進(jìn)一步改進(jìn)文字識(shí)別方法[8],訓(xùn)練7 個(gè)CNN 模型構(gòu)建的委員會(huì)方法,在MNIST 數(shù)據(jù)集上降低識(shí)別錯(cuò)誤率到0.27%,取得了很好的結(jié)果。MCDNN 方法是一種多列CNN 模型[9],其與多CNN 模型集成方法類似,但調(diào)整了CNN 網(wǎng)絡(luò)結(jié)構(gòu)(每個(gè)CNN 網(wǎng)絡(luò)含4個(gè)卷積層、4 個(gè)池化層和1 個(gè)全連接層),僅訓(xùn)練獲勝者神經(jīng)元,多列CNN 模型以不同的方式預(yù)處理樣本輸入,以簡(jiǎn)單平均法計(jì)算最終分類結(jié)果。
此類方法僅使用CNN 方法直接訓(xùn)練文字分類模型,訓(xùn)練高效、設(shè)計(jì)簡(jiǎn)單。但是,CNN 方法在訓(xùn)練的過(guò)程中僅能學(xué)習(xí)到圖像表面特征,無(wú)法學(xué)習(xí)筆跡方向變化、起筆落筆狀態(tài)等特征。此類方法的識(shí)別性能有待進(jìn)一步提高。
二是結(jié)合領(lǐng)域知識(shí)的CNN 文字識(shí)別方法:從書寫的角度考慮手寫字體存在的筆跡變化等特征,解決CNN 方法無(wú)法學(xué)習(xí)獲得的問(wèn)題。
文獻(xiàn)[10-13]為了克服訓(xùn)練CNN 模型過(guò)擬合問(wèn)題,提出了一系列文字變形方法,豐富訓(xùn)練樣本,提升文字識(shí)別能力。LeCun 等人提出一種GTN(圖像變形網(wǎng)絡(luò)),處理平面圖像的平移、縮放、旋轉(zhuǎn)、拉伸等特征,能夠有效識(shí)別變形字體[10]。Simard 等人[11]提出仿射變形與彈性變形兩種文字變形方法,擴(kuò)增訓(xùn)練樣本,最終構(gòu)建出一種簡(jiǎn)單通用的CNN 文字分類模型。提出了分別沿X軸、Y 軸等角度文字變形方法,實(shí)驗(yàn)證明了其對(duì)文字識(shí)別模型訓(xùn)練的有效性[12]。Bastien 等人提出了一種強(qiáng)大的文字隨機(jī)變形與噪聲生成器方法,不僅包括仿射變換,還包括傾斜的局部彈性變形,厚度變化,灰度變化,對(duì)比度變化等各種噪音類型干擾[13]。與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法從圖形變換中增益較大。
文獻(xiàn)[14-16]從訓(xùn)練樣本中學(xué)習(xí)手寫字體筆跡特征,包括方向變化等特征,此類筆跡特征作為CNN 方法的附加輸入?yún)⑴c訓(xùn)練。Okamoto 等人引入假想筆畫特征,提取筆畫方向變化特征,以提升手寫字體的識(shí)別性能[14]。Graham 提出了一種通過(guò)數(shù)學(xué)微積分計(jì)算筆跡的梯度特征方法,有效獲取了手寫字體位移、曲率等信息[15]。Bai 和Huo擴(kuò)展?jié)h字橫、豎、撇、捺4 個(gè)方向到8 個(gè)方向,分別提取手寫字體方向特征[16]。上述3 種筆跡特征方法被廣泛應(yīng)用于文字識(shí)別領(lǐng)域。
三是其他改進(jìn)的CNN 文字識(shí)別方法:優(yōu)化CNN 的網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練方法和參數(shù)設(shè)置,提升CNN 模型的識(shí)別準(zhǔn)確度。
Graham 提出了一種FMP(分?jǐn)?shù)池化方法)[17]。常規(guī)CNN 大多使用α×α(一般情況下,α=2)最大池化矩陣,而FMP 方法則可以使用取值為分?jǐn)?shù)的α。FMP 的想法是將圖像的空間尺寸減小到1<α<2。與隨機(jī)池化類似,F(xiàn)MP 在池化過(guò)程中也引入了一定程度的隨機(jī)性。不同的是,F(xiàn)MP 的隨機(jī)性與池區(qū)域的選擇有關(guān),而不是每個(gè)池化區(qū)域內(nèi)執(zhí)行池化。FMP 方法有效減少了CNN 在各種數(shù)據(jù)集上的過(guò)度擬合幾率。Yang 等人提出了一種新的深度學(xué)習(xí)模型訓(xùn)練方法DropSample[18]。Drop-Sample 方法定義了一個(gè)配額函數(shù),此函數(shù)根據(jù)CNN 的全連接層(softmax 輸出層)給出分類置信度。經(jīng)過(guò)學(xué)習(xí)迭代后,低置信度樣本將大概率地被選擇為訓(xùn)練數(shù)據(jù),而高置信度樣本將較少地參與后續(xù)訓(xùn)練。最后,隨著學(xué)習(xí)迭代進(jìn)行,模型訓(xùn)練將變得更加高效。Wu 等人提出了一種R-CNN(基于松弛卷積神經(jīng)網(wǎng)絡(luò))和ATR-CNN(交替訓(xùn)練的松弛卷積神經(jīng)網(wǎng)絡(luò))的手寫字體識(shí)別方法[19]。與傳統(tǒng)方法的卷積層不同,R-CNN 中采用的松弛卷積層不需要特征圖中的神經(jīng)元共享相同的卷積核,賦予了神經(jīng)網(wǎng)絡(luò)更多的表達(dá)能力。由于松弛卷積大大增加了參數(shù)總數(shù),作者使用ATR-CNN方法來(lái)規(guī)范化神經(jīng)網(wǎng)絡(luò)。ATR-CNN 方法在MNIST數(shù)據(jù)集上取得了較低的錯(cuò)誤率(0.25%)。
上述三類方法從CNN 的應(yīng)用、筆跡特征提取、訓(xùn)練方法等不同角度出發(fā),提出了適用于手寫字體識(shí)別的有效方法。但是,這些方法均未考慮低質(zhì)量樣本圖像、筆跡特征集成對(duì)文字識(shí)別帶來(lái)的影響。為解決操作票樣本圖像質(zhì)量,融合多筆跡特征問(wèn)題,本文提出了一種CBTR(基于卷積神經(jīng)網(wǎng)絡(luò)的文字識(shí)別)方法。本文主要工作如下:
(1)提出了一種基于CNN 的圖像增強(qiáng)方法,其僅包含三層卷積層網(wǎng)絡(luò),無(wú)池化層、全連接層,該模型的訓(xùn)練目的是學(xué)習(xí)得到非線性映射函數(shù),輸出PSNR(高峰值信噪比)圖像[20]。
(2)提出了一種基于筆跡特征的集成卷積網(wǎng)絡(luò)模型,該模型結(jié)構(gòu)參考DeepCNet 網(wǎng)絡(luò)[22],主要區(qū)別是本文模型精簡(jiǎn)了網(wǎng)絡(luò)層次,以提升模型訓(xùn)練效率;同時(shí)引入多種筆跡特征,代替原圖輸入,克服CNN 受限于原圖的空間特征學(xué)習(xí),提升手寫字體識(shí)別的準(zhǔn)確度。
(3)在實(shí)際運(yùn)維檢修中操作票圖像樣本集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。
本文提出的CBTR 是一種基于CNN 算法的電力操作票文字識(shí)別方法,其總體流程如圖1 所示,分為4 個(gè)步驟:
(1)樣本圖片作為訓(xùn)練數(shù)據(jù)集,構(gòu)建自定義三層卷積網(wǎng)絡(luò)模型,訓(xùn)練輸出非線性映射函數(shù)。
(2)測(cè)試圖片作為非線性映射函數(shù)輸入,得到具有高PSNR 值的測(cè)試圖片。
(3)樣本圖片作為訓(xùn)練數(shù)據(jù)集,構(gòu)建基于假想筆畫、路徑簽名與8 方向特征的集成CNN 模型,訓(xùn)練得到分類模型。
(4)測(cè)試圖片作為分類模型的輸入,使用簡(jiǎn)單平均法計(jì)算分類結(jié)果。
圖1 CBTR 方法流程
手機(jī)拍攝電力操作票時(shí),光線、角度、像素均會(huì)影響圖像成像的清晰度。若圖像的清晰度較低,將嚴(yán)重影響文字識(shí)別的準(zhǔn)確度。針對(duì)低清晰度圖像文字識(shí)別困難問(wèn)題,構(gòu)建特殊的CNN 模型,即基于CNN 的圖像增強(qiáng)方法,其僅包含三層卷積層網(wǎng)絡(luò),無(wú)池化層、全連接層,并選擇激活函數(shù)ReLU[21],步長(zhǎng)設(shè)置為1,不對(duì)卷積運(yùn)算填充0,網(wǎng)絡(luò)架構(gòu)如表1 所示。
該模型的訓(xùn)練目的是學(xué)習(xí)得到非線性映射函數(shù)Fλ(pi),若給定一張低清晰度圖像pi,使用Fλ(pi)得到高清晰度圖像Pi的PSNR 值,與真實(shí)圖像Ti的PSNR 值相比較,能夠獲得最小F 范數(shù)。因此,該模型的損失函數(shù)定義為:
表1 基于CNN 的圖像模型架構(gòu)
式中:N 是訓(xùn)練集圖片樣本總數(shù),1≤i≤N。
本文選擇PSNR 指標(biāo)評(píng)價(jià)圖像質(zhì)量,即通過(guò)非線性映射函數(shù)Fλ(pi)可以得到擁有高PSNR 值的輸出圖像。若定義訓(xùn)練數(shù)據(jù)集S={(pi,Ti):1≤i≤N},則該模型可表示為λ={Wj,bj}。其中Wj={:1≤k≤nj},為卷積網(wǎng)絡(luò)第j 層的卷積矩陣,bj為偏差值,nj為卷積網(wǎng)絡(luò)第j 層的卷積核個(gè)數(shù)。表2 給出了本文圖像增強(qiáng)方法的偽代碼。給定一個(gè)低清晰度圖像pi,具體執(zhí)行步驟如下:
(1)1-5 行:對(duì)于任意一個(gè)低清晰度圖像pi,通過(guò)卷積運(yùn)算得到中間結(jié)果,再使用ReLU 函數(shù)計(jì)算得到高PSNR 值圖像Zj。
(2)6-7 行:結(jié)束三層卷積網(wǎng)絡(luò)運(yùn)算,返回高PSNR 值圖像結(jié)果Fλ(pi)。
表2 基于CNN 的圖像增強(qiáng)的偽代碼
電力操作票存在較多手寫字體,包括發(fā)令人、受令人簽字,時(shí)間、操作項(xiàng)目等內(nèi)容。手寫字體書寫風(fēng)格因人而異,字體結(jié)構(gòu)復(fù)雜、種類繁多,加大了電力操作票文字識(shí)別的難度。針對(duì)手寫字體特點(diǎn),本文提出一種基于筆跡特征的集成卷積網(wǎng)絡(luò)模型,模型結(jié)構(gòu)參考DeepCNet 網(wǎng)絡(luò),主要區(qū)別是本文模型精簡(jiǎn)了網(wǎng)絡(luò)層次,以提升模型訓(xùn)練效率;同時(shí)引入多種筆跡特征,代替原圖輸入,克服CNN 受限于原圖的空間特征學(xué)習(xí),提升手寫字體識(shí)別的準(zhǔn)確度。
集成CNN 模型架構(gòu)如表3 所示,表中N 的含義是筆跡特征的維度。該模型包含6 層卷積網(wǎng)絡(luò),前5 層卷積網(wǎng)絡(luò)下一層均配置池化層,第6 層卷積網(wǎng)絡(luò)的下一層配置全連接層。第1 層卷積網(wǎng)絡(luò)的卷積核大小設(shè)置為3×3,卷積核個(gè)數(shù)為80,且依次遞增80;第2~6 層卷積網(wǎng)絡(luò)的卷積核大小設(shè)置為2×2;選擇補(bǔ)0 卷積運(yùn)算,步長(zhǎng)取1。池化層矩陣大小均為2×2。需要學(xué)習(xí)的參數(shù)約有400萬(wàn),小于DeepCNet 網(wǎng)絡(luò)的590 萬(wàn),提升了模型訓(xùn)練效率。
表3 基于CNN 的圖像模型架構(gòu)
筆跡特征矩陣是該模型第1 層卷積網(wǎng)絡(luò)的輸入,下文將詳細(xì)介紹假想筆畫、路徑簽名與8 方向特征3 種筆跡特征矩陣的計(jì)算方法。
1.2.1 假想筆畫
漢字在書寫過(guò)程中會(huì)涉及起筆、落筆、不同筆畫相連等特點(diǎn)。同一漢字的筆形運(yùn)動(dòng)軌跡相似,方向變化一致。假想筆畫[14]提取同一漢字不同筆畫起落筆之間的方向變化特征,達(dá)到識(shí)別手寫字體目的。該方法使用方向變化程度計(jì)算不同筆畫之間的相關(guān)度。若相連筆畫越短、方向變化越大,則為強(qiáng)特征。強(qiáng)特征能夠有效標(biāo)識(shí)漢字的書寫特征。方向變化程度dcd 計(jì)算公式為:
式中:θ 為不同筆畫之間相連構(gòu)成的夾角度數(shù)(180≤θ≤180),l 為筆畫長(zhǎng)度,ml=64,w=1/8。比較不同像素點(diǎn)dcd 的值,計(jì)算得到假想筆畫矩陣,并作為集成卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。電力操作票中的“操”字,筆畫多且結(jié)構(gòu)復(fù)雜,圖2 給出其筆畫變化特征示例,特征像素點(diǎn)由黑色小矩形框標(biāo)出。
圖2 “操”字筆畫變化特征示例
1.2.2 路徑簽名
路徑簽名特征[15]從數(shù)學(xué)微積分的角度,計(jì)算手寫字體的連續(xù)曲率,以捕獲筆畫軌跡特征。文獻(xiàn)[16,24]等指出路徑簽名特征提取的筆跡方向信息及梯度變化信息更為豐富完整。因此,本文選擇路徑簽名特征作為集成卷積網(wǎng)絡(luò)模型的重要輸入,提升CBTR 方法的泛化能力。
假設(shè)給定一個(gè)手寫漢字,筆跡起止區(qū)間為[s,t],其k 重積分特征定義為:
若k=0,則0 重積分特征計(jì)算結(jié)果為1,表示筆跡的二值圖像特征;若k=1,則1 重積分特征表示筆跡的位移特征;若k=2,則2 重積分特征表示筆跡的曲率特征。k 值可取任意值,正常情況下不宜取值太大,否則會(huì)導(dǎo)致計(jì)算復(fù)雜度指數(shù)級(jí)增加,卻不能獲取更多有效筆跡特征。路徑簽名特征還可拼接兩條有限長(zhǎng)路徑,得到一條長(zhǎng)路徑多重積分特征,計(jì)算示例如圖3 所示。
1.2.3 8 方向特征
圖3 “操”字路徑拼接計(jì)算示例
漢字主要由橫(—)、豎(|)、撇(/)、捺()構(gòu)成,與英文等字母類構(gòu)成的文字不同,漢字有明顯的方向特征。8 方向特征[16]能夠出色地?cái)M合漢字的橫、豎、撇、捺等筆畫。假設(shè)給定一個(gè)二維坐標(biāo),8 方向特征分別從0°,45°,90°,135°,180°,225°,270°,315°計(jì)算筆跡梯度大小。給定一段筆跡的起止坐標(biāo)(x1,y1)與(x2,y2),梯度計(jì)算公式為:
圖4 “操”字8 方向特征計(jì)算示例
本文使用的測(cè)試數(shù)據(jù)集來(lái)自國(guó)網(wǎng)浙江省電力有限公司某供電公司在運(yùn)維檢修中采集到的電力操作票圖像。測(cè)試數(shù)據(jù)集共計(jì)10 萬(wàn)張高清晰度圖像和經(jīng)過(guò)壓縮后的10 萬(wàn)張低清晰度圖像,高清晰度圖像與低清晰度圖像一一對(duì)應(yīng),高清晰度圖像的PSNR 值是本文圖像增強(qiáng)方法的學(xué)習(xí)標(biāo)簽,低清晰度圖像作為本文圖像增強(qiáng)方法與CBTR 方法的輸入。測(cè)試數(shù)據(jù)集包含1 000 個(gè)常用漢字,分別來(lái)自100 位書寫者。本文在Tensorflow 框架下實(shí)現(xiàn)CBTR 方法,算法運(yùn)行的硬件配置如表4所示。
表4 算法運(yùn)行硬件配置
表3 給出了6 層集成卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)過(guò)程中設(shè)置每個(gè)卷積層后的dropout 比率為:0,0,0,0,0.05,0.1,訓(xùn)練過(guò)程的mini-batch 大小為96,路徑簽名中k=2。訓(xùn)練數(shù)據(jù)集與驗(yàn)證數(shù)據(jù)集分別按80%,20%分配。
評(píng)價(jià)指標(biāo)是針對(duì)將相同的數(shù)據(jù)輸入不同的算法模型,或者輸入不同參數(shù)的同一種算法模型,而給出這個(gè)算法模型或者參數(shù)好壞的定量指標(biāo)。本文分別選擇峰值信噪比和精度作為評(píng)價(jià)指標(biāo)。峰值信噪比,即原圖像與處理圖像之間均方誤差的對(duì)數(shù)值。對(duì)于2 張灰度圖像K 和L,則二者之間的均方誤差定義為:
峰值信噪比定義為:
精度,即分類正確的樣本數(shù)占總樣本書的比例[23]。對(duì)樣例集D,xi∈D(i≤m),fxi,yi分別表示預(yù)測(cè)分類值與實(shí)際分類值,則精度定義為:
2.4.1 圖像增強(qiáng)方法有效性驗(yàn)證
表5 給出了圖像增強(qiáng)方法實(shí)驗(yàn)對(duì)比結(jié)果,對(duì)比所有驗(yàn)證集原始圖像的平均PSNR 值與增強(qiáng)后圖像的平均PSNR 值。本文提出的圖像增強(qiáng)方法簡(jiǎn)寫為CBIE,未使用圖像增強(qiáng)方法處理低清晰度圖像的原始方法記為L(zhǎng)ow-input。實(shí)驗(yàn)結(jié)果表明CBIE 方法能夠提升PSNR 值8.35 dB,有效提升了圖像質(zhì)量,降低圖像噪聲對(duì)文字識(shí)別準(zhǔn)確度造成的影響。
表5 圖像增強(qiáng)方法實(shí)驗(yàn)對(duì)比結(jié)果
2.4.2 CBTR 方法有效性驗(yàn)證
DLQDF[25]和MCDNN[9]方法是經(jīng)典的文字識(shí)別方法,DeepCNet[22]方法是近年表現(xiàn)較好的一種基于CNN 的文字識(shí)別方法。因此,本文選擇上述3 種方法作為實(shí)驗(yàn)基準(zhǔn)方法。其中CBTR-none 表示僅使用CNN 模型訓(xùn)練學(xué)習(xí);CBTR-ie 表示僅包含圖像增強(qiáng)方法的CNN 模型;CBTR-ps 表示包括路徑簽名的CBTR 方法;CBTR-ps-8dir 表示不包括假想筆畫特征的CBTR 方法;CBTR-ps-is表示不包括8 方向特征的CBTR 方法;CBTR 方法則為本文完整集成CNN 模型,包括假想筆畫、路徑簽名和8 方向特征。實(shí)驗(yàn)結(jié)果如表6 所示,表中最后一列為模型評(píng)價(jià)指標(biāo)精度。
表6 文字識(shí)別方法實(shí)驗(yàn)對(duì)比結(jié)果
從表6 可以看出,CBTR 方法顯著優(yōu)于各基準(zhǔn)方法。相較于DLQDF,MCDNN 與DeepCNet 方法,CBTR 方法的精度分別平均提升了5.82%,5.38%與3.24%。DeepCNet 與CBTR-ie 方法明顯優(yōu)于另外兩個(gè)基準(zhǔn)方法,表明深度學(xué)習(xí)方法在文字識(shí)別領(lǐng)域具有優(yōu)越性。其中,CBTR-ie 方法的精度僅稍好于DLQDF 與MCDNN 方法。與CBTR-none 方法相比,CBTR-ie 方法的精度提升了1%,證明了本文提出的圖像增強(qiáng)方法的有效性。CBTR-ps-8dir 方法的精度略高于CBTR-ps 方法。雖然路徑簽名方法通過(guò)數(shù)學(xué)微積分的計(jì)算,已經(jīng)得到了筆跡特征的方向信息,但其無(wú)法涵蓋更多方向,如8 個(gè)方向的所有筆畫方向特征。因此,路徑簽名方法與8 方向特征方法的融合,能夠相互互補(bǔ),精度提升了0.14%。此外,路徑簽名方法與假想筆畫的融合,精度提升了0.31%,表明假想筆畫得到的起筆、落筆特征在文字識(shí)別中提供了較高的區(qū)分度。最后,通過(guò)結(jié)合所有這些筆跡特征,CBTR 方法實(shí)現(xiàn)了高精度93.41%。
對(duì)比不同方法的運(yùn)行效率,傳統(tǒng)方法DLQDF的平均每張圖像處理時(shí)間遠(yuǎn)低于其他基于卷積神經(jīng)網(wǎng)絡(luò)的方法,處理時(shí)間低至2.4 ms。這是由于DLQDF 僅依賴于筆跡特征計(jì)算,不需要模型訓(xùn)練,提升了方法的運(yùn)行效率。DeepCNet 方法的處理時(shí)間高于其他方法,歸因于其自身復(fù)雜的訓(xùn)練網(wǎng)絡(luò)。CBTR 方法精簡(jiǎn)了DeepCNet 網(wǎng)絡(luò),平均每張圖像處理時(shí)間為30.08 ms,比DeepCNet 方法的處理時(shí)間降低了13.44%,較好地兼顧了處理時(shí)間與精度。
假想筆畫、路徑簽名和8 方向特征分別作為特征矩陣輸入,將輸出3 種CNN 結(jié)果。CBTR 方法采用結(jié)合策略計(jì)算預(yù)測(cè)結(jié)果。表7 給出了本文集成CNN 算法使用不同結(jié)合策略的實(shí)驗(yàn)對(duì)比結(jié)果。結(jié)合策略主要有3 種:平均法、投票法與學(xué)習(xí)法。本文實(shí)驗(yàn)則對(duì)比了簡(jiǎn)單平均法與簡(jiǎn)單投票法的對(duì)比結(jié)果,學(xué)習(xí)法將在未來(lái)進(jìn)一步探索。其中,CBTR-avg 表示使用簡(jiǎn)單平均法的結(jié)合策略;CBTR-vot 表示使用簡(jiǎn)單投票法的結(jié)合策略。從實(shí)驗(yàn)結(jié)果可以看出,CBTR-avg 方法的精度高于CBTR-vot 方法,簡(jiǎn)單平均法更適用于本文場(chǎng)景。
表7 不同結(jié)合策略的CBTR 方法實(shí)驗(yàn)對(duì)比結(jié)果
本文針對(duì)電力操作票圖像文字識(shí)別,提出了一種基于CNN 的電力操作票文字識(shí)別方法,能夠?qū)崿F(xiàn)操作票圖像“清晰度增強(qiáng)、文字準(zhǔn)確識(shí)別”的功能。該方法具有如下特點(diǎn):
(1)使用自定義三層CNN 訓(xùn)練得到非線性映射函數(shù),輸出高PSNR 值圖像,便于后續(xù)文字的準(zhǔn)確識(shí)別。
(2)通過(guò)融合假想筆畫、路徑簽名與8 方向特征等筆跡特征,構(gòu)建集成CNN 模型,最后通過(guò)簡(jiǎn)單平均法計(jì)算文字分類結(jié)果,提升了文字識(shí)別的準(zhǔn)確度。
(3)在實(shí)際運(yùn)維檢修中操作票圖像樣本及數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了圖像增強(qiáng)、筆跡特征均能提升CNN 模型的性能。