陳習(xí) 曾智翔 張蓓蕾 陳春
【摘 要】在本文中,我們提出了一個(gè)深層次基于圖像分類學(xué)習(xí)網(wǎng)絡(luò)基本數(shù)據(jù)處理組件:級(jí)聯(lián)主成分分析(PCA)、二進(jìn)制散列分類、塊狀直方圖分析。在提出的架構(gòu)中,PCA被用于學(xué)習(xí)多級(jí)濾波器組。這個(gè)架構(gòu)稱為PCA網(wǎng)絡(luò)(PCANet),可以非常容易和有效地設(shè)計(jì)和學(xué)習(xí)。PCANet在圖像、文字識(shí)別的應(yīng)用中,是十分有效的方法。本文利用其原理技術(shù),通過對(duì)電力銘牌圖像識(shí)別,適應(yīng)其場景化做了相應(yīng)的改進(jìn)和特化。包括對(duì)光照變化,不匹配不對(duì)齊,遮擋等因素做了相應(yīng)預(yù)處理改進(jìn)。在實(shí)驗(yàn)數(shù)據(jù)對(duì)比中,基于PCANet的電力銘牌圖像識(shí)別比其他傳統(tǒng)的識(shí)別技術(shù)效率都要高,獲得了95%的識(shí)別準(zhǔn)確率,對(duì)于銘牌識(shí)別提供了即拍即識(shí)別的有效方案。
【關(guān)鍵詞】圖像識(shí)別;PCA;PCANet;電力銘牌;
中圖分類號(hào): TP391.41 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)34-0023-005
DOI:10.19694/j.cnki.issn2095-2457.2018.34.009
Application of PCANet recognition algorithm in character recognition of electric nameplate
CHEN Xi ZENG Zhi-xiang* ZHANG Bei-lei CHEN Chun
(Hainan Power Grid Co.,Ltd.,Hainan Haikou 570203,China)
【Abstract】In this paper,we present a deep hierarchical image processing component based on image classification learning network:cascade principal component analysis(PCA),binary hash classification,and block histogram analysis.In the proposed architecture,PCA is used to learn multi-stage filter banks.This architecture,called the PCA Network(PCANet),can be designed and learned very easily and efficiently.PCANet is a very effective basic concept in the application of image and character recognition.In this paper,the principle technology is used to improve and specialize the image recognition of the electric nameplate and adapt to its scene.Including the changes in lighting,mismatch,misalignment,occlusion and other factors have been improved.In the comparison of experimental data,PCANet-based power nameplate image recognition is more efficient than other traditional recognition techniques,achieving 95% recognition accuracy,and providing an effective solution for instant recognition.
【Key words】Image classification;PCA;PCANet;Power nameplate
0 引言
電氣銘牌的字符識(shí)別是光學(xué)字符識(shí)別[1](Optical Character Recognition,OCR)的一個(gè)方面.光學(xué)字符識(shí)別OCR是模式識(shí)別領(lǐng)域一個(gè)古老的研究方向.OCR的研究內(nèi)容是利用電子計(jì)算機(jī)等人工智能(計(jì)算)設(shè)備來識(shí)別各種形式的文字及符號(hào)的圖像所包含的信息。在學(xué)科分類上,字符識(shí)別技術(shù)屬于模式識(shí)別和人工智能的范疇,它涉及模式識(shí)別、光電子技術(shù)、計(jì)算機(jī)圖像處理、人工智能、模糊數(shù)學(xué)、組合數(shù)學(xué)、信息論、自然語言理解等技術(shù),它是一門介于基礎(chǔ)理論研究和應(yīng)用研究之間的綜合性學(xué)科?,F(xiàn)代的OCR產(chǎn)品實(shí)際上已經(jīng)成為現(xiàn)實(shí)世界和計(jì)算機(jī)世界的溝通紐帶。
變壓器銘牌是變壓器重要的信息標(biāo)識(shí)部件,由于其銘牌信息往往都是以人工形式采集,采用拍照記錄,再通過信息繪制成表單,記錄效率較低。本文主要是解決在拍照過程中只能畫識(shí)別圖片信息,生成對(duì)應(yīng)銘牌信息表單的可視化界面后還能提供可操作功能(修改,刪除一些數(shù)據(jù)信息)的軟件,簡化其手工操作的繁瑣過程,其核心技術(shù)就是電力銘牌文字識(shí)別的技術(shù)。
由于電力銘牌種類繁多,而且字體大小,形式,清晰度,污化度等各種因素,增加了對(duì)電力名牌的文字識(shí)別難度,普通常規(guī)的文字識(shí)別算法根本不足以支持具體環(huán)境下的文字識(shí)別準(zhǔn)確率。對(duì)不同的文字識(shí)別算法進(jìn)行分析后,我們采用基于PCAnet的算法,應(yīng)用到具體項(xiàng)目中。從預(yù)處理,文字識(shí)別算法處理,后處理等過程,對(duì)比不同的模塊處理過程,綜合出一個(gè)相對(duì)符合標(biāo)準(zhǔn)的可視化電力銘牌文字識(shí)別算法。
1 預(yù)處理
由于拍照獲得的像素圖片不高,導(dǎo)致識(shí)別率降低。預(yù)處理過程則是對(duì)識(shí)別的照片進(jìn)行質(zhì)量提高,如圖像灰度化,圖像切分,降躁,圖像定位矯正,字符分割,字符分割統(tǒng)一化等。
1.1 圖像灰度化
彩色圖像轉(zhuǎn)化為灰度化有:I=0.3R+0.59G+ 0.11B.I表示灰圖的亮度值,通過R,G,B紅綠藍(lán)三色分量的比重計(jì)算。圖像灰度化也有許多種措施,如最大類間方差法,是一種自適應(yīng)的閥值方法,它是利用圖像的灰度特性,將圖像分成前景和背景兩個(gè)部分,當(dāng)閥值達(dá)到最佳,背景和前景差別最大,從而達(dá)到二值化的目的,但是有時(shí)候某些字體和背景差距不大時(shí),就會(huì)很難捕抓到。再如,Bernsen法,他是基于全局的灰度值處理,對(duì)圖像進(jìn)行逐點(diǎn)二值化,它會(huì)遍歷所有的點(diǎn),所以對(duì)于差距不大的背景反差,也能有較好的區(qū)分,但是由于遍歷所有的點(diǎn)特征,效率不高。再如,改進(jìn)的bradley算法[2],具體步驟為:使用積分圖計(jì)算移動(dòng)窗口內(nèi)的值,將當(dāng)前灰度值與當(dāng)前窗口灰度值作比較,如果當(dāng)前灰度值比均值高出t個(gè)百分點(diǎn),就設(shè)置為白色,否者就設(shè)置為黑色。忽略平滑過渡區(qū),這種基于bradley適用于簡單的,光照不均勻的圖像,不適合應(yīng)用于復(fù)雜的圖像環(huán)境,且不論是效率還是處理效果,此算法是相對(duì)銘牌識(shí)別較優(yōu)的。
1.2 圖像切分
由于銘牌識(shí)別的銘牌樣式多種多樣,對(duì)于單字識(shí)別的結(jié)構(gòu)很難完整的組合成一系列的詞語,有時(shí)詞語組合還會(huì)錯(cuò)亂,這就要考慮到字符分割前提下的圖像切分,這是一種基于布局化的圖像切分,利用模版匹配的方法可以很好的解決這一點(diǎn),基于自學(xué)的方法,先讓系統(tǒng)訓(xùn)練各種銘牌樣式的布局,然后根據(jù)輪廓,邊框,來對(duì)圖像進(jìn)行有規(guī)律的切分,訓(xùn)練后作為匹配模版進(jìn)行實(shí)際圖像切分的比較。圖像切分很好得解決了圖片識(shí)別結(jié)果以后的邏輯還原問題,即在字符識(shí)別相對(duì)準(zhǔn)確的情況下還原銘牌的基本布局。
根據(jù)像素的矩陣排列規(guī)律,可以切分為四個(gè)模塊,如下圖所示:
1.3 降噪
本文用到小波變換去噪原理[3],因?yàn)樾〔ㄗ儞Q具有良好的時(shí)頻局部化特征,其線性表示為:,這種方法保留了大部分包含信號(hào)的小波函數(shù),發(fā)現(xiàn)并去掉由噪聲控制的小波函數(shù)。剩下的小波系數(shù)做逆變化得到去噪信號(hào)。
小波變換去噪可以很好的保護(hù)有用的信號(hào)尖峰和突變信號(hào),因此小波變換適合用于暫態(tài)信號(hào)和瞬間信號(hào)的噪聲去除方面,以及抑制高頻噪聲的干擾,有效將高頻信息和高頻噪聲區(qū)分開來,從而較好地保持圖像細(xì)節(jié),用在銘牌識(shí)別上的預(yù)處理很恰當(dāng)。下圖為降噪后的效果圖:
1.4 圖像定位矯正
銘牌識(shí)別應(yīng)用圖像為自然場景下所拍攝的,由于拍攝的角度問題,通常圖像不是正位的,這就需要對(duì)圖像進(jìn)行定位矯正。透視形變矯正這種方法應(yīng)用比較廣泛,透視形變導(dǎo)致圖像中的銘牌不再具有真實(shí)場景中的輪廓。由于金屬銘牌大多為矩形,而且銘牌圖像中的金屬銘牌具有明顯的輪廓,與背景區(qū)比較為明顯。因此,在本設(shè)計(jì)中將利用Harris角點(diǎn)檢測(cè)法求出銘牌金屬邊緣的四個(gè)角點(diǎn),將這四個(gè)交點(diǎn)作為求解方程組中用到的四組平面的點(diǎn)。Harris算子是一種基于信號(hào)點(diǎn)特征提取的算子,如果在某一點(diǎn)上向任意方向細(xì)微的偏移都會(huì)引起灰度值很大的變化,那么Harris算法就會(huì)將其認(rèn)定為角點(diǎn)。在標(biāo)記好了所有特征點(diǎn)后,我們挑出距離原圖四個(gè)邊點(diǎn)最近的Harris角點(diǎn),將其位置記錄,認(rèn)為這四個(gè)點(diǎn)即為原始金屬的角點(diǎn)或相對(duì)邊緣點(diǎn),將其作為四點(diǎn)法中世界平面的參考點(diǎn)應(yīng)用于形變矯正。經(jīng)實(shí)驗(yàn)證明,透視形變矯正效果很好,這有利于銘牌的文字識(shí)別效率。
1.5 字符分割
經(jīng)過銘牌定位后的銘牌是一個(gè)整體,要對(duì)字體達(dá)到準(zhǔn)確識(shí)別,要對(duì)銘牌進(jìn)行字符分割,包括漢字、字母、數(shù)字,就必須把字符從一行文字中分割出來,這就是字符分割。字符分割也分很多種,統(tǒng)一化分割,分類法分割等。
但是,字符分割之前需要對(duì)圖片進(jìn)行一系列預(yù)處理。
1.5.1 基于垂直投影的字符識(shí)別切分
垂直投影法通過將垂直方向的字符像素點(diǎn)的黑色進(jìn)行累加,然后利用白色間隔進(jìn)行字符切分。但是這樣做有兩個(gè)前提,第一,在二值化處理過后的灰度圖片背景不能與字體太過于接近,即差距要大否則會(huì)導(dǎo)致切分失誤。第二,有些字由于偏旁原因間隙也會(huì)大,會(huì)把一個(gè)字切分為兩個(gè)。所以還要做相對(duì)距離的判斷處理。
1.5.2 基于類型綜合考慮的方法
其一,利用字符間空隙和字符大小特征,利用投影特征的切分及利用連通元特征切分。其二,以識(shí)別為基礎(chǔ)的切分,通過反擴(kuò)散法判斷切分結(jié)果是否正確,起到預(yù)確認(rèn)的效果。其三,整體切分策略,即系統(tǒng)將字符串作為一個(gè)整體進(jìn)行詞識(shí)別而不是字識(shí)別,在這種方法中加入了上下文關(guān)系等聯(lián)系。而且單個(gè)字符識(shí)別后還得進(jìn)行統(tǒng)一化處理,消除字符位置和大小的變化。歸一化處理主要包括位置歸一化和大小歸一化。字符的歸一化十分重要,因?yàn)檩斎氲臏y(cè)試樣本大小不一樣,如果不能將字符在位置和大小統(tǒng)一化處理,字符與模版的相似度比較就顯得很難匹配。
2 文字識(shí)別算法
2.1 基于PCAnet識(shí)別文字識(shí)別
主成份分析(PCA)也稱主向量分析[4],主元分析,是由英國統(tǒng)計(jì)學(xué)家Kart Peason提出的,之后由Hotelling將其改進(jìn),使之成為經(jīng)典方法之一,并廣泛應(yīng)用在各個(gè)領(lǐng)域。
在一些統(tǒng)計(jì)問題的研究中,往往需要考慮到各種影響因素,全面而系統(tǒng)的分析問題。在多元統(tǒng)計(jì)分析學(xué)中,這種影響因素被稱為變量。而我們?cè)诙糠治鲋星∏∠M兞吭缴僭胶?。主成份分析法正是適應(yīng)了這一點(diǎn),對(duì)于銘牌文字識(shí)別提供了解決思路。
PCAnet是基于人工網(wǎng)路方面的識(shí)別算法,所以相關(guān)的一些算法比較復(fù)雜。但是基本步驟還是比清晰易懂的。PCANet的網(wǎng)絡(luò)結(jié)構(gòu)運(yùn)算實(shí)現(xiàn):
(two-stage)PCANet
1)通常,采集的原始數(shù)據(jù)用一個(gè)m維向量表示,每個(gè)向量有n個(gè)特征值,也就可以表示為:
構(gòu)造樣本陣列,進(jìn)行標(biāo)準(zhǔn)化變換:
其中,
2)對(duì)標(biāo)準(zhǔn)化陣列Z求相關(guān)系數(shù)矩陣
3)解樣本相關(guān)矩陣R的特征方程,得m個(gè)特征根確定主成份,按確定w值,使信息的利用率達(dá)到85%以上,對(duì)每個(gè),解方程組得單位特征向量b
。
4)將標(biāo)準(zhǔn)化的指標(biāo)向量轉(zhuǎn)換成主成份
其中,稱矩陣U的第一行為第一主成分,稱矩陣U的第二行為第二主成份,以此類推。
5)對(duì)m個(gè)主成份進(jìn)行綜合評(píng)價(jià),對(duì)m個(gè)主成份進(jìn)行加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為每個(gè)主成份的方差貢獻(xiàn)率。
在運(yùn)用到銘牌識(shí)別的技術(shù)上,只需要提取需要訓(xùn)練的圖像素材即可,在進(jìn)行相關(guān)的結(jié)果分析,經(jīng)實(shí)驗(yàn)證明,PCANet速度較快,計(jì)算量較小,更易于環(huán)境操作效率。
由于銘牌識(shí)別具有字體局部性,一些參數(shù)和數(shù)字的信息,可以作為基本訓(xùn)練的識(shí)別模式庫,對(duì)不同字體的相同符號(hào)參數(shù)進(jìn)行特征統(tǒng)一化,減小了一二層篩選模式的規(guī)模大小,從而加快了識(shí)別速度。即對(duì)進(jìn)行識(shí)別的已經(jīng)分割好的字符進(jìn)行預(yù)分析,判定是否是該銘牌識(shí)別的必要信息,進(jìn)行初步的過濾。
本實(shí)驗(yàn)訓(xùn)練庫的識(shí)別樣本如下:
字符類樣本:產(chǎn) 品 型 號(hào) 額 定 電 流 壓 聯(lián) 結(jié) 組 標(biāo) 短 阻 抗
絕 緣 水 平 準(zhǔn) 代 頻 率 相 數(shù) 三 冷 卻 方 式 使 用 條 件 器 高 低 出 廠 序 號(hào)
非字符類樣本:
1234567890ABCDEFGHIJKLMNOPQRSTUVWXYZ%-.+
本設(shè)計(jì)只是選取一般電力銘牌公用字段作為樣本,對(duì)于非庫中的中文就無法識(shí)別,所以需要進(jìn)行特定擴(kuò)充如需用到其他解析方面的話。
2.2 模板匹配法字符識(shí)別
傳統(tǒng)模版匹配法,也稱為近鄰法,是模式識(shí)別中最原始、最常用的分類方法。模版匹配并不需要特征提取過程,而是直接把圖像作為特征,和字典中的模版相比,相似度高的模版即為識(shí)別結(jié)果。這種方法的優(yōu)點(diǎn)是直觀,算法簡單,容易實(shí)現(xiàn),只要求訓(xùn)練模版的數(shù)據(jù)源夠豐富。由于銘牌識(shí)別的字符個(gè)數(shù)和類別是有所固定的,所以采用此法比較簡便,但是要提高正確率,就需要使用多個(gè)模版進(jìn)行匹配,那么處理速度就會(huì)有所下降。
3 后處理
對(duì)于后處理部分,針對(duì)相似字符,粘連字符,特殊符號(hào)的識(shí)別錯(cuò)誤等問題,需要進(jìn)行后處理,可以根據(jù)識(shí)別結(jié)果來進(jìn)行對(duì)應(yīng)處理。例如,在某些場合銘牌識(shí)別的準(zhǔn)確率很低,就需要人工手動(dòng)進(jìn)行調(diào)整。
系統(tǒng)運(yùn)行要具有較高的可靠性,會(huì)經(jīng)過嚴(yán)格的性能測(cè)試來保證每一個(gè)環(huán)節(jié)在相對(duì)的準(zhǔn)確域中,同時(shí),對(duì)于錯(cuò)誤和模糊的識(shí)別結(jié)果應(yīng)該給使用者反饋標(biāo)識(shí)出來,以便及時(shí)發(fā)現(xiàn)問題,并進(jìn)行修復(fù)。
針對(duì)字符粘連的后處理。對(duì)于字符的粘連問題主要有兩種,一種為簡單粘連--字符接觸,但并沒有重合的部分,如果粘連位置探測(cè)準(zhǔn)確,可以將其分開,但可能造成誤切分。一種為交錯(cuò)粘連--邏輯上的粘連,即字符不接觸,但有重合。
對(duì)應(yīng)的可行性解決方案如下:
1)從上往下行掃描圖像,找到第一個(gè)白變黑的像素點(diǎn),記錄坐標(biāo),然后繼續(xù)掃描,找到第一個(gè)黑變白的像素點(diǎn),記錄其坐標(biāo),然后取這兩個(gè)跳變的中間點(diǎn),記錄其坐標(biāo)。
2)繼續(xù)掃描找到下一個(gè)中間點(diǎn),直到找到所有的中間點(diǎn)為止,記錄其坐標(biāo)。
3)將第一步中找到的中間點(diǎn)和第二步中找到的所有中間點(diǎn),利用這些點(diǎn)進(jìn)行劃線。
4)連線上如果全是黑色的像素點(diǎn)則證明是交錯(cuò)粘連,那么將左邊的字符移動(dòng),把第一步中的中點(diǎn)的橫坐標(biāo)距離長度的字符放到一個(gè)新的空白矩陣中,如果不全是,則證明非交錯(cuò)相連。
5)對(duì)于剩下的圖像像素行繼續(xù)上訴步驟,逐一進(jìn)行移出。
4 總結(jié)
在大數(shù)據(jù)和人工智能發(fā)展的時(shí)代背景下,一方面無標(biāo)數(shù)據(jù)變得唾手可得,加上計(jì)算機(jī)運(yùn)算水平的提高,這些都給人工智能技術(shù)的移植提供良好的環(huán)境;另外一方面無監(jiān)督深度學(xué)習(xí)的表達(dá)方法能夠自動(dòng)的從原始數(shù)據(jù)里提取魯棒的特征性信息,使得分類識(shí)別準(zhǔn)確率更高。
本文旨在當(dāng)前背景下利用文字識(shí)別技術(shù)的綜述和比較,提出了將主成份分析法應(yīng)用于銘牌識(shí)別。首先通過對(duì)種方法的對(duì)比選擇了brdley方法作為二值化方案,選擇PCAnet用作識(shí)別。識(shí)別環(huán)節(jié)中一方面采用了無監(jiān)督訓(xùn)練的方式,提取了高表征力的特征,識(shí)別準(zhǔn)確率優(yōu)于人工設(shè)計(jì)特征的淺層算法;另一方面針對(duì)漢字字符識(shí)別這類多分類問題,有更快的識(shí)別速度。對(duì)于銘牌文字識(shí)別問題,PCANet做到了準(zhǔn)確率和計(jì)算速度矛盾調(diào)優(yōu)中的最佳方案。
【參考文獻(xiàn)】
[1]馬文冀.基于Android平臺(tái)的字符識(shí)別預(yù)處理算法設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué)碩士論文,2012.
[2]安芳.PID控制器參數(shù)整定機(jī)器及其在逆變控制上的應(yīng)用[D].南昌:南昌航空大學(xué),2013.
[3]馬玲玉.基于OpenCV手機(jī)拍照快遞單文字識(shí)別的研究[D].哈爾濱商業(yè)大學(xué),2016.
[4]尹遠(yuǎn),余正濤.融合字符及字符排列特征的銘牌識(shí)別方法[J].現(xiàn)代電子技術(shù),2016,39(22):7-9.