劉 昶,徐超遠,張 鑫,薛 磊
液晶字符識別的CNN和SVM組合分類器
劉 昶,徐超遠,張 鑫,薛 磊
(沈陽理工大學(xué)信息科學(xué)與工程學(xué)院,遼寧 沈陽 110159)
針對儀表液晶顯示字符識別問題,提出一種結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和支持向量機(SVM)的字符識別方法。分別采用具有并聯(lián)結(jié)構(gòu)的CNN模型和基于梯度方向直方圖(HOG)特征的SVM方法構(gòu)建基本分類器,當(dāng)2個分類器的結(jié)果存在沖突時,利用CNN的softmax輸出最大值判決最終結(jié)果,當(dāng)其大于設(shè)定閾值時采用CNN分類器的結(jié)果,反之采用SVM分類器的結(jié)果。建立字符圖像的誤差模型并利用仿真方法構(gòu)建了數(shù)據(jù)集用于分類器的訓(xùn)練和測試,給出一種基于投票原理的最優(yōu)閾值的估計算法。在MNIST和仿真數(shù)據(jù)集上的測試實驗結(jié)果表明,最優(yōu)閾值估計算法的結(jié)果可靠,組合分類器的準(zhǔn)確率較2種單一分類器均有提高,在實際測試系統(tǒng)上其準(zhǔn)確率達到99.81%,驗證了該組合分類器方法對液晶字符識別問題的有效性;在CIFAR-10數(shù)據(jù)集上的實驗結(jié)果驗證了該方法也可用于其他分類問題。
計算機視覺;機器學(xué)習(xí);液晶字符識別;支持向量機;卷積神經(jīng)網(wǎng)絡(luò)
儀表字符識別是儀表示值判讀、自動巡檢等應(yīng)用中的關(guān)鍵問題,由于儀表字符顯示大多具有固定位置和字體,其較手寫字符識別容易,但由于儀表字符多表達關(guān)鍵數(shù)據(jù),對字符識別正確率的要求更高。目前數(shù)顯儀表的顯示方式主要有數(shù)碼管和液晶2種顯示形式,由于液晶顯示器較數(shù)碼管顯示器前景、背景亮度差小,在采集液晶面板圖像時,顯示字符更容易受到環(huán)境照明、面板污染、面板平整度和刮痕等因素的影響,使字符成像質(zhì)量變差,對字符識別造成困難。
目前常用的儀表字符識別方法可分為基于圖像處理和基于機器學(xué)習(xí)2類。早期的基于圖像處理的方法包括:模板匹配[1]、字符結(jié)構(gòu)特征方法[2]等,其原理簡單清晰,但對圖像噪聲敏感,魯棒性較差。而基于機器學(xué)習(xí)的方法包括:-近鄰的方法[3]、神經(jīng)網(wǎng)絡(luò)[4]、支持向量機(support vector machine,SVM)、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)等,其中SVM和CNN方法效果較好,逐漸成為主流。SVM是一種有監(jiān)督學(xué)習(xí)模型,一般需要人工選擇特征,文獻[5]通過對字符圖像水平和垂直2個方向的投影曲線分別進行小波分解,得到投影曲線的近似表示并從中提取特征參數(shù)并對其進行訓(xùn)練;文獻[6]提取了圖像的梯度方向直方圖(histogram of oriented gradients,HOG)特征向量作為輸入進行模型訓(xùn)練;文獻[7]利用K-means聚類算法做無監(jiān)督特征學(xué)習(xí),在無標(biāo)簽的情況下自動學(xué)習(xí)抽取特征,再進行模型訓(xùn)練;文獻[8]提出了一種具有辨別能力的特征池化方法,提取每個特征圖信息量最大的子區(qū)域作為最終的特征用來訓(xùn)練模型。CNN也是一種有監(jiān)督的學(xué)習(xí)模型,其優(yōu)點是避免了人工選擇特征的過程;文獻[9]將CNN網(wǎng)絡(luò)模型LeNet用于手寫字符識別,在公開的MNIST數(shù)據(jù)集上取得滿意的結(jié)果,對促進CNN在圖像識別問題中的廣泛應(yīng)用做出重要貢獻,并在此基礎(chǔ)上發(fā)展出許多應(yīng)用于字符識別問題的其他結(jié)構(gòu)的CNN網(wǎng)絡(luò)或深度網(wǎng)絡(luò)[10-12]模型。為提高識別率,有學(xué)者提出采用集成學(xué)習(xí)的方法,典型的如決策樹和隨機森林方法[2]、樸素貝葉斯方法[13],Bagging[14]和Boosting[15]方法等,由多個子分類器構(gòu)造性能更好的組合分類器,取得了比單一分類器更好的結(jié)果。
本文針對儀表液晶顯示字符識別問題,通過建立字符圖像的誤差模型由字符模板生成仿真數(shù)據(jù)集,分別采用一種具有并聯(lián)結(jié)構(gòu)的CNN模型和基于HOG特征的SVM模型訓(xùn)練基本分類器進行字符識別,對于2種基本分類器輸出結(jié)果存在沖突的情況,提出一種根據(jù)CNN輸出的softmax值進行判決的方法,從而構(gòu)造出一種組合分類器,對其工作原理進行了討論,給出最優(yōu)閾值的選擇算法,并進行實驗研究。
儀表字符多數(shù)為數(shù)字字符,一般情況下液晶字符在液晶屏上的顯示位置和字體都是固定的,在獲取液晶顯示器的圖像并提取液晶屏邊緣后,每個字符圖像可通過與液晶屏邊緣的相對位置定位獲得,該過程可通過圖像處理的方法實現(xiàn),每個字符圖像表達的內(nèi)容可能是0到9或空格,共11種類別。
在利用機器學(xué)習(xí)方法進行字符分類器訓(xùn)練和測試時,都需要一個合適的數(shù)據(jù)集。數(shù)據(jù)集中的每幅圖像均通過對真實儀表采集再標(biāo)注得到,數(shù)據(jù)集構(gòu)造的工作量非常大。為此,本文采用在字符標(biāo)準(zhǔn)模板上依次疊加以下幾種類型誤差的方式,自動生成字符圖像仿真數(shù)據(jù)集:
(3) 圖像獲取誤差。通過高斯噪聲模擬圖像獲取過程中的熱噪聲,其生成式為
(5) 光斑。利用二維高斯函數(shù)生成近似受光源、劃痕、液晶屏表面不平整等因素影響而產(chǎn)生的光斑,即
以上誤差模型中的C,C,C,C,,C,C均為事先設(shè)定的常數(shù)。圖1為一組真實的液晶字符圖像,以及在標(biāo)準(zhǔn)字符模板的基礎(chǔ)上疊加上述誤差后的字符圖像樣例,可見生成圖像的辨認(rèn)難度大于真實圖像,利用該方法構(gòu)造數(shù)據(jù)集可節(jié)省大量構(gòu)造成本。
圖1 真實樣本與生成樣本對比 ((a)真實圖像;(b)生成圖像)
SVM是一種針對二分類問題的學(xué)習(xí)模型,對于多分類問題,大多通過組合多個二分類器處理,常用方法有一對一(one-versus-one,OVO)和一對多(one-versus-rest,OVR)、二叉樹和決策導(dǎo)向無環(huán)圖等。其中OVO方法對任意2類樣本都訓(xùn)練一個分類器,若樣本類別為,則需要(-1)/2個SVM子分類器,通過其可確定分類結(jié)果;OVR方法將其中一類作為正類,其余作為負類,僅需個子分類器,但結(jié)果可能產(chǎn)生沖突;二叉樹和決策導(dǎo)向無環(huán)圖都是通過構(gòu)造決策樹判別最終結(jié)果。從現(xiàn)有報道看,OVO方法優(yōu)于其他方法[16],只是需要更多的子分類器。本文利用字符圖像的HOG特征訓(xùn)練SVM分類器,由于該問題是一個共11類的多分類問題,采用OVO方法,需訓(xùn)練55個SVM子分類器。
目前有許多CNN模型在圖像分類問題中獲得成功應(yīng)用,其中LeNet類型網(wǎng)絡(luò)在字符識別問題中有出色表現(xiàn)[9],有研究表明并行結(jié)構(gòu)的網(wǎng)絡(luò)有利于提高網(wǎng)絡(luò)性能[11,17],因此本文選擇了具有如圖2所示的由2個LeNet網(wǎng)絡(luò)并聯(lián)的CNN結(jié)構(gòu)用于字符識別。字符圖像被分別送入LeNet-A和LeNet-B 2個網(wǎng)絡(luò)進行特征提取,匯聚到全連接層后再由softmax層輸出。
圖2 用于字符識別的并聯(lián)結(jié)構(gòu)CNN模型
圖2中左右2列的LeNet-A和LeNet-B的基本結(jié)構(gòu)相同,只是在卷積核的數(shù)量和池化過程上有差別。網(wǎng)絡(luò)的激活函數(shù)使用ReLU;訓(xùn)練中的損失函數(shù)采用交叉熵;優(yōu)化方法采用Adam。
對于以softmax作為輸出層的CNN分類器,softmax輸出的最大值的含義是表示被測樣本為對應(yīng)類別的概率,該值也可以作為衡量結(jié)果置信度的一個指標(biāo)。
記CNN分類器針對全部測試樣本的平均正確率為PA,圖3顯示了PL(T)和PG(T)隨T變化的情況,圖中只顯示了閾值高于0.9的情況,因為實際情況下樣本的softmax最大值大多接近1,因此將坐標(biāo)軸刻度進行了對數(shù)化處理。
由圖3可見,隨著的增大,P()和P()均呈出遞增的趨勢,而由于P(1)=P(0)=P,因此在多數(shù)情況下有
這說明可通過設(shè)置一個合適的閾值,將被測樣本分成2部分,對于softmax最大值大于的樣本,其CNN分類結(jié)果較另一部分具有更高的置信度。
本文CNN與SVM組合分類器的思想正是基于此提出的,將已訓(xùn)練好的CNN與SVM分類器作為2個基本分類器,通過合理設(shè)定閾值,首先應(yīng)用CNN分類器對被測樣本x進行判別,若s>則以該結(jié)果作為最終結(jié)果;反之利用SVM分類器對x進行判別,將其結(jié)果作為最終結(jié)果??紤]本文的CNN和SVM 2種分類器在工作原理上存在較大差別,具有相對的獨立性。若存在,當(dāng)s>時,使用CNN分類器樣本的識別正確率高于SVM;在s≤時,SVM分類器樣本的識別正確率高于CNN,則組合分類器的識別正確率均高于單一分類器。
對于組合分類器,分割閾值是影響分類器最終性能的重要因素,但最優(yōu)閾值的選擇不易通過理論分析獲得,本文采用通過驗證集評估的方法對最優(yōu)閾值進行估計。首先在數(shù)據(jù)集中選出有別于訓(xùn)練樣本的部分樣本作為驗證集,在驗證集上確定組合算法正確率P與閾值的函數(shù)關(guān)系P(),再選取
作為組合分類器的分割閾值。
由于驗證集中樣本數(shù)量有限,2個基本分類器結(jié)果存在差異的樣本數(shù)量也有限,因此()關(guān)于的函數(shù)曲線表現(xiàn)為由有限的若干橫線構(gòu)成,分割橫線的值是前述樣本的softmax最大值。此外()還具有以下性質(zhì):當(dāng)≤0時,()是由CNN基本分類器得到的結(jié)果;當(dāng)≥1時,()是由SVM基本分類器得到的結(jié)果。下面討論()的計算方法。
then構(gòu)建新節(jié)點q
end if;
記隊列長度為+1,根據(jù)節(jié)點的值將由小到大排序,仍記第個節(jié)點為q,(=0,1,···,);
Forqin,=1,2,···,,
then for=0,1,···,-1,q·++;
else for=,+1,···,,q·++;
endif。
完成以上過程后,()在[0,1]區(qū)間上的值為
對于有監(jiān)督學(xué)習(xí)的分類算法,訓(xùn)練樣本對分類器的性能至關(guān)重要,一般情況下訓(xùn)練樣本越多,分類器性能越好。上述組合分類算法中,數(shù)據(jù)集中的部分樣本作為訓(xùn)練集用于訓(xùn)練基本分類器,另一部分作為驗證集僅用于求取分割閾值。為進一步提升組合分類器性能,將驗證集并入訓(xùn)練集重新對2個基本分類器進行訓(xùn)練,由此構(gòu)造新的組合分類器,并假設(shè)按本文方法得到的閾值對新的組合分類器仍然有效。
在公開的手寫體字符數(shù)據(jù)集MNIST上測試本文算法的有效性,該數(shù)據(jù)集包含0~9共10類字符,需對CNN結(jié)構(gòu)略做改動,將softmax層節(jié)點數(shù)改為10。將數(shù)據(jù)集中的30 000個樣本作為訓(xùn)練集,另外30 000個樣本作為驗證集,10 000個樣本作為測試集。在測試集上,訓(xùn)練完成的CNN和SVM (這里采用高斯核) 2個分類器共有76個樣本的分類結(jié)果不同,按本文方法分別在驗證集和測試集上計算(),所得曲線如圖4所示。
圖4 MNIST數(shù)據(jù)集上的實驗結(jié)果
在驗證集上得到的最優(yōu)閾值為0.999 890,采用該閾值的組合分類器在測試集上能對56個樣本正確分類,若取其他閾值,最好的情況能對57個樣本正確分類,僅有1個樣本數(shù)量的提升,說明本文提取分割閾值的方法是有效的。圖4曲線最左側(cè)和最右側(cè)的值分別為CNN分類器和SVM分類器正確判別數(shù)量,而在曲線中很寬的范圍內(nèi),同時高于左右兩側(cè)值的部分為組合分類器正確判別的數(shù)量,說明當(dāng)閾值在一個很寬的范圍內(nèi)取值時,組合分類器都能取得較單一基本分類器更好的結(jié)果,只是不同的取值,性能提高的程度有所差別。
表1列出了基本分類器和組合分類器在測試集上取得的正確率值,可見在相同訓(xùn)練樣本的情況下,本文的組合分類器性能較單一分類器均有提升;利用2.3節(jié)的方法,將訓(xùn)練集和驗證集合并,共60 000個樣本對基本分類器重新進行訓(xùn)練,沿用0.999 890作為分割閾值,組合分類器正確率得到進一步提高,說明采用更多的訓(xùn)練樣本提高基本分類器的正確率對提高組合分類器的正確率有貢獻,也說明組合分類器對于手寫字符識別問題是有效的。
表1 MNIST數(shù)據(jù)集上各分類器正確率(%)
利用1.1節(jié)的方法構(gòu)造仿真圖像作為液晶字符數(shù)據(jù)集,通過重復(fù)實驗對本文算法進行性能測試。該數(shù)據(jù)集包括0~9和空格共11類字符,每種字符選擇300個樣本,共3 300個樣本作為訓(xùn)練集;另外每種字符選擇500個樣本,共5 500個樣本作為驗證集,每種字符選擇1 500個樣本,共16 500個樣本作為測試集。
實驗所得的()曲線如圖5所示。在驗證集上得到的最優(yōu)閾值為0.906 870;在測試集上,訓(xùn)練完成的CNN和SVM (這里采用線性核) 2個分類器共有298個樣本的分類結(jié)果不同,采用該閾值的組合分類器能對277個樣本正確分類;若取其他閾值,可對278個樣本正確分類,僅有1個樣本的提升;圖5也給出了將訓(xùn)練集和驗證集混合,利用共8 800個樣本訓(xùn)練基本分類器的情況,此時2個基本分類器在測試集上共有196個樣本的結(jié)果不一致,若仍采用0.906 870作為分割閾值,新的組合分類器能對185個樣本進行正確分類,而采用其他閾值,最好的情況是能對187個樣本正確分類,僅有2個樣本數(shù)量的提升,再次驗證了最優(yōu)閾值提取方法的有效性。
圖5 液晶字符數(shù)據(jù)集上的實驗結(jié)果
表2為幾種分類器在測試集上的正確率,可見并聯(lián)結(jié)構(gòu)的CNN分類器優(yōu)于2個獨立的LeNet分類器;組合分類器與2個基本分類器的性能對比結(jié)果與3.1節(jié)在MNIST數(shù)據(jù)集上的實驗結(jié)果一致,驗證了組合分類器對液晶字符識別的有效性。
表2 LCD字符數(shù)據(jù)集上各分類器正確率(%)
當(dāng)基本分類器訓(xùn)練完成并確定后,最優(yōu)分割閾值也隨之確定,本實驗研究驗證集樣本數(shù)量對求取最優(yōu)分割閾值的影響。利用3 300個樣本訓(xùn)練完成了基本分類器,分別采用每種字符從100到1 300,每次遞增100個樣本構(gòu)造驗證集,重復(fù)求取最優(yōu)分割閾值的估計值,得到的結(jié)果如圖6所示,若以每種字符1 300個樣本的驗證集得到的結(jié)果為近似準(zhǔn)確結(jié)果,隨著樣本數(shù)量的增加,估計值表現(xiàn)出逐漸穩(wěn)定的趨勢。因此在最優(yōu)閾值估計中,可采用遞增驗證樣本數(shù)量的方法,以滿足穩(wěn)定條件時的估計值作為組合分類器的分割閾值。
圖6 最優(yōu)閾值估計隨驗證集樣本數(shù)量的變化
利用本文訓(xùn)練得到的組合分類器在真實的液晶字符測試裝置上進行字符識別準(zhǔn)確性測試實驗。利用Arduino單片機和液晶顯示模塊設(shè)計了一個如圖7(a)所示的液晶字符識別測試儀,可受控地顯示4位以內(nèi)的液晶數(shù)字,將測試儀放置在一個支架內(nèi),相機采用Basler acA640-90gm,保持相機與支架間的相對位置不變,模擬實際應(yīng)用中的字符采集視覺系統(tǒng)。計算機首先控制測試儀顯示一個偽隨機的4位以內(nèi)十進制數(shù),再控制相機采集測試儀液晶面板圖像,通過圖像處理方法提取4個液晶字符圖像,字符提取結(jié)果樣例如圖7(b)所示,每個字符圖像的像素為37×67,經(jīng)濾波和標(biāo)準(zhǔn)化處理后送訓(xùn)練好的組合分類器進行識別,并與已知的真實值進行對比來判定字符識別的效果。
圖7 液晶字符識別測試儀和提取的液晶字符圖像((a)測試儀;(b)液晶字符圖像樣例)
利用仿真方法構(gòu)造實驗所需液晶字符訓(xùn)練集和驗證集,數(shù)據(jù)集中包括0~9和空格共11類字符,每種字符選擇4 251個樣本,共46 761個樣本作為訓(xùn)練集;每種字符選擇2 000個樣本,共22 000個樣本作為驗證集;在測試過程中人為地加入適當(dāng)干擾,如添加表面劃痕、改變環(huán)境照明條件、加入人影晃動、桌面振動等模擬應(yīng)用現(xiàn)場條件,共拍攝10 000幅真實液晶字符圖像,共40 000個字符樣本構(gòu)成測試集。
實驗中計算機配置為i5-10代CPU、NVIDIA MX250顯卡、16 G內(nèi)存,模型采用TensorFlow訓(xùn)練,采用Python語言和OpenCV編程,表3顯示了基本分類器和組合分類器在測試集上的正確率及3種方法的平均計算時間,可見組合分類器的正確率高于基本分類器,說明了本文方法在真實場景下也是有效的。由于只有前級分類器輸出的softmax最大值小于閾值時才需要后級分類器的進一步判斷,而此類樣本數(shù)量并不特別多,所以組合分類器的平均計算時間僅較前級分類器的略長。本實驗3種分類器均能在2.00 ms內(nèi)完成計算,考慮到圖像采集的時間受相機幀率、曝光時間等因素影響一般約為幾十毫秒,因此分類器的運行時間幾乎不會對系統(tǒng)實時性產(chǎn)生不良影響。
表3 真實實驗中各分類器正確率
本文提出的構(gòu)造組合分類器的方法只利用了前級分類器的softmax輸出形式,因此也可用于其他以softmax輸出的基本分類器的組合以解決其他分類問題。本實驗在CIFAR-10數(shù)據(jù)集上進行應(yīng)用效果測試,該數(shù)據(jù)集共有飛機、汽車、鳥等10類圖像,每類包括6 000幅圖像。實驗中選擇的2個基本分類器分別是ResNet56[18]和NiN (Network in Network)[19],以ResNet56作為組合分類器的前級;選擇數(shù)據(jù)集中的每類3 000個樣本(共30 000個)作為訓(xùn)練集,另外2 000個樣本(共20 000個)作為驗證集,其余1 000個樣本(共10 000個)作為測試集。
訓(xùn)練完成的2個分類器組合后在驗證集和測試集上的效果如圖8所示,在驗證集上得到的最優(yōu)閾值為0.920 673,2個基本分類器在測試集上共有1 267個樣本的分類結(jié)果不同,采用該閾值的組合分類器能對其中的880個樣本分類正確,若取其他閾值,最好的情況(閾值取0.879 553)能對890個樣本正確分類,僅有10個樣本數(shù)量的提升,說明本文提取分割閾值的方法也是有效的。
圖8 CIFAR-10數(shù)據(jù)集上的實驗結(jié)果
表4列出了基本分類器和組合分類器在測試集上的正確率結(jié)果,可見組合分類器性能較單一分類器均有提升;利用2.3節(jié)的方法,將訓(xùn)練集和驗證集合并,共50 000個樣本對基本分類器重新進行訓(xùn)練,沿用0.920 673作為分割閾值,組合分類器正確率得到進一步提高,再次驗證了其方法的有效性,也說明了本文方法具有一定的普適性。
表4 CIFAR-10數(shù)據(jù)集上各分類器正確率(%)
本文針對儀表液晶顯示字符的識別問題,提出一種結(jié)合了CNN和SVM 2種典型分類器的組合分類器的構(gòu)造方法。該方法將CNN分類器的softmax最大值作為判定分類結(jié)果置信度的依據(jù),若足夠大則直接采用CNN分類器的結(jié)果,反之采用SVM分類器的結(jié)果,在MNIST數(shù)據(jù)集和液晶字符仿真數(shù)據(jù)集上,該組合分類器都表現(xiàn)出優(yōu)于單一基本分類器的特性。實驗結(jié)果還驗證了本文基于驗證集的最優(yōu)分割閾值估計方法的有效性。
這種組合分類器方法本質(zhì)上是針對2種分類器的提升方法,要求前級分類器以softmax形式輸出,后級分類器與前級分類器工作原理上具有一定的獨立性,并具有相近的正確率。本文的實驗結(jié)果驗證了該方法在LCD字符識別問題上能產(chǎn)生性能提升的效果,并且具有一定的普適性,也可用于解決其他分類問題。
[1] 瞿國慶,李汪佩. 渣土車車牌字符智能識別研究[J]. 電子測量與儀器學(xué)報, 2016, 30(12): 1853-1860.QU G Q, LI W P. Research on intelligent recognition for muck car license plate character[J]. Journal of Electronic Measurement and Instrumentation, 2016, 30(12): 1853-1860(in Chinese).
[2] 陳軍勝. 組合結(jié)構(gòu)特征的自由手寫體數(shù)字識別算法研究[J]. 計算機工程與應(yīng)用, 2013, 49(5): 179-184, 194.CHEN J S. Research on combining structural features based free handwritten digital identification algorithm[J]. Computer Engineering and Applications, 2013, 49(5): 179-184, 194(in Chinese).
[3] 胡君萍, 傅科學(xué). 基于改進KNN算法的手寫數(shù)字識別研究[J]. 武漢理工大學(xué)學(xué)報: 信息與管理工程版, 2019, 41(1): 22-26.HU J P, FU K X. An improved KNN algorithm for recognition of handwritten numerals[J]. Journal of WUT: Information & Management Engineering, 2019, 41(1): 22-26(in Chinese).
[4] 叢爽, 陸婷婷. 用于英文字母識別的三種人工神經(jīng)網(wǎng)絡(luò)的設(shè)計[J]. 儀器儀表學(xué)報, 2006, 27(z3): 2242-2244.CONG S, LU T T. Design of three artificial neural networks used on English charaeter recognition[J]. Chinees Jounral of Seientific Instrument, 2006, 27(z3): 2242-2244(in Chinese).
[5] 任俊, 黃丹丹, 李志能. 基于支撐向量機和小波的字符識別[J]. 浙江大學(xué)學(xué)報:工學(xué)版, 2005, 39(12): 2016-2020.REN J, HUANG D D, LI Z N. Character recognition based on support vector machines and wavelet[J]. Journal of Zhejiang University: Engineering Science, 2005, 39(12): 2016-2020(in Chinese).
[6] 陳藹祥. 用于字符和數(shù)字識別的若干分類方法的比較研究:實驗結(jié)果[J]. 計算機科學(xué), 2015, 42(S1): 102-106, 121.CHEN A X. Comparison of several classification approaches to digit and letter recognition: experimental results[J]. Computer Science, 2015, 42(S1): 102-106, 121(in Chinese).
[7] COATES A, CARPENTER B, CASE C, et al. Text detection and character recognition in scene images with unsupervised feature learning[C]//2011 International Conference on Document Analysis and Recognition. New York: IEEE Press, 2011: 440-445.
[8] LEE C Y, BHARDWAJ A, DI W, et al. Region-based discriminative feature pooling for scene text recognition[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 4050-4057.
[9] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[10] YE Q X, DOERMANN D. Text detection and recognition in imagery: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(7): 1480-1500.
[11] CIREGAN D, MEIER U, SCHMIDHUBER J. Multi-column deep neural networks for image classification[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 3642-3649.
[12] 丁進超, 張偉偉, 吳訓(xùn)成. 基于雙向長短期記憶網(wǎng)絡(luò)的車牌識別算法[J]. 電子測量與儀器學(xué)報, 2018, 32(6): 173-179.DING J C, ZHANG W W, WU X C. License plate recognition algorithm based on long and short memory network[J]. Journal of Electronic Measurement and Instrumentation, 2018, 32(6): 173-179(in Chinese).
[13] 朱敏覺, 朱寧波, 袁異. 一種多分類器集成的手寫體漢字識別方法[J]. 計算機工程與科學(xué), 2009, 31(4): 36-39.ZHU M J, ZHU N B, YUAN Y. A handwritten Chinese character recognition method based on multi-classifier ensemble[J]. Computer Engineering & Science, 2009, 31(4): 36-39(in Chinese).
[14] 劉余霞, 呂虹, 胡濤, 等. 基于Bagging集成學(xué)習(xí)的字符識別方法[J]. 計算機工程與應(yīng)用, 2012, 48(33): 194-196, 211.LIU Y X, LV H, HU T, et al. Research on character recognition based on Bagging ensemble learning[J]. Computer Engineering and Applications, 2012, 48(33): 194-196, 211(in Chinese).
[15] SAABNI R. Ada-boosting extreme learning machines for handwritten digit and digit strings recognition[C]//The5th International Conference on Digital Information Processing and Communications (ICDIPC). New York: IEEE Press, 2015: 231-236.
[16] HSU C W, LIN C J. A comparison of methods for multiclass support vector machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2):415-425.
[17] XIE S N, GIRSHICK R, DOLLAR P, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1492-1500.
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[19] LIN M, CHEN Q, YAN S. Network in network[EB/OL]. (2014-03-04) [2020-07-29]. https://arxiv.org/abs/1312.4400.
A combined classifier based on CNN and SVM for LCD character recognition
LIU Chang, XU Chao-yuan, ZHANG Xin, XUE Lei
(School of Information Science and Engineering, Shenyang Ligong University, Shenyang Liaoning 110159, China)
A combined classifier based on convolution neural network (CNN) and support vector machine (SVM) was proposed for the recognition of liquid crystal displayer (LCD) characters. Two basic classifiers were utilized to build a combined classifier for recognition. One was CNN with a parallel structure, and the other was SVM using histogram of oriented gradients (HOG) features of the character image. If a sample’s responses from two basic classifiers conflicted with each other, the maximum component of the softmax vector outputted from CNN classifier was employed to determine the final result. If it was greater than a threshold, the CNN result was adopted, otherwise the SVM result. An error model for LCD character image was presented and adopted to construct a simulation dataset for the algorithm training and test. An optimal threshold estimation algorithm based on voting principle was proposed. The combined classifier was tested on both MNIST dataset and an LCD character simulation dataset. The experimental results show that the threshold estimation result was reliable, and that the combined classifier outperformed both CNN and SVM basic classifiers. Using the method on a real test system, the accuracy rate was 99.81%. The results prove the method’s effectiveness for LCD character recognition. The experimental results on CIFAR-10 dataset show that the method can also be applied to other kinds of classifications.
computer vision; machine learning; liquid crystal displayer character recognition; support vector machine;convolution neural network
TP 391
10.11996/JG.j.2095-302X.2021010015
A
2095-302X(2021)01-0015-08
2020-06-05;
5 June,2020;
2020-08-03
3 August,2020
遼寧省自然科學(xué)基金項目(20170540792)
:Natural Science Foundation of Liaoning Province (20170540792)
劉 昶(1971-),男,遼寧盤錦人,副教授,博士,碩士生導(dǎo)師。主要研究方向為機器視覺和智能系統(tǒng)。E-mail:syliuch@126.com
LIU Chang (1971-), male, associate professor, Ph.D. His main research interests cover machine vision and intelligent system. E-mail:syliuch@126.com