宋問玉,杜文爽,封 宇,王麗園
(1. 華中電力國(guó)際經(jīng)貿(mào)有限責(zé)任公司,湖北 武漢 430066;2. 中國(guó)電力技術(shù)裝備有限公司,北京 100052;3.武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430072;4.中交第二公路勘察設(shè)計(jì)研究院有限公司,湖北 武漢 430040)
光學(xué)字符識(shí)別(Optical Character Recognition, OCR )[1]具有豐富的應(yīng)用場(chǎng)景,最重要的應(yīng)用之一是自然場(chǎng)景下的文本識(shí)別。隨著人工智能技術(shù)的興起和萬物互聯(lián)(Internet of Everything,IoE)的發(fā)展,使用OCR技術(shù)代替?zhèn)鹘y(tǒng)算法識(shí)別,既能降低信息識(shí)別錯(cuò)誤率,也能提高應(yīng)用系統(tǒng)的安全性和便利性。
近年來,研究者們?cè)谀繕?biāo)檢測(cè)、語義分割等領(lǐng)域使用深度學(xué)習(xí)方法替換傳統(tǒng)計(jì)算機(jī)視覺方法,取得了顯著的成果。Liao等[2]對(duì)于豎直、傾斜的文本檢測(cè)提出改進(jìn)的Textbox++網(wǎng)絡(luò),在預(yù)選框?qū)捀弑戎性黾恿诵?shù),并將卷積核改為3×5,來更好地適應(yīng)豎直和傾斜文本的檢測(cè)。文獻(xiàn)[3]提出一種角度優(yōu)化的印章文字檢測(cè)與識(shí)別算法,先通過極坐標(biāo)變換將印章拉伸,再進(jìn)行檢測(cè)。Tang等[4]對(duì)文本彎曲和密集問題,提出一種模塊,用來表示文本塊之間吸引和排斥,并設(shè)計(jì)instance-aware損失函數(shù)使Seglink++網(wǎng)絡(luò)可以端到端地訓(xùn)練。Wang等[5]設(shè)計(jì)了輕量級(jí)特征增強(qiáng)模塊(FPEM)和特征融合模塊(FFM),提高文本檢測(cè)性能,后處理采用更加快速的像素聚類方法,提高了文本檢測(cè)速度。陳靜嫻等[6]設(shè)計(jì)實(shí)現(xiàn)了聯(lián)合注意力特征增強(qiáng)模塊 (Joint Attention Feature Enhancement Module, JAM), 利用卷積對(duì)級(jí)聯(lián)后的特征在不同通道之間、 空間位置間的聯(lián)系建模。Liao等[7]發(fā)現(xiàn)基于分割的算法在閾值二值化處理耗時(shí)較多,提出了可以自學(xué)習(xí)分割閾值的網(wǎng)絡(luò)——DBNet,并巧妙設(shè)計(jì)了一種二值化函數(shù),檢測(cè)精度得到提升、檢測(cè)速度大大提高。Zhu等[8]創(chuàng)新地將彎曲文本輪廓線用傅里葉變換參數(shù)表示,而數(shù)學(xué)上傅里葉系數(shù)可以擬合任何曲線,結(jié)合設(shè)計(jì)的FCENet網(wǎng)絡(luò),提高了文本檢測(cè)的精度。文獻(xiàn)[9]提出了一種將殘差神經(jīng)網(wǎng)絡(luò)與自注意力機(jī)制相結(jié)合的主干網(wǎng)絡(luò),在提升準(zhǔn)確度的基礎(chǔ)上,減少了注意力機(jī)制的偏差和RNN的耗時(shí)。陳瑛等[10]提出了一種基于層次自注意力的場(chǎng)景文本識(shí)別網(wǎng)絡(luò)。通過融合卷積和自注意力增強(qiáng)文本序列與視覺感知之間的聯(lián)系。雖然許多文字識(shí)別算法已經(jīng)獲得了比較精確的檢測(cè)結(jié)果,但是仍然有許多問題需要解決。例如:路標(biāo)的文本行存在文本分布位置、字符間隙差異,造成文本檢測(cè)框粘連的問題,字體字跡多變,路標(biāo)字符包括英文、中文和標(biāo)點(diǎn)符號(hào)等6 000類字符,加上各類印刷字體的差異,給文本檢測(cè)帶來了困難。
針對(duì)以上問題,本文主要?jiǎng)?chuàng)新點(diǎn)在于:① 提出了一種雙注意力和內(nèi)容感知上采樣的文本檢測(cè)網(wǎng)絡(luò),雙注意力機(jī)制用于提高網(wǎng)絡(luò)的特征提取選擇能力;內(nèi)容感知上采樣模塊可以增大原上采樣的感受野,提高內(nèi)容感知能力;② 將卷積遞歸神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network,CRNN)[11]與連續(xù)時(shí)序分類(CTC)結(jié)合,通過將序列特征接入CTC進(jìn)行解碼計(jì)算文本識(shí)別損失,解決CRNN在設(shè)定時(shí)間長(zhǎng)度與真實(shí)文本長(zhǎng)度不一致的問題,同時(shí)增加中心損失增大字符之間的特征間距,避免“誤檢”問題。
OCR算法框架如圖1所示,主要包括三部分:預(yù)處理、文本檢測(cè)和文本識(shí)別。預(yù)處理部分采用帶顏色恢復(fù)的Retinex圖像亮度增強(qiáng)和基于自適應(yīng)對(duì)比度增強(qiáng)(ACE)的圖像色彩增強(qiáng);文本檢測(cè)部分提出了基于雙注意力和內(nèi)容感知上采樣的DBNet的文本檢測(cè)算法,精確地截取圖片中的文本行區(qū)域,保留文本行檢測(cè)坐標(biāo);文本識(shí)別部分提出了融入中心損失的CRNN+CTC文本識(shí)別網(wǎng)絡(luò),識(shí)別出文本行圖像的內(nèi)容。
圖1 OCR算法框架Fig.1 Framework of OCR algorithm
文本檢測(cè)模塊采用基于雙注意力和內(nèi)容感知上采樣的DBNet文本檢測(cè)網(wǎng)絡(luò)。與傳統(tǒng)使用設(shè)定好的閾值圖對(duì)概率圖進(jìn)行二值化的分割網(wǎng)絡(luò)不同,DBNet網(wǎng)絡(luò)可以生成閾值圖(Threshold Map),實(shí)現(xiàn)自適應(yīng)分割,生成近似二值化圖(Approximate Binary Map),文本檢測(cè)結(jié)果更加準(zhǔn)確。可變形卷積 (Deformable Convolution Network,DCN)[12]的使用,給原有卷積核加入偏移量,使得卷積網(wǎng)絡(luò)能夠自適應(yīng)地調(diào)整感受野,有效提升了DBNet網(wǎng)絡(luò)對(duì)文本行的檢測(cè)能力。設(shè)輸入特征圖為X,則對(duì)p0中心點(diǎn)進(jìn)行標(biāo)準(zhǔn)卷積:
(1)
式中:R={(-1,-1),(-1,0),…,(0,1),(1,1)}??勺冃尉矸e單元中增加了偏移量Δpn,如下:
(2)
可變形卷積示意如圖2所示,輸入特征圖在C常卷積之前,先通過一個(gè)標(biāo)準(zhǔn)卷積單元計(jì)算得到尺度不變、通道數(shù)為2N的偏移域,其分別代表卷積視野每層像素點(diǎn)在x軸和y軸的偏移量。標(biāo)準(zhǔn)卷積核加上該偏移量之后,卷積核的大小和位置可根據(jù)輸入特征圖的內(nèi)容進(jìn)行自適應(yīng)調(diào)整,從而更好地適應(yīng)形狀不規(guī)則、形變的文本區(qū)域。
圖2 可變形卷積示意Fig.2 Schematic diagram of deformable convolution
DBNet網(wǎng)絡(luò)的特征提取采用ResNet殘差網(wǎng)絡(luò),在ResNet的每個(gè)殘差塊中加入了雙注意力模塊 (Convolutional Block Attention Module, CBAM)[13]。該模塊由通道注意力和空間注意力兩部分組成,融合雙注意力殘差模塊如圖3所示。通道注意力自適應(yīng)調(diào)整特征圖不同通道的權(quán)重,提高了對(duì)重要特征的選擇能力,濾出或減弱干擾的特征;空間注意力自適應(yīng)調(diào)整特征圖不同位置的權(quán)重,提高對(duì)場(chǎng)景中文本區(qū)域的辨識(shí)度,抑制場(chǎng)景文本的背景區(qū)域。
圖3 融和雙注意力的殘差塊Fig.3 Residual blocks incorporated with a dual attention
其中,通道注意力考慮了特征圖中不同通道的重要性,所以通過生成大小為1×1×C的Mc向量,作為特征圖F的不同通道的系數(shù)。而空間注意力考慮了特征圖不同位置的重要性,通過生成大小H×W×1的矩陣,給特征圖F′不同空間位置賦予不同的系數(shù)。下面分別介紹通道注意力和空間注意力模塊的設(shè)計(jì),如圖4和圖5所示。
圖4 通道注意力模塊示意Fig.4 Diagram of channel attention module
圖5 空間注意力模塊示意Fig.5 Diagram of spatial attention module
輸入特征圖記為F,其大小為H×W×1,對(duì)其分別進(jìn)行空間維度上的最大池化和平均池化得到2個(gè)大小為1×1×C的向量,其中最大池化提取的是細(xì)節(jié)特征,而平均池化提取的是背景特征。2個(gè)向量特征共享一個(gè)多層感知機(jī)(Multilayer Perceptron,MLP),將二者輸出結(jié)果逐像素相加并經(jīng)過sigmoid激活層,得到大小為1×1×C的通道注意力Mc。最后將Mc作為通道系數(shù)和特征圖F相乘,得到通道提純特征圖F′。
將通道提純特征圖F′作為輸入,與通道注意力模塊不同,空間注意力模塊是在通道維度上分別進(jìn)行最大池化和平均池化,輸出結(jié)果大小為H×W×1,將池化結(jié)果拼接在一起,然后通過卷積層和sigmoid激活層,得到大小為H×W×1空間注意力Ms,并作為系數(shù),與通道提純特征圖F′逐像素相乘,得到最終的提純特征圖F″。同時(shí)將殘差網(wǎng)絡(luò)ResNet部分的標(biāo)準(zhǔn)卷積替換成圖2所示的可變形卷積,以適應(yīng)形狀不規(guī)則和字體多變文本的特征提取。除此之外,在特征金字塔(Feature Pyramid Network,FPN)網(wǎng)絡(luò)將ResNet生成的不同尺度的特征圖進(jìn)行融合時(shí),使用具有內(nèi)容感知的上采樣算子(Content-Aware Re Assembly of Features, CARFE)[14], 進(jìn)行不同尺度特征圖的融合,其算子結(jié)構(gòu)如圖6所示。
CARFE主要包含兩部分:上采樣核預(yù)測(cè)模塊(Kernal Predication Module)和內(nèi)容感知重組模塊(Content-Aware Reassembly Module),前者根據(jù)樣本內(nèi)容特征信息預(yù)測(cè)出上采樣核,后者根據(jù)預(yù)測(cè)的上采樣核進(jìn)行內(nèi)容重組。設(shè)輸入特征圖為χ,尺寸為H×W×C,假設(shè)上采樣倍率記為σ,則輸出上采樣結(jié)果為χ′,尺寸大小記為σH×σW×C。
上采樣核預(yù)測(cè)模塊:先通過1×1卷積組成的通道壓縮 (Channel Compressor) 模塊,將輸入特征圖通道壓縮至Cm,以減少后續(xù)計(jì)算量。假設(shè)上采樣核尺寸為kup×kup,則對(duì)于輸出結(jié)果中任意一個(gè)元素l′∈χ′,都有與之對(duì)應(yīng)的上采樣核,所以預(yù)測(cè)的上采樣核尺寸應(yīng)該為σH×σW×kup×kup。因此采用了σ2kup2個(gè)尺寸為kencoder×kencoder的卷積核進(jìn)行內(nèi)容編碼(Content Encoder),輸出尺寸為H×W×σ2kup2,并在通道維度上展開,這樣得到尺寸為σH×σW×kup×kup上采樣卷積核,最后經(jīng)過核歸一化處理(Kernel Normalizer),使得上采樣核的元素之和等于1。
內(nèi)容感知重組模塊:對(duì)于輸入特征圖中任意元素χl,取出以其為中心的kup×kup感受野范圍的像素N(χl,kup),從上采樣核取出對(duì)應(yīng)位置的元素l′,并在通道維度上展開,得到該點(diǎn)處的kup×kup大小上采樣核Wl′,經(jīng)過點(diǎn)積得到該位置的上采樣值。
由此可知,輸入特征圖不同位置的像素對(duì)應(yīng)的上采樣核是不一樣的,其上采樣核是由輸入特征圖內(nèi)容所決定的,做到了“內(nèi)容感知”。除此之外,上采樣感受野尺寸為kup×kup,相比較最近鄰上采樣或雙線性插值上采樣,做到了較大的感受野,有效地彌補(bǔ)了原上采樣的缺陷。
文本識(shí)別網(wǎng)絡(luò)主要分為Seq2Seq+Attention[15]和CRNN+CTC。前者是循環(huán)神經(jīng)網(wǎng)絡(luò)的變種,包括編碼器和解碼器兩部分,CNN網(wǎng)絡(luò)提取到特征序列后并行輸入到編碼器,用于計(jì)算編碼器當(dāng)前時(shí)刻的隱藏狀態(tài),所有隱藏狀態(tài)編碼得到統(tǒng)一語義特征向量C,后面再對(duì)語義向量進(jìn)行解碼,由于Seq2Seq將所有輸入特征匯聚成統(tǒng)一語義向量C,導(dǎo)致解碼過程全部依賴C,因此進(jìn)行長(zhǎng)文本檢測(cè)時(shí),文本偏后的字符獲取信息較少,識(shí)別效果不夠理想,且Attention機(jī)制給網(wǎng)絡(luò)帶來巨大的額外參數(shù)量。 CRNN+CTC結(jié)構(gòu)分為CNN、RNN和CTC三部分,CNN網(wǎng)絡(luò)用于提取特征序列,RNN網(wǎng)絡(luò)將提取到的字符特征序列并行輸入到序列長(zhǎng)度為T的雙向LSTM中,一般來說長(zhǎng)度T取待識(shí)別文本的最大字符數(shù),考慮到在本文所述場(chǎng)景下的極端情況,設(shè)置T=25,并構(gòu)建了6 623個(gè)字符的中英文詞典,和T配合成后驗(yàn)概率矩陣,得到字符后驗(yàn)概率矩陣后,CTC在原有中英文詞典集的基礎(chǔ)上引入空白特殊字符,用以表示該位置沒有字符??梢韵谖谋咀址麛?shù)小于25時(shí)直接通過softmax層得到的長(zhǎng)度為25的字符串難以計(jì)算其文本識(shí)別損失的情況,該方法在長(zhǎng)短文本識(shí)別效果都較為理想,且得益于CTC向前-向后遞推,既能保持較低的計(jì)算復(fù)雜度,也不會(huì)給網(wǎng)絡(luò)帶來額外的參數(shù)。但CRNN+CTC只適用于一維形狀規(guī)則的文本行,對(duì)于形變、不規(guī)則文本識(shí)別效果較差,考慮到路標(biāo)中的文本行都是規(guī)則文本行,本文采用了CRNN+CTC。在CRNN+CTC基礎(chǔ)上,嘗試加入中心損失,進(jìn)一步提高字符識(shí)別準(zhǔn)確率。
由前文可知,CRNN+CTC文本識(shí)別網(wǎng)絡(luò)中CTC損失是先通過softmax求出序列中每個(gè)預(yù)測(cè)字符的概率,再通過CTC轉(zhuǎn)錄解決文本序列對(duì)齊問題,本質(zhì)上文本識(shí)別是字符圖像的分類問題,而字符分類錯(cuò)誤是由字符特征決定的。本文加入了用于增大樣本特征分布間距的中心損失函數(shù)(Center Loss)[16],原理如下。
對(duì)于一個(gè)全連接分類網(wǎng)絡(luò)來說,假設(shè)輸入特征向量xi∈d,網(wǎng)絡(luò)矩陣參數(shù)為W∈d,預(yù)測(cè)類別為yi,共有m類,softmax分類損失如下:
(3)
Center Loss函數(shù)定義如下:
(4)
式中:Cyi表示yi類別特征分布的中心,xi表示輸入進(jìn)全連接分類層的特征,m表示訓(xùn)練中每個(gè)batch的樣本數(shù)量。由上式可知,Center Loss是計(jì)算樣本特征和特征中心的距離,希望一個(gè)batch中輸入樣本的特征與該類的特征中心之間的距離越小越好。中心損失Lc和特征中心Cyi更新如下:
(5)
(6)
式中:δ(yi=j)表示當(dāng)分類類別為j時(shí),等于1;否則等于0。由此可知,只有當(dāng)預(yù)測(cè)的類別yi與真實(shí)標(biāo)簽j相等時(shí),才會(huì)更新該類的特征中心Cj。將Center Loss以一定的權(quán)重λ加入到分類損失函數(shù)中,如下:
Ltotal=Ls+λLc。
(7)
文獻(xiàn)[14]以手寫數(shù)字識(shí)別分類為例,給出了不同λ情況下,手寫數(shù)字特征分布的變化,如圖7所示。
圖7 手寫數(shù)字識(shí)別特征分布Fig.7 Distribution of handwritten digital recognition features
由圖7可知,隨著λ不斷增大,類與類之間的間隙越來越大,各類特征分布界限越來越清晰,從而可以減少分類錯(cuò)誤。
對(duì)于復(fù)雜場(chǎng)景文本識(shí)別,文本混雜著漢字、英文和數(shù)字等各類字符,共6 000多個(gè)類別,漢字中存在的大量形似字,所以相比純英文文本識(shí)別,本文字符分類難度大幅度提高。印刷字體的特性和路標(biāo)圖像存在少量噪聲,導(dǎo)致更容易出現(xiàn)字符相近的情況,如字母“l(fā)”和數(shù)字“1”,漢字“治”和“冶”。本文嘗試將中心損失加入到CTC損失函數(shù)中,并將λ設(shè)置為0.1。希望通過增大字符特征分布之間的間隙,減少字符誤識(shí)別的情況,從而提高文本識(shí)別的準(zhǔn)確率。
為了驗(yàn)證本文設(shè)計(jì)的OCR算法框架的實(shí)用性和正確性,本文收集了多種復(fù)雜場(chǎng)景下圖片數(shù)據(jù)。主要數(shù)據(jù)集如圖8所示,包含了各種生活工作場(chǎng)景下、復(fù)雜光照環(huán)境下、各種拍攝視角下、不同使用狀態(tài)、不同圖像分辨率和不同印刷字體等各類情形的圖像。對(duì)圖像進(jìn)行帶色彩恢復(fù)Retinex圖像亮度增強(qiáng)和基于ACE圖像色彩增強(qiáng)處理之后對(duì)數(shù)據(jù)集標(biāo)注。
圖8 SynthText和ICDAR2015場(chǎng)景文本檢測(cè)數(shù)據(jù)樣例Fig.8 Text detection datasets of SynthText and ICDAR2015 sample scenes
由于算法框架中采用了“基于雙注意力和內(nèi)容感知上采樣的DBNet文本檢測(cè)網(wǎng)絡(luò)”和“融入中心損失的CRNN+CTC文本識(shí)別網(wǎng)絡(luò)”,所以需要大量的場(chǎng)景文本檢測(cè)數(shù)據(jù)集和場(chǎng)景文本識(shí)別數(shù)據(jù)集去訓(xùn)練網(wǎng)絡(luò)。本文檢測(cè)數(shù)據(jù)集結(jié)合了目前OCR領(lǐng)域常用的公開場(chǎng)景文本檢測(cè)數(shù)據(jù)集SynthText[17]和ICDAR2015[18]。
實(shí)驗(yàn)環(huán)境為基于Linux系統(tǒng)下的Ubuntu 18.04操作系統(tǒng),基于Python(版本3.7)語言實(shí)現(xiàn),實(shí)驗(yàn)所用電腦配置為Intel Core i7-7700K,GPU采用NVIDIA GeForce RTX 3090。
表1 文本檢測(cè)試驗(yàn)結(jié)果
本文首先對(duì)原DBNet網(wǎng)絡(luò)和改進(jìn)后的DBNet進(jìn)行試驗(yàn),同時(shí)為了對(duì)優(yōu)化措施對(duì)比分析,加入CBAM和具有內(nèi)容感知的CARFE,對(duì)融入雙注意力機(jī)制的DBNet和基于內(nèi)容感知上采樣的DBNet分別訓(xùn)練。由表1可知,本文改進(jìn)的DBNet的文本檢測(cè)精度提高了5.09%,召回率提高了2.12%,F評(píng)分提高了3.46%。對(duì)比融入雙注意力機(jī)制DBNet可知,雙注意力機(jī)制對(duì)檢測(cè)精度有一定的提升;對(duì)比基于內(nèi)容感知上采樣DBNet可知,基于內(nèi)容感知上采樣對(duì)檢測(cè)精度和召回率都有一定的提升。改進(jìn)的DBNet相比原DBNet,結(jié)果如圖9所示。
(a)道路場(chǎng)景DBNet效果
由圖9可以看出,本文改進(jìn)后DBNet對(duì)較小文本區(qū)域也能很好地檢測(cè)出來,“漏檢”(紅色框)情況明顯減少,從而提高文本檢測(cè)的召回率。對(duì)比圖9(c)和圖9(d)可知,原DBNet將標(biāo)識(shí)牌(藍(lán)色框)誤檢測(cè)為文本區(qū)域,改進(jìn)后的DBNet這種“誤檢”情況也到一定改善,從而提高了文本檢測(cè)的準(zhǔn)確率。
本文實(shí)驗(yàn)采用的文本識(shí)別數(shù)據(jù)集是由200 000張Chinese OCR文檔文本行圖像和ICDAR2013文本識(shí)別數(shù)據(jù)集共同組成,其中80%用于訓(xùn)練集,20%用于測(cè)試集。對(duì)CRNN+CTC文本識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,主干網(wǎng)絡(luò)都采取ResNet34,RNN序列長(zhǎng)度T均設(shè)為25,輸入的文本圖片尺寸為320 pixel×320 pixel,優(yōu)化器采用Adam,beta1設(shè)為0.9,beta2設(shè)為0.999。學(xué)習(xí)率采用余弦退火算法,初始值學(xué)習(xí)率設(shè)為0.001,采用了L2正則化,權(quán)重設(shè)為0.001。作為對(duì)比,本實(shí)驗(yàn)又采用純英文文本數(shù)據(jù)集ICDAR2013進(jìn)行訓(xùn)練和測(cè)試。文本識(shí)別結(jié)果如表2所示。
表2 場(chǎng)景文本識(shí)別實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果可知,本文分別采用了CRNN+CTC和Seq2Seq+Attention兩種識(shí)別網(wǎng)絡(luò)訓(xùn)練,對(duì)于文本長(zhǎng)度較短的數(shù)據(jù)集ICDAR2013,Seq2Seq+Attention識(shí)別效果稍好,但對(duì)于文本長(zhǎng)度較長(zhǎng)的本文數(shù)據(jù)集,CRNN+CTC更有優(yōu)勢(shì),驗(yàn)證了Seq2Seq +Attention對(duì)長(zhǎng)文本識(shí)別不理想的解釋。同時(shí)本文在原有CTC損失基礎(chǔ)上,加入了Center Loss對(duì)字符種類多的中英文數(shù)據(jù)集識(shí)別準(zhǔn)確率提升了1.2%,而對(duì)ICDAR2013英文識(shí)別數(shù)據(jù)集也有0.6%的提升。測(cè)試用例如表3所示。
表3 文本識(shí)別結(jié)果樣例
對(duì)于CRNN+CTC,偶爾會(huì)出現(xiàn)字符識(shí)別錯(cuò)誤的情況,如將較模糊的“B”識(shí)別成了“8”,將“冶”識(shí)別成了“治”,這是因?yàn)橹形摹⒂⑽暮蛿?shù)字字符共6 000多個(gè),有些字符過于相似,加上圖像出現(xiàn)模糊、噪聲等因素,很容易出現(xiàn)誤識(shí)別。Center Loss可以增大字符特征分布之間的距離,減少由于字符特征相似而導(dǎo)致分類錯(cuò)誤的情況,從而提高字符識(shí)別準(zhǔn)確率;又由于中文字符種類遠(yuǎn)比英文字符多,形似字情況比英文字符更為常見,所以Center Loss在本文數(shù)據(jù)集識(shí)別率的提升好于在純英文數(shù)據(jù)集,可見Center Loss對(duì)于提高中文字符識(shí)別的準(zhǔn)確率效果更為明顯。
本文對(duì)場(chǎng)景文本檢測(cè)算法進(jìn)行研究,采用了性能和速度兼具的DBNet文本檢測(cè)網(wǎng)絡(luò),并對(duì)其進(jìn)行改進(jìn)。在DBNet的FPN網(wǎng)絡(luò)模塊加入了CBAM,提高網(wǎng)絡(luò)對(duì)場(chǎng)景中文本區(qū)域重要特征的選擇能力,抑制其他背景區(qū)域帶來的干擾。采用具有內(nèi)容感知的CARAFE,克服傳統(tǒng)上采樣的感受野小、不具有內(nèi)容感知等缺點(diǎn),并將其應(yīng)用在不同尺度特征圖融合中,進(jìn)一步提高網(wǎng)絡(luò)的文本檢測(cè)性能;對(duì)場(chǎng)景文本識(shí)別算法CRNN+CTC進(jìn)行改進(jìn),加入了增大字符特征間距的Center Loss,減少中英文字符形似而導(dǎo)致的誤識(shí)別;收集了大量復(fù)雜場(chǎng)景下的路標(biāo)圖像,制作成場(chǎng)景文本數(shù)據(jù)集和場(chǎng)景文本識(shí)別數(shù)據(jù)集;結(jié)合公開數(shù)據(jù)集對(duì)改進(jìn)后的DBNet網(wǎng)絡(luò)和改進(jìn)后的CRNN+CTC網(wǎng)絡(luò)進(jìn)行訓(xùn)練測(cè)試,實(shí)驗(yàn)結(jié)果顯示網(wǎng)絡(luò)的檢測(cè)和識(shí)別性能均有理想的提升。