亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不規(guī)則場(chǎng)景文本的識(shí)別方法

        2022-06-28 02:56:36齊秀芳
        軟件導(dǎo)刊 2022年6期
        關(guān)鍵詞:字符矯正像素

        齊秀芳,吳 陳

        (江蘇科技大學(xué)計(jì)算機(jī)學(xué)院,江蘇鎮(zhèn)江 212100)

        0 引言

        隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,機(jī)器對(duì)圖像中文本的識(shí)別能力不斷提高,因而使機(jī)器識(shí)別圖像文本相關(guān)技術(shù)得以應(yīng)用于日常生活中,幫助人們改善生活。例如,車牌識(shí)別系統(tǒng)可自動(dòng)識(shí)別車輛車牌。在自動(dòng)駕駛研究方面,攝像頭拍攝得到交通指示牌、路標(biāo)、商店名字等文字信息,通過(guò)識(shí)別能夠很好地引導(dǎo)車輛正確移動(dòng)。另外對(duì)于圖像的搜索、分類、推薦等相關(guān)應(yīng)用,也可利用文字識(shí)別技術(shù)達(dá)到更加準(zhǔn)確的效果。

        近年來(lái),自然場(chǎng)景中的文本識(shí)別問(wèn)題引起了眾多研究者關(guān)注,并不斷提出一系列有效方法和模型。傳統(tǒng)光學(xué)字符識(shí)別(Optical Character Recognition,OCR)[1]系統(tǒng)的主要功能是從掃描文檔中提取字符文本,首先對(duì)識(shí)別圖像進(jìn)行預(yù)處理,再對(duì)識(shí)別圖像進(jìn)行二值化處理,然后通過(guò)檢測(cè)字符輪廓和邊緣得到每個(gè)字符的位置,并進(jìn)行字符分割,最后將分割后的單個(gè)字符圖像識(shí)別結(jié)果鏈接起來(lái)得到最終結(jié)果[2]。盡管OCR 已經(jīng)成熟,但場(chǎng)景文本識(shí)別仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。因此,針對(duì)自然場(chǎng)景中文本噪聲和模糊的巨大變化,如何將其精確識(shí)別出來(lái)具有重要的研究意義。

        1 相關(guān)工作

        文本識(shí)別的本質(zhì)是對(duì)文本檢測(cè)結(jié)果進(jìn)行字符的多分類任務(wù)。傳統(tǒng)基于單個(gè)字符識(shí)別的方法采用自底向上的識(shí)別流程,通常將整個(gè)識(shí)別任務(wù)劃分為多個(gè)子任務(wù)[3]。首先基于連通分量[4]或滑動(dòng)窗口[5-6]從圖像中提取單個(gè)字符的候選框,然后通過(guò)神經(jīng)網(wǎng)絡(luò)的分類器對(duì)候選框進(jìn)行過(guò)濾,識(shí)別出過(guò)濾后的單個(gè)字符候選框。

        隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的文本識(shí)別方法逐漸成為主流。通常采用三大方法:基于矯正的識(shí)別方法、基于注意力機(jī)制的識(shí)別方法以及基于序列的識(shí)別方法。基于矯正的方法首先對(duì)彎曲變形的文本進(jìn)行矯正,然后進(jìn)行識(shí)別。矯正彎曲變形的文本普遍采用的方法是通過(guò)STN 網(wǎng)絡(luò)[7]和MORN 網(wǎng)絡(luò)[8],前者利用TPS 變換矯正文本,依賴于采樣器矯正不規(guī)則文本;后者使用弱監(jiān)督方式訓(xùn)練學(xué)習(xí)圖像各部分的偏移量,根據(jù)預(yù)測(cè)的偏移量進(jìn)行采樣,得到校正后的文本圖像。Shi 等[9]通過(guò)STN 校正網(wǎng)絡(luò)自適應(yīng)地將輸入圖像轉(zhuǎn)換為新圖像,對(duì)輸入文本進(jìn)行校正,其可處理各種彎曲文本,且訓(xùn)練時(shí)不需要人工注釋;Qiao 等[10]提出的基于注意力機(jī)制的方法是在編碼識(shí)別網(wǎng)絡(luò)框架中對(duì)序列解碼時(shí)每個(gè)時(shí)刻的輸入賦予不同權(quán)重,提取更豐富的上下文信息,從而提高識(shí)別性能;Lee 等[11]提出網(wǎng)絡(luò)和注意力建模用于無(wú)詞匯場(chǎng)景文本識(shí)別,該模型首先將輸入圖像通過(guò)遞歸卷積層提取編碼后的圖像特征,然后通過(guò)帶有隱式學(xué)習(xí)的字符級(jí)語(yǔ)言統(tǒng)計(jì)遞歸神經(jīng)網(wǎng)絡(luò)將其解碼為輸出字符?;谛蛄凶R(shí)別的方法是CNN 與RNN的結(jié)合。Shi 等[12]又提出一種神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),通過(guò)CNN 提取特征,以及RNN 的變體BILSTM 提取上下文依賴關(guān)系,最后通過(guò)CTC 算法獲取識(shí)別文本。

        針對(duì)上述大多數(shù)方法對(duì)于扭曲變形的文本進(jìn)行識(shí)別時(shí)仍然存在著各種問(wèn)題,本文提出MCID 模型,作出以下改變:首先,由于自然場(chǎng)景中存在大量不規(guī)則文本,利用MORN 網(wǎng)絡(luò)可以矯正旋轉(zhuǎn)、縮放和拉伸變形的字符;然后利用雙分支網(wǎng)絡(luò)模塊提取圖像特征,分別利用Incep?tionV2[13]和可變卷積[14]代替普通卷積,融合雙分支的圖像特征,使得在特征提取時(shí)可自適應(yīng)文本區(qū)域,促使卷積核形態(tài)更貼近文本形狀,同時(shí)獲取不同的感受域范圍;最后,通過(guò)嵌入注意力[15]的雙向門控循環(huán)單元[16]給不同序列分配不同權(quán)重獲取文本的語(yǔ)義信息,從而有效改善扭曲文本識(shí)別率低的問(wèn)題。

        2 MCID模型

        MCID 模型有兩個(gè)組成部分,包括文本矯正MORN 網(wǎng)絡(luò)與雙分支識(shí)別網(wǎng)絡(luò)。識(shí)別網(wǎng)絡(luò)包含3 部分:①特征提取部分,采用雙分支提取特征;②循環(huán)網(wǎng)絡(luò)層,將提取的雙分支特征融合轉(zhuǎn)化為特征序列輸入到循環(huán)網(wǎng)絡(luò)層,可獲取字符序列;③文本識(shí)別部分,通過(guò)連接主義時(shí)態(tài)分類CTC 算法,根據(jù)預(yù)測(cè)的字符序列獲取目標(biāo)場(chǎng)景文本。整體框架如圖1所示。

        Fig.1 MCID model圖1 MCID模型

        2.1 MORN矯正方法

        由于自然場(chǎng)景文本存在較多彎曲不規(guī)則的文本,若直接將彎曲文本發(fā)送到識(shí)別網(wǎng)絡(luò)進(jìn)行識(shí)別,將增加識(shí)別網(wǎng)絡(luò)提取圖像特征的難度,因此將彎曲文本輸入到MORN 矯正網(wǎng)絡(luò),如圖2所示。

        Fig.2 Text Correction Model圖2 文本矯正模型

        MORN 預(yù)測(cè)圖像中每個(gè)部分的偏移量,不受任何幾何約束,并根據(jù)預(yù)測(cè)的偏移量對(duì)圖像進(jìn)行校正。該網(wǎng)絡(luò)首先初始化基本的坐標(biāo)網(wǎng)格(Basic Gird),該坐標(biāo)網(wǎng)格用來(lái)表示像素原始位置。網(wǎng)絡(luò)的每個(gè)輸入圖像都有自己的像素位置,MORN 基于這些坐標(biāo)生成偏移網(wǎng)格(Offset Maps)。將每個(gè)像素的坐標(biāo)歸一化為[?1,1],左上角像素坐標(biāo)為(?1,?1),右下角像素坐標(biāo)為(1,1),不同通道上相同位置的像素具有相同坐標(biāo)。與偏移貼圖類似,網(wǎng)格包含兩個(gè)通道,分別表示x坐標(biāo)和y坐標(biāo)。之后,坐標(biāo)網(wǎng)格與調(diào)整大小的偏移貼圖相加,生成矯正后的圖像坐標(biāo)(Resized Offset Maps),實(shí)現(xiàn)文字矯正。通過(guò)上述步驟矯正彎曲文本,從而在后續(xù)自然場(chǎng)景文本識(shí)別中提升場(chǎng)景文本正確識(shí)別的概率。

        2.2 特征提取

        卷積神經(jīng)網(wǎng)絡(luò)CNN 通常是提取圖像特征較為有效的方法,因此可用來(lái)提取場(chǎng)景文本圖像的文字特征。目前常用的文本識(shí)別方法大多是基于單個(gè)CNN 感受域的,本文設(shè)計(jì)了一種網(wǎng)絡(luò)結(jié)構(gòu),利用雙分支網(wǎng)絡(luò)提取圖像特征。其一通過(guò)InceptionV2 代替普通的卷積模塊,使得網(wǎng)絡(luò)在增加網(wǎng)絡(luò)深度和寬度的同時(shí)減少參數(shù),也能獲得網(wǎng)絡(luò)不同尺度的特征;其二通過(guò)可變卷積代替普通模塊,使得卷積核形態(tài)更貼近文本區(qū)域。通過(guò)融合雙分支特征,將融合后的特征作為雙向GRU 提取上下文信息的輸入,生成目標(biāo)預(yù)測(cè)序列,最后通過(guò)CTC 算法獲得圖像文本。

        文獻(xiàn)[13]提出的InceptionV2 模塊,核心思想是將不同尺度的感受域通過(guò)并聯(lián)方式鏈接在一起,可對(duì)網(wǎng)絡(luò)的深度和寬度進(jìn)行有效擴(kuò)充,從而解決感受域單一的問(wèn)題。如圖3 所示,輸入分成了4 個(gè)分支,分別用不同尺度的感受域進(jìn)行卷積或池化,網(wǎng)絡(luò)可獲得不同的感受域范圍,特征更為豐富,最后在識(shí)別判斷時(shí)更加準(zhǔn)確。通過(guò)InceptionV2 模塊對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),利用改進(jìn)后的網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,使得網(wǎng)絡(luò)在同一層可獲取不同尺度的特征。

        Fig.3 Inception network圖3 Inception網(wǎng)絡(luò)

        由于自然場(chǎng)景中存在方向扭曲及變形的文本,不同位置可能對(duì)應(yīng)不同大小或形狀的文本。為解決同一層Con中激活單元感受野相同的問(wèn)題,利用deform_conv 代替普通卷積,將偏移量offest 添加到規(guī)則的網(wǎng)格采樣位置,使卷積核形態(tài)能夠自由變形??勺兙矸e公式如下:

        其中,p0表示前一層卷積輸出特征圖任意像素的位置,pn表示經(jīng)可變卷積輸出的特征圖像素位置,Δpn{0 ≤i,j

        其中,p=p0+pn+Δpn表示經(jīng)過(guò)可變卷積層獲取偏移后的float 類型像素位置,q表示枚舉特征圖中的所有積分空間位置,G(?,?)表示雙線性插值方法。

        計(jì)算方式為g(a,b)=max(0,1 -|a-b|),雙性插值計(jì)算速度較快,因?yàn)镚(p,q)只有極少數(shù)的qx是非零的。

        具體流程如下:

        (1)輸入的圖片I大小為(b?H?W?C),經(jīng)過(guò)普通Conv 層后,對(duì)應(yīng)的輸出結(jié)果O為(b?H?W?2C),輸出結(jié)果為圖片中每個(gè)像素的偏移量,包含x和y兩個(gè)方向的偏移量為2C。

        (2)將I中的像素索引值與O相加,得到偏移后的float類型位置,通過(guò)這些位置獲取像素值。

        (3)通過(guò)雙線性插值方法,根據(jù)步驟(2)中獲取的位置計(jì)算I中對(duì)應(yīng)的像素值。

        (4)通過(guò)步驟(3)計(jì)算得到所有像素,即獲得一個(gè)新的圖像映射特征,可繼續(xù)作為輸入數(shù)據(jù)輸入到下一層中。

        2.3 循環(huán)網(wǎng)絡(luò)層

        將特征提取層提取的特征圖轉(zhuǎn)化為特征序列作為循環(huán)網(wǎng)絡(luò)層的輸入,循環(huán)網(wǎng)絡(luò)層通過(guò)雙向GRU 提取特征序列的上下文語(yǔ)義信息。特征序列為X=x1,x2,x3,...,xN,輸入到雙向GRU 中,每一個(gè)xi對(duì)應(yīng)一個(gè)yi,生成一系列序列Y=y1,y2,y3,...,yN。在文本區(qū)域中,不同序列對(duì)當(dāng)前字符序列的重要性不同。為獲取更加重要的信息,本文通過(guò)在雙向GRU 中引入注意力機(jī)制模型,給不同字符分配不同權(quán)重,以增加識(shí)別準(zhǔn)確率,如圖4 所示。注意力機(jī)制計(jì)算方式如式(4)所示。

        Fig.4 Bidirectional GRU model embedded with attention mechanism圖4 嵌入注意力機(jī)制的雙向GRU模型

        其中,st-1為前一層GRU 的輸出,gt為當(dāng)前GRU 的輸出。gt表達(dá)方式如下:

        2.4 CTC損失函數(shù)

        本文采用Graves 等[17]提出的連接主義時(shí)態(tài)分類(CTC)層定義預(yù)測(cè)文本概率,即標(biāo)簽序列概率,輸入為循環(huán)網(wǎng)絡(luò)層輸出的預(yù)測(cè)序列Y=y1,y2,y3,...,yN,在此預(yù)測(cè)過(guò)程中并不需要知道輸入時(shí)真實(shí)的label坐標(biāo)。因此,當(dāng)在訓(xùn)練過(guò)程中使用概率預(yù)測(cè)序列時(shí),所需的數(shù)據(jù)集只需要包含輸入圖像以及對(duì)應(yīng)的真實(shí)label,從而減少了對(duì)標(biāo)簽中單個(gè)字符位置的重復(fù)使用。損失函數(shù)如下:

        3 應(yīng)用實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        本文采用4 個(gè)實(shí)驗(yàn)數(shù)據(jù)集,包括MJSynth、ICDAR2013、ICDAR2015 和CUTE80,并使用Jaderberg 等[7]發(fā)布的合成數(shù)據(jù)集(MJSynth)進(jìn)行識(shí)別訓(xùn)練。數(shù)據(jù)集包含800 萬(wàn)張訓(xùn)練圖像和對(duì)應(yīng)的label 單詞,圖像的字體、粗細(xì)和陰影等變化豐富,非常逼真。其中,90%作為訓(xùn)練集,10%作為測(cè)試集。

        ICDAR 2013 和ICDAR 2015 為自然場(chǎng)景圖像數(shù)據(jù)集,ICDAR 2013 包含452 幅自然場(chǎng)景文字圖像,其中229 幅為訓(xùn)練集,223 幅為測(cè)試集;ICDAR 2015 包含1 500 幅自然場(chǎng)景文字圖像,其中1 000幅為訓(xùn)練集,500幅為測(cè)試集。

        CUTE80 數(shù)據(jù)集主要關(guān)注曲線文本,共有288 張圖像用于評(píng)估,其中大部分都是曲線文本。

        3.2 評(píng)估指標(biāo)

        本實(shí)驗(yàn)采用正確率ACC評(píng)價(jià)文本識(shí)別的最終效果。具體公式如下:

        其中,Wp表示在輸入的場(chǎng)景文本圖像中被識(shí)別出的文本數(shù)量,Wt表示在輸入的場(chǎng)景文本圖像中總共的單詞級(jí)文本數(shù)量。

        3.3 文本矯正實(shí)驗(yàn)細(xì)節(jié)

        文本矯正方法可用于自然場(chǎng)景文本中扭曲或不規(guī)則布局的文本圖像,CUTE80 數(shù)據(jù)集包括了大量扭曲變形的文本。圖5 展示了MORN 算法對(duì)扭曲透視文本的矯正效果,經(jīng)過(guò)MORN 矯正后的圖像更具可讀性。

        3.4 文本識(shí)別實(shí)驗(yàn)細(xì)節(jié)

        實(shí)驗(yàn)是在Tensflow 深度學(xué)習(xí)框架下進(jìn)行的。模型在MJSynth 數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,設(shè)置初始學(xué)習(xí)率為0.1,圖像批處理尺寸為32,所有圖像大小歸一化為32 × 100。用0.8 的權(quán)值下降,采用正確率評(píng)估模型效果,模型在GPU上迭代了20 000 次。本文識(shí)別方法最終通過(guò)轉(zhuǎn)錄層利用CTC 算法將預(yù)測(cè)的帶有空白字符的文本序列轉(zhuǎn)化為最終文本,CTC 算法的損失函數(shù)會(huì)隨著模型優(yōu)化而發(fā)生變化。CTC 損失變化過(guò)程如圖6所示。

        Fig.5 text correction effect圖5 文本矯正效果

        Fig.6 CTC loss change proces圖6 CTC損失變化過(guò)程

        為驗(yàn)證本文識(shí)別方法的有效性,選取幾個(gè)較新的典型方法在ICDAR 2013、ICDAR 2015 和CUTE80 數(shù)據(jù)集上進(jìn)行定量比較,實(shí)驗(yàn)結(jié)果如表1 所示。由表1 所示,本文的識(shí)別模型取得了不錯(cuò)的效果,尤其是在CUTE 扭曲變形的數(shù)據(jù)集上表現(xiàn)較好,準(zhǔn)確率相比已有方法提高了近1.9%。一方面是因?yàn)樵谧R(shí)別之前增加了矯正過(guò)程,另一方面是在識(shí)別過(guò)程的特征提取部分,通過(guò)雙通道進(jìn)行特征提取,改進(jìn)了提取特征的感受域范圍,提高了自然場(chǎng)景中文本被正確識(shí)別的概率。Cheng 等[18]利用基于注意力的編解碼框架生成字符序列,從4 個(gè)方向提取字符的視覺(jué)特征方向和字符放置線索,可識(shí)別不規(guī)則文本,但是收斂速度慢,訓(xùn)練比較耗時(shí);Yang 等[19]通過(guò)基于文本實(shí)例的局部屬性矯正文本,如中心線、比例和方向,這種對(duì)文本形狀精確描述的約束使得ScRN 能夠產(chǎn)生比現(xiàn)有方法更好的校正結(jié)果,但是操作較為復(fù)雜;Shi 等[20]通過(guò)STN 對(duì)輸入的彎曲變形文本進(jìn)行矯正,得到形狀規(guī)則的文本作為基于注意力模型SRN的輸入,SRN 包括一個(gè)編碼器和一個(gè)解碼器,通過(guò)基于注意力的編解碼框架生成符合條件的字符序列。本文框架則是直接用原始自然圖像作為輸入,將單詞級(jí)文本送入到MORN 矯正模塊矯正文本,最后將校正后的文本內(nèi)容送入雙分支識(shí)別網(wǎng)絡(luò)進(jìn)行識(shí)別。

        圖7 直觀展示了本文方法的識(shí)別效果,可看出在扭曲變形和光照條件下均能正確識(shí)別。圖中有部分為識(shí)別錯(cuò)誤的文本,這是因圖片過(guò)于模糊使得算法難以區(qū)分文本區(qū)域與背景區(qū)域所致。

        4 結(jié)語(yǔ)

        傳統(tǒng)識(shí)別方法需要大量重復(fù)操作,識(shí)別率較低。本文提出面向自然場(chǎng)景圖像文本的矯正與識(shí)別方法,不需要復(fù)雜的人工操作。通過(guò)MORN 矯正網(wǎng)絡(luò)矯正文本,可以矯正扭曲、縮放和拉伸的字符。沿著雙分支提取圖像特征,一定程度上解決了在識(shí)別過(guò)程中單一感受域和卷積核形狀不變的問(wèn)題,嵌入注意力的雙向門控循環(huán)單元使得在訓(xùn)練過(guò)程中可通過(guò)權(quán)重更關(guān)注文本區(qū)域信息。實(shí)驗(yàn)結(jié)果表明,本文方法能有效矯正并識(shí)別密集、扭曲的文本。與一般文本識(shí)別算法相比,本文方法的實(shí)用性更強(qiáng)。本文主要研究自然場(chǎng)景的中英文文本識(shí)別,而對(duì)于彎曲的中文文本識(shí)別,未來(lái)值得作進(jìn)一步研究。

        Table 1 Comparison of accuracy of text recognition methods on IC?DAR and CUTE80 data sets表1 ICDAR與CUTE80數(shù)據(jù)集上文本識(shí)別方法準(zhǔn)確率比較

        猜你喜歡
        字符矯正像素
        趙運(yùn)哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        尋找更強(qiáng)的字符映射管理器
        像素前線之“幻影”2000
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        “像素”仙人掌
        消失的殖民村莊和神秘字符
        “體態(tài)矯正”到底是什么?
        矯正牙齒,不只是為了美
        福建人(2016年6期)2016-10-25 05:44:15
        高像素不是全部
        CHIP新電腦(2016年3期)2016-03-10 14:22:03
        视频国产自拍在线观看| av片在线观看免费| 亚洲肥老太bbw中国熟女| 日日噜噜夜夜狠狠2021| 97中文字幕一区二区| 国产三区三区三区看三区| 一本色综合网久久| 亚洲国产成人久久综合| 久久中文精品无码中文字幕| 日韩国产有码在线观看视频| 国产精品三级国产精品高| 那有一级内射黄片可以免费看| 国产精品久久久久久| 日本理伦片午夜理伦片| 久久精品亚洲中文无东京热| 97人妻蜜臀中文字幕| 国产成人一区二区三区影院| 男女肉粗暴进来动态图| 少妇无码太爽了不卡视频在线看| 亚洲AV伊人久久综合密臀性色| 日韩精品中文字幕人妻系列| 我揉搓少妇好久没做高潮| 人人澡人人妻人人爽人人蜜桃麻豆 | 精品三级av无码一区| 欧美日本日韩aⅴ在线视频| 蜜桃视频免费在线视频| 亚洲婷婷久久播66性av| 77777_亚洲午夜久久多人| 日本做受高潮好舒服视频| 日本特黄a级高清免费大片| 日本高清一区在线你懂得| 久久精品免费中文字幕| 久久精品国产视频在热| 永久无码在线观看| 久久精品中文字幕免费| 久久黄色国产精品一区视频| 欧美video性欧美熟妇| 成年在线观看免费视频| 国产精品三级av一区二区| av网站免费在线浏览| 国产国产人免费人成免费视频|