亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PSENet的人民幣文本檢測(cè)方法

        2021-06-19 07:23:18于文清
        新一代信息技術(shù) 2021年10期
        關(guān)鍵詞:文本檢測(cè)方法

        于文清

        (河北地質(zhì)大學(xué) 信息工程學(xué)院,河北 石家莊 050031)

        0 引言

        目前場(chǎng)景文本檢測(cè)技術(shù)可以大致分為兩類,一類是傳統(tǒng)的場(chǎng)景文本檢測(cè)方法,另一類是基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)方法。傳統(tǒng)的場(chǎng)景文本檢測(cè)方法大多是基于字符的,即先對(duì)字符進(jìn)行檢測(cè),然后將字符進(jìn)行關(guān)聯(lián)組合,形成單詞。如易堯華[1]等人提出的結(jié)合MSCRs與MSERs的自然場(chǎng)景文本檢測(cè)以及張國(guó)和[2]等人提出的最大穩(wěn)定極值區(qū)域與筆畫寬度變換的自然場(chǎng)景文本提取方法在某些場(chǎng)景中,字符非常模糊,甚至無法看清,采用傳統(tǒng)的場(chǎng)景文本檢測(cè)方法難以檢測(cè)出此類文字,因此基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)方法被陸續(xù)提出?;谏疃葘W(xué)習(xí)的場(chǎng)景文本檢測(cè)方法大體分為兩類,基于目標(biāo)檢測(cè)的方法和基于分割的方法。基于目標(biāo)檢測(cè)的方法通常把目標(biāo)檢測(cè)的方法針對(duì)文本的特點(diǎn)來進(jìn)行改進(jìn),進(jìn)而應(yīng)用到文本檢測(cè)中,Tian等人[3]在基于Faster-RCNN[4]思想的基礎(chǔ)上提出了用于檢測(cè)水平文本的CTPN。Ma等人[5]在基于Faster-RCNN的基礎(chǔ)上提出了一種通過對(duì)檢測(cè)框進(jìn)行旋轉(zhuǎn)來檢測(cè)傾斜的文本的RRPN。Shi等人[6]在 SSD[7]的基礎(chǔ)上提出了可以處理多方向和任意長(zhǎng)度的文本的 SegLink。由于該類方法對(duì)多方向文本和彎曲形文本的檢測(cè)效果不是很精準(zhǔn),因此有學(xué)者提出了基于分割的方法。基于分割的文本檢測(cè)方法可以不受文本形狀的限制,不僅可以檢測(cè)橫向和斜向的文本,而且還可以準(zhǔn)確有效的檢測(cè)出不規(guī)則的文本,比基于目標(biāo)檢測(cè)的方法,適用的范圍更廣。曠視科技采用基于分割的方法提出了PSENet[8]不僅可以對(duì)任意形狀的文本進(jìn)行定位而且解決了過于接近的文本難以分離的問題,首先小比例縮放檢測(cè),然后使用漸進(jìn)擴(kuò)展算法逐步擴(kuò)展成完整的文本。

        上述的文本檢測(cè)方法均可應(yīng)用于人民幣文本檢測(cè),但會(huì)存在以下問題:(1)若采用傳統(tǒng)的人民幣文本檢測(cè)方法,會(huì)存在以下幾個(gè)問題:當(dāng)人民幣出現(xiàn)破損折角、文字模糊時(shí),會(huì)難以檢測(cè)人民幣圖像文本區(qū)域,影響人民幣文本檢測(cè)的準(zhǔn)確率;當(dāng)拍攝采集的人民幣圖像受到光照強(qiáng)度、圖像變形、拍攝角度影響時(shí),人民幣文本區(qū)域的定位會(huì)出現(xiàn)偏差,影響人民幣文本區(qū)域定位的精準(zhǔn)度。(2)若采用基于目標(biāo)檢測(cè)的人民幣文本檢測(cè)方法,由于拍攝的人民幣圖像受到圖像變形、拍攝角度影響時(shí),很難使人民幣圖像的候選框與真值框之間具備較好的匹配關(guān)系,影響人民幣文本檢測(cè)的準(zhǔn)確率。針對(duì)以上問題,本文將曠視科技提出的基于分割的 PSENet應(yīng)用到人民幣文本檢測(cè)中不僅可以對(duì)人民幣圖像變形的文本進(jìn)行定位而且解決了相鄰人民幣文本難以分離的問題,從而提高人民幣文本區(qū)域檢測(cè)的準(zhǔn)確率。

        1 相關(guān)工作

        由于殘差網(wǎng)絡(luò)(ResNet)解決了網(wǎng)絡(luò)深度達(dá)到飽和之后出現(xiàn)的梯度消散或梯度爆炸的問題,特征金字塔網(wǎng)絡(luò)(FPN)在不增加原有模型計(jì)算量的情況下,解決了物體檢測(cè)中的多尺度問題,因此PSENet采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet+FPN作為特征提取的網(wǎng)絡(luò)結(jié)構(gòu)。

        1.1 ResNet

        隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層數(shù)變得越來越深,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練因其層次加深而變得愈加困難,為了解決網(wǎng)絡(luò)深度達(dá)到飽和之后出現(xiàn)的梯度消散或梯度爆炸的問題,He Kaiming等人[9]提出了殘差網(wǎng)絡(luò),其內(nèi)部的殘差模塊使用了跳躍鏈接,緩解了在深度神經(jīng)網(wǎng)絡(luò)中增加深度帶來了梯度消失的問題。殘差網(wǎng)絡(luò)是由多個(gè)殘差模塊堆疊而成,輸入一張圖像數(shù)據(jù),殘差網(wǎng)絡(luò)首先將輸入數(shù)據(jù)依次送入卷積層、非線性激活函數(shù)層、批處理層;然后將處理結(jié)果送入到多個(gè)殘差模塊,經(jīng)過批處理歸一化層和全連接層之后,最后得到輸出結(jié)果。令第l個(gè)殘差模塊的輸入為xl,那么下一層的輸出為:

        其中,F(xiàn)(xl,Wl) 是殘差函數(shù),Wl是該殘差函數(shù)對(duì)應(yīng)的權(quán)重,f(*)是非線性激活函數(shù)Relu。殘差網(wǎng)絡(luò)具有五種不同深度的網(wǎng)絡(luò)結(jié)構(gòu),分別為ResNet18,ResNet34,ResNet50,ResNet101,ResNet152。本文所使用的是ResNet50。

        1.2 FPN

        在計(jì)算機(jī)視覺學(xué)科中,多維度的目標(biāo)檢測(cè)一直以來都是通過將縮小或擴(kuò)大后的不同維度圖片作為輸入來生成出反映不同維度信息的特征組合,這種辦法對(duì)硬件計(jì)算能力及內(nèi)存大小有較高要求,只能在有限的領(lǐng)域內(nèi)部使用,因此Lin等人提出了特征金字塔網(wǎng)絡(luò)[10](Feature Pyramid Networks for Object Detection,F(xiàn)PN)可以有效的在單一圖片視圖下生成對(duì)其的多維度特征表達(dá),在不增加原有模型計(jì)算量的情況下,大幅度提升了物體檢測(cè)的性能。特征金字塔網(wǎng)絡(luò)有三部分組成,第一部分為自底向上部分,該部分的過程就是神經(jīng)網(wǎng)絡(luò)普通的前向傳播過程,特征圖經(jīng)過卷積核計(jì)算,通常會(huì)越變?cè)叫。坏诙糠譃樽缘紫蛏喜糠?,該部分過程是將低分辨率的特征圖做 2倍上采樣,然后通過按元素相加,將上采樣映射與相應(yīng)的自底而上映射合并,這個(gè)過程是迭代的,直到生成最終的分辨率圖;第三部分是橫向連接部分,該部分的過程是將上采樣的結(jié)果和自底向上生成的相同大小的特征圖進(jìn)行融合,橫向連接的兩層特征在空間尺寸相同,這樣做可以利用底層定位細(xì)節(jié)信息。

        2 PSENet模型

        PSENet是基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)模型,它有兩方面的優(yōu)勢(shì),第一,其可以對(duì)任意形狀的文本進(jìn)行定位;第二,其提出了一種漸進(jìn)的尺度擴(kuò)展算法,該算法可以成功區(qū)分相鄰的文本實(shí)例。PSENet由網(wǎng)絡(luò)結(jié)構(gòu)和漸進(jìn)尺度擴(kuò)展算法兩部分組成。

        PSENet采用在 ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet+FPN作為特征提取的網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)結(jié)構(gòu)的處理流程為:首先通過FPN自底向上部分提取圖像的特征,然后通過FPN橫向連接部分與自上而下部分連接融合產(chǎn)生新的特征圖P5,P4,P3,P2最后將特征圖P5,P4,P3逐層上采樣至特征圖P2尺寸并與P2級(jí)聯(lián)在一起得到融合特征F,如圖1所示。

        圖1 PSENet算法處理流程Fig.1 Processing flow of psenet algorithm

        PSENet采用基于廣度優(yōu)先搜索的漸進(jìn)式尺度擴(kuò)展算法作為后處理算法,該算法對(duì)n個(gè)分割區(qū)域從小到大依次進(jìn)行擴(kuò)展并得到最終的預(yù)測(cè)結(jié)果。分割區(qū)域表示稱為“核”,并且對(duì)于一個(gè)文本實(shí)例,有幾個(gè)對(duì)應(yīng)的內(nèi)核。漸進(jìn)式尺度擴(kuò)展算法處理流程為:(1)從具有最小尺度的核開始往外擴(kuò)張,由于尺度極小的核之間存在較大的幾何邊緣,因此很容易區(qū)分相鄰文本實(shí)例;(2)將找到的連通域的每個(gè)像素點(diǎn)以廣度優(yōu)先搜索的方式,逐個(gè)向上下左右擴(kuò)展;(3)重復(fù)上述過程,完成直到發(fā)現(xiàn)最大的核作為預(yù)測(cè)結(jié)果,最終得到文本區(qū)域。漸進(jìn)式尺度擴(kuò)展算法在算法1中進(jìn)行了概述,在算法1中,T,P為中間結(jié)果,Q為隊(duì)列,Neighbor(·)表示 p 的相鄰像素,GroupByLabel(·)表示按標(biāo)簽分組中間結(jié)果?!癝i[q]=True”表示預(yù)測(cè)Si中像素q屬于文本部分。

        表1 漸進(jìn)式尺度擴(kuò)展算法Tab.1 Sc ale expansion algorithm

        PSENet的每個(gè)內(nèi)核與原始的整個(gè)文本實(shí)例共享相似的形狀,并且它們都位于相同的中心點(diǎn)但在比例上不同,因此需要標(biāo)簽生成部分產(chǎn)生不同比例的核對(duì)應(yīng)的標(biāo)簽。該模型的損失由整體文本實(shí)例(Sn)的損失和縮放后文本實(shí)例(S1→Sn)的損失兩部分組成,因此標(biāo)簽生成是計(jì)算模型損失重要的一部分。

        2.1 標(biāo)簽生成

        PSENet會(huì)產(chǎn)生不同比例的核(S1,S2,…,Sn),如圖1所示,因此在訓(xùn)練的過程中,需要有和不同比例的核相對(duì)應(yīng)的標(biāo)簽,但在使用標(biāo)注工具 roLabelImg制作數(shù)據(jù)集時(shí)只能制作完整文本框的標(biāo)簽,為了得到不同尺度的分割圖相對(duì)應(yīng)的標(biāo)簽,需要對(duì)數(shù)據(jù)集給定的標(biāo)簽進(jìn)行縮放處理,通過對(duì)數(shù)據(jù)集給定的文本框(文本框是一個(gè)多邊形)pn縮減di個(gè)像素得到縮放后的標(biāo)簽pi。假設(shè)縮放比例為ir,則pn和pi之間di的計(jì)算方式為:

        其中Area(pn)表示多邊形pn的面積,perimeter(pn)表示多邊形pn的周長(zhǎng)。

        對(duì)于縮放比ri計(jì)算方式為:

        其中,m∈(0,1]為縮放的最小比例,縮放比ri的取值范圍為[m,1]。

        2.2 損失函數(shù)

        本文的損失函數(shù)由整體文本實(shí)例(Sn)的損失LC和縮放后文本實(shí)例(S1→Sn)的損失Ls的損失兩部分組成,損失函數(shù)L的定義為:

        其中λ用于平衡整體文本實(shí)例的損失LC和縮放后文本實(shí)例的損失Ls,本文設(shè)置為 0.7。由于通常文本實(shí)例可能只占自然場(chǎng)景很小的一部分,因此LC、Ls都采用Dics系數(shù)進(jìn)行損失函數(shù)的計(jì)算,計(jì)算方式為:

        其中Si,x,y表示分割結(jié)果Si在(x,y)位置處的像素值,Gi,x,y表示標(biāo)簽Gi在(x,y)位置處的像素值。為了避免誤檢,在訓(xùn)練過程中采用在線難例挖掘算法(Online Hard Example Mining,OHEM)[11],則LC的計(jì)算方式為:

        其中M為訓(xùn)練過程中OHEM預(yù)測(cè)的文本區(qū)域,Ls的計(jì)算方式為:

        其中W表示Sn中忽略非文本區(qū)域像素的掩模。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        3.1.1 人民幣圖像的構(gòu)成

        人民幣圖像有人民幣冠字號(hào)、人民幣金額、中國(guó)人民銀行這三部分組成,如圖2所示。(1)人民幣冠字號(hào)字符一共有 10個(gè)字符,由固定的26個(gè)英文字母 10個(gè)阿拉伯?dāng)?shù)字共同組成,有的人民幣冠字號(hào)位于人民幣的左下角,有的人民幣版本存在雙冠字號(hào),不僅左下角有冠字號(hào),并且在右側(cè)邊也存在冠字號(hào);(2)人民幣金額存在兩種表達(dá),第一種由人民幣金額的阿拉伯?dāng)?shù)字表達(dá),有的位于人民幣的中心、右上角及左下角三個(gè)位置,有的位于人民幣的中心、右上角兩個(gè)位置,第二種是由人民幣金額的繁字體表達(dá),位于人民幣金額阿拉伯?dāng)?shù)字位置的下方;(3)有中國(guó)人民銀行5個(gè)漢字組成,位于人民幣金額阿拉伯?dāng)?shù)字位置的上方。

        圖2 含有單冠字號(hào)和雙冠字號(hào)的人民幣圖像Fig.2 Image of RMB with single and double crown

        3.1.2 數(shù)據(jù)集選取

        人民幣圖像沒有公開的數(shù)據(jù)集用于訓(xùn)練和測(cè)試,本文所用的人民幣的圖像數(shù)據(jù)集是均由roLabelImg軟件對(duì)人民幣圖像標(biāo)注,標(biāo)注后的人民幣圖像如圖3所示。人民幣圖像的文本行標(biāo)注是一個(gè)繁瑣的過程,需要消耗大量的人力和精力,本實(shí)驗(yàn)對(duì)1元、5元、10元、20元、50元、100元一共選取500張進(jìn)行標(biāo)注,人民幣圖像按照順時(shí)針的格式標(biāo)注,順序?yàn)樽笊辖?、右上角、右下角、左下角?/p>

        圖3 標(biāo)注后的人民幣圖像Fig.3 Annotated RMB image

        3.2 實(shí)驗(yàn)設(shè)置

        本文在Linux系統(tǒng)上搭建實(shí)驗(yàn)平臺(tái),CPU型號(hào)為Inter@CoreTMi7-10750H,內(nèi)存為16G,使用Python3.6作為編程語言,使用的深度學(xué)習(xí)框架為pytorch 1.0。本實(shí)驗(yàn)使用ResNet-50作為基礎(chǔ)網(wǎng)絡(luò)并使用隨機(jī)梯度下降進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)為1e–4,訓(xùn)練600輪。

        3.3 評(píng)價(jià)指標(biāo)

        本文采用場(chǎng)景文本檢測(cè)的任務(wù)中常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率(Precision,P)、召回率(Recall,R)、綜合評(píng)價(jià)指標(biāo)(F-measure, F值),其中準(zhǔn)確率、召回率、綜合評(píng)價(jià)指標(biāo)的計(jì)算方式為:

        其中D表示使用PSENet檢測(cè)出的人民幣文本框,G表示真實(shí)的文本框。Match(D,G)表示使用PSENet檢測(cè)的正確的人民幣文本框的數(shù)量,|D|表示使用PSENet檢測(cè)出的人民幣文本框的數(shù)量,|D|表示真實(shí)的文本框的數(shù)量。

        3.4 實(shí)驗(yàn)結(jié)果

        本文使用PSENet對(duì)六種不同面值即一元,五元,十元,二十元,五十元,一百元的人民幣進(jìn)行了檢測(cè),如圖4所示,基于 PSENet的人民幣文本檢測(cè)方法的召回率為 95%,準(zhǔn)確率為 98%,f-measure為 97%(實(shí)驗(yàn)結(jié)果保留兩位)。經(jīng)實(shí)驗(yàn)證明 PSENet應(yīng)用于人民幣文本檢測(cè)具有較好的參考價(jià)值。將 PSENet應(yīng)用人民幣文本檢測(cè)有以下優(yōu)點(diǎn):(1)基于 PSENet的人民幣文本檢測(cè)方法受人民幣出現(xiàn)破損折角、文字模糊等問題影響較小,提高了人民幣文本檢測(cè)的準(zhǔn)確率。(2)基于 PSENet的人民幣文本檢測(cè)方法解決了人民幣文本檢測(cè)易受圖像變形、光照強(qiáng)度、拍攝角度等影響的問題,提高了人民幣文本區(qū)域定位的精準(zhǔn)度。(3)基于 PSENet的人民幣文本檢測(cè)方法是基于分割的文本檢測(cè)方法,可以使候選框與真值框之間具備較好的匹配關(guān)系。(4)基于 PSENet的人民幣文本檢測(cè)方法可以將相鄰的人民幣文本區(qū)分。(5)根據(jù)測(cè)試結(jié)果來看,將 PSENet應(yīng)用于人民幣文本檢測(cè)檢測(cè)結(jié)果較好,為人民幣文本檢測(cè)的研究提供了新的思路,具有一定的應(yīng)用價(jià)值。

        圖4 人民幣檢測(cè)結(jié)果Fig.4 RM B test results

        4 結(jié)論與展望

        針對(duì)人民幣文本檢測(cè)準(zhǔn)確率不高以及文本區(qū)域定位的精準(zhǔn)度不準(zhǔn)等問題,本文提出了基于PSENet的人民幣文本檢測(cè)方法,通過利用PSENet對(duì)變形文本進(jìn)行定位以及可區(qū)分相鄰文本的特性,將其應(yīng)用到人民幣文本檢測(cè)中不僅提高了文本區(qū)域定位的精準(zhǔn)度而且提高人民幣文本檢測(cè)的準(zhǔn)確率。通過實(shí)驗(yàn)表明本文的方法取得了不錯(cuò)的檢測(cè)效果,為人民幣文本檢測(cè)的研究提供了新的思路,具有一定的應(yīng)用價(jià)值。本文雖然有效地提高了人民幣文本區(qū)域檢測(cè)準(zhǔn)確率,但是場(chǎng)景圖像背景復(fù)雜性、受拍攝的外界環(huán)境影響等問題依然是人民幣文本檢測(cè)的巨大挑戰(zhàn),人民幣文本檢測(cè)還有空間值得進(jìn)一步的研究和完善。

        猜你喜歡
        文本檢測(cè)方法
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        男人阁久久| y111111少妇影院无码| 又爆又大又粗又硬又黄的a片 | 亚洲日本精品一区二区三区| 国产av一区二区网站| 国产主播性色av福利精品一区| 日韩乱码中文字幕在线| 国产玉足榨精视频在线观看| 久久不见久久见免费影院| 色婷婷综合久久久久中文字幕| 国产卡一卡二卡三| 日本一区午夜艳熟免费| 国产av成人精品播放| 成人国产精品高清在线观看| 免费看黄在线永久观看| 亚洲无精品一区二区在线观看| www夜插内射视频网站| 成人性生交大片免费看96| 欧美性猛交xxxx黑人猛交| 人妻少妇精品无码专区二| AV中文码一区二区三区| 羞涩色进入亚洲一区二区av| 亚洲av毛片在线免费看| 亚洲欧美乱综合图片区小说区| 朝鲜女子内射杂交bbw| 一级二级中文字幕在线视频| 欧美精品高清在线xxxx| 国产视频一区二区三区免费 | 精品视频无码一区二区三区| 免费观看黄网站在线播放| 91精品福利观看| 久久久国产精品ⅤA麻豆百度| 一区二区在线观看日本免费| 久久久亚洲av波多野结衣| 99国产精品无码| 激情97综合亚洲色婷婷五| 中文人妻AV高清一区二区| 久久精品一区二区三区不卡牛牛| 久久精品熟女亚洲av香蕉| 高清毛茸茸的中国少妇| 国产成熟人妻换╳╳╳╳|