亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        具有仿射變換錨點(diǎn)的文字檢測(cè)方法

        2021-02-03 09:35:06仝明磊姚宏揚(yáng)
        關(guān)鍵詞:分類文本區(qū)域

        仝明磊, 姚宏揚(yáng)

        (上海電力大學(xué) 電子與信息工程學(xué)院, 上海 200090)

        文字檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)重要部分,也是文字識(shí)別的必要過程。自然場(chǎng)景下的文字檢測(cè)目前依然面臨很大的挑戰(zhàn),主要是因?yàn)樽匀粓?chǎng)景圖像中的文字在亮度、模糊、形狀、方向等方面有很高的隨機(jī)性,導(dǎo)致文字檢測(cè)的難度較大。

        近年來,研究者提出了很多的文字檢測(cè)方法[1-5]。盡管這些方法提高了檢測(cè)結(jié)果,但大多還是基于水平的檢測(cè)方式,無法有效解決自然場(chǎng)景圖像中文字復(fù)雜多變的情況。在實(shí)際應(yīng)用中,大部分圖片中的文字區(qū)域都不是水平的,通過以前的水平候選區(qū)方法來大量訓(xùn)練并不能得到很高的檢測(cè)精度,還會(huì)增加大量的計(jì)算時(shí)間。最近帶有幾何方向性的文字檢測(cè)方法被提出[6-7]。該方法主要是通過自底向上的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8-9]進(jìn)行特征提取來生成文字預(yù)測(cè)特征圖,再通過計(jì)算有傾斜性質(zhì)和特殊形狀的錨點(diǎn)框與特征圖上網(wǎng)格之間的置信度,使用回歸方法或者其他精細(xì)調(diào)整方法得到最終的檢測(cè)結(jié)果。區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network,RPN)與Faster-RCNN[10]框架的結(jié)合,進(jìn)一步加快了錨點(diǎn)的提議進(jìn)程。本文將角度信息和仿射變換信息加入多方向文本檢測(cè)的模型中,以期進(jìn)一步優(yōu)化適應(yīng)文字區(qū)域的檢測(cè)。

        1 仿射變換錨點(diǎn)

        1.1 水平錨點(diǎn)

        RPN可以進(jìn)一步加速區(qū)域提議的生成過程,采用殘差網(wǎng)絡(luò)(Residual Network,ResNet)[11]的一部分作為共享網(wǎng)絡(luò)層,通過在最后一層卷積得到特征圖上滑動(dòng)窗口來生成水平區(qū)域提議。每個(gè)滑動(dòng)窗口得到的特征提取后,被送入回歸層(regression)和分類層(classification)中;回歸層輸出的每個(gè)提議框上有4個(gè)參數(shù)(寬、高、中心位置x坐標(biāo)和y坐標(biāo)),另外每個(gè)滑動(dòng)位置的錨點(diǎn)還有2個(gè)分?jǐn)?shù)從分類層輸出。

        RPN使用尺度和寬高比兩個(gè)參數(shù)控制錨點(diǎn)的大小和形狀,以便更好地適應(yīng)不同尺寸的文字。尺度決定錨點(diǎn)的大小,寬高比決定錨點(diǎn)的形狀比例。在文字檢測(cè)中,尤其是自然場(chǎng)景下的圖像,文本通常都以非常規(guī)形狀表現(xiàn),如果只使用RPN產(chǎn)生的水平錨點(diǎn),對(duì)于場(chǎng)景文字檢測(cè)來說魯棒性較差。為了提高網(wǎng)絡(luò)檢測(cè)的魯棒性和準(zhǔn)確率,有必要建立一個(gè)適應(yīng)文本形狀的檢測(cè)框架。

        1.2 網(wǎng)絡(luò)結(jié)構(gòu)

        本文所提網(wǎng)絡(luò)的整體框架使用ResNet-101的卷積層進(jìn)行特征提取,增加仿射變換參數(shù)的RPN對(duì)最后一層卷積的特征圖進(jìn)行區(qū)域提議。圖1為仿射變換區(qū)域提議網(wǎng)絡(luò)結(jié)構(gòu)。

        圖1 仿射變換區(qū)域提議網(wǎng)絡(luò)結(jié)構(gòu)

        首先,從場(chǎng)景圖像上的預(yù)測(cè)文本實(shí)例中生成適應(yīng)方向和變換的提議,然后對(duì)提議進(jìn)一步回歸邊界框來適應(yīng)真實(shí)文本區(qū)域。由回歸層和分類層輸出的回歸提議信息和分類分?jǐn)?shù)計(jì)算回歸和分類損失,最終匯總為多任務(wù)損失。興趣區(qū)域(Region-of-Interest,RoI)池化層將帶有仿射變換的提議映射到特征圖上。最后,通過兩個(gè)全連接層組成的分類網(wǎng)絡(luò)將RoI特征區(qū)域分為前景文字區(qū)域和背景。

        1.3 訓(xùn)練集處理

        訓(xùn)練時(shí),圖像上文本實(shí)例的位置形狀坐標(biāo)由標(biāo)注真值框4個(gè)角的坐標(biāo)(x1,y1,x2,y2,x3,y3,x4,y4)獲得,輸入網(wǎng)絡(luò)時(shí)通過計(jì)算轉(zhuǎn)換為6個(gè)參數(shù)(x,y,h,w,θ,trans_x)。坐標(biāo)(x,y)表示文本邊界框的幾何中心坐標(biāo);高度(h)為邊界框的短邊長(zhǎng)度;寬度(w)為邊界框的長(zhǎng)邊長(zhǎng)度;角度(θ)為邊界框長(zhǎng)邊與坐標(biāo)軸x之間的夾角;變換值(trans_x)為長(zhǎng)邊方向的仿射變換偏移量。文本框的中心坐標(biāo)、長(zhǎng)寬和角度由文本邊界框真值坐標(biāo)求出的最小外接矩形得到,仿射變換值由最小外接矩形與邊界框真值的x坐標(biāo)差值得到。

        1.4 仿射變換錨點(diǎn)

        傳統(tǒng)的水平錨點(diǎn)不能進(jìn)行很好的文字檢測(cè),因此本文設(shè)計(jì)了具有仿射變換的旋轉(zhuǎn)錨點(diǎn),并且進(jìn)行了相應(yīng)的調(diào)整和改進(jìn)。

        圖2 網(wǎng)絡(luò)中錨點(diǎn)的固定參數(shù)

        訓(xùn)練數(shù)據(jù)經(jīng)過預(yù)處理步驟后,一個(gè)提議錨點(diǎn)中有6個(gè)參數(shù)(x,y,h,w,θ,trans_x)。對(duì)于特征圖上的每個(gè)點(diǎn),生成3×3×6×5共270個(gè)錨點(diǎn)。在每個(gè)滑動(dòng)窗口經(jīng)過的位置上分別生成6×270共1 620個(gè)輸出,分類層生成2×270共540個(gè)輸出。根據(jù)仿射變換錨點(diǎn)網(wǎng)絡(luò)在寬度為W、高度為H的特征圖上滑動(dòng),總共生成H×W×270個(gè)錨點(diǎn)。訓(xùn)練數(shù)據(jù)所給的坐標(biāo)真值數(shù)量較少,如果直接選擇為訓(xùn)練結(jié)果,容易產(chǎn)生過擬合現(xiàn)象。由于RPN中錨點(diǎn)數(shù)量多、形狀變化大,因此將錨點(diǎn)作為RPN的候選框進(jìn)行正負(fù)樣本分類時(shí),網(wǎng)絡(luò)會(huì)學(xué)習(xí)這些具有仿射變換屬性的錨點(diǎn)。通過計(jì)算文本坐標(biāo)真值框與仿射變換錨點(diǎn)的面積交并比(Intersection-over-Union,IoU)來判斷檢測(cè)效果的好壞。正樣本定義為:最高的交并比或交并比大于0.7,錨點(diǎn)的方向角度與文本坐標(biāo)真值的旋轉(zhuǎn)角度小于π/12[12],并且仿射變換的變換值小于2。負(fù)樣本定義為:交并比小于0.3,交并比大于0.7,但旋轉(zhuǎn)角度超過π/12。其余為不參與訓(xùn)練的多余樣本。

        1.5 損失函數(shù)

        RPN在候選框生成完成后,還需要使用Faster-RCNN的全連接層對(duì)這些候選框進(jìn)行準(zhǔn)確檢測(cè)。檢測(cè)過程分為回歸網(wǎng)絡(luò)和分類網(wǎng)絡(luò)兩個(gè)部分,損失函數(shù)分為分類損失和回歸損失:分類損失是指候選框在前景背景分類時(shí)的誤差;回歸損失是指候選框與標(biāo)注真值框的幾何參數(shù)的誤差。

        對(duì)于仿射變換錨點(diǎn),網(wǎng)絡(luò)采用了多任務(wù)損失函數(shù),定義為

        L(p,l,v*,v)=Lcls(p,l)+λlLreg(v*,v)

        (1)

        式中:p——softmax函數(shù)計(jì)算的類的概率,p=(p0,p1);

        l——分類標(biāo)簽的指示符,l=1為文本,l=0為背景,對(duì)于背景不進(jìn)行回歸;

        v——文本標(biāo)簽預(yù)測(cè)出的參數(shù)組,v=(vx,vy,vw,vh,vθ,vtrans_x);

        Lcls,Lreg——分類損失和回歸損失;

        λ——平衡控制參數(shù)。

        分類損失與回歸損失之間由λ權(quán)衡。其中將分類損失定義為

        Lcls(p,l)=-logpl

        (2)

        對(duì)于邊界框回歸,背景RoI被忽略。文字RoI采用了smooth-L1損失函數(shù),即

        (3)

        (4)

        候選框形狀參數(shù)元組v和v*的計(jì)算方式為

        vθ=θ-θa+kπ,

        vtransx=transx-transxa

        (5)

        vθ*=θ*-θa+kπ,

        (6)

        式中:x,xa,x*——預(yù)測(cè)框、錨點(diǎn)和標(biāo)注真值框;

        w*,h*——標(biāo)注框的寬和高;

        wa,ha——錨點(diǎn)的寬和高;

        k——任意整數(shù)。

        仿身變換區(qū)域提議網(wǎng)絡(luò)可以提供大量不同形狀的錨點(diǎn),針對(duì)任何仿射變換形狀的文本實(shí)例都可以在合適范圍內(nèi)擬合形狀。

        1.6 優(yōu)化計(jì)算

        由于引入了仿射變換形狀的錨點(diǎn),在計(jì)算IoU時(shí)相交面積不再是矩形,因此可能會(huì)造成IoU計(jì)算不準(zhǔn)確,影響網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)。針對(duì)新的錨點(diǎn)形狀,設(shè)計(jì)了一種求解任意形狀四邊形相交面積的IoU算法。輸入錨點(diǎn)和標(biāo)注框的6個(gè)坐標(biāo)形狀參數(shù)(x,y,h,w,θ,trans_x)轉(zhuǎn)化為4個(gè)角的點(diǎn)坐標(biāo),通過4個(gè)角的點(diǎn)坐標(biāo)求出凸包形狀,即仿射變換錨點(diǎn)和標(biāo)注框的形狀,通過這兩個(gè)圖形分別求出各自的面積和重疊面積,最終可以得到兩個(gè)仿射變換形狀的IoU。

        2 實(shí) 驗(yàn)

        本文在文字檢測(cè)公共競(jìng)賽數(shù)據(jù)集ICDAR2015[13]和ICDAR2017MLT[14]上進(jìn)行了實(shí)驗(yàn)。這兩個(gè)數(shù)據(jù)集的圖像和標(biāo)注坐標(biāo)都具有仿射變換形狀,可以訓(xùn)練和測(cè)試文字檢測(cè)網(wǎng)絡(luò)的幾何文本檢測(cè)能力。ICDAR2015是用于文本檢測(cè)的常用數(shù)據(jù)集,共包含1 500張圖片,其中1 000張用于訓(xùn)練,其余用于測(cè)試。文本區(qū)域由四邊形的4個(gè)頂點(diǎn)注釋。ICDAR2017MLT是大規(guī)模的多語言文本數(shù)據(jù)集,包括7 200個(gè)訓(xùn)練圖像、1 800個(gè)驗(yàn)證圖像和9 000個(gè)測(cè)試圖像。數(shù)據(jù)集由來自9種語言的完整場(chǎng)景圖像組成。與ICDAR2015類似,ICDAR2017MLT中的文本區(qū)域也由四邊形的4個(gè)頂點(diǎn)注釋。

        實(shí)驗(yàn)使用一塊TITAN X顯卡,顯存為12 GB,CPU為Intel Core i5-2320 @3.00GHz×4,內(nèi)存為15.6 GB。實(shí)驗(yàn)中,網(wǎng)絡(luò)在前200 000次迭代中的學(xué)習(xí)率為10-3,后100 000次迭代中的學(xué)習(xí)率為10-4,權(quán)重衰減為5×10-4,動(dòng)量為0.9。

        訓(xùn)練時(shí),錨點(diǎn)形狀參數(shù)中的傾斜角度(θ)和仿射變換變換值(trans_x)由輸入訓(xùn)練圖片的標(biāo)注坐標(biāo)真值求出。在輸入文本框水平時(shí),當(dāng)左上點(diǎn)坐標(biāo)的x坐標(biāo)值大于文本框最小外接矩形左上點(diǎn)x坐標(biāo)值,則仿射變換偏移值取正;當(dāng)右下點(diǎn)坐標(biāo)的x坐標(biāo)值小于文本框最小外接矩形右下點(diǎn)x坐標(biāo)值,則仿射變換偏移值也取正,如圖3所示。圖3中,X是指某一段的偏移量。訓(xùn)練時(shí)生成的仿射變換變換值(trans_x)就由左上點(diǎn)坐標(biāo)的偏移值與右下點(diǎn)坐標(biāo)的偏移值取平均值得到。

        圖3 仿射變換偏移值

        使用ICDAR2015的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含1 000張圖像和10 886個(gè)文本實(shí)例。檢測(cè)的結(jié)果如下:召回率為0.62;準(zhǔn)確率為0.81;F1值為0.71。即使給定了270種形狀的錨點(diǎn),但是一些訓(xùn)練的文本區(qū)域仍然太小,導(dǎo)致召回率的提升不是很高。

        與同類方法在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了對(duì)比,結(jié)果如表1所示。

        表1 不同文字檢測(cè)方法在ICDAR2015上的常用評(píng)價(jià)指標(biāo)對(duì)比

        由表1可以看出,由于本文方法帶有仿射變換屬性,可以更好地檢測(cè)到真實(shí)場(chǎng)景圖片中的文字目標(biāo)區(qū)域,檢測(cè)出的文字框形狀與文字真實(shí)形狀更加貼合。

        圖4為檢測(cè)過程模擬及檢測(cè)結(jié)果。由圖4可知,相比水平檢測(cè)方法和帶角度的矩形檢測(cè)方法,具有仿射變換形狀的檢測(cè)方法對(duì)于圖片上的文字區(qū)域能夠更好地框選出來,不會(huì)像普通檢測(cè)算法一樣框選出很多不需要的背景區(qū)域,從而提高了檢測(cè)精準(zhǔn)度。另外,檢測(cè)出來的文字框具有仿射變換參數(shù),可以輕松地將文字區(qū)域反求轉(zhuǎn)換成矩形正面字體,方便后續(xù)識(shí)別等操作。

        圖4 檢測(cè)過程模擬及檢測(cè)結(jié)果

        3 結(jié) 語

        針對(duì)現(xiàn)實(shí)場(chǎng)景圖片中的文字大部分具有仿射變換和多方向的形狀,以及傳統(tǒng)水平錨點(diǎn)檢測(cè)無法很好檢測(cè)場(chǎng)景圖片中文字的問題,本文設(shè)計(jì)了一個(gè)帶有仿射變換錨點(diǎn)的文本檢測(cè)網(wǎng)絡(luò)。利用網(wǎng)絡(luò)中較高卷積層的文本位置信息,結(jié)合具有仿射變換形狀的錨點(diǎn),生成了具有任意方向和仿射變換形狀文本的檢測(cè)網(wǎng)絡(luò)。在ICDAR2015和ICDAR2017數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)比較,結(jié)果表明,本文所提出的仿射變換文字檢測(cè)網(wǎng)絡(luò)在場(chǎng)景文字檢測(cè)任務(wù)中具有較高的準(zhǔn)確率。

        猜你喜歡
        分類文本區(qū)域
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)于四色猜想
        分區(qū)域
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        国产亚洲精品久久久久久国模美| 中文字幕有码无码av| 东北无码熟妇人妻AV在线| 人妻系列无码专区久久五月天| 少妇人妻在线伊人春色| 日本精品视频免费观看| 一区二区三区人妻无码| 亚洲精品视频久久| 亚洲视频一区二区蜜桃| 丰满少妇人妻久久精品| 国产莉萝无码av在线播放| 国产精品第1页在线观看| 高清亚洲成av人片乱码色午夜| 国产不卡精品一区二区三区| 亚洲另类欧美综合久久图片区| 另类亚洲欧美精品久久不卡| 日本高清一区二区在线观看| av影院手机在线观看| 国产精品美女久久久久久| 伊人色综合久久天天人手人停| 91精品国产色综合久久不| 视频在线观看一区二区三区| 日日碰狠狠添天天爽无码| 亚洲国产精品嫩草影院久久| 在线观看国产av一区二区| 无套熟女av呻吟在线观看| 国产欧美一区二区精品仙草咪| 成年男人裸j照无遮挡无码| 成人水蜜桃视频在线观看| 又紧又大又爽精品一区二区| 中文字幕精品无码一区二区| 亚洲乱精品中文字字幕| 中文字幕av长濑麻美| 久激情内射婷内射蜜桃| 粉嫩极品国产在线观看| 亚洲另类精品无码专区| 欧美zozo另类人禽交| 日本中文字幕精品久久| 一本久道综合在线无码人妻| 色婷婷综合激情| 国产精品黄色在线观看|