亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分割的自然場景下文本檢測方法與應(yīng)用*

        2021-03-11 03:48:38陳小順王良君
        電子技術(shù)應(yīng)用 2021年2期
        關(guān)鍵詞:文本檢測方法

        陳小順,王良君

        (江蘇大學(xué) 計算機科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江212013)

        0 引言

        視覺圖像是人們獲取外界信息的主要來源,文本則是對事物的一種凝練描述,人通過眼睛捕獲文本獲取信息,機器設(shè)備的眼睛則是冰冷的攝像頭。 如何讓機器設(shè)備從拍照獲取的圖像中準確檢測識別文本信息逐漸為各界學(xué)者關(guān)注。

        現(xiàn)代文本檢測方法多為基于深度學(xué)習(xí)的方法,主要分為基于候選框和基于像素分割的兩種形式。本文選擇基于像素分割的深度學(xué)習(xí)模型作為文本檢測識別的主要研究方向,能夠同時滿足對自然場景文本的精確檢測,又能保證后續(xù)設(shè)備功能(如語義分析等功能)的拓展。

        1 基于像素分割的文本檢測方法

        1.1 PixelLink 算法原理

        PixelLink[1]算法訓(xùn)練FCN[2]預(yù)測兩種分類:文本與非文本像素、像素間連接關(guān)系。 數(shù)據(jù)集中的文本框內(nèi)像素整體作為文本像素,其他為非文本像素。與九宮格類似,每個像素的周圍有8 個相鄰的像素,對應(yīng)有8 種連接關(guān)系。 文本與非文本像素之間的值為負,文本與文本像素之間的值為正,非文本像素之間的值為零。 將值為正的像素與相鄰8 個像素之間的連接關(guān)系連通成一片分區(qū),每個連通區(qū)則代表分割出的文本區(qū)。 最后通過OpenCV中的minAreaRect 方法直接得到文本區(qū)的最小外接矩形邊界框。

        1.2 文本檢測網(wǎng)絡(luò)模型設(shè)計

        改進后網(wǎng)絡(luò)模型如圖1 所示,通過Mask map 連接。在原有VGG16[3]網(wǎng)絡(luò)模型每個池化層后增加圖2 中SE Block[4]以獲取每個特征通道的權(quán)重,提升有用特征并抑制低效特征通道。

        圖1 Mask map 生成

        圖2 SE Block

        與FCN 中方法相似,從Conv3、Conv4、Conv5、Fc7 層進行上采樣UpSampled 與融合⊕,使用雙線性插值作為上采樣方法,使用加和操作作為融合方法,得到預(yù)測特征圖Mask map,過程如圖1 所示。 除Pool5 步長為1,其余池化層步長都為2。其中Fc7 與Conv5 大小一致,可不經(jīng)過上采樣直接相加。

        模型中1×1 的卷積核共兩種,其中2 個1×1 的卷積核用于文本和非文本像素預(yù)測,16 個1×1 的卷積核用于像素連接關(guān)系預(yù)測。

        圖2 為插入PixelLink 方法中的SE Block,輸入特征圖與計算后輸出尺度不變。

        坐標點可以看做是序列問題[5],對Mask map 圖中生成的矩形框區(qū)域進行邊界框預(yù)測,每次預(yù)測一對坐標點,直至矩形框邊界。 有隱性約束條件,例如第4 個點必須在第2 個點的右邊,后續(xù)對特征圖Mask map 進行基于RNN 的自適應(yīng)文本框預(yù)測,采用長短期記憶LSTM[6]模型處理隊列順序問題,最終完成對文本的精確定位。圖3 為文本框預(yù)測部分模型結(jié)構(gòu)。

        圖3 文本框生成

        1.3 文本檢測網(wǎng)絡(luò)模型訓(xùn)練

        1.3.1 公開數(shù)據(jù)集重新標定

        自然場景中的文本多用旋轉(zhuǎn)矩形框和四邊形框定位,坐標通常以順時針方向標注。 本文將坐標點按照上下一對形式從左到右的順序排列,通過此方法將公開數(shù)據(jù)集的坐標數(shù)據(jù)進行重新編排。

        1.3.2 損失函數(shù)定義

        改進后算法總體損失函數(shù)定義如下:

        其中, 文本與非文本分類任務(wù)上的損失函數(shù)Lpixel和像素連接關(guān)系任務(wù)的損失函數(shù)Llink與原像素連接PixelLink 算法保持一致;邊界點回歸任務(wù)損失函數(shù)Lreg、停止/繼續(xù)標簽分類任務(wù)損失函數(shù)Lcls為框點對預(yù)測中的損失函數(shù);λ1、λ2、λ3、λ4分 別 為 文 本 與 非 文 本 分 類 任 務(wù)、像 素 連接關(guān)系任務(wù)、邊界點回歸任務(wù)、停止/繼續(xù)標簽分類任務(wù)的權(quán)重參數(shù),因像素連接關(guān)系預(yù)測任務(wù)、邊界點回歸任務(wù)、停止/繼續(xù)標簽分類任務(wù)都是在第一個文本像素任務(wù)基礎(chǔ)上進行計算的,所以像素分類任務(wù)比這3 種任務(wù)更重要,本實施例中λ1=2,λ2、λ3、λ4默認設(shè)置為1。

        1.3.3 訓(xùn)練方法與實驗環(huán)境

        與Pixellink 方法相似,使用xavier 參數(shù)[7]初始化方法,無需使用ImageNet 數(shù)據(jù)集[8]預(yù)訓(xùn)練。 算法在服務(wù)器中用兩張TeslaP4 顯卡進行訓(xùn)練,使用Anaconda+PyCharm管理,環(huán)境及依賴:tensorflow-gpu==1.14,ujson,threadpool,opencv,matplotlib,Pillow,Cython,setproctitle,shapely,Python3.6。 初始100 次迭代中保持學(xué)習(xí)速率為10-3,后續(xù)迭代中保持10-2不變,在ICDAR2015 數(shù)據(jù)集上整體迭代約30 000 次后再將模型訓(xùn)練結(jié)果作為預(yù)訓(xùn)練值,在其他數(shù)據(jù)集上進行訓(xùn)練。 其中batch_size 設(shè)定為4,處理器為Intel Xeon Sliver(2.1 GHz),機器內(nèi)存為40 GB。 每次迭代需要0.8 s 左右,總訓(xùn)練過程約為15 h。

        2 實驗結(jié)果與分析

        2.1 公開數(shù)據(jù)集測試

        本文主要評價方法為IOU 算法,表1 中R 為召回率,P 為精準率,F(xiàn) 為綜合評價,* 表示算法是基于分割的檢測方法,其他為基于候選框的檢測方法。 測試結(jié)果表明本文所改進的方法在各個數(shù)據(jù)集上均超過原有方法。在對曲向文本的識別方法中領(lǐng)先,并且在水平文本和傾斜文本檢測中能夠接近基于候選框檢測方法的檢測精度。

        2.2 自建數(shù)據(jù)集測試

        為測試文本檢測方法在實際生活應(yīng)用中的檢測效果,使用OV5648USB 攝像頭模塊累計拍攝300 張不同場景下圖像作為測試圖像,原圖分辨率大小為:2 592×1 944。如圖4 所示,為突出顯示檢測結(jié)果,截取主要定位部分,圖像中的中文部分以中文詞語作為一條文本行,英文以短語作為一條文本行。 共計2 506 條文本,其中1 964 條中文文本(包含數(shù)字),542 條英文文本。

        表1 公開數(shù)據(jù)集測試結(jié)果

        圖4 自建數(shù)據(jù)集檢測結(jié)果

        深色框為改進前方法的定位結(jié)果,淺色框為改進后的方法定位結(jié)果,右圖為對應(yīng)的像素分割后的檢測結(jié)果。 從特征圖中可以看出,本文方法對長條形的英文檢測敏感,能夠有效檢測出長條形的英文,對曲向的英文有著不錯的識別能力。 在對圖像進行檢時,平均每張檢測速度為0.89 s,即FPS=1.12,R=72.9,P=70.0,F(xiàn)=71.4。

        3 結(jié)論

        本文提出改進的文本檢測方法在數(shù)據(jù)集表現(xiàn)上均超過原有方法,接近當前領(lǐng)先的算法精度,能夠提高已有文本識別系統(tǒng)對自然場景下曲向文本與模糊文本的識別精度。 后續(xù)結(jié)合自然語言處理和語義分割任務(wù),又可以將所識別的文本內(nèi)容、文本背景內(nèi)容組合生成關(guān)于一張圖片中文本的具體描述內(nèi)容,使得使用者獲取更多的文本信息。

        猜你喜歡
        文本檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲sm另类一区二区三区| 日本不卡在线视频二区三区| 国内露脸中年夫妇交换| 狼色在线精品影视免费播放 | 国产又黄又爽视频| 精品粉嫩国产一区二区三区| 国产成人精品一区二三区孕妇| 精品无码无人网站免费视频| 五十路熟妇亲子交尾| 国产亚洲日韩AV在线播放不卡| 日韩精品一区二区亚洲观看av| 一本加勒比hezyo无码专区| 亚洲精品久久久久久久不卡四虎| 亚洲国产精品一区二区第四页| 欧美一级鲁丝片免费一区| 少妇高潮久久蜜柚av| 成年女人黄小视频| 国产综合激情在线亚洲第一页| 国产成人福利av一区二区三区| 国产精品亚洲二区在线看| 久久久久成人片免费观看蜜芽| 性导航app精品视频| 久久久久久国产福利网站| 亚洲婷婷久久播66性av| 少妇粉嫩小泬喷水视频| 丰满多毛少妇做爰视频| 一区二区三区午夜视频在线观看| 色婷婷久久精品一区二区| 国产精成人品日日拍夜夜免费 | 亚洲综合色丁香婷婷六月图片 | 亚洲国产人在线播放首页| 日韩在线视频不卡一区二区三区| 国产色av一区二区三区| 1769国产精品短视频| 国产一区二区三区4区| 一区二区三区在线观看视频精品| 日本妇女高清一区二区三区| 色一情一乱一伦麻豆| 妺妺窝人体色www在线图片 | 精品香蕉久久久爽爽 | 无码av中文一区二区三区桃花岛|