亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然場景圖像中維吾爾文檢測算法

        2022-09-28 09:17:36王德青吾守爾斯拉木許苗苗
        關(guān)鍵詞:維吾爾文維吾爾語維吾爾

        王德青,吾守爾·斯拉木,2,許苗苗

        (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2新疆大學(xué)新疆多語種信息技術(shù)重點實驗室,新疆 烏魯木齊 830046)

        0 引言

        隨著深度學(xué)習(xí)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,具有豐富文字信息的圖像在信息傳遞中占據(jù)著越來越重要的地位,這些信息覆蓋面廣、數(shù)量龐大,如何在浩瀚的數(shù)據(jù)中獲得所需要的信息是當(dāng)今科技和社會所面臨的重要挑戰(zhàn).然而在復(fù)雜的圖像信息中,語義信息主要包含在文本中,所以準(zhǔn)確且全面的檢測出圖像中所包含的文字信息是十分必要的.當(dāng)前,學(xué)術(shù)界對于自然場景中維吾爾文字的檢測及識別等方面的研究仍不成熟,加強對自然場景長維吾爾文字的識別技術(shù)研究有利于充分發(fā)揮維吾爾語信息化網(wǎng)絡(luò)監(jiān)管平臺的優(yōu)勢,有利于促進多民族文化、地域特色文化共同繁榮發(fā)展,有利于增強國家文化軟實力.維吾爾語是以阿拉伯字母為基礎(chǔ)書寫的,同時使用拉丁維文作為補充.維吾爾語共有32個字母,其中有8個元音,24個輔音,每個字母有2到8種形式,共有126種形式.[1-2]

        目前,傳統(tǒng)的光學(xué)字符識別技術(shù)主要用于文檔識別、票據(jù)識別、無人駕駛等領(lǐng)域.對于文檔分辨率較高,背景顏色單一的維吾爾文字場景可以使用傳統(tǒng)的OCR技術(shù).但是在自然場景中,由于圖像里的維吾爾文字背景復(fù)雜、對比度較低同時會受到光照、障礙物遮擋、字體豎直分布、彎曲、尺寸較小等影響,使得圖像中的維吾爾文字存在文字位置、角度變化、分辨率低等問題,同時目前缺乏相應(yīng)的維吾爾語文字數(shù)據(jù)集,給維吾爾文字檢測研究造成了很大的困難.

        為了解決維吾爾語文字存在的字體彎曲、豎直分布、背景復(fù)雜、光照不均、分辨率低等問題,近年來學(xué)者們做了很多研究工作,大致可以分為兩類:一類為傳統(tǒng)的檢測方法;另一類為基于深度學(xué)習(xí)的檢測方法.

        李凱等[3]提出的基于邊緣和基線的檢測方法,采用多個方向的邊緣和基線特征結(jié)合對文本進行定位檢測;依再提古麗等[4]使用基于角點密集度的定位方法;姜志威等[5]提出共享維吾爾語之間的字符結(jié)構(gòu)信息方法;劉順[6]針對復(fù)雜背景下的維吾爾文字的特點,通過使用一個通道增強MSERs算法實現(xiàn)檢測;Tursun等[7]通過使用Harris角點[8]與形態(tài)學(xué)方法結(jié)合產(chǎn)生候選框,然后根據(jù)啟發(fā)式規(guī)則去除非文本區(qū)域,實現(xiàn)對維吾爾文進行的檢測;Zaravi等[9]通過高頻小波系數(shù)的分布的方法來確定區(qū)域是否含有文字,然后通過投影確定檢測位置等.該類方法處理過程復(fù)雜,對于小文本的檢測效果不好,對于復(fù)雜的自然場景文本檢測效果差.

        Fang等[10]使用卷積神經(jīng)網(wǎng)絡(luò)對復(fù)雜背景的維吾爾文字進行檢測;李路晶一[11]提出改進YOLOV3[12]網(wǎng)絡(luò)的維吾爾文檢測方法;徐隱飛[13]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的維吾爾文檢測等對自然場景維吾爾語檢測都取得了一定效果;彭勇等[14]提出利用改進的單深層神經(jīng)網(wǎng)絡(luò)對輸入網(wǎng)絡(luò)的維吾爾語圖片進行特征提取,然后將提取到的維吾爾語文字的特征輸入到文本檢測組件部分,最后進行定位;姜文等[15]提出先將維吾爾語文字進行濾波器處理,然后對該字符圖像進行分塊,再次對實值Gabor能量值進行提取,再將能量值構(gòu)成能量矩陣,同時通過降維得到特征向量,最后通過鄰近算法(KNN)識別分類器對字符進行識別.

        本文首先在新疆烏魯木齊、喀什等地實際采集維吾爾文字街景、商店等圖像建立了維吾爾文數(shù)據(jù)集,然后改進了DBNet網(wǎng)絡(luò)[2]算法用于檢測自然場景中的維吾爾文字.

        1 相關(guān)算法

        1.1 DBNet網(wǎng)絡(luò)

        DBNet網(wǎng)絡(luò)是為了解決利用閾值判斷前景和背景時操作不可微無法進行端到端訓(xùn)練的問題而提出來的.對于含有彎曲文本的檢測任務(wù)來說,基于分割的算法效果比基于回歸的算法更優(yōu),但是基于分割的算法最后獲得的二值化概率圖都是通過使用固定的閾值來獲取的,并且閾值不同對性能影響較大.該算法是使用固定閾值來判斷前景和背景,但是這種操作是不可微的,使得在進行訓(xùn)練時無法將該部分送入網(wǎng)絡(luò)進行訓(xùn)練.

        1.2 ResNeSt網(wǎng)絡(luò)

        ResNeSt網(wǎng)絡(luò)[16]首先將網(wǎng)絡(luò)中的輸入圖像分成k個cardinal[16],其次將每個cardinal拆分成R個split,故一共有K*R個組,每個cardinal包含1*1和3*3的卷積,同時還有拆分注意力模塊(split-attention).在每個拆分注意力模塊中先將輸入特征經(jīng)過全局池化,然后經(jīng)過2層全連接層,以及經(jīng)過BN層和ReLU層,最后經(jīng)過Softmax層得到各個特征圖的運算結(jié)果,再經(jīng)過1*1的卷積輸出.

        2 基于改進的DBNet網(wǎng)絡(luò)

        由于一方面ResNeSt目前作為基礎(chǔ)網(wǎng)絡(luò)在圖像分割領(lǐng)域取得的效果最優(yōu),另一方面DBNet也是基于圖像分割的算法,所以本文采用ResNeSt對DBNet網(wǎng)絡(luò)的特征金字塔部分進行了改進(見圖1).

        2.1 算法思想

        本文對于每個cardinal輸入為

        (1)

        使用全局平均池化可以得到通道權(quán)重為

        (2)

        所以最后每個cardinal的輸出為

        (3)

        (3)式中aki(c)表示經(jīng)過Softmax層之后得到的權(quán)重為

        (4)

        然后利用concat操作將每個cardinal的輸出連接起來,得

        v=concat{V1,V2,V3,…,VK}.

        (5)

        最終的輸出特征圖為

        Y=V+τ(x).

        (6)

        其中τ(x)表示的是跳躍連接映射.

        2.2 算法實現(xiàn)過程

        首先圖像輸入ResNeSt50網(wǎng)絡(luò)進行特征提取,進行上采樣融合,再進行concat操作得到特征圖F,用特征圖F預(yù)測獲得概率圖P,使用F預(yù)測出閾值圖T,將P和T通過DB操作得到近似二值圖,最后獲得檢測結(jié)果.

        本文借鑒了在中英文檢測中取得較好效果的DBNet網(wǎng)絡(luò),并將DBNet網(wǎng)絡(luò)中以ResNet18[17]為基礎(chǔ)的FPN[18]架構(gòu)進行了改進,更換為ResNeSt50網(wǎng)絡(luò).如圖1所示,自底向上部分為ResNeSt50.

        圖1 基于改進的DBNet網(wǎng)絡(luò)結(jié)構(gòu)

        從輸入圖像獲取特征圖的網(wǎng)絡(luò)分為三部分,自底向上、自上向下和橫向連接.其中在自底向上部分,輸入圖像首先經(jīng)過3個3×3的卷積層,然后進行步長為2的最大池化操作,再次進入r個radix-group,進入每個group里面的k個cardinal,經(jīng)過1×1的卷積和3×3的卷積,并將k個cardinal進行concatenate,再進行相加操作,進行全局平均池化,通過2層全連接層,再通過BN層和ReLU層,并分成c個分支,最后通過r-Softmax層,得到輸入特征圖c2,c3,c4,c5分別為原圖的1/2,1/4,1/8,1/16,1/32.自上向下部分首先將c5經(jīng)過上采樣處理,然后經(jīng)過3×3的卷積操作消除因為上采樣產(chǎn)生的混疊效應(yīng),得到輸出特征M5,c2,c3,c4,c5上采樣后與經(jīng)過1×1降維處理過的M4相加,再經(jīng)3×3卷積處理,得到M4.其余特征的產(chǎn)生過程與上述類似.在橫向連接部分,先通過1×1的卷積進行降維,然后進行連接.由此獲得語義信息和位置都非常準(zhǔn)確的特征圖送入DBNet網(wǎng)絡(luò)中進行預(yù)測獲得概率圖P和閾值圖T,最后經(jīng)過可微二值化(DB)處理得到最終的圖像檢測結(jié)果.

        2.3 特征提取的網(wǎng)絡(luò)具體組成

        表1為ResNeSt50的具體結(jié)構(gòu).由表1可以看到該網(wǎng)絡(luò)借鑒了sknet[19]和ResNeXt[20]的思想,將每個輸入分為多個cardinal,每個cardinal里面又分為多個group,然后每個group里面又分為1*1和3*3的卷積,借鑒sknet里面的split attention思想,將特征輸入split attention模塊,在該模塊首先將各個輸入的group做融合,進行全局池化處理,并經(jīng)過全連接層,通過rSoftMax層進行concat連接操作獲得對應(yīng)圖片的特征圖.

        表1 ResNeSt50網(wǎng)絡(luò)具體結(jié)構(gòu)

        3 實驗與分析

        使用的是在英文檢測領(lǐng)域取得較好效果基于圖像分割的算法,并進行了改進,數(shù)據(jù)集格式為icdar2015格式.

        實驗平臺是Ubuntu 18.04.3 LTS,GPU為GeForce RTX 1080 Ti,使用的是PyTorch框架,torch版本為1.6.0.改進的DBNet訓(xùn)練中的參數(shù):實驗動量為0.9,初始學(xué)習(xí)率為0.006,權(quán)重參數(shù)decay為0.000 1,優(yōu)化器選擇的是隨機梯度下降.

        3.1 數(shù)據(jù)集與評價標(biāo)準(zhǔn)

        在深度學(xué)習(xí)領(lǐng)域,數(shù)據(jù)集是進行研究的基礎(chǔ),由于目前學(xué)術(shù)界缺乏公開的維吾爾文字圖像數(shù)據(jù)集,所以我們采集得來的圖文數(shù)據(jù)集中包含街道、商店、宣傳欄、博物館物品、火車站、公交站牌、天橋等場景的圖像.在采集過程中因為拍攝的角度、距離、時間等存在差異,所以圖像中的文本存在與中文英文混合,尺寸、字體、色澤、大小、位置等不一致,為了更好地進行標(biāo)注和訓(xùn)練,本文的實驗數(shù)據(jù)集圖像統(tǒng)一轉(zhuǎn)換尺寸大小為4 032*3 024像素的圖像.并用標(biāo)注精靈助手進行了標(biāo)注,每張圖像的維吾爾文本的位置信息和內(nèi)容信息都被標(biāo)注出來,可以進行維吾爾文字檢測和識別的訓(xùn)練及評估.本文數(shù)據(jù)集為3 170張,其中實驗所用隨機選取訓(xùn)練樣本為90%,隨機選取測試樣本為10%.

        圖2 部分數(shù)據(jù)集圖像示例

        實驗采用目標(biāo)檢測領(lǐng)域常用的準(zhǔn)確率(P)、召回率(R)、F值為評價標(biāo)準(zhǔn).為了更好地進行說明,現(xiàn)做如下定義:

        True positives:數(shù)據(jù)為正例,預(yù)測結(jié)果為正例;True Negative:數(shù)據(jù)為負例,預(yù)測結(jié)果為負例;False Positive:數(shù)據(jù)為負例,預(yù)測結(jié)果為正例;False Negative:數(shù)據(jù)為正例,預(yù)測結(jié)果為負例.

        所以計算公式為

        (7)

        (8)

        (9)

        3.2 結(jié)果與分析

        對本文的算法實驗進行分析對比,選取CTPN[21]網(wǎng)絡(luò)、R2CNN[22]網(wǎng)絡(luò)、DBNet網(wǎng)絡(luò)、改進的DBNet網(wǎng)絡(luò)4個算法的不同模型的訓(xùn)練及測試進行對比,如表2所示.表2中ctpn-ResNet18、ctpn-ResNet50分別表示ctpn算法中主干網(wǎng)絡(luò)為ResNet18和ResNet50.DBNet_td500_ResNet50、DBNet_synthtext_ResNet50、DBNet_ic15_ResNet50、DBNet_totaltext_ResNet50分別表示DBNet算法的主干網(wǎng)絡(luò)為td500_ResNet50、synthtext_ResNet50、ic15_ResNet50和totaltext_ResNet50.IOU表示的是交并比,即候選框與原始標(biāo)注框的重疊率,是目標(biāo)檢測中常用的評價標(biāo)準(zhǔn).

        由表2可知,在同樣的數(shù)據(jù)和訓(xùn)練平臺條件下,改進的網(wǎng)絡(luò)效果最好,P為76.72%,R為59.45%,F(xiàn)為67.0%,ctpn-ResNet50的P次之,P為73.91%;DBNet_totaltext_ResNet50的R次之,R為51.04%,DBNet-td500_ResNet50的F次之,F(xiàn)為59.57%.對于DBNet算法而言,當(dāng)其主干網(wǎng)絡(luò)為td500_ResNet50時在本文的數(shù)據(jù)集上的檢測效果最好,P為73.56%;對于CTPN網(wǎng)絡(luò)來說,當(dāng)其主干網(wǎng)絡(luò)為ResNet50時的效果優(yōu)于ResNet18,其值為73.91%;另外ctpn-ResNet50網(wǎng)絡(luò)的性能優(yōu)于DBNet_td500_ResNet50,優(yōu)于R2CNN網(wǎng)絡(luò);R2CNN網(wǎng)絡(luò)的性能優(yōu)于ctpn-ResNet18;基于改進的DBNet網(wǎng)絡(luò)效果性能優(yōu)于以上所有網(wǎng)絡(luò).而且IOU為0.5的時候評估結(jié)果優(yōu)于IOU為0.6的結(jié)果.綜合以上實驗結(jié)果及對比性能,本文提出的算法對維吾爾文檢測具有很好的效果.

        表2 各算法在本文數(shù)據(jù)集的測試性能

        基于改進的DBNet算法在實現(xiàn)檢測的過程中充分考慮了輸入圖像的高層語義信息和準(zhǔn)確的位置信息,故該網(wǎng)絡(luò)對于小文本檢測效果很好,圖3是對小文本的檢測結(jié)果,其中左側(cè)的黑白圖像經(jīng)過特征提取之后的效果圖,右側(cè)為檢測輸出的效果圖.由圖3可知,基于改進的DBNet網(wǎng)絡(luò)對于光照不均、傾斜、文本較小等維吾爾文的檢測效果優(yōu)異.

        圖3 基于改進的DBNet網(wǎng)絡(luò)對于小文本的檢測結(jié)果

        CTPN、R2CNN、基于改進的DBNet網(wǎng)絡(luò)的檢測結(jié)果如圖4所示.由圖4可知CTPN網(wǎng)絡(luò)檢測效果圖為綠色框所示,能夠檢測到圖像中的一部分維吾爾文,R2CNN網(wǎng)絡(luò)沒有檢測到維吾爾文,基于改進的DBNet網(wǎng)絡(luò)檢測結(jié)果為圖中紅色框所示,該網(wǎng)絡(luò)優(yōu)于加入了拆分注意力機制與特征金字塔網(wǎng)絡(luò),能夠?qū)z測的目標(biāo)進行集中檢測,也能夠?qū)D像中維吾爾文的水平文本、傾斜文本、彎曲文本、復(fù)雜背景文本等實現(xiàn)檢測且都具有優(yōu)異的檢測效果.

        圖4 CTPN、R2CNN、基于改進的DBNet網(wǎng)絡(luò)檢測結(jié)果

        綜合表2的實驗結(jié)果及圖3和4的檢測效果圖可知:基于改進的DBNet算法具有準(zhǔn)確檢測自然場景中的維吾爾語小文本、傾斜彎曲文本、水平文本、復(fù)雜背景文本,檢測準(zhǔn)確率高,資源消耗較小等多種優(yōu)點.

        4 結(jié)束語

        本文提出了改進的DBNet網(wǎng)絡(luò)用于維吾爾文字檢測.實驗結(jié)果表明:該算法有效地提升了維吾爾文本檢測的感受野,同時使得特征提取的各個通道之間都有較好的聯(lián)系,應(yīng)用基于特征金字塔的ResNeSt網(wǎng)絡(luò)和較小的平均池化方法能夠更好地提取較為完整豐富的圖像文本信息,有效地提高了維吾爾文本檢測的性能.以后的工作重點將在以下2個方面進行研究:(1)使用更加簡便的網(wǎng)絡(luò)提高檢測性能,減少訓(xùn)練時間;(2)對網(wǎng)絡(luò)引入識別算法進行訓(xùn)練,實現(xiàn)檢測識別一體化.

        猜你喜歡
        維吾爾文維吾爾語維吾爾
        四、準(zhǔn)噶爾對天山南北麓維吾爾人的統(tǒng)治
        西部少數(shù)民族語言對阿拉伯文獻的譯介及其特點
        統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
        維吾爾醫(yī)治療卵巢囊腫40例
        維吾爾醫(yī)治療慢性盆腔炎30例臨床總結(jié)
        維吾爾語話題的韻律表現(xiàn)
        維吾爾語詞重音的形式判斷
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        維吾爾文研究與Android維文閱讀器的實現(xiàn)?
        察合臺維吾爾文古籍的主要特點
        欧美变态另类刺激| 精品国产一区二区三区毛片| 国产一区二区不卡av| 麻豆国产一区二区三区四区| 少妇饥渴偷公乱a级无码| 一级片久久| 免费的黄网站精品久久| 日本a级特级黄色免费| 国产人与zoxxxx另类| 成年人黄视频大全| 蜜桃伦理一区二区三区| 久久精品无码专区东京热| av福利资源在线观看| 日本人妻免费在线播放| 亚洲国色天香卡2卡3卡4| 亚洲美女啪啪| 日韩精品高清不卡一区二区三区| 国产在线观看自拍av| 亚洲色爱免费观看视频| 亚洲综合AV在线在线播放| 久久深夜中文字幕高清中文| 手机在线亚洲精品网站| 精品无码日韩一区二区三区不卡 | 国产精品jizz观看| 国产激情视频免费观看| 成人国产精品一区二区八戒网| 成人欧美一区二区三区1314| 人妻久久999精品1024| 久久精品国产亚洲不卡| 吃奶摸下高潮60分钟免费视频| 狼色精品人妻在线视频| 久久精品国产亚洲AV高清y w| 久久这里都是精品99| 亚洲春色在线视频| 精品 无码 国产观看| 日本熟妇裸体视频在线| 久久久久九九精品影院| 日本少妇人妻xxxxx18| 精品少妇后入一区二区三区| 国产精品一区二区三区在线蜜桃 | 99热久久这里只精品国产www|