亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)Mask R-CNN的越南場(chǎng)景文字檢測(cè)

        2022-01-05 02:31:44俸亞特文益民
        計(jì)算機(jī)應(yīng)用 2021年12期
        關(guān)鍵詞:候選框越南文字

        俸亞特,文益民

        (1.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西桂林 541004;2.廣西圖像圖形與智能處理重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)),廣西桂林 541004)

        (?通信作者電子郵箱ymwen2004@aliyun.com)

        0 引言

        越南文字是越南官方使用文字,目前約有9 300 萬人使用。越南場(chǎng)景文字檢測(cè)就是從復(fù)雜場(chǎng)景中定位越南文字區(qū)域,是進(jìn)行越南場(chǎng)景文字識(shí)別的前提。隨著中國(guó)-東盟自由貿(mào)易區(qū)的發(fā)展,有相當(dāng)多的領(lǐng)域需要利用圖像中的越南文字信息。實(shí)現(xiàn)從真實(shí)場(chǎng)景中檢測(cè)越南文字,對(duì)推動(dòng)中國(guó)與東盟國(guó)家的人文交流具有重要意義。

        世界上的語言,從有無聲調(diào)的角度看,大概可分為兩大類:聲調(diào)語言與非聲調(diào)語言[1]。非聲調(diào)語言多為印歐語系的語言,如英語、法語、德語等,聲調(diào)語言多為漢藏語系的語言。聲調(diào)語言的文字書寫有兩種形式:第一種為表意文字,如漢字、老彝文字,文字使用不同的象形文字書寫表示不同的意義;第二種為表音文字,如越南文、泰文、寮文,使用不同字母與不同聲調(diào)符號(hào)的組合表示不同的意義。

        由于當(dāng)前的場(chǎng)景文字檢測(cè)算法[2-4]大多都關(guān)注于如英文、法文、中文等非聲調(diào)語言或是聲調(diào)語言文字中表意文字的檢測(cè)。聲調(diào)語言表意文字的字形中不會(huì)出現(xiàn)聲調(diào)符號(hào),非聲調(diào)語言文字的字形中也幾乎不會(huì)出現(xiàn)聲調(diào)符號(hào),即使出現(xiàn)聲調(diào)符號(hào)也僅表示語氣變換而不會(huì)影響到其語義,所以是否檢測(cè)到聲調(diào)符號(hào)并不會(huì)影響后續(xù)對(duì)文字語義的識(shí)別。這導(dǎo)致鮮有文字檢測(cè)的研究工作關(guān)注到聲調(diào)語言表音文字中的聲調(diào)符號(hào)。作為聲調(diào)語言表音文字中的重要組成部分,聲調(diào)符號(hào)往往被現(xiàn)有場(chǎng)景文字檢測(cè)算法忽視。與其他語言文字相比,表音文字在字形上最主要的區(qū)別在于其使用聲調(diào)符號(hào)區(qū)分文字含義。作為聲調(diào)語言中表音文字的代表,越南文字借用拉丁字母,在字母上下區(qū)域增加了6 種不同的聲調(diào)符號(hào),相同字母的主體和不同的聲調(diào)符號(hào)組合會(huì)導(dǎo)致語義信息的改變,如:“M?”和“Mà”就分別表示著“代碼”和“但是”兩種意思。所以實(shí)現(xiàn)越南場(chǎng)景文字檢測(cè)的關(guān)鍵在于設(shè)計(jì)的算法是否可以檢測(cè)到文字的聲調(diào)區(qū)域。

        目前,依賴于大量人工標(biāo)注的訓(xùn)練樣本,基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)算法可以很好地實(shí)現(xiàn)對(duì)各種復(fù)雜場(chǎng)景中文字的檢測(cè);但是,人工標(biāo)注的越南場(chǎng)景文字?jǐn)?shù)據(jù)非常稀缺,所以在標(biāo)注樣本少的情況下完成深度學(xué)習(xí)模型的訓(xùn)練以實(shí)現(xiàn)如越南文字等小語種文字的檢測(cè)是件不容易的事情。通過對(duì)越南場(chǎng)景文字檢測(cè)的研究,可以促進(jìn)如泰文、寮文,緬文等其他聲調(diào)語言表音文字檢測(cè)的研究,同時(shí)對(duì)其他小語種場(chǎng)景文字檢測(cè)識(shí)別的研究也具有很好的借鑒意義。

        隨著目標(biāo)檢測(cè)技術(shù)的發(fā)展,已經(jīng)有越來越多的場(chǎng)景文本檢測(cè)采用目標(biāo)檢測(cè)技術(shù),如單點(diǎn)多盒探測(cè)器(Single Shot multibox Detector,SSD)[5]、YOLO(You Only Look Once)[6]、Faster-RCNN[7]等。TextBoxes[8]提供了一種簡(jiǎn)單直接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過優(yōu)化SSD 目標(biāo)檢測(cè)器,減少了場(chǎng)景文本檢測(cè)步驟;TextBoxes++[9]通過增加SSD的輸出和優(yōu)化卷積核大小,使算法可以檢測(cè)任意方向的文本區(qū)域;Liao 等[10]提出了一種基于定向響應(yīng)網(wǎng)絡(luò)[11]的場(chǎng)景文本檢測(cè)算法,該算法在SSD 基礎(chǔ)上進(jìn)行了改進(jìn),利用輸出的四點(diǎn)坐標(biāo)偏移量預(yù)測(cè)檢測(cè)傾斜文本;Zhou 等[12]基于兩階段文本檢測(cè)方法消除了中間過程的冗余性,減少了檢測(cè)時(shí)間,檢測(cè)到的形狀可以是任意形狀的四邊形,也可以是旋轉(zhuǎn)的矩形;Shi 等[13]基于SSD 算法通過連接小規(guī)模候選框,通過后處理方法連接檢測(cè)到的文字區(qū)域。然而,上述方法并不適用于越南文字。首先,由于聲調(diào)符號(hào)的存在,導(dǎo)致越南語文本的形狀不規(guī)則,目標(biāo)檢測(cè)算法用四邊形作為網(wǎng)絡(luò)輸出的方法很難準(zhǔn)確標(biāo)注越南語文本區(qū)域。這是因?yàn)椋?)如果用四邊形來標(biāo)注越南語文本區(qū)域的形狀,會(huì)導(dǎo)致如圖1(a)所示的情況,即用橢圓標(biāo)注的多余區(qū)域會(huì)被包含在檢測(cè)框中,從而導(dǎo)致文本識(shí)別的惡化;2)使用四邊形表示的檢測(cè)框有可能忽略越南字符的重音符號(hào)或音調(diào)符號(hào),如圖1(b)所示。

        圖1 使用四邊形檢測(cè)框標(biāo)注越南文本區(qū)域時(shí)存在的問題Fig.1 Problems in labelling Vietnamese texts areas with quadrangular bonding boxes

        近年來,隨著圖像分割算法的發(fā)展,場(chǎng)景文字檢測(cè)的研究重點(diǎn)已從水平場(chǎng)景文本轉(zhuǎn)向更具挑戰(zhàn)性的曲面或任意形狀場(chǎng)景文本。Wang 等[14]對(duì)文本行不同核大小做預(yù)測(cè),然后采用漸進(jìn)式擴(kuò)展算法擴(kuò)展小尺度內(nèi)核到最終的文本行大小,這使算法可以有效區(qū)分相鄰的文本;Liu 等[15]基于Mask R-CNN[16]分割的思想,通過平面聚類得到最終的檢測(cè)框;Long 等[17]將文本表示為圓形的組件的集合,因此可以檢測(cè)任何形狀的文本實(shí)例,包括水平文本實(shí)例、傾斜文本實(shí)例和彎曲文本實(shí)例;Lyu 等[18]在Mask R-CNN 的改進(jìn)基礎(chǔ)上,提供了檢測(cè)各種形狀文本的框架,可以識(shí)別10個(gè)數(shù)字和26個(gè)字母;Liu等[19]使用貝塞爾曲線表示文本邊界,自適應(yīng)地?cái)M合任意形狀的文本,但是越南文字的文本邊界由于聲調(diào)符號(hào)的存在呈現(xiàn)鋸齒狀,簡(jiǎn)單的二次、三次曲線不能很好地?cái)M合文字邊界。理論上,使用實(shí)例分割的方法可以有效地檢測(cè)越南文字,但是這需依賴于大量人工標(biāo)記的分割數(shù)據(jù),而獲取這些像素級(jí)標(biāo)注的樣本會(huì)面臨高額的成本問題。

        Mask R-CNN是一種典型的實(shí)例分割算法[16],將檢測(cè)過程分為目標(biāo)檢測(cè)和語義分割兩個(gè)部分。目標(biāo)檢測(cè)可以視為一個(gè)Faster R-CNN[20],生成包括一個(gè)目標(biāo)區(qū)域的候選框,語義分割部分可視為利用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[21]在候選框內(nèi)的語義分割。在COCO、VOC 等常規(guī)實(shí)例分割數(shù)據(jù)集和ICDAR 2013、ICDAR 2015、MLT 等文字檢測(cè)數(shù)據(jù)集上,Mask R-CNN 都被證明有較優(yōu)的效果,但它不能被直接應(yīng)用于越南場(chǎng)景文字的檢測(cè),主要有如下原因:

        1)如果模型使用MLT 中的拉丁文字?jǐn)?shù)據(jù)集訓(xùn)練,模型的輸出會(huì)出現(xiàn)如圖2 所示的情況,越南文字的聲調(diào)符號(hào)部分往往會(huì)被忽視;

        圖2 使用MLT中拉丁文字?jǐn)?shù)據(jù)訓(xùn)練的模型對(duì)部分越南文字的檢測(cè)結(jié)果Fig.2 Detection results of some Vietnamese texts using the model trained by Latin data in MLT dataset

        2)因?yàn)樵侥蠄?chǎng)景文字?jǐn)?shù)據(jù)缺乏,Mask R-CNN 的網(wǎng)絡(luò)結(jié)構(gòu)又十分復(fù)雜,使用少量手工標(biāo)記的越南場(chǎng)景文字?jǐn)?shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)會(huì)導(dǎo)致過擬合現(xiàn)象的出現(xiàn);

        3)用于常規(guī)目標(biāo)檢測(cè)的非極大值抑制算法不能過濾大量由于文本特征的相似性和連續(xù)性導(dǎo)致的冗余候選框。

        針對(duì)Mask R-CNN對(duì)檢測(cè)越南場(chǎng)景文字的不足,本文提出了一個(gè)改進(jìn)的Mask R-CNN算法,并設(shè)計(jì)了一個(gè)模型聯(lián)合訓(xùn)練方法靈活地使用不同規(guī)模、不同標(biāo)注類型的數(shù)據(jù),最大化利用現(xiàn)有數(shù)據(jù)的信息。本文主要工作如下:

        1)收集了用于越南場(chǎng)景文字檢測(cè)的數(shù)據(jù)集,包括200 幅圖像,每幅圖像都使用像素級(jí)標(biāo)注;

        2)改進(jìn)了區(qū)域分割模塊網(wǎng)絡(luò)的特征表示,僅使用P2特征層來分割文本區(qū)域,且將文本區(qū)域的掩碼矩陣大小從14×14調(diào)整為14×28,以更好地適應(yīng)文字區(qū)域的橫縱比,使分割模型對(duì)文字邊界的判斷更加準(zhǔn)確;

        3)考慮到場(chǎng)景文字特征的連續(xù)性,設(shè)計(jì)了一個(gè)文本區(qū)域過濾模塊,可以有效地消除由于回歸框算法對(duì)連續(xù)文本區(qū)域判斷錯(cuò)誤而產(chǎn)生的大量冗余檢測(cè)框;

        4)為了保持網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)集規(guī)模的一致性,本文提出了模型聯(lián)合訓(xùn)練的方法,使算法對(duì)越南文字的檢測(cè)具有高召回率的同時(shí)也保證了算法對(duì)文本區(qū)域的準(zhǔn)確檢測(cè)。

        1 越南場(chǎng)景文字檢測(cè)算法

        本文提出的越南場(chǎng)景文字檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。圖3中,箭頭表示數(shù)據(jù)的流向,5個(gè)實(shí)線框分別表示網(wǎng)絡(luò)的5個(gè)主要組成部分:包括提取全局圖像特征的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[22];包含生成文本區(qū)域候選框的區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)[20];使用候選框坐標(biāo)和對(duì)應(yīng)圖像特征生成準(zhǔn)確候選框坐標(biāo)的候選框坐標(biāo)回歸模塊(box branch)[20];使用候選框坐標(biāo)信息以及圖像特征完成文本分割的區(qū)域分割模塊(mask branch)[16];對(duì)重復(fù)檢測(cè)的文本區(qū)域進(jìn)行剔除的文本區(qū)域過濾模塊(text region filtering branch)。

        圖3 總體網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Overall network structure

        1.1 改進(jìn)的區(qū)域分割模塊網(wǎng)絡(luò)特征選取

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[23]作為一種提取圖像特征最有效的方法已被大量研究[24-26]證明。對(duì)于一個(gè)多層CNN 結(jié)構(gòu)而言,不同網(wǎng)絡(luò)層的特征圖輸出會(huì)提取到不同的圖像特征:淺層網(wǎng)絡(luò)特征圖由于感受野小,主要提取的是圖像細(xì)節(jié)信息和較小區(qū)域的特征;隨著網(wǎng)絡(luò)的加深,高層特征圖由于擁有更大的感受野,主要提取的是圖像整體信息和較大區(qū)域的特征。因此不同的特征層適用于不同的任務(wù),正確地使用特征可以有效提高網(wǎng)絡(luò)模型的性能。本文使用特征金字塔網(wǎng)絡(luò)輸出的特征圖作為模型的特征來源。特征金字塔網(wǎng)絡(luò)對(duì)不同網(wǎng)絡(luò)層的特征進(jìn)行了融合處理,可以為模型提取更多有效的信息。特征金字塔網(wǎng)絡(luò)使用ResNet101[27]作為網(wǎng)絡(luò)主干,對(duì)ResNet101 中的5 個(gè)不同的大小的特征圖C1、C2、C3、C4、C5 進(jìn)行上采樣融合后輸出5 個(gè)不同尺度的特征圖P2、P3、P4、P5、P6。

        Mask R-CNN 的區(qū)域分割模塊根據(jù)輸入的候選框大小,自適應(yīng)地選擇特征金字塔網(wǎng)絡(luò)的特征圖作為Roi-align[16]進(jìn)行歸一化的特征來源,越大的候選框會(huì)選擇越高層的特征圖。然而高層的特征圖由于分辨率低、細(xì)節(jié)特征少,不利于區(qū)域分割模塊分割有聲調(diào)符號(hào)的越南文字。為了使區(qū)域分割模塊輸出的二值掩碼更加準(zhǔn)確地表示聲調(diào)符號(hào)區(qū)域,本文對(duì)Mask RCNN模型的特征選取進(jìn)行以下了改進(jìn):

        1)使用特征金字塔網(wǎng)絡(luò)中的低層高分辨率特征圖(P2)作為Roi-align進(jìn)行歸一化的特征來源。因?yàn)榕c其他的特征圖相比,P2 特征圖擁有局部細(xì)節(jié)特征的同時(shí)集成了P3~P5 特征圖的高層語義信息,更利于分割文字,而且P2 特征圖的高分辨率更高,更適合于Roi-align進(jìn)行下采樣。

        2)本文的區(qū)域分割模塊與Mask R-CNN 使用的區(qū)域分割模塊不同,本文候選框坐標(biāo)回歸模塊生成的候選框經(jīng)過Roialign 后,會(huì)被規(guī)范化到14×28×256 大小的特征塊上以適應(yīng)文本較大的橫縱比,而不是Mask R-CNN 所使用的14×14×256大小。特征塊經(jīng)過四個(gè)卷積層和一個(gè)反卷積上采樣層后,得到大小為28×56的二值掩碼矩陣來表示真實(shí)文本區(qū)域。

        改進(jìn)后的區(qū)域分割模塊可以生成更好的二值掩碼矩陣用于文本區(qū)域分割。

        1.2 文本區(qū)域過濾模塊

        在常規(guī)的目標(biāo)檢測(cè)中,同一目標(biāo)在一個(gè)位置上會(huì)出現(xiàn)大量重疊的候選框。非極大值抑制(Non-Maximum Suppression,NMS)算法可以有效地消除冗余候選框,但是非極大值抑制算法是基于候選框交并比(Intersection over Union,IoU)進(jìn)行設(shè)計(jì),IoU為兩個(gè)候選框的交集面積除以它們的并集面積。當(dāng)兩個(gè)候選框的IoU 只有大于某一個(gè)特定閾值(通常設(shè)為0.5)時(shí)才會(huì)剔除其中的一個(gè)候選框,這導(dǎo)致部分文本重復(fù)檢測(cè)的文字區(qū)域無法完全濾除,如圖4(a)中的5 號(hào)框?qū)⑺膫€(gè)單詞檢測(cè)為一個(gè)單詞區(qū)域,圖4(c)中1 號(hào)框?qū)卧~的部分區(qū)域視為一個(gè)單詞區(qū)域檢測(cè),這些重復(fù)檢測(cè)的候選框與任意候選框的IoU小于0.5,所以無法被非極大值抑制算法剔除。造成文本區(qū)域重復(fù)檢測(cè)的原因是場(chǎng)景文本檢測(cè)屬于單一目標(biāo)檢測(cè),且相鄰文本區(qū)域的特征類似,這些區(qū)域往往被檢測(cè)為一個(gè)完整的、獨(dú)立的文本區(qū)域。

        圖4 文本區(qū)域過濾模塊效果Fig.4 Effect of Text region filtering branch

        針對(duì)圖4(a)、(c)這兩種現(xiàn)象,本文提出了兩個(gè)針對(duì)文本區(qū)域的過濾算法,兩個(gè)過濾算法串行執(zhí)行以過濾錯(cuò)誤檢測(cè)的區(qū)域:1)如果一個(gè)檢測(cè)框中包含兩個(gè)以上的檢測(cè)框子集,則將檢測(cè)框視為重復(fù)的檢測(cè)區(qū)域并剔除該檢測(cè)區(qū)域;2)如果一個(gè)檢測(cè)框是另一個(gè)檢測(cè)框的單一子集,則剔除單一子集檢測(cè)框。

        假設(shè)存在兩個(gè)檢測(cè)框分別為A和B,則判斷A檢測(cè)框是否為B 檢測(cè)框子集的條件是A 與B 檢測(cè)框的相交區(qū)域面積占A檢測(cè)框面積的80%以上,且A 檢測(cè)框的高度大于B 檢測(cè)框高度的50%。圖4(a)、(c)這兩種重復(fù)檢測(cè)的情況經(jīng)過文本區(qū)域過濾方法處理后的結(jié)果如圖4(b)、(d)所示。本文的文本區(qū)域過濾模塊會(huì)在檢測(cè)到的有限個(gè)檢測(cè)框內(nèi)進(jìn)行迭代過濾,每個(gè)檢測(cè)框需要和剩下的檢測(cè)框進(jìn)行比較,假設(shè)檢測(cè)框數(shù)量為N,則時(shí)間復(fù)雜度約為O(N2)。

        1.3 訓(xùn)練方法

        本文提出的實(shí)例分割算法需要使用像素級(jí)標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練,但獲取大量像素級(jí)標(biāo)注的圖片需要高額的成本,只利用少量像素級(jí)標(biāo)注的越南場(chǎng)景文字圖片訓(xùn)練模型則無法達(dá)到較好的泛化能力。隨著場(chǎng)景文字檢測(cè)研究的發(fā)展,公開了大量四邊形標(biāo)注的拉丁場(chǎng)景文字檢測(cè)數(shù)據(jù),如MLT2017[28]、MLT2019[29]等,所以如何有效利用這些數(shù)據(jù)是解決越南場(chǎng)景文字檢測(cè)問題的關(guān)鍵。本文提出了一種多種數(shù)據(jù)對(duì)模型聯(lián)合訓(xùn)練的方法,能有效解決缺少標(biāo)注數(shù)據(jù)導(dǎo)致的模型泛化能力弱的問題。

        本文提出的模型聯(lián)合訓(xùn)練方法的訓(xùn)練過程主要為兩個(gè)部分:第一個(gè)部分為特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)的訓(xùn)練,使模型能夠擁有提取圖像特征和準(zhǔn)確生成文本區(qū)域候選框的能力。越南文字與拉丁文字有著相似的特征,可以看作是拉丁文字與聲調(diào)符號(hào)的組合,其主體部分可視為拉丁文字。使用拉丁文字?jǐn)?shù)據(jù)對(duì)模型的特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練,可以使特征金字塔網(wǎng)絡(luò)提取文字特征的能力增強(qiáng),同時(shí)使區(qū)域生成網(wǎng)絡(luò)更準(zhǔn)確地生成候選框。訓(xùn)練使用MLT2017和MLT2019中的拉丁文字?jǐn)?shù)據(jù),共包含7 200張四邊形標(biāo)注圖像。盡管MLT 中的數(shù)據(jù)使用四邊形標(biāo)注,但是四邊形標(biāo)注不影響區(qū)域生成網(wǎng)絡(luò)的真實(shí)值的獲得。通過計(jì)算區(qū)域生成網(wǎng)絡(luò)輸出的預(yù)測(cè)與真實(shí)值之間差值,使用反向傳播算法對(duì)特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)的參數(shù)進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練參數(shù)的設(shè)置將在實(shí)驗(yàn)部分進(jìn)行詳細(xì)說明。特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)的參數(shù)大小約為240 MB,約占總模型參數(shù)的94%,適用大規(guī)模數(shù)據(jù)訓(xùn)練以增強(qiáng)模型的泛化能力。

        第二部分為候選框坐標(biāo)回歸模塊和區(qū)域分割模塊的訓(xùn)練,使模型擁有檢測(cè)并分割帶聲調(diào)符號(hào)越南文字的能力。由于區(qū)域分割模塊需要使用像素級(jí)標(biāo)注的數(shù)據(jù)作為真實(shí)值進(jìn)行訓(xùn)練,本文使用像素級(jí)標(biāo)注方法對(duì)200 張?jiān)侥蠄?chǎng)景文字圖像進(jìn)行了標(biāo)注。盡管越南場(chǎng)景文字?jǐn)?shù)據(jù)量與MLT 相比要少,但由于區(qū)域分割模塊和候選框坐標(biāo)回歸模塊具有較淺的網(wǎng)絡(luò)結(jié)構(gòu)且參數(shù)量較少,可以使用少量像素級(jí)標(biāo)注的越南場(chǎng)景文字?jǐn)?shù)據(jù)參數(shù)進(jìn)行訓(xùn)練,同樣可以得到良好的泛化能力。在第二部分的訓(xùn)練中,將第一部分訓(xùn)練好的模型參數(shù)進(jìn)行凍結(jié),只使用越南場(chǎng)景文字?jǐn)?shù)據(jù)訓(xùn)練,模型通過越南場(chǎng)景文字?jǐn)?shù)據(jù)集訓(xùn)練,候選框坐標(biāo)回歸模塊可以準(zhǔn)確地生成包括聲調(diào)符號(hào)的越南文字候選框,訓(xùn)練參數(shù)的設(shè)置同樣在第二章進(jìn)行說明。通過第二部分的訓(xùn)練,可以使這兩個(gè)模塊分別擁有獲取準(zhǔn)確的候選框坐標(biāo)信息并可以在候選框內(nèi)準(zhǔn)確分割文字區(qū)域的能力,從而使網(wǎng)絡(luò)可以檢測(cè)到越南文字的聲調(diào)符號(hào)區(qū)域并進(jìn)行逐像素的分割。

        在推理部分,將之前訓(xùn)練的兩個(gè)模塊結(jié)合,使模型具有較好的泛化能力。本文訓(xùn)練雖然采用了模型聯(lián)合訓(xùn)練方法,在網(wǎng)絡(luò)模型訓(xùn)練階段的時(shí)間復(fù)雜度會(huì)提升,但不會(huì)影響網(wǎng)絡(luò)模型在推理部分的時(shí)間復(fù)雜度。

        1.4 評(píng)估方法

        為了評(píng)估本文提出算法的性能,使用檢測(cè)到的文本區(qū)域與真實(shí)文本區(qū)域的IoU 數(shù)值是否大于某一設(shè)定的閾值作為判讀文本區(qū)域是否被正確檢測(cè)的指標(biāo)。IoU 計(jì)算方法如式(1),其中:X是檢測(cè)到的文本區(qū)域掩碼矩陣,Y是對(duì)應(yīng)的真實(shí)文本區(qū)域掩碼矩陣,areas()表示區(qū)域大小。本文使用準(zhǔn)確率(P)、召回率(R)和F 值(F1)作為檢測(cè)算法的性能評(píng)估指標(biāo)。準(zhǔn)確率為檢測(cè)正確的樣本總數(shù)與檢測(cè)到的樣本總數(shù)的比值,召回率的計(jì)算為檢測(cè)正確的樣本總數(shù)與真實(shí)樣本總數(shù)的比值。最終評(píng)價(jià)的指標(biāo)使用F 值,它是準(zhǔn)確率和召回率的調(diào)和平均值,計(jì)算如式(2)所示。

        本文將IoU閾值設(shè)置為0.7以適應(yīng)不規(guī)則文本實(shí)例,這意味著檢測(cè)到的文本區(qū)域與真實(shí)區(qū)域的IoU 需要大于70%才被視為正確檢測(cè)。為了計(jì)算兩個(gè)任意形狀文本區(qū)域之間的IoU,本文使用區(qū)域分割模塊得到的掩碼矩陣與對(duì)應(yīng)真實(shí)區(qū)域掩碼矩陣的內(nèi)積作為兩個(gè)區(qū)域交集的計(jì)算方法。假設(shè)掩碼矩陣X與掩碼矩陣Y分別為:

        其中掩碼矩陣中文本區(qū)域的元素值設(shè)置為1,其余部分元素值設(shè)置為0??梢赃M(jìn)行如下計(jì)算:

        這樣檢測(cè)到的文本掩碼矩陣和真實(shí)的掩碼矩陣的矩陣對(duì)應(yīng)元素的乘積中元素值為1 的部分就是兩個(gè)文本區(qū)域之間交集的大??;并集大小為兩個(gè)掩碼矩陣中值為1 的元素?cái)?shù)量減去掩碼塊交集的大??;得到兩個(gè)區(qū)域的交集和并集大小后可以通過式(1)得到IoU的值。在本例中IoU大小的計(jì)算如下:

        2 實(shí)驗(yàn)及結(jié)果分析

        為了驗(yàn)證本文算法的有效性,進(jìn)行了以下實(shí)驗(yàn)分析:

        1)為了證明模型聯(lián)合訓(xùn)練方法的有效性,將本文算法與未使用模型聯(lián)合訓(xùn)練方法進(jìn)行了5 折交叉驗(yàn)證對(duì)比實(shí)驗(yàn),計(jì)算IoU閾值為0.7時(shí)的F值來對(duì)算法進(jìn)行評(píng)價(jià)。

        2)本文提出的實(shí)例分割算法為先檢測(cè)、后分割的兩階段算法。為了驗(yàn)證在同一階段進(jìn)行檢測(cè)與分割的單階段實(shí)例分割模型是否可以通過少量數(shù)據(jù)獲得良好的效果,本文算法與較為先進(jìn)的單階段實(shí)例分割算法YOLACT[30]和YOLACT++[31]進(jìn)行了比較。

        3)對(duì)提出的文本區(qū)域過濾模塊與文本分割模塊的優(yōu)化進(jìn)行了兩次消融實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。

        實(shí)驗(yàn)配置環(huán)境為:Ubuntu16.04 操作系統(tǒng),CPU 為E5-2698v4,GPU 為NVIDIA Tesla V100 ×4,使用Python3.6 作為開發(fā)環(huán)境,深度學(xué)習(xí)框架為Keras。

        2.1 數(shù)據(jù)集獲取

        為了實(shí)現(xiàn)越南場(chǎng)景文字的檢測(cè)及模型評(píng)估,本文創(chuàng)建了一個(gè)用于越南場(chǎng)景文字檢測(cè)的數(shù)據(jù)集,總共包括200 張圖片,全部來源于越南真實(shí)場(chǎng)景拍攝。越南場(chǎng)景文字?jǐn)?shù)據(jù)集的標(biāo)注方式全部使用像素級(jí)標(biāo)注。不同于矩形或四邊形區(qū)域表示文本區(qū)域的方式,像素級(jí)標(biāo)注是指圖像中的每一個(gè)像素被分為背景和文字兩種類型,其中每個(gè)文本實(shí)例使用不同掩碼值表示不同的掩碼塊。由于越南文字中聲調(diào)符號(hào)的存在,文字區(qū)域的形狀并不規(guī)則,使用像素級(jí)標(biāo)注可以精準(zhǔn)地表示每一個(gè)包括聲調(diào)符號(hào)的越南文字區(qū)域。

        由于越南文字的主體是拉丁字母,與拉丁文字在字形上的特征相似度高,本文在實(shí)施模型聯(lián)合訓(xùn)練時(shí)還使用了自然場(chǎng)景多語言文本檢測(cè)數(shù)據(jù)集(MLT)。該數(shù)據(jù)集是國(guó)際文檔分析與識(shí)別大會(huì)舉辦的一個(gè)多國(guó)場(chǎng)景文字檢測(cè)識(shí)別競(jìng)賽中使用的數(shù)據(jù)集,其圖片來源于世界各地的各種不同場(chǎng)景,其中包含了10 個(gè)國(guó)家的7 種不同字體類型,所有文本區(qū)域都使用四邊形標(biāo)注。本文使用了其中7 200 張只包括拉丁文字類型的圖片作為輔助數(shù)據(jù)用以提升模型的泛化能力。

        2.2 模型聯(lián)合訓(xùn)練有效性實(shí)驗(yàn)

        為了證明使用模型聯(lián)合訓(xùn)練方法的有效性,首先使用MLT數(shù)據(jù)集對(duì)特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練,并使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)作為優(yōu)化方法。初始學(xué)習(xí)率設(shè)為0.001,權(quán)值衰減設(shè)為0.001,動(dòng)量設(shè)為0.9,在MLT 數(shù)據(jù)集上訓(xùn)練10 個(gè)epoch,每個(gè)批次有兩張訓(xùn)練圖片。在訓(xùn)練候選框坐標(biāo)回歸模塊的參數(shù)和文本區(qū)域分割模塊的參數(shù)時(shí),其他已訓(xùn)練參數(shù)被凍結(jié),使用越南場(chǎng)景文本數(shù)據(jù)集訓(xùn)練10個(gè)epoch 后得到一個(gè)完整的模型。對(duì)比方法使用越南場(chǎng)景文本數(shù)據(jù)集對(duì)整個(gè)模型參數(shù)進(jìn)行訓(xùn)練,一共訓(xùn)練20個(gè)epoch,訓(xùn)練優(yōu)化參數(shù)與模型聯(lián)合訓(xùn)練方法相同。

        在越南場(chǎng)景文字檢測(cè)數(shù)據(jù)集上進(jìn)行了3 組5 折交叉驗(yàn)證實(shí)驗(yàn),模型聯(lián)合訓(xùn)練的方法在使用越南場(chǎng)景文字檢測(cè)數(shù)據(jù)訓(xùn)練之前已使用MLT 數(shù)據(jù)集對(duì)特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練。第1 組交叉驗(yàn)證設(shè)置使用越南場(chǎng)景文字檢測(cè)數(shù)據(jù)集的圖片數(shù)為160,剩下的40張圖片作為驗(yàn)證集;第2 組交叉驗(yàn)證設(shè)置使用越南場(chǎng)景文字檢測(cè)數(shù)據(jù)集的圖片數(shù)為100,剩下的100張圖片作為測(cè)試集;第3組交叉驗(yàn)證設(shè)置使用越南場(chǎng)景文字檢測(cè)數(shù)據(jù)集的圖片數(shù)為40,剩下的160 張圖片作為測(cè)試集。每組實(shí)驗(yàn)都分割出5 組不同的訓(xùn)練與驗(yàn)證數(shù)據(jù)用于5折交叉驗(yàn)證。

        實(shí)驗(yàn)結(jié)果如表1 所示,可以看出本文提出的模型聯(lián)合訓(xùn)練方法可以獲得更好的檢測(cè)效果。即使使用圖像數(shù)量較少的訓(xùn)練集,如40 張圖片來訓(xùn)練候選框坐標(biāo)回歸模塊和區(qū)域分割模塊,也可以得到很高的F 值。部分與使用MLT 數(shù)據(jù)集訓(xùn)練方法對(duì)比的實(shí)驗(yàn)結(jié)果如圖2和圖5所示,模型聯(lián)合訓(xùn)練的方法與僅使用MLT 數(shù)據(jù)集訓(xùn)練的方法相比可以有效檢測(cè)到越南文字的聲調(diào)符號(hào)區(qū)域。通過本次實(shí)驗(yàn)可以得到以下結(jié)論:

        表1 使用與未使用模型聯(lián)合訓(xùn)練方法在越南場(chǎng)景文本數(shù)據(jù)集上的對(duì)比Tab.1 Comparision between using and not using model joint training method on Vietnamese scene text dataset

        圖5 模型聯(lián)合訓(xùn)練方法對(duì)部分越南文字的檢測(cè)結(jié)果Fig.5 Detection results of some Vietnamese texts using model joint training method

        1)用四邊形標(biāo)注的拉丁文本數(shù)據(jù)集訓(xùn)練特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò),可以幫助網(wǎng)絡(luò)更準(zhǔn)確地判斷場(chǎng)景文本區(qū)域。

        2)使用模型聯(lián)合訓(xùn)練的方法可以有效利用不同規(guī)模和不同標(biāo)注方式的數(shù)據(jù)集。

        3)區(qū)域分割模塊和候選框坐標(biāo)回歸模塊不需要大量數(shù)據(jù)集進(jìn)行訓(xùn)練也可以獲得很好的性能。

        2.3 與其他單目標(biāo)實(shí)例分割算法的比較實(shí)驗(yàn)

        本文算法基于兩階段實(shí)例分割的思想,為了驗(yàn)證單階段實(shí)例分割的算法是否可以使用小規(guī)模數(shù)據(jù)達(dá)到更好的泛化能力,使用最新的單階段實(shí)例分割算法YOLACT 和YOLACT++與本文算法進(jìn)行了比較,結(jié)果表明其他單階段實(shí)例分割模型也無法通過少量數(shù)據(jù)獲得良好的效果。使用越南場(chǎng)景文字?jǐn)?shù)據(jù)集訓(xùn)練這兩種實(shí)例分割算法,為了達(dá)到這兩種方法的最佳性能,算法的主干網(wǎng)絡(luò)均使用與本文算法相同的ResNet101網(wǎng)絡(luò),使用SGD 作為優(yōu)化方法,使用早停法(early stopping)訓(xùn)練模型。對(duì)比結(jié)果如圖6 所示,本文算法的查準(zhǔn)率、查全率和F 值在規(guī)模為160、100 和40 大小的訓(xùn)練集上都具有較大的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,由于兩階段方法天然對(duì)目標(biāo)檢測(cè)中正負(fù)樣本不平衡的問題存在優(yōu)勢(shì),Mask R-CNN 兩階段實(shí)例分割算法對(duì)于小規(guī)模數(shù)據(jù)的準(zhǔn)確率要高于YOLACT 和YOLACT++的單階段實(shí)例分割算法。

        圖6 四種實(shí)例分割算法在三種不同規(guī)格訓(xùn)練集、驗(yàn)證集上的F值對(duì)比Fig.6 F-mesure comparison of four instance segmentation algorithms on three different specifications of training sets and validation sets

        2.4 消融實(shí)驗(yàn)

        2.4.1 優(yōu)化文本區(qū)域分割模塊的有效性驗(yàn)證實(shí)驗(yàn)

        為了驗(yàn)證本文對(duì)區(qū)域分割模塊中改動(dòng)的有效性,將優(yōu)化前與優(yōu)化后的方法進(jìn)行比較實(shí)驗(yàn)。實(shí)驗(yàn)在模型聯(lián)合訓(xùn)練的第二階段,進(jìn)行了優(yōu)化前和優(yōu)化后兩種模型在三組不同規(guī)模訓(xùn)練數(shù)據(jù)集的交叉驗(yàn)證實(shí)驗(yàn),得到在IoU 閾值分別為0.7、0.8、0.9情況下的對(duì)比實(shí)驗(yàn)結(jié)果如圖7所示。圖7結(jié)果表明,P2層包括高層語義信息的同時(shí)也包含了圖像的細(xì)節(jié)信息,擁有更多利于文本分割的特征,采用P2作為文本區(qū)域分割模塊特征提取層和使用14×28×256大小的掩碼特征塊可以得到更準(zhǔn)確的掩模區(qū)域。在IoU閾值設(shè)置為0.9時(shí),使用規(guī)模大小為160、100 和40 的訓(xùn)練數(shù)據(jù)集進(jìn)行第二階段訓(xùn)練,本文的優(yōu)化方法對(duì)比優(yōu)化之前的方法分別提高了32.3%、19.6%和16.3%。圖8 展示了使用兩種方法的部分結(jié)果,可以看出本文的優(yōu)化方法可以更準(zhǔn)確地分割越南文字區(qū)域。

        圖7 區(qū)域分割模塊優(yōu)化前后在三種不同規(guī)格訓(xùn)練集、驗(yàn)證集上的F值對(duì)比Fig.7 F-mesure comparison before and after optimization of Mask branch on three different specifications of training sets and validation sets

        圖8 區(qū)域分割模塊優(yōu)化前后的部分檢測(cè)結(jié)果Fig.8 Partial detection results before and after optimization of Mask branch

        2.4.2 文本區(qū)域過濾模塊有效性驗(yàn)證實(shí)驗(yàn)

        本文通過計(jì)算每個(gè)交叉驗(yàn)證實(shí)驗(yàn)中文本區(qū)域過濾模塊消除的錯(cuò)誤檢測(cè)區(qū)域個(gè)數(shù),驗(yàn)證了提出的針對(duì)文本實(shí)例的區(qū)域過濾模塊的有效性。文本區(qū)域過濾模塊對(duì)檢測(cè)結(jié)果的提升如表2所示。

        表2 使用和不使用文本區(qū)域過濾模塊的在越南場(chǎng)景文本數(shù)據(jù)集上的性能對(duì)比Tab.2 Performance comparison between using and not using the proposed text region filtering module on vietnamese scene text dataset

        3 結(jié)語

        本文首先說明了目前場(chǎng)景文字檢測(cè)算法在檢測(cè)越南文字時(shí)存在的問題,并基于這些問題提出一個(gè)基于Mask R-CNN模型的越南場(chǎng)景文字檢測(cè)方法。對(duì)于缺乏像素級(jí)標(biāo)注的實(shí)例分割數(shù)據(jù)帶來的問題,提出使用模型聯(lián)合訓(xùn)練的方法提高了模型的泛化能力;針對(duì)越南場(chǎng)景文字檢測(cè)中大量存在的聲調(diào)符號(hào)區(qū)域漏檢測(cè)現(xiàn)象,通過優(yōu)化文本區(qū)域分割模塊和使用像素級(jí)標(biāo)注的數(shù)據(jù)訓(xùn)練,使得模型能準(zhǔn)確地分割包括聲調(diào)符號(hào)的越南文字區(qū)域;此外,還提出了針對(duì)文本的文本區(qū)域過濾模塊有效解決了由文本連續(xù)性導(dǎo)致的重復(fù)檢測(cè)的問題,實(shí)驗(yàn)結(jié)果表明本文提出的算法可以有效使用少量像素級(jí)標(biāo)注的數(shù)據(jù)集實(shí)現(xiàn)越南場(chǎng)景文字的實(shí)例分割,與Mask R-CNN 模型相比,本文算法在準(zhǔn)確率與召回率上都具有優(yōu)勢(shì)。之后的工作將對(duì)模型進(jìn)行簡(jiǎn)化處理,降低算法的時(shí)間復(fù)雜度。

        猜你喜歡
        候選框越南文字
        重定位非極大值抑制算法
        面向自然場(chǎng)景文本檢測(cè)的改進(jìn)NMS算法
        文字的前世今生
        讀圖
        越南Vedana餐廳
        基于Soft-NMS的候選框去冗余加速器設(shè)計(jì)*
        熱愛與堅(jiān)持
        當(dāng)我在文字中投宿
        文苑(2020年12期)2020-04-13 00:55:10
        一種針對(duì)特定目標(biāo)的提議算法
        越南百里“銀灘”
        中文字幕人妻中文| 日本免费精品一区二区三区视频| 成人av蜜桃在线观看| 国产精品精品自在线拍| 亚洲色无码播放| 99re6久精品国产首页| 蜜桃视频一区视频二区| 中文在线中文a| 亚洲精品欧美二区三区中文字幕| av狼人婷婷久久亚洲综合| 国产理论亚洲天堂av| 日本熟妇人妻xxxx| 一本一道波多野结衣一区| 久久久久久久久久免免费精品| 亚洲av本道一本二本三区| 国产成人av一区二区三区在线观看 | 亚洲av无码电影在线播放| av无码久久久久久不卡网站| 香蕉久久夜色精品国产| 亚洲av高清一区二区在线观看| 国产md视频一区二区三区| 精品欧美乱子伦一区二区三区| 偷柏自拍亚洲综合在线| 精品人妖一区二区三区四区| 欧美一区二区三区激情| 无遮挡中文毛片免费观看| 国产精品美女主播在线| 99麻豆久久久国产精品免费| 无码人妻一区二区三区免费n鬼沢 人禽无码视频在线观看 | 91精品啪在线观九色| 成人美女黄网站色大免费的| 一本一道波多野结衣av中文 | 青草青草伊人精品视频| 青青青爽在线视频免费播放 | 久久精品国产屋| 青青草视频在线观看入口| 人妻夜夜爽天天爽三区 | 亚欧免费无码AⅤ在线观看 | 久久久2019精品视频中文字幕| av天堂最新在线播放| 欧美bbw极品另类|