亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的文本檢測算法研究

2019-04-12 01:46:42李陽李紹彬解云超馮爽

中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年1期

李陽，李紹彬，解云超，馮爽

(中國傳媒大學(xué) 信息工程學(xué)院，北京 100024)

1 引言

文本檢測是近年來計(jì)算機(jī)視覺領(lǐng)域具有挑戰(zhàn)性的熱門研究課題之一。文本作為一種特殊的視覺信息，它除了具備顏色、紋理這些基本的計(jì)算機(jī)視覺特征外，還具有較為明確的、有針對性的語義信息，在圖像及場景理解中扮演著關(guān)鍵角色。

足球是全世界最受歡迎的體育運(yùn)動之一，觀眾、球隊(duì)教練、球迷等等都有對足球比賽進(jìn)行智能分析的需求。近年來，對足球賽事自動分析工具的需求大大增加。在足球比賽場景畫面復(fù)雜的情況下，對足球賽事圖像進(jìn)行較為精準(zhǔn)的文本檢測，為理解賽事場景中的信息、分析足球賽事提供了研究基礎(chǔ)。

場景圖像中的文本檢測是場景文本分析的第一步，目前已經(jīng)有很多不同的方法可以用于文本檢測。場景文本檢測方法主要分為兩類：一類是基于連通區(qū)域分析的方法，另一類是基于滑動窗口的方法。Yao[1]、Epshtein[2]、Neumann[3]等人采用連通區(qū)域分析的方法進(jìn)行文本檢測，這類方法[1-5]首先根據(jù)顏色相似或空間鄰接等一致性特征，進(jìn)行連通域分析，然后對連通區(qū)域按照文本區(qū)域、非文本區(qū)域做出判定，從而將文本區(qū)域從整幅圖像中區(qū)分出來。Kim[6]、Gllavata[7]、Lyu[8]等人采用滑動窗口的方法進(jìn)行文本檢測，基于滑動窗口的方法[6-10]主要通過采用大小可變的滑動窗口在多個(gè)空間尺度上進(jìn)行采樣，然后利用機(jī)器學(xué)習(xí)的方法判別窗口里是否具有文本信息。

本文基于TextBoxes[11]算法，提出新的卷積神經(jīng)網(wǎng)絡(luò)，對足球賽事場景下的文本能夠有效檢測。針對足球賽事場景下，文本幾何形狀多樣、球衣號碼和廣告牌的寬高比例不同等問題，設(shè)置適用于足球場景中文本檢測的默認(rèn)框；針對足球賽事場景下，圖像背景遠(yuǎn)遠(yuǎn)多于文本而導(dǎo)致的樣本不均衡問題，提出使用Focal Loss作為用于分類的損失函數(shù)，并制作用于足球賽事場景下文本檢測的數(shù)據(jù)集，在該數(shù)據(jù)集上對算法有效性進(jìn)行了驗(yàn)證。

2 基于卷積神經(jīng)網(wǎng)絡(luò)的文本檢測算法

2.1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)

文本檢測的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，這是一個(gè)28層的卷積網(wǎng)絡(luò)，其中前13層繼承于VGG-16[12]的網(wǎng)絡(luò)結(jié)構(gòu)，保留了VGG-16的conv1_1至conv4_3層，之后額外添加了15層，包括13個(gè)卷積層和2個(gè)池化層。卷積層的尺寸逐漸減小，可以預(yù)測出不同尺度的檢測框。其中，6個(gè)卷積層的特征圖直接連接到文本框?qū)?Text-box Layers)，文本框?qū)虞敵鰹槊總€(gè)默認(rèn)框相對于真實(shí)邊界框的偏移值和預(yù)測的檢測框的分類分?jǐn)?shù)。最后，采取非極大值抑制整合輸出。該網(wǎng)絡(luò)模型具體配置參數(shù)如表1所示。

圖1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)示意圖

網(wǎng)絡(luò)中的所有卷積核尺寸均較小，為3×3或1×1，故該網(wǎng)絡(luò)參數(shù)較少。添加填充(padding)后的特征圖經(jīng)過3×3和1×1的卷積核卷積計(jì)算后，寬和高不變，隨著網(wǎng)絡(luò)層數(shù)加深，網(wǎng)絡(luò)能夠表征抽象和高級的特征。對于采用大卷積核的網(wǎng)絡(luò)，輸入圖像經(jīng)過一次卷積，會產(chǎn)生較小的特征圖，經(jīng)過數(shù)層卷積便會生成1×1特征圖，網(wǎng)絡(luò)層數(shù)較淺，映射關(guān)系相對簡單，學(xué)習(xí)到的特征泛化能力不夠突出。因此，采用小卷積核具有減少參數(shù)和加深網(wǎng)絡(luò)的優(yōu)點(diǎn)。

為了檢測到不同尺寸的目標(biāo)文本，傳統(tǒng)方法將圖像縮放至不同大小進(jìn)行檢測，最后再將結(jié)果合并。對于卷積層來說，越底層對應(yīng)的感受野越小，保留的圖像細(xì)節(jié)越多；越高層對應(yīng)的感受野越大，能捕捉到更全局的信息。本文利用卷積網(wǎng)絡(luò)中不同層提取特征不同的特點(diǎn)，可以達(dá)到對不同尺寸的目標(biāo)文本進(jìn)行檢測的目的。所以，本文檢測網(wǎng)絡(luò)采用6個(gè)不同的特征圖，來實(shí)現(xiàn)多尺度檢測。

表1 文本檢測CNN詳細(xì)配置

續(xù)表

2.2 默認(rèn)框的設(shè)置

本文針對足球場景下的文本進(jìn)行檢測。在足球場景下，文本主要包括球衣號碼、場景中的廣告牌、球員名稱以及臺標(biāo)等。相較于普通的自然場景中的文本，足球場景下的文本類別和幾何形狀的多樣，分別體現(xiàn)在球衣號碼和英文單詞、數(shù)字和單詞的幾何形狀間區(qū)別很大。如圖2所示，球衣號碼多是高大于寬的，而球員名稱或者廣告中的單詞多是寬大于高的。

圖2 足球場景下文本形狀示意圖

根據(jù)文本特點(diǎn)，選取適用于足球場景中文本檢測的默認(rèn)框。針對號碼選取寬高比為{1：5、1：3、1：2}的默認(rèn)框，針對單詞文本選取寬高比為{1：1、2：1、3：1、5：1}的默認(rèn)框，即定義了{(lán)1：5，1：3，1：2，1：1，2：1，3：1，5：1}這7種比例的默認(rèn)框。并采取3×3卷積核代替原始模型中1×5卷積核，3×3卷積核對較大寬高比和較小寬高比的文本都適用。

對Text-box Layers的卷積核的通道數(shù)，根據(jù)默認(rèn)框的改變而做出相應(yīng)的改變。檢測網(wǎng)絡(luò)使用卷積神經(jīng)網(wǎng)絡(luò)特征圖生成相應(yīng)的默認(rèn)框，在Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Global這6個(gè)卷積層的特征圖上，每一個(gè)神經(jīng)元具有對原始圖像的感受野，對應(yīng)著原始圖像感受野區(qū)域的不同比例的默認(rèn)框。對這6個(gè)特征圖上的每一個(gè)神經(jīng)元節(jié)點(diǎn)，可以預(yù)測其對應(yīng)的默認(rèn)框的偏移值，以及是否為檢測框的類別分?jǐn)?shù)。例如，對于每一個(gè)特征點(diǎn)對應(yīng)的區(qū)域，取k個(gè)不同形狀的默認(rèn)框，那么就會產(chǎn)生(2+4)*k個(gè)輸出，其中2是指對于每個(gè)默認(rèn)框會計(jì)算2個(gè)二分類的分?jǐn)?shù)，4是指對于每個(gè)默認(rèn)框會計(jì)算4個(gè)位置偏移值。對于m×n大小的特征圖，應(yīng)將卷積核通道數(shù)設(shè)置為(2+4)*k，產(chǎn)生(2+4)kmn個(gè)輸出。

在訓(xùn)練過程中，需要判定默認(rèn)框是否為正樣本，當(dāng)默認(rèn)框與標(biāo)定框(ground truth)的面積的交叉重疊比(Intresection Over Union，IOU)大于閾值0.5時(shí)，判定為正樣本，反之則判定為負(fù)樣本。

2.3 損失函數(shù)

訓(xùn)練分為兩個(gè)任務(wù)：分類任務(wù)和回歸任務(wù)。分類任務(wù)用于判別默認(rèn)框是否為文本，輸出是2維向量，表示是文本的概率以及不是文本的概率；回歸任務(wù)用于預(yù)測默認(rèn)框位置的偏移值，以得到更貼近真實(shí)文本框的檢測框，輸出是4維向量，表示經(jīng)過特定規(guī)則平移縮放后的偏移值。因此，檢測網(wǎng)絡(luò)的損失函數(shù)由兩部分構(gòu)成，分別為代表置信度的分類損失函數(shù)和代表位置的回歸損失函數(shù)。

檢測網(wǎng)絡(luò)采用的損失函數(shù)如下：

L(p，l，v*，v)=Lconf(p，l)+αLloc(v*，v)

(1)

其中，Lconf為評估分類的損失函數(shù)；Lloc為評估位置的損失函數(shù)；l為代表類別的標(biāo)簽，l=1表示是文本區(qū)域，l=0表示是背景；參數(shù)p=(p0，p1)代表每個(gè)類別的概率；v是預(yù)測框相對于默認(rèn)框的偏移值；v*是真實(shí)框相對于默認(rèn)框的偏移值；α為兩個(gè)損失函數(shù)的權(quán)衡值，這里取1。

對于回歸損失函數(shù)Lloc，使用Smooth L1 Loss[13]，該損失函數(shù)具體表示如下：

(2)

(3)

其中，參數(shù)v和v*定義如下：

(4)

(5)

其中，x、y、h、w分別是預(yù)測出的檢測框的中心點(diǎn)橫坐標(biāo)、縱坐標(biāo)、高、寬；xa、ya、ha、wa分別是默認(rèn)框的中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)、高、寬；x*、y*、h*、w*分別是真實(shí)框的中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)、高、寬。

對于分類損失函數(shù)，使用Focal Loss[14]，使得模型在訓(xùn)練時(shí)更注重于難訓(xùn)練的樣本。難于區(qū)分的樣本對損失的貢獻(xiàn)變大，網(wǎng)絡(luò)更傾向于對這些樣本學(xué)習(xí)。Focal Loss定義如下：

FL(pl)=-α(1-pl)γlog(pl)

(6)

其中，l為類別的標(biāo)簽，l=1表示是文本區(qū)域，l=0表示是背景；參數(shù)p=(p0，p1)代表每個(gè)類別的概率；α是權(quán)重參數(shù)，這里取0.25；γ是聚焦參數(shù)，這里取2。

將表示置信度的分類損失函數(shù)用Focal Loss表示，即：

Lconf(p，l)=FL(p)

(7)

由式(6)可知，當(dāng)概率大，也就是容易正確分類時(shí)，會減小損失對網(wǎng)絡(luò)的反饋；當(dāng)概率小，也就是樣本難以區(qū)分時(shí)，會增加這些樣本的權(quán)重。α解決了正負(fù)樣本之間的平衡問題，(1-pl)γ則對易分樣本和難分樣本進(jìn)行區(qū)分。當(dāng)一個(gè)樣本分類錯(cuò)誤，即概率p很小時(shí)，(1-p)因子就會接近1，其損失不被影響；當(dāng)一個(gè)樣本分類正確，即其概率很大接近1時(shí)，因子(1-p)就接近0，這個(gè)樣本的權(quán)重就被降低了。γ參數(shù)調(diào)節(jié)易分樣本降低權(quán)重的比例，顯然，樣本越易分，則對損失的貢獻(xiàn)越小，相對來說，難分樣本所占的比重就會變大。

2.4 非極大值抑制

在檢測任務(wù)的后續(xù)處理中，需要使用非極大值抑制進(jìn)行搜尋，消除冗余的檢測框，找到最佳的檢測框，非極大值抑制效果示意圖如圖3所示。首先，將檢測結(jié)果按照置信度得分進(jìn)行排序，選中概率最大的檢測結(jié)果，將其余檢測框與這個(gè)檢測框進(jìn)行比較，若IOU大于某一設(shè)定的閾值，則認(rèn)為這些檢測框包含于目前這個(gè)得分最高的檢測框中；然后，將這些檢測框刪除，保留第一個(gè)檢測框；最后，從未處理的檢測框中繼續(xù)選擇概率最大的檢測框，重復(fù)上述過程，直到處理完所有的檢測框，得到最終保留下來的結(jié)果。

圖3 非極大值抑制效果示意圖

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

(1)足球場景的文本檢測數(shù)據(jù)集：對足球賽事場景下的文本進(jìn)行標(biāo)注。足球賽事圖片截取于20個(gè)足球賽事視頻中，對圖片中英文字符、數(shù)字、符號“：”和符號“-”進(jìn)行標(biāo)注。分別標(biāo)注了文本的坐標(biāo)信息以及文本內(nèi)容，生成相應(yīng)的xml標(biāo)簽文件。標(biāo)注共得到3000張圖片，包含34512個(gè)文本區(qū)域。足球賽事場景下文本標(biāo)注的圖片如圖4所示，標(biāo)簽如圖5所示。使用該數(shù)據(jù)集的2300張樣本作為訓(xùn)練數(shù)據(jù)，用于微調(diào)訓(xùn)練網(wǎng)絡(luò)模型；其余的700張樣本作為測試數(shù)據(jù)，用于對算法的驗(yàn)證。

圖4 足球場景下文本標(biāo)注圖片

圖5 足球場景下文本標(biāo)注的標(biāo)簽

(2)數(shù)字合成數(shù)據(jù)集：制作合成數(shù)據(jù)工具，由背景圖片和提供的數(shù)字或字符自動合成供文本檢測的圖片，每張圖片具有對應(yīng)的標(biāo)簽文件，標(biāo)簽文件中是文本的位置信息。該方法共合成200000張圖片。數(shù)字合成圖片如圖6所示，標(biāo)簽如圖7所示。該數(shù)據(jù)集用于預(yù)訓(xùn)練網(wǎng)絡(luò)模型。

圖6 數(shù)字合成圖片

圖7 數(shù)字合成圖片的標(biāo)簽

(3)SythText[15]數(shù)據(jù)集：SythText是公開數(shù)據(jù)集，由真實(shí)的自然場景圖片和文本實(shí)例合成。該數(shù)據(jù)集包含858750張圖片，這些圖片由11698張背景圖片和7266866個(gè)單詞文本構(gòu)成。SythText數(shù)據(jù)集用于預(yù)訓(xùn)練網(wǎng)絡(luò)模型。

3.2 實(shí)驗(yàn)細(xì)節(jié)

網(wǎng)絡(luò)輸入采用300×300大小的圖片，RGB三通道輸入。在訓(xùn)練過程中，加載VGG-16模型中相應(yīng)的參數(shù)(即表1中Conv1_1到Conv4_3的參數(shù))對網(wǎng)絡(luò)這部分卷積層進(jìn)行初始化。訓(xùn)練采用隨機(jī)梯度下降法(Stochastic Gradient Descent，SGD)進(jìn)行網(wǎng)絡(luò)優(yōu)化學(xué)習(xí)，動量參數(shù)為0.9，權(quán)值衰減為(Weight Decay)為0.0005，學(xué)習(xí)率初始化設(shè)置為0.001，以指數(shù)衰減法更新學(xué)習(xí)率。實(shí)驗(yàn)在Windows系統(tǒng)下完成，GPU配置為NVIDIA GTX1080，采用的深度學(xué)習(xí)框架為Google的TensorFlow，使用Python進(jìn)行編程實(shí)驗(yàn)。

3.3 實(shí)驗(yàn)結(jié)果與分析

本文分別對基礎(chǔ)網(wǎng)絡(luò)TextBoxes、重新設(shè)定默認(rèn)框的改進(jìn)網(wǎng)絡(luò)OursDefault、在OursDefault基礎(chǔ)上使用Focal Loss作為損失函數(shù)的改進(jìn)網(wǎng)絡(luò)OursDefault+Focal進(jìn)行訓(xùn)練與測試。

測試數(shù)據(jù)為700張足球場景下文本檢測圖片，與訓(xùn)練數(shù)據(jù)不重復(fù)。評估基于三個(gè)指標(biāo)：精確度P、召回率R、綜合指標(biāo)F。精確度P為正確檢測到的文本數(shù)量與所有預(yù)測出的矩形框個(gè)數(shù)的比值；召回率R為正確檢測到的文本數(shù)量與所有真實(shí)文本數(shù)量的比值；綜合指標(biāo)F為精確度P和召回率R的調(diào)和平均值。本文對測試數(shù)據(jù)中全部文本的精確度、召回率和綜合指標(biāo)進(jìn)行評估，并分別對數(shù)字文本和字母文本的召回率進(jìn)行評估。

表2 不同算法的檢測性能對比

表2為對基礎(chǔ)算法TextBoxes、本文改進(jìn)算法OursDefault、OursDefault+Focal的檢測性能的對比?？梢钥闯?，本文改進(jìn)的模型在召回率和綜合指標(biāo)上均有提升。首先，OursDefault模型與TextBoxes基礎(chǔ)模型的結(jié)果相比較，召回率有較大的提升，說明本文提出的改進(jìn)方法能正確檢測到更多的真實(shí)文本。尤其是數(shù)字文本的召回率，OursDefault模型相比TextBoxes模型提高了將近10%，說明本文提出的改進(jìn)算法能夠有效檢測數(shù)字文本。其次，OursDefault+Focal模型與前兩個(gè)模型相比較，全部文本、數(shù)字文本、字母文本的召回率均有提升，并且綜合指標(biāo)F最高。精確度有所下降的原因是，改進(jìn)后的模型對文本特征更為敏感，會將測試圖片中與文本極為相似的圖案檢測為文本。

圖8為TextBoxes模型與OursDefault模型檢測結(jié)果的展示?？梢钥闯?，TextBoxes算法對于橫向文本可以成功檢測，但是對于豎狀的文本、側(cè)身時(shí)導(dǎo)致寬高比很小的文本，如圖8中的球衣號碼“7”、球衣號碼“16”，難以檢測。本文算法OursDefault在重新對默認(rèn)框進(jìn)行設(shè)置后，對于這些寬高比小的豎狀文本，均能夠有效檢測。檢測效果得到改善是因?yàn)樵糡extBoxes模型中均為寬高比大于1的默認(rèn)框，而改進(jìn)后的OursDefault模型中設(shè)置有寬高比小于1 的默認(rèn)框，這些默認(rèn)框能夠?qū)η蛞绿柎a這種大多為豎狀的文本更好地?cái)M合。

圖9為OursDefault模型與OursDefault+Focal模型檢測結(jié)果比較?？梢钥闯?，相較于OursDefault模型，OursDefault+Focal模型在遮擋、殘缺、模糊的情況下，能夠更成功地檢測到文本。這是因?yàn)?，足球賽事場景中的背景區(qū)域遠(yuǎn)遠(yuǎn)多于文本區(qū)域，在我們選取的默認(rèn)框中，負(fù)樣本數(shù)要遠(yuǎn)遠(yuǎn)多于正樣本，正負(fù)樣本不均衡。本文提出使用Focal Loss作為分類損失函數(shù)進(jìn)行訓(xùn)練，在訓(xùn)練過程中Focal Loss對不同樣本賦予不同的權(quán)重。易于區(qū)分的樣本權(quán)重較小，難以檢測的目標(biāo)權(quán)重較大，有效解決了樣本不均衡帶來的問題。對遮擋、殘缺、模糊這類難以區(qū)分的樣本，在訓(xùn)練時(shí)給予較大權(quán)重，因此該模型能夠?qū)ζ溆行z測。

TextBoxes檢測結(jié)果 OursDefault檢測結(jié)果圖8 TextBoxes與OursDefault檢測結(jié)果比較

OursDefault檢測結(jié)果 OursDefault+Focal檢測結(jié)果圖9 OursDefault與OursDefault+Focal檢測結(jié)果比較

4 結(jié)論

本文采用卷積神經(jīng)網(wǎng)絡(luò)對足球賽事場景下的文本進(jìn)行檢測，在TextBoxes網(wǎng)絡(luò)的基礎(chǔ)上提出兩點(diǎn)改進(jìn)：一是重新設(shè)置默認(rèn)框，解決球衣號碼等豎狀文本的檢測問題；二是使用Focal Loss作為分類損失函數(shù)進(jìn)行訓(xùn)練，解決背景與文本的正負(fù)樣本不均衡問題。此外，還制作了足球賽事場景下文本檢測的數(shù)據(jù)集，用于訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果表明，本文提出的改進(jìn)方法是有效的。在下一步的研究中，考慮將角度信息用于位置回歸任務(wù)中，實(shí)現(xiàn)對傾斜文本的多方向檢測。