亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的文本檢測算法研究

        2019-04-12 01:46:42李陽李紹彬解云超馮爽
        關(guān)鍵詞:足球賽事損失卷積

        李陽,李紹彬,解云超,馮爽

        (中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)

        1 引言

        文本檢測是近年來計(jì)算機(jī)視覺領(lǐng)域具有挑戰(zhàn)性的熱門研究課題之一。文本作為一種特殊的視覺信息,它除了具備顏色、紋理這些基本的計(jì)算機(jī)視覺特征外,還具有較為明確的、有針對性的語義信息,在圖像及場景理解中扮演著關(guān)鍵角色。

        足球是全世界最受歡迎的體育運(yùn)動之一,觀眾、球隊(duì)教練、球迷等等都有對足球比賽進(jìn)行智能分析的需求。近年來,對足球賽事自動分析工具的需求大大增加。在足球比賽場景畫面復(fù)雜的情況下,對足球賽事圖像進(jìn)行較為精準(zhǔn)的文本檢測,為理解賽事場景中的信息、分析足球賽事提供了研究基礎(chǔ)。

        場景圖像中的文本檢測是場景文本分析的第一步,目前已經(jīng)有很多不同的方法可以用于文本檢測。場景文本檢測方法主要分為兩類:一類是基于連通區(qū)域分析的方法,另一類是基于滑動窗口的方法。Yao[1]、Epshtein[2]、Neumann[3]等人采用連通區(qū)域分析的方法進(jìn)行文本檢測,這類方法[1-5]首先根據(jù)顏色相似或空間鄰接等一致性特征,進(jìn)行連通域分析,然后對連通區(qū)域按照文本區(qū)域、非文本區(qū)域做出判定,從而將文本區(qū)域從整幅圖像中區(qū)分出來。Kim[6]、Gllavata[7]、Lyu[8]等人采用滑動窗口的方法進(jìn)行文本檢測,基于滑動窗口的方法[6-10]主要通過采用大小可變的滑動窗口在多個(gè)空間尺度上進(jìn)行采樣,然后利用機(jī)器學(xué)習(xí)的方法判別窗口里是否具有文本信息。

        本文基于TextBoxes[11]算法,提出新的卷積神經(jīng)網(wǎng)絡(luò),對足球賽事場景下的文本能夠有效檢測。針對足球賽事場景下,文本幾何形狀多樣、球衣號碼和廣告牌的寬高比例不同等問題,設(shè)置適用于足球場景中文本檢測的默認(rèn)框;針對足球賽事場景下,圖像背景遠(yuǎn)遠(yuǎn)多于文本而導(dǎo)致的樣本不均衡問題,提出使用Focal Loss作為用于分類的損失函數(shù),并制作用于足球賽事場景下文本檢測的數(shù)據(jù)集,在該數(shù)據(jù)集上對算法有效性進(jìn)行了驗(yàn)證。

        2 基于卷積神經(jīng)網(wǎng)絡(luò)的文本檢測算法

        2.1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)

        文本檢測的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,這是一個(gè)28層的卷積網(wǎng)絡(luò),其中前13層繼承于VGG-16[12]的網(wǎng)絡(luò)結(jié)構(gòu),保留了VGG-16的conv1_1至conv4_3層,之后額外添加了15層,包括13個(gè)卷積層和2個(gè)池化層。卷積層的尺寸逐漸減小,可以預(yù)測出不同尺度的檢測框。其中,6個(gè)卷積層的特征圖直接連接到文本框?qū)?Text-box Layers),文本框?qū)虞敵鰹槊總€(gè)默認(rèn)框相對于真實(shí)邊界框的偏移值和預(yù)測的檢測框的分類分?jǐn)?shù)。最后,采取非極大值抑制整合輸出。該網(wǎng)絡(luò)模型具體配置參數(shù)如表1所示。

        圖1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        網(wǎng)絡(luò)中的所有卷積核尺寸均較小,為3×3或1×1,故該網(wǎng)絡(luò)參數(shù)較少。添加填充(padding)后的特征圖經(jīng)過3×3和1×1的卷積核卷積計(jì)算后,寬和高不變,隨著網(wǎng)絡(luò)層數(shù)加深,網(wǎng)絡(luò)能夠表征抽象和高級的特征。對于采用大卷積核的網(wǎng)絡(luò),輸入圖像經(jīng)過一次卷積,會產(chǎn)生較小的特征圖,經(jīng)過數(shù)層卷積便會生成1×1特征圖,網(wǎng)絡(luò)層數(shù)較淺,映射關(guān)系相對簡單,學(xué)習(xí)到的特征泛化能力不夠突出。因此,采用小卷積核具有減少參數(shù)和加深網(wǎng)絡(luò)的優(yōu)點(diǎn)。

        為了檢測到不同尺寸的目標(biāo)文本,傳統(tǒng)方法將圖像縮放至不同大小進(jìn)行檢測,最后再將結(jié)果合并。對于卷積層來說,越底層對應(yīng)的感受野越小,保留的圖像細(xì)節(jié)越多;越高層對應(yīng)的感受野越大,能捕捉到更全局的信息。本文利用卷積網(wǎng)絡(luò)中不同層提取特征不同的特點(diǎn),可以達(dá)到對不同尺寸的目標(biāo)文本進(jìn)行檢測的目的。所以,本文檢測網(wǎng)絡(luò)采用6個(gè)不同的特征圖,來實(shí)現(xiàn)多尺度檢測。

        表1 文本檢測CNN詳細(xì)配置

        續(xù)表

        2.2 默認(rèn)框的設(shè)置

        本文針對足球場景下的文本進(jìn)行檢測。在足球場景下,文本主要包括球衣號碼、場景中的廣告牌、球員名稱以及臺標(biāo)等。相較于普通的自然場景中的文本,足球場景下的文本類別和幾何形狀的多樣,分別體現(xiàn)在球衣號碼和英文單詞、數(shù)字和單詞的幾何形狀間區(qū)別很大。如圖2所示,球衣號碼多是高大于寬的,而球員名稱或者廣告中的單詞多是寬大于高的。

        圖2 足球場景下文本形狀示意圖

        根據(jù)文本特點(diǎn),選取適用于足球場景中文本檢測的默認(rèn)框。針對號碼選取寬高比為{1:5、1:3、1:2}的默認(rèn)框,針對單詞文本選取寬高比為{1:1、2:1、3:1、5:1}的默認(rèn)框,即定義了{(lán)1:5,1:3,1:2,1:1,2:1,3:1,5:1}這7種比例的默認(rèn)框。并采取3×3卷積核代替原始模型中1×5卷積核,3×3卷積核對較大寬高比和較小寬高比的文本都適用。

        對Text-box Layers的卷積核的通道數(shù),根據(jù)默認(rèn)框的改變而做出相應(yīng)的改變。檢測網(wǎng)絡(luò)使用卷積神經(jīng)網(wǎng)絡(luò)特征圖生成相應(yīng)的默認(rèn)框,在Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Global這6個(gè)卷積層的特征圖上,每一個(gè)神經(jīng)元具有對原始圖像的感受野,對應(yīng)著原始圖像感受野區(qū)域的不同比例的默認(rèn)框。對這6個(gè)特征圖上的每一個(gè)神經(jīng)元節(jié)點(diǎn),可以預(yù)測其對應(yīng)的默認(rèn)框的偏移值,以及是否為檢測框的類別分?jǐn)?shù)。例如,對于每一個(gè)特征點(diǎn)對應(yīng)的區(qū)域,取k個(gè)不同形狀的默認(rèn)框,那么就會產(chǎn)生(2+4)*k個(gè)輸出,其中2是指對于每個(gè)默認(rèn)框會計(jì)算2個(gè)二分類的分?jǐn)?shù),4是指對于每個(gè)默認(rèn)框會計(jì)算4個(gè)位置偏移值。對于m×n大小的特征圖,應(yīng)將卷積核通道數(shù)設(shè)置為(2+4)*k,產(chǎn)生(2+4)kmn個(gè)輸出。

        在訓(xùn)練過程中,需要判定默認(rèn)框是否為正樣本,當(dāng)默認(rèn)框與標(biāo)定框(ground truth)的面積的交叉重疊比(Intresection Over Union,IOU)大于閾值0.5時(shí),判定為正樣本,反之則判定為負(fù)樣本。

        2.3 損失函數(shù)

        訓(xùn)練分為兩個(gè)任務(wù):分類任務(wù)和回歸任務(wù)。分類任務(wù)用于判別默認(rèn)框是否為文本,輸出是2維向量,表示是文本的概率以及不是文本的概率;回歸任務(wù)用于預(yù)測默認(rèn)框位置的偏移值,以得到更貼近真實(shí)文本框的檢測框,輸出是4維向量,表示經(jīng)過特定規(guī)則平移縮放后的偏移值。因此,檢測網(wǎng)絡(luò)的損失函數(shù)由兩部分構(gòu)成,分別為代表置信度的分類損失函數(shù)和代表位置的回歸損失函數(shù)。

        檢測網(wǎng)絡(luò)采用的損失函數(shù)如下:

        L(p,l,v*,v)=Lconf(p,l)+αLloc(v*,v)

        (1)

        其中,Lconf為評估分類的損失函數(shù);Lloc為評估位置的損失函數(shù);l為代表類別的標(biāo)簽,l=1表示是文本區(qū)域,l=0表示是背景;參數(shù)p=(p0,p1)代表每個(gè)類別的概率;v是預(yù)測框相對于默認(rèn)框的偏移值;v*是真實(shí)框相對于默認(rèn)框的偏移值;α為兩個(gè)損失函數(shù)的權(quán)衡值,這里取1。

        對于回歸損失函數(shù)Lloc,使用Smooth L1 Loss[13],該損失函數(shù)具體表示如下:

        (2)

        (3)

        其中,參數(shù)v和v*定義如下:

        (4)

        (5)

        其中,x、y、h、w分別是預(yù)測出的檢測框的中心點(diǎn)橫坐標(biāo)、縱坐標(biāo)、高、寬;xa、ya、ha、wa分別是默認(rèn)框的中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)、高、寬;x*、y*、h*、w*分別是真實(shí)框的中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)、高、寬。

        對于分類損失函數(shù),使用Focal Loss[14],使得模型在訓(xùn)練時(shí)更注重于難訓(xùn)練的樣本。難于區(qū)分的樣本對損失的貢獻(xiàn)變大,網(wǎng)絡(luò)更傾向于對這些樣本學(xué)習(xí)。Focal Loss定義如下:

        FL(pl)=-α(1-pl)γlog(pl)

        (6)

        其中,l為類別的標(biāo)簽,l=1表示是文本區(qū)域,l=0表示是背景;參數(shù)p=(p0,p1)代表每個(gè)類別的概率;α是權(quán)重參數(shù),這里取0.25;γ是聚焦參數(shù),這里取2。

        將表示置信度的分類損失函數(shù)用Focal Loss表示,即:

        Lconf(p,l)=FL(p)

        (7)

        由式(6)可知,當(dāng)概率大,也就是容易正確分類時(shí),會減小損失對網(wǎng)絡(luò)的反饋;當(dāng)概率小,也就是樣本難以區(qū)分時(shí),會增加這些樣本的權(quán)重。α解決了正負(fù)樣本之間的平衡問題,(1-pl)γ則對易分樣本和難分樣本進(jìn)行區(qū)分。當(dāng)一個(gè)樣本分類錯(cuò)誤,即概率p很小時(shí),(1-p)因子就會接近1,其損失不被影響;當(dāng)一個(gè)樣本分類正確,即其概率很大接近1時(shí),因子(1-p)就接近0,這個(gè)樣本的權(quán)重就被降低了。γ參數(shù)調(diào)節(jié)易分樣本降低權(quán)重的比例,顯然,樣本越易分,則對損失的貢獻(xiàn)越小,相對來說,難分樣本所占的比重就會變大。

        2.4 非極大值抑制

        在檢測任務(wù)的后續(xù)處理中,需要使用非極大值抑制進(jìn)行搜尋,消除冗余的檢測框,找到最佳的檢測框,非極大值抑制效果示意圖如圖3所示。首先,將檢測結(jié)果按照置信度得分進(jìn)行排序,選中概率最大的檢測結(jié)果,將其余檢測框與這個(gè)檢測框進(jìn)行比較,若IOU大于某一設(shè)定的閾值,則認(rèn)為這些檢測框包含于目前這個(gè)得分最高的檢測框中;然后,將這些檢測框刪除,保留第一個(gè)檢測框;最后,從未處理的檢測框中繼續(xù)選擇概率最大的檢測框,重復(fù)上述過程,直到處理完所有的檢測框,得到最終保留下來的結(jié)果。

        圖3 非極大值抑制效果示意圖

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        (1)足球場景的文本檢測數(shù)據(jù)集:對足球賽事場景下的文本進(jìn)行標(biāo)注。足球賽事圖片截取于20個(gè)足球賽事視頻中,對圖片中英文字符、數(shù)字、符號“:”和符號“-”進(jìn)行標(biāo)注。分別標(biāo)注了文本的坐標(biāo)信息以及文本內(nèi)容,生成相應(yīng)的xml標(biāo)簽文件。標(biāo)注共得到3000張圖片,包含34512個(gè)文本區(qū)域。足球賽事場景下文本標(biāo)注的圖片如圖4所示,標(biāo)簽如圖5所示。使用該數(shù)據(jù)集的2300張樣本作為訓(xùn)練數(shù)據(jù),用于微調(diào)訓(xùn)練網(wǎng)絡(luò)模型;其余的700張樣本作為測試數(shù)據(jù),用于對算法的驗(yàn)證。

        圖4 足球場景下文本標(biāo)注圖片

        圖5 足球場景下文本標(biāo)注的標(biāo)簽

        (2)數(shù)字合成數(shù)據(jù)集:制作合成數(shù)據(jù)工具,由背景圖片和提供的數(shù)字或字符自動合成供文本檢測的圖片,每張圖片具有對應(yīng)的標(biāo)簽文件,標(biāo)簽文件中是文本的位置信息。該方法共合成200000張圖片。數(shù)字合成圖片如圖6所示,標(biāo)簽如圖7所示。該數(shù)據(jù)集用于預(yù)訓(xùn)練網(wǎng)絡(luò)模型。

        圖6 數(shù)字合成圖片

        圖7 數(shù)字合成圖片的標(biāo)簽

        (3)SythText[15]數(shù)據(jù)集:SythText是公開數(shù)據(jù)集,由真實(shí)的自然場景圖片和文本實(shí)例合成。該數(shù)據(jù)集包含858750張圖片,這些圖片由11698張背景圖片和7266866個(gè)單詞文本構(gòu)成。SythText數(shù)據(jù)集用于預(yù)訓(xùn)練網(wǎng)絡(luò)模型。

        3.2 實(shí)驗(yàn)細(xì)節(jié)

        網(wǎng)絡(luò)輸入采用300×300大小的圖片,RGB三通道輸入。在訓(xùn)練過程中,加載VGG-16模型中相應(yīng)的參數(shù)(即表1中Conv1_1到Conv4_3的參數(shù))對網(wǎng)絡(luò)這部分卷積層進(jìn)行初始化。訓(xùn)練采用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)進(jìn)行網(wǎng)絡(luò)優(yōu)化學(xué)習(xí),動量參數(shù)為0.9,權(quán)值衰減為(Weight Decay)為0.0005,學(xué)習(xí)率初始化設(shè)置為0.001,以指數(shù)衰減法更新學(xué)習(xí)率。實(shí)驗(yàn)在Windows系統(tǒng)下完成,GPU配置為NVIDIA GTX1080,采用的深度學(xué)習(xí)框架為Google的TensorFlow,使用Python進(jìn)行編程實(shí)驗(yàn)。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        本文分別對基礎(chǔ)網(wǎng)絡(luò)TextBoxes、重新設(shè)定默認(rèn)框的改進(jìn)網(wǎng)絡(luò)OursDefault、在OursDefault基礎(chǔ)上使用Focal Loss作為損失函數(shù)的改進(jìn)網(wǎng)絡(luò)OursDefault+Focal進(jìn)行訓(xùn)練與測試。

        測試數(shù)據(jù)為700張足球場景下文本檢測圖片,與訓(xùn)練數(shù)據(jù)不重復(fù)。評估基于三個(gè)指標(biāo):精確度P、召回率R、綜合指標(biāo)F。精確度P為正確檢測到的文本數(shù)量與所有預(yù)測出的矩形框個(gè)數(shù)的比值;召回率R為正確檢測到的文本數(shù)量與所有真實(shí)文本數(shù)量的比值;綜合指標(biāo)F為精確度P和召回率R的調(diào)和平均值。本文對測試數(shù)據(jù)中全部文本的精確度、召回率和綜合指標(biāo)進(jìn)行評估,并分別對數(shù)字文本和字母文本的召回率進(jìn)行評估。

        表2 不同算法的檢測性能對比

        表2為對基礎(chǔ)算法TextBoxes、本文改進(jìn)算法OursDefault、OursDefault+Focal的檢測性能的對比??梢钥闯?,本文改進(jìn)的模型在召回率和綜合指標(biāo)上均有提升。首先,OursDefault模型與TextBoxes基礎(chǔ)模型的結(jié)果相比較,召回率有較大的提升,說明本文提出的改進(jìn)方法能正確檢測到更多的真實(shí)文本。尤其是數(shù)字文本的召回率,OursDefault模型相比TextBoxes模型提高了將近10%,說明本文提出的改進(jìn)算法能夠有效檢測數(shù)字文本。其次,OursDefault+Focal模型與前兩個(gè)模型相比較,全部文本、數(shù)字文本、字母文本的召回率均有提升,并且綜合指標(biāo)F最高。精確度有所下降的原因是,改進(jìn)后的模型對文本特征更為敏感,會將測試圖片中與文本極為相似的圖案檢測為文本。

        圖8為TextBoxes模型與OursDefault模型檢測結(jié)果的展示??梢钥闯?,TextBoxes算法對于橫向文本可以成功檢測,但是對于豎狀的文本、側(cè)身時(shí)導(dǎo)致寬高比很小的文本,如圖8中的球衣號碼“7”、球衣號碼“16”,難以檢測。本文算法OursDefault在重新對默認(rèn)框進(jìn)行設(shè)置后,對于這些寬高比小的豎狀文本,均能夠有效檢測。檢測效果得到改善是因?yàn)樵糡extBoxes模型中均為寬高比大于1的默認(rèn)框,而改進(jìn)后的OursDefault模型中設(shè)置有寬高比小于1 的默認(rèn)框,這些默認(rèn)框能夠?qū)η蛞绿柎a這種大多為豎狀的文本更好地?cái)M合。

        圖9為OursDefault模型與OursDefault+Focal模型檢測結(jié)果比較??梢钥闯?,相較于OursDefault模型,OursDefault+Focal模型在遮擋、殘缺、模糊的情況下,能夠更成功地檢測到文本。這是因?yàn)?,足球賽事場景中的背景區(qū)域遠(yuǎn)遠(yuǎn)多于文本區(qū)域,在我們選取的默認(rèn)框中,負(fù)樣本數(shù)要遠(yuǎn)遠(yuǎn)多于正樣本,正負(fù)樣本不均衡。本文提出使用Focal Loss作為分類損失函數(shù)進(jìn)行訓(xùn)練,在訓(xùn)練過程中Focal Loss對不同樣本賦予不同的權(quán)重。易于區(qū)分的樣本權(quán)重較小,難以檢測的目標(biāo)權(quán)重較大,有效解決了樣本不均衡帶來的問題。對遮擋、殘缺、模糊這類難以區(qū)分的樣本,在訓(xùn)練時(shí)給予較大權(quán)重,因此該模型能夠?qū)ζ溆行z測。

        TextBoxes檢測結(jié)果 OursDefault檢測結(jié)果圖8 TextBoxes與OursDefault檢測結(jié)果比較

        OursDefault檢測結(jié)果 OursDefault+Focal檢測結(jié)果圖9 OursDefault與OursDefault+Focal檢測結(jié)果比較

        4 結(jié)論

        本文采用卷積神經(jīng)網(wǎng)絡(luò)對足球賽事場景下的文本進(jìn)行檢測,在TextBoxes網(wǎng)絡(luò)的基礎(chǔ)上提出兩點(diǎn)改進(jìn):一是重新設(shè)置默認(rèn)框,解決球衣號碼等豎狀文本的檢測問題;二是使用Focal Loss作為分類損失函數(shù)進(jìn)行訓(xùn)練,解決背景與文本的正負(fù)樣本不均衡問題。此外,還制作了足球賽事場景下文本檢測的數(shù)據(jù)集,用于訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)方法是有效的。在下一步的研究中,考慮將角度信息用于位置回歸任務(wù)中,實(shí)現(xiàn)對傾斜文本的多方向檢測。

        猜你喜歡
        足球賽事損失卷積
        重慶市南岸區(qū)珊瑚魯能小學(xué)校開展足球賽事精彩瞬間
        校園足球(2023年4期)2023-08-10 10:21:50
        體教融合:青少年校園足球賽事的教育價(jià)值探析
        和足球賽事有關(guān)的英文表達(dá)
        少問一句,損失千金
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        胖胖損失了多少元
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        一般自由碰撞的最大動能損失
        亚洲成人激情深爱影院在线| 国内揄拍国内精品少妇| 久久综合狠狠综合久久| 制服丝袜天堂国产日韩| av在线免费播放网站| 中文字幕国产亚洲一区| 国产精品成人va在线观看| 久久无码av中文出轨人妻| 91福利视频免费| 玩弄极品少妇被弄到高潮| 有坂深雪中文字幕亚洲中文| 中国女人内谢69xxxx免费视频| 国产欧美日韩一区二区三区在线 | 无码啪啪熟妇人妻区| 杨幂一区二区系列在线| 久久精品中文闷骚内射| 国产内射合集颜射| 国产偷国产偷亚洲欧美高清| 韩国女主播一区二区三区在线观看 | 亚洲精品久久久中文字| 久久午夜一区二区三区| 亚洲成a∨人片在线观看无码 | 45岁妇女草逼视频播放| 日本精品少妇一区二区三区| 亚洲国产高清在线一区二区三区| 国产91在线|亚洲| av在线天堂国产一区| 黑人大群体交免费视频| 亚洲午夜福利在线观看| 精品的一区二区三区| 青青草视频在线观看入口| 国产三级av在线播放| 欧美成人免费高清视频| 久久精品国产乱子伦多人| 国产三级av大全在线爽| 亚洲精品国偷拍自产在线观看| 国产久热精品无码激情 | 久久精品国语对白黄色| 在厨房被c到高潮a毛片奶水| 国产黄a三级三级三级av在线看| 亚洲视频在线播放免费视频|