亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)EAST 算法的電廠電氣設(shè)備銘牌文字檢測(cè)

2019-10-19 07:31:04孟健曾憲文高桂革

現(xiàn)代計(jì)算機(jī) 2019年25期

關(guān)鍵詞：檢測(cè)

孟健，曾憲文，高桂革

（1.上海電機(jī)學(xué)院電子信息學(xué)院，上海201306；2.上海電機(jī)學(xué)院電氣學(xué)院，上海201306）

0 引言

目前，電廠設(shè)備巡檢主要依靠人工巡檢，這種方法存在作業(yè)環(huán)境惡劣、勞動(dòng)強(qiáng)度大、重復(fù)性高的問題，巡檢機(jī)器人可以減少工作人員在高危環(huán)境下巡檢作業(yè)的危險(xiǎn)，提高巡檢的質(zhì)量和效率。巡檢機(jī)器人裝有視覺檢測(cè)設(shè)備，在巡檢過程中可以檢測(cè)電廠電氣設(shè)備銘牌文字，協(xié)助機(jī)器人進(jìn)行場(chǎng)景理解[1]。

從場(chǎng)景中檢測(cè)文字用來進(jìn)行場(chǎng)景理解已經(jīng)成為了計(jì)算機(jī)視覺任務(wù)的研究熱點(diǎn)，主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的文字檢測(cè)算法依靠人工設(shè)計(jì)特征。文獻(xiàn)[4]利用文字的局部對(duì)稱性設(shè)計(jì)了不同特征檢測(cè)文字區(qū)域。文獻(xiàn)[5]采用關(guān)鍵點(diǎn)檢測(cè)進(jìn)行筆畫提取，設(shè)計(jì)出一種快速的文字檢測(cè)系統(tǒng)。但是在進(jìn)行低分辨率和畸變圖像的檢測(cè)時(shí)，這些傳統(tǒng)方法的準(zhǔn)確性和適應(yīng)性不如深度學(xué)習(xí)方法。文獻(xiàn)[6]首次提出使用MSER（Maximally Stable Extremal Regions）搜索候選文字區(qū)域，然后使用深度卷積網(wǎng)絡(luò)作為特征分類器刪減錯(cuò)誤的候選文字區(qū)域。文獻(xiàn)[7]提出利用FCN（Fully Convolutional Network）生成熱點(diǎn)圖，然后利用投影進(jìn)行文字方向估計(jì)。文獻(xiàn)[8]將文本檢測(cè)和文本識(shí)別整合在同一個(gè)網(wǎng)絡(luò)中共同訓(xùn)練，共享卷積層，以提高整體性能。文獻(xiàn)[9]提出一種新的文本檢測(cè)器TextField 檢測(cè)不規(guī)則文本。文獻(xiàn)[10]提出一種端到端的文本檢測(cè)方法，省去不必要的中間步驟，直接預(yù)測(cè)文本區(qū)域。但是這些方法都是在公共數(shù)據(jù)集上訓(xùn)練和測(cè)試，對(duì)于電廠環(huán)境下電氣設(shè)備銘牌文字檢測(cè)的準(zhǔn)確率并不高，文中基于文獻(xiàn)[10]提出一種改進(jìn)EAST（Efficient and Accurate Scene Text Detector）算法的電廠電氣設(shè)備銘牌文字檢測(cè)方法，運(yùn)用更深的網(wǎng)絡(luò)進(jìn)行特征提取和多尺度訓(xùn)練提高算法對(duì)不同尺度圖像的泛化能力，然后運(yùn)用平衡權(quán)重策略改進(jìn)損失函數(shù)解決文字尺度不平衡的問題，環(huán)境適應(yīng)性更強(qiáng)。

1 銘牌文字檢測(cè)算法設(shè)計(jì)

1.1 EAST算法簡(jiǎn)介

EAST 算法是一種快速而準(zhǔn)確的文本檢測(cè)算法，該算法省去了不必要的中間步驟，直接預(yù)測(cè)文本區(qū)域。

（1）EAST 算法網(wǎng)絡(luò)結(jié)構(gòu)

EAST 算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

由圖1 可知該網(wǎng)絡(luò)分為特征提取分支、特征合并分支和輸出層三個(gè)部分。

特征提取分支從VGG-16 網(wǎng)絡(luò)的四組卷積層Conv1～Conv4 提取四組特征圖f1、f2、f3、f4，其尺寸分別是輸入圖像尺寸的1/4、1/8、1/16、1/32。

圖1 EAST算法網(wǎng)絡(luò)結(jié)構(gòu)

特征合并分支逐層合并生成的四組特征圖，合并過程中首先需要通過unpool 操作統(tǒng)一特征圖的尺度，再通過concat 操作串聯(lián)特征圖，然后通過1×1 卷積層減少通道數(shù)量和計(jì)算量，最后利用3×3 卷積層將局部信息融合產(chǎn)生該合并階段的輸出。在最后一個(gè)合并階段之后，使用3×3 的卷積核融合所有的特征并將其送到輸出層。

輸出層分為三個(gè)部分：置信度、文字區(qū)域和文字區(qū)域旋轉(zhuǎn)角度。置信度由一個(gè)1×1 卷積核生成，其取值范圍在[0,1]之間，表示該像素是文字像素的置信度，文字區(qū)域由四個(gè)1×1 卷積核生成，每個(gè)卷積核的值分別表示當(dāng)前像素到包圍文字的最小矩形框的上邊界距離d1、右邊界距離d2、下邊界距離d3、左邊界距離d4，文字區(qū)域旋轉(zhuǎn)角度由一個(gè)1×1 卷積核生成，表示包圍文字的最小矩形框的旋轉(zhuǎn)角度。

（2）損失函數(shù)

原算法的損失函數(shù)定義如式（1）：

其中，Lcls表示置信度的分類損失，Lreg表示該文字區(qū)域及文字區(qū)域旋轉(zhuǎn)角度的回歸損失。

分類損失的定義如式（2）：

其中，Y*表示置信度真實(shí)值，表示置信度預(yù)測(cè)值。β是正負(fù)樣本的平衡因子，定義如式（3）：

回歸損失的定義如式（4）：

其中，Lgeo表示文字區(qū)域損失，Lθ表示文字區(qū)域旋轉(zhuǎn)角度損失。

式（5）中R* Y*表示文字區(qū)域真實(shí)值，表示文字區(qū)域預(yù)測(cè)值。式（6）中θ*Y*表示文字區(qū)域旋轉(zhuǎn)角度真實(shí)值表示文字區(qū)域旋轉(zhuǎn)角度預(yù)測(cè)值。

1.2 改進(jìn)EAST算法

（1）網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

原EAST 算法使用圖像分類任務(wù)中的VGG-16 網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)，由于網(wǎng)絡(luò)的深度只有16 層，使用該網(wǎng)絡(luò)檢測(cè)的文字準(zhǔn)確率不夠高。

圖像分類領(lǐng)域的研究表明，深層的神經(jīng)網(wǎng)絡(luò)能夠提取更多的特征，提高檢測(cè)的準(zhǔn)確率[11]。文獻(xiàn)[12]中的ResNet-50 網(wǎng)絡(luò)將網(wǎng)絡(luò)深度增加到50 層，并加入跳躍連接（Shortcut Connection）防止網(wǎng)絡(luò)深度增加時(shí)出現(xiàn)梯度消失，在圖像分類任務(wù)中該網(wǎng)絡(luò)的表現(xiàn)優(yōu)于VGG-16網(wǎng)絡(luò)。為了提高電廠電氣設(shè)備銘牌文字檢測(cè)的準(zhǔn)確性，文中引入ResNet-50 網(wǎng)絡(luò)替代原算法中的VGG-16網(wǎng)絡(luò)提取圖像特征。改進(jìn)EAST 算法的ResNet-50 特征提取分支參數(shù)如表1 所示，其中第一列表示該網(wǎng)絡(luò)由五組卷積層Conv1～Conv5 組成，第二列表示每組卷積層包含的隱藏層層數(shù)，第三列表示每個(gè)隱藏層的卷積核結(jié)構(gòu)，該結(jié)構(gòu)由卷積核的數(shù)量長(zhǎng)度、寬度表示，如Conv1 隱藏層的卷積核結(jié)構(gòu)64×7×7 表示64 個(gè)長(zhǎng)為7、寬為7 的卷積核。

表1 ResNet-50 特征提取分支

改進(jìn)EAST 算法的網(wǎng)絡(luò)架構(gòu)如圖2 所示。從圖中可知，改進(jìn)后的網(wǎng)絡(luò)架構(gòu)運(yùn)用ResNet-50 網(wǎng)絡(luò)代替VGG-16 網(wǎng)絡(luò)提取特征，并取出Conv2～Conv5 的四組特征圖f1、f2、f3、f4輸入到特征合并分支，特征圖尺寸分別是輸入圖像尺寸的1/4、1/8、1/16、1/32。

圖2 改進(jìn)EAST網(wǎng)絡(luò)架構(gòu)

（2）多尺度訓(xùn)練

實(shí)際電廠環(huán)境中銘牌文字受到拍攝距離的影響，不同尺度圖像上的銘牌文字尺度差異大。在訓(xùn)練階段，原EAST 算法使用固定尺度的圖像進(jìn)行訓(xùn)練，因此對(duì)于不同尺度的銘牌文字圖像，該算法的泛化能力不高。文中采用多尺度訓(xùn)練方法，在訓(xùn)練階段為每張圖像設(shè)置224×224、512×512、720×720 三種不同的尺度，然后每張圖像隨機(jī)選擇其中一種尺度組成多尺度圖像訓(xùn)練集。實(shí)驗(yàn)證明多尺度訓(xùn)練能夠提高算法對(duì)不同尺度圖像銘牌文字檢測(cè)的泛化能力。

（3）損失函數(shù)優(yōu)化

EAST 算法使用交叉熵?fù)p失函數(shù)作為分類損失函數(shù)，但是該函數(shù)的收斂速度慢，訓(xùn)練過程消耗大量時(shí)間，因此為了加快收斂速度，文中引入圖像分割任務(wù)中常用的Dice 系數(shù)損失函數(shù)作為分類損失函數(shù)[13]，用來表示分?jǐn)?shù)圖預(yù)測(cè)值和真實(shí)值的相似度，如公式（7）所示。

式中|·|表示曼哈頓距離（L1 norm），Y*表示真實(shí)值，表示預(yù)測(cè)值。Dice 損失函數(shù)的取值范圍為[0,1]。因?yàn)閾p失函數(shù)的值越小訓(xùn)練的效果越好，所以Ls為0 代表相似度高，Ls為1 代表相似度低。

圖3 為改進(jìn)EAST 算法和EAST 算法訓(xùn)練過程中的損失值曲線。圖中可以看出兩種算法在20000 次迭代前的損失值比較接近，經(jīng)過80000 次迭代后，改進(jìn)EAST 算法的損失值收斂到0.12 左右，EAST 算法的損失值收斂到0.25 左右。因此改進(jìn)EAST 算法的收斂速度比EAST 的算法更快。

圖3 損失值曲線

由于實(shí)際圖像中文字尺度變化較大，尺度大文字在回歸損失中的權(quán)重較大，導(dǎo)致尺度小的文字難以檢測(cè)。因此文中運(yùn)用平衡權(quán)重策略對(duì)文字區(qū)域損失Lgeo進(jìn)行改進(jìn)，使不同尺度的文字在Lgeo中的權(quán)重保持一致。具體來講，對(duì)于一張包含N 個(gè)文字區(qū)域的圖像，圖像中任一像素p 滿足公式（8）：

其中，S 表示圖像中所有文字像素的個(gè)數(shù)，Sp 表示包含像素p 的文字區(qū)域中文字像素的個(gè)數(shù)，p∈T 表示p是文字像素。當(dāng)文字尺度較大時(shí)，權(quán)值會(huì)受到抑制，當(dāng)文字尺度較小時(shí)，權(quán)值會(huì)變大，因此不同尺度的文字區(qū)域權(quán)重得到平衡。改進(jìn)后的Lgeo如公式（9）所示：

2 實(shí)驗(yàn)驗(yàn)證結(jié)果與分析

本實(shí)驗(yàn)在Ubuntu 系統(tǒng)上進(jìn)行，使用的顯卡為NVIDIA GTX 1080 Ti，內(nèi)存為8G。

2.1 數(shù)據(jù)集

某電廠電氣設(shè)備銘牌文字編碼采用KKS 編碼規(guī)范，語言為英文[14]。為了提高算法的泛化能力，本實(shí)驗(yàn)使用兩個(gè)公開的標(biāo)準(zhǔn)數(shù)據(jù)集ICDAR2015 和COCOText 數(shù)據(jù)集預(yù)訓(xùn)練[15-16]，這兩個(gè)數(shù)據(jù)集圖像是在室外隨機(jī)拍攝的，包含水平和傾斜的英文文字，存在環(huán)境光的干擾，和該電廠場(chǎng)景類似。另外本實(shí)驗(yàn)采集了3000 張?jiān)撾姀S電氣設(shè)備銘牌文字圖像構(gòu)成銘牌數(shù)據(jù)集，并且根據(jù)實(shí)驗(yàn)要求使用綠色方框?qū)︺懪茀^(qū)域中的英文編碼進(jìn)行標(biāo)注，如圖4 所示。

圖4 標(biāo)注圖片數(shù)據(jù)

2.2 模型訓(xùn)練

為了獲得比較高的泛化能力，實(shí)驗(yàn)在ICDAR2015和COCO-Text 數(shù)據(jù)集上先進(jìn)行訓(xùn)練獲得預(yù)訓(xùn)練權(quán)重。為了加快訓(xùn)練速度，實(shí)驗(yàn)使用隨機(jī)梯度下降法SGD（Stochastic Gradient Descent）進(jìn)行優(yōu)化，批訓(xùn)練數(shù)量為20，默認(rèn)的動(dòng)量為0.9，權(quán)重衰減系數(shù)為0.0005，初始學(xué)習(xí)速度為0.001，每20000 次迭代以后學(xué)習(xí)速度衰減為原來的十分之一，學(xué)習(xí)速度到0.000001 后不再衰減。

2.3 實(shí)驗(yàn)結(jié)果與分析

為了評(píng)估改進(jìn)前后的算法對(duì)電氣設(shè)備銘牌檢測(cè)的有效性，實(shí)驗(yàn)使用準(zhǔn)確率（precision）、檢出率（recall）、F值（F-measure）評(píng)價(jià)算法的有效性。具體定義如公式（10）所示：

其中，TP、FP、FN 分別表示正確預(yù)測(cè)的文字區(qū)域數(shù)、錯(cuò)誤預(yù)測(cè)的文字區(qū)域數(shù)和漏檢的文字區(qū)域數(shù)。

（1）同場(chǎng)景對(duì)比改進(jìn)前后檢測(cè)效果

使用2000 張銘牌數(shù)據(jù)集圖像對(duì)原EAST 算法和結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、多尺度訓(xùn)練和損失函數(shù)優(yōu)化的EAST 算法進(jìn)行訓(xùn)練，然后將訓(xùn)練好的模型在1000 張銘牌數(shù)據(jù)集圖像（包含2065 個(gè)銘牌文字目標(biāo)）進(jìn)行測(cè)試。改進(jìn)前后算法的效果對(duì)比如表2 所示。

表2 兩種算法效果對(duì)比

從表2 可以看出改進(jìn)EAST 算法在檢測(cè)準(zhǔn)確率上提高了6.1%，檢出率上提高了7.7%，F(xiàn) 值提高了4.2%。圖5 為實(shí)際電廠環(huán)境下的檢測(cè)結(jié)果對(duì)比，圖（b）可以看出改進(jìn)EAST 算法能夠準(zhǔn)確檢測(cè)出較多的英文和數(shù)字，而圖（a）中EAST 算法容易出現(xiàn)漏檢。實(shí)驗(yàn)證明改進(jìn)EAST 算法性能優(yōu)于EAST 算法。

圖5 實(shí)際檢測(cè)結(jié)果對(duì)比

（2）不同置信度閾值檢測(cè)效果對(duì)比

檢測(cè)的準(zhǔn)確率和檢出率與置信度閾值的選擇有關(guān)，實(shí)驗(yàn)基于改進(jìn)EAST 算法研究了置信度閾值對(duì)檢測(cè)效果的影響。圖6 展示了5 種置信度閾值下改進(jìn)EAST 算法檢測(cè)的準(zhǔn)確率和檢出率。

圖6 不同置信度閾值對(duì)比

從圖6 可以看出隨著置信度閾值的增加，改進(jìn)EAST 算法檢測(cè)的準(zhǔn)確率得到提高，但是由于高置信度情況下不考慮許多低置信度文字區(qū)域，檢出率在不斷降低。為了同時(shí)保證檢測(cè)的準(zhǔn)確率和檢出率，使用綜合指標(biāo)F 值來選擇置信度閾值，從圖中可以看出置信度閾值為0.3 時(shí)F 值最大，因此置信度閾值選擇0.3。

（3）不同優(yōu)化方法檢測(cè)效果對(duì)比

表3 列出了不同優(yōu)化方法對(duì)檢測(cè)效果的影響。由于增加了網(wǎng)絡(luò)深度后能夠提取更多的特征，方法2 比方法1 準(zhǔn)確率提高了2.1%。由于多尺度訓(xùn)練增加了網(wǎng)絡(luò)對(duì)不同尺寸圖像的魯棒性，方法3 比方法2 準(zhǔn)確率提高了1.2%。方法3 和方法5 對(duì)比后發(fā)現(xiàn)，優(yōu)化損失函數(shù)后的方法準(zhǔn)確率提高了2.8%。實(shí)驗(yàn)證明三種優(yōu)化方法均能提高算法的有效性。

表3 不同優(yōu)化方法效果對(duì)比

（4）多場(chǎng)景檢測(cè)效果

如圖7 所示，實(shí)驗(yàn)測(cè)試了多場(chǎng)景下改進(jìn)EAST 算法的檢測(cè)效果。圖7（a）、（b）、（c）、（d）分別展示了金屬反光、透視、文字傾斜角度大、文字磨損條件下改進(jìn)EAST 算法的檢測(cè)效果。實(shí)驗(yàn)表明改進(jìn)后的算法有較好的環(huán)境適應(yīng)性。

圖7 多場(chǎng)景檢測(cè)結(jié)果

3 結(jié)語

本文提出一種基于改進(jìn)EAST 算法的電廠電氣設(shè)備銘牌文字檢測(cè)方法，運(yùn)用更深的網(wǎng)絡(luò)進(jìn)行特征提取，同時(shí)結(jié)合多尺度訓(xùn)練提高算法對(duì)不同尺度圖像的泛化能力，然后運(yùn)用平衡權(quán)重策略改進(jìn)損失函數(shù)解決文字尺度不平衡的問題。實(shí)驗(yàn)驗(yàn)證了文中提出的算法具有檢測(cè)準(zhǔn)確性高、環(huán)境適應(yīng)性強(qiáng)的優(yōu)點(diǎn)，能夠有效提高電氣設(shè)備銘牌文字檢測(cè)精度，具有一定的工程應(yīng)用價(jià)值。