孟健,曾憲文,高桂革
(1.上海電機(jī)學(xué)院電子信息學(xué)院,上海201306;2.上海電機(jī)學(xué)院電氣學(xué)院,上海201306)
目前,電廠設(shè)備巡檢主要依靠人工巡檢,這種方法存在作業(yè)環(huán)境惡劣、勞動(dòng)強(qiáng)度大、重復(fù)性高的問題,巡檢機(jī)器人可以減少工作人員在高危環(huán)境下巡檢作業(yè)的危險(xiǎn),提高巡檢的質(zhì)量和效率。巡檢機(jī)器人裝有視覺檢測(cè)設(shè)備,在巡檢過程中可以檢測(cè)電廠電氣設(shè)備銘牌文字,協(xié)助機(jī)器人進(jìn)行場(chǎng)景理解[1]。
從場(chǎng)景中檢測(cè)文字用來進(jìn)行場(chǎng)景理解已經(jīng)成為了計(jì)算機(jī)視覺任務(wù)的研究熱點(diǎn),主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的文字檢測(cè)算法依靠人工設(shè)計(jì)特征。文獻(xiàn)[4]利用文字的局部對(duì)稱性設(shè)計(jì)了不同特征檢測(cè)文字區(qū)域。文獻(xiàn)[5]采用關(guān)鍵點(diǎn)檢測(cè)進(jìn)行筆畫提取,設(shè)計(jì)出一種快速的文字檢測(cè)系統(tǒng)。但是在進(jìn)行低分辨率和畸變圖像的檢測(cè)時(shí),這些傳統(tǒng)方法的準(zhǔn)確性和適應(yīng)性不如深度學(xué)習(xí)方法。文獻(xiàn)[6]首次提出使用MSER(Maximally Stable Extremal Regions)搜索候選文字區(qū)域,然后使用深度卷積網(wǎng)絡(luò)作為特征分類器刪減錯(cuò)誤的候選文字區(qū)域。文獻(xiàn)[7]提出利用FCN(Fully Convolutional Network)生成熱點(diǎn)圖,然后利用投影進(jìn)行文字方向估計(jì)。文獻(xiàn)[8]將文本檢測(cè)和文本識(shí)別整合在同一個(gè)網(wǎng)絡(luò)中共同訓(xùn)練,共享卷積層,以提高整體性能。文獻(xiàn)[9]提出一種新的文本檢測(cè)器TextField 檢測(cè)不規(guī)則文本。文獻(xiàn)[10]提出一種端到端的文本檢測(cè)方法,省去不必要的中間步驟,直接預(yù)測(cè)文本區(qū)域。但是這些方法都是在公共數(shù)據(jù)集上訓(xùn)練和測(cè)試,對(duì)于電廠環(huán)境下電氣設(shè)備銘牌文字檢測(cè)的準(zhǔn)確率并不高,文中基于文獻(xiàn)[10]提出一種改進(jìn)EAST(Efficient and Accurate Scene Text Detector)算法的電廠電氣設(shè)備銘牌文字檢測(cè)方法,運(yùn)用更深的網(wǎng)絡(luò)進(jìn)行特征提取和多尺度訓(xùn)練提高算法對(duì)不同尺度圖像的泛化能力,然后運(yùn)用平衡權(quán)重策略改進(jìn)損失函數(shù)解決文字尺度不平衡的問題,環(huán)境適應(yīng)性更強(qiáng)。
EAST 算法是一種快速而準(zhǔn)確的文本檢測(cè)算法,該算法省去了不必要的中間步驟,直接預(yù)測(cè)文本區(qū)域。
(1)EAST 算法網(wǎng)絡(luò)結(jié)構(gòu)
EAST 算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
由圖1 可知該網(wǎng)絡(luò)分為特征提取分支、特征合并分支和輸出層三個(gè)部分。
特征提取分支從VGG-16 網(wǎng)絡(luò)的四組卷積層Conv1~Conv4 提取四組特征圖f1、f2、f3、f4,其尺寸分別是輸入圖像尺寸的1/4、1/8、1/16、1/32。
圖1 EAST算法網(wǎng)絡(luò)結(jié)構(gòu)
特征合并分支逐層合并生成的四組特征圖,合并過程中首先需要通過unpool 操作統(tǒng)一特征圖的尺度,再通過concat 操作串聯(lián)特征圖,然后通過1×1 卷積層減少通道數(shù)量和計(jì)算量,最后利用3×3 卷積層將局部信息融合產(chǎn)生該合并階段的輸出。在最后一個(gè)合并階段之后,使用3×3 的卷積核融合所有的特征并將其送到輸出層。
輸出層分為三個(gè)部分:置信度、文字區(qū)域和文字區(qū)域旋轉(zhuǎn)角度。置信度由一個(gè)1×1 卷積核生成,其取值范圍在[0,1]之間,表示該像素是文字像素的置信度,文字區(qū)域由四個(gè)1×1 卷積核生成,每個(gè)卷積核的值分別表示當(dāng)前像素到包圍文字的最小矩形框的上邊界距離d1、右邊界距離d2、下邊界距離d3、左邊界距離d4,文字區(qū)域旋轉(zhuǎn)角度由一個(gè)1×1 卷積核生成,表示包圍文字的最小矩形框的旋轉(zhuǎn)角度。
(2)損失函數(shù)
原算法的損失函數(shù)定義如式(1):
其中,Lcls表示置信度的分類損失,Lreg表示該文字區(qū)域及文字區(qū)域旋轉(zhuǎn)角度的回歸損失。
分類損失的定義如式(2):
其中,Y*表示置信度真實(shí)值,表示置信度預(yù)測(cè)值。β是正負(fù)樣本的平衡因子,定義如式(3):
回歸損失的定義如式(4):
其中,Lgeo表示文字區(qū)域損失,Lθ表示文字區(qū)域旋轉(zhuǎn)角度損失。
式(5)中R* Y*表示文字區(qū)域真實(shí)值,表示文字區(qū)域預(yù)測(cè)值。式(6)中θ*Y*表示文字區(qū)域旋轉(zhuǎn)角度真實(shí)值表示文字區(qū)域旋轉(zhuǎn)角度預(yù)測(cè)值。
(1)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
原EAST 算法使用圖像分類任務(wù)中的VGG-16 網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),由于網(wǎng)絡(luò)的深度只有16 層,使用該網(wǎng)絡(luò)檢測(cè)的文字準(zhǔn)確率不夠高。
圖像分類領(lǐng)域的研究表明,深層的神經(jīng)網(wǎng)絡(luò)能夠提取更多的特征,提高檢測(cè)的準(zhǔn)確率[11]。文獻(xiàn)[12]中的ResNet-50 網(wǎng)絡(luò)將網(wǎng)絡(luò)深度增加到50 層,并加入跳躍連接(Shortcut Connection)防止網(wǎng)絡(luò)深度增加時(shí)出現(xiàn)梯度消失,在圖像分類任務(wù)中該網(wǎng)絡(luò)的表現(xiàn)優(yōu)于VGG-16網(wǎng)絡(luò)。為了提高電廠電氣設(shè)備銘牌文字檢測(cè)的準(zhǔn)確性,文中引入ResNet-50 網(wǎng)絡(luò)替代原算法中的VGG-16網(wǎng)絡(luò)提取圖像特征。改進(jìn)EAST 算法的ResNet-50 特征提取分支參數(shù)如表1 所示,其中第一列表示該網(wǎng)絡(luò)由五組卷積層Conv1~Conv5 組成,第二列表示每組卷積層包含的隱藏層層數(shù),第三列表示每個(gè)隱藏層的卷積核結(jié)構(gòu),該結(jié)構(gòu)由卷積核的數(shù)量長(zhǎng)度、寬度表示,如Conv1 隱藏層的卷積核結(jié)構(gòu)64×7×7 表示64 個(gè)長(zhǎng)為7、寬為7 的卷積核。
表1 ResNet-50 特征提取分支
改進(jìn)EAST 算法的網(wǎng)絡(luò)架構(gòu)如圖2 所示。從圖中可知,改進(jìn)后的網(wǎng)絡(luò)架構(gòu)運(yùn)用ResNet-50 網(wǎng)絡(luò)代替VGG-16 網(wǎng)絡(luò)提取特征,并取出Conv2~Conv5 的四組特征圖f1、f2、f3、f4輸入到特征合并分支,特征圖尺寸分別是輸入圖像尺寸的1/4、1/8、1/16、1/32。
圖2 改進(jìn)EAST網(wǎng)絡(luò)架構(gòu)
(2)多尺度訓(xùn)練
實(shí)際電廠環(huán)境中銘牌文字受到拍攝距離的影響,不同尺度圖像上的銘牌文字尺度差異大。在訓(xùn)練階段,原EAST 算法使用固定尺度的圖像進(jìn)行訓(xùn)練,因此對(duì)于不同尺度的銘牌文字圖像,該算法的泛化能力不高。文中采用多尺度訓(xùn)練方法,在訓(xùn)練階段為每張圖像設(shè)置224×224、512×512、720×720 三種不同的尺度,然后每張圖像隨機(jī)選擇其中一種尺度組成多尺度圖像訓(xùn)練集。實(shí)驗(yàn)證明多尺度訓(xùn)練能夠提高算法對(duì)不同尺度圖像銘牌文字檢測(cè)的泛化能力。
(3)損失函數(shù)優(yōu)化
EAST 算法使用交叉熵?fù)p失函數(shù)作為分類損失函數(shù),但是該函數(shù)的收斂速度慢,訓(xùn)練過程消耗大量時(shí)間,因此為了加快收斂速度,文中引入圖像分割任務(wù)中常用的Dice 系數(shù)損失函數(shù)作為分類損失函數(shù)[13],用來表示分?jǐn)?shù)圖預(yù)測(cè)值和真實(shí)值的相似度,如公式(7)所示。
式中|·|表示曼哈頓距離(L1 norm),Y*表示真實(shí)值,表示預(yù)測(cè)值。Dice 損失函數(shù)的取值范圍為[0,1]。因?yàn)閾p失函數(shù)的值越小訓(xùn)練的效果越好,所以Ls為0 代表相似度高,Ls為1 代表相似度低。
圖3 為改進(jìn)EAST 算法和EAST 算法訓(xùn)練過程中的損失值曲線。圖中可以看出兩種算法在20000 次迭代前的損失值比較接近,經(jīng)過80000 次迭代后,改進(jìn)EAST 算法的損失值收斂到0.12 左右,EAST 算法的損失值收斂到0.25 左右。因此改進(jìn)EAST 算法的收斂速度比EAST 的算法更快。
圖3 損失值曲線
由于實(shí)際圖像中文字尺度變化較大,尺度大文字在回歸損失中的權(quán)重較大,導(dǎo)致尺度小的文字難以檢測(cè)。因此文中運(yùn)用平衡權(quán)重策略對(duì)文字區(qū)域損失Lgeo進(jìn)行改進(jìn),使不同尺度的文字在Lgeo中的權(quán)重保持一致。具體來講,對(duì)于一張包含N 個(gè)文字區(qū)域的圖像,圖像中任一像素p 滿足公式(8):
其中,S 表示圖像中所有文字像素的個(gè)數(shù),Sp 表示包含像素p 的文字區(qū)域中文字像素的個(gè)數(shù),p∈T 表示p是文字像素。當(dāng)文字尺度較大時(shí),權(quán)值會(huì)受到抑制,當(dāng)文字尺度較小時(shí),權(quán)值會(huì)變大,因此不同尺度的文字區(qū)域權(quán)重得到平衡。改進(jìn)后的Lgeo如公式(9)所示:
本實(shí)驗(yàn)在Ubuntu 系統(tǒng)上進(jìn)行,使用的顯卡為NVIDIA GTX 1080 Ti,內(nèi)存為8G。
某電廠電氣設(shè)備銘牌文字編碼采用KKS 編碼規(guī)范,語言為英文[14]。為了提高算法的泛化能力,本實(shí)驗(yàn)使用兩個(gè)公開的標(biāo)準(zhǔn)數(shù)據(jù)集ICDAR2015 和COCOText 數(shù)據(jù)集預(yù)訓(xùn)練[15-16],這兩個(gè)數(shù)據(jù)集圖像是在室外隨機(jī)拍攝的,包含水平和傾斜的英文文字,存在環(huán)境光的干擾,和該電廠場(chǎng)景類似。另外本實(shí)驗(yàn)采集了3000 張?jiān)撾姀S電氣設(shè)備銘牌文字圖像構(gòu)成銘牌數(shù)據(jù)集,并且根據(jù)實(shí)驗(yàn)要求使用綠色方框?qū)︺懪茀^(qū)域中的英文編碼進(jìn)行標(biāo)注,如圖4 所示。
圖4 標(biāo)注圖片數(shù)據(jù)
為了獲得比較高的泛化能力,實(shí)驗(yàn)在ICDAR2015和COCO-Text 數(shù)據(jù)集上先進(jìn)行訓(xùn)練獲得預(yù)訓(xùn)練權(quán)重。為了加快訓(xùn)練速度,實(shí)驗(yàn)使用隨機(jī)梯度下降法SGD(Stochastic Gradient Descent)進(jìn)行優(yōu)化,批訓(xùn)練數(shù)量為20,默認(rèn)的動(dòng)量為0.9,權(quán)重衰減系數(shù)為0.0005,初始學(xué)習(xí)速度為0.001,每20000 次迭代以后學(xué)習(xí)速度衰減為原來的十分之一,學(xué)習(xí)速度到0.000001 后不再衰減。
為了評(píng)估改進(jìn)前后的算法對(duì)電氣設(shè)備銘牌檢測(cè)的有效性,實(shí)驗(yàn)使用準(zhǔn)確率(precision)、檢出率(recall)、F值(F-measure)評(píng)價(jià)算法的有效性。具體定義如公式(10)所示:
其中,TP、FP、FN 分別表示正確預(yù)測(cè)的文字區(qū)域數(shù)、錯(cuò)誤預(yù)測(cè)的文字區(qū)域數(shù)和漏檢的文字區(qū)域數(shù)。
(1)同場(chǎng)景對(duì)比改進(jìn)前后檢測(cè)效果
使用2000 張銘牌數(shù)據(jù)集圖像對(duì)原EAST 算法和結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、多尺度訓(xùn)練和損失函數(shù)優(yōu)化的EAST 算法進(jìn)行訓(xùn)練,然后將訓(xùn)練好的模型在1000 張銘牌數(shù)據(jù)集圖像(包含2065 個(gè)銘牌文字目標(biāo))進(jìn)行測(cè)試。改進(jìn)前后算法的效果對(duì)比如表2 所示。
表2 兩種算法效果對(duì)比
從表2 可以看出改進(jìn)EAST 算法在檢測(cè)準(zhǔn)確率上提高了6.1%,檢出率上提高了7.7%,F(xiàn) 值提高了4.2%。圖5 為實(shí)際電廠環(huán)境下的檢測(cè)結(jié)果對(duì)比,圖(b)可以看出改進(jìn)EAST 算法能夠準(zhǔn)確檢測(cè)出較多的英文和數(shù)字,而圖(a)中EAST 算法容易出現(xiàn)漏檢。實(shí)驗(yàn)證明改進(jìn)EAST 算法性能優(yōu)于EAST 算法。
圖5 實(shí)際檢測(cè)結(jié)果對(duì)比
(2)不同置信度閾值檢測(cè)效果對(duì)比
檢測(cè)的準(zhǔn)確率和檢出率與置信度閾值的選擇有關(guān),實(shí)驗(yàn)基于改進(jìn)EAST 算法研究了置信度閾值對(duì)檢測(cè)效果的影響。圖6 展示了5 種置信度閾值下改進(jìn)EAST 算法檢測(cè)的準(zhǔn)確率和檢出率。
圖6 不同置信度閾值對(duì)比
從圖6 可以看出隨著置信度閾值的增加,改進(jìn)EAST 算法檢測(cè)的準(zhǔn)確率得到提高,但是由于高置信度情況下不考慮許多低置信度文字區(qū)域,檢出率在不斷降低。為了同時(shí)保證檢測(cè)的準(zhǔn)確率和檢出率,使用綜合指標(biāo)F 值來選擇置信度閾值,從圖中可以看出置信度閾值為0.3 時(shí)F 值最大,因此置信度閾值選擇0.3。
(3)不同優(yōu)化方法檢測(cè)效果對(duì)比
表3 列出了不同優(yōu)化方法對(duì)檢測(cè)效果的影響。由于增加了網(wǎng)絡(luò)深度后能夠提取更多的特征,方法2 比方法1 準(zhǔn)確率提高了2.1%。由于多尺度訓(xùn)練增加了網(wǎng)絡(luò)對(duì)不同尺寸圖像的魯棒性,方法3 比方法2 準(zhǔn)確率提高了1.2%。方法3 和方法5 對(duì)比后發(fā)現(xiàn),優(yōu)化損失函數(shù)后的方法準(zhǔn)確率提高了2.8%。實(shí)驗(yàn)證明三種優(yōu)化方法均能提高算法的有效性。
表3 不同優(yōu)化方法效果對(duì)比
(4)多場(chǎng)景檢測(cè)效果
如圖7 所示,實(shí)驗(yàn)測(cè)試了多場(chǎng)景下改進(jìn)EAST 算法的檢測(cè)效果。圖7(a)、(b)、(c)、(d)分別展示了金屬反光、透視、文字傾斜角度大、文字磨損條件下改進(jìn)EAST 算法的檢測(cè)效果。實(shí)驗(yàn)表明改進(jìn)后的算法有較好的環(huán)境適應(yīng)性。
圖7 多場(chǎng)景檢測(cè)結(jié)果
本文提出一種基于改進(jìn)EAST 算法的電廠電氣設(shè)備銘牌文字檢測(cè)方法,運(yùn)用更深的網(wǎng)絡(luò)進(jìn)行特征提取,同時(shí)結(jié)合多尺度訓(xùn)練提高算法對(duì)不同尺度圖像的泛化能力,然后運(yùn)用平衡權(quán)重策略改進(jìn)損失函數(shù)解決文字尺度不平衡的問題。實(shí)驗(yàn)驗(yàn)證了文中提出的算法具有檢測(cè)準(zhǔn)確性高、環(huán)境適應(yīng)性強(qiáng)的優(yōu)點(diǎn),能夠有效提高電氣設(shè)備銘牌文字檢測(cè)精度,具有一定的工程應(yīng)用價(jià)值。