張洪成 張永林 吳夢宇 戴 磊
(江蘇科技大學電子信息學院 鎮(zhèn)江 212000)
我國船舶工業(yè)經(jīng)過數(shù)十年的發(fā)展,已躋身于世界造船強國之流,但在高技術(shù)船舶領域還有較大的發(fā)展空間。為此,《中國制造2025》將海洋工程裝備及高技術(shù)船舶領域作為重點突破的十大領域之一,并明確將船舶智能制造列為主攻方向[1]。我國“數(shù)字化造船”歷經(jīng)十多年的發(fā)展,擁有良好的信息化基礎,然而在船舶實際制造過程中,制造工藝和生產(chǎn)計劃等數(shù)據(jù)無法直接推送到制造現(xiàn)場,不能有效指導工人生產(chǎn)作業(yè)[2];實際制造現(xiàn)場的情況也無法及時反饋,難以支撐管理層的決策和管控,最終導致船舶中間產(chǎn)品的一次合格率和生產(chǎn)效率偏低[3]。為實現(xiàn)數(shù)據(jù)的實時交互,首先需要完成對船舶制造設備的數(shù)據(jù)自動采集工作。然而船舶制造設備年代久遠,存在部分數(shù)控設備數(shù)據(jù)傳輸接口毀壞或不存在的情況,無法直接進行數(shù)控設備數(shù)據(jù)自動采集。因此如何高效、準確、實時地進行船舶制造車間中無數(shù)據(jù)傳輸接口的數(shù)控設備數(shù)據(jù)采集工作是一個亟需解決的問題。
鑒于此,本文展開基于改進EAST 算法的船舶制造設備數(shù)據(jù)采集研究,為船舶制造過程的互聯(lián)互通平臺的研發(fā)做先行準備工作。首先利用工業(yè)攝像頭對船舶數(shù)控設備人機界面進行抓拍工作,然后對抓拍得到的圖像進行預處理,接著使用圖像處理中的OCR技術(shù)[4]進行文本檢測工作,以讀取人機界面的設備信息。本文采用目前OCR 領域中主流的EAST文本檢測算法,并使用ASPP網(wǎng)絡優(yōu)化原有網(wǎng)絡結(jié)構(gòu),提升Feature Map 的感受野,利用Dice soft loss 函數(shù)替代原有Loss 函數(shù),以此綜合提升對數(shù)控設備人機界面中長文本數(shù)據(jù)的識別效果,最終通過對識別結(jié)果中關(guān)鍵字進行搜索并讀取數(shù)據(jù),從而完成對無數(shù)據(jù)傳輸接口的船舶制造設備數(shù)據(jù)采集工作,補足船舶制造過程的互聯(lián)互通平臺中部分設備無法進行數(shù)據(jù)自動化讀取的缺陷。
傳統(tǒng)文本檢測算法多為多階段(Multi-stage)檢測算法,在訓練模型時需要進行多個階段調(diào)優(yōu)工作[5]。該調(diào)優(yōu)工作的多階段性導致調(diào)優(yōu)過程復雜度增大、訓練工程量增多且會對最終模型產(chǎn)生未可知因素的影響。East 文本檢測算法的端到端檢測機制,可降低檢測過程中中間冗余部分的占比,進而直接進行文本內(nèi)容的預測[6]。經(jīng)典East 檢測算法網(wǎng)絡結(jié)構(gòu)通常情況被分解為3 個層次:特征提?。‵eature extractor stem)、特征合并(Feature-merging branch)和輸出層(Output layer)[7],East 檢測算法網(wǎng)絡結(jié)構(gòu)示意圖如圖1所示。
圖1 East檢測算法網(wǎng)絡結(jié)構(gòu)圖
特征提取層(圖1 黃色部分):常見特征提取網(wǎng)絡為VGG、ResNet、PVANET等[8]。特診提取以ImageNet數(shù)據(jù)集上的預訓練的卷積神經(jīng)網(wǎng)絡參數(shù)進行初始化,當特征提取網(wǎng)絡為VGG16 模型時,特征提取分支從其四組卷積層Conv1~Conv4 提取四組特征提取4 個級別的Feature Map(特征圖)并用f1、f2、f3、f4進行表示,特征圖大小為原始圖像的1 /32、1 /16、1 /8 以及1/ 4[9]。
特征融合層(圖1綠色部分):采用逐層合并的方式,從下向上進行上采樣操作,將生成的Feature Map 輸入到unpooling(池化)層進行拓展,接著使用concat 函數(shù)對上下層Feature Map(記為hi)進行連接。然后通過1×1 的卷積層削減通道數(shù)量與計算量,最終在最后一個合并階段,將Feature Maph4使用3×3 的卷積核運算生成最終的Feature Map并傳輸?shù)捷敵鰧樱?0]。
輸出層(圖1藍色部分):方法一將該層分為置信度(Score Map)、文字區(qū)域(RBOX)和文字區(qū)域旋轉(zhuǎn)角度共三個部分;置信度由1×1 的卷積核生成,用于表示該像素的置信度;文字區(qū)域由4個1×1 的卷積核生成,卷積核的值代表當前像素到所包圍文字的最小矩形框的上、下、左、右界距離[11](分別記為d1、d2、d3、d4),文字區(qū)域旋轉(zhuǎn)角度由1 個1×1的卷積核生成,代表該矩形框的旋轉(zhuǎn)角度。
經(jīng)典EAST文本檢測網(wǎng)絡模型為了增加輸出單元的感受野,在池化層階段加入需要大量下采樣操作,進而導致特征樣本尺寸降低,上采樣階段提升分辨率的難度加大,最終導致輸出中部分特征映射感受野減小,編碼時會限制尺度信息。本文針對該問題,使用ASPP[12](Atrous Spatial Pyramid Pooling)網(wǎng)絡進行East文本檢測算法結(jié)構(gòu)方面的優(yōu)化,利用空洞卷積同尺寸下更大感受野的特性進行問題的解決。
首先將EAST 網(wǎng)絡結(jié)構(gòu)中的conv stage 4 部分修改為感受野更大的ASPP 網(wǎng)絡,修改后的網(wǎng)絡結(jié)構(gòu)如圖2 所示??斩淳矸e層級級關(guān)聯(lián),逐層擴張,將每個空洞卷積層的輸出、輸入以及其所有前層輸出關(guān)聯(lián)相組,最終特征層便可輸出尺寸更大一級的感受野,其通過使用幾個空洞卷積層可以生成更密集更大的特征金字塔。本設計中的ASPP網(wǎng)絡[13]包含1個1×1 的卷積以及3個3×3 的卷積(擴張率分別為6,12,18),特征圖的輸出步長為16。
圖2 改進后East網(wǎng)絡結(jié)構(gòu)
模型訓練與測試時使用的圖像尺寸大小為512×512,由于輸出步長為16,最終ASPP 網(wǎng)絡接收的特征向量為32×32。為添加更多的信息[14],將GAP(全局平均池化層)應用到最后一個空洞塊輸出的特征上,所得特征被輸入到帶有256 個濾波器的1×1卷積中。
在經(jīng)典EAST 檢測網(wǎng)絡模型中,以類平衡交叉熵 損 失(class balanced cross-entropy loss)作 為score map 損失函數(shù),以此解決樣本不平衡分布問題。但交叉熵損失把每個像素都當作一個獨立樣本進行預測,收斂速度因此受到影響,本文采用dice soft loss 函數(shù),以一種更“整體”的方式來看待最終的預測輸出。
Dice soft loss[15]中Dice 系數(shù)源自于二分類,主要為衡量兩個樣本的重疊占比。對于神經(jīng)網(wǎng)絡的輸出,分子與我們的預測和標簽之間的共同激活有關(guān),而分母分別與每個掩碼中的激活數(shù)量有關(guān),這具有根據(jù)標簽掩碼的尺寸對損失進行歸一化的效果。Dice系數(shù)公式如式(1)所示。式(1)中,參數(shù)TP、FP 以及FN 分別表示預測正確、預測錯誤、預測遺漏的文字數(shù)。
為驗證改進后的EAST檢測算法性能優(yōu)于原算法,并可對實驗數(shù)據(jù)可以進行更好地分析與處理,實驗系統(tǒng)選擇Linux 系統(tǒng)與Windows10 系統(tǒng),仿真軟件為Matlab2016a、PyCharm,計算機配置為Intel酷睿i5-9400F、內(nèi)存16G、顯卡GTX1650S。對比實驗流程圖如圖3所示。
圖3 模型訓練流程圖
在外高橋造船廠小組立車間和分段數(shù)字化先行車間中,無數(shù)據(jù)傳輸接口的數(shù)控設備使用的中文字體為宋體,英文字母和數(shù)字為Times New Roman。為了提高算法的泛化能力,本實驗采用公開的標準數(shù)據(jù)集——COCOText數(shù)據(jù)集和ICDAR2015數(shù)據(jù)集,拍攝場景為存在光線干擾的室外場景,包含中英文、阿拉伯數(shù)字等水平或傾斜的文本內(nèi)容,數(shù)據(jù)集的場景與船廠設備所處的工作場景具有較大的相似性。本實驗采集500 張該數(shù)控設備HMI界面(人機交互界面),進行人機界面數(shù)據(jù)集的構(gòu)建。
為提高泛化能力,實驗在COCOText 數(shù)據(jù)集和ICDAR2015 數(shù)據(jù)集上預訓練,為提高模型訓練速度,采用隨機梯度下降法進行改進,批訓練數(shù)量設定值為20,默認動量設定值為0.9,權(quán)重衰減系數(shù)設定值為0.05%,學習初始速度為0.001,每兩萬次迭代后衰減速度降為原來的1/10,直至降為0.000001為止。
本文將截取到的一張具有代表性的數(shù)控設備監(jiān)控畫面,放在不同文本檢測網(wǎng)絡下進行測試。改進前算法識別效果如圖4 所示,當使用經(jīng)典EAST文本檢測網(wǎng)絡時,能夠?qū)Υ蠖鄶?shù)的數(shù)據(jù)進行識別,但由于經(jīng)典EAST 文本檢測網(wǎng)絡的自身缺陷,對長文本數(shù)據(jù)信息無法識別,且會對部分文本進行錯誤識別,檢測得到的數(shù)據(jù)如圖6所示。
圖4 改進前算法識別效果
改進后算法識別效果如圖5 所示,當使用基于ASPP網(wǎng)絡與Dice soft loss改進后的EAST文本檢測網(wǎng)絡時,不僅能夠?qū)Υ蠖鄶?shù)的數(shù)據(jù)進行識別,而且由于更高的感受野,能夠?qū)﹂L文本數(shù)據(jù)信息進行識別,對于部分易錯文本也可以進行正確檢測,檢測得到的數(shù)據(jù)如圖6所示。
圖5 改進后算法識別效果
圖6 改進前后算法識別結(jié)果
為驗證改進后的East 文本檢測算法能夠更好地對數(shù)控設備人機界面進行識別,對比實驗設置三個指標進行算法有效性的評估:準確率(Precision)、檢出率(Recall)、F 值(F-measure)。各參數(shù)定義如式(2)所示。
使用400張數(shù)控設備人機界面對原EAST算法與結(jié)合網(wǎng)絡結(jié)構(gòu)優(yōu)化和損失函數(shù)優(yōu)化的EAST算法進行訓練,然后將訓練好的模型在100 張數(shù)據(jù)測試集圖像進行測試,以每張圖片中各部分檢測結(jié)果進行權(quán)重綜合,以更準確地評價算法準確性。100 張測試集數(shù)據(jù)可大致分為500 個部分,算法改進前后的運算性能對比、檢出準確率結(jié)果如表1所示。
表1 對比實驗結(jié)果
綜合表1 所示,EAST 文本檢測算法的檢測準確率在改進后提升5.7%,檢出率上提高了約7.8%,F(xiàn)值提高了6.8%。
本文提出一種基于圖像的船舶制造設備數(shù)據(jù)采集方法,在EAST 文本檢測算法的基礎上,利用ASPP 網(wǎng)絡改進網(wǎng)絡結(jié)構(gòu),以提升Feature Map 的感受野,增加對長文本數(shù)據(jù)識別的能力,使用Dice soft loss 函數(shù)以提升文本檢測性能。對比實驗中驗證了改進后的EAST文本檢測算法能夠在工業(yè)環(huán)境下對數(shù)控設備人機界面進行文本數(shù)據(jù)的檢測,具有識別率高、準確率高的優(yōu)點,為船廠中無傳輸接口的數(shù)控設備數(shù)據(jù)采集工作提供新的解決方法。