亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的熱軋鋼坯表面不同字體的字符識別研究

2021-10-09 23:26:54劉康錢煒楊康

軟件工程 2021年10期

關(guān)鍵詞：深度學習

劉康錢煒楊康

摘? 要：同一熱軋鋼坯生產(chǎn)線上會存在鋼坯表面字符的字體不一致的問題，而利用深度學習YOLOv3算法訓練不同字體的字符數(shù)據(jù)集，嚴重影響了整體字符的識別率，雖然原始的YOLOv3網(wǎng)絡結(jié)構(gòu)適用性較好，但對噴印字符識別區(qū)域沒有針對性。為解決以上問題，根據(jù)噴印字符相對較小且沒有大小形態(tài)變化的特性，改進了YOLOv3模型結(jié)構(gòu)，僅保留預測小、中目標的網(wǎng)絡結(jié)構(gòu)，在保證較高檢測精度的同時，縮小模型容量;采用對不同字體字符分開訓練的識別方式，得出針對性分開訓練比混合字體整體訓練的識別準確率高的結(jié)論。結(jié)果表明，本方法比不同字體整體訓練的識別準確率提高了7%以上，可在工程上進行應用。

關(guān)鍵詞：深度學習;字符識別;熱軋鋼坯;YOLOv3

中圖分類號：TP301.6? ? ?文獻標識碼：A

Research on Character Recognition of Different Fonts on the Surface of

Hot Rolled Steel Billet based on Deep Learning

LIU Kang1， QIAN Wei1， YANG Kang2

（1.School of Mechanical Engineering， University of Shanghai for Science and Technology， Shanghai 200093， China;

2.Shanghai Baosight Software Co.，Ltd.， Shanghai 201999， China）

1010898612@qq.com; 1458515538@qq.com; yangkang@baosight.com

Abstract： Aiming at character fonts inconsistency on the billet surface in the same hot-rolled billet production line， deep learning YOLOv3 algorithm is used to train character data sets of different fonts， which seriously affects the overall character recognition rate. Although the original YOLOv3 network structure is quite applicable， it is not targeted at the recognition area of printed characters. In order to solve the above problem， this paper proposes to improve YOLOv3 model structure according to the characteristics of relatively small print characters and no changes in size and shape. Only the network structure for predicting small and medium targets is retained， and the model capacity was reduced while ensuring high detection accuracy. It is concluded that the recognition accuracy of the targeted separate training is higher than that of the whole training of mixed fonts. The results show that the recognition accuracy of this method is more than 7% higher than that of the whole training of different fonts， and it can be applied in engineering.

Keywords： deep learning; character recognition; hot-rolled steel billet; YOLOv3

1? ?引言（Introduction）

計算機視覺技術(shù)的迅速發(fā)展，使其得以在工業(yè)自動化生產(chǎn)過程中發(fā)揮著極大的推動作用，大大提高了生產(chǎn)效率和產(chǎn)品質(zhì)量[1]。在鋼材工件等金屬工業(yè)產(chǎn)品生產(chǎn)中，每個生產(chǎn)工件上會采用不同的字符組成來標注其專屬的生產(chǎn)標號，從而便于對其生產(chǎn)的監(jiān)控、配套的管理和質(zhì)量的追蹤。目前，采用傳統(tǒng)OCR技術(shù)識別字符的準確率還不理想，仍需人工讀取工件上的生產(chǎn)標號再次確認并記錄的解決方案耗費人工和時間。為實現(xiàn)熱軋鋼坯生產(chǎn)線達到較高的自動化水平，通過物料跟蹤系統(tǒng)對送板、軋輥、裝鋼、出鋼等工序進行全線數(shù)據(jù)跟蹤，其中數(shù)據(jù)跟蹤發(fā)揮著至關(guān)重要的作用，而字符識別的準確率直接影響到數(shù)據(jù)跟蹤[2]。車間物料跟蹤的范圍是從鋼坯入爐，經(jīng)加熱爐、軋線軋制、上冷床至打捆稱重為止。物料跟蹤信息包括批號、軋件號、爐號、鋼種、產(chǎn)品規(guī)格、過程數(shù)據(jù)、生產(chǎn)時間等，每個軋件的跟蹤信息自動傳輸?shù)胶蟛抗ば?。系統(tǒng)將整條軋線劃分成若干個跟蹤區(qū)域，對物料按照先進先出的原則實現(xiàn)連續(xù)實時跟蹤，使實際物料在每個區(qū)域都能及時準確地顯示出來[3]。因此，在復雜的生產(chǎn)現(xiàn)場環(huán)境下提高鋼卷號識別率十分迫切。在現(xiàn)階段研究與應用中，對于單一字體的噴印字符識別準確率比較理想，可對于混合字體的識別準確率還達不到技術(shù)要求。

如今YOLO系列的算法已有五個版本，依次為YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5，但本文用到Y(jié)OLOv3算法，因為YOLO系列算法中是從YOLOv3開始被廣泛應用的，后面出的YOLOv4、YOLOv5是在YOLOv3基礎上的進一步改進，是在細枝末節(jié)上進行的優(yōu)化，沒有YOLOv3在工業(yè)界的普遍適用性好[4]。該網(wǎng)絡采用Darknet53作為骨干網(wǎng)絡[5]，由C語言實現(xiàn)，容易安裝，沒有任何依賴項，移植性非常好;支持CPU與GPU兩種計算方式，也適用于生產(chǎn)線現(xiàn)場無顯卡的硬件設備;具有輕量型、靈活性的特性，適合用于來研究底層，可以更為方便地從底層對其進行改進與擴展。

因此，本文依據(jù)不同字符字體圖像特征和識別任務的需求，采用基于YOLOv3的改進神經(jīng)網(wǎng)絡分開訓練數(shù)據(jù)集進行對應字符識別和檢測分析，旨在保證識別速度的同時，準確地實現(xiàn)鋼坯表面噴印字符識別以便進行物料跟蹤。

2? ?YOLOv3網(wǎng)絡模型（YOLOv3 network model）

2.1? ?網(wǎng)絡結(jié)構(gòu)

我們選用Darknet53作為目標檢測網(wǎng)絡YOLOv3的骨干網(wǎng)絡，因為其可保留原圖的大部分信息，能提取待訓練圖像的目標特征，其中：（1）CBL由卷積層（Conv）、批量歸一化（Bn）與Leaky_relu激活函數(shù)三者組成，是該網(wǎng)絡結(jié)構(gòu)中的最小組件。（2）Res unit：借鑒Resnet網(wǎng)絡中的殘差結(jié)構(gòu)，將殘差模塊集成到網(wǎng)絡中，得到更深的網(wǎng)絡構(gòu)建，有利于檢測小目標。（3）ResX：由一個CBL和X 個殘差組件構(gòu)成，表示這個殘差塊（res_block）里含有多少個Res unit，是YOLOv3網(wǎng)絡結(jié)構(gòu)中的大組件。YOLOv3的骨干網(wǎng)絡Darknet53具有殘差結(jié)構(gòu)，該設計有效緩解了深層網(wǎng)絡的梯度彌散后梯度爆炸問題，提升了檢測性能，每個殘差模塊由2 個卷積層和1 個shortcut連接。（4）concat：張量拼接，將Darknet中間層和后面的某一層的上采樣進行拼接，對應分支的特征圖融合。拼接的操作和殘差層add的操作是不一樣的，拼接會擴充張量的維度，而add只是直接相加不會導致張量維度的改變[6]，如圖1所示。

2.2? ?網(wǎng)絡結(jié)構(gòu)的改進

原始YOLOv3網(wǎng)絡結(jié)構(gòu)采用三個不同尺度的特征圖進行目標檢測任務的原因是考慮原始圖像中可能包含的目標物體大小不確定，對于這一問題，YOLOv3算法的解決方法是在YOLOv2曾采用passthrough層結(jié)構(gòu)[7]來檢測細粒度特征的基礎上，對原始圖像使用不同的粒度進行劃分網(wǎng)格，更進一步采用了三個不同尺度的特征圖來進行對象檢測。例如，劃分為13×13、26×26、52×52的網(wǎng)格，其中13×13的大網(wǎng)格用于檢測相對大的目標物體，26×26的網(wǎng)格用于檢測中等的目標物體，52×52的網(wǎng)格用于檢測相對小的目標物體，這是與主干網(wǎng)絡輸出的三種特征圖的大小是一一對應的[4]。

結(jié)合實際應用情況，鋼坯表面噴印字符相對較小，字符檢測任務針對的是小目標訓練。YOLOv3采用多尺度來對不同尺寸的目標進行檢測計算復雜度較高，對該噴印字符識別應用上有些浪費計算機算力，因此針對大小幾乎無變化的噴印字符不需要過多的尺度進行訓練，我們在保證較高識別準確率的同時，改進YOLOv3網(wǎng)絡結(jié)構(gòu)，僅采用兩個不同尺度的特征圖來進行對象檢測，如圖2所示。

2.3? ?回歸函數(shù)

我們知道，要實現(xiàn)多類別的分類，有兩種改進普通的logistic回歸的方式：

（1）直接根據(jù)每個類別，分別建立一個二分類器，帶有這個類別的樣本標記為1，帶有其他類別的樣本標記為0。如果有k 個類別，那么就可以得到k 個針對不同標記的普通的logistic分類器。

（2）修改logistic回歸的損失函數(shù)，使其適應多分類問題。這個損失函數(shù)不再只考慮二分類的損失，而是具體考慮每個樣本標記的損失，這種方法就叫作Softmax回歸，即logistic回歸的多分類版本，可將多分類的結(jié)果以概率的形式呈現(xiàn)[8]。

原YOLOv3網(wǎng)絡會產(chǎn)生三種不同的特征圖，將被分別傳入logistic層中，進而運算產(chǎn)生模型的輸出。而logistic回歸是針對二分類問題的，鋼坯表面噴印字符檢測識別是互斥的多分類問題，在該目標檢測任務中，為了能去除無效預測框，保留最準確的預測框，同時根據(jù)噴印字符實際情況，即不存在多個目標物體重合的情況，因此普通logistic回歸就不適用了，我們采用的是Softmax回歸，介紹如下。

對于輸入數(shù)據(jù)有k 個類別的分類問題，先定義邏輯回歸假設函數(shù)[9]，可以理解為Softmax回歸估算每一類的概率，詳見式（1）。

（1）

其中，是模型的參數(shù)，p是類別概率值。

Softmax回歸算法的代價函數(shù)[10]（其中），詳見式（2）。

（2）

其中，是回歸的模型參數(shù)矩陣，c是類別，m是已標記的樣本數(shù)，是一個指示性函數(shù)，值為真即等于1，值為假即等于0。

通過式（2），可將logistic回歸的損失函數(shù)改為如式（3）所示。但對于，Softmax回歸與logistic回歸的計算方式不同，Softmax回歸是logistic回歸的一般形式[9]。

（3）

其中，是回歸的模型參數(shù)矩陣，c是類別，m是已標記的樣本數(shù)，p是類別概率值;是一個指示性函數(shù)，值為真即等于1，值為假即等于0。

3? ?實驗及結(jié)果分析（Experiment and result analysis）

3.1? ?實驗環(huán)境

本文實驗平臺環(huán)境配置情況如表1所示。

3.2? ?數(shù)據(jù)集構(gòu)建

圖像數(shù)據(jù)集使用熱軋現(xiàn)場拍攝作為訓練識別噴印字符的數(shù)據(jù)樣本，根據(jù)字體不同分開統(tǒng)計出兩個數(shù)據(jù)集，每個數(shù)據(jù)集都包含10 種數(shù)字符號，采集圖像存儲格式為bmp，分辨率為2592×2048。采集的兩種字體的字符圖像分開整理成各自的訓練數(shù)據(jù)集，兩種原始字符圖像如圖3所示。數(shù)據(jù)集的標注采用labelimg軟件，具體對圖片目標區(qū)域內(nèi)的單個字符依次進行標注。labelimg對字符圖像標注完成后，會生成與之對應的XML文件，隨后將XML文件里面的標注框名稱和目標邊框位置信息轉(zhuǎn)換為txt文件。

3.3? ?訓練結(jié)果

先利用本文網(wǎng)絡模型對一種數(shù)據(jù)集進行訓練，訓練過程中的損失變化情況如圖4所示。由圖4顯示的訓練過程迭代次數(shù)的平均損失曲線發(fā)現(xiàn)，訓練迭代1.5萬次后平均損失函數(shù)值降低至0.35;隨著迭代次數(shù)的增加，平均損失函數(shù)值基本保持不變，趨于穩(wěn)定。

分別用本文網(wǎng)絡、原始YOLOv3網(wǎng)絡與YOLOv3-tiny網(wǎng)絡對相同數(shù)據(jù)集進行訓練，訓練好的模型測試相同測試集，結(jié)果如表2所示。

實驗結(jié)果表明，采用本文改進的YOLOv3網(wǎng)絡表現(xiàn)相對較好，在原始YOLOv3網(wǎng)絡借鑒殘差網(wǎng)絡結(jié)構(gòu)基礎上，形成了更深的網(wǎng)絡層次，去除多余多尺度檢測，提升了mAP（各類別AP的平均值）及小目標檢測效果。在速度相當?shù)那闆r下，本文網(wǎng)絡的識別準確率比原始YOLOv3網(wǎng)絡與YOLOv3-tiny網(wǎng)絡要高，得到了提升。網(wǎng)絡的Bn層與批量大小密切相關(guān)，批量越小訓練時受到的干擾越多，不同的訓練批量數(shù)下?lián)p失函數(shù)收斂速度略有不同，且識別準確率也有影響，批量統(tǒng)計估算不準確時，在識別任務中采用小的批量數(shù)時，誤差會迅速增加。用在訓練大型網(wǎng)絡和將特征轉(zhuǎn)移到計算機視覺任務中時受內(nèi)存消耗限制，只能使用小的訓練批量數(shù)。改進的網(wǎng)絡結(jié)構(gòu)可以減小此方面的影響，提升訓練批量數(shù)，減小誤差。

使用本文改進的網(wǎng)絡結(jié)構(gòu)將統(tǒng)計的兩種數(shù)據(jù)集放置一起混合訓練，對混合訓練與分開訓練得到的模型測試相同測試集，統(tǒng)計結(jié)果如表3所示。顯然，分開訓練效果最好。

4? ?結(jié)論（Conclusion）

本研究在Darknet53作為骨干網(wǎng)絡的基礎上，確保YOLOv3對不同尺度預測模塊正常工作，結(jié)合鋼坯表面噴印字符大小特征去除多尺度預測對大目標的作用，只保證對無大小變化的小目標檢測無影響，減小因網(wǎng)絡結(jié)構(gòu)大而占用的計算內(nèi)存，來提高批量訓練的數(shù)量，在訓練過程中具有很好的收斂性，訓練速度也有一些提升，提升了識別準確率。網(wǎng)絡中采用10 類別的Softmax回歸層，適用多分類問題，有針對性地降低類別損失函數(shù)，提升本文網(wǎng)絡的訓練速度和識別準確率。最后證實不同字體的字符分開訓練比混合訓練的識別準確率更高，實際熱軋現(xiàn)場應用分開訓練模型。但本文改進的網(wǎng)絡結(jié)構(gòu)仍存在一些問題：對噴印模糊字符的圖像進行特征提取效果不佳，還需提高模型的泛化能力及小樣本特征提取能力。下一步準備引入圖像馬賽克等數(shù)據(jù)增強方法，增加樣本的復雜程度，提升網(wǎng)絡對復雜鋼板表面字符圖像的識別精度。

參考文獻（References）

[1] 武宗茜，丁紹榮，溫志強，等.巨能特鋼棒材智能化生產(chǎn)管理系統(tǒng)[J].冶金自動化，2021，45（02）：30-36.

[2] 王排書.熱軋鋼坯編號識別與表面質(zhì)量檢測系統(tǒng)研究與設計[D].錦州：遼寧工業(yè)大學，2020.

[3] 賀笛.深度學習在鋼板表面缺陷與字符識別中的應用[D].北京：北京科技大學，2021.

[4] 蔡哲棟，應娜，郭春生，等.YOLOv3剪枝模型的多人姿態(tài)估計[J].中國圖象圖形學報，2021，26（04）：837-846.

[5] 何帥.卷積神經(jīng)網(wǎng)絡在手寫數(shù)字識別中的應用[J].電腦知識與技術(shù)，2020，16（21）：13-15.

[6] 王輝，張帆，劉曉鳳，等.基于DarkNet-53和YOLOv3的水果圖像識別[J].東北師大學報（自然科學版），2020，52（4）：60-65.

[7] SHEN Z J， ZANG S F， WU Q T. Weighted balanced distribution adaptation based on a softmax regression model for transfer learning[J]. Scientific Journal of Intelligent Systems Research， 2021， 3（5）：27-36.

[8] 王玉，王夢佳，張偉紅.基于CNN和Group Normalization的校園垃圾圖像分類[J].吉林大學學報（信息科學版），

2020，38（06）：744-750.

[9] 徐德榮，陳秀宏，田進.稀疏自編碼和Softmax回歸的快速高效特征學習[J].傳感器與微系統(tǒng)，2017，36（05）：55-58.

[10] 孟佩，曹菡，師軍.基于Softmax回歸模型的協(xié)同過濾算法研究與應用[J].計算機技術(shù)與發(fā)展，2016，26（12）：153-155，159.

作者簡介：

劉? ?康（1996-），男，碩士生.研究領域：機器視覺.

錢? ?煒（1964-），男，碩士，副教授.研究領域：機器人機構(gòu)學，機械設計及理論，CAD技術(shù).

楊? ?康（1985-），男，碩士，工程師.研究領域：智能裝備，金屬表面缺陷檢測、分類.