賀雨霞,曹 國(guó)
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210094)
轉(zhuǎn)爐煉鋼是在高溫作用下發(fā)生的一系列物理化學(xué)反應(yīng)。轉(zhuǎn)爐煉鋼終點(diǎn)控制的好壞直接反映了成品鋼材的品質(zhì)好壞。經(jīng)過(guò)多年的發(fā)展,終點(diǎn)控制的發(fā)展經(jīng)歷了人工經(jīng)驗(yàn)控制、靜態(tài)控制、動(dòng)態(tài)控制和自動(dòng)化控制等[1]階段。人工經(jīng)驗(yàn)控制是操作者根據(jù)初始條件和終點(diǎn)目標(biāo),并結(jié)合吹煉過(guò)程中爐口火焰、聲音等變化,憑借經(jīng)驗(yàn)判斷轉(zhuǎn)爐煉鋼的終點(diǎn),常見(jiàn)方法有拉碳補(bǔ)吹法[2]和直吹增碳法[3];靜態(tài)控制是指借助靜態(tài)模型、冶煉材料和化學(xué)平衡原理進(jìn)行一系列的計(jì)算和指導(dǎo),確定終點(diǎn);動(dòng)態(tài)控制是在靜態(tài)控制的基礎(chǔ)上,吹煉過(guò)程中對(duì)參數(shù)進(jìn)行干預(yù),使其滿足煉鋼要求,控制煉鋼終點(diǎn);自動(dòng)控制是在動(dòng)態(tài)控制的基礎(chǔ)上,應(yīng)用智能識(shí)別技術(shù),對(duì)吹煉過(guò)程中得到的信息在線進(jìn)行修正,實(shí)現(xiàn)自動(dòng)控制煉鋼操作。因此煉鋼狀態(tài)判別對(duì)于終點(diǎn)自動(dòng)控制有很重要的意義。
煉鋼廠常用的判別手段有幾種。副槍直接測(cè)量法[4],可以獲得鋼水溫度、碳含量等信息,這種方法的優(yōu)點(diǎn)是能夠一次性檢測(cè)多項(xiàng)指標(biāo)參數(shù),方便判斷,缺點(diǎn)是設(shè)備容易磨損,使用成本高。除了設(shè)備直接接觸的方法,還有人工觀察法,觀察者通過(guò)爐口火焰形狀、顏色和噴出的鋼液來(lái)判斷爐內(nèi)情況。但是這種方法人工成本高,主觀性強(qiáng)。因此,最近幾年圖像分類的火焰判別方法越來(lái)越多。如劉輝等人[5]通過(guò)不同冶煉階段的火焰形狀和紋理采用廣義回歸神經(jīng)網(wǎng)絡(luò)建立了火焰圖像和冶煉階段之間的分類模型。該方法對(duì)彩色火焰的分割和單幅圖像的識(shí)別還不夠精確。劉輝等人[6]還發(fā)現(xiàn)火焰的紋理粗糙度與吹煉所處的階段有密切的聯(lián)系,提出基于灰度差分統(tǒng)計(jì)的提取方法,通過(guò)傳統(tǒng)圖像處理的方法得到各個(gè)特征的表達(dá),以此來(lái)判斷煉鋼狀態(tài)。該方法對(duì)火焰紋理復(fù)雜度特征提取有很好的效果,但是計(jì)算很耗時(shí)。李超等人[7]提出一種多趨勢(shì)二進(jìn)制編碼彩色紋理特征表述方法,通過(guò)顏色通道融合策略和多尺度非均勻采樣策略得到火焰紋理的特征表達(dá),在碳含量預(yù)測(cè)實(shí)驗(yàn)中有很好的效果。
隨著計(jì)算機(jī)技術(shù)和人工智能的高速發(fā)展,將深度學(xué)習(xí)應(yīng)用到轉(zhuǎn)爐煉鋼中具有重要意義。江帆等人[8]提出了基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)轉(zhuǎn)爐煉鋼終點(diǎn)進(jìn)行判斷,通過(guò)端到端的訓(xùn)練,減少人工提取圖像特征的誤差;使用灰度差分統(tǒng)計(jì)[6]的特征提取方法,識(shí)別精度和實(shí)時(shí)性都有很大提升。龐殊楊等人[9]提出的基于殘差神經(jīng)網(wǎng)絡(luò)的狀態(tài)判別方法,不同于上述文獻(xiàn)將吹煉狀態(tài)分為前中后3種狀態(tài),而作者將其分為8種不同的狀態(tài),采用殘差網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,其數(shù)據(jù)集的識(shí)別精度可以達(dá)到98.73%,并且能達(dá)到實(shí)時(shí)性要求。Han等人[10]提出了一種基于光譜信息的深度學(xué)習(xí)方法,時(shí)間序列下產(chǎn)生的光譜波形和冶煉狀態(tài)有一定的關(guān)系,而雙向遞歸多尺度神經(jīng)網(wǎng)絡(luò)模型使預(yù)測(cè)更加準(zhǔn)確,并建立了一套靜態(tài)和動(dòng)態(tài)聯(lián)合的模型,實(shí)現(xiàn)一鍵式煉鋼控制。
相比其他方法,本文將時(shí)序信息加入到網(wǎng)絡(luò)訓(xùn)練中,對(duì)視頻進(jìn)行端到端的訓(xùn)練。根據(jù)操作者的經(jīng)驗(yàn),火焰波動(dòng)頻率和鋼渣噴濺速度也是非常重要的信息。因此本文基于爐口火焰視頻提取的鋼液、鋼渣和火焰特征建立狀態(tài)判別模型。該模型在應(yīng)用中具有很多實(shí)際意義:1)通過(guò)利用現(xiàn)場(chǎng)的攝像設(shè)備提取的連續(xù)火焰特征,經(jīng)過(guò)模型計(jì)算可實(shí)現(xiàn)煉鋼狀態(tài)的在線測(cè)量,為轉(zhuǎn)爐的終點(diǎn)控制提供保障;2)與基于火焰圖像的判別方法相比,本文方法加入了時(shí)序信息,模型訓(xùn)練更加全面;3)與副槍[2]、光學(xué)方法[11]等其他檢測(cè)工具相比,這種方法成本低,容易實(shí)施,適應(yīng)一般的煉鋼廠;4)通過(guò)計(jì)算機(jī)操作代替了技術(shù)人員觀察,解放了人力,還可以消除技術(shù)人員在煉鋼現(xiàn)場(chǎng)的安全隱患。
本文分析我國(guó)轉(zhuǎn)爐煉鋼的狀態(tài)判別技術(shù)的現(xiàn)狀,提出適應(yīng)性強(qiáng)、成本節(jié)約、預(yù)測(cè)率高的狀態(tài)判別模型,對(duì)降低人工成本、提高煉鋼效率有很大幫助。本文的主要工作如下:1)確定基準(zhǔn)模型,對(duì)比火焰視頻測(cè)試集的F1分?jǐn)?shù)和準(zhǔn)確度,選擇最優(yōu)的模型;2)引入三維空間注意力模塊來(lái)實(shí)現(xiàn)空間特征強(qiáng)化學(xué)習(xí);3)引入改進(jìn)的通道注意力模塊在通道上進(jìn)行特征提取,融合最大池化和平均池化的特征信息,以加強(qiáng)通道注意力的學(xué)習(xí)能力。
結(jié)合二維卷積核的雙流神經(jīng)網(wǎng)絡(luò)是視頻分類中常用的方法。Simonyan等人[12]提出將視頻中的動(dòng)作信息單獨(dú)提取出來(lái),也就是堆疊光流幀結(jié)合RGB幀的信息通過(guò)2D CNN進(jìn)行識(shí)別。Feichtenhofer等人[13]提出將雙流CNN和殘差網(wǎng)絡(luò)進(jìn)行結(jié)合,實(shí)驗(yàn)顯示殘差網(wǎng)絡(luò)的加入對(duì)2D CNN的動(dòng)作識(shí)別是有效的。Ji等人[14]提出應(yīng)用3D卷積核可以從視頻中提取時(shí)空特征。Tran等人[15]在實(shí)驗(yàn)中發(fā)現(xiàn)3×3×3的卷積核有較好的性能,提出了C3D的動(dòng)作識(shí)別方法。Hara等人[16]將殘差網(wǎng)絡(luò)與3D CNN相結(jié)合,發(fā)現(xiàn)該網(wǎng)絡(luò)有更好的識(shí)別動(dòng)作。卷積神經(jīng)網(wǎng)絡(luò)在視頻分類中取得了很好的效果,尤其是3D卷積神經(jīng)網(wǎng)絡(luò),不僅可以獲取圖像幀的信息,還可以抓取時(shí)空信息。實(shí)際的圖像識(shí)別工作表明,CNN的網(wǎng)絡(luò)層數(shù)越高,識(shí)別精度越好,但是用于視頻識(shí)別的3D CNN由于參數(shù)較多,導(dǎo)致訓(xùn)練難度大。殘差網(wǎng)絡(luò)的出現(xiàn)可以緩解深度網(wǎng)絡(luò)的優(yōu)化問(wèn)題,將殘差網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用到3D CNN能夠進(jìn)一步提高識(shí)別性能。Qiu等人[17]提出的偽3D殘差網(wǎng)絡(luò),將3×3×3分解成1×3×3和3×1×1卷積,可以減小參數(shù)數(shù)量和計(jì)算量。
注意力在人類感知中起著非常重要的作用。人類的視覺(jué)系統(tǒng)在捕捉整個(gè)畫(huà)面信息時(shí),總會(huì)選擇性地聚集在突出部分,而忽略一些背景信息,不會(huì)對(duì)整個(gè)場(chǎng)景進(jìn)行處理。Hu等人[18]首次提出了SE(Squeeze-and-Excitation)網(wǎng)絡(luò),SE網(wǎng)絡(luò)先對(duì)卷積得到的特征圖進(jìn)行壓縮(squeeze)操作,得到通道級(jí)的全局特征,并使用全局平均池化的方法,對(duì)全局特征進(jìn)行激勵(lì)(excitation)操作,學(xué)習(xí)各通道間的關(guān)系。
Woo等人[19]在SE模塊的基礎(chǔ)上,提出了卷積塊注意力模塊CBAM。卷積塊注意力模塊包含了通道注意力模塊和空間注意力模塊,并且使用平均池化和最大池化聚合特征。GSop[20]引入二階池化,用以實(shí)現(xiàn)更有效的特征聚合。GE[21]利用深度卷積探索空間擴(kuò)展來(lái)集合特征。Wang等人[22]提出了一種非局部操作作為一個(gè)泛型族的構(gòu)建塊捕獲長(zhǎng)期依賴,該方法受到了計(jì)算機(jī)視覺(jué)中非局部均值方法的啟發(fā),將某一位置的響應(yīng)計(jì)算為所有位置特征的加權(quán)和。Wang等人[23]提出了ECA注意力機(jī)制,闡明避免降維對(duì)學(xué)習(xí)通道注意的重要性,并且適當(dāng)?shù)乜缤ǖ阑?dòng)可以在保持性能的同時(shí)顯著降低模型的復(fù)雜性。
卷積神經(jīng)網(wǎng)絡(luò)是多層感知機(jī)的變種,早期由貓視覺(jué)皮層的研究發(fā)展而來(lái)。1998年出現(xiàn)的LeNet[24]定義了卷積神經(jīng)網(wǎng)絡(luò)的基本構(gòu)架和卷積層的概念。卷積神經(jīng)網(wǎng)絡(luò)可以端到端地輸入輸出圖像數(shù)據(jù),避免了傳統(tǒng)圖像識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。3D卷積神經(jīng)網(wǎng)絡(luò)與2D卷積網(wǎng)絡(luò)的區(qū)別在于卷積核和池化層的維數(shù),具有3D卷積核的網(wǎng)絡(luò)能夠直接從視頻中提取時(shí)空特征以進(jìn)行視頻識(shí)別。
隨著網(wǎng)絡(luò)層數(shù)越來(lái)越深,特征表現(xiàn)能力也更加出色,但是層數(shù)越深的網(wǎng)絡(luò)越容易出現(xiàn)網(wǎng)絡(luò)退化的現(xiàn)象。ResNet[25]通過(guò)跳躍連接實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的恒等映射,緩解了梯度消失的問(wèn)題。相比普通的網(wǎng)絡(luò),ResNet中每2層間增加了短路機(jī)制,短路機(jī)制將網(wǎng)絡(luò)的梯度從后面的層流向前面的層,簡(jiǎn)化了對(duì)深度很深的網(wǎng)絡(luò)的訓(xùn)練,形成了殘差學(xué)習(xí)。f(x)是殘差函數(shù),通過(guò)對(duì)f(x)的優(yōu)化,使得f(x)→x,
x→f(x)+x→x
(1)
以此達(dá)到一個(gè)恒等映射的關(guān)系。ResNet殘差模塊帶有快捷連接(shortcut connection)以及降采樣層。
注意力機(jī)制是根據(jù)人類注意力的研究而提出的,其本質(zhì)是關(guān)注突出的或者動(dòng)態(tài)的信息,而忽略掉背景或者靜態(tài)的信息。注意力模塊會(huì)重新分配權(quán)重參數(shù),用來(lái)強(qiáng)調(diào)處理對(duì)象的重要信息,并抑制無(wú)用信息。
SE網(wǎng)絡(luò)[18]中,使用全局平均池化來(lái)提取通道特征,是一種有效的通道注意力學(xué)習(xí)機(jī)制。這種注意力機(jī)制讓模塊可以更加關(guān)注信息量最大的通道特征,而抑制不重要的通道特征,并且對(duì)神經(jīng)網(wǎng)絡(luò)的性能有一定的提升。文獻(xiàn)[23]作者發(fā)現(xiàn),SE網(wǎng)絡(luò)在激勵(lì)(excitation)操作時(shí),對(duì)通道進(jìn)行了降維操作,雖然該操作能夠降低計(jì)算復(fù)雜度和參數(shù)量,但是這樣會(huì)破壞通道和其權(quán)重之間的關(guān)系。文獻(xiàn)[23]提出了2點(diǎn)對(duì)建立通道注意機(jī)制的重要性,其一是避免降維,其二是局部跨通道信息交互。具體操作是:對(duì)輸入的特征進(jìn)行平均池化后得到一個(gè)高度×寬度×通道的向量,通過(guò)一維卷積可以完成跨通道間的信息交互,從而實(shí)現(xiàn)性能上的優(yōu)化。
CBAM注意力[19]模塊結(jié)合了空間和通道的注意力模塊,在通道注意力模塊中,作者驗(yàn)證了使用最大池化和平均池化的融合可以推斷出更精細(xì)的通道特征??臻g注意力模塊中,文獻(xiàn)[26]驗(yàn)證了沿著通道軸應(yīng)用池化操作針對(duì)提取空間突出信息是有效的;在通道軸上應(yīng)用平均池化和最大池化并將其連接成一個(gè)特征描述符??臻g注意力模塊工作流程如圖1所示。針對(duì)這個(gè)級(jí)聯(lián)特征描述符,應(yīng)用卷積層來(lái)生成空間注意圖,對(duì)強(qiáng)調(diào)或抑制的地方進(jìn)行編碼。公式如下:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
=σ(f7×7([Favg;Fmax]))
(2)
其中,σ表示sigmoid函數(shù),f7×7表示卷積運(yùn)算,過(guò)濾器大小為7×7,s特指空間注意力。
圖1 空間注意力模塊工作流程
本文改進(jìn)的注意力機(jī)制結(jié)構(gòu)如圖2所示,整體結(jié)構(gòu)是將通道注意力和空間注意力串行,放在殘差模塊中下采樣層的上面。
圖2 加入注意力機(jī)制的殘差塊
數(shù)據(jù)在進(jìn)入殘差網(wǎng)絡(luò)后,通過(guò)2次卷積層訓(xùn)練得到全局的數(shù)據(jù)信息,然后分別通過(guò)全局平均池化和最大池化得到2個(gè)1×1×C(高度×寬度×通道)的向量,其中全局平均池化可以得到整體特征信息,最大池化能夠聚合局部重要信息。將2個(gè)向量進(jìn)行逐元素求和合并,通過(guò)一個(gè)可以權(quán)重共享的一維卷積進(jìn)行學(xué)習(xí),并還原到原始尺寸,生成最終的通道注意力特征圖。其中一維卷積涉及超參數(shù)k,也就是卷積核尺寸,它代表了局部跨通道交互的覆蓋率。
(3)
(4)
(5)
其中,st函數(shù)指squeeze()函數(shù)和transpose()函數(shù),具體操作是刪除寬度和高度尺寸,交換通道和深度的位置,方便一維卷積工作,通過(guò)卷積操作后,需要重新交換通道和幀尺寸位置,增加寬度尺寸以恢復(fù)原本的尺寸。在一維卷積中,輸入維度是[batch_size,seq_len,input_size],因?yàn)榫矸e發(fā)生在最后一維,所以需要將通道交換到最后一維。ts函數(shù)是st的還原操作,Mc的下標(biāo)c特指通道注意力,Conv1D表示一維卷積操作。
通道注意力機(jī)制可以提取到通道中的關(guān)鍵信息,接下來(lái)是將得到的通道關(guān)鍵信息的數(shù)據(jù)輸入到空間注意力機(jī)制。先將通道進(jìn)行壓縮,然后對(duì)數(shù)據(jù)分別應(yīng)用平均池化和最大池化,并將2個(gè)向量合并成一個(gè)2通道的特征描述符。針對(duì)這個(gè)級(jí)聯(lián)特征描述符,應(yīng)用7×7的卷積層生成空間注意圖。通道注意力模塊流程如圖3所示。
圖3 通道注意力模塊工作流程
為了驗(yàn)證基于改進(jìn)后的注意力模塊的3D殘差網(wǎng)絡(luò)對(duì)轉(zhuǎn)爐煉鋼狀態(tài)識(shí)別的效果,本文將煉鋼廠采集的火焰視頻作為訓(xùn)練數(shù)據(jù)集,并用此數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)測(cè)試和結(jié)果分析。
本文使用的是某煉鋼廠采集的視頻數(shù)據(jù)集,根據(jù)煉鋼大師的經(jīng)驗(yàn)判斷,將火焰視頻分為4種狀態(tài):正常、噴濺、返干、甩渣。每個(gè)視頻樣本時(shí)長(zhǎng)10 s。觀察爐口火焰連續(xù)的狀態(tài)能夠判斷出爐內(nèi)煉鋼的情況,并且針對(duì)不同狀態(tài)做出對(duì)應(yīng)的操作,保證煉鋼過(guò)程穩(wěn)定進(jìn)行,提高鋼水質(zhì)量。數(shù)據(jù)集共有4700個(gè)視頻樣本,其中正常的有2045個(gè)樣本,甩渣的有1655個(gè)樣本,返干的有500個(gè)樣本,噴濺的有500個(gè)樣本。按照6:2:2的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
視頻數(shù)據(jù)集中圖的原始大小為1920×1080,幀率為25 幀/s。如圖4所示,由于火焰信息大部分集中在視頻中間,本文將四周邊緣的黑色背景裁剪掉,生成1600×400大小的圖像,并且將生成的長(zhǎng)方形數(shù)據(jù)從中間裁剪,上下拼接在一起,生成800×800大小的正方形數(shù)據(jù)集。這是因?yàn)槟P洼斎胍髨D像尺寸長(zhǎng)寬相等,若直接從原始圖像調(diào)整成224×224大小的圖像,火焰紋理特征會(huì)變形、模糊,信息也會(huì)丟失。
(a) 原始圖
訓(xùn)練采用具有動(dòng)量的隨機(jī)梯度下降對(duì)輸入的10 s視頻(幀率為25 幀/s)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并對(duì)視頻中隨機(jī)生成的訓(xùn)練樣本進(jìn)行數(shù)據(jù)增強(qiáng)。輸入數(shù)據(jù)的選擇是先通過(guò)均勻采樣在視頻中選擇時(shí)間點(diǎn),然后在時(shí)間點(diǎn)周圍生成16 幀剪輯。視頻幀調(diào)整為224×224像素的尺寸。
在訓(xùn)練中,使用交叉熵?fù)p失并對(duì)它們的梯度進(jìn)行反向傳播。訓(xùn)練參數(shù)包括針對(duì)動(dòng)量的0.001和0.9的權(quán)重衰減。在沒(méi)有預(yù)訓(xùn)練模型的情況下訓(xùn)練網(wǎng)絡(luò)時(shí),學(xué)習(xí)率初始值為0.1,每50 epoch減少至原來(lái)的1/10。一共訓(xùn)練200個(gè)epoch。
因?yàn)樵谵D(zhuǎn)爐煉鋼中,返干和噴濺情況出現(xiàn)概率較低,數(shù)據(jù)集類別比例不均衡,因此不直接使用準(zhǔn)確度作為判斷標(biāo)準(zhǔn),結(jié)合F1分?jǐn)?shù)和準(zhǔn)確度作為評(píng)估指標(biāo)。F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù),范圍為[0,1]。
(6)
精確率(precision)指被分類器判為正例中的正樣本的比重。
(7)
召回率(recall)指的是被預(yù)測(cè)為正例的占總的正例的比重。
(8)
準(zhǔn)確度(accuracy)指全部樣本中預(yù)測(cè)正確的占全部樣本的比例。
(9)
以上公式中,TP表示分類器判定為正例,實(shí)際是正例;TN表示分類器判定為負(fù)例,實(shí)際也是負(fù)例;FP表示判定為正例,但是實(shí)際是負(fù)例;FN表示判定為負(fù)例,但是實(shí)際為正例。
本文實(shí)驗(yàn)基于Pytorch框架實(shí)現(xiàn),運(yùn)行環(huán)境:操作系統(tǒng)Ubuntu18、Python 3.6、Pytorch 1.5.0、Nvidia顯卡GeFore RTX2080、GPU驅(qū)動(dòng)版本為Cuda10.0。將數(shù)據(jù)集進(jìn)行預(yù)處理后,對(duì)本文的模型和加了不同注意力模塊的模型實(shí)驗(yàn)結(jié)果進(jìn)行分析和對(duì)比。
3.4.1 基準(zhǔn)模型選擇
如表1所示,本文嘗試了4種不同層數(shù)的殘差網(wǎng)絡(luò)模型[10]以及偽3D殘差網(wǎng)絡(luò)[12]進(jìn)行訓(xùn)練,其中18層的殘差網(wǎng)絡(luò)的準(zhǔn)確度為87.65%,F(xiàn)1分?jǐn)?shù)為88.29%,優(yōu)于其他模型。本文改進(jìn)方法的實(shí)驗(yàn)對(duì)比的是基于18層網(wǎng)絡(luò)的。
表1 不同模型的實(shí)驗(yàn)結(jié)果
3.4.2 注意力模塊評(píng)價(jià)實(shí)驗(yàn)
根據(jù)實(shí)驗(yàn)結(jié)果表2顯示,本文提出的模型3d-resnet-our的F1分?jǐn)?shù)為89.32%,準(zhǔn)確度為88.71%。相比添加SE模塊的F1分?jǐn)?shù)提高1.77個(gè)百分點(diǎn),準(zhǔn)確度提高了1.6個(gè)百分點(diǎn);和ECA模塊相比,F(xiàn)1分?jǐn)?shù)提高0.65個(gè)百分點(diǎn),準(zhǔn)確度提高了0.64個(gè)百分點(diǎn);和CBAM模塊相比,F(xiàn)1分?jǐn)?shù)提高0.8個(gè)百分點(diǎn),準(zhǔn)確度提高了0.74個(gè)百分點(diǎn);而與未添加注意力模塊的模型相比,F(xiàn)1分?jǐn)?shù)提高1.03個(gè)百分點(diǎn),準(zhǔn)確度提高了1.06個(gè)百分點(diǎn)。
表2 不同注意力機(jī)制的實(shí)驗(yàn)結(jié)果
3.4.3 消融實(shí)驗(yàn)
針對(duì)添加的改進(jìn)通道注意力機(jī)制和空間注意力機(jī)制進(jìn)行消融實(shí)驗(yàn)。3d-resnet-sa是對(duì)添加了空間注意力機(jī)制的3D-ResNet模型網(wǎng)絡(luò)進(jìn)行訓(xùn)練,3d-resnetca是對(duì)添加了改進(jìn)后的通道注意力機(jī)制的3D-ResNet模型網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
根據(jù)實(shí)驗(yàn)結(jié)果表3顯示,改進(jìn)的通道注意力機(jī)制相比之前的通道注意力機(jī)制效果更好。單獨(dú)增加空間和通道注意力機(jī)制的效果并沒(méi)有將其串行的效果好。
表3 消融實(shí)驗(yàn)結(jié)果
3.4.4 實(shí)驗(yàn)結(jié)果分析
本文方法召回率的混淆矩陣如表4所示。
表4 3d-resnet-our混淆矩陣(括號(hào)內(nèi)表示該類的召回率)
其中噴濺類的召回率很高,噴濺表示有鋼液噴出爐口下方,相比其他類更容易被識(shí)別出來(lái)。甩渣的召回率較低,是因?yàn)樗υ侵镐撛焖俚奶鰻t口,速度快,并且因?yàn)殇撛?,在輸入網(wǎng)絡(luò)之前,視頻幀縮小時(shí),鋼渣信息都被壓縮掉了。返干類別中沒(méi)有鋼渣鋼液,是根據(jù)火焰頻率來(lái)判斷,很容易和正?;煜?。
本文將基于改進(jìn)注意力的3D殘差卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到轉(zhuǎn)爐煉鋼狀態(tài)的識(shí)別中。相比基于火焰圖像的識(shí)別算法,本文的算法能夠捕獲火焰震動(dòng)頻率,鋼渣、鋼液噴濺速度等現(xiàn)象,更具有參考價(jià)值。本文提出了添加空間注意力機(jī)制和改進(jìn)的通道注意力機(jī)制,并將其串行放進(jìn)殘差模塊中,其中改進(jìn)后的注意力機(jī)制相比原本的效果更好。通過(guò)對(duì)不同注意力機(jī)制的實(shí)驗(yàn)對(duì)比,本文的注意力機(jī)制效果更好。下一步筆者將分析火焰視頻中的時(shí)序信息以及鋼渣的檢測(cè),以實(shí)現(xiàn)更準(zhǔn)確的狀態(tài)判別。