李維剛 諶竟成 謝 璐 趙云濤
(武漢科技大學(xué)冶金自動(dòng)化與檢測(cè)技術(shù)教育部工程研究中心 武漢 430081)
鋼的微觀組織決定其使用性能,對(duì)微觀組織的定性和定量研究一直都是鋼鐵材料領(lǐng)域的重要工作[1-3]。將采用適當(dāng)方法(如拋光、腐蝕)處理后的實(shí)驗(yàn)鋼試樣置于光學(xué)顯微鏡(Optical Microscope,OM)或電子顯微鏡(Electron Microscope, EM)下,可觀察到鋼的顯微組織形貌圖像,即金相圖[4,5]。傳統(tǒng)上,金相圖的辨識(shí)由人工完成,對(duì)人的專業(yè)經(jīng)驗(yàn)依賴性較大,即使是經(jīng)驗(yàn)豐富的專家也會(huì)因?yàn)槿庋劭床坏降膱D像細(xì)節(jié)而分析失誤。而現(xiàn)代鋼材種類越來(lái)越多,其內(nèi)部顯微組織越來(lái)越復(fù)雜,人工辨識(shí)面臨巨大挑戰(zhàn)[6,7]。
隨著計(jì)算機(jī)視覺(jué)的深入發(fā)展,國(guó)內(nèi)外研究者已開始將深度學(xué)習(xí)用于金相圖的自動(dòng)辨識(shí)問(wèn)題。Pauly等人[8]使用數(shù)據(jù)挖掘方法對(duì)金相圖分類,但由于不同類別間提取到的特征差異性不夠,在測(cè)試集上僅獲得48%的精度。Chowdhury等人[9]組合不同的特征提取和特征選擇方法作用于金相圖,并選擇不同分類器,比較了不同組合間模型性能的差異。Azimi等人[10]采用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)金相圖進(jìn)行分類,在所收集的數(shù)據(jù)集上能夠獲取90%以上的精度。文獻(xiàn)[11]融合多種圖像增強(qiáng)方法,并改進(jìn)AlexNet, VGGNet, ResNet, GoogleNet適用于金相圖,在所收集的數(shù)據(jù)集上能夠獲取95%以上的精度。上述研究所使用的一般均是小規(guī)模數(shù)據(jù)集,且由于人工標(biāo)注困難、效率低問(wèn)題,用于模型訓(xùn)練的已標(biāo)記圖像數(shù)量較少,模型泛化能力弱、實(shí)際應(yīng)用困難。
圖[12-14]G=(V,E)能表達(dá)非歐空間復(fù)雜數(shù)據(jù)關(guān)系[15],圖卷積(Graph Convolutional Network,GCN)可用于超維關(guān)聯(lián)數(shù)據(jù)的挖掘和分析[16-18]?;谝延型?fù)鋵W(xué)習(xí)模型[19],本文提出一種基于自組織增量-圖卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方法。在原自組織增量神經(jīng)網(wǎng)絡(luò)(Self-Organizing Incremental Neural Network, SOINN)中引入連接權(quán)重概念來(lái)表示兩節(jié)點(diǎn)相似性,得到引入連接權(quán)重策略的自組織增量神經(jīng)網(wǎng)絡(luò)(Weighted SOINN, WSOINN),并引入節(jié)點(diǎn)勝利次數(shù)以挑選少量節(jié)點(diǎn)進(jìn)行人工標(biāo)注;進(jìn)而,搭建GCN學(xué)習(xí)拓?fù)鋱D中高階特征來(lái)預(yù)測(cè)節(jié)點(diǎn)的類別信息,達(dá)到用較少的圖像標(biāo)注量獲取較高模型分類準(zhǔn)確率的目的。本文用WSOINN獲取拓?fù)鋱D結(jié)構(gòu)描述圖像數(shù)據(jù)的空間分布,用GCN將WSOINN拓展至半監(jiān)督學(xué)習(xí),實(shí)現(xiàn)鋼鐵材料金相圖的自動(dòng)分類。針對(duì)收集到的貝氏體、低碳板條馬氏體、高碳片狀馬氏體、鐵素體、下貝氏體、珠光體6種類型的金相圖進(jìn)行實(shí)驗(yàn),結(jié)果表明,本方法具有較高的準(zhǔn)確性和適應(yīng)性。
本節(jié)首先給出WSOINN-GCN的整體框架;然后,分小節(jié)介紹各個(gè)模塊:2.1節(jié)介紹圖像數(shù)據(jù)特征提??;2.2節(jié)給出WSOINN算法步驟;2.3節(jié)結(jié)合金相圖特征設(shè)計(jì)GCN;2.4節(jié)給出WSOINN-GCN的算法步驟。
WSOINN-GCN模型框架如圖1所示,它由3部分組成:第1部分基于遷移學(xué)習(xí)獲得圖像數(shù)據(jù)的特征向量集合;第2部分采用引入連接權(quán)重策略的自組織增量神經(jīng)網(wǎng)絡(luò)(WSOINN)提取特征數(shù)據(jù)的拓?fù)鋱D結(jié)構(gòu),并按照節(jié)點(diǎn)勝利次數(shù)選擇少量節(jié)點(diǎn)進(jìn)行人工標(biāo)注;第3部分搭建圖卷積網(wǎng)絡(luò)(GCN),采用交叉熵?fù)p失函數(shù)、Adam算法優(yōu)化網(wǎng)絡(luò)參數(shù),自動(dòng)標(biāo)注剩余節(jié)點(diǎn),最后基于歐氏距離來(lái)分類所有圖像數(shù)據(jù)。
圖1 WSOINN-GCN模型框架
圖2展示了收集自某國(guó)家重點(diǎn)實(shí)驗(yàn)室場(chǎng)發(fā)射掃描電子顯微鏡所拍攝的不同鋼鐵材料的微觀組織圖片,依次為鐵素體、珠光體、貝氏體、下貝氏體、板條馬氏體、片狀馬氏體,共2342張,圖片像素大小均為221×221。
圖2 金相圖樣本
如圖3,本文采用在ImageNet數(shù)據(jù)集上已訓(xùn)練好的VGG16卷積模塊提取每張金相圖的特征,并對(duì)從每張金相圖獲得的512張?zhí)卣鲌D作全局均值池化,每張圖輸出一個(gè)512維的特征向量,從而得到所有金相圖特征提取后的數(shù)據(jù)特征集合。
圖3 利用VGG16卷積模塊提取金相圖的特征
SOINN可獲取特征數(shù)據(jù)的空間拓?fù)鋱D結(jié)構(gòu),而GCN可用于挖掘巨量、稀疏、超維關(guān)聯(lián)圖數(shù)據(jù)的關(guān)系。為融合SOINN與GCN,本文提出引入連接權(quán)重?cái)?shù)的自組織增量神經(jīng)網(wǎng)絡(luò)(WSOINN),并引入節(jié)點(diǎn)勝利次數(shù)以挑選少量節(jié)點(diǎn)進(jìn)行人工標(biāo)注。WSOINN的算法步驟如下:
針對(duì)金相圖的半監(jiān)督學(xué)習(xí)分類問(wèn)題,搭建具有3層圖卷積網(wǎng)絡(luò)的GCN模型,如圖4所示。N表示圖結(jié)構(gòu)中節(jié)點(diǎn)數(shù)量,每層圖卷積后均接ReLU激活函數(shù),其中第1、第2層用于特征整合與降維,輸出維度分別為N×512, N×256,參數(shù)量分別為512×512,512×256,第3層結(jié)合Softmax層用于分類,第3層輸出維度為N×6,參數(shù)量為256×6。
圖4 3層圖卷積網(wǎng)絡(luò)結(jié)構(gòu)
結(jié)合圖1中給出的模型框架,本文提出的WSOINN-GCN對(duì)圖像數(shù)據(jù)自動(dòng)標(biāo)注及分類的算法步驟如下:
由上述算法步驟可知,WSOINN在原SOINN上引入了邊連接權(quán)重表示兩節(jié)點(diǎn)相似性,從而使得圖卷積神經(jīng)網(wǎng)絡(luò)GCN能夠挖掘金相圖之間的關(guān)系,通過(guò)引入節(jié)點(diǎn)勝利次數(shù)ti來(lái)選擇少許具有代表性的重要節(jié)點(diǎn)進(jìn)行人工標(biāo)注,避免隨機(jī)選擇造成的模型不穩(wěn)定,從而有機(jī)地將WSOINN與GCN結(jié)合起來(lái),在減少人工標(biāo)注的同時(shí),實(shí)現(xiàn)了圖像數(shù)據(jù)的高效分類。
本節(jié)先給出WSOINN-GCN模型參數(shù)的優(yōu)選方法,再比較在不同節(jié)點(diǎn)標(biāo)注率下模型的節(jié)點(diǎn)標(biāo)注精度及金相圖分類精度,最后給出其他常見方法的對(duì)比實(shí)驗(yàn)結(jié)果。
本實(shí)驗(yàn)硬件支持有CPU為i5-7500,4核4線程,主頻3.41 GHz,內(nèi)存12 GB, GPU為NVIDIA GeFore GTX 1060,顯存6 GB,操作系統(tǒng)為win10,編程環(huán)境為spyder,Python3.7,框架平臺(tái)為tensorflow。對(duì)于圖卷積網(wǎng)絡(luò)結(jié)構(gòu),采用Adam算法優(yōu)化參數(shù),初始學(xué)習(xí)率為0.01, dropout神經(jīng)元失活的概率為0.5, Glorot_normal初始化參數(shù),采用Early Stopping提前終止。統(tǒng)計(jì)精確率與召回率2個(gè)指標(biāo)。
WSOINN在每輸入樣本的百分比例p后,會(huì)刪除孤立節(jié)點(diǎn),會(huì)影響最終節(jié)點(diǎn)輸出數(shù)量。節(jié)點(diǎn)數(shù)過(guò)多可能含有噪聲節(jié)點(diǎn),節(jié)點(diǎn)數(shù)過(guò)少不能全面反映所有樣本分布,從而間接影響自動(dòng)標(biāo)注精度。圖5表示為列舉了不同p,Wmax值下,WSOINN獲取拓?fù)鋱D節(jié)點(diǎn)的數(shù)量情況,顏色越深代表產(chǎn)生的節(jié)點(diǎn)數(shù)越少,節(jié)點(diǎn)數(shù)最大值為865,最小值256。圖6代表連接矩陣的稀疏程度(非0元素所占比例),顏色越深表示連接矩陣越稀疏,由圖5、圖6可知,隨著p,Wmax增大,節(jié)點(diǎn)數(shù)隨之增大,連接矩陣越稠密。
圖5 不同p , Wmax下節(jié)點(diǎn)數(shù)
圖6 不同p , Wmax下連接矩陣稀疏程度
實(shí)驗(yàn)收集到的金相圖總樣本數(shù)有2432張,用n,a分別代表WSOINN輸出圖的節(jié)點(diǎn)數(shù)和連接矩陣中非0元素個(gè)數(shù),為保證精度同時(shí)加快運(yùn)算,選擇節(jié)點(diǎn)數(shù)為原數(shù)據(jù)量的1/10~1/6的WSOINN進(jìn)一步分析。
表1列舉了節(jié)點(diǎn)標(biāo)注率為0.3、不同p,Wmax值時(shí)模型對(duì)剩余節(jié)點(diǎn)的自動(dòng)標(biāo)注精度,其中Acc_w是按照勝利次數(shù)選擇標(biāo)注的結(jié)果,Acc_r是隨機(jī)選擇節(jié)點(diǎn)標(biāo)注的結(jié)果??梢姡?/p>
(1)與按照節(jié)點(diǎn)勝利次數(shù)選擇節(jié)點(diǎn)標(biāo)注相比,隨機(jī)選擇節(jié)點(diǎn)標(biāo)注導(dǎo)致剩余節(jié)點(diǎn)自動(dòng)標(biāo)注精度時(shí)高時(shí)低,且自動(dòng)標(biāo)注精度未超過(guò)前者,按照節(jié)點(diǎn)勝利次數(shù)選擇節(jié)點(diǎn)標(biāo)注具有穩(wěn)定的優(yōu)勢(shì)。
(2)無(wú)論哪種標(biāo)注方式,隨著節(jié)點(diǎn)數(shù)增多,剩余節(jié)點(diǎn)標(biāo)注精度呈下降趨勢(shì),且在同等規(guī)模節(jié)點(diǎn)下,連接矩陣越稀疏(即越小),節(jié)點(diǎn)標(biāo)注精度越高。
根據(jù)表1,選取適合金相圖分類的網(wǎng)絡(luò)參數(shù)p=10%,Wmax=2, 此時(shí)節(jié)點(diǎn)數(shù)為n=294,a=324。按照節(jié)點(diǎn)勝利次數(shù)選擇節(jié)點(diǎn)標(biāo)注繼續(xù)完成后續(xù)實(shí)驗(yàn)。
表1 標(biāo)注率為0.3時(shí),不同p, Wmax值下剩余節(jié)點(diǎn)標(biāo)注精度
為便于比較,搭建與WSOINN-GCN具有相同參數(shù)量的自組織增量-全連接神經(jīng)網(wǎng)絡(luò)(WSOINNMLP),其將WSOINN-GCN中GCN模塊替換成多層感知機(jī) (MultiLayer Perceptron, MLP),相應(yīng)的圖結(jié)構(gòu)輸入變?yōu)閱喂?jié)點(diǎn)輸入,神經(jīng)元激活函數(shù)采用ReLU,其中MLP結(jié)構(gòu)如圖7所示。
圖7 MLP
表2列出了WSOINN-GCN,WSOINN-MLP在不同節(jié)點(diǎn)標(biāo)注率、有無(wú)Dropout策略下,模型對(duì)拓?fù)鋱D中剩余無(wú)標(biāo)注節(jié)點(diǎn)的自動(dòng)標(biāo)注精度。可見:
表2 不同節(jié)點(diǎn)標(biāo)注率情況下剩余節(jié)點(diǎn)自動(dòng)標(biāo)注精度(%)
(1)隨著節(jié)點(diǎn)標(biāo)注率增加,兩類模型的精度都會(huì)增加。WSOINN-GCN性能要優(yōu)于WSOINNMLP,當(dāng)節(jié)點(diǎn)標(biāo)注率為0.3時(shí),前者精度可達(dá)93%,而后者僅為86%。這是因?yàn)镚CN會(huì)考慮單節(jié)點(diǎn)的1階鄰域信息,有更強(qiáng)的泛化能力,而MLP訓(xùn)練過(guò)程一直是單節(jié)點(diǎn)前向傳播,其無(wú)法考慮節(jié)點(diǎn)之間的連接性。
(2)對(duì)于WSOINN-GCN而言,當(dāng)節(jié)點(diǎn)標(biāo)注率較低時(shí)(≤0.4),含有Dropout比未含有Dropout有更好的性能表現(xiàn);當(dāng)節(jié)點(diǎn)標(biāo)注率較高時(shí),Dropout會(huì)降低GCN自動(dòng)標(biāo)注精度。這是因?yàn)楣?jié)點(diǎn)標(biāo)注率低時(shí),雖標(biāo)注的節(jié)點(diǎn)代表性強(qiáng),但圖中高階信息未完全挖掘,GCN易對(duì)已標(biāo)注的節(jié)點(diǎn)過(guò)擬合,此時(shí)使用Dropout會(huì)增加模型的泛化能力,而當(dāng)節(jié)點(diǎn)標(biāo)注率增加時(shí),已標(biāo)注的節(jié)點(diǎn)有足夠的全局代表性,加之GCN會(huì)獲取節(jié)點(diǎn)1階鄰域信息,此時(shí)使用Dropout正則化方法往往會(huì)矯枉過(guò)正,降低模型性能。
(3)對(duì)于WSOINN- MLP而言,無(wú)論節(jié)點(diǎn)標(biāo)注率多少,使用Dropout策略能一直提高其精度。因?yàn)镸LP不能考慮節(jié)點(diǎn)間的關(guān)聯(lián)信息,易出現(xiàn)過(guò)擬合現(xiàn)象,Dropout在一定程度上能彌補(bǔ)這一缺陷。
表3列舉不同節(jié)點(diǎn)標(biāo)注率下所有金相圖自動(dòng)分類精度;表4列舉了節(jié)點(diǎn)標(biāo)注率為0.3時(shí),不同類別的金相圖的準(zhǔn)確率和召回率。由表4可見:(1)節(jié)點(diǎn)標(biāo)注率越高,金相圖自動(dòng)分類準(zhǔn)確率呈上升趨勢(shì),但是對(duì)于當(dāng)節(jié)點(diǎn)標(biāo)注率達(dá)到0.6時(shí),WSOINNGCN和WSOINN-MLP的性能均無(wú)法再提高;(2)高碳片狀馬氏體召回率雖高,精確率卻低至74%,貝氏體精度雖高,但召回率低,存在交叉誤判,原因可能是VGG16卷積層雖能暴力提取特征,但是對(duì)這種平均像素強(qiáng)度相近的灰度金相圖,VGG16無(wú)法進(jìn)一步獲取到深度區(qū)分特征。
表3 不同節(jié)點(diǎn)標(biāo)注率情況下所有金相圖分類精度(%)
表4 節(jié)點(diǎn)標(biāo)注率為0.3時(shí),不同類別金相圖的精確率與召回率(%)
表5列舉了選擇30%比例標(biāo)注,不同方法的所有圖片分類精度、在相同環(huán)境下所需的訓(xùn)練時(shí)間及人工所需標(biāo)注圖像數(shù)量。針對(duì)金相圖數(shù)據(jù)集,參照文獻(xiàn)[11],搭建了深度卷積網(wǎng)絡(luò)VGG-ICAM,標(biāo)注30%的圖像數(shù)據(jù)樣本用于訓(xùn)練,預(yù)測(cè)所有樣本;SOINN先用VGG16卷積模塊提取特征,同VGGICAM標(biāo)注30%樣本用于拓?fù)鋵W(xué)習(xí),最后基于歐氏距離判斷所有圖像數(shù)據(jù);MLP先用VGG16提取特征,然后搭建如圖7所示的分類器,標(biāo)注30%樣本用于訓(xùn)練,預(yù)測(cè)所有樣本;WSOINN-GCN,WSOINN-MLP用WSOINN學(xué)習(xí)所有樣本后,按照勝利次數(shù)選擇30%節(jié)點(diǎn)標(biāo)注,用GCN, MLP自動(dòng)標(biāo)注剩余所有節(jié)點(diǎn),最后基于歐氏距離分類所有圖像數(shù)據(jù)。
表5 選擇30%標(biāo)注,不同方法的所有圖片自動(dòng)分類效果
由表5可見:按照選擇30%標(biāo)注,WSOINNGCN, WSOINN-MLP所需的人工標(biāo)注量?jī)H為其他方案的12%;在訓(xùn)練時(shí)間上,相較于VGG-ICAM減少了99%,相較于SOINN, MLP雖稍微增加了訓(xùn)練時(shí)間,但精度大幅度提升,具有明顯的優(yōu)勢(shì)。
表6列舉了所有圖片分類精度達(dá)到90%以上,VGG-ICAM, SOINN, MLP, WSOINN-GCN,WSOINN-MLP所需的人工標(biāo)注數(shù)量及訓(xùn)練時(shí)間??梢姡琖SOINN-GCN所需的人工標(biāo)注量?jī)H為VGG-ICAM的5.6%, SOINN, MLP的5.2%,且訓(xùn)練時(shí)間相較于VGG-ICAM大幅縮減。
表6 分類精度達(dá)到90%,不同方法所需的標(biāo)注量及訓(xùn)練時(shí)間
(1)針對(duì)深度學(xué)習(xí)中圖像數(shù)據(jù)標(biāo)注困難的問(wèn)題,融合拓?fù)鋵W(xué)習(xí)與圖卷積理論,本文提出一種新的基于自組織增量-圖卷積神經(jīng)網(wǎng)絡(luò)(WSOINNGCN)的半監(jiān)督學(xué)習(xí)方法。通過(guò)引入連接權(quán)重來(lái)改進(jìn)自組織增量神經(jīng)網(wǎng)絡(luò)(WSOINN),從而提取數(shù)據(jù)圖結(jié)構(gòu),并按照節(jié)點(diǎn)重要性指標(biāo)節(jié)點(diǎn)勝利次數(shù)選擇部分節(jié)點(diǎn)進(jìn)行標(biāo)注,進(jìn)而搭建圖卷積網(wǎng)絡(luò)(GCN)挖掘圖中節(jié)點(diǎn)的潛在聯(lián)系,融合Dropout正則化手段與Adam算法對(duì)GCN進(jìn)行網(wǎng)絡(luò)參數(shù)尋優(yōu),自動(dòng)標(biāo)注剩余節(jié)點(diǎn)信息,并基于歐氏距離來(lái)自動(dòng)分類金相圖,結(jié)果表明該模型具有可行性。
(2)針對(duì)從某國(guó)家重點(diǎn)實(shí)驗(yàn)室掃描電子顯微鏡拍攝到的鋼鐵材料微觀組織圖片樣本,比較了不同節(jié)點(diǎn)標(biāo)注率、有無(wú)Dropout 對(duì)模型的影響,結(jié)果表明:隨著節(jié)點(diǎn)標(biāo)注率增加,WSOINN-GCN與WSOINN-MLP模型的精度都會(huì)增加,且前者性能要優(yōu)于后者,當(dāng)節(jié)點(diǎn)標(biāo)注率為0.3時(shí),前者精度可達(dá)93%,而后者僅為86%;對(duì)于WSOINN-GCN而言,當(dāng)節(jié)點(diǎn)標(biāo)注率較低時(shí)(≤0.4),含有Dropout比未含有Dropout有更好的性能表現(xiàn);對(duì)于WSOINNMLP而言,無(wú)論節(jié)點(diǎn)標(biāo)注率多少,使用Dropout策略能一直提高其精度。
(3)與現(xiàn)有的人工標(biāo)注或其他監(jiān)督學(xué)習(xí)算法相比,本文所提出的WSOINN-GCN模型有效解決了實(shí)際應(yīng)用時(shí)金相圖片訓(xùn)練集數(shù)據(jù)人工標(biāo)注困難的問(wèn)題,為金相圖片數(shù)據(jù)標(biāo)注、分類等提供了新的解決思路。在金相圖片標(biāo)注量?jī)H為VGG等傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)的12%時(shí),新模型比傳統(tǒng)模型精度高,分類準(zhǔn)確度高達(dá)91%;在達(dá)到相同的分類精度90%時(shí),人工標(biāo)注量?jī)H為傳統(tǒng)模型的5.6%,同時(shí)保證了效率優(yōu)勢(shì)。WSOINN-GCN具有自動(dòng)提取數(shù)據(jù)圖結(jié)構(gòu)、實(shí)施半監(jiān)督學(xué)習(xí)、動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)等特性,在圖片數(shù)據(jù)標(biāo)注、分類等領(lǐng)域有理論研究?jī)r(jià)值和廣闊的應(yīng)用前景。