王海偉,葉 波,馮 晶,種曉宇
(1. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500) (2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500) (3. 昆明理工大學(xué)材料科學(xué)與工程學(xué)院,云南 昆明 650093) (4. 昆明理工大學(xué) 材料基因工程重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650093)
鋼鐵是人類文明中最重要的材料之一,20世紀(jì)末鋼鐵成為現(xiàn)代世界位于核心地位的金屬材料[1]。隨著時(shí)代的不斷發(fā)展,鋼鐵材料應(yīng)用于各種領(lǐng)域,例如鐵路、石油、建筑、汽車、船舶、航空航天等,不同的應(yīng)用領(lǐng)域?qū)︿撹F性能的需求不同[2],鋼的性能主要取決于其化學(xué)成分和工藝參數(shù)。鋼的主要化學(xué)成分是鐵(Fe)、碳(C)和10余種合金元素[3]。此外,鋼材的生產(chǎn)工藝極其復(fù)雜,例如,鋼材的生產(chǎn)涉及到高溫冶煉過程,包括爐料的加熱、熔化、脫氧等多個(gè)階段。而每個(gè)階段都需要控制溫度、壓力、保護(hù)氣氛等參數(shù),從而確保所制造的鋼材符合特定的質(zhì)量標(biāo)準(zhǔn)[4]。生產(chǎn)鋼材最常用的加熱工藝是退火、回火、淬火和正火[5]。為了獲得符合服役性能需求的鋼材,需要研究化學(xué)成分、熱處理工藝參數(shù)和其他工藝參數(shù)對鋼材性能的影響。因此,具有不同元素組合和工藝參數(shù)的候選組合種類多達(dá)百萬,目前通過傳統(tǒng)實(shí)驗(yàn)試錯(cuò)法幾乎不可能研究所有組合。
近年來,機(jī)器學(xué)習(xí)技術(shù)已廣泛應(yīng)用于各種材料的研究與設(shè)計(jì)中,成為材料研究的新興方法和熱門領(lǐng)域[6,7]。牛程程等[8]綜述了機(jī)器學(xué)習(xí)技術(shù)在材料信息學(xué)方面的應(yīng)用,總結(jié)了機(jī)器學(xué)習(xí)方法在多種材料性能預(yù)測中的研究現(xiàn)狀,介紹了最常用的材料數(shù)據(jù)庫資源和多種應(yīng)用于材料領(lǐng)域的機(jī)器學(xué)習(xí)算法,并對國內(nèi)外機(jī)器學(xué)習(xí)在材料中應(yīng)用的研究進(jìn)展進(jìn)行了對比和總結(jié)。Arroyave等[9]綜述了數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能在金屬和合金中的應(yīng)用研究,總結(jié)了應(yīng)用于解決材料科學(xué)和工程中的正向與反向問題的研究框架。Liu等[10]綜述了材料基因組計(jì)劃中的機(jī)器學(xué)習(xí)技術(shù),介紹了材料科學(xué)中使用的機(jī)器學(xué)習(xí)算法以及機(jī)器學(xué)習(xí)在材料結(jié)構(gòu)確定、性能預(yù)測、描述符構(gòu)建和新材料的發(fā)現(xiàn)中的應(yīng)用,指出了機(jī)器學(xué)習(xí)在材料設(shè)計(jì)領(lǐng)域未來的研究方向。
機(jī)器學(xué)習(xí)已成為材料科學(xué)領(lǐng)域中揭示和開發(fā)材料成分-組織/結(jié)構(gòu)-性能-服役行為關(guān)系的有力工具。Reddy等[11]利用人工神經(jīng)網(wǎng)絡(luò)和遺傳算法構(gòu)建預(yù)測模型,通過成分和熱處理參數(shù)預(yù)測鋼的性能,并設(shè)計(jì)出具有所需力學(xué)性能的中碳鋼。Xie等[12]基于11 101個(gè)數(shù)據(jù)樣本,以合金成分、加熱爐工藝參數(shù)、軋制數(shù)據(jù)和冷卻數(shù)據(jù)為輸入,預(yù)測了熱軋鋼板的4種力學(xué)性能,并依據(jù)預(yù)測模型探究C元素在鋼種中的作用,預(yù)測模型的解釋結(jié)果與實(shí)驗(yàn)測量的結(jié)果吻合較好。
本文主要綜述機(jī)器學(xué)習(xí)技術(shù)在鋼鐵材料設(shè)計(jì)與開發(fā)中的應(yīng)用。首先介紹在材料領(lǐng)域中常用的機(jī)器學(xué)習(xí)算法和模型,然后介紹鋼鐵材料在構(gòu)建機(jī)器學(xué)習(xí)模型中特征選擇的重要性,綜述機(jī)器學(xué)習(xí)技術(shù)在鋼鐵材料成分-工藝-性能預(yù)測、服役行為預(yù)測以及逆向設(shè)計(jì)中的研究進(jìn)展。最后,分析機(jī)器學(xué)習(xí)在鋼鐵材料領(lǐng)域面臨的問題并展望其發(fā)展前景。
機(jī)器學(xué)習(xí)是一門多學(xué)科交叉專業(yè),涵蓋計(jì)算機(jī)科學(xué)、概率論、統(tǒng)計(jì)學(xué)、近似理論和復(fù)雜算法等知識,本質(zhì)是基于大量的數(shù)據(jù)和一定的算法規(guī)則,使計(jì)算機(jī)可以自主模擬人類的學(xué)習(xí)過程,并能夠通過不斷的數(shù)據(jù)“學(xué)習(xí)”提高性能并做出智能決策的行為[13]。機(jī)器學(xué)習(xí)模擬人類學(xué)習(xí)主要過程可以分為數(shù)據(jù)收集、特征選擇、算法/模型選擇、模型訓(xùn)練和評估、模型預(yù)測和應(yīng)用。機(jī)器學(xué)習(xí)的學(xué)習(xí)流程如圖1所示。
數(shù)據(jù)是機(jī)器學(xué)習(xí)過程的核心,機(jī)器學(xué)習(xí)算法通過收集的數(shù)據(jù)進(jìn)行訓(xùn)練,揭示數(shù)據(jù)中存在的隱藏規(guī)律。通常會(huì)對收集的數(shù)據(jù)進(jìn)行預(yù)處理,例如歸一化處理。用于機(jī)器學(xué)習(xí)的數(shù)據(jù)可以為數(shù)值或者圖像,將初始數(shù)據(jù)進(jìn)行轉(zhuǎn)換為更適合所選擇的機(jī)器學(xué)習(xí)算法的輸入數(shù)據(jù)的過程稱為特征選擇。所選特征越合適,輸出結(jié)果的精度就越高。
機(jī)器學(xué)習(xí)需要選擇合適的算法,模型中的結(jié)構(gòu)與參數(shù)的選擇也會(huì)影響模型的精確度,為了使所選模型達(dá)到最優(yōu),通常有兩種方式對模型進(jìn)行優(yōu)化,第一種是采用優(yōu)化算法,例如粒子群算法、遺傳算法等[14];第二種是增加訓(xùn)練集的數(shù)據(jù)容量,使模型參數(shù)不斷迭代更新直至達(dá)到最優(yōu)值。模型訓(xùn)練結(jié)果通過選取的評價(jià)指標(biāo)進(jìn)行評價(jià),回歸問題中常用的評價(jià)指標(biāo)有均方根誤差、決定系數(shù)等。
模型預(yù)測是利用訓(xùn)練及優(yōu)化好的模型對新的數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測精度取決于模型的精度。通過評價(jià)指標(biāo)對模型的精度評估后,進(jìn)一步通過改變模型輸入實(shí)現(xiàn)新型材料的預(yù)測并完成模型輸出規(guī)律的探究。
根據(jù)學(xué)習(xí)風(fēng)格不同,機(jī)器學(xué)習(xí)算法可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[15]。監(jiān)督學(xué)習(xí)是指通過帶有屬性標(biāo)簽的樣本進(jìn)行訓(xùn)練,每組樣本都由輸入和輸出數(shù)據(jù)構(gòu)成。無監(jiān)督學(xué)習(xí)是指樣本的類別是未知的,不帶有屬性標(biāo)簽,可以將未分類的樣本進(jìn)行分類。表1列舉了材料信息學(xué)中常用的機(jī)器學(xué)習(xí)算法模型以及它們的特點(diǎn)和應(yīng)用。強(qiáng)化學(xué)習(xí)是一種通過智能系統(tǒng)與環(huán)境互動(dòng)學(xué)習(xí)如何做出一系列決策以最大化累積獎(jiǎng)勵(lì)的機(jī)器學(xué)習(xí)方法,其核心思想是在試錯(cuò)過程中通過學(xué)習(xí)來找到最優(yōu)策略,而不需要顯式的監(jiān)督標(biāo)簽。
表1 常用的機(jī)器學(xué)習(xí)模型Table 1 Common machine learning models
鋼鐵材料的機(jī)器學(xué)習(xí)預(yù)測模型是對合金成分及其加工處理工藝數(shù)據(jù)訓(xùn)練,然后對材料的性能做出預(yù)測。機(jī)器學(xué)習(xí)預(yù)測模型需要揭示被表征的鋼鐵數(shù)據(jù)及其性能之間的隱式關(guān)系,材料被表征后的數(shù)據(jù)被稱為材料特征或材料描述符,鋼鐵材料特征的構(gòu)建需要盡可能多地保留鋼鐵的特性。針對鋼鐵進(jìn)行性能預(yù)測時(shí),材料特征通常選取鋼鐵的合金成分或者其熱處理工藝。Reddy等[28]利用人工神經(jīng)網(wǎng)絡(luò)預(yù)測低合金鋼的力學(xué)性能,預(yù)測模型輸入特征包括合金成分和2種熱處理參數(shù),并根據(jù)預(yù)測模型探究了各種合金成分及2種處理工藝對該低合金鋼性能的影響。
機(jī)器學(xué)習(xí)模型的材料描述符需要根據(jù)模型輸出進(jìn)行合理設(shè)計(jì)與選擇,合理的材料描述符往往需要在考慮材料描述符與目標(biāo)輸出之間關(guān)聯(lián)性的基礎(chǔ)上,根據(jù)相關(guān)專業(yè)知識來進(jìn)行設(shè)計(jì)。在鋼鐵材料的成分及性能預(yù)測中,如果反將鋼鐵材料的合金成分以及處理工藝作為輸入來建立機(jī)器學(xué)習(xí)模型,會(huì)存在特征冗余的問題。因此,應(yīng)進(jìn)行特征選擇,將高維數(shù)據(jù)進(jìn)行降維,保留重要的材料信息。利用特征篩選后的強(qiáng)相關(guān)特征進(jìn)行模型建立,可以提高模型的預(yù)測精度以及計(jì)算速度。Xiong等[29]在進(jìn)行鋼鐵材料性能預(yù)測時(shí),利用隨機(jī)森林和符號回歸分別對影響疲勞強(qiáng)度、抗拉強(qiáng)度、斷裂韌性和硬度的特征進(jìn)行特征選擇,成功地在16個(gè)特征中篩選出與4個(gè)性能強(qiáng)相關(guān)的特征,特征選擇結(jié)果如圖2所示,隨機(jī)森林篩選的特征為Mo和Cr的含量以及均勻化溫度和回火溫度,符號回歸選擇的特征為C,Mo和Cr含量以及回火溫度,最后將上述2種算法選擇出的特征分別構(gòu)建預(yù)測模型,得出利用符號回歸模型選擇特征構(gòu)建的預(yù)測模型具有更高的預(yù)測精度(決定系數(shù)R>0.9550,均方根誤差RRMSE<3.25%),預(yù)測結(jié)果如圖3所示。
圖2 疲勞強(qiáng)度、抗拉強(qiáng)度、斷裂強(qiáng)度和硬度的16個(gè)特征的歸一化[29]:(a)隨機(jī)森林特征重要性,(b)符號回歸特征重要性Fig.2 Normalized random forest importance (a)and symbolic regression importance (b)of the 16 features for fatigue strength,tensile strength,fracture strength and hardness[29]
目前機(jī)器學(xué)習(xí)算法在鋼鐵材料領(lǐng)域最廣泛的應(yīng)用是建立鋼鐵成分-工藝-性能之間的隱式關(guān)系,以輔助鋼鐵材料的設(shè)計(jì)與開發(fā)。鋼鐵材料元素成分的多樣性和加工工藝的復(fù)雜性都會(huì)對鋼鐵的抗拉強(qiáng)度、屈服強(qiáng)度和延伸率等力學(xué)性能產(chǎn)生重大影響。因此將鋼鐵材料的元素成分和工藝參數(shù)作為預(yù)測模型的輸入,以力學(xué)性能作為輸出建立預(yù)測模型,可以輔助鋼鐵材料的設(shè)計(jì)和工藝參數(shù)優(yōu)化,從而加快新型鋼鐵的設(shè)計(jì)與研發(fā)。
魏清華等[30]使用日本國立材料研究所數(shù)據(jù)庫中的360條鋼材數(shù)據(jù),以元素成分、制備工藝和夾雜物參數(shù)為輸入,利用正則化線性回歸、隨機(jī)森林和正則化人工神經(jīng)網(wǎng)絡(luò)3種算法構(gòu)建預(yù)測模型,成功預(yù)測了鋼材的4種力學(xué)性能。謝少捷等[31]基于冶金機(jī)理選取影響熱鍍鋅鋼卷生產(chǎn)的基本特征,利用梯度提升樹算法對其他化學(xué)元素特征進(jìn)行篩選,并構(gòu)建鋼卷屈服強(qiáng)度的預(yù)測模型,最后利用預(yù)測模型分析了各種特征對鋼卷屈服強(qiáng)度的影響。Guo等[32]利用人工神經(jīng)網(wǎng)絡(luò)模型模擬合金成分、加工參數(shù)和馬氏體時(shí)效鋼性能之間的相關(guān)性,輸入?yún)?shù)為13種元素的含量、時(shí)效前冷變形程度、時(shí)效溫度和老化時(shí)間,輸出參數(shù)為8個(gè)力學(xué)特性和馬氏體起始溫度,模型預(yù)測結(jié)果與實(shí)驗(yàn)數(shù)據(jù)非常吻合。Capdevila等[33]等利用貝葉斯神經(jīng)網(wǎng)絡(luò)探究了鋼的元素成分和馬氏體起始溫度之間的關(guān)系,并根據(jù)預(yù)測模型進(jìn)一步研究了合金中C濃度對馬氏體起始溫度的影響,發(fā)現(xiàn)隨著合金中C濃度的增加,馬氏體起始溫度的下降速率降低。Guo等[34]基于6萬多個(gè)鋼鐵的工業(yè)數(shù)據(jù)樣本,以工藝參數(shù)和化學(xué)成分共27個(gè)特征為輸入,構(gòu)建普通最小二乘法、支持向量機(jī)、回歸樹和隨機(jī)森林4種預(yù)測模型,對鋼鐵的屈服強(qiáng)度、抗拉強(qiáng)度和延伸率進(jìn)行性能預(yù)測,借助預(yù)測模型,計(jì)算了不同合金含量下3種性能的可能邊界,并設(shè)計(jì)出了滿足性能要求的新鋼種。Qiao等[35]提出了一種改進(jìn)的成分-結(jié)構(gòu)-性能的預(yù)測模型,將物理特征加入到機(jī)器學(xué)習(xí)的模型中,并利用果蠅優(yōu)化算法和粒子群優(yōu)化算法分別對廣義回歸神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行尋優(yōu),根據(jù)預(yù)測模型證明了物理特征對珠光體鋼的層間距和力學(xué)性能有較大的影響,并用制備的樣品證明所提出的果蠅優(yōu)化算法-廣義回歸神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果與實(shí)驗(yàn)結(jié)果非常吻合,該模型可以用于開發(fā)具有目標(biāo)特性的新型鋼鐵,所提出的方法流程如圖4所示。
鋼鐵材料服役條件各不相同,服役性能主要包括腐蝕速率、蠕變壽命和疲勞強(qiáng)度等,鋼鐵結(jié)構(gòu)和部件的疲勞斷裂是鋼材在實(shí)際服役過程中主要的失效形式之一,因此對鋼鐵材料的服役行為進(jìn)行預(yù)測越來越受到學(xué)者們的關(guān)注。利用機(jī)器學(xué)習(xí)算法,構(gòu)建服役環(huán)境因素與服役性能之間的預(yù)測模型,可以對鋼鐵的服役行為進(jìn)行預(yù)測。
Aghaaminiha等[36]基于26 855個(gè)低碳鋼在CO2水溶液中的腐蝕數(shù)據(jù)樣本,以緩蝕劑濃度、時(shí)間和溫度等12個(gè)環(huán)境和操作因素為輸入,采用隨機(jī)森林構(gòu)建機(jī)器學(xué)習(xí)模型,預(yù)測緩蝕劑對低碳鋼的腐蝕速率的影響,經(jīng)過訓(xùn)練的隨機(jī)森林模型可以很好地預(yù)測低碳鋼腐蝕速率隨時(shí)間的變化趨勢。Verma等[37]采用各種機(jī)器學(xué)習(xí)方法,包括線性回歸、套索回歸和t分布隨機(jī)鄰域嵌入,建立9%~12%Cr(質(zhì)量分?jǐn)?shù))鋼的加工/微觀結(jié)構(gòu)和蠕變特性之間的統(tǒng)計(jì)關(guān)系,為650 ℃、100 MPa和蠕變壽命≥105h的新型馬氏體鋼的設(shè)計(jì)提供了參考。Wang等[38]建立了具有高蠕變壽命的低合金鋼設(shè)計(jì)框架,如圖5所示,首先比較各種機(jī)器學(xué)習(xí)策略,得到預(yù)測蠕變壽命的最佳機(jī)器學(xué)習(xí)模型,然后利用帶有過濾器的遺傳算法在特定蠕變條件下獲得具有最佳成分和加工參數(shù)的新合金。He等[39]利用人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸和隨機(jī)森林方法預(yù)測含有缺陷/夾雜物的焊接馬氏體不銹鋼(13Cr-5Ni)和KSFA90鋼(為曲軸制造)的疲勞壽命,在3種機(jī)器學(xué)習(xí)的預(yù)測結(jié)果中,隨機(jī)森林的預(yù)測結(jié)果精度最高,因此在預(yù)測材料的疲勞壽命時(shí),使用多種算法要優(yōu)于單一算法。
圖5 蠕變壽命預(yù)測模型和高通量設(shè)計(jì)模型的基本流程[37]Fig.5 Basic flow of the creep life prediction module and high-throughput design module[37]
鋼鐵材料的正向設(shè)計(jì)[40]是指以鋼鐵成分或工藝為輸入、性能為輸出,通過改變輸入來達(dá)到優(yōu)化鋼鐵材料性能的目的。但由于鋼鐵材料成分的多樣性以及工藝的復(fù)雜性,通過正向設(shè)計(jì)需要對大量數(shù)據(jù)進(jìn)行篩選,并且難以保證所獲取的材料性能為最優(yōu)性能。因此,需要在已知材料性能的前提下,設(shè)計(jì)材料的成分和工藝,即逆向設(shè)計(jì)[41]。鋼鐵材料的逆向設(shè)計(jì)能夠快速準(zhǔn)確地設(shè)計(jì)開發(fā)滿足性能需求的新鋼鐵材料。
Lee等[42]開發(fā)了一個(gè)包含16種算法的集成機(jī)器學(xué)習(xí)平臺,如圖6所示,基于收集到的5473組熱機(jī)械控制工藝鋼合金數(shù)據(jù)建立屈服強(qiáng)度與極限抗拉強(qiáng)度比值(YS/UTS)的預(yù)測模型,利用經(jīng)過充分訓(xùn)練的7種非線性機(jī)器學(xué)習(xí)算法構(gòu)建基于精英策略的非支配排序遺傳算法的逆向預(yù)測模型,使用全息搜索策略技術(shù)在16維決策變量空間中將預(yù)測結(jié)果進(jìn)行圖形可視化,從而可以系統(tǒng)地了解數(shù)據(jù)狀態(tài),并且在輸入特征空間引入可視化解決方案,從而實(shí)現(xiàn)了真正意義上的機(jī)器學(xué)習(xí)預(yù)測。在合金逆向設(shè)計(jì)中,Wang等[43]提出了以性能為導(dǎo)向的銅合金機(jī)器學(xué)習(xí)設(shè)計(jì)系統(tǒng),如圖7所示,用反向傳播神經(jīng)網(wǎng)絡(luò)構(gòu)建了成分預(yù)測性能(C2P)和性能預(yù)測成分(P2C)這2種模型,初始合金成分預(yù)測由P2C模型得出,將得到的結(jié)果輸入到預(yù)測精度更高的C2P模型中,將預(yù)測屬性與目標(biāo)進(jìn)行比較并得到誤差,如果預(yù)測值和目標(biāo)值之間的所有誤差都超過預(yù)設(shè)閾值,則將重新訓(xùn)練P2C模型,直到篩選出合理的合金成分設(shè)計(jì)方案,實(shí)驗(yàn)證明,機(jī)器學(xué)習(xí)設(shè)計(jì)系統(tǒng)在解決目標(biāo)特性的成分設(shè)計(jì)問題上具有更高的效率和可靠性。
圖6 集成機(jī)器學(xué)習(xí)平臺的總體框圖,包括3組機(jī)器學(xué)習(xí)算法、NSGA-II驅(qū)動(dòng)的逆預(yù)測和高維數(shù)據(jù)可視化方法[42]Fig.6 The overall graphical description for the integrated machine learning platform,three groups of machine learning algorithms,the NSGA-II-driven inverse prediction,and the high-dimensional data visualization method are given[42]
圖7 用于快速準(zhǔn)確成分設(shè)計(jì)的機(jī)器學(xué)習(xí)設(shè)計(jì)系統(tǒng)流程圖[43]Fig.7 Flow chart of the machine learning design system for rapid and accurate compositional design[43]
近年來,機(jī)器學(xué)習(xí)已廣泛應(yīng)用于材料研究中,本文針對機(jī)器學(xué)習(xí)在鋼鐵材料研究中的應(yīng)用進(jìn)行了綜述,由于鋼鐵材料成分的多樣性以及工藝參數(shù)的復(fù)雜性,采用傳統(tǒng)實(shí)驗(yàn)進(jìn)行鋼鐵設(shè)計(jì)與開發(fā)的成本過于昂貴且效率較低,相比傳統(tǒng)實(shí)驗(yàn),機(jī)器學(xué)習(xí)在揭示和開發(fā)鋼鐵材料成分-組織/結(jié)構(gòu)-性能-服役行為關(guān)系方面具有巨大的潛力。
目前,鋼鐵材料領(lǐng)域可以用于機(jī)器學(xué)習(xí)的數(shù)據(jù)規(guī)模還比較小,基于小規(guī)模數(shù)據(jù)集構(gòu)建的預(yù)測模型預(yù)測的結(jié)果往往只能接近真實(shí)數(shù)據(jù)集,不能用于真正的實(shí)驗(yàn)指導(dǎo)。鋼鐵材料領(lǐng)域針對特定鋼鐵材料的研究已經(jīng)發(fā)表了很多文獻(xiàn),但由于缺少成熟的方法,難以從大量文獻(xiàn)中收集數(shù)據(jù)作為機(jī)器學(xué)習(xí)的訓(xùn)練集。擴(kuò)充鋼鐵材料的數(shù)據(jù)集可以通過數(shù)據(jù)挖掘技術(shù)從文獻(xiàn)中提取有效數(shù)據(jù),并建立可以用于機(jī)器學(xué)習(xí)的鋼鐵材料數(shù)據(jù)庫,基于鋼鐵材料大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)將會(huì)快速推動(dòng)鋼鐵材料的研發(fā)。