胡瑞劉慶張光捷李俊杰陳曉玉魏曉戴東波
(1.上海大學(xué)計(jì)算工程與科學(xué)學(xué)院,上海200444;2.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444;3.之江實(shí)驗(yàn)室,浙江杭州311100)
由于高熵合金顆粒增強(qiáng)的鋁基復(fù)合材料具有較好的強(qiáng)度、韌性、耐腐蝕性、抗疲勞性和熱穩(wěn)定性等性能,故針對高熵合金增強(qiáng)顆粒的研究具有相當(dāng)重要意義[1].Liu等[2]通過等離子放電燒結(jié)加入5%、具有穩(wěn)定面心立方(face centered cubic,FCC)-體心立方(body centered cubic,BCC)雙相的AlCoCrFeNi高熵合金顆粒,獲得了屈服強(qiáng)度增加42%的新型鋁基復(fù)合材料;Zhu等[3]使用FCC單相Al0.25Cu0.75FeNiCo高熵合金作為增強(qiáng)相提高鋁基復(fù)合材料的強(qiáng)度和韌性.由于相的穩(wěn)定性對高熵合金相的形成有較大的影響[4],因此準(zhǔn)確預(yù)測高熵合金生成相對高熵合金在鋁基復(fù)合材料上的應(yīng)用至關(guān)重要.
高熵合金中不同元素的特性及元素間的相互作用決定了相的種類和組成,最終影響到高熵合金的總體性能[4-5].Yang等[6]提出,高熵合金的相形成是由一組熱力學(xué)參數(shù)決定的,如原子尺寸差、混合熵和混合焓;Wang等[7]將第一原理方法應(yīng)用于難熔高熵合金,以預(yù)測其在溫度-組合空間中的相形成行為;Yeh等[8]應(yīng)用了高熵合金的相圖計(jì)算方法(computer coupling of phase diagram and thermochemistry,CALPHAD),并研究了相形成行為,建立了商業(yè)熱力學(xué)數(shù)據(jù)庫.CALPHAD通過直接計(jì)算在給定溫度和壓強(qiáng)下多組分系統(tǒng)的吉布斯自由能的最小值得到了平衡相[9].密度泛函理論(density functional theory,DFT)計(jì)算和從頭算分子動力學(xué)(ab initio molecular dynamics,AIMD)模擬[10]也經(jīng)常被用來進(jìn)行高熵合金的設(shè)計(jì).然而,這些技術(shù)都存在高成本、耗費(fèi)大量計(jì)算時(shí)間的缺點(diǎn)[11],因此了解高熵合金相形成的潛在機(jī)理仍然是一種挑戰(zhàn)[12].
近年來,機(jī)器學(xué)習(xí)在預(yù)測高熵合金的相[11]、研究材料和分子的關(guān)系[13]、預(yù)測耐磨材料的質(zhì)量[14]、研究影響二元合金固溶度的因素[15]等方面有了一定進(jìn)展.采用以數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法,從數(shù)據(jù)集中學(xué)習(xí)潛在規(guī)則并構(gòu)建模型,能夠加快對目標(biāo)性能的預(yù)測[16].利用特征工程從原始特征中選擇合適的特征可以提高機(jī)器學(xué)習(xí)模型預(yù)測的準(zhǔn)確性[17].本工作提出了一種基于結(jié)合了特征工程和機(jī)器學(xué)習(xí)的方法來預(yù)測高熵合金的相穩(wěn)定性.首先,依賴數(shù)據(jù)集對多個(gè)模型進(jìn)行評估,依據(jù)評估結(jié)果選擇預(yù)測模型;然后,基于選擇的模型使用特征工程抽取和分析了影響高熵合金相穩(wěn)定性的經(jīng)驗(yàn)熱力學(xué)參數(shù);最后,通過選擇的特征和模型建立了高熵合金在室溫下的相穩(wěn)定性預(yù)測模型,最終達(dá)到了提高預(yù)測精度的目的.
根據(jù)獲得的數(shù)據(jù)集和預(yù)測變量,基于機(jī)器學(xué)習(xí)的高熵合金相穩(wěn)定性預(yù)測模型的構(gòu)建流程如圖1所示.首先,本模型的數(shù)據(jù)選取自參考文獻(xiàn)[18],數(shù)據(jù)集一共包含407個(gè)高熵合金樣本,數(shù)據(jù)集按5∶5隨機(jī)分為訓(xùn)練集和測試集;然后,進(jìn)行模型訓(xùn)練與評估,基于10折交叉檢驗(yàn),建立4種回歸模型,對相穩(wěn)定性預(yù)測模型進(jìn)行訓(xùn)練和評估;其次,評估模型時(shí)使用了平均絕對誤差(mean absolute deviation,MAE)、均方誤差(mean-square error,MSE)、擬合系數(shù)R2等評價(jià)指標(biāo),根據(jù)評估結(jié)果選擇性能最好的模型;最后,將基于確定的模型利用特征工程篩選出的影響高熵合金相穩(wěn)定性的重要因素作為新的輸入,建立起新的高熵合金相穩(wěn)定性預(yù)測模型并做預(yù)測分析,基于測試集進(jìn)行獨(dú)立預(yù)測,并進(jìn)行評估分析.
圖1 機(jī)器學(xué)習(xí)的性能預(yù)測模型工作流程圖Fig.1 Workflow flowchart of machine learning performance prediction model
在訓(xùn)練模型之前通常要對算法進(jìn)行參數(shù)尋優(yōu).由于整體的樣本集數(shù)量不大,故對其他3種回歸算法設(shè)置默認(rèn)的參數(shù).而對于隨機(jī)森林(random forest,RF)算法,其默認(rèn)的內(nèi)部決策樹(decision tree,DT)數(shù)量為500,由于在面對高熵合金小數(shù)據(jù)集的場景下會導(dǎo)致模型過擬合,因此設(shè)定通過迭代選擇最佳決策樹的個(gè)數(shù)為40.
高熵合金數(shù)據(jù)集分為FCC、BCC、密排六方(hexagonal close-packed structure,HCP)、多相(multi-phase,MP)和非晶態(tài)(amorphous phase,AM)這5類相,并包含混合焓ΔHmix、混合熵ΔSmix、原子尺寸差δ、價(jià)電子濃度(valence electron concentration,VEC)等14個(gè)經(jīng)驗(yàn)熱物理參數(shù)特征.在恒定的溫度和壓力下,根據(jù)式(1)得到每個(gè)樣本的ΔGmix數(shù)據(jù).最終獲得的數(shù)據(jù)集中包含407個(gè)高熵合金樣本、12個(gè)特征,以及目標(biāo)屬性ΔGmix:
詳細(xì)的特征數(shù)據(jù)示例如表1所示(以2個(gè)合金樣本為例).
表1 高熵合金數(shù)據(jù)集的特征參數(shù)Table 1 Characteristic parameters of high-entropy alloy data set
針對特定材料屬性選擇合適的算法訓(xùn)練模型非常重要,數(shù)據(jù)可以在某種程度上確定機(jī)器學(xué)習(xí)的局限性[19].圖2中顯示了13個(gè)描述符之間的Pearson相關(guān)系數(shù)的可視化,顏色的深淺對應(yīng)了特征之間線性相關(guān)性的強(qiáng)弱.從圖2中可以看出,這些特征之間存在較高的線性相關(guān)性,意味著這些特征之間是相互影響的.對于具有高度線性相關(guān)性的2個(gè)特征而言,在某種程度上這2個(gè)特征是可以相互替代的.
圖2 特征之間的皮爾森相關(guān)性系數(shù)可視化展示Fig.2 Visualization display of Pearson correlation coefficients between features
機(jī)器學(xué)習(xí)模型的性能依賴于使用的特征,而特征的選擇又非常依賴于特定的預(yù)測任務(wù).就收集的這批數(shù)據(jù)集而言,影響高熵合金相穩(wěn)定性的特征多達(dá)13個(gè).顯然,要選擇重要的相關(guān)特征作為模型的輸入是相當(dāng)困難的.因此,本工作利用特征工程來進(jìn)行特征選擇,最大程度地從原始數(shù)據(jù)中提取特征以供算法和模型使用[20].對于任何針對預(yù)測材料屬性的機(jī)器學(xué)習(xí)模型,其性能通常取決于特征的最優(yōu)數(shù)量及特征的意義.盡管可能有許多因素影響材料的目標(biāo)特性,但是特征的數(shù)量必須合理,否則會造成算法的過擬合或欠擬合.可見,特征的選擇可以避免算法的欠擬合,提高預(yù)測的準(zhǔn)確率和效率.通常來說,根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:過濾法(filter)、包裝法(wrapper)和嵌入法(embedded)[21].本工作使用嵌入法進(jìn)行特征選擇,即選用的隨機(jī)森林模型對特征進(jìn)行擬合訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù)(特征重要性分?jǐn)?shù)),并根據(jù)系數(shù)從大到小選擇特征.
關(guān)于高熵合金相穩(wěn)定性預(yù)測這一問題需要構(gòu)建一個(gè)回歸模型,用于發(fā)現(xiàn)熱力學(xué)參數(shù)和相穩(wěn)定性之間的相關(guān)性.通常,不同的機(jī)器學(xué)習(xí)模型適合不同的預(yù)測任務(wù).本工作使用多種機(jī)器學(xué)習(xí)模型對該預(yù)測任務(wù)進(jìn)行建模,通過對比各個(gè)模型在該任務(wù)上的表現(xiàn),最終根據(jù)評估指標(biāo)確定高熵合金相穩(wěn)定性預(yù)測模型.本工作選取了常用的4個(gè)模型來進(jìn)行建模:決策樹算法、隨機(jī)森林、線性回歸(linear regression,LR)和貝葉斯嶺回歸(Bayesian ridge regression,BRR).
1.4.1 決策樹
決策樹是一種非?;A(chǔ)又常見的機(jī)器學(xué)習(xí)模型.決策樹的每個(gè)非葉子節(jié)點(diǎn)對應(yīng)一個(gè)特征,該節(jié)點(diǎn)的每個(gè)分支代表這個(gè)特征的一個(gè)取值,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別或一個(gè)回歸函數(shù)[22].使用決策樹進(jìn)行決策的過程就是從根節(jié)點(diǎn)開始,提取出待分類項(xiàng)中相應(yīng)的特征,按照其值選擇輸出分支,依次向下,直至葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別或者回歸函數(shù)的運(yùn)算結(jié)果作為輸出(決策)結(jié)果.決策樹的決策過程非常直觀,易被理解,且運(yùn)算量相對較小.
基于決策樹的構(gòu)建,可以清楚地獲得訓(xùn)練后的決策樹預(yù)測模型每個(gè)特征節(jié)點(diǎn)的選擇和劃分依據(jù).因此,可以直觀地看到影響高熵合金相穩(wěn)定性的參數(shù)排序,通??拷攲拥奶卣鞴?jié)點(diǎn)對預(yù)測目標(biāo)的影響最大.
1.4.2 隨機(jī)森林
隨機(jī)森林回歸是使用隨機(jī)的方式建立一個(gè)森林(forest),森林由多個(gè)決策樹組成,隨機(jī)森林的每一棵決策樹之間是沒有關(guān)聯(lián)的.當(dāng)有新樣本進(jìn)入的時(shí)候,森林中的每一棵決策樹分別進(jìn)行判斷.隨機(jī)(random)是指在訓(xùn)練時(shí)隨機(jī)選取特征作為決策節(jié)點(diǎn),并對產(chǎn)生的多個(gè)決策結(jié)果進(jìn)行匯總輸出,該方法主要應(yīng)用于回歸和分類[23].當(dāng)將隨機(jī)森林作為預(yù)測模型時(shí),模型的結(jié)果是多棵不相關(guān)決策樹結(jié)果的集成.因此,隨機(jī)森林可以獲得更小的誤差,并且也可以為特征進(jìn)行重要性評估,這對于分析高熵合金相的穩(wěn)定性及其影響因素的相關(guān)性提供定量的參考.
1.4.3 線性回歸
線性回歸假設(shè)目標(biāo)值與特征之間線性相關(guān),即滿足一個(gè)多元一次方程.通過構(gòu)建損失函數(shù)來求解損失函數(shù)最小時(shí)的參數(shù)w和b[24]:
1.4.4 貝葉斯嶺回歸
貝葉斯嶺回歸是利用概率模型估算回歸問題.貝葉斯嶺回歸能估計(jì)出一個(gè)求解回歸問題的概率模型,根據(jù)已有的數(shù)據(jù)進(jìn)行改變,在估計(jì)過程中引入正則項(xiàng)參數(shù).這里,正則項(xiàng)參數(shù)并不是嚴(yán)格意義上的定義,而是根據(jù)數(shù)據(jù)進(jìn)行調(diào)整[25].從圖2可以看出,有超過一半的參數(shù)與預(yù)測目標(biāo)有高度相關(guān)性,這使得在訓(xùn)練模型時(shí)往往會產(chǎn)生模型過擬合現(xiàn)象.因此,使用極大似然估計(jì)加上正則項(xiàng)的貝葉斯嶺回歸能夠抑制模型的復(fù)雜度,避免產(chǎn)生過擬合.
在本實(shí)驗(yàn)中,通過構(gòu)建4種不同的回歸模型(DT、RF、LR和BRR)來預(yù)測ΔGmix.表2列出了這4種算法模型的10折交叉驗(yàn)證結(jié)果,圖3將表2給出的結(jié)果結(jié)合帶誤差棒的柱狀圖進(jìn)行統(tǒng)計(jì)繪制.在交叉驗(yàn)證的10次測試中,表2粗體標(biāo)記的值為每個(gè)模型在10次測試中的最好結(jié)果,可以看出RF算法在測試集上的準(zhǔn)確率最高.從圖3也能看出,模型交叉驗(yàn)證的平均性能還是RF最好,并且RF結(jié)果的相對穩(wěn)定性也最好;DT的穩(wěn)定性不如RF模型,且2個(gè)回歸模型預(yù)測準(zhǔn)確性不夠高.顯然,在訓(xùn)練樣本量不大的情況下,RF決策樹集成算法在應(yīng)對高熵合金數(shù)據(jù)集時(shí)擬合的準(zhǔn)確度最高且穩(wěn)定性最好.
圖3 4個(gè)模型的10折交叉驗(yàn)證準(zhǔn)確度Fig.3 10-fold cross-validation accuracy of four models
表2 高熵合金相穩(wěn)定性預(yù)測的交叉驗(yàn)證結(jié)果Table 2 Cross validation results of phase stability prediction of high entropy alloys
為了找出合金體系影響吉布斯自由能的熱力學(xué)參數(shù),需要基于RF模型進(jìn)行特征選擇.圖4展示了基于隨機(jī)森林回歸模型的特征重要性排序.從圖4中可以看出,φ和的特征重要性遠(yuǎn)大于其他特征,表明這2個(gè)特征對高熵合金相穩(wěn)定性有很大的影響.由Ye等[26-27]提出的無量綱參數(shù)φ可以看作是一種熵,衡量合金原子大小差異以及化學(xué)鍵是否匹配,且作為一個(gè)重要的因素影響到高熵合金能否形成穩(wěn)定的單相.Zhang等[28]和Tan等[29]的研究結(jié)果表明,是通過計(jì)算得到的熱物理參數(shù)對原子尺寸的差值和化學(xué)鍵匹配度的關(guān)系,適合用來設(shè)計(jì)具有單相固溶體的高熵合金.上述學(xué)者們的研究也再一次印證了本實(shí)驗(yàn)結(jié)果.
圖4 基于RF算法的特征選擇重要性排序Fig.4 Prioritization of feature selection based on RF algorithm
為了查看特征數(shù)量對預(yù)測效果的影響,本工作根據(jù)特征重要性序列對4種算法進(jìn)行了再一次的訓(xùn)練,按照重要性評分依次輸入對應(yīng)的特征,評價(jià)指標(biāo)為模型的R2值.模型表現(xiàn)的效果如圖5所示.從圖5可以看到,開始加入2個(gè)特征時(shí)模型的預(yù)測準(zhǔn)確性得到了較大的提升.然后隨著特征的不斷增加,模型的表現(xiàn)效果逐漸趨于穩(wěn)定.從實(shí)驗(yàn)整個(gè)表現(xiàn)的效果來看,RF相對于其他3種算法,模型的預(yù)測準(zhǔn)確度最高,整體波動最小也最穩(wěn)定.因此,對于需要選擇的特征數(shù)據(jù)和預(yù)測屬性而言,RF是最合適的選擇.
圖5 隨著特征增加模型測試集的結(jié)果比較Fig.5 Comparison of model test set results with increased feature
為了驗(yàn)證本工作找到的影響ΔGmix的關(guān)鍵因素,本工作只用前2個(gè)特征來預(yù)測ΔGmix(見圖6).從圖6中可以看到,雖然本實(shí)驗(yàn)只用了2個(gè)特征,但是預(yù)測效果也較好,模型在測試集上的R2達(dá)到了0.994,且MAE、MSE的值幾乎接近于0,表明本模型的預(yù)測結(jié)果與計(jì)算值的誤差很小,同時(shí)也說明本模型具有一定的可靠性.為了進(jìn)一步評估模型的可靠性,對于所得到的2個(gè)重要特征需要結(jié)合領(lǐng)域知識進(jìn)一步討論[30].在合金系統(tǒng)中,原子的大小以及化學(xué)鍵的組合會使合金系統(tǒng)的微觀結(jié)構(gòu)種類發(fā)生變化.合金體系的熵與微觀結(jié)構(gòu)種類的數(shù)量呈正相關(guān),故微觀結(jié)構(gòu)的數(shù)量越多,混合熵越大,體系的混亂程度越大,那么合金體系的吉布斯自由能會逐漸趨近最小值,從而達(dá)到一個(gè)穩(wěn)定的狀態(tài).在和表2中13個(gè)特征的預(yù)測效果對比時(shí)可以發(fā)現(xiàn),2個(gè)特征的預(yù)測表現(xiàn)和多個(gè)特征的預(yù)測表現(xiàn)相差很小,甚至更好.以上也反映了在高熵合金材料的穩(wěn)定性預(yù)測上,模型的表現(xiàn)取決于重要特征,而并不在于所用特征的數(shù)量,同時(shí)也說明本工作找到了影響ΔGmix的關(guān)鍵特征.本實(shí)驗(yàn)結(jié)果對于研究機(jī)器學(xué)習(xí)的方法在高熵合金材料的相穩(wěn)定性以及設(shè)計(jì)穩(wěn)定相的高熵合金有一定的參考價(jià)值和實(shí)用意義.
圖6 只有2個(gè)特征的模型測試集結(jié)果Fig.6 Model test set results with only two features
本工作從高熵合金基本的特征性能參數(shù)出發(fā),分別采用RF、DT、LR和BRR這4種機(jī)器學(xué)習(xí)模型對高熵合金的相穩(wěn)定性進(jìn)行了預(yù)測,并結(jié)合交叉檢驗(yàn)的方法找到了最優(yōu)的回歸方法RF.經(jīng)過實(shí)驗(yàn)驗(yàn)證,RF方法可以對高熵合金的相穩(wěn)定性進(jìn)行有效的預(yù)測.本工作還使用基于模型的特征工程方法對特征進(jìn)行重要性排序后進(jìn)行特征選擇,找到了影響合金相穩(wěn)定性的關(guān)鍵因素.實(shí)驗(yàn)結(jié)果表明,由于不同的機(jī)器學(xué)習(xí)算法對數(shù)據(jù)樣本分布的敏感程度不同,進(jìn)行機(jī)器學(xué)習(xí)預(yù)測需要選擇合適的方法才能達(dá)到理想的效果.另外,有區(qū)別地篩選對預(yù)測屬性影響大的特征,有助于降低過擬合的風(fēng)險(xiǎn),提升機(jī)器學(xué)習(xí)的精度和效率.本實(shí)驗(yàn)結(jié)果對研究機(jī)器學(xué)習(xí)方法在預(yù)測高熵合金材料性能及發(fā)現(xiàn)新型鋁基復(fù)合材料方面具有一定的參考價(jià)值和意義.