亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)結(jié)合固溶強(qiáng)化模型預(yù)測高熵合金硬度*

        2023-10-06 07:04:20張逸凡任衛(wèi)王偉麗丁書劍李楠常亮周倩
        物理學(xué)報 2023年18期
        關(guān)鍵詞:特征選擇硬度合金

        張逸凡 任衛(wèi)? 王偉麗 丁書劍 李楠 常亮 周倩

        1) (西安郵電大學(xué)理學(xué)院,西安 710121)

        2) (西北工業(yè)大學(xué)物理科學(xué)與技術(shù)學(xué)院,西安 710072)

        第一性原理、熱力學(xué)模擬等傳統(tǒng)的材料計算方法在高熵合金的設(shè)計中多用于合金相的預(yù)測,同時會耗費(fèi)巨大的計算資源.本文以性能為導(dǎo)向,選用機(jī)器學(xué)習(xí)的算法建立了一個高熵合金硬度預(yù)測模型,并將機(jī)器學(xué)習(xí)與固溶體強(qiáng)化的物理模型相結(jié)合,使用遺傳算法篩選出最具有代表性的3 個特征參數(shù),利用這3 個特征構(gòu)建的隨機(jī)森林模型,其R2 達(dá)到了0.9416,對高熵合金的硬度取得了較好的預(yù)測效果.本文選用的機(jī)器學(xué)習(xí)算法和3 個材料特征在固溶體強(qiáng)化性質(zhì)方面也有一定的預(yù)測效果.針對隨機(jī)森林可解釋性較差的問題,本文還利用SHAP 可解釋機(jī)器學(xué)習(xí)方法挖掘了機(jī)器學(xué)習(xí)模型的內(nèi)在推理邏輯.

        1 引言

        高熵合金(HEA)是由4 種或4 種以上金屬元素按照等原子百分比或近似等原子百分比合成的合金材料[1].高熵合金的各主元金屬元素間發(fā)生復(fù)雜的相互作用而產(chǎn)生著名的四大效應(yīng)[2](高熵效應(yīng)、晶格畸變、遲滯擴(kuò)散效應(yīng)和“雞尾酒”效應(yīng)),從而可能會使材料表現(xiàn)出極其優(yōu)異的性能(例如耐腐蝕性、高溫?zé)岱€(wěn)定性、力學(xué)性能、磁性等)[3-5].然而,由于高熵合金含有多種主元金屬,其成分的組合空間包含了1078種組合方式[6],這就導(dǎo)致精確快速地篩選出具有優(yōu)異目標(biāo)性能的高熵合金成分是非常困難的.

        第一性原理、熱力學(xué)仿真等[7-9]傳統(tǒng)的材料設(shè)計方法雖然能夠加速新材料的發(fā)現(xiàn),但這些方法很難靈活地根據(jù)目標(biāo)性能構(gòu)建模型,而且這些方法占用了很大的計算資源,計算成本很高,然而預(yù)測精度一般.隨著人工智能的快速發(fā)展,機(jī)器學(xué)習(xí)(ML)逐漸開始應(yīng)用到材料科學(xué)中[10-13].與傳統(tǒng)材料計算方法相比,機(jī)器學(xué)習(xí)通過大量的數(shù)據(jù)訓(xùn)練,建立輸入特征與目標(biāo)性質(zhì)之間的映射關(guān)系.由于材料學(xué)科在漫長的發(fā)展進(jìn)程中積累了大量的研究數(shù)據(jù),機(jī)器學(xué)習(xí)可以從這些數(shù)據(jù)中挖掘數(shù)據(jù)所蘊(yùn)含的信息,從而快速、精準(zhǔn)地預(yù)測出材料的性質(zhì).Khakurel 等[14]選取了梯度提升算法來評估特征重要性,有效地預(yù)測了難熔高熵合金的楊氏模量.Chang 等[15]使用成分加權(quán)和密度等材料特征建立了三層人工神經(jīng)網(wǎng)絡(luò)(ANN)來預(yù)測AlCoCrFeMnNi 體系高熵合金的硬度.Bakr 等[16]利用ANN 預(yù)測了高熵合金的硬度,最終模型的決定系數(shù)達(dá)到了0.88.上述研究使用的模型雖然都具有一定的預(yù)測能力,卻難以兼顧模型的可解釋性和預(yù)測精度的問題.Li 和Guo[17]采用前向和后向特征選擇得到的材料特征建立了一個支持向量機(jī)模型(SVM)用于預(yù)測高熵合金的合金相,準(zhǔn)確率超過了90%.Xiong 等[18]利用前向特征選擇法篩選的特征預(yù)測了合金相及相關(guān)力學(xué)性能.Lee 等[19]使用皮爾遜相關(guān)系數(shù)法(PCC)篩選特征并將神經(jīng)網(wǎng)絡(luò)算法集成獲得了一個合金相分類器.Sun 等[13]利用XGBoost 算法擬合相圖計算輔助構(gòu)建的Ti-Zr-Nb-Ta 高熵合金硬度數(shù)據(jù)集,通過特征重要性排名等特征選擇方法,揭示了預(yù)測該體系合金硬度的兩個最重要的特征為Ta 含量和熔點(diǎn),同時模型獲得了87.6%的預(yù)測準(zhǔn)確率.Wen等[20]在模型構(gòu)建的特征選擇時利用皮爾遜相關(guān)系數(shù)法去除冗余特征,隨后通過將特征窮舉完成特征選擇,并使得支持向量機(jī)構(gòu)建的硬度預(yù)測模型的精度有所提高.最后聯(lián)合支持向量機(jī)和效用函數(shù)成功搜索到了候選的高硬度HEA.Li 等[21]將Stacking集成學(xué)習(xí)算法用于硬度預(yù)測,成功降低了HEA 硬度預(yù)測模型的預(yù)測誤差.然而,上述研究使用的特征選擇方法多為與模型無關(guān)的方法或貪心算法,這些方法只覆蓋了很少部分的特征組合,甚至忽略了模型與特征間的關(guān)系,這導(dǎo)致了建模時所使用特征組的質(zhì)量相對較低.此外,在特征選擇時上述研究大多針對單一特征集進(jìn)行篩選,在實(shí)際的特征選擇過程中會忽略大量特征集之外的特征,造成篩選出的特征僅有部分代表性.而且由于高熵合金復(fù)雜的多主元結(jié)構(gòu)及其形成機(jī)理,構(gòu)建一個完全包含所有影響硬度因素的特征集很困難.而且上述研究篩選的特征都只針對某種單一HEA 體系的性質(zhì)進(jìn)行預(yù)測是有效的,而難以對其他HEA 體系或HEA 性質(zhì)的性質(zhì)進(jìn)行預(yù)測.此時,構(gòu)建一個科學(xué)合理的特征選擇框架是至關(guān)重要的.這將有利于構(gòu)建一個適用于預(yù)測多種相關(guān)HEA 性質(zhì)的建模特征集,進(jìn)而可以從機(jī)理上反映出HEA 不同性能之間的關(guān)系.因而,在使用機(jī)器學(xué)習(xí)預(yù)測HEA 性質(zhì)的領(lǐng)域(尤其是對HEA 硬度的預(yù)測),特征集的構(gòu)建和特征選擇的方法仍然具有改進(jìn)空間.此外,由于機(jī)器學(xué)習(xí)多為黑盒模型,所以預(yù)測模型的可解釋性也至關(guān)重要,這決定了是否可以進(jìn)一步挖掘HEA 形成的內(nèi)部機(jī)制和預(yù)測模型的進(jìn)一步優(yōu)化.

        本文首先建立了一個包含19 個特征的高熵合金硬度數(shù)據(jù)集,并利用該數(shù)據(jù)集選取建立模型的機(jī)器學(xué)習(xí)算法.經(jīng)過測試多種特征選擇算法,發(fā)現(xiàn)由遺傳算法篩選出的候選特征質(zhì)量較好.同時,為了克服候選特征遷移性差的問題,結(jié)合傳統(tǒng)固溶體強(qiáng)化(SSS)物理模型,對候選特征進(jìn)行進(jìn)一步篩選和優(yōu)化.最后,采用了SHAP 可解釋機(jī)器學(xué)習(xí)方法[22]挖掘了輸入特征對高熵合金硬度的影響機(jī)理.

        2 建模條件

        2.1 數(shù)據(jù)集與候選材料特征參數(shù)

        本文選用文獻(xiàn)[20,21]使用的高熵合金材料硬度數(shù)據(jù)集,該數(shù)據(jù)集包含了Al,Co,Cr,Cu,Fe 和Ni 六元高熵合金硬度樣本,計205 條數(shù)據(jù).由于鑄態(tài)條件下形成的相是穩(wěn)定的,所以合金的硬度數(shù)據(jù)均在鑄態(tài)條件下測量[23].數(shù)據(jù)集包含了一些數(shù)值異常的數(shù)據(jù).分析認(rèn)為,這些異常數(shù)據(jù)并不是因?yàn)闇y量誤差導(dǎo)致的,它們可能是由HEA 固有的性質(zhì)引起的數(shù)據(jù)差異,應(yīng)予以保留.

        為了盡可能將與硬度相關(guān)的候選特征納入特征集,我們考察了曾廣泛用于HEA 性能預(yù)測的多個材料特征參數(shù).其中原子尺寸錯配和模量錯配對HEA 的硬度有巨大的貢獻(xiàn)[20].基于此,首先將原子半徑誤配(δr)、原子堆疊失配因子 (γ)、楊氏模量(E)、剪切模量(G)、剪切模量誤配(δG)、晶格畸變能(μ)、Peierls-Nabarro 因子(F)、強(qiáng)化模型中的能量項(xiàng)(A)等與原子尺寸和模量相關(guān)的特征參數(shù)加入特征集中.其次,高熵合金的相與其硬度有著很強(qiáng)的關(guān)聯(lián)性.Wang 等[24]發(fā)現(xiàn)功函數(shù)的六次方(w6)與合金的屈服強(qiáng)度呈線性關(guān)系.Guo[25]回顧了根據(jù)經(jīng)典Hume Rothery 規(guī)則選取的γ,Ω,Λ等經(jīng)驗(yàn)參數(shù)區(qū)分各類相的研究,討論了混合焓(△Hmix)、混合熵(△Smix)、吉布斯自由能(△Gmix)、平均熔點(diǎn)(Tm)、電負(fù)差(△χ)和價電子濃度(VEC)等參數(shù)對高熵合金相形成的影響.這些參數(shù)也很重要,需要被加入特征集.此外,巡回電子濃度(e/a)和內(nèi)聚能(Ec)等與電子鍵合強(qiáng)度和電學(xué)性質(zhì)有關(guān)的相穩(wěn)定性參數(shù)也被加入特征集中.由于HEA 的硬度對組織變化很敏感,還選取了一些與HEA 力學(xué)性能相關(guān)的描述因子.這樣就得到了一個含有19 個材料特征的HEA 材料候選特征數(shù)據(jù)集.相關(guān)參數(shù)及計算公式如表1 所列,其中rmin ,rmax 代表HEA 中最小和最大原子半徑;ci代表各元素摩爾比;r表示原子平均半徑;R為氣體常數(shù)表示第i和第j個元素之間的混合焓.

        表1 與高熵合金硬度相關(guān)的 19 個經(jīng)驗(yàn)特征參數(shù)及其計算公式Table 1. 19 empirical feature parameters related to the hardness of high entropy alloys and their calculation formulae.

        2.2 機(jī)器學(xué)習(xí)算法的選擇

        由于選擇恰當(dāng)?shù)腗L 算法對于精準(zhǔn)高效擬合HEA 硬度數(shù)據(jù)具有重要的作用,我們對適用于不同數(shù)據(jù)類型的ML 算法及其特點(diǎn)進(jìn)行了必要篩查.

        集成學(xué)習(xí)算法是一種重要的ML 算法.早期,因?yàn)槠淙鄙倏山忉屝远鴥H獲有限的應(yīng)用[20,21,26].隨著可解釋ML 的發(fā)展,使用集成學(xué)習(xí)結(jié)合可解釋ML 的分析預(yù)測方法可以克服傳統(tǒng)ML 算法泛化性不足,還可以兼顧模型的可解釋性,因而能挖掘大量有用信息.SVM 和ANN 分別由于其核函數(shù)、支持向量機(jī)制和反向傳播、激活函數(shù)機(jī)制使其具有強(qiáng)大的非線性映射能力,因而廣泛地應(yīng)用在各類研究場景中.此外,基于線性回歸的ML 算法由于其強(qiáng)大的可解釋性,也被廣泛用于建模中.Grinsztajn等[27]發(fā)現(xiàn)基于樹的模型(包括隨機(jī)森林(RF)和XGBoost 等算法) 在利用表格數(shù)據(jù)進(jìn)行預(yù)測方面超過了深度殘差網(wǎng)絡(luò)等其他深度學(xué)習(xí)模型.由于本文使用的HEA 硬度數(shù)據(jù)集樣本規(guī)模小,數(shù)據(jù)不均勻,基于樹的模型可能更適合該數(shù)據(jù)集.雖然上述模型都可以確立特征與目標(biāo)值之間的隱式關(guān)系,不同的ML 模型對數(shù)據(jù)采用不同的處理手段,所獲得的模型可解釋性是不同的,在建模中要根據(jù)不同的目標(biāo)值選取合適的ML 模型.本文在建模中使用了Python 的sklearn,pandas,numpy 等常用數(shù)據(jù)分析庫.

        最后,在利用HEA 數(shù)據(jù)集構(gòu)建ML 模型之前,還要考慮如何降低模型過擬合或欠擬合所帶來的風(fēng)險.傳統(tǒng)的按固定比例劃分?jǐn)?shù)據(jù)集來評價模型精度的方法會因?yàn)閿?shù)據(jù)不平衡而導(dǎo)致模型泛化性差.所以本文在建立ML 模型過程中始終將交叉驗(yàn)證的方法應(yīng)用于ML 模型選擇、ML 參數(shù)調(diào)優(yōu)、ML預(yù)測結(jié)果評估等各個階段,從而保證了建模結(jié)果的科學(xué)性和可信性.各階段使用的評價依據(jù)為均方誤差

        3 建模和結(jié)果

        3.1 基準(zhǔn)機(jī)器學(xué)習(xí)算法

        為選出最合適的基準(zhǔn)算法,本文使用了具有優(yōu)異外推能力的線性算法(Ridge 和Lasso),SVM,具有單隱藏層的ANN,性能優(yōu)異但外推能力較差的集成學(xué)習(xí)算法(如基于Bagging 的代表算法RF和基于Boosting[28]的代表算法XGBoost).首先,將前述19 個候選材料特征作為輸入?yún)?shù),將HEA硬度值作為輸出值,依次對上述ML 算法進(jìn)行訓(xùn)練.為確保發(fā)揮出各個ML 算法的特點(diǎn)和優(yōu)勢,在對ML 算法進(jìn)行訓(xùn)練時,將網(wǎng)格搜索法和十折交叉驗(yàn)證法(10-fold)相結(jié)合搜索使模型RMSE 最小的超參數(shù).經(jīng)過尋優(yōu)搜索和交叉驗(yàn)證,在SVM 的3 種核函數(shù)中選擇了非線性映射能力最好的高斯核函數(shù)(SVM-rbf).ANN 在使用Adam 作為反向傳播優(yōu)化器和線性修正函數(shù)作為激活函數(shù)時取得了最優(yōu)的結(jié)果.機(jī)器學(xué)習(xí)模型搜索的超參數(shù)結(jié)果如表2所列,所有超參數(shù)的相關(guān)解釋詳見sklearn.此外,為了增強(qiáng)模型的物理可解釋性,并沒有對特征集進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化或數(shù)據(jù)降維等數(shù)據(jù)預(yù)處理操作[29,30].

        表2 不同機(jī)器學(xué)習(xí)模型搜索的超參數(shù)結(jié)果Table 2. Hyperparametric search results for different machine learning models.

        將搜索的超參數(shù)應(yīng)用到ML 算法上,通過10-fold 驗(yàn)證的方法評估了前述ML 算法的RMSE 和R2,結(jié)果如圖1 所示.

        圖1 6 種機(jī)器學(xué)習(xí)算法對數(shù)據(jù)集的擬合結(jié)果Fig.1.Fitting results of six machine learning algorithms to the dataset.

        從圖1 可以看出,RF 不僅取得了最高的R2,并且有著最小的RMSE,這表明了RF 在該數(shù)據(jù)集上具有最佳擬合效果.所以將RF 作為接下來進(jìn)行特征選擇和模型建立的基準(zhǔn)算法.

        3.2 優(yōu)化特征組篩選及特征解釋

        從候選特征集篩選出優(yōu)化的特征組合,經(jīng)過模型訓(xùn)練,能夠使數(shù)據(jù)擬合的誤差達(dá)到最小.由于不同數(shù)據(jù)集的樣本分布不同,所以在對該數(shù)據(jù)集先驗(yàn)知識不足的情況下,需要利用多種與ML 算法相關(guān)的特征選擇方法主動選擇適合該ML 算法的特征組合,從而更好地解釋目標(biāo)屬性.本文分別使用了包裹法和嵌入法進(jìn)行特征篩選.包裹法通過使用特征搜索策略修改特征組合,以此來選擇出優(yōu)化特征子集.該方法主要包括遺傳算法(GA)、序列前向選擇(SFS)、序列后向選擇(SBS)、遞歸特征消除(RFE)等方法.嵌入法利用前述RF 算法學(xué)習(xí)器對特征重要性進(jìn)行評估,依次從特征集中剔除不重要特征,以此篩選出表現(xiàn)最好的特征組.其中,GA 是一種通過模擬自然選擇、遺傳和變異等生物進(jìn)化過程來尋找最優(yōu)解的最優(yōu)化算法.GA 通過初始化種群、評估適應(yīng)度、選擇、交叉和變異等步驟來尋找最優(yōu)化問題的最優(yōu)解.具體地,將GA 運(yùn)用到特征選擇時,本文將隨機(jī)森林模型在十折交叉驗(yàn)證法下的RMSE 作為適應(yīng)度用于評估每個特征集合的優(yōu)良程度;初始化種群即為所有可能的特征集合的集合;在執(zhí)行選擇操作時將優(yōu)秀的特征集合復(fù)制到下一代來保留優(yōu)秀的基因,同時引入新的變異來增加種群的多樣性;在執(zhí)行交叉操作時,將兩個特征集合的某些部分進(jìn)行交換,以產(chǎn)生新的特征集合.交叉操作可以促進(jìn)基因的流動和交換,從而增加種群的多樣性;在執(zhí)行變異操作時,通過添加或刪除某些特征來增加特征集合的隨機(jī)性,以增加種群的多樣性.在執(zhí)行GA 時使用了python 中的genetic_selection 庫,將最小化隨機(jī)森林模型在十折交叉驗(yàn)證法下的RMSE 為目標(biāo),利用GA 對特征集進(jìn)行全局特征搜索,最后通過執(zhí)行上述優(yōu)化步驟篩選出最優(yōu)的特征組.對于RFE,SFS,SBS 以及基于RF的包裹法,利用python 中的sklearn 庫,測試了在各個特征選擇方法下保留不同特征數(shù)量時的特征選擇結(jié)果.如圖2 所示,對除全局優(yōu)化算法的GA之外的其他4 種特征選擇方法進(jìn)行測試.在使用不同特征選擇算法時,設(shè)定保留的特征數(shù)量分別為1 到19,選擇出不同特征選擇算法在保留不同特征數(shù)量下的特征集.隨后,通過對比各個特征選擇算法在保留不同特征數(shù)量下的RMSE,選出各個特征選擇算法下的最優(yōu)特征集.如表3 所列,RFE和RF 分別篩選出了含有13 個特征的優(yōu)化特征組,雖然它們使用了較多的材料特征而對HEA 硬度預(yù)測的表現(xiàn)則較差.SBS 和SFS 算法篩選出了含有7 個特征的優(yōu)化特征組,其RMSE 約為67,預(yù)測表現(xiàn)略高于RFE 和RF.而GA 篩選出了含有8 個特征的優(yōu)化特征組,其RMSE 僅為64.09.預(yù)測表現(xiàn)明顯優(yōu)于其他特征選擇算法.這可能是因?yàn)镚A 是一個全局搜索算法,其遍歷的特征組合更加全面.因而本文使用GA 進(jìn)行特征選擇.

        圖2 SBS,SFS,RF,RFE 算法在不同特征數(shù)下選擇的最佳特征的RMSE,曲線中的星號代表了當(dāng)前特征選擇方法選擇的最優(yōu)特征組所包含的特征數(shù)Fig.2.Different number of features selected by SBS,SFS,RF,RFE algorithm vs.their RMSE performances under 10 fold.The asterisks in the curves represent the number of features contained in the optimal feature group selected by the current feature selection method.

        表3 不同特征選擇方法篩選的優(yōu)化特征組及RMSE 值Table 3. Optimized feature sets screened by different feature selection algorithms and their RMSE values.

        為了克服集成學(xué)習(xí)可解釋性差的問題,采用Lundberg 和Lee[31]提出的沙普利加和解釋(SHAP)方法.SHAP 是一種解釋ML 模型輸出的博弈論方法,通過計算各個特征對預(yù)測結(jié)果的邊際貢獻(xiàn),完成對黑盒模型局部或全局的分析.如圖3 所示,利用SHAP 方法解釋GA 選擇的優(yōu)化特征組特征對HEA 硬度的影響.根據(jù)文獻(xiàn)[25],VEC ,?χ等材料特征參數(shù)能影響HEA 形成FCC 相和BCC 相的穩(wěn)定性: 當(dāng) VEC<6.87 時HEA 傾向于生成BCC相,當(dāng) VEC>8 時傾向于生成FCC 相,當(dāng)6.871.175 時,HEA 更傾向于生成金屬間化合物(IM).IM 相對于固溶相(SSP)來說,其硬度更大,脆性也更大.同樣地,根據(jù)Hume-Rothery 準(zhǔn)則,?χ較大時,HEA 體系中具有高電正性的元素原子容易失去核外電子,高電負(fù)性元素原子則容易得電子,故高電負(fù)性元素吸引共用電子的能力也會變大,此時HEA 更易形成IM,從而提高HEA 硬度.Yang 和Zhang[36]提出的熱力學(xué)參數(shù)?反映了熵和焓之間的競爭.考慮△Hmix和△Smix等熱力學(xué)參數(shù)對HEA 相形成的影響,其中△Hmix阻礙固溶體的形成,△Smix促使形成固溶體,當(dāng)?參數(shù)較小時,說明△Hmix在HEA 體系固溶體形成中處于主導(dǎo)地位,此時不易形成固溶體,硬度較大的IM 將優(yōu)先形成;反之,當(dāng)?參數(shù)較大時,△Smix在HEA體系固溶體形成中處于主導(dǎo)地位,容易生成固溶體.經(jīng)過SHAP 方法的分析,GA 選出的優(yōu)化特征組所包含的特征參數(shù) [γ,?χ,δG] 在SHAP 排序中靠前,表明這些特征在ML 建模中很重要.同時[δG,E] 參數(shù)也與模量相關(guān),而模量參數(shù)在傳統(tǒng)物理計算模型中占據(jù)了非常重要的部分.這些結(jié)果表明通過GA 篩選出的材料特征具有重要物理意義,對于進(jìn)一步改進(jìn)力學(xué)性能預(yù)測模型具有很好的指導(dǎo)作用.

        圖3 遺傳算法所選優(yōu)化特征組8 種特征的SHAP 分析,8 種特征由上到下重要性依次降低,各個散點(diǎn)根據(jù)SHAP值的正負(fù)反映了該特征的大小對當(dāng)前樣本點(diǎn)硬度的促進(jìn)或削弱作用Fig.3.SHAP analysis of the eight features of the optimized feature set selected by the genetic algorithm.The eight features decrease in importance from top to bottom.Each scatter reflects the promoting or weakening effect of the size of the feature on the hardness of the current sample point according to the positive or negative SHAP value.

        3.3 基于固溶強(qiáng)化理論優(yōu)化輸入特征

        為分析GA 所選擇的8 個特征間是否存在冗余特征,明確是否需要進(jìn)一步優(yōu)化特征集,計算了各個特征以及HEA 硬度之間的PCC.圖4(a)的子圖是使用基準(zhǔn)算法RF 評估的各個特征的重要性排序,其中 VEC ,F,δG,?χ等參數(shù)與PCC 得到的特征和硬度間的相關(guān)性基本一致.將|PCC|>0.8 的特征視為高相關(guān)特征.如圖4(a)所示,[γ,F],[?χ,F],[ VEC,e/a,δG] 這些特征組合相關(guān)性相對較高.對于這些特征組合,不能簡單通過評估特征重要性來刪除不重要特征,因?yàn)檫@樣做可能忽略了各個特征對HEA 硬度的協(xié)同促進(jìn)作用.此外,PCC 是基于變量之間的線性相關(guān)性來衡量它們之間的關(guān)聯(lián)程度.然而,如果特征之間存在非線性關(guān)系,PCC 可能無法準(zhǔn)確反映它們之間的相關(guān)性.HEA 復(fù)雜的形成機(jī)制蘊(yùn)含著復(fù)雜的非線性關(guān)系.利用PCC 篩選特征,可能會忽略這些關(guān)系,從而漏選重要特征.其次,PCC 僅考慮特征之間的兩兩關(guān)系,并不能全面捕捉多個特征之間的復(fù)雜關(guān)系.在復(fù)雜的HEA 材料數(shù)據(jù)中,多個特征之間可能存在更高階的相互作用或非線性關(guān)系,這些關(guān)系無法通過皮爾遜相關(guān)系數(shù)來準(zhǔn)確表示.最后,PCC 只考慮了特征之間的相關(guān)性,而忽略了特征與目標(biāo)變量之間的關(guān)聯(lián)性,這可能會刪除一些對于目標(biāo)值預(yù)測比較重要的特征.圖4(b)對該特征組進(jìn)行主成分分析,發(fā)現(xiàn)在8 個特征中,只需提取3 個主成分即可保留特征集所有的信息.這為我們選取更加優(yōu)化的輸入特征提供了一個思路.同時,這也意味著特征集仍具有改進(jìn)的空間.為了提升模型精度,令模型更具可解釋性,需要依據(jù)當(dāng)前特征選擇的結(jié)果,進(jìn)一步擴(kuò)充特征集,選擇更加具有代表性的特征,進(jìn)而優(yōu)化建模特征組.

        圖4 (a)遺傳算法所選特征的PCC 熱圖,子圖為遺傳算法所選特征的RF 重要性評估排序;(b)主成分分析法計算優(yōu)化特征組 [γ,?χ,VEC,F,?,e/a,E,δG] 不同主成分?jǐn)?shù)的累計方差貢獻(xiàn)率;(c)新構(gòu)建的特征集進(jìn)行GA 特征選擇的迭代過程,子圖為GA 選擇特征的SHAP 重要性排序Fig.4.(a) PCC heat map of the features selected by the genetic algorithm,with subplots for the RF importance assessment ranking of the features selected by the genetic algorithm;(b) the cumulative variance contribution of different principal component scores of the optimized feature set[γ,?χ,VEC,F,?,e/a,E,δG]calculated by principal component analysis;(c) iterative process of GA feature selection for the newly constructed feature set,and the subplot is the SHAP importance ranking of the GA selected features.

        HEAs 的強(qiáng)化機(jī)制主要由SSS 導(dǎo)致,其中屈服強(qiáng)度和維氏硬度正相關(guān),且屈服強(qiáng)度約為維氏硬度的9.81/3 倍,所以SSS 對HEA 維氏硬度的提升很重要.

        一般認(rèn)為,HEAs 的SSS 主要由溶質(zhì)原子引起的晶格畸變和滑動位錯引起,其中金屬元素的尺寸錯配和模量錯配引起的晶格畸變在合金強(qiáng)化中占據(jù)重要地位.經(jīng)典的Labusch 模型[37]體現(xiàn)了尺寸誤配和模量誤配對SSS 的影響.傳統(tǒng)的SSS 數(shù)學(xué)模型,大多是基于Labusch 模型進(jìn)行改進(jìn).Thirathipviwat 等[38]發(fā)現(xiàn)高晶格畸變引起顯微硬度的變化與 δr正相關(guān);Ma 和Wu[39]也發(fā)現(xiàn) δr有利于導(dǎo)致位錯線形成波浪形構(gòu)型,這為HEA 提供了顯著的SSS效果.Toda-Caraballo 和Rivera-Díaz-del-Castillo[40]利用Gypen 模型將Labusch 模型從二元合金推廣到稀釋的多組分合金,通過計算原子間距變化,量化各組分引起的晶格畸變對SSS 的貢獻(xiàn)來估計合金的SSS 程度.所以原子尺寸失配與模量失配對SSS 有著重要影響.Toda Caraballo 提出的SSS模型等式可表示為[34]

        其中ξ為SSS 模型的結(jié)構(gòu)因子,BCC 相為4,FCC相為1;δ為模型的SSS 強(qiáng)化因子,與原子尺寸誤配相關(guān); ?σSSS為量化固溶強(qiáng)化程度的參數(shù);Z為固溶強(qiáng)化因子.

        基于上述理論,我們發(fā)現(xiàn)在GA 所選的8 個特征中,HEA 的硬度與模量,原子半徑和電負(fù)差的誤配有關(guān).這也暗示了此類特征與HEA 硬度增強(qiáng)有關(guān).以此為基礎(chǔ),將3.2 節(jié)中篩選出的E,G以及體積模量(K)作為原始數(shù)據(jù),通過(2)–(6) 式計算5 個與誤配相關(guān)的特征:

        其中d分別代表?xiàng)钍夏A俊⒓羟心A?、體積模量、原子半徑和電負(fù)性等參數(shù),ci代表HEA 各元素的摩爾比,di代表HEA 各元素的參數(shù)αi值.由于γ參數(shù)與金屬原子尺寸誤配相關(guān),所以將原子半徑同樣利用(2)–(6)式的方法擴(kuò)充尺寸誤配特征.將重新計算的特征與3.2 節(jié)中篩選的特征組[γ,?χ,VEC,F,?,e/a,E,δG]整合到一起,組成了含有35 個特征參數(shù)的擴(kuò)充特征集,然后通過GA 重新進(jìn)行特征選擇.

        如圖4(c)所示,GA 在迭代到第30 代時,收斂到最優(yōu)解,此時搜尋到的簡版優(yōu)化特征組為[VEC,G,M.E].相對于GA 最初篩選的包含8 個特征的優(yōu)化特征組,簡版優(yōu)化特征組僅用3 個參數(shù)來構(gòu)建ML 模型,并且由于使用G和M.E 這兩個特征取代其他大量的特征,極大減少了冗余特征,降低了模型復(fù)雜度.

        在對ML 模型進(jìn)行評估的時候,不僅要評估模型泛化性,還要評估模型的外推能力.10-fold 是將數(shù)據(jù)集平均分為10 份,評估ML 算法在其中9 份數(shù)據(jù)集上的訓(xùn)練結(jié)果是否可以遷移到剩余的1 份數(shù)據(jù)集上.該方法可以用來評估ML 模型的泛化能力.由于采用的材料硬度數(shù)據(jù)具有稀疏性,可能由于數(shù)據(jù)集劃分不當(dāng),導(dǎo)致模型訓(xùn)練信息遺漏,使模型在不同測試集上的表現(xiàn)差距較大,導(dǎo)致模型缺乏外推能力.因而可以采用留一交叉驗(yàn)證(LOOCV)評價模型的外推能力.具體作法是分別將簡版優(yōu)化特征組和優(yōu)化特征組作為RF 的輸入,利用貝葉斯優(yōu)化方法優(yōu)化RF 超參數(shù)提高模型預(yù)測性能.如圖5 所示,雖然簡版優(yōu)化特征組去除了多數(shù)輸入特征參數(shù),但是模型在10-fold 和LOOCV 情況下的RMSE 和R2相較于優(yōu)化特征組仍然有一定程度的進(jìn)步.為了進(jìn)一步分析2.1 節(jié)所述異常值對本文建模的影響,使用了孤立森林算法對數(shù)據(jù)集進(jìn)行異常值檢測.孤立森林算法是一種無監(jiān)督的離群點(diǎn)檢測算法.該算法的優(yōu)點(diǎn)包括能夠快速準(zhǔn)確地識別異常值點(diǎn),并且內(nèi)存使用率低.此外,由于該算法建立在基于樹的結(jié)構(gòu)上,因此實(shí)現(xiàn)簡單,是異常檢測的有效工具.如圖6(c)所示,使用孤立森林對數(shù)據(jù)集的樣本進(jìn)行評分,得分小于零則視為離群點(diǎn),最后發(fā)現(xiàn)了11 個離群點(diǎn).將這11 個離群點(diǎn)從數(shù)據(jù)集剔除后,分別使用LOOCV 和10-fold 評估模型的R2和RMSE.如圖6(a)和圖6(b)以及圖5(c)和圖5(d)所示,去除異常值后的R2和RMSE 相較于去除前,精度有所下降.這可能是由于我們在所使用的數(shù)據(jù)集均來源于真實(shí)世界,并且通過科學(xué)合理的方法測量,所以異常值點(diǎn)是由測量誤差導(dǎo)致的概率比較低.異常值點(diǎn)在真實(shí)世界是客觀存在的,所以一些異常點(diǎn)的情況必須被考慮到其中,這可以建立模型和真實(shí)世界的聯(lián)系.同時,如果在預(yù)測新樣本時,該樣本恰好與以前剔除的異常值點(diǎn)類型相同,此時預(yù)測偏差可能會急劇上升.所以在本文中將會保留異常值.另一方面,由于LOOCV 對異常值點(diǎn)的存在非常敏感,所以LOOCV 的評估結(jié)果對于模型離群點(diǎn)的實(shí)際影響可以作為參考.如圖6(b)和圖5(d)所示,在LOOCV 的測試下,并沒有出現(xiàn)很明顯的離群點(diǎn).這也證明了少量的異常值點(diǎn)對建模的影響并不大.

        圖5 (a),(c) 在十折交叉驗(yàn)證下的模型擬合結(jié)果以及(b),(d)在LOCOCV 下的模型擬合結(jié)果,其中(a),(b) 優(yōu)化特征組[γ,?χ,VEC,F,?,e/a,E,δG] 作為RF 輸入特征;(c),(d)簡版優(yōu)化特征組 [VEC,G,M.E] 作為RF 輸入特征Fig.5.(a),(c) Model fit results under 10-fold cross-validation and (b),(d) model fit results under LOCOCV: (a),(b) Optimized feature set [γ,?χ,VEC,F,?,e/a,E,δG] as RF input features;(c),(d) the short version of the optimized feature set[VEC,G,M.E]as RF input features.

        圖6 數(shù)據(jù)集去除異常值后的擬合圖 (a)使用了10-fold評估;(b) 使用了LOOCV 評估;(c) 主圖為異常值得分結(jié)果,Scores <0 視為離群點(diǎn);利用孤立森林對205 個高熵合金樣本進(jìn)行異常值檢測,子圖為利用主成分分析法降維后的異常值檢測可視化結(jié)果Fig.6.Fitted plots of the dataset after removing outliers:(a) 10-fold is used;(b) LOOCV is used;(c) the outlier score histogram (the orange points being outlier points when scores <0).The outlier detection is carried out for 205 high-entropy alloy samples by using isolated forest.The inset 3D figure shows the visualization results of the outlier detection after the dimensionality reduction by using principal component analysis.

        為了進(jìn)一步探索特征集[VEC,G,M.E]在SSS的應(yīng)用,對SSS 物理模型進(jìn)行改進(jìn).首先經(jīng)驗(yàn)參數(shù)VEC 與ξ的作用類似,都能區(qū)分具有FCC 和BCC結(jié)構(gòu)固溶體相的HEA.但ξ參數(shù)劃分不同相的邊界更加清晰.Wen 等[34]使用ξ代替VEC 訓(xùn)練ML模型,獲得了更好的SSS 預(yù)測結(jié)果.針對Toda-Caraballo 和Rivera-Díaz-del-Castillo[40]提出的SSS 物理模型,將特征集[VEC,G,M.E]中的VEC 替換為ξ,得到了該SSS 模型的另外一種表現(xiàn)形式:

        為了驗(yàn)證(7)式的準(zhǔn)確性,采用文獻(xiàn)[34]收集的162 條鑄態(tài)HEA 的SSS 貢獻(xiàn)( ?σSSC)數(shù)據(jù)集,該數(shù)據(jù)集中所包含的金屬元素不僅有3d 過渡金屬元素(Co,Cr,Cu,Fe,Ni,Mn,Ti,V),還包含Zr,Hf,Mo,Nb,Ta,W,Al 等難熔金屬元素.為了更好地估計SSS 對HEA 硬度的貢獻(xiàn),該數(shù)據(jù)集中只保留了BCC 和FCC 的單相固溶體數(shù)據(jù),這樣處理可以削弱除SSS 外的其他強(qiáng)化效果的干擾.如圖7所示,將[ξ,G,M.E ]作為RF 算法輸入,?σSSC作為輸出,經(jīng)過貝葉斯優(yōu)化方法對RF 進(jìn)行超參數(shù)優(yōu)化,最終在10-fold 的情況下RMSE 和R2分別為542.3691 和0.8811.

        圖7 以[ ξ,G,M.E ]作為RF 輸入特征,?σSSC 作為目標(biāo)值,在十折交叉驗(yàn)證下的評估結(jié)果Fig.7.Evaluation results with [ ξ,G,M.E ] as the RF input features and ?σSSC as the target values under 10-fold cross-validation.

        4 結(jié)論

        本文首先使用集成學(xué)習(xí)算法對一個包含19 個候選特征的高熵合金硬度數(shù)據(jù)集進(jìn)行訓(xùn)練、測試和評估: 從多種特征選擇算法中篩選出遺傳算法對19 個候選特征進(jìn)行篩選,獲得包含8 個特征的優(yōu)化特征組;然后結(jié)合兩階段的特征選擇方法,利用傳統(tǒng)固溶強(qiáng)化模型優(yōu)化建模特征,最終篩選出包含3 個材料特征的簡版最優(yōu)特征組合 [VEC,G,M.E] ;利用這3 個特征建立的RF 模型使得模型在十折交叉驗(yàn)證法下的R2達(dá)到了0.9416,RMSE 達(dá)到了52.4594.基于該特征組合建立的模型對于固溶強(qiáng)化的預(yù)測也具有一定適應(yīng)性,在預(yù)測固溶體強(qiáng)化的貢獻(xiàn)時R2達(dá)到了0.8811,這表明該模型對高熵合金力學(xué)性質(zhì)的預(yù)測可能也有好的遷移效果.最后,本文使用可解釋機(jī)器學(xué)習(xí)挖掘HEA 硬度數(shù)據(jù)的隱含信息,初步揭示了一些重要材料特征對HEA 硬度的影響機(jī)理.

        猜你喜歡
        特征選擇硬度合金
        終軋溫度對F460海工鋼組織及硬度影響
        山東冶金(2022年1期)2022-04-19 13:40:34
        鉬鎢合金燒結(jié)致密化行為
        Zr-Nb-Fe合金在LiOH溶液中的腐蝕行為
        65Mn表面電噴鍍Ni-Co-P/BN復(fù)合鍍層的硬度分析
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        Hastelloy C-2000合金的焊接工藝
        焊接(2016年8期)2016-02-27 13:05:16
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        超聲波光整強(qiáng)化40Cr表層顯微硬度研究
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        丰满巨臀人妻中文字幕| 亚洲精品第一页国产精品| 成年女人在线观看毛片| 91麻豆精品久久久影院| 免费午夜爽爽爽www视频十八禁| 欧美俄罗斯40老熟妇| 91视频免费国产成人| 中文字幕av人妻一区二区| 亚洲日本精品国产一区二区三区| 亚洲av鲁丝一区二区三区黄| 最新国产一区二区精品久久| 亚洲精品无人区一区二区三区| 婷婷久久av综合一区二区三区| 亚洲日韩av无码一区二区三区人 | 韩国日本一区二区在线| 国产精品扒开腿做爽爽爽视频| 国产露脸精品产三级国产av| 欧美—iGAO视频网| 日本一区二区在线免费看| 狠狠躁夜夜躁人人躁婷婷视频| 日韩A∨精品久久久久| 国产成人色污在线观看| 桃红色精品国产亚洲av| 亚洲欧美激情精品一区二区| 999精品免费视频观看| 中文字幕人妻一区二区二区| 老色鬼在线精品视频| 1000部精品久久久久久久久| 国产精品性一区二区三区| 蜜臀av一区二区三区免费观看 | 久久久亚洲欧洲日产国码是AV| 一级黄色一区二区三区| 97在线观看视频| 亚洲最新版无码AV| 国产一区二区三区在线影院| 成人欧美一区二区三区在线观看| 精品无码国产污污污免费网站| 国产av91在线播放| 中文字幕一区二区人妻秘书| 国产成人av性色在线影院色戒| 中文字幕久久精品波多野结百度 |