黎威 龍連春? 劉靜毅 楊洋
1) (北京工業(yè)大學(xué)材料與制造學(xué)部,北京 100124)
2) (中國科學(xué)院物理研究所,北京 100190)
磁性材料種類繁多、用途廣泛,在磁記錄、磁致伸縮、磁潤滑、磁致冷和磁傳感器等領(lǐng)域具有重要應(yīng)用[1-4].按照磁性物理學(xué)的劃分,材料的磁性基態(tài)可分為磁有序的鐵磁基態(tài)、反鐵磁基態(tài)、亞鐵磁基態(tài)和磁無序的順磁基態(tài).其中,鐵磁基態(tài)是未來高性能磁性材料的關(guān)鍵要求之一[5],根據(jù)鐵磁基態(tài)產(chǎn)生的鐵磁性材料在傳感與控制、信息處理、信息存儲等技術(shù)領(lǐng)域具有重要的應(yīng)用價值[6-8].從宏觀角度來說,長程有序排列的磁矩是材料鐵磁性產(chǎn)生的原因[9],通過磁矩可以得到材料的磁化強度、磁滯回線,反映材料的磁化性能[10].因此,研究鐵磁性材料的磁矩十分重要.
由于材料的實驗測試既昂貴又耗時[11],材料科學(xué)家們在實驗制備測試材料的同時,使用密度泛函理論(density functional theory,DFT)進行材料性能計算.然而,對于復(fù)雜的材料結(jié)構(gòu),精確的DFT 計算也會消耗大量時間.多年來,通過DFT計算產(chǎn)生了一些大型材料數(shù)據(jù)庫,如無機晶體結(jié)構(gòu)數(shù)據(jù)庫[12]、開放量子材料數(shù)據(jù)庫[13]和材料項目數(shù)據(jù)庫[14]等.面對海量材料數(shù)據(jù),如何通過數(shù)據(jù)技術(shù)手段從中提取知識,避免重復(fù)運算,浪費算力,成為關(guān)注的熱點[15].近年來,許多研究者將機器學(xué)習(xí)(machine learning,ML)技術(shù)應(yīng)用于材料研究,主要分為預(yù)測材料性能和發(fā)現(xiàn)新材料兩個方面[16].在預(yù)測材料性能方面,Isayev 等[17]構(gòu)建了一種材料特征計算工具,使用ML 中的梯度提升決策樹算法預(yù)測了無機晶體材料的六種熱機械性能;寇雯博等[18]提出了一種小波-ML 混合方法,可用于混雜復(fù)合材料等效熱傳導(dǎo)性能的預(yù)測.在發(fā)現(xiàn)新材料方面,楊自欣等[19]構(gòu)建了用于預(yù)測鉛基鈣鈦礦材料鐵電居里溫度的ML 模型,使用得到的模型篩選出了2 種目標(biāo)鈣鈦礦鐵電材料;Lu 等[20]采用DFT計算結(jié)合ML 預(yù)測的方式,從5158 個無鉛雜化鈣鈦礦中篩選了3 個穩(wěn)定的鈣鈦礦材料.這些研究展現(xiàn)了ML 在計算材料領(lǐng)域的可行性.
目前,使用ML 研究材料磁性基態(tài)主要關(guān)注鐵磁和反鐵磁基態(tài)的分類,多種磁性基態(tài)分類的ML 研究有待發(fā)展.例如,Long 等[5]從AtomWork數(shù)據(jù)庫[21]中收集了1749 條鐵磁基態(tài)和1056 條反鐵磁基態(tài)的金屬間化合物數(shù)據(jù),使用ML 中的隨機森林算法實現(xiàn)了金屬間化合物的鐵磁/反鐵磁基態(tài)分類,最終的分類準(zhǔn)確率為87%;Frey 等[22]針對材料項目數(shù)據(jù)庫中的3153 種過渡金屬氧化物訓(xùn)練了ML 模型,實現(xiàn)了過渡金屬氧化物的鐵磁/反鐵磁基態(tài)分類,分類模型的精確率和召回率的調(diào)和平均數(shù)(F1 score)為85%.雖然已有研究者使用ML預(yù)測材料磁矩,但面向的是多種磁性基態(tài)材料,相關(guān)研究主要關(guān)注算法的準(zhǔn)確性,并沒有分析材料特征,缺少探討單一磁性基態(tài)材料的磁矩.鐵磁性材料作為一種重要的磁性材料,針對性的機器學(xué)習(xí)研究具有重要意義.如Yamamoto[23]使用晶體圖神經(jīng)網(wǎng)絡(luò)模型對開放量子材料數(shù)據(jù)庫和材料項目數(shù)據(jù)庫中的材料數(shù)據(jù)進行研究,實現(xiàn)了非磁性材料/磁性材料的分類和磁矩的預(yù)測,最終集成分類模型的感受性曲線下方面積(AUC)為0.957,集成預(yù)測模型的平均絕對誤差為0.119 μB/atom.
本研究以無機磁性材料的四種磁性基態(tài)和無機鐵磁性材料的磁矩為研究對象,計算了材料的元素和結(jié)構(gòu)特征,并通過兩步法篩選材料特征,確定了磁性基態(tài)分類與磁矩預(yù)測的重要材料屬性.基于篩選后的材料特征,訓(xùn)練了磁性基態(tài)分類和磁矩預(yù)測的ML 模型,使用多種評價指標(biāo)對模型的10 折交叉驗證結(jié)果進行定量評估,得到了性能最優(yōu)的分類模型和預(yù)測模型.最后,將兩個模型應(yīng)用于測試集中材料的磁性基態(tài)分類和磁矩預(yù)測,驗證了模型的精度和泛化能力.
通過材料項目數(shù)據(jù)庫的應(yīng)用程序接口[24]獲取了98888 條無機磁性材料數(shù)據(jù),包含材料的化學(xué)式、CIF 文件、磁性基態(tài)和晶胞磁矩信息.針對本文的研究對象,對數(shù)據(jù)集中無機磁性材料的磁性基態(tài)和無機鐵磁性材料的晶胞磁矩進行描述性統(tǒng)計,如圖1 所示.圖1(a)是四種磁性基態(tài)的數(shù)量分布,其中順磁基態(tài)(PM)數(shù)據(jù)58068 條,鐵磁基態(tài)(FM)數(shù)據(jù)32248 條,亞鐵磁基態(tài)(FiM)數(shù)據(jù)5733 條,反鐵磁基態(tài)(AFM)數(shù)據(jù)2839 條.圖1(b)展示了無機鐵磁性材料晶胞磁矩的密度分布,范圍為0—280 μB,可以看到數(shù)據(jù)呈重尾分布,類似于指數(shù)數(shù)據(jù).
圖1 材料數(shù)據(jù)集的描述性統(tǒng)計 (a) 磁性基態(tài)分布直方圖;(b) 晶胞磁矩頻數(shù)分布圖Fig.1.Descriptive statistics of material data set:(a) Distribution histogram of the magnetic ground state;(b) frequency distribution of the unit cell magnetic moment.
通過ML 技術(shù)建立材料屬性與材料性能之間的映射,需要提取數(shù)字化的材料特征變量.利用材料信息平臺Matminer[25]計算了數(shù)據(jù)集中材料的元素和結(jié)構(gòu)特征,共產(chǎn)生了582 種材料特征.其中元素特征主要包括材料的組成、元素信息和電子排布;結(jié)構(gòu)特征主要包括空間群數(shù)、晶胞體積和正弦?guī)靵鼍仃?
冗余特征會導(dǎo)致模型的低效或過度擬合,為了克服此缺陷,采用兩步式特征選擇方法去除冗余特征.第1 步使用交叉驗證遞歸特征消除(RFECV)的方法,逐一評估特征的重要性,在保證模型精度基本不下降的前提下,去除冗余特征;第2 步采用ML 模型的特征排序,進一步精簡并選擇出對模型最重要的特征.通過兩步式特征選擇方法分別為磁性基態(tài)分類模型和磁矩預(yù)測模型選擇了20 個特征,如表1 所列.表中展示了選擇出的34 個重要特征,其中有6 個特征為兩個模型共用特征,各個特征的物理意義見附錄表A1 所列.
表1 基于兩步式特征選擇法獲得的材料特征Table 1.Material features obtained by the two-step feature selection method.
將選擇出的材料特征數(shù)據(jù)與磁性性能數(shù)據(jù)組合為材料數(shù)據(jù)集,按照4∶1 的比例隨機分為訓(xùn)練集和測試集.首先使用訓(xùn)練集中的材料數(shù)據(jù)進行ML 模型的訓(xùn)練,然后使用測試集中的材料數(shù)據(jù)檢驗ML 模型的精度和泛化能力.ML 模型的訓(xùn)練和檢驗過程均采用10 折交叉驗證的方法進行定量評估.其中,分類模型的評估指標(biāo)為:準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1 分數(shù)(F1 score);預(yù)測模型的評估指標(biāo)為:擬合優(yōu)度(R2)和平均絕對誤差(MAE).
為了捕獲材料特征數(shù)據(jù)與材料磁性性能之間復(fù)雜的映射關(guān)系,采用隨機森林(random forest,RF)[26]作為ML 模型.RF 不需要對材料特征進行縮放,能夠直觀地得出材料特征與材料性能之間的關(guān)系.ML 模型的超參數(shù)會影響模型的擬合能力,通過網(wǎng)格搜索的方式分別對隨機森林分類(RFC)模型和隨機森林回歸(RFR)模型進行超參數(shù)優(yōu)化,得到模型的超參數(shù)如表2 所列.本研究中ML 模型的訓(xùn)練、評估和超參數(shù)優(yōu)化均通過python 庫中的scikit-learn[27]實現(xiàn),ML 模型的構(gòu)建流程如圖2.
圖2 機器學(xué)習(xí)模型的構(gòu)建流程Fig.2.Construction process of the machine learning model.
表2 本研究中機器學(xué)習(xí)模型的超參數(shù)Table 2.Hyperparameters of the machine learning model in this study.
3.1.1 分類模型訓(xùn)練
使用RF 中的隨機森林分類(RFC)構(gòu)建了磁性基態(tài)分類模型,完成了無機磁性材料鐵磁、反鐵磁、亞鐵磁和順磁基態(tài)的分類篩選.在磁性基態(tài)分類模型的兩步式特征選擇中,第1 步通過RFECV方法將材料特征減少到了82 個,模型的平均分類準(zhǔn)確率為89.46%;第2 步通過RFC 的特征排序選擇了排名靠前的20 個材料特征對模型進行訓(xùn)練,此時模型的平均分類準(zhǔn)確率為87.67%,如圖3(a)所示.考慮到特征相關(guān)性,第2 步被剔除的材料特征對磁性基態(tài)的分類仍有少量貢獻,模型分類準(zhǔn)確率的略微下降在可控且合理的范圍內(nèi).圖3(b)展示的是分類模型的材料特征排序結(jié)果,其中,材料原子磁矩、原子外圍軌道未充滿電子數(shù)等元素特征對磁性基態(tài)分類的貢獻程度較大;結(jié)構(gòu)特征中的正弦?guī)靵鼍仃?、晶胞體積對磁性基態(tài)分類的貢獻程度雖小,但是排名靠前,可見結(jié)構(gòu)特征在四種磁性基態(tài)分類時起到了關(guān)鍵作用.
圖3 磁性基態(tài)分類模型的訓(xùn)練結(jié)果 (a) 10 折交叉驗證;(b) 材料特征排序Fig.3.Training results of the magnetic ground state classification model:(a) 10-fold cross-validation;(b) ranking of material features.
3.1.2 預(yù)測模型訓(xùn)練
基于獲得的分類模型,使用RF 中的隨機森林回歸(RFR)對無機鐵磁性材料的磁矩進行預(yù)測分析.為避免晶胞大小不同和晶胞中原子個數(shù)不同對結(jié)果產(chǎn)生影響,將磁矩值平均到晶胞中的每個原子.預(yù)測模型訓(xùn)練與分類模型訓(xùn)練相似,采用兩步法去除了對磁矩預(yù)測無關(guān)或影響較小的冗余材料特征.第1 步通過RFECV 得到了45 個材料特征,模型的平均擬合優(yōu)度為95.77%;第2 步通過RFR的特征排序得到了20 個材料特征,此時模型的平均擬合優(yōu)度為94.68%,如圖4(a)所示.圖4(b)展示的是預(yù)測模型的材料特征排序,結(jié)構(gòu)特征在經(jīng)過兩步式的特征選擇后被移除,而化合價、電負性、f 軌道未充滿電子數(shù)和材料原子磁矩等元素材料特征對無機鐵磁性材料的磁矩預(yù)測提供了較大的貢獻.
圖4 磁矩預(yù)測模型的訓(xùn)練結(jié)果 (a) 10 折交叉驗證;(b) 材料特征排序Fig.4.Training results of the magnetic moment prediction model:(a) 10-fold cross-validation;(b) ranking of material features.
將材料數(shù)據(jù)集分為訓(xùn)練集和測試集,模型的訓(xùn)練和交叉驗證均在訓(xùn)練集上完成,測試集數(shù)據(jù)在整個模型構(gòu)建過程中沒有參與,此時模型在訓(xùn)練集上的應(yīng)用效果最能檢驗?zāi)P偷木群头夯芰?
3.2.1 分類檢驗
針對訓(xùn)練完成的磁性基態(tài)分類模型,使用測試集檢驗其對無機磁性材料四種磁性基態(tài)的分類能力.圖5(a)是混淆矩陣,它反映了磁性基態(tài)分類模型在測試集上的精度.圖5(a)中的數(shù)值表示行標(biāo)簽材料被預(yù)測為列標(biāo)簽材料的數(shù)目,可以看到96.5%的順磁基態(tài)和84.8%的鐵磁基態(tài)被正確分類,反鐵磁和亞鐵磁基態(tài)的分類效果較差,這可能是由于數(shù)據(jù)庫中反鐵磁基態(tài)和亞鐵磁基態(tài)的材料數(shù)量較少,數(shù)據(jù)分布不平衡導(dǎo)致.從圖5(b)的結(jié)果可以看出,4 種分類評價指標(biāo)的10 折交叉驗證結(jié)果都很平均,說明模型沒有過擬合和偏向抽樣,能夠真實地反映磁性基態(tài)分類模型對四種磁性基態(tài)的分類效果.同時,將本研究的磁性基態(tài)分類模型與其他研究磁性基態(tài)分類的機器學(xué)習(xí)模型進行了對比,如表3 所列.這兩個研究實現(xiàn)了鐵磁和反鐵磁基態(tài)的分類,屬于二分類問題.本研究實現(xiàn)了鐵磁、反鐵磁、亞鐵磁和順磁基態(tài)的分類,屬于四分類問題,而且進一步提升了分類效果.
圖5 磁性基態(tài)分類模型的檢驗結(jié)果 (a) 混淆矩陣;(b) 10 折交叉驗證Fig.5.Test results of the magnetic ground state classification model:(a) Confusion matrix;(b) 10-fold cross-validation.
表3 本研究磁性基態(tài)分類模型與其他研究者工作的定量評估對比Table 3.Quantitative evaluation of the magnetic ground state classification model in this study and in comparison with other works.
3.2.2 預(yù)測檢驗
為了檢驗磁矩預(yù)測模型對無機鐵磁性材料磁矩的預(yù)測能力,使用測試集中的磁矩數(shù)據(jù)進行預(yù)測,觀察預(yù)測值與真實值的擬合程度、誤差范圍.圖6(a)展示了預(yù)測模型對磁矩的預(yù)測值和真實值對比,圖中藍色圓圈對應(yīng)不同的無機鐵磁性材料,其橫坐標(biāo)為獲得的預(yù)測模型對某材料磁矩的預(yù)測值,縱坐標(biāo)為該材料磁矩的真實值,紅色虛線表示預(yù)測值與真實值完全吻合時的情況.從圖6(a)可以看出,對于測試集中6450 條未參與訓(xùn)練的無機鐵磁性材料,預(yù)測模型對其磁矩的預(yù)測值都落在了真實值附近.從圖6(b)可以看出,2 種評價指標(biāo)的10 折交叉驗證結(jié)果都很平均,較訓(xùn)練集結(jié)果僅有略微下降,說明磁矩預(yù)測模型沒有過擬合,對無機鐵磁性材料的磁矩具有較好的預(yù)測能力.同時,也將本研究的磁矩預(yù)測模型與其他研究磁矩預(yù)測的機器學(xué)習(xí)模型進行了對比,如表4 所列,本研究的機器學(xué)習(xí)模型對磁矩的預(yù)測具有更低的平均絕對誤差(MAE).
表4 本研究磁矩預(yù)測模型與其他研究者工作的定量評估對比Table 4.Quantitative evaluation of the magnetic moment prediction model in this study and in comparison with other works.
圖6 磁矩預(yù)測模型的檢驗結(jié)果 (a) 預(yù)測值與真實值的擬合情況;(b) 10 折交叉驗證Fig.6.Test results of the magnetic moment prediction model:(a) Fitting degree between predicted value and real value;(b) 10-fold cross validation.
本研究針對材料項目數(shù)據(jù)庫中無機磁性材料的四種磁性基態(tài)和無機鐵磁性材料的磁矩,計算了統(tǒng)一的數(shù)字化材料特征,這些特征包含材料的元素屬性和結(jié)構(gòu)屬性描述,使得構(gòu)建的機器學(xué)習(xí)模型能夠從中學(xué)習(xí)規(guī)律,以低廉的計算成本實現(xiàn)磁性基態(tài)的分類和磁矩的預(yù)測:
1) 通過兩步式的特征選擇方法,發(fā)現(xiàn)了對磁性基態(tài)分類和磁矩預(yù)測具有重要貢獻的材料特征,包括材料元素特征中的電負性、原子磁矩和原子外圍軌道未充滿電子數(shù),顯示了材料的組成元素性質(zhì)和電子排布與材料磁性性能之間的密切關(guān)系.
2) 基于隨機森林算法,建立了磁性基態(tài)分類模型和鐵磁性材料磁矩預(yù)測模型.在材料測試集的檢驗中,分類模型對四種磁性基態(tài)的平均分類準(zhǔn)確率達85.23%,預(yù)測模型對磁矩預(yù)測的平均絕對誤差僅為0.098 μB/atom,兩個模型均展現(xiàn)了良好的精度和泛化能力.
附錄
表A1 基于兩步式特征選擇法獲得的材料特征及其物理含義Table A1.Material features and their physical meanings obtained by the two-step feature selection method.