王向東,徐鵬程,盧 天,劉秀娟,陸文聰,
(1.上海大學(xué) 材料基因組工程研究院,上海 200444)(2.上海大學(xué)理學(xué)院,上海 200444)
近年來(lái),機(jī)器學(xué)習(xí)(machine learning, ML)或數(shù)據(jù)挖掘已經(jīng)成功地應(yīng)用于材料科學(xué)研究中[1-4]。例如,Xue等[5]報(bào)道了如何通過(guò)自適應(yīng)設(shè)計(jì)加速尋找具有目標(biāo)性能的新材料,并進(jìn)行了推理和全局優(yōu)化,以尋找具有極低熱滯后的鎳鈦基形狀記憶合金。何鵬程等[6]報(bào)道了模式識(shí)別在核殼結(jié)構(gòu)鈷鋁復(fù)合氫氧化物形貌可控合成中的應(yīng)用。由于三元金合金組分和配比的復(fù)雜性,到目前為止,找到一種簡(jiǎn)單、有效的方法來(lái)設(shè)計(jì)具有理想性能的新材料仍然是一項(xiàng)挑戰(zhàn)。我們期望通過(guò)ML模型設(shè)計(jì)出性能更好的新材料,從而加速對(duì)新材料的研究。
金合金具有接觸電阻低、導(dǎo)電性和導(dǎo)熱性良好、噪音電平低以及抗有機(jī)氣氛污染能力良好等優(yōu)良的電學(xué)和化學(xué)性能[7, 8],故金合金在電接觸材料方面具有很好的應(yīng)用前景,尤其是在輕負(fù)荷、小接觸壓力使用條件下更能顯示其優(yōu)良的特性[9-11]。電接觸材料一般在電器開(kāi)關(guān)中使用,電阻率是其重要特性之一,因此研究低電阻率三元金合金具有非常重要的意義。
本工作采用的材料設(shè)計(jì)策略流程如圖1所示。原始數(shù)據(jù)由51個(gè)三元金合金樣本組成,利用最大相關(guān)最小冗余(mRMR)結(jié)合XGBoost算法篩選出建模的特征變量,然后應(yīng)用作者實(shí)驗(yàn)室開(kāi)發(fā)的模式識(shí)別逆投影方法設(shè)計(jì)了3個(gè)低電阻率三元金合金候選樣本,最后通過(guò)XGBoost模型估算出候選樣本的電阻率。
本文原始數(shù)據(jù)來(lái)自于材料數(shù)據(jù)科學(xué)平臺(tái)(MPDS)數(shù)據(jù)庫(kù)[12, 13],它由51個(gè)在常溫常壓下的三元金合金樣本組成。在數(shù)據(jù)集中,用化學(xué)符號(hào)表示三元金合金(ABC)時(shí),先將Au元素排在A位,然后將其他兩個(gè)元素按電負(fù)性上升的順序排列,若兩個(gè)元素的電負(fù)性相同,則再按價(jià)電子數(shù)上升的順序排列。對(duì)目標(biāo)值電阻率取負(fù)對(duì)數(shù),得到其數(shù)值在4~6.8之間。將數(shù)據(jù)集中-lgρ大于5.71(數(shù)據(jù)集的中位數(shù))的劃分為優(yōu)類(lèi)樣本(good samples),將-lgρ小于5.71的劃分為劣類(lèi)樣本(bad samples),因此可得到優(yōu)類(lèi)樣本26個(gè),劣類(lèi)樣本25個(gè)。本工作中共收集了64個(gè)特征描述符[14],其中包括62個(gè)原子參數(shù)描述符和2個(gè)組分描述符。
mRMR算法是一種濾波式的特征篩選算法,它以不同的方式在相關(guān)性和冗余度之間進(jìn)行權(quán)衡,并且以互信息作為計(jì)算準(zhǔn)則來(lái)比較特征與類(lèi)變量之間的相關(guān)性以及特征之間的冗余度,通過(guò)最大化特征與類(lèi)變量的相關(guān)性以及最小化特征之間的冗余度來(lái)進(jìn)行特征選擇[15]。
最大相關(guān)性原理是指選擇那些與模型具有最大相關(guān)性的特征,相關(guān)性越大,則說(shuō)明訓(xùn)練出的模型解決問(wèn)題的能力越強(qiáng)。特征之間的相關(guān)性越大,則冗余度越高。為了減少特征之間的冗余度并使每個(gè)特征具有代表性,需要將冗余度降低到最小,這就是最小冗余原理。
統(tǒng)計(jì)模式識(shí)別是ML的主要方法之一, 為了實(shí)現(xiàn)統(tǒng)計(jì)模式識(shí)別方法的自動(dòng)建模,有必要從通過(guò)不同方法獲得的眾多投影圖中自動(dòng)選擇最佳模式識(shí)別分類(lèi)投影圖(二維投影面)[16]。
2.3.1 最佳投影識(shí)別法
由于不同的計(jì)算原理,不同的統(tǒng)計(jì)模式識(shí)別方法可以獲得不同分類(lèi)結(jié)果的投影圖。但即使相同的統(tǒng)計(jì)模式識(shí)別方法也可能具有不同的投影方向,如主成分分析(PCA)方法能得出N(N-1)/2個(gè)不同的投影圖, 其中N為特征變量數(shù)。為此, 我們利用最佳投影識(shí)別法[17]探索尋找分類(lèi)最佳的二維投影面, 其原理是在計(jì)算了若干個(gè)統(tǒng)計(jì)模式識(shí)別投影后(本工作應(yīng)用了主成分、偏最小二乘、Fisher判別矢量、球形映照等投影),使用迭代方法在每個(gè)隱含的投影平面上搜索出最佳分類(lèi)的投影圖,即在該投影圖上將優(yōu)類(lèi)樣本在一定范圍內(nèi)聚集, 且使優(yōu)化區(qū)(優(yōu)類(lèi)樣本分布范圍)混合的劣類(lèi)樣本的數(shù)量盡可能少。
2.3.2 逆投影法
模式識(shí)別投影圖上顯示的樣本點(diǎn)的坐標(biāo)是各原始特征變量的線性組合或是某種沒(méi)有實(shí)際意義的映像,實(shí)際工作中實(shí)施的“優(yōu)化樣本”必須由原始特征變量來(lái)表示,因此需要通過(guò)特定的算法將二維模式識(shí)別圖上優(yōu)化區(qū)域中設(shè)計(jì)的“優(yōu)化樣本”返回到原始樣本,該過(guò)程被稱(chēng)為“逆投影”[6]。
逆投影是為二維空間的設(shè)計(jì)點(diǎn)找到多維空間的源像。如果沒(méi)有約束條件,那么逆投影將有無(wú)數(shù)多個(gè)解,故逆投影的結(jié)果只有在某些約束條件下才是唯一的。例如,為線性逆投影引入的約束條件是將設(shè)計(jì)點(diǎn)在各個(gè)投影矢量上的坐標(biāo)取定值,而為非線性逆投影引入的約束是使逆投影的誤差函數(shù)最小。
本工作采用線性的模式識(shí)別逆投影方法,只需要用戶(hù)在投影圖上設(shè)定一個(gè)點(diǎn),就能得到一組由橫縱坐標(biāo)的投影矢量所決定的聯(lián)立方程組(含2個(gè)方程組),如式(1)所示:
(1)
其中,xij為第i個(gè)投影上的第j個(gè)特征變量(有n個(gè)),aij和bi是決定模式識(shí)別投影的系數(shù),ci是設(shè)計(jì)樣本的投影坐標(biāo)。由式(1)確定的定量關(guān)系只有2個(gè),因此,若想得到唯一解,必須給定n-2個(gè)約束條件。本工作進(jìn)一步采用n-2個(gè)變量的平均值代入上面的方程,則可將上面的方程轉(zhuǎn)化為二元一次線性方程組,從而求得該方程組的唯一解。
變量篩選的目的是去除冗余的自變量,用盡可能少的自變量建立預(yù)報(bào)結(jié)果盡可能好的ML模型。為了去除共線性的自變量,本工作計(jì)算了所有64個(gè)特征描述符(自變量)之間的皮爾遜相關(guān)系數(shù),若2個(gè)變量間的皮爾遜相關(guān)系數(shù)大于0.9,則刪除其中一個(gè)變量[18]。任意2個(gè)描述符x和y之間的皮爾遜相關(guān)系數(shù)(R)的計(jì)算如式(2)所示:
(2)
利用mRMR算法對(duì)44個(gè)特征變量進(jìn)行排序[15]。圖2給出了排序在前15的變量間的皮爾遜相關(guān)系數(shù)熱圖。隨后通過(guò)XGBoost算法篩選出與ML的最優(yōu)變量子集[19]。為了評(píng)估變量子集,采用實(shí)驗(yàn)值與留一法預(yù)測(cè)值之間的相關(guān)系數(shù)(R)來(lái)評(píng)價(jià)變量篩選的效果,最優(yōu)變量子集相應(yīng)的R值最大。從圖3可以看到相關(guān)系數(shù)R與所選變量數(shù)之間的關(guān)系,即R值隨著變量數(shù)先增加,在達(dá)到最大值之后逐漸減小。因?yàn)樽詈线m的變量數(shù)可能在峰值附近,因此選擇了前11個(gè)變量進(jìn)行了更詳細(xì)的計(jì)算。從圖3中可以發(fā)現(xiàn),R的趨勢(shì)與均方根誤差(RMSE)正好相反,利用前5個(gè)變量所建的XGBoost模型擁有最好的表現(xiàn),即最大的R值與最小的RMSE值,故選擇前5個(gè)變量進(jìn)行后續(xù)的ML建模和材料設(shè)計(jì)。這5個(gè)變量分別為B位組分?jǐn)?shù)(RB)、C位組分?jǐn)?shù)(RC)、C位電負(fù)性(χC)、B位第二電離能(I2B)、C位第一電離能(I1C)。
圖2 排序在前15的變量間的皮爾遜相關(guān)系數(shù)熱圖Fig.2 Heat map of Pearson correlation coefficient among the top 15 variables
圖3 mRMR-XGBoost進(jìn)行變量篩選Fig.3 Variable screening by mRMR-XGBoost
利用本實(shí)驗(yàn)室的HyperMiner數(shù)據(jù)挖掘軟件[20],以RB、RC、I2B、χC和I1C為特征變量,電阻率為目標(biāo)值,經(jīng)過(guò)最佳投影計(jì)算,得到如圖4所示的最佳模式識(shí)別投影圖及逆投影點(diǎn),對(duì)應(yīng)于PCA方法的第一主成分PCA(1)和第三主成分PCA(3)構(gòu)成的投影圖,發(fā)現(xiàn)有明顯的統(tǒng)計(jì)分布規(guī)律[6, 21, 22]。圖4中的矩形區(qū)域?yàn)閮?yōu)化區(qū),其中優(yōu)類(lèi)樣本約占70.3%,高于總樣本中優(yōu)類(lèi)樣本所占比例(51%)。由此得出,若要得到低電阻率的三元金合金,則設(shè)計(jì)的三元金合金樣本應(yīng)盡可能控制在優(yōu)化區(qū)內(nèi)。圖4中優(yōu)化區(qū)分布范圍可由如下聯(lián)立方程組式(3)和式(4)表示:
4.530≤0.648[RB]+0.207[RC]+8.531×10-4[EISB]+
1.005[ENC]+4.358×10-3[EIFC]≤8.322
(3)
0.915≤-6.979×10-3[RB]+7.821×10-2[RC]+4.678×10-3
[EISB]-1.775[ENC]-1.211×10-3[EIFC]≤4.485
(4)
在最佳模式識(shí)別投影圖中選取3個(gè)點(diǎn)作為虛擬樣本(virtual samples),如圖4所示。然后使用模式識(shí)別逆投影的方法計(jì)算出3個(gè)虛擬樣本的特征變量(表1)。最后通過(guò)計(jì)算歐式距離,得到與虛擬樣本點(diǎn)最接近的候選樣本,如表2所示。
圖4 最佳模式識(shí)別投影圖及逆投影點(diǎn)(虛擬樣本)Fig.4 Optimal pattern recognition projection diagram and inverse projection point(virtual samples)
表1 逆向設(shè)計(jì)的虛擬樣本Table 1 Virtual samples of inverse design
由表2可知,候選樣本分別由1個(gè)前過(guò)渡元素和2個(gè)后過(guò)渡元素組成。依據(jù)Chen等[23]研究中3個(gè)過(guò)渡元素金屬間化合物的形成規(guī)律,可得出結(jié)論,Rsp(B)/Rsp(C)>1.3的三元合金系能形成三元金屬間化合物(Rsp表示原子偽勢(shì)半徑)。因?yàn)镽sp(Zr)/Rsp(Cu)為1.38,Rsp(Sc)/Rsp(Cu)為1.35,均大于1.3,所以候選樣本可形成三元合金。
表2 對(duì)應(yīng)虛擬樣本的候選樣本Table 2 Candidate samples corresponding to virtual samples
采用4種不同的ML算法,即XGBoost、支持向量回歸(SVR,采用徑向基核函數(shù))[24]、多元線性回歸(MLR)[25]和嶺回歸(KRR)[26],來(lái)構(gòu)建-lgρ與特征變量的ML模型。根據(jù)每種算法的留一法交叉驗(yàn)證的表現(xiàn)篩選-lgρ性能估算模型。從圖5可以看出XGBoost模型擁有最高的R值和最低的RMSE值,分別為0.850和0.331,超過(guò)了其他模型的結(jié)果[27]。因此,后續(xù)選擇XGBoost模型進(jìn)行三元金合金-lgρ的估算。
圖5 采用不同ML算法測(cè)得的三元金合金-lg ρ預(yù)測(cè)值(Pred.)與實(shí)驗(yàn)值(Exp.):(a)XGBoost,(b)KRR,(c)MLR,(d)SVRFig.5 Predicted value (Pred.) and experimental value (Exp.) of -lg ρ of ternary gold alloys by using different ML algorithms:(a) XGBoost, (b) KRR, (c) MLR, (d)SVR
使用XGBoost模型對(duì)候選樣本的-lgρ進(jìn)行估算,可得到3個(gè)候選樣本的-lgρ值,如表3所示。從表3中可以看出,候選樣本的-lgρ值均大于原始數(shù)據(jù)集中-lgρ的最大值6.68,故模式識(shí)別及其逆投影算法可用于低電阻率三元金合金材料的逆向設(shè)計(jì)。
表3 候選樣本估算值Table 3 Estimated values of candidate samples
本文以設(shè)計(jì)低電阻率三元金合金為目標(biāo),利用本實(shí)驗(yàn)室的HyperMiner數(shù)據(jù)挖掘軟件,通過(guò)模式識(shí)別最佳投影找出了形成低電阻率三元金合金的邊界條件,然后應(yīng)用模式識(shí)別逆投影方法設(shè)計(jì)了3個(gè)低電阻率三元金合金候選樣本,最后通過(guò)XGBoost模型估算出候選樣本的電阻率。結(jié)果表明,根據(jù)逆投影方法設(shè)計(jì)的AuZr1.95Cu0.52、AuZr1.12Cu4和AuSc1.86Cu2.75樣本具有較低的電阻率,其-lgρ預(yù)報(bào)值分別為6.718,6.707和6.701,均超過(guò)了原始數(shù)據(jù)集-lgρ的最大值6.68。因此,本工作的研究方法可用于指導(dǎo)新材料的理論設(shè)計(jì),有助于實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)規(guī)律挖掘,用以加快新材料設(shè)計(jì)發(fā)展。