徐燕胡紅青劉茜張玉鳳丁廣太張惠然
(1.上海電力大學數(shù)理學院,上海201306;2.上海大學計算機工程與科學學院,上海200444;3.上海大學材料基因組工程研究院材料信息與數(shù)據(jù)科學中心,上海200444;4.之江實驗室,浙江杭州311100)
帶隙對材料的物理化學性質具有重要的影響,是描述鈣鈦礦型復合氧化物材料十分重要的特征參數(shù)之一.例如,鈣鈦礦太陽能電池器件的光電轉換效率[1]、鉛鹵化物鈣鈦礦LED器件的發(fā)光效率[2-3]等.因此,制備合適帶隙的鈣鈦礦型復合氧化物材料是一項重要的研究工作.通常情況下,直接測量帶隙需要消耗大量的時間和資源,即使利用高通量計算也需要較長的時間.如果利用鈣鈦礦型復合氧化物材料的一些特征參數(shù)作為輸入數(shù)據(jù),使用機器學習方法以目標帶隙為導向設計出符合需求、性能優(yōu)異的材料,將會大大加快新鈣鈦礦型復合材料的研發(fā).
一般情況下,多采用單一的算法來預測鈣鈦礦型復合氧化物材料的帶隙.例如,Lu等[4]采用6種不同的機器學習回歸算法來預測未被發(fā)現(xiàn)的有機無機雜化鈣鈦礦(HOIPs)材料,找出了6種無鉛且具有穩(wěn)定帶隙的雜化鈣鈦礦復合材料適合用于制備太陽能電池.Gu等[5]采用人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)和支持向量回歸(support vector regression,SVR)算法預測了25種二元化合物和31種三元化合物的帶隙.Jain等[6]用SVR算法來預測454種具有鈣鈦礦結構的無機鹵化物的可成形性能.Liu等[7]利用具有高精度的梯度提升決策樹(gradient boosting decision tree,DBDT)來篩選穩(wěn)態(tài)和亞穩(wěn)態(tài)鈣鈦礦材料.Pilania等[8]構建了一個使用簡單的元素描述子集的核嶺回歸(kernel ridge regression,KRR)模型來預測雙鈣鈦礦復合材料的帶隙.Dey等[9]利用不同的機器學習方法如普通最小二乘法(ordinary least square,OLS)、稀疏偏最小二乘(sparse partial least squares,SPLS)和LASSO(least absolute shrinkage and selection operator)回歸等來預測227種黃銅礦物的帶隙.Lee等[10]也利用OLS、LASSO和SVR等機器學習算法和密度泛函計算相結合的方法來構建預測270種無機化合物G0W0帶隙的模型[10].但是,單一算法的預測精度、泛化性能有限,嘗試多種算法以及調參也很難實現(xiàn)較高精度和泛化性能[11-12].在材料的研究上,單個的機器學習算法也并不能夠總是提供解決特定應用問題所需的準確性[13].而使用集成學習來對材料性能進行預測被認為是一種有效的手段[13-15],也能夠解決材料數(shù)據(jù)量不高的問題[16-17].
由于材料數(shù)據(jù)的維度較小,為了避免普通集成算法的過擬合,本工作中構建了一個兩階段異質集成學習模型來預測鈣鈦礦型復合氧化物材料的帶隙,利用不同基礎學習器來學習輸入數(shù)據(jù)特征中的不同信息,并通過第二階段的算法將這些學習到的不同信息很好地融合在一起,從而實現(xiàn)模型的較高精度和泛化性能.實驗結果表明,在所使用的材料數(shù)據(jù)量不大的情況下,本工作所構建的集成學習模型在預測鈣鈦礦型復合氧化物材料的帶隙方面比單個機器學習算法有明顯的優(yōu)勢,也比常規(guī)的集成策略精度更高.
本工作使用的數(shù)據(jù)集數(shù)據(jù)來自Materials Project和上海大學材料基因專用數(shù)據(jù)庫,由210種鈣鈦礦型復合氧化物材料的特征數(shù)據(jù)組成.這些鈣鈦礦氧化物材料的特征數(shù)據(jù)(包括目標屬性:帶隙)一般是由第一性原理計算所得.根據(jù)帶隙可以把這210種復合材料分為3類:金屬導體(帶隙為0 eV)、半導體(帶隙為0~4.5 eV)、絕緣體(帶隙大于4.5 eV).
為了解決鈣鈦礦型復合氧化物材料的分類問題,最初收集的19個描述ABX3的特征數(shù)據(jù)既包含了與幾何空間結構相關的特征數(shù)據(jù),也包含了和電子結構相關的特征數(shù)據(jù).首先,選取與幾何空間結構相關的特征數(shù)據(jù)[18]:晶格常數(shù)(lA、lB、lC),位點數(shù)(N),原胞的體積(V),晶系(CS),空間群和濃度(D);然后,選取與電子結構相關的特征數(shù)據(jù),比如:形成能(EF),定量描述材料熱力學穩(wěn)定性的物理量(EH),A位和B位元素的電負性(xA、xB).最后,把A、B、X位的原子半徑數(shù)據(jù)(rA、rB、rC)擴展為3組描述子(rA/rC,rB/rC;rA+rC,rB+rC;rA,rB,rC)以期獲得更有效的特征數(shù)據(jù).
因為機器學習是通過訓練數(shù)據(jù)建立模型來預測未知數(shù)據(jù)的,因此輸入數(shù)據(jù)的形式會影響到模型的準確性.為避免影響帶隙的特征數(shù)據(jù)被隱藏,在進行模型訓練之前需要對所選特征數(shù)據(jù)進行預處理,剔除高度相關的數(shù)據(jù)來獲得最佳數(shù)據(jù)子集.使用皮爾遜相關系數(shù)矩陣對所選特征數(shù)據(jù)進行了相關性分析,結果如圖1所示.從圖1(a)中可以看出,幾何空間結構數(shù)據(jù)rA/rC(表示為rA/C)和rB/rC(表示為rB/C)與電子結構相關的數(shù)據(jù)EH和和xB等特征數(shù)據(jù)之間相關性較弱.最終,我們從原始的19個特征數(shù)據(jù)中篩選出lA、N、D、V、CS、rA/rC、rB/rC、EF、EH、xB進行下一步的模型訓練.
圖1 鈣鈦礦型復合氧化物材料特征數(shù)據(jù)皮爾遜相關系數(shù)矩陣熱力圖Fig.1 Comparison of the heat maps of Pearson correlation coefficient matrix among the descriptors for ABX3-type perovskites data
圖2給出了基于機器學習和異質集成學習的兩階段集成學習模型的基本原理圖.第一階段由3步組成:首先,將包含所需材料部分特征值以及擴展值的數(shù)據(jù)集進行預處理;然后,將最佳數(shù)據(jù)子集輸入到多個基礎機器學習算法來預測目標值;最后,對這些基礎機器學習算法的預測能力進行評價,同時每種算法都能得到可以描述材料結構與物性關聯(lián)的函數(shù).在該階段,由于回歸算法的不同,各基礎機器學習算法探索出的結構-屬性關聯(lián)函數(shù)也各不相同.這個函數(shù)表示為
圖2 基于機器學習和異質集成學習的集成學習模型策略圖Fig.2 Overall learning process of ensemble learning model based on machine learning and heterogeneous ensemble learning
式中:xn代表輸入的第n個基本特征數(shù)據(jù);fi(X)代表在第一階段中由獨立的基礎機器學習算法所產(chǎn)生的函數(shù)
接下來在第二階段,所有的基礎機器學習算法所產(chǎn)生的函數(shù)和一些特殊的描述子一起被輸入到一個元學習器進而得到一個集成學習模型.第一階段選取的5種常用基礎機器學習算法分別是貝葉斯嶺回歸(Bayesian ridge regression,BRR)、決策樹回歸(decision treeregression,DTR)、內(nèi)置交叉驗證的嶺回歸(ridge cross-validation regression,RCVR)、SVR和彈性網(wǎng)絡回歸(elastic net regression,ENR).這些獨立算法產(chǎn)生的函數(shù)fi(X):(f1f5)和一些特殊的描述子Mj:(M1~M4)分別是lA、EH、EF和xB,一起被用作集成學習策略g(fi(X),Mj)第二階段的特征數(shù)據(jù)輸入.最終,集成學習模型(ensemble learning model,ELM)的輸出定義為
在構建集成學習模型的過程中,首先按照7∶3的比例將篩選出的特征數(shù)據(jù)子集劃分為訓練集和測試集,訓練集用來訓練機器學習模型,測試集用來評估機器學習模型的泛化能力.接下來,70%的訓練集按照7∶3的比例劃分為訓練子集和驗證子集,分別用來訓練和評估集成學習模型.選擇哪種集成學習算法主要取決于第一階段單個機器學習算法的評估結果.在第二階段,利用9維特征數(shù)據(jù)(第一階段5種基礎機器學習算法的預測結果和4個最有效的特征數(shù)據(jù))作為輸入特征數(shù)據(jù),繼續(xù)對鈣鈦礦型復合氧化物材料的帶隙進行預測.最后,經(jīng)過訓練會得到一個元學習器,建立了一個完整的集成學習模型.
首先,與本工作所構建的集成學習模型進行比較的是5種基礎機器學習算法.因為這5種基礎機器學習算法的不同,它們會從不同的角度給出材料結構與性能之間的關聯(lián).而集成學習模型則結合了這些基礎機器學習算法和一些特征數(shù)據(jù),先利用一個更加綜合的模型來探索影響材料帶隙的特征數(shù)據(jù),再將其與不同的集成策略相比較,從而更全面地評價本工作所構建的集成學習模型.
本工作在第二階段選擇了DTR來集成這些基礎的機器學習算法.為了解釋集成策略的合理性,首先比較了5種基礎機器學習算法的預測結果和原始數(shù)據(jù)值,結果如圖3所示.圖3中黑色點的重疊程度可以很好地代表帶隙的分布.從圖中可以看出,使用BRR、RCVR和ENR預測的帶隙值主要分布在0~4 eV,使用SVR預測的帶隙值主要分布在-2~4 eV,而使用DTR預測的帶隙值分布與原始帶隙值分布最為接近.
圖3 210種鈣鈦礦型復合氧化物材料的原始帶隙值分布和5種基礎算法預測的帶隙值分布Fig.3 Predicted band gap values of the corresponding base learners and the original band gap values of the 210 ABX3-type perovskites
為了更好地評估5種基礎機器學習算法,表1列出了3種評估指標:均方誤差(mean square error,MSE),平均絕對誤差(mean absolute error,MAE)和決定系數(shù)R2[19].MSE可以評估預測數(shù)據(jù)和原始數(shù)據(jù)對應點的偏差程度;MAE代表預測數(shù)據(jù)與真實數(shù)據(jù)的誤差絕對值的平均值,可以更好地反應預測值的真實誤差.MSE和MAE的數(shù)值越小,則說明預測模型的準確性更高.決定系數(shù)R2是表征方程對觀測值的擬合程度,它的正常取值范圍為(0,1),數(shù)值越接近1,表明所構建模型對數(shù)據(jù)擬合的越好.通過表一數(shù)據(jù)的對比發(fā)現(xiàn),利用DTR模型預測的結果最好,這也與圖1的結果相互印證.實際上,這5種機器學習算法都屬于弱學習器,它們都沒能給出較為理想的預測結果.這些預測結果也促使我們在下一階段嘗試使用DTR(5種算法中效果最好)來訓練元學習器.
表1 預測帶隙的5種基本學習算法的評估Table 1 Evaluation of five kinds of base learners for band gaps prediction
由于第一階段所用的特征數(shù)據(jù)對DTR表現(xiàn)出一定的偏好,在構建集成學習模型的第二階段選擇DTR.在第一階段5種基礎機器學習算法的輸出結果(f1、f2、f3、f4、f5)和另外4個特征數(shù)值(lA、EH、EF和xB)就構成了第二階段的訓練數(shù)據(jù)集.
圖4(a)給出了5種基礎機器學習算法、隨機森林回歸(random forest regression,RFR)和本模型預測的帶隙值和原始帶隙值之間的差異.圖3(a)中,虛線是由預測值數(shù)據(jù)點擬合而成,而黑色的實線代表預測帶隙值與原始帶隙值完全一致,預測值擬合曲線與黑色實線偏離越多說明預測結果越差.從圖4(a)可以看出,由本工作構建的集成學習模型預測的帶隙值所擬合的粉色虛線與標準的黑色實線偏離程度最小,表明集成學習模型比其他預測模型更加精確.
圖4(b)給出了5種基礎機器學習算法、RFR和集成學習模型的MSE、MAE和R2值.可以看出,與5種基礎機器學習算法相比較,隨機森林回歸和集成學習模型具有較高的R2值、較低的MSE和MAE值,這也說明本工作所采用集成策略的可行性.正如預期,本工作所構建的集成學習模型具有最高的R2值(0.882),同時具有最低的MSE和MAE值.這意味著本工作所構建的集成策略較好,在鈣鈦礦型復合氧化物材料帶隙預測上具有更大的優(yōu)勢.
圖4 5種基礎機器學習算法、隨機森林回歸和集成學習模型的比較Fig.4 Comparison of five kinds of learners,RFR and ELM
由于5種基礎機器學習算法各有所長,利用它們探索出的結構物性關系也是不同的,同時也可能是片面的.但是,如果把它們結合在一起則可以在某種程度上彌補各自的不足.因此把5種單獨的學習算法結合在一起,并加入一些其他較為重要的特征數(shù)據(jù)來構建集成學習模型,可以更加有效和精確地預測材料的結構物性關系.
關于數(shù)值預測型回歸問題,常用到的組合策略是均值法[20],即利用幾個基礎機器學習算法的預測結果直接求平均值作為最終的預測值.這種方法較為簡單但是學習誤差較大,數(shù)據(jù)也會有相對較大的偏差.同時,利用隨機森林回歸預測的數(shù)據(jù)值顯示,有些樣本的預測結果誤差較小而有些則誤差較大,邊界不夠穩(wěn)定.與均值法和隨機森林回歸模型相比較,集成學習模型的預測結果更加穩(wěn)定.本工作通過增加一層學習算法的組合策略而構建的兩段式集成學習模型,其預測數(shù)據(jù)值的誤差要遠小于利用單獨機器學習算法預測數(shù)據(jù)值的誤差.
為了更充分地說明問題,本工作還給出了利用均值法、隨機森林回歸和集成學習模型預測數(shù)據(jù)值的誤差散點圖(見圖5).圖5中,數(shù)據(jù)點越接近中心的紅點代表預測誤差越小,這更加直觀地顯示了本工作所構建的集成學習模型要優(yōu)于另外兩種組合策略.基礎機器學習算法的多樣性使得整個集成學習模型具有更穩(wěn)定的邊界和較低的過擬合風險,也意味著這種模型具有更強的泛化能力,這將使得這種構建集成學習模型的組合策略變得更有意義.
圖5 均值法、隨機森林回歸和集成學習模型預測值誤差散點圖Fig.5 Prediction error scatter diagram of the three groups
通過實驗結果發(fā)現(xiàn),本工作所構建的集成學習模型比單個的基礎機器學習算法能做出更加有效的數(shù)值預測,并具有較好的泛化能力.基于堆疊集成策略的集成學習模型在預測鈣鈦礦型氧化物復合材料的帶隙時,其預測能力得到提高,同時也避免了人工選擇算法的繁瑣過程.
本工作構建了基于支持向量回歸、決策樹、貝葉斯嶺回歸、內(nèi)置交叉驗證的嶺回歸和彈性網(wǎng)絡回歸這5個基礎學習器的集成模型,該模型集合了不同基礎學習器的優(yōu)點,具有更高的預測精度和模型魯棒性.實驗結果表明,在本工作構建的模型中,集成學習方法比單個學習器具有更好的預測效果和更好的泛化性能.作為一個應用示范,本工作利用這種兩段式集成學習模型預測了鈣鈦礦型氧化物復合材料的帶隙.與單獨的決策樹回歸模型和隨機森林回歸模型相比較,兩段式集成學習模型的預測結果更加地接近實驗值,并且具有更加穩(wěn)定的邊界.與傳統(tǒng)方法通過不斷調試使模型更加適合原始數(shù)據(jù)不同,本工作通過多種算法的融合來獲得一個穩(wěn)固的邊界,從而提高模型的魯棒性和泛化能力.該兩段異質集成學習模型避免了科研人員反復挑選合適算法的過程,將有助于加快利用機器學習方法進行材料學研究.