宗宇楊, 李俊輝, 朱向東, 單光存, 馬汝廣
(1. 蘇州科技大學(xué)材料科學(xué)與工程學(xué)院, 江蘇 蘇州 215009;2. 北京航空航天大學(xué)儀器光電工程學(xué)院, 北京 100191)
20 世紀(jì)70年代末80年代初, Cantor 等[1]和Yeh 等[2]分別突破了主元概念的傳統(tǒng)界限,研發(fā)了高熵合金(high-entropy alloy, HEA), 也稱(chēng)為多主元合金(multi-principal component alloy, MPEA). 除了金屬體系, 研究人員還開(kāi)發(fā)了高熵陶瓷(high-entropy ceramic, HEC), 包括高熵金屬硼化物、高熵碳化物、高熵硫化物、高熵氧化物、高熵氟化物和高熵鋁硅化物等.這類(lèi)含有5 種及以上元素, 并以等摩爾或近摩爾比相互固溶而得到的具有單一相的材料, 統(tǒng)稱(chēng)為高熵材料(high-entropy material, HEM)[3]. 高熵材料的設(shè)計(jì)策略強(qiáng)調(diào)所有參與元素集中在一起, 沒(méi)有明顯的基礎(chǔ)元素, 通過(guò)各種元素的協(xié)同作用形成較好的整體性能[4]. 高熵材料具有獨(dú)特的4 種效應(yīng): 高熵效應(yīng)、晶格畸變效應(yīng)、遲滯擴(kuò)散效應(yīng)和雞尾酒效應(yīng)(見(jiàn)圖1). 高熵材料不僅具有成為結(jié)構(gòu)材料的強(qiáng)度和穩(wěn)定性, 也有作為功能材料的良好性能, 在儲(chǔ)能和催化領(lǐng)域具有較大的應(yīng)用潛力[5].
高熵材料的組成靈活性允許材料性能的微調(diào), 而高熵混合提供了工作條件下的結(jié)構(gòu)穩(wěn)定性. 例如, 最先引起關(guān)注的高熵合金與傳統(tǒng)合金相比, 具有較好的機(jī)械性能、熱力學(xué)穩(wěn)定性、電磁特性以及催化活性等. Qin 等[6]總結(jié)了幾種高熵合金的合成與應(yīng)用, 指出高熵合金具有降低電催化劑中貴金屬用量的效用. 因此, 高熵材料作為替代貴金屬電催化劑的候選材料, 在能源儲(chǔ)存與轉(zhuǎn)化方面具有較好的前景. 不可否認(rèn), 高熵材料作為電催化劑也存在一些缺點(diǎn), 如較低的比表面積限制了其活性位點(diǎn)的暴露[7], 且高熵材料作為電催化劑的活性機(jī)制尚不清楚, 需要進(jìn)一步詳細(xì)研究[8].
高熵材料的多組分特征和多種組合可能性, 使研究人員很少再利用傳統(tǒng)方法進(jìn)行研發(fā). 同時(shí), 高熵電催化材料的活性位點(diǎn)較復(fù)雜, 為揭示材料的組分-結(jié)構(gòu)-性能關(guān)系也帶來(lái)了較大挑戰(zhàn)[9-10]. 隨著計(jì)算機(jī)硬件和算法的發(fā)展, 機(jī)器學(xué)習(xí)(machine learning, ML) 成功地完成了分類(lèi)、回歸、聚類(lèi)和降維任務(wù), 在大數(shù)據(jù)歸納、圖像和語(yǔ)音識(shí)別分類(lèi)、日常的電子郵件過(guò)濾方面都表現(xiàn)出了超強(qiáng)的能力[11]. 機(jī)器學(xué)習(xí)作為處理復(fù)雜數(shù)據(jù)的強(qiáng)大工具也引起了材料科學(xué)領(lǐng)域的研究人員的密切關(guān)注[12-14]. 基于材料數(shù)據(jù)庫(kù), 機(jī)器學(xué)習(xí)針對(duì)特定材料屬性建立模型, 快速實(shí)現(xiàn)對(duì)材料性能的預(yù)測(cè), 有望加速新材料設(shè)計(jì)進(jìn)程, 縮短材料研發(fā)周期[15-17].
本工作主要關(guān)注機(jī)器學(xué)習(xí)在高熵電催化材料設(shè)計(jì)方面的最新進(jìn)展, 挖掘高熵材料性能與組分、結(jié)構(gòu)等因素之間的關(guān)聯(lián), 尋找具有物理意義的描述符, 為材料設(shè)計(jì)提供參考和指導(dǎo).
機(jī)器學(xué)習(xí)在Mitchell 等[18]的書(shū)中被定義為利用經(jīng)驗(yàn)改善系統(tǒng)自身的性能, 是一種針對(duì)特定的任務(wù)目標(biāo)(target) 來(lái)學(xué)習(xí)經(jīng)驗(yàn)(experience)、提升性能(performance) 的算法. 機(jī)器學(xué)習(xí)涉及概率論、統(tǒng)計(jì)學(xué)、近似理論和諸多復(fù)雜算法, 依靠對(duì)大量數(shù)據(jù)進(jìn)行分析并將現(xiàn)有內(nèi)容進(jìn)行知識(shí)結(jié)構(gòu)劃分, 進(jìn)而高效率地得到預(yù)測(cè)結(jié)果[19].
近年來(lái), 研究人員研發(fā)的機(jī)器學(xué)習(xí)方法種類(lèi)繁多, 考慮強(qiáng)調(diào)因素可以有不同的分類(lèi)方法.目前, 主流的分類(lèi)偏向強(qiáng)調(diào)模型的學(xué)習(xí)方式, 將機(jī)器學(xué)習(xí)分為如下3 種.
(1) 監(jiān)督學(xué)習(xí)(任務(wù)驅(qū)動(dòng)型). 輸入數(shù)據(jù)中有標(biāo)簽信號(hào), 以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型, 主要采用迭代計(jì)算方法在帶標(biāo)注訓(xùn)練集中進(jìn)行學(xué)習(xí), 如決策樹(shù)(decision trees)、支持向量機(jī)(support vector machine, SVM)、集成方法(ensemble method)、樸素貝葉斯分類(lèi)(Naive Bayes classification)、普通最小二乘回歸(ordinary least square regression)、邏輯回歸(logistic regression).
(2) 無(wú)監(jiān)督學(xué)習(xí)(數(shù)據(jù)驅(qū)動(dòng)型). 輸入數(shù)據(jù)中無(wú)標(biāo)簽信號(hào), 主要采用聚類(lèi)與降維2 種方法,尋找未標(biāo)注數(shù)據(jù)中隱含結(jié)構(gòu), 如聚類(lèi)(clustering)、主成分分析(principal component analysis,PCA)、奇異值分解(singular value decomposition)、獨(dú)立成分分析(independent component analysis).
(3) 強(qiáng)化學(xué)習(xí)(從錯(cuò)誤中學(xué)習(xí)). 以獎(jiǎng)/懲信號(hào)或環(huán)境反饋為輸入, 偏重于智能體與環(huán)境交互的一種學(xué)習(xí)方法, 如著名的AlphaGo[20], 在沒(méi)有任何先驗(yàn)數(shù)據(jù)的情況下, 通過(guò)接收環(huán)境反饋來(lái)獲取學(xué)習(xí)信息并更新模型參數(shù).
1.2.1 線性回歸算法
線性回歸(linear regression, LR) 算法是機(jī)器學(xué)習(xí)中最基礎(chǔ)的一類(lèi)監(jiān)督學(xué)習(xí)模型. LR 需要處理的一類(lèi)問(wèn)題為給定一組輸入樣本和每個(gè)樣本對(duì)應(yīng)的值, 在要求的誤差范圍內(nèi)找出目標(biāo)值和輸入值之間的函數(shù)關(guān)系, 以便于預(yù)測(cè)任意樣本的目標(biāo)值[21]. 一般形式如下:
式中:{xij|1 ≤i≤n,1 ≤j≤m}是輸入樣本,{yi|1 ≤i≤n}是樣本對(duì)應(yīng)的值. 而系數(shù)向量β=(β0,β1,···,βm) 可以通過(guò)許多方法求得, 如使用最小二乘法對(duì)數(shù)據(jù)集的均方根誤差(root mean square error, RMSE)進(jìn)行限制而求出.
1.2.2 支持向量回歸算法
支持向量回歸(support vector regression, SVR) 算法作為SVM 算法的一個(gè)分支從而被提出. SVR 本質(zhì)上是利用核函數(shù)將低維數(shù)據(jù)映射到高維, 然后求解凸二次規(guī)劃的最優(yōu)化問(wèn)題[22]. SVR 與SVM 的區(qū)別在于前者主要應(yīng)用于回歸問(wèn)題, 后者主要應(yīng)用于分類(lèi)問(wèn)題. SVR是一種二分類(lèi)模型, 先在線性函數(shù)f(x) 兩側(cè)制造間距為ε(也叫容忍偏差, 為人工設(shè)定的經(jīng)驗(yàn)值) 的間隔帶, 然后通過(guò)最小化總損失和最大化間隔來(lái)得出優(yōu)化后的模型(見(jiàn)圖2(a)).
圖2 常用的機(jī)器學(xué)習(xí)算法Fig.2 Common machine learning algorithms
SVR 的一般形式如下:
式中:x為樣本;w為權(quán)重;b為偏置. SVR 對(duì)所有落入間隔帶內(nèi)的樣本點(diǎn)不計(jì)算損失, 即只有支持向量才會(huì)對(duì)函數(shù)模型產(chǎn)生影響. 每個(gè)樣本點(diǎn)的損失函數(shù)如下:
因此SVR 的優(yōu)化目標(biāo)函數(shù)可表示為
式中: 第1 項(xiàng)為函數(shù)f(x)-ε與f(x)+ε的幾何距離的倒數(shù); 第2 項(xiàng)為模型的總損失;C為修正系數(shù), 即在間隔帶上加入損失, 允許間隔帶外存在點(diǎn), 但這些點(diǎn)帶來(lái)的損失應(yīng)盡可能小.
在現(xiàn)實(shí)任務(wù)中往往很難直接確定合適的ε, 以確保大部分?jǐn)?shù)據(jù)都能在間隔帶內(nèi). 這時(shí)可以加入松弛變量δ, 使函數(shù)的間隔要求變的寬松, 將部分在間隔帶外的點(diǎn)視為在間隔帶內(nèi).
1.2.3 深度學(xué)習(xí)算法(以深度神經(jīng)網(wǎng)絡(luò)為例)
深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN) 是深度學(xué)習(xí)算法中的重要基本模型[23]. DNN是一類(lèi)多層全連接的神經(jīng)網(wǎng)絡(luò),其大致結(jié)構(gòu)是由一個(gè)輸入層(input layer)、多個(gè)隱藏層(hidden layer) 和一個(gè)輸出層(output layer) 組成, 其中每一層的各個(gè)節(jié)點(diǎn)都連接到下一層中的各個(gè)其他節(jié)點(diǎn). 根據(jù)實(shí)際問(wèn)題的需求可以通過(guò)不斷增加隱藏層的數(shù)量, 使網(wǎng)絡(luò)變得更深. DNN 也是目前十分先進(jìn)的一類(lèi)機(jī)器學(xué)習(xí)模型, 可以模擬許多復(fù)雜的問(wèn)題. DNN 是基于感知機(jī)的擴(kuò)展, 故有時(shí)也將其稱(chēng)為多層感知機(jī)(multi-layer perception). 感知機(jī)是一個(gè)輸入若干樣本、輸出一個(gè)值的模型(見(jiàn)圖2(b)).
輸入和輸出之間通過(guò)構(gòu)建線性關(guān)系, 得到中間輸出結(jié)果:
接著通過(guò)一個(gè)神經(jīng)元激活函數(shù)
得到想要的結(jié)果1 或者-1.
該模型只能用于二元分類(lèi), 且無(wú)法學(xué)習(xí)比較復(fù)雜的非線性模型, 因此在工業(yè)界無(wú)法廣泛應(yīng)用. 而DNN 則在此基礎(chǔ)上做了擴(kuò)展, 可概括為如下3 點(diǎn).
(1) 加入了隱藏層. 隱藏層可以有多層, 以增強(qiáng)模型的表達(dá)能力(見(jiàn)圖2(c)).
(2) 增加輸出層神經(jīng)元的數(shù)量. 輸出層的神經(jīng)元可以有多個(gè)輸出, 這樣模型便可以靈活地應(yīng)用于分類(lèi)回歸, 或其他機(jī)器學(xué)習(xí)領(lǐng)域, 如降維、聚類(lèi)等(見(jiàn)圖2(d)).
(3) 對(duì)激活函數(shù)進(jìn)行擴(kuò)展. 感知機(jī)的激活函數(shù)sign(z) 雖然簡(jiǎn)單但是處理能力極其有限, 因此DNN 中一般使用其他的激活函數(shù), 如在Logistic 回歸中使用Sigmoid 函數(shù):
通過(guò)使用不同的激活函數(shù), 進(jìn)一步增強(qiáng)DNN 的表達(dá)能力.
1.2.4 隨機(jī)森林模型
隨機(jī)森林(random forest, RF) 是一種比較新的機(jī)器學(xué)習(xí)模型. Breiman[24]提出了分類(lèi)樹(shù)算法, 通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類(lèi)或回歸, 大大降低計(jì)算量. 2001年Breiman 把分類(lèi)樹(shù)組合成RF, 即在變量(列) 和數(shù)據(jù)(行) 的使用上進(jìn)行隨機(jī)化, 生成很多分類(lèi)樹(shù), 再匯總分類(lèi)樹(shù)結(jié)果.RF 在運(yùn)算量沒(méi)有顯著增加的前提下提高了預(yù)測(cè)精度. RF 對(duì)多元共線性不敏感, 結(jié)果對(duì)缺失數(shù)據(jù)和非平衡數(shù)據(jù)比較穩(wěn)健, 可以較好地預(yù)測(cè)多達(dá)幾千個(gè)解釋變量, 被譽(yù)為當(dāng)前最好的算法之一. RF 大致由如下3 個(gè)部分組成.
(1) 數(shù)據(jù)隨機(jī)選取. RF 通過(guò)自擴(kuò)展(bootstrap) 采樣法, 從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集, 并由此構(gòu)建k個(gè)決策樹(shù)分類(lèi)器. 當(dāng)N充分大時(shí), 訓(xùn)練集中每個(gè)樣本未被抽中的概率將收斂于36.8%, 即原始數(shù)據(jù)中約有36.8% 的樣本不會(huì)出現(xiàn)在Bootstrap 樣本中, 這些數(shù)據(jù)被稱(chēng)為袋外數(shù)據(jù), 可用來(lái)對(duì)模型的誤差進(jìn)行估計(jì).
(2) 分枝方法的選取. 分枝優(yōu)度準(zhǔn)則是基于離均差平方和. 假設(shè)有n個(gè)自變量X= (x1,x2,···,xn) 和連續(xù)性因變量Y. 對(duì)于決策樹(shù)某一節(jié)點(diǎn)t的樣本量N(t) 可以計(jì)算該節(jié)點(diǎn)的SS. 假定該節(jié)點(diǎn)所有的分枝集合為A,A中的任意元素(分枝) 可以將節(jié)點(diǎn)t分為2 個(gè)子節(jié)點(diǎn), 記為L(zhǎng)t和Rt. 最佳分枝即是使分枝前后的SS 相差最大的分枝, 即分裂后效果優(yōu)于分裂前, 使各子節(jié)點(diǎn)內(nèi)的變異最小.
(3) 待選特征隨機(jī)選取. 與數(shù)據(jù)集的選取相同, 子決策樹(shù)的每一分裂過(guò)程并未用到所有待選擇的特征, 而是從所有待選特征中隨機(jī)選取一定數(shù)量的特征, 然后在選中的特征中挑出最優(yōu)特征. 這樣, 就最大程度地保證每一顆決策樹(shù)的不同, 提升系統(tǒng)多樣性, 從而提高性能.
在尋找最佳分類(lèi)特征和閾值時(shí)目標(biāo)函數(shù)為
式中: Gini 為基尼指數(shù), 用來(lái)表示節(jié)點(diǎn)純度, Gini 越大則純度越低. 如果屬性被分為n類(lèi), 第i類(lèi)在當(dāng)前節(jié)點(diǎn)數(shù)據(jù)集中的占比為p(i), 那么基尼指數(shù)的計(jì)算方法為
故尋找最佳分類(lèi)的評(píng)判標(biāo)準(zhǔn)可以理解為尋找最佳特征f, 使得當(dāng)前節(jié)點(diǎn)的Gini 值減去左子節(jié)點(diǎn)Gini 值和右子節(jié)點(diǎn)Gini 值最大.
1.3.1 材料數(shù)據(jù)庫(kù)的建立
隨著材料基因組概念的不斷深化, 全面準(zhǔn)確地表征材料組分-結(jié)構(gòu)-性能間的關(guān)系是研究和開(kāi)發(fā)新材料的關(guān)鍵, 特別是對(duì)于具有龐大排列組合的高熵材料催化劑.
通過(guò)數(shù)據(jù)庫(kù)可以高精度地建立模型, 預(yù)測(cè)未知催化劑的催化性能, 了解結(jié)構(gòu)-性能關(guān)系, 再使用合適的通用描述符, 可以準(zhǔn)確、全面地表示催化劑的結(jié)構(gòu)信息. 同時(shí), 一個(gè)有效的描述符可以加速大數(shù)據(jù)模型的發(fā)展, 揭示催化過(guò)程的基本物理性質(zhì), 掌握材料的本質(zhì)特征, 更好地應(yīng)用甚至實(shí)現(xiàn)真正的材料按需設(shè)計(jì)[25-26].
目前, 已有的研究雖然還處于依靠有限的數(shù)據(jù)進(jìn)行探索的階段, 但是也證明了數(shù)據(jù)驅(qū)動(dòng)型材料科學(xué)的研究是非常有效的. 隨著全世界對(duì)材料學(xué)數(shù)據(jù)庫(kù)的不斷重視、整合和完善, 越來(lái)越多的數(shù)據(jù)資源可供使用, 許多不同類(lèi)型的材料數(shù)據(jù)(如物理、化學(xué)、機(jī)械、電子和熱力學(xué)) 都可以由包括以量子力學(xué)為基礎(chǔ)的密度泛函理論(density functional theory, DFT)、Hatree-Fork方法或?qū)嶒?yàn)測(cè)量(如電導(dǎo)率、離子導(dǎo)率) 生成[27-28]. 如此大的數(shù)據(jù)為數(shù)據(jù)驅(qū)動(dòng)技術(shù)或機(jī)器學(xué)習(xí)方法的應(yīng)用提供了機(jī)會(huì), 從而加速新的先進(jìn)材料的發(fā)現(xiàn)和設(shè)計(jì). 不過(guò), 許多包含大量材料結(jié)構(gòu)和特性的公開(kāi)數(shù)據(jù)庫(kù), 如Materials Project、The Inorganic Crystal Structure Database(ICSD) 等, 主要是由有序或簡(jiǎn)單的結(jié)構(gòu)構(gòu)建的, 對(duì)于一個(gè)包含化學(xué)無(wú)序的高熵物質(zhì), 目前這些數(shù)據(jù)庫(kù)仍然是不可通用. 高熵材料數(shù)據(jù)庫(kù)的不足也可以部分歸因于其首次發(fā)現(xiàn)的時(shí)間較短.
1.3.2 材料設(shè)計(jì)的模型算法
當(dāng)前, 計(jì)算機(jī)輔助分子設(shè)計(jì)(computer aided molecular design, CAMD) 方法被提出并得到了顯著發(fā)展, 其目的是合理地選擇或設(shè)計(jì)具有指定特性的分子. CAMD 方法自出現(xiàn)以來(lái),已被用于設(shè)計(jì)溶劑、藥品和消費(fèi)品、工作流體、聚合物、制冷劑和過(guò)渡金屬催化劑等[29]. 與CAMD 問(wèn)題類(lèi)似, 材料的設(shè)計(jì)任務(wù)可以如下定義: 給定一個(gè)從實(shí)驗(yàn)和(或) 第一性原理計(jì)算獲得的數(shù)據(jù)集, 確定具有最佳特性的材料結(jié)構(gòu)和成分.
對(duì)于材料設(shè)計(jì), 關(guān)鍵的步驟是建立一個(gè)相關(guān)模型. 該模型可以基于給定的數(shù)據(jù)集{材料→性質(zhì)}, 準(zhǔn)確描述輸入的特定材料的特征(通常為結(jié)構(gòu)特征) 與感興趣的特性之間的關(guān)系. 經(jīng)典模型的構(gòu)建在很大程度上依賴(lài)于物理觀點(diǎn)和機(jī)制, 如使用守恒定律和熱力學(xué)來(lái)從已有的參考數(shù)據(jù)中導(dǎo)出參數(shù)(通常為線性或擬合線性) 的數(shù)學(xué)公式. 機(jī)器學(xué)習(xí)則采用了不同的途徑, 即不再依賴(lài)原理或物理知識(shí), 而是根據(jù)現(xiàn)有的可用數(shù)據(jù), 以靈活且非線性的形式訓(xùn)練模型.
圖3 展示了基于機(jī)器學(xué)習(xí)的材料發(fā)現(xiàn)和設(shè)計(jì)的通用工作流程[30], 該流程包括3 個(gè)主要步驟: 描述符生成和降維、模型構(gòu)建和驗(yàn)證、材料預(yù)測(cè)和實(shí)驗(yàn)驗(yàn)證. ①用1 組描述符或特征在數(shù)據(jù)集中表示材料, 需要有關(guān)材料和應(yīng)用程序的特定領(lǐng)域知識(shí); ②在1 組參考材料的已知數(shù)據(jù)的基礎(chǔ)上, 在描述符和目標(biāo)屬性之間建立映射模型, 從簡(jiǎn)單的線性和非線性回歸到高度復(fù)雜的核嶺回歸和神經(jīng)網(wǎng)絡(luò), 各種機(jī)器學(xué)習(xí)方法都可以用來(lái)建立這種映射; ③根據(jù)所建立的機(jī)器學(xué)習(xí)模型進(jìn)行反向設(shè)計(jì), 以找到具有期望性質(zhì)的新材料, 合成最佳的候選材料, 并對(duì)其真實(shí)特性或性能進(jìn)行實(shí)驗(yàn)驗(yàn)證.
圖3 基于機(jī)器學(xué)習(xí)的材料發(fā)現(xiàn)和設(shè)計(jì)的通用工作流程Fig.3 General workflow of materials discovery and design based on machine learning
1.3.2.1 描述符生成和降維
對(duì)于材料設(shè)計(jì)而言, 數(shù)據(jù)主要來(lái)源包括抽樣測(cè)試的方法和公開(kāi)的數(shù)據(jù)庫(kù). 抽樣測(cè)試方法即在構(gòu)建數(shù)據(jù)全集后從中以某種原則進(jìn)行子集抽樣并對(duì)子集中的數(shù)據(jù)實(shí)施性能測(cè)試(理論計(jì)算或者實(shí)驗(yàn)). 構(gòu)建數(shù)據(jù)全集主要提取材料的特征性能, 并把其抽象為描述符.
通常, 機(jī)器學(xué)習(xí)應(yīng)用程序使用3 種類(lèi)型的特征描述符: 幾何、電子和活性. 當(dāng)性質(zhì)來(lái)自于體系的幾何結(jié)構(gòu)時(shí), 描述符通常被稱(chēng)為結(jié)構(gòu)描述符, 包括原子半徑/共價(jià)半徑、原子序數(shù)(即質(zhì)量數(shù))、基團(tuán)數(shù)、摩爾體積、晶格常數(shù)、旋轉(zhuǎn)角度、鍵長(zhǎng)、配位數(shù)、活性位點(diǎn)和表面性質(zhì)(即缺陷/微觀結(jié)構(gòu)/界面)[31]. 其出發(fā)點(diǎn)是從催化劑的結(jié)構(gòu)特征出發(fā), 構(gòu)建這些屬性與催化性能的關(guān)聯(lián). 此外, 如果這些性質(zhì)是由電子密度推導(dǎo)出來(lái)的, 則描述符被稱(chēng)為電子描述符[32]. 這些描述符通常從電子結(jié)構(gòu)計(jì)算中獲得, 即需要花費(fèi)較長(zhǎng)時(shí)間通過(guò)第一性原理計(jì)算, 涉及d 帶軌道、帶隙、s 帶電子、電荷/電荷差、價(jià)電子等. 對(duì)于過(guò)渡金屬來(lái)說(shuō), 主要的反應(yīng)活性在于d 帶軌道, 其性質(zhì)包括費(fèi)米能級(jí)的中心、填充、寬度、偏度、峰度和密度, 過(guò)渡金屬在電催化中起著至關(guān)重要的作用[33]. 電子描述符較之于結(jié)構(gòu)描述符, 能夠更直接地體現(xiàn)不同催化劑與反應(yīng)中間體之間相互作用程度的差異, 并且其可推廣性較之于結(jié)構(gòu)描述符更強(qiáng). 另外, 還有一種類(lèi)型的描述符, 用于描述接受或失去電子/質(zhì)子/基團(tuán)的能力, 以表明活性, 稱(chēng)為活性描述符, 包括吸附能、電負(fù)性、電子親和度、電離能等[34]. 吸附能反映了基團(tuán)在電催化劑表面的吸附能力, 可以作為一個(gè)描述符來(lái)預(yù)測(cè)電催化的性質(zhì)(如起始電位、轉(zhuǎn)換頻率和產(chǎn)物選擇性). 因此, 在運(yùn)用機(jī)器學(xué)習(xí)過(guò)程之前, 識(shí)別與所關(guān)注的材料特性密切相關(guān)的關(guān)鍵特征或描述符始終是至關(guān)重要的步驟.
此外, 根據(jù)所研究的問(wèn)題或性質(zhì), 可以在不同的復(fù)雜度上定義描述符. Sarker 等[35]總結(jié)了幾個(gè)先前已經(jīng)被開(kāi)發(fā)的重要材料描述符. 最簡(jiǎn)單的描述符是一維(1D) 參數(shù), 如分子體積、重量和表面積、電子數(shù)量和極性. 這些描述符很少包含關(guān)于材料或分子實(shí)際結(jié)構(gòu)的信息. 在預(yù)測(cè)某些屬性時(shí), 更可取的是使用表示2 維(2D) 甚至3 維(3D) 結(jié)構(gòu)的描述符. 拓?fù)涿枋龇紤]分子或材料的2 維圖形結(jié)構(gòu), 從而反映對(duì)稱(chēng)性、分支和原子連通性等特征. 最常用的拓?fù)涿枋龇青徑泳仃嚭头肿舆B接性指數(shù). 這些描述符的局限性是不包含任何立體化學(xué)信息. 一個(gè)重要的3D 材質(zhì)描述符是徑向分布函數(shù)(radial distribution function, RDF)[36]. RDF 通常由g(r)表示, 定義了在另一個(gè)標(biāo)記的粒子或原子的r距離處找到粒子或原子的概率, 這種類(lèi)型的描述符可以從實(shí)驗(yàn)測(cè)量(如X 射線測(cè)量) 中獲得. 在當(dāng)前數(shù)據(jù)庫(kù)中, 可用的材料數(shù)據(jù)往往彼此高度相關(guān). 因此, 在構(gòu)建機(jī)器學(xué)習(xí)模型之前, 有必要使用尺寸縮減工具預(yù)處理高維數(shù)據(jù)集[37]. 有幾種算法可為機(jī)器學(xué)習(xí)模型減小特征空間的維度, 并幫助識(shí)別最相關(guān)的描述符(或關(guān)鍵特征), 如PCA、多維縮放(multi-dimensional scaling, MDS) 和線性判別(linear discriminant analysis,LDA). 例如, PCA 使用正交變換將一組相關(guān)變量轉(zhuǎn)換為一組簡(jiǎn)化的不相關(guān)的新變量或主成分(principal component, PC), 在選擇每個(gè)PC 時(shí)應(yīng)盡量保證與其他PC 不相關(guān), 構(gòu)成一個(gè)可以代表原始數(shù)據(jù)的縮小的維度空間, 這樣信息損失極小.
1.3.2.2 模型構(gòu)建和驗(yàn)證
機(jī)器學(xué)習(xí)模型的構(gòu)建在材料發(fā)現(xiàn)和設(shè)計(jì)預(yù)測(cè)結(jié)果中起著關(guān)鍵作用. 一個(gè)合適的模型不僅可以保證最終輸出結(jié)果的可靠性, 也能夠大量減少訓(xùn)練需要花費(fèi)的時(shí)間. 總體而言, 在材料設(shè)計(jì)中分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)2 大類(lèi).
監(jiān)督學(xué)習(xí)旨在找到一組輸入數(shù)據(jù)映射到相應(yīng)輸出屬性的函數(shù), 使用預(yù)先標(biāo)記的數(shù)據(jù)來(lái)學(xué)習(xí)輸出Y和輸入X之間的關(guān)系, 并且在必須告知Y的值和相應(yīng)的X值的意義上進(jìn)行監(jiān)督.例如,k-最近鄰(k-nearest neighbor,k-NN) 算法[38], 其基本原理是通過(guò)特征空間中k個(gè)近鄰的大多數(shù)來(lái)識(shí)別樣本, 使用投票機(jī)制來(lái)處理回歸和分類(lèi)問(wèn)題.k值的選擇以及樣本與訓(xùn)練數(shù)據(jù)在特征空間中的距離是最需要關(guān)注的2 個(gè)問(wèn)題: ①k值需要研究人員根據(jù)原始訓(xùn)練數(shù)據(jù)集的特征, 通過(guò)交叉驗(yàn)證進(jìn)行分配; ②k值可以度量模型的復(fù)雜度,k值越小表示模型越復(fù)雜, 過(guò)擬合情況越容易發(fā)生. 此外, 如果使用該方法訓(xùn)練的數(shù)據(jù)集很大, 則k-NN 的預(yù)測(cè)非常耗時(shí), 并且內(nèi)存占用也很大, 訓(xùn)練數(shù)據(jù)的不平衡也會(huì)影響k-NN 的性能.
無(wú)監(jiān)督學(xué)習(xí)則在沒(méi)有任何事先指導(dǎo)的情況下學(xué)習(xí)數(shù)據(jù)的屬性, 如通過(guò)根據(jù)數(shù)據(jù)的特征將數(shù)據(jù)分組或通過(guò)在高維空間中找到數(shù)據(jù)變化的主導(dǎo)方向[39]. 由于每種方法或算法都有其自身的適用性和適用范圍, 因此選擇合適的機(jī)器學(xué)習(xí)算法對(duì)于其成功實(shí)施至關(guān)重要. 最小二乘回歸、核嶺回歸、神經(jīng)網(wǎng)絡(luò)和決策樹(shù)這幾種算法都可以創(chuàng)建屬性預(yù)測(cè)模型. 但是, 某些算法(如基于回歸的算法) 提供了實(shí)際的預(yù)測(cè)功能, 而其他算法(如決策樹(shù)) 則沒(méi)有. 此外, 可用數(shù)據(jù)的數(shù)量也決定了學(xué)習(xí)算法的選擇. 例如, 要正確處理數(shù)十至數(shù)千個(gè)數(shù)據(jù)點(diǎn), 可以使用諸如克里金和核嶺回歸的回歸方法, 但是當(dāng)數(shù)據(jù)比這大得多時(shí), 則需應(yīng)用更復(fù)雜的學(xué)習(xí)方法, 如深度神經(jīng)網(wǎng)絡(luò).
對(duì)于機(jī)器學(xué)習(xí)模型而言, 不僅要求其對(duì)訓(xùn)練數(shù)據(jù)集有很好的擬合(訓(xùn)練誤差), 同時(shí)也希望對(duì)未知數(shù)據(jù)集(測(cè)試集)有很好的擬合結(jié)果(泛化能力),所產(chǎn)生的測(cè)試誤差被稱(chēng)為泛化誤差[40].度量泛化能力的好壞, 最直觀的表現(xiàn)就是模型的過(guò)擬合(overfitting) 和欠擬合(underfitting).過(guò)擬合和欠擬合是用于描述模型在訓(xùn)練過(guò)程中的2 種狀態(tài). 一般來(lái)說(shuō), 訓(xùn)練過(guò)程會(huì)是如圖4 所示的一個(gè)曲線圖.
圖4 欠擬合與過(guò)擬合示意圖Fig.4 Schematic diagram of underfitting and overfitting
剛開(kāi)始訓(xùn)練的時(shí)候, 模型還在學(xué)習(xí)過(guò)程中, 處于欠擬合區(qū)域(指模型不能在訓(xùn)練集上獲得足夠低的誤差), 此時(shí)模型復(fù)雜度低, 模型在訓(xùn)練集上表現(xiàn)較差, 沒(méi)學(xué)習(xí)到數(shù)據(jù)背后的規(guī)律. 隨著訓(xùn)練的推進(jìn), 訓(xùn)練誤差和測(cè)試誤差都下降. 在到達(dá)一個(gè)臨界點(diǎn)之后, 訓(xùn)練集的誤差下降, 測(cè)試集的誤差上升了, 這時(shí)就進(jìn)入了過(guò)擬合區(qū)域(指訓(xùn)練誤差和測(cè)試誤差之間的差距太大), 模型復(fù)雜度高于實(shí)際問(wèn)題, 模型在訓(xùn)練集上表現(xiàn)較好, 但在測(cè)試集上卻表現(xiàn)較差, 泛化能力差, 從而對(duì)訓(xùn)練集以外的數(shù)據(jù)預(yù)測(cè)不精確.
綜上, 欠擬合基本上都會(huì)發(fā)生在訓(xùn)練剛開(kāi)始的時(shí)候, 經(jīng)過(guò)不斷訓(xùn)練后欠擬合能得到解決.如果此時(shí)還存在欠擬合, 則可以通過(guò)增加網(wǎng)絡(luò)復(fù)雜度或者在模型中增加特征, 來(lái)解決欠擬合的問(wèn)題. 要想解決過(guò)擬合問(wèn)題, 就要顯著減少測(cè)試誤差而不過(guò)度增加訓(xùn)練誤差, 從而提高模型的泛化能力. 可以使用正則化(regularization) 方法[41]修改學(xué)習(xí)算法, 使其降低泛化誤差而非訓(xùn)練誤差.
常用的正則化方法根據(jù)具體使用策略的不同可分為①直接提供正則化約束的參數(shù)的方法, 如L1/L2 正則化; ②通過(guò)工程上的技巧來(lái)實(shí)現(xiàn)更低泛化誤差的方法, 如提前終止(early stopping) 和暫退法(dropout); ③不直接提供約束的隱式正則化方法, 如數(shù)據(jù)增強(qiáng)等.
(1) 獲取和使用更多的數(shù)據(jù)(數(shù)據(jù)集增強(qiáng))——解決過(guò)擬合的根本性方法.
使機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型泛化能力更好的辦法就是使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練. 但是,在實(shí)踐中擁有的數(shù)據(jù)量是有限的. 解決這個(gè)問(wèn)題的一種方法就是創(chuàng)建假數(shù)據(jù)并添加到訓(xùn)練集中——數(shù)據(jù)集增強(qiáng). 通過(guò)增加訓(xùn)練集的額外副本來(lái)增加訓(xùn)練集的大小, 進(jìn)而改進(jìn)模型的泛化能力.
(2) 采用合適的模型(控制模型的復(fù)雜度).
過(guò)于復(fù)雜的模型會(huì)帶來(lái)過(guò)擬合問(wèn)題. 對(duì)于模型的設(shè)計(jì), 目前公認(rèn)的一個(gè)深度學(xué)習(xí)規(guī)律是越深入越好. 對(duì)于卷積神經(jīng)網(wǎng)絡(luò)(convolutional Neural Networks, CNN) 來(lái)說(shuō), 層數(shù)越多效果越好, 但是也更容易產(chǎn)生過(guò)擬合, 并且計(jì)算所耗費(fèi)的時(shí)間也越長(zhǎng). 而根據(jù)奧卡姆剃刀法則, 應(yīng)該選擇簡(jiǎn)單、合適的模型解決復(fù)雜的問(wèn)題.
(3) 降低特征的數(shù)量.
對(duì)于一些特征工程而言, 可以降低特征的數(shù)量, 刪除冗余特征, 人工選擇保留特征來(lái)解決過(guò)擬合問(wèn)題.
(4) 暫退法.
暫退法是在訓(xùn)練網(wǎng)絡(luò)時(shí)用的一種技巧(trick), 相當(dāng)于在隱藏單元增加了噪聲. 暫退法指的是在訓(xùn)練過(guò)程中每次按一定的概率(比如50%) 隨機(jī)地刪除一部分隱藏單元(神經(jīng)元). 暫退法目的是在訓(xùn)練過(guò)程中產(chǎn)生不同的訓(xùn)練模型, 這些不同的訓(xùn)練模型也會(huì)產(chǎn)生不同的計(jì)算結(jié)果. 隨著訓(xùn)練的不斷推進(jìn), 計(jì)算結(jié)果會(huì)在一個(gè)范圍內(nèi)波動(dòng), 但是均值卻不會(huì)有很大變化, 因此可以把最終的訓(xùn)練結(jié)果看作是不同模型的平均輸出, 并且消除或者減弱了神經(jīng)元節(jié)點(diǎn)間的聯(lián)合, 降低了網(wǎng)絡(luò)對(duì)單個(gè)神經(jīng)元的依賴(lài), 從而增強(qiáng)了泛化能力.
(5) 提前終止.
對(duì)模型進(jìn)行訓(xùn)練的過(guò)程即是對(duì)模型的參數(shù)進(jìn)行學(xué)習(xí)更新的過(guò)程, 這個(gè)參數(shù)學(xué)習(xí)的過(guò)程往往會(huì)用到一些迭代方法, 如梯度下降(gradient descent). 提前終止是通過(guò)迭代次數(shù)截?cái)鄟?lái)防止過(guò)擬合的方法, 即在模型對(duì)訓(xùn)練數(shù)據(jù)集迭代收斂之前停止迭代來(lái)防止過(guò)擬合.
為了獲得性能良好的神經(jīng)網(wǎng)絡(luò), 訓(xùn)練過(guò)程中可能會(huì)經(jīng)過(guò)很多次輪數(shù)(epoch). 而提前終止就是在每個(gè)輪數(shù)(或每N個(gè)輪數(shù)) 結(jié)束后, 在驗(yàn)證集上獲取測(cè)試結(jié)果. 隨著輪數(shù)的增加, 如果在驗(yàn)證集上發(fā)現(xiàn)測(cè)試誤差上升, 則停止訓(xùn)練, 將停止之后的權(quán)重作為網(wǎng)絡(luò)的最終參數(shù).
1.3.2.3 材料預(yù)測(cè)和實(shí)驗(yàn)驗(yàn)證
如圖3 所示, 在建立機(jī)器學(xué)習(xí)模型后, 可以通過(guò)交叉驗(yàn)證法來(lái)評(píng)估模型的穩(wěn)健性和泛化性[42]. 將大小為k的訓(xùn)練樣本劃分成大小為k-1 的校準(zhǔn)樣本和大小為1 的驗(yàn)證樣本, 重復(fù)k次. 劃分驗(yàn)證集, 對(duì)訓(xùn)練集生成的參數(shù)進(jìn)行測(cè)試, 從而相對(duì)客觀地判斷這些參數(shù)與訓(xùn)練集外數(shù)據(jù)的符合性, 選擇最優(yōu)模型. 交叉驗(yàn)證方法評(píng)價(jià)結(jié)果的穩(wěn)定性和保真度在很大程度上取決于k的值, 因此交叉驗(yàn)證方法通常被稱(chēng)為k-fold 交叉驗(yàn)證, 其中k最常用的值為5 和10. 留一交叉驗(yàn)證(leave-one-out cross validation, LOOCV) 方法是在數(shù)據(jù)集較少的情況下交叉驗(yàn)證的一種特殊形式, 即只使用原始訓(xùn)練集中的一個(gè)樣本作為驗(yàn)證集, 其余樣本作為訓(xùn)練數(shù)據(jù). 對(duì)于小數(shù)據(jù)集的情況, 另一種有用的方法是自舉法(bootstrap), 該方法可以通過(guò)帶替換的抽樣方法從初始數(shù)據(jù)集生成所需大小的訓(xùn)練集. 然而, 由自舉方法生成的數(shù)據(jù)集的分布與初始數(shù)據(jù)集的分布不同, 這將引入估計(jì)偏差. 因此, 當(dāng)數(shù)據(jù)量足夠時(shí), 通常采用交叉驗(yàn)證方法. 在對(duì)模型進(jìn)行評(píng)價(jià)時(shí), 除了對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià)外, 還應(yīng)考慮模型的效率、復(fù)雜性、穩(wěn)健性和可移植性.
當(dāng)機(jī)器學(xué)習(xí)模型通過(guò)驗(yàn)證后可以進(jìn)行反向設(shè)計(jì)以根據(jù)模型查找具有所需特性的材料. 該過(guò)程通過(guò)使用大規(guī)模篩選或數(shù)學(xué)優(yōu)化來(lái)完成. 大規(guī)模篩選方法的基本思想是, 在設(shè)計(jì)空間中生成所有可能的候選材料后使用已學(xué)習(xí)的模型逐一進(jìn)行測(cè)試. 通常, 材料的生成必須考慮對(duì)材料的幾個(gè)限制, 這些限制通常以2 種形式存在: 結(jié)構(gòu)和組成成分. 因此, 需要使用一個(gè)系統(tǒng)的程序來(lái)識(shí)別設(shè)計(jì)空間中的所有材料(或盡可能多的材料). 在生成候選材料后, 使用經(jīng)過(guò)訓(xùn)練的模型可簡(jiǎn)單、直接地評(píng)估其屬性, 或者可以將反向材料設(shè)計(jì)公式轉(zhuǎn)化為數(shù)學(xué)優(yōu)化問(wèn)題, 其中目標(biāo)特性在受到結(jié)構(gòu)和成分約束的情況下得到優(yōu)化. 優(yōu)化的方法試圖在不測(cè)試設(shè)計(jì)空間中所有候選對(duì)象的情況下確定有前途的材料, 這使該方法受組合復(fù)雜度的限制要小得多. 確定性或隨機(jī)算法均可用于解決所確定的最優(yōu)材料的成分優(yōu)化問(wèn)題. 在確定最佳材料后, 就能夠合成這些材料并通過(guò)實(shí)驗(yàn)驗(yàn)證其實(shí)際性能. 如果實(shí)驗(yàn)結(jié)果與預(yù)測(cè)結(jié)果吻合良好, 則可以證明該模型對(duì)于該問(wèn)題擬合預(yù)測(cè)效果良好, 通過(guò)該模型可以繼續(xù)探索新催化劑; 如果實(shí)驗(yàn)結(jié)果不符合預(yù)測(cè), 可將所設(shè)計(jì)的材料及相應(yīng)的實(shí)驗(yàn)結(jié)果添加到訓(xùn)練集中, 并重新訓(xùn)練機(jī)器學(xué)習(xí)模型.
含有5 種或5 種以上的等摩爾比合金形成的單一固溶體被定義為高熵合金(high-entropy alloy, HEA)[1,37], 也有人認(rèn)為不應(yīng)該限制元素濃度[43-44]. 此外, 合金的熵可由構(gòu)型熵公式來(lái)計(jì)算:
式中: ?Smix為混合熵;R為摩爾氣體常數(shù);ci為第i元素的摩爾分?jǐn)?shù). 因此, 根據(jù)合金的熵值大小, 可將合金分為低熵合金(low-entropy alloy (LEA), ?Smix< 1.0R)、中熵合金(medium-entropy alloy (MEA), 1.0R< ?Smix< 1.5R) 和高熵合金(HEA, ?Smix> 1.5R).這種材料的結(jié)構(gòu)無(wú)序程度將明顯大于二元或三元合金, 從而產(chǎn)生更高的熵, 有更高的熱力學(xué)穩(wěn)定性. 由式(10) 得到構(gòu)型熵后可以得到一系列摩爾比相等的高熵合金(見(jiàn)圖5(a))[45].
圖5 高熵材料的定義、結(jié)構(gòu)特點(diǎn)和表征方法Fig.5 Definition, structure feature and characterization techniques of high-entropy matorials
高熵化合物, 也稱(chēng)為高熵陶瓷, 通常包含了除金屬元素外的其他非金屬元素(如氫、氧、硫、氟等), 與金屬化合物框架的前驅(qū)體一起, 通過(guò)沉淀、加熱、機(jī)械加工等各種方法形成穩(wěn)定的高熵化合物, 具體定義相似于高熵合金[46].
高熵合金的晶體結(jié)構(gòu)通常為簡(jiǎn)單的面心立方(face-centered cubic, FCC) 結(jié)構(gòu)、體心立方(body-centered cubic, BCC) 結(jié)構(gòu)以及密排六方(hexagonal close packed, HCP) 結(jié)構(gòu), 不同原子隨機(jī)占據(jù)晶格位置, 形成簡(jiǎn)單固溶體. 目前, 已報(bào)道的高熵合金納米催化劑最常見(jiàn)的結(jié)構(gòu)為FCC, 其他結(jié)構(gòu)如BCC 和HCP 結(jié)構(gòu), 局部序度的改變會(huì)造成鍵長(zhǎng)的變化從而帶來(lái)結(jié)構(gòu)上的特殊性(見(jiàn)圖5(b)). 另外, 包括活性位點(diǎn)的定性和定量、機(jī)理研究和催化性能的優(yōu)化在內(nèi)的研究都依賴(lài)于高熵材料的精確表征. 由于高熵材料成分和結(jié)構(gòu)的復(fù)雜性增加, 故這是具有挑戰(zhàn)性的. 當(dāng)然, 盡管存在挑戰(zhàn), 利用各種技術(shù)來(lái)表征高熵材料已經(jīng)取得了很多進(jìn)展(見(jiàn)圖5(c)).
基于高熵合金的結(jié)構(gòu), 研究人員總結(jié)出高熵合金不同于傳統(tǒng)合金的特征, 即所謂的4 個(gè)核心效應(yīng), 即高熵效應(yīng)、晶格畸變效應(yīng)、遲滯擴(kuò)散效應(yīng)和雞尾酒效應(yīng)[47].
高熵效應(yīng)由高熵合金早期的概念而來(lái), 即5 種或5 種以上元素均勻混合, 合金體系能夠獲得較大的混合熵, 使合金體系更傾向于形成固溶體, 而不是金屬間化合物, 該特性體現(xiàn)了混合熵對(duì)合金相形成的貢獻(xiàn)[48]. 根據(jù)經(jīng)典Gibbs 相律, 對(duì)于一個(gè)給定的合金, 當(dāng)體系壓力恒定時(shí),其滿(mǎn)足
式中:C為合金中所含元素的個(gè)數(shù);P為所形成的相的數(shù)目;F為體系的自由度. 已有的研究結(jié)果顯示, 高熵合金生成相的數(shù)目要遠(yuǎn)小于經(jīng)典吉布斯相律所預(yù)測(cè)的合金體系所生成的最大平衡相的數(shù)目. 從自由能表達(dá)式(G=H-TS) 可以看出, 當(dāng)合金的混合熵高到可以足夠抵消混合焓的作用時(shí)將促進(jìn)固溶體的形成, 特別是在足夠高的溫度下, 高的混合熵能夠穩(wěn)定均勻混合的固溶體[49]. 因此, 高熵合金中存在的相數(shù)明顯減小.
晶格畸變效應(yīng)是由于組成高熵合金的每個(gè)組分的原子大小的巨大差異而產(chǎn)生的. 金屬原子在晶格中的隨機(jī)占據(jù)會(huì)導(dǎo)致嚴(yán)重的晶格畸變. 晶格畸變效應(yīng)造成同一層原子面的高低不平,使得X 射線在不平整的晶面上產(chǎn)生明顯的布拉格散射, 從而導(dǎo)致高熵合金X-射線衍射峰強(qiáng)度弱化及展寬現(xiàn)象[50]. 這種嚴(yán)重的晶格畸變不僅顯著提高了高熵合金的硬度, 而且還降低了導(dǎo)電性和導(dǎo)熱性, 且原子在表面的擴(kuò)散受到阻礙, 這種效應(yīng)也有助于形成納米級(jí)高熵合金.
高熵合金的晶格畸變導(dǎo)致原子在晶格內(nèi)的擴(kuò)散激活能增大, 從而降低了原子的有效擴(kuò)散速率, 形成遲滯擴(kuò)散效應(yīng). Zhang等[51]運(yùn)用高溫?cái)U(kuò)散偶的方法研究了Mn、Cr、Fe、Co 和Ni 5種原子在近乎理想固溶體結(jié)構(gòu)的CoCrFeMnNi 合金中的擴(kuò)散行為. 結(jié)果表明, 相比于包含相同組元的傳統(tǒng)FCC 結(jié)構(gòu)的合金, 各個(gè)組元在高熵合金基體中的擴(kuò)散系數(shù)均遠(yuǎn)小于在其他單組元中的擴(kuò)散系數(shù). 相應(yīng)地, 該元素在高熵合金中的激活能也高于參考金屬中的活化能.
高熵合金的雞尾酒效應(yīng)是指因各元素之間的相互作用而帶來(lái)的一種協(xié)同效應(yīng), 即元素的特別組合可能帶來(lái)合金性質(zhì)上的特異性[49]. 雞尾酒效應(yīng)最初是為了解釋金屬玻璃、超彈性合金和超塑性合金的特殊性質(zhì)而引入的. 僅從高熵效應(yīng)來(lái)預(yù)測(cè)是否形成單一固溶體或判斷高熵合金的熱穩(wěn)定性是不夠準(zhǔn)確的. 另外, 原子的擴(kuò)散速率與材料的晶粒尺寸有極大關(guān)系, 當(dāng)合金由納米晶組成時(shí)原子迅速轉(zhuǎn)移, 只有在大晶粒條件下原子的擴(kuò)散速率與所述的遲滯擴(kuò)散效應(yīng)才相符. 雞尾酒效應(yīng)籠統(tǒng)地解釋了各組元之間的協(xié)同效應(yīng), 但其具體的物理意義尚不明確.
與高熵合金相似, 高熵化合物(高熵陶瓷) 也是通過(guò)將多種元素插入晶體中來(lái)建立一種熱力學(xué)穩(wěn)定. 由于元素種類(lèi)多樣, 當(dāng)重新排列元素時(shí)會(huì)導(dǎo)致這些元素產(chǎn)生更規(guī)律的秩序, 從而違背了熵增原則. 因此, 高熵化合物往往具備耐高溫、抗腐蝕的特性, 同時(shí)由于多種元素的協(xié)同作用, 故其表面往往具備大量活性位點(diǎn).
與傳統(tǒng)催化材料相比, 高熵材料的主要優(yōu)勢(shì)是由雞尾酒效應(yīng)引起的. 受益于多個(gè)合并元素, 高熵材料可以被視為原子復(fù)合材料, 通常表現(xiàn)出全新的特性, 并且可以通過(guò)更改不同元素的比例來(lái)改變特性. 除此之外, 高熵材料功能單元之間非常強(qiáng)的協(xié)同效應(yīng)在貴金屬和非貴金屬活性中起決定性作用. 相較于傳統(tǒng)合金或化合物, 高熵材料因?yàn)閾饺氲慕饘僭拥拇笮∶黠@不一, 會(huì)產(chǎn)生嚴(yán)重的晶格畸變, 這有利于暴露出更多的催化位點(diǎn), 從而在催化領(lǐng)域展現(xiàn)出潛力.
盡管與傳統(tǒng)合金和其他化合物相比, 高熵材料具有固有優(yōu)勢(shì), 但在催化領(lǐng)域的應(yīng)用中仍然面臨一些挑戰(zhàn). 首先, 即使結(jié)果表明高熵材料的特性可以通過(guò)變更不同元素或比例來(lái)調(diào)配, 但由于雞尾酒效應(yīng)多元素的混合, 單個(gè)元素在催化中起的作用仍然較為模糊. 此外, 在工業(yè)化應(yīng)用中尋找一種簡(jiǎn)單通用的合成高熵材料的方法也是有必要的[12].
總的來(lái)說(shuō), 到目前為止進(jìn)行的研究仍處于早期階段, 大多數(shù)的結(jié)構(gòu)裁剪仍然是隨機(jī)完成的, 因此合理地設(shè)計(jì)高熵材料非常具有挑戰(zhàn)性. 除了廣泛開(kāi)發(fā)高熵材料和高熵陶瓷外, 探索新類(lèi)別的高熵材料也應(yīng)受到高度關(guān)注. 另外, 研究人員需要對(duì)高熵概念本身有更深入的理解, 通過(guò)類(lèi)比研究, 刪除一種或多種元素來(lái)探討高熵材料和相應(yīng)的中熵或低熵材料的特點(diǎn)與優(yōu)勢(shì). 這樣的實(shí)驗(yàn)將提供更多見(jiàn)解, 特別是性能和反應(yīng)之間的比較機(jī)制.
通常, 催化劑的最佳設(shè)計(jì)都是憑經(jīng)驗(yàn)或?qū)嶒?yàn)實(shí)現(xiàn)的. 量子化學(xué)計(jì)算為使用第一性原理設(shè)計(jì)催化劑提供了可能性. 然而, 較高的計(jì)算成本將其應(yīng)用限制在相對(duì)簡(jiǎn)單的反應(yīng)和少量的候選催化劑上. 隨著可用的實(shí)驗(yàn)和計(jì)算數(shù)據(jù)的迅速增加以及催化信息學(xué)的發(fā)展, 如今已可以使用機(jī)器學(xué)習(xí)模型很好地描述催化劑的結(jié)構(gòu)和活性之間的關(guān)系, 這對(duì)于催化劑的開(kāi)發(fā)非常有幫助. 迄今為止, 許多機(jī)器學(xué)習(xí)模型已成功用于預(yù)測(cè)高熵陶瓷的相形成和力學(xué)性能, 如ANN、SVM、RF模型等[52]. 圖6(a) 展示了機(jī)器學(xué)習(xí)預(yù)測(cè)多組分固溶體形成的方法, 主數(shù)據(jù)集包含由結(jié)構(gòu)建模技術(shù)生成并報(bào)道的多組分二硼化物, 通過(guò)機(jī)器學(xué)習(xí)不同的模型、超參數(shù)調(diào)優(yōu)和交叉驗(yàn)證, 獲得最終模型, 并預(yù)測(cè)新的四元、五元化合物[53]. 最近, Zhang 等[54]利用SVM 和ANN 模型預(yù)測(cè)了單相的碳化物高熵陶瓷, 流程如圖6(b) 所示. ANN 模型被廣泛應(yīng)用于深度學(xué)習(xí), 而SVM 在處理小的數(shù)據(jù)集方面具有很大優(yōu)勢(shì); 二者結(jié)合能夠快速搜尋整個(gè)組分空間, 而不再需要昂貴的DFT 計(jì)算.當(dāng)前高熵合金催化劑也已被證明在氨分解反應(yīng)(ammonia decomposition reaction, ADR)、析氧反應(yīng)(oxygen evolution reaction, OER)、氧還原反應(yīng)(oxygen reduction reaction, ORR)、CO2還原反應(yīng)(CO2reduction reaction, CO2RR) 等方面具有比其他金屬或合金體系更好的催化性能[55-58].
圖6 機(jī)器學(xué)習(xí)預(yù)測(cè)高熵化合物流程Fig.6 Workflow of predicting high-entropy ceramics via machine learning
高熵氧化物(high-entropy oxide, HEO) 是一種新型材料, 在能源和催化領(lǐng)域具有廣闊的應(yīng)用前景. 然而, 一系列的高熵氧化物太新穎, 無(wú)法評(píng)價(jià)其合成性質(zhì), 包括形成性質(zhì)和基本性質(zhì). 基于DFT 的第一性原理計(jì)算[59-60]廣泛應(yīng)用于物理、化學(xué)和材料科學(xué), 是一種量子力學(xué)建模方法. 但當(dāng)計(jì)算非化學(xué)計(jì)量數(shù)的化合物時(shí), 其計(jì)算時(shí)間很長(zhǎng), 計(jì)算能力的負(fù)荷很大. DFT通過(guò)與機(jī)器學(xué)習(xí)結(jié)合可以減少計(jì)算時(shí)間和計(jì)算負(fù)荷, 其中機(jī)器學(xué)習(xí)利用計(jì)算機(jī)算法通過(guò)DFT經(jīng)驗(yàn)自動(dòng)預(yù)測(cè)物理、化學(xué)和材料特性. 例如, Lin 等[61]將Cr、Co、Fe、Mn 和Ni 分配到晶格位置作為自變量, 然后采用DFT 對(duì)尖晶石結(jié)構(gòu)的多元素化合物進(jìn)行了計(jì)算, 將得到的尖晶石晶格常數(shù)以及形成能作為因變量, 將通過(guò)DFT 計(jì)算出來(lái)的數(shù)據(jù)作為訓(xùn)練集, 分別使用反向傳播網(wǎng)絡(luò)(back propagation network, BPN) 和遺傳算法神經(jīng)網(wǎng)絡(luò)(genetic algorithm neural network, GANN) 這2 種算法進(jìn)行了模擬計(jì)算, 并通過(guò)使用RMSE 值和散點(diǎn)圖來(lái)選擇和確定合適的模型. 機(jī)器學(xué)習(xí)預(yù)測(cè)與DFT 計(jì)算一致(晶格常數(shù)和形成能分別在2% 和1% 的偏差范圍內(nèi)), 這表明該研究中使用的流程和設(shè)計(jì)是可行的. 此外, 已建立的計(jì)算尖晶石結(jié)構(gòu)的晶格常數(shù)和形成能的數(shù)據(jù)庫(kù), 可用于了解尖晶石結(jié)構(gòu)高熵材料和其他尖晶石結(jié)構(gòu)氧化物的性質(zhì), 為數(shù)據(jù)密集型材料科學(xué)和計(jì)算具有Co、Cr、Fe、Mn 和Ni 金屬的尖晶石結(jié)構(gòu)材料的特性提供了機(jī)會(huì).
氫氣作為一種高能量密度的無(wú)污染能源而受到廣泛關(guān)注. 電解水析氫反應(yīng)(hydrogen evolution reaction, HER) 對(duì)氫能轉(zhuǎn)換和儲(chǔ)存具有重要意義[62]. HER 是一個(gè)典型的雙電子轉(zhuǎn)移反應(yīng), 中間只有一個(gè)H*, 其中* 表示吸附. 雙電子轉(zhuǎn)移反應(yīng)可能通過(guò)Volmer-Tafel 機(jī)制或Volmer-Heyrovsky 機(jī)制發(fā)生(見(jiàn)表1). 表中機(jī)理是機(jī)器學(xué)習(xí)輔助電催化劑設(shè)計(jì)的基礎(chǔ), 并已被許多研究人員引用[53].
表1 HER 反應(yīng)機(jī)理Table 1 HER mechanism
多元合金催化劑是提高催化性能的最有前途的方法之一, 其協(xié)同性能遠(yuǎn)超低組元合金預(yù)期[63-64]. 然而, 由于金屬元素在催化反應(yīng)中的物理行為和化學(xué)活性不同, 確定最佳元素成分和組成具有挑戰(zhàn)性. 此外, 由于很難精準(zhǔn)地確定金屬元素在合金內(nèi)的催化性能, 故很難確定需研究的金屬組合, 以前都是通過(guò)模擬計(jì)算二三元合金的窮舉法[65-66]. Kim 等[67], 通過(guò)實(shí)驗(yàn)和主動(dòng)學(xué)習(xí)相結(jié)合的方法, 面向HER 展示了一種可以搜索多金屬合金催化劑的最佳成分的方法, 其中該模型主動(dòng)學(xué)習(xí)的輸入數(shù)據(jù)(即金屬前驅(qū)體的成分和組成以及測(cè)量的過(guò)電位) 來(lái)自于多金屬合金納米顆粒的合成及其過(guò)電位的實(shí)驗(yàn)測(cè)量. 該團(tuán)隊(duì)訓(xùn)練了一個(gè)高斯過(guò)程(Gaussian process, GP) 模型來(lái)學(xué)習(xí)一個(gè)函數(shù), 該函數(shù)將一個(gè)由8 維前驅(qū)體組成的向量映射到一個(gè)標(biāo)量過(guò)電位值. 隨著實(shí)驗(yàn)?zāi)P筒粩嗟? 只需將前驅(qū)體混合物組成作為輸入數(shù)據(jù), 在不考慮合金的實(shí)際成分、催化劑的表面積和負(fù)載量、催化劑的阻抗等其他特性作為輸入數(shù)據(jù)的情況下, 主動(dòng)學(xué)習(xí)和實(shí)驗(yàn)的結(jié)果在迭代過(guò)程中具有相同的趨勢(shì), 能有效預(yù)測(cè)系統(tǒng)的過(guò)電位(見(jiàn)圖7). 然后,該團(tuán)隊(duì)采用碳熱沖擊(carbon thermal shock, CTS) 法[68], 在前驅(qū)體混合物中加入不同摩爾分?jǐn)?shù)的金屬, 合成多金屬合金催化劑, 直接預(yù)測(cè)催化過(guò)電位的實(shí)驗(yàn)可調(diào)參數(shù)(見(jiàn)圖7(i)~(ii)). 在完成催化劑的制備后, 通過(guò)線性掃描伏安(linear sweep voltammetry, LSV) 法測(cè)量電流密度為20 mA·cm-2時(shí)的過(guò)電位, 表征合成納米顆粒的催化性能(見(jiàn)圖7(iii)). 主動(dòng)學(xué)習(xí)以高效的方式找到能夠表現(xiàn)出最佳催化性能的前驅(qū)體的最佳組成, 使得實(shí)驗(yàn)過(guò)電位小于純Pt 催化劑的過(guò)電位. 可見(jiàn), 該方法論具有應(yīng)用于其他高熵合金催化系統(tǒng)的潛力.
圖7 尋找低過(guò)電位多金屬合金催化劑的整體工作流程Fig.7 Overall workflow for searching multi-component alloys with low overpotential
OER 是電解水的另一個(gè)半反應(yīng), 同時(shí)也是空氣電池的負(fù)極[69]. 由于四電子反應(yīng)動(dòng)力學(xué)更為緩慢, 因此OER 往往是總反應(yīng)中的瓶頸. 表2 對(duì)酸性和堿性環(huán)境中OER 的機(jī)理進(jìn)行了分析, 表明電催化劑設(shè)計(jì)的主要挑戰(zhàn)之一在于中間體*OH、*O 和*OOH 的吸附能之間存在很強(qiáng)的相關(guān)性[70]. 打破相關(guān)關(guān)系以獲得優(yōu)異的性能是OER 電催化劑設(shè)計(jì)的主要目標(biāo).
表2 OER 反應(yīng)機(jī)理Table 2 OER mechanism
人工智能(artificial intelligence, AI) 和機(jī)器學(xué)習(xí)是達(dá)成這個(gè)目標(biāo)的方案選擇之一, 是利用統(tǒng)計(jì)模型和優(yōu)化算法揭示訓(xùn)練數(shù)據(jù)背后的隱藏特征從而進(jìn)行預(yù)測(cè). Rohr 等[71]使用基于四元金屬氧化物電催化劑的序列學(xué)習(xí)(sequence learning, SL) 加速了材料發(fā)現(xiàn)過(guò)程, 從而量化優(yōu)異的電催化劑性能和準(zhǔn)確性. SL 技術(shù)旨在使機(jī)器學(xué)習(xí)模型和獲取函數(shù)易于變化, 并在表示所有可能實(shí)驗(yàn)的離散搜索空間的假設(shè)下實(shí)現(xiàn), 將其稱(chēng)為大小為n的樣本集. 該集合中的每個(gè)樣本都由其實(shí)驗(yàn)坐標(biāo)來(lái)表示, 故該坐標(biāo)是6 維組成向量. 該技術(shù)可以保證每個(gè)實(shí)驗(yàn)的優(yōu)點(diǎn)值, 且這種SL 技術(shù)可以使用任何機(jī)器學(xué)習(xí)模型來(lái)實(shí)現(xiàn). 該研究團(tuán)隊(duì)選擇了3 個(gè)涵蓋了廣泛的SL 算法的模型. 線性集成(linear integration, LE) 方法, 作為代表性貝葉斯方法的GP 和RF 模型,選擇OER 過(guò)電位作為性能指標(biāo). 不同的SL 方案在4 種化學(xué)成分上進(jìn)行了測(cè)試, 每種化學(xué)成分含有2 121 種催化劑(見(jiàn)圖8). 相對(duì)先進(jìn)的GP 和RF 算法比LE 算法更出色, 通常GP 和RF 算法大約進(jìn)行100 次循環(huán)就能找到80% 的頂級(jí)催化劑, 而LE 算法則需要200 多次循環(huán).在特定情況下與隨機(jī)獲取方法(random choice method, RCM) 相比, 通過(guò)SL 算法訓(xùn)練出的模型預(yù)測(cè)電催化劑的設(shè)計(jì)速度可以加快20 倍. 此外, 研究還表明, 對(duì)催化劑發(fā)現(xiàn)的SL 算法進(jìn)行基準(zhǔn)測(cè)試可以加速研究, 但還沒(méi)有達(dá)到預(yù)期AI 引導(dǎo)發(fā)現(xiàn)的數(shù)量級(jí). 通過(guò)探索3 個(gè)互補(bǔ)的研究目標(biāo)(即發(fā)現(xiàn)任何好的催化劑、發(fā)現(xiàn)所有好的催化劑和發(fā)現(xiàn)一個(gè)預(yù)測(cè)模型) 和3 個(gè)互補(bǔ)的機(jī)器學(xué)習(xí)模型(GP、RF、LE), 可以證明SL 算法的性能更多地取決于研究目標(biāo)而不是模型的種類(lèi). 不同組成空間的4 種催化劑數(shù)據(jù)集模型性能的可變性揭示了一致的定性趨勢(shì), 表明觀察結(jié)果具有一定程度的普遍性.
圖8 序列學(xué)習(xí)預(yù)測(cè)金屬氧化物電催化劑Fig.8 Prediction of metal oxides as electrocatalysts by sequence learning
在燃料電池等設(shè)備的能量轉(zhuǎn)換過(guò)程中, ORR 在電催化過(guò)程中起著舉足輕重的作用, 其陰極緩慢的動(dòng)力學(xué)限制了燃料電池的整體性能[72]. 因此, 加速電催化劑的設(shè)計(jì), 以促進(jìn)燃料電池的ORR 動(dòng)力學(xué)是非常重要的[73]. 目前, 昂貴高效的Pt 基材料是最實(shí)用的ORR 電催化劑. 然而, 電催化劑的高成本是燃料電池商業(yè)化的一個(gè)挑戰(zhàn). 因此, 應(yīng)用機(jī)器學(xué)習(xí)尋找高效廉價(jià)ORR 催化劑至關(guān)重要. 在酸性和堿性環(huán)境中, ORR 的機(jī)制已經(jīng)得到了較好的研究[73](見(jiàn)表3). ORR 催化劑設(shè)計(jì)面臨的最大挑戰(zhàn)在于ORR 反應(yīng)中間體*OH、*O 和*OOH 的結(jié)合能之間存在不利的關(guān)系.
表3 ORR 反應(yīng)機(jī)理Table 3 ORR mechanism
機(jī)器學(xué)習(xí)能高效地發(fā)現(xiàn)有效的高熵合金ORR 催化劑. 高熵合金中的各種元素以隨機(jī)分布的組分形成有序的晶體結(jié)構(gòu), 能提供具有優(yōu)秀的催化性能的原子排列位點(diǎn). 多種元素隨機(jī)分布的過(guò)渡金屬晶體結(jié)構(gòu), 使貴金屬的負(fù)荷降低, 同時(shí)提高其性能. Wan 等[9]首先選擇了6 種過(guò)渡金屬元素(Ir、Pt、Ru、Rh、Ag 和Fe), 通過(guò)這些元素構(gòu)建五元的高熵合金來(lái)研究其穩(wěn)定性.由于這些元素具有相似的原子半徑和接近的晶格常數(shù), 具有相同的FCC 結(jié)構(gòu), 故常常被報(bào)道用于ORR 催化劑[75-79]. 高熵合金的完全隨機(jī)構(gòu)型空間導(dǎo)致的高度無(wú)序性, 增加了高熵合金的混合構(gòu)型熵, 有利于形成穩(wěn)定的單相固溶體結(jié)構(gòu)而不是易碎的金屬間化合物. 根據(jù)休謨-羅瑟里規(guī)則, 原子半徑之差和生成焓與熵之比可以直接評(píng)價(jià)其穩(wěn)定性[80-81]. 然后, 根據(jù)Sabatier規(guī)則[82], 反應(yīng)中間體的吸附能通常是催化活性的良好描述符, 選取?GOH?作為活性描述符建立高熵合金表面反應(yīng)位點(diǎn)ORR 催化活性與OH* 吸附能之間的ORR 火山曲線. 隨機(jī)選取具有不同Miller 指數(shù)表面和組成元素的高熵合金上的360 個(gè)反應(yīng)位點(diǎn), 通過(guò)DFT 計(jì)算得到位點(diǎn)上OH* 中間體的吸附能, 作為機(jī)器學(xué)習(xí)模型的原始數(shù)據(jù)集. 隨后, 通過(guò)特征工程的方法將描述位點(diǎn)局部環(huán)境的問(wèn)題抽象為組成位點(diǎn)的2 個(gè)金屬原子的配位原子特征. 在完成特征工程和數(shù)據(jù)提取后, 使用預(yù)處理后的數(shù)據(jù)集用7 種不同的回歸算法訓(xùn)練7 種不同的機(jī)器學(xué)習(xí)模型:包括梯度增強(qiáng)回歸(gradient boosting regression, GBR)、前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network, FNN)、隨機(jī)森林回歸(random forest regression, RFR)、支持向量回歸、K近鄰回歸(Kneighbor regression, KNR)、核脊回歸(nuclear ridge regression, KRR) 和最小絕對(duì)收縮和選擇算子回歸(least absolute shrinkage and selection operator, LASSO). 在4 次交叉驗(yàn)證后, 比較測(cè)試集上的模型指標(biāo), 選擇GBR、RFR 和FNN 算法來(lái)建立更好的機(jī)器學(xué)習(xí)模型;通過(guò)手動(dòng)調(diào)參比較選擇了RMSE 較低、決定系數(shù)(R2) 評(píng)分較高的GBR 模型. 隨機(jī)等量生成具有不同Miller 指數(shù)晶面和組成元素的高熵合金上12 000 個(gè)不同的橋點(diǎn), 即每種高熵合金有2 000 個(gè)點(diǎn), 其中(100) 晶面分為1 000 個(gè)點(diǎn), (111) 晶面分為1 000 個(gè)點(diǎn). 將這些位點(diǎn)輸入到性能良好的GBR 模型中, 對(duì)輸出的吸附能進(jìn)行即時(shí)收集和分類(lèi). 對(duì)結(jié)果的深入分析表明: 高熵合金表面的吸附能是所有環(huán)境配位成分金屬原子單獨(dú)貢獻(xiàn)的混合; 直接與OH* 鍵合的2 個(gè)金屬原子是決定ORR 中間體吸附能的主要因素, 配位原子離OH* 越近其影響越大; 高精度地預(yù)測(cè)了高熵合金不同晶面上數(shù)百萬(wàn)個(gè)反應(yīng)位點(diǎn)的OH* 吸附能; Wan 等[9]對(duì)預(yù)測(cè)結(jié)果和機(jī)器學(xué)習(xí)模型進(jìn)一步分析, 提出了一種提高高熵合金催化劑ORR 活性的策略, 即通過(guò)優(yōu)化表面來(lái)擴(kuò)大找到具有所需OH* 吸附能的高效活性位點(diǎn)的可能性. 整個(gè)機(jī)器學(xué)習(xí)過(guò)程如圖9 所示, 可以看出該設(shè)計(jì)為高熵合金催化劑的合理設(shè)計(jì)和納米結(jié)構(gòu)的合成提供了指導(dǎo).
與之相同的基于機(jī)器學(xué)習(xí)的方法, 可以通過(guò)使用相對(duì)較大但可管理的DFT 數(shù)據(jù)庫(kù)開(kāi)發(fā)計(jì)算效率高的模型來(lái)評(píng)估催化效率, 并且緩解大量不同的化學(xué)環(huán)境對(duì)確定反應(yīng)機(jī)理帶來(lái)的挑戰(zhàn).Saidi[83]重點(diǎn)研究了新近發(fā)現(xiàn)的PdAuAgTi 合金, 該合金在Ti 成分空間的狹窄區(qū)域內(nèi)表現(xiàn)出較好的ORR 活性[84]. Saidi 假設(shè)PdAuAgTi 為具有FCC 晶格的單一固溶體相, 通過(guò)計(jì)算創(chuàng)建一個(gè)大型數(shù)據(jù)集?E, 該數(shù)據(jù)集由合金的隨機(jī)結(jié)構(gòu)配置生成, 其組分、原子排列和OH 吸附位點(diǎn)各不相同; 利用開(kāi)發(fā)的數(shù)據(jù)庫(kù)[85], 使用基于吸附位點(diǎn)幾何和化學(xué)環(huán)境特征的DNN 來(lái)訓(xùn)練一個(gè)特定位點(diǎn)的機(jī)器學(xué)習(xí)模型. 結(jié)果證明PdAuAgTi 合金在8%~12% Ti 的狹窄區(qū)域內(nèi)與OH 結(jié)合最佳, 與鑒定出的11%~13% Ti 的實(shí)驗(yàn)結(jié)果一致. 另外, Saidi 還根據(jù)合金的*OH 結(jié)合強(qiáng)度繪制了整個(gè)合金的成分空間. 該研究擴(kuò)展到PdCuZnTi 合金, 并揭示了小于8% Ti 的成分值范圍, 也有較好的ORR 活性. 這種合金將比PdAuAgTi 更具成本效益, 具有取代Pt的潛力. 高通量篩選結(jié)合DFT 計(jì)算和機(jī)器學(xué)習(xí)的數(shù)據(jù)來(lái)分析Pd 基四元合金氧還原活性的增強(qiáng)機(jī)制, 較好地解釋了實(shí)驗(yàn)結(jié)果, 并提供了催化活性在總的組分空間的精確圖譜. Saidi 的研究強(qiáng)調(diào)了高通量計(jì)算和機(jī)器學(xué)習(xí)之間的結(jié)合對(duì)原子水平上的材料設(shè)計(jì)的重要影響.
總之, 基于機(jī)器學(xué)習(xí)設(shè)計(jì)ORR 的電催化劑通常有2 種策略: 尋找替代電催化劑(非貴金屬電催化劑) 或降低貴金屬的負(fù)載量, 其中*OH、*O 和*OOH 的吸附能是電催化劑設(shè)計(jì)的重要活性描述符.
電催化CO2RR 能產(chǎn)生高附加值的化學(xué)品和燃料, 已引起廣泛關(guān)注, 因?yàn)镃O2RR 提供了一種清潔有效的方法來(lái)緩解能源短缺, 同時(shí)減少全球碳排放[86]. CO2的電化學(xué)還原方法多種多樣, 可產(chǎn)生16 種不同的產(chǎn)物, 包括C1 產(chǎn)物(即CO、HCOOH(甲酸)、HCHO(甲醛)、CH3OH(甲醇)、CH4(甲烷)) 和多碳產(chǎn)物(即H2C2O4(草酸)、CH3CH2OH(乙醇)、CH2= CH2(乙烯)、CH3CH3(乙烷) 和CH3CH2CH2OH(正丙醇)), 各種電子還原反應(yīng)如表4 所示(注: SHE (standard hydrogen electrode, 標(biāo)準(zhǔn)氫電極)).
表4 CO2RR 的反應(yīng)、電勢(shì)(E0 vs. SHE 和pH = 7) 和電子轉(zhuǎn)移數(shù)(n)Table 4 Reaction steps, potential (E0 vs. SHE and pH=7) and electron-transferred number (n) of CO2RR
CO2還原反應(yīng)中間體吸附能之間的標(biāo)度關(guān)系為只考慮一種中間體篩選高活性催化劑提供了一種簡(jiǎn)單的方法. 然而, 標(biāo)度關(guān)系也限制了CO2RR 催化性能的突破[54]. 因?yàn)闆](méi)有辦法同時(shí)保證催化劑表面對(duì)一種反應(yīng)物的吸附是強(qiáng)的, 有利于活化; 對(duì)其他反應(yīng)物的吸附是弱的, 有助于產(chǎn)物的形成. 例如, Feaster 等[87]比較了CO2RR 中間體的吸附能趨勢(shì), 并基于這一分析提出了一個(gè)活性火山. CO* 的強(qiáng)吸附能導(dǎo)致CO* 難以質(zhì)子化(CO* + H++ e-→CHO*), 而CO* 的弱吸附能使得CO2的質(zhì)子化過(guò)程緩慢(CO2+ H++ e-→COOH*). 當(dāng)CO* 達(dá)到合適的吸附能時(shí), CO2RR 的催化性能達(dá)到了火山口(最佳), 但無(wú)法進(jìn)一步提高. 因此, 超越火山口的催化性能并打破這種關(guān)系成為研究人員關(guān)注的熱點(diǎn).
高熵合金中多元素的協(xié)同作用產(chǎn)生了不同范圍的吸附位點(diǎn), 在不施加外力或引入復(fù)雜界面結(jié)構(gòu)的情況下提供了規(guī)避催化中耦合關(guān)系的機(jī)會(huì). Chen 等[56]采用DFT 方法探索了Fe-CoNiCuMo 的高熵合金體系用于電催化CO2RR. 該團(tuán)隊(duì)首先采用Fe0.2Co0.2Ni0.2Cu0.2Mo0.2最穩(wěn)定的表面(111) 作為CO2RR 的活性表面; 然后, 使用神經(jīng)進(jìn)化結(jié)構(gòu)(neuro evolutionary structure, NES) 方法生成了200 個(gè)FeCoNiCuMo (111) 結(jié)構(gòu), 并在這些生成的結(jié)構(gòu)中, 選擇了20 個(gè)結(jié)構(gòu)來(lái)計(jì)算CO2RR 過(guò)程中一些重要中間體的吸附. 由于CO2和CO 的高穩(wěn)定性, 故在CO2RR 過(guò)程中CO2或CO 的活化通常是潛在的電勢(shì)限制步驟(potential limiting step,PLS). 因此, 該團(tuán)隊(duì)考慮了CO2(CO2+H++e-→COOH*) 和CO(CO*+H++e-→CHO*)的質(zhì)子化反應(yīng), 計(jì)算1 280 個(gè)吸附位點(diǎn)對(duì)COOH*、CO* 和CHO* 的吸附能. 為了確定高熵合金活性中心的標(biāo)度關(guān)系如何消失, 同時(shí)計(jì)算了活性中心的電子結(jié)構(gòu), 并在此基礎(chǔ)上建立了高精度的神經(jīng)網(wǎng)絡(luò)(neural network, NN) 模型來(lái)預(yù)測(cè)相應(yīng)的吸附能(見(jiàn)圖10(a)~(e)). 在CO2RR過(guò)程中存在2 個(gè)旋轉(zhuǎn)區(qū)域, 分別是COOH* 和CHO* 旋轉(zhuǎn), 克服0.74 和0.17 eV 2 個(gè)能壘(見(jiàn)圖10(f)~(h)). 這些能壘表明COOH* 和CHO* 的旋轉(zhuǎn)過(guò)程在室溫下會(huì)快速發(fā)生, 說(shuō)明COOH* 和CHO 的旋轉(zhuǎn)是打破耦合關(guān)系、加快電化學(xué)過(guò)程的關(guān)鍵. 這也表明, 提高反應(yīng)溫度將進(jìn)一步提高電催化CO2RR 的效率, 這可能為熱催化和電催化的結(jié)合打開(kāi)了一條新的思路.
圖10 機(jī)器學(xué)習(xí)驅(qū)動(dòng)的CO2RR 催化劑的發(fā)現(xiàn)Fig.10 Machine learning-driven discovery of HEA electrocatalysts toward CO2RR
目前, 機(jī)器學(xué)習(xí)在高熵合金電催化劑領(lǐng)域除了上述應(yīng)用外, 在其他電催化反應(yīng)中也逐漸引起人們關(guān)注. 例如, Wang 等[88]開(kāi)發(fā)了一類(lèi)結(jié)構(gòu)有序的新型PtRhFeNiCu HEAs, 將其作為乙醇氧化反應(yīng)的電催化劑; Feng 等[89]通過(guò)可擴(kuò)展的合成策略合成了平均直徑為1.68 nm 的超小高熵合金納米顆粒, 在0.5 M H2SO4溶液中,-0.05 V (vs. 可逆氫電極(reversible hydrogen electrode, RHE)) 下獲得了28.3 A·mg-1的超高質(zhì)量活性. 目前, 由于電催化材料具有多樣性,還沒(méi)有形成統(tǒng)一的選擇方法, 并且單一描述符無(wú)法描述整個(gè)電催化性能, 因此通常將這些描述符相互組合并進(jìn)行綜合應(yīng)用, 以獲得電催化劑的卓越性能. 原子半徑、原子序數(shù)、配位數(shù)等幾何描述符, d 帶中心及相關(guān)性質(zhì)、價(jià)電子等電子描述符, 以及吸附能、電負(fù)性、電子親和、電離能等描述符是目前比較常用的描述符. 這些描述符的組合對(duì)于開(kāi)發(fā)高效的機(jī)器學(xué)習(xí)應(yīng)用程序至關(guān)重要. 總的來(lái)說(shuō), 這些工作表明機(jī)器學(xué)習(xí)模型在加速電催化劑設(shè)計(jì)方面具有較強(qiáng)的競(jìng)爭(zhēng)力, 具有不錯(cuò)的預(yù)測(cè)精度, 機(jī)器學(xué)習(xí)將促進(jìn)高熵材料在催化劑領(lǐng)域的快速發(fā)展.
機(jī)器學(xué)習(xí)及其組合方法已經(jīng)成功地應(yīng)用于電催化劑設(shè)計(jì), 成為一種用于發(fā)現(xiàn)新的電催化劑的強(qiáng)大工具, 同時(shí)從現(xiàn)有數(shù)據(jù)集中提取知識(shí). 然而, 利用機(jī)器學(xué)習(xí)設(shè)計(jì)新型電催化劑的挑戰(zhàn)依然存在.
首先, 機(jī)器學(xué)習(xí)應(yīng)用程序的標(biāo)準(zhǔn)數(shù)據(jù)集的缺乏限制了其更廣泛的適用性. 盡管快速發(fā)展的大數(shù)據(jù)挖掘技術(shù)有望從大型數(shù)據(jù)池中提取有用的信息和知識(shí), 但數(shù)據(jù)的多樣性限制了其使用范圍. 目前, 電催化劑的發(fā)現(xiàn)和優(yōu)化主要依靠經(jīng)驗(yàn), 還沒(méi)有足夠精煉的相關(guān)信息來(lái)指導(dǎo)機(jī)器學(xué)習(xí)工作. 盡管機(jī)器學(xué)習(xí)在許多與電催化相關(guān)的應(yīng)用中取得了成功, 但其引導(dǎo)的催化劑設(shè)計(jì)仍處于初級(jí)階段.
其次, 如何有效地從機(jī)器學(xué)習(xí)中提取物理化學(xué)性質(zhì)也是一個(gè)巨大的挑戰(zhàn). 通常, 機(jī)器學(xué)習(xí)方法不包含決定屬性的物理定律, 這導(dǎo)致模型內(nèi)不確定的誤差傳播. 不同機(jī)器學(xué)習(xí)模型的交叉驗(yàn)證可以幫助減少這種不確定性. 然而, 這種交叉驗(yàn)證方案需要一個(gè)代表整個(gè)化學(xué)體系的樣本進(jìn)行探索, 這是非常困難的, 因此代表性樣本至關(guān)重要. 此外, 計(jì)算數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)的相互驗(yàn)證也是保證物理性質(zhì)正確獲取的潛在方法. 由于模型尺寸和模擬范圍的限制, 計(jì)算數(shù)據(jù)通常比較簡(jiǎn)化, 故復(fù)雜的反應(yīng)條件使得實(shí)驗(yàn)數(shù)據(jù)往往隱含疊加規(guī)律. 理論和實(shí)驗(yàn)數(shù)據(jù)的整合對(duì)電催化劑的物理性質(zhì)的認(rèn)識(shí)和未來(lái)電催化劑的發(fā)展具有重要的指導(dǎo)意義.
最后, 電催化通常發(fā)生在固液界面, 機(jī)器學(xué)習(xí)對(duì)電催化真實(shí)環(huán)境的模擬非常有限. 除了催化材料外, 還有溶液、電解質(zhì)和施加的電壓參與反應(yīng). 因此, 溶劑化效應(yīng)、電解液效應(yīng)和外加電壓引起的電催化劑極化效應(yīng)、雙電層的形成等都是需要考慮的關(guān)鍵因素. 許多因素的疊加使得反應(yīng)體系特別復(fù)雜, 故對(duì)固液界面的理解仍然非常有限, 且因?qū)嶒?yàn)的限制, 還缺乏基于實(shí)驗(yàn)觀察在分子水平上的認(rèn)識(shí). 將數(shù)據(jù)科學(xué)與理論和實(shí)驗(yàn)方法相結(jié)合, 可能會(huì)產(chǎn)生發(fā)現(xiàn)電催化劑的新方法. 為了增加材料數(shù)據(jù)的數(shù)量, 研究人員應(yīng)該從高通量計(jì)算中獲得理論指標(biāo), 以便產(chǎn)生智能方法. 總的來(lái)說(shuō), 基于實(shí)驗(yàn)值, 通過(guò)機(jī)器學(xué)習(xí)設(shè)計(jì)電催化劑仍處于初級(jí)階段. 在未來(lái), 如果實(shí)驗(yàn)值可以方便地通過(guò)數(shù)據(jù)庫(kù)檢索到, 且在每次實(shí)驗(yàn)之前使用機(jī)器學(xué)習(xí)建模, 則將大大節(jié)省實(shí)驗(yàn)的時(shí)間和費(fèi)用.
本工作綜述了機(jī)器學(xué)習(xí)與高熵催化材料的概念以及機(jī)器學(xué)習(xí)在電催化劑設(shè)計(jì)中的應(yīng)用,詳細(xì)分析了機(jī)器學(xué)習(xí)在電催化領(lǐng)域的應(yīng)用. 機(jī)器學(xué)習(xí)是探索非貴金屬或低載量貴金屬催化劑的有效工具, 為HER、OER、ORR 和CO2RR 等反應(yīng)的高熵電催化劑設(shè)計(jì)提供了一種高效的新方法. 然而, 標(biāo)準(zhǔn)數(shù)據(jù)集、標(biāo)準(zhǔn)方法和系統(tǒng)指導(dǎo)的缺乏, 限制了其適用性范圍, 挑戰(zhàn)仍然存在. 此外, 電催化輸入描述符缺乏詳細(xì)的指導(dǎo), 使其應(yīng)用遇到了障礙. 隨著現(xiàn)代數(shù)據(jù)科學(xué)的發(fā)展, 機(jī)器學(xué)習(xí)無(wú)疑將在輔助設(shè)計(jì)中發(fā)揮越來(lái)越大的作用.