黃夢圓 劉 冰 劉小浩
(江南大學 化學與材料工程學院,江蘇 無錫 214122)
費托合成(Fischer-Tropsch synthesis,FTS)是一種將合成氣(CO和H2)轉化為長鏈烴的過程[1]。該過程使用的催化劑是復雜的多組分體系,但普遍認為金屬是費托合成的活性中心,Ru、Ni、Fe、Co是FTS過程最常用的活性金屬。其中,鈷基催化劑具有活性高、水煤氣變換活性低、長鏈烴選擇性較高且價格低廉[2]等優(yōu)點,引起廣泛關注,工業(yè)上用于低溫FTS。鈷基催化劑產(chǎn)物選擇性的影響因素一直存在爭議,深入探究產(chǎn)物選擇性與鈷基催化劑結構及反應條件之間的關系具有重要意義[3]。
機器學習(Machine learning,ML)方法是人工智能的一個分支,作為橋梁連接過去的數(shù)據(jù)與未來的發(fā)展方向。隨著材料信息學的迅速發(fā)展,大量相關算法被提出與應用[4]。根據(jù)訓練模型是否有標記數(shù)據(jù),ML分為監(jiān)督學習和無監(jiān)督學習。本研究的訓練集與測試集數(shù)據(jù)分布完全相同,沒有缺失值,可以直接使用監(jiān)督學習。監(jiān)督學習因?qū)W習方法不同可進一步分為回歸、分類兩種類型,前者包括線性回歸、支持向量回歸、隨機森林回歸等方法。分類方法輸出值為有限個離散變量,回歸方法輸出值為連續(xù)分布的值。針對本研究的產(chǎn)物選擇性,需要選取回歸方法對連續(xù)分布的數(shù)值進行預測。因此,本研究首先從文獻中提取數(shù)據(jù)并進行預處理,使用不同的回歸算法擬合數(shù)據(jù)模型,最后對模型中的特征進行分析,指導高選擇性催化劑的合成。
圖1 支持向量方法示意圖Fig. 1 Scheme of support vector method
yi(ωTxi+b)≥1,i=1,2,…,m
(1)
隨機森林回歸是以決策樹為基礎學習器構建Bagging集成學習,并添加隨機屬性選擇的訓練過程。隨機森林方法如圖2所示,首先以決策樹為基礎,在基決策樹中隨機選取包含k個屬性的子集,進一步從中選擇最優(yōu)的屬性用于回歸,k的取值即表示隨機性程度,最后通過結合器取多個回歸結果的平均值作為輸出結果。
圖2 隨機森林方法示意圖Fig. 2 Scheme of random forest method
費托反應中,C2~C4與C5+產(chǎn)物的選擇性是衡量催化劑性能的重要標準[5]。在費托反應的各類催化劑中,鈷基催化劑具有活性高、水煤氣變換活性低、長鏈烴選擇性較高且價格低廉等優(yōu)點。因此,本研究聚焦鈷基費托催化劑。通過調(diào)研鈷基費托催化劑相關文獻,篩選以鈷為主活性成分的催化劑[6-21]。本研究分別以C2~C4產(chǎn)物選擇性與C5+產(chǎn)物選擇性作為預測對象,從催化劑組成、催化劑性質(zhì)、催化劑結構、制備處理條件及評價條件五個方面選取對應的特征描述,如表1所示。由于不同文獻的數(shù)據(jù)呈現(xiàn)標準不一,本研究先對提取出的數(shù)據(jù)進行統(tǒng)一的單位換算,進一步對特征數(shù)據(jù)集進行歸一化處理,使所有數(shù)據(jù)在同一尺度上。
表1 鈷基催化劑的特征選取Tab. 1 Features of cobalt-based catalysts
使用不同的機器學習模型對預處理后的數(shù)據(jù)進行擬合分析,以R2值作為擬合度標準,結果如圖3(A)所示。隨機森林回歸模型和支持向量回歸模型具有較高的擬合度,如圖3(B)與(C)所示,實驗及預測的選擇性數(shù)據(jù)基本處于20%以下,數(shù)據(jù)點基本處于對角線位置,這兩種模型計算出的預測值與實驗值一致性較好,擬合度分別為0.984與0.940,因此,隨機森林回歸模型是最優(yōu)的機器學習模型。如圖3(D)、(E)與(F)所示,線性回歸、LASSO回歸與嶺回歸方法擬合度較低,線性回歸方法擬合度在0.75左右,嶺回歸、LASSO方法差異不明顯。
圖3 不同機器學習模型的擬合結果:R2值對比(A),隨機森林回歸(B),支持向量回歸(C), 線性回歸(D), LASSO回歸(E),嶺回歸(F) Fig. 3 Results of different machine learning models: R-squared value(A), Random Forest Regression(B), Support Vector Regression(C), Linear Regression (D), LASSO Regression(E), Ridge Regression(F)
為了進一步探究C2~C4產(chǎn)物選擇性的影響因素,對隨機森林回歸模型的特征重要性進行評估分析。圖4列舉了10種影響最高的特征及其占比,其中Co3O4顆粒直徑占主導地位,反應空速條件與金屬鈷負載量也是重要的影響因素,比表面積與焙燒溫度占比較小,其他因素幾乎沒有影響。
圖4 特征重要性分析Fig. 4 Relative feature importance analysis
上述分析得出了C2~C4產(chǎn)物的影響因素,進一步通過部分依賴圖對比上述因素對C2~C4產(chǎn)物與C5+產(chǎn)物選擇性的影響。使用相同的隨機森林方法對C5+產(chǎn)物選擇性進行機器學習分析(R2值為0.966),以Co3O4顆粒直徑或反應空速為變量,對預測值進行分析。由圖5(A)、(B)對比可知,較小的Co3O4顆粒直徑有益于C2~C4選擇性,較大的Co3O4顆粒直徑有益于C5+選擇性,直徑增大到約8 nm之后對產(chǎn)物選擇性幾乎沒有影響。由圖6(A)、(B)對比可知,較低的空速有益于C2~C4選擇性,較高空速有益于C5+選擇性,空速增大到約4 L·gcat-1·h-1之后對產(chǎn)物選擇性影響較小。
圖5 Co3O4顆粒直徑對C2~C4選擇性的影響(A)、對C5+選擇性的影響(B)Fig. 5 Effect of Co3O4 diameter on the selectivity:C2-C4(A), C5+(B)
圖6 反應空速對選擇性的影響: C2~C4(A)、C5+(B)Fig. 6 Effect of GHSV on the selectivity: C2-C4(A), C5+(B)