袁睿豪,廖瑋杰,唐 斌,樊江昆,王 軍,寇宏超,李金山
(西北工業(yè)大學凝固技術(shù)國家重點實驗室,西安 710072)
航空發(fā)動機是現(xiàn)代工業(yè)技術(shù)的明珠,航空發(fā)動機材料是高性能航空發(fā)動機的基礎。伴隨著航空發(fā)動機的發(fā)展,其主要部件所采用的材料也在不斷地更新?lián)Q代。例如,從早期一、二代發(fā)動機主要使用金屬結(jié)構(gòu)材料如高溫合金,到第四代發(fā)動機中復合材料的引入[1]。近年來,新一代航空發(fā)動機對推重比、壓氣機增壓比、渦輪前入口溫度等性能指標提出了更高的要求。因此,設計和開發(fā)新型的航空發(fā)動機材料,滿足在更高溫度、更高壓力、更高速度等極端環(huán)境下的長期服役要求,具有重要的理論意義和工程應用價值[2]。但是,復雜的成分構(gòu)成和加工工藝使得航空發(fā)動機材料的設計和開發(fā)耗時較久,成本較高。以傳統(tǒng)的高溫合金為例,多種合金元素可用于合金化,導致了巨大的未知成分空間;另一方面,為了優(yōu)化合金的微觀組織結(jié)構(gòu),需要同時調(diào)控熱處理溫度、時間、變形量等多種加工工藝參數(shù),產(chǎn)生了巨大的未知工藝參數(shù)空間[3]。針對這些問題,傳統(tǒng)的材料研發(fā)方法如試錯法和經(jīng)驗法難以實現(xiàn)材料的快速篩選、設計和開發(fā),亟須發(fā)展新的研究手段,提升航空發(fā)動機材料的研發(fā)效率。
材料基因工程是近年來新興的材料研發(fā)新范式,通過融合高通量試驗、計算和大數(shù)據(jù)技術(shù),實現(xiàn)材料研發(fā)時間和成本的同時減半[4]。其中,基于高通量試驗和計算產(chǎn)生的數(shù)據(jù),利用大數(shù)據(jù)技術(shù),挖掘材料數(shù)據(jù)中潛在的模式或者物理規(guī)律,加速新材料的設計與開發(fā),是近幾年來的研究熱點。與傳統(tǒng)的計算和理論模擬不同,數(shù)據(jù)技術(shù)如機器學習等僅需要從數(shù)據(jù)出發(fā),構(gòu)建成分、工藝、組織等和目標性能之間的映射關(guān)系,實現(xiàn)對所需性能的正向預測,或者基于構(gòu)建的預測模型,逆向指導最佳成分或工藝參數(shù)的選擇[5]。這一研究方法在一定程度上避免了理論模型難以處理復雜材料體系的難題,例如,相圖計算方法需要大量的熱力學數(shù)據(jù),對于多元體系的計算精度難以保證;第一性原理計算能夠保證計算精度,但是計算規(guī)模通常是幾百個原子,限制了在復雜多元體系中的應用[6]。值得注意的是,基于機器學習的材料開發(fā)是從數(shù)據(jù)出發(fā)的,意味著這一研究方法不受限于特定尺度,可以實現(xiàn)微觀、介觀、宏觀的多尺度建模。
最近,數(shù)據(jù)驅(qū)動的研究思路也逐漸被用于航空發(fā)動機材料的研究中,以提升材料的研發(fā)效率,預測極端條件下的服役性能等。本論文主要從以下3 個角度進行討論:首先,以最近廣泛應用的主動學習為例,詳細討論如何進行數(shù)據(jù)庫構(gòu)建、機器學習建模和模型評估、優(yōu)化算法指導材料選擇以及試驗或計算的驗證;其次,以航空發(fā)動機材料,即高溫合金、鈦合金、復合材料、熱障涂層為例,介紹了機器學習在其中的具體應用;最后,對機器學習在材料中的應用進行總結(jié),針對航空發(fā)動機服役環(huán)境的復雜性,討論了機器學習在航空發(fā)動機材料的研究中所面臨的難題,并提出了可能的解決思路。
目前,基于機器學習的數(shù)據(jù)驅(qū)動材料研究主要集中于以下3 個方面: (1)通過構(gòu)建成分、組織、結(jié)構(gòu)與性質(zhì)、性能之間的定量預測模型,加速新材料的開發(fā); (2)基于大量的數(shù)據(jù),提取潛在的規(guī)律,獲得新的物理知識; (3)通過融合已有的成熟理論模型,進一步加速數(shù)據(jù)模型的性能優(yōu)化效率。例如,通過直接構(gòu)建高溫合金成分與γ′相溶解溫度的數(shù)據(jù)模型,實現(xiàn)對具有高γ′相溶解溫度合金成分的快速篩選[7];構(gòu)建材料的描述符,通過特征工程,確定影響材料性能的關(guān)鍵基因,指導新材料的設計[8];通過將已有的理論與數(shù)據(jù)模型結(jié)合,對未知材料空間進行預先篩選,實現(xiàn)高性能鐵電材料的快速開發(fā)等[9]。其中,基于主動學習的材料開發(fā)策略在不同的材料體系中均獲得了成功[10]。因此,本文將以主動學習為例,簡要介紹數(shù)據(jù)驅(qū)動材料設計的思路和關(guān)鍵步驟,主要包括以下5 個部分:材料數(shù)據(jù)庫的特點及構(gòu)建;材料描述符的構(gòu)建及篩選;機器學習模型的構(gòu)建和評估;優(yōu)化試驗設計;試驗/計算驗證及反饋。
與傳統(tǒng)的基于機器學習的材料設計思路相比,主動學習包括優(yōu)化試驗設計和數(shù)據(jù)反饋環(huán)節(jié),這一環(huán)節(jié)能夠在迭代的過程中快速提升機器學習模型的性能,進而加快材料研發(fā)效率。如圖1 所示[10],首先,基于文獻或?qū)嶒炇依塾嫈?shù)據(jù),構(gòu)建所需的數(shù)據(jù)庫,并利用數(shù)據(jù)算法,對數(shù)據(jù)進行清洗、降維等處理,以滿足后續(xù)機器學習建模的需求;其次,根據(jù)對所研究材料的理解,構(gòu)建材料描述符,增強后續(xù)機器學習模型的預測能力;再次,不同的機器學習算法均能夠用于數(shù)據(jù)模型的構(gòu)建,因此,需要利用標準誤差等判據(jù)對數(shù)據(jù)模型的性能進行評估;相對于未知數(shù)據(jù),已有數(shù)據(jù)體量通常較小,導致預測過程存在不確定性,基于預測值和伴隨的不確定性,結(jié)合優(yōu)化算法推薦最具期望的新材料進行驗證;最后,基于算法的推薦,進行樣品的制備、測試與表征(或者第一性原理計算),并將數(shù)據(jù)反饋到初始數(shù)據(jù)集,進行下一輪迭代,直至找到滿足要求的目標材料[10]。在主動學習中,迭代停止準則可以基于以下3 個方面考慮:材料已經(jīng)滿足目標性能;優(yōu)化算法的提升指標已經(jīng)收斂;預算難以滿足更多次迭代。
圖1 基于主動學習的材料設計 Fig.1 Materials design based on active learning
高質(zhì)量的數(shù)據(jù)庫是保證數(shù)據(jù)模型的預測精度和外推能力的基礎。對于主動學習,數(shù)據(jù)庫需要包括輸入變量和輸出變量,輸入數(shù)據(jù)通常包括材料的元素含量、種類、晶體結(jié)構(gòu)、加工工藝、微觀結(jié)構(gòu)等,輸出數(shù)據(jù)包括材料的目標屬性如力學性能、物理性能、化學性能等。在實際應用中,難以快速獲得高質(zhì)量的試驗數(shù)據(jù)和理論模擬數(shù)據(jù),需要借助文獻中已經(jīng)發(fā)表的數(shù)據(jù)或者已開放的數(shù)據(jù)庫。對于文獻數(shù)據(jù),可以采用文本挖掘結(jié)合自然語言處理實現(xiàn)對數(shù)據(jù)的快速提取[11–12]。另外,目前存在多個開源數(shù)據(jù)庫,例如Materials Project[13]、AFLOW[14]以及無機晶體結(jié)構(gòu)數(shù)據(jù)庫(ICSD)[15]等,包含數(shù)十萬條數(shù)據(jù),能夠為模型提供大量的數(shù)據(jù)進行訓練。值得注意的是,由于試驗條件或者操作方式不一致,文獻中的數(shù)據(jù)可能存在較大的不確定性,即對同種材料同種工藝,可能會產(chǎn)生偏差很大的結(jié)果,這需要在使用過程中仔細甄別。同時,已有的開源數(shù)據(jù)庫通?;诶碚撃M計算,和試驗測試數(shù)據(jù)之間不可避免地存在偏差,如何將理論模擬數(shù)據(jù)用于指導試驗設計,需要研究人員進行合理的考量。基于文獻或者開源數(shù)據(jù)庫建立的數(shù)據(jù)集,可能存在數(shù)據(jù)缺失或者重復的問題,可以利用機器學習算法對數(shù)據(jù)進行清洗、補全等處理,保證后續(xù)高性能機器學習模型的建立。
材料描述符需要具有以下性質(zhì):相對于目標性能更容易獲得、維度適中、具有可解釋性。優(yōu)異的描述符在提升數(shù)據(jù)模型性能的同時,能夠增強模型的可解釋性。材料描述符的構(gòu)建可以采用手動和自動兩種方式。前者通常包括以下3 類: (1)材料的物理特性如原子半徑、電負性等; (2)材料晶體結(jié)構(gòu)的坐標等; (3)對結(jié)構(gòu)或者成分的二進制編碼表示(One–hot)[7,16–17]。后者可以采用神經(jīng)網(wǎng)絡模型等對已有數(shù)據(jù)如組織結(jié)構(gòu)圖片進行建模,提取能夠代表圖片信息的關(guān)鍵潛在變量,即描述符,進行圖片的重構(gòu)和后續(xù)優(yōu)化[18–19]。由于描述符的數(shù)值在數(shù)量級上會存在較大差別,可能導致模型偏向于某一特定描述符。因此,在建立數(shù)據(jù)模型之前,通常需要對描述符進行歸一化處理,即將描述符映射到某一特定數(shù)值區(qū)間內(nèi),常用的歸一化公式有:
分別可以將數(shù)據(jù)映射到[0,1]和[–1,1]區(qū)間,其中xmax和xmin分別表示某一描述符數(shù)據(jù)的最大值和最小值;x-為該描述符數(shù)據(jù)的均值[20]。
描述符維度過高一方面會降低模型的訓練效率,另一方面,不同描述符可能代表著類似的信息。為此,需要對描述符進行預先篩選,提取與目標性能最相關(guān)的描述符。評估描述符本身與目標性能之間的相關(guān)性的算法有多種,如皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCC),這一算法可以表征兩個變量之間的線性相關(guān)性,但對于一些非線性的關(guān)系則難以捕捉[21];最大互信息系數(shù)(Maximal information coefficient,MIC)能夠評估描述符間的復雜函數(shù)關(guān)系,如拋物線、三角函數(shù)等非線性關(guān)系。常用的描述符相關(guān)性表征算法和特點如表1 所示[22]。除了相關(guān)性分析,還有重要性排序算法如Lasso、隨機森林、決策樹等,能夠根據(jù)描述符對目標性能的影響程度進行重要性排序[27–28]。經(jīng)過篩選的描述符,可以進一步通過最佳子集選擇、遺傳算法等,確定最佳的描述符組合。
表1 相關(guān)性算法與特性Table 1 Correlation algorithms and characteristics
基于構(gòu)建的數(shù)據(jù)庫,可以用多種機器學習算法訓練代理模型,例如,線性模型、多項式模型、支持向量機、神經(jīng)網(wǎng)絡等。線性模型和多項式模型是基于最小二乘法,通過將均方誤差最小化確定模型的參數(shù)。這一算法形式簡單、容易解釋,但效果通常難以滿足要求。對于具有復雜模式的數(shù)據(jù),需要更加復雜的算法如支持向量機和神經(jīng)網(wǎng)絡等。支持向量機在處理小數(shù)據(jù)量問題時展現(xiàn)了優(yōu)異的性能,基本思想是利用核函數(shù)將數(shù)據(jù)映射到更高維度的空間,通過最大化不同類之間的超平面,實現(xiàn)分類效果,如圖2 所示,其中少數(shù)支持向量決定了最終結(jié)果,這使得該模型不僅算法簡單,而且可以抓住關(guān)鍵樣本,去除冗余樣本對分類的影響[29]。但是,支持向量機算法在應對大規(guī)模樣本時會耗費大量的機器內(nèi)存和運算時間從而難以實施,對于多分類問題也需要結(jié)合其他算法或組合多個二分類支持向量機解決。神經(jīng)網(wǎng)絡模型理論上可以映射任何復雜的非線性關(guān)系,但一般需要很多數(shù)據(jù)訓練模型,同時,過多的超參數(shù)使得模型訓練耗時長、成本高,并且模型通常難以解釋。
圖2 支持向量機算法的二維平面表示Fig.2 Two-dimensional plane representation of support vector machine algorithm
在數(shù)據(jù)模型構(gòu)建之后,為了避免過擬合和欠擬合,需要對模型性能進行評估。通常采用交叉驗證的方法,將初始數(shù)據(jù)集劃分為訓練集和測試集,計算模型的誤差或者精度。例如十折交叉驗證是將訓練數(shù)據(jù)集等分為10 個子集,每次選用其中9 個子集作為訓練集訓練模型,剩余的一個子集用作測試集測試模型性能,依次迭代10 次,直至每個子集都曾被用作測試集。由于十折交叉驗證利用訓練集的子集進行了測試驗證,因此能夠避免預測模型的過擬合,更可靠地評估模型的泛化能力。對于分類模型,常用的性能評估指標有準確率、錯誤率、ROC 曲線等。對于回歸模型,常用的指標有平均絕對誤差(Mean absolute error,MAE)、均方誤差(Mean squared error,MSE)、決定系數(shù)(R2)等,表達式分別如下:
式中,yi表示目標性能的實際值;表示實際值的均值;表示模型的預測值;N為數(shù)據(jù)集材料的個數(shù)。
未知材料空間巨大,無法對所有候選材料組分或者工藝參數(shù)進行驗證。因此,需要借助優(yōu)化算法,推薦最有可能提升材料性能的成分或者工藝參數(shù)組合,最大程度減少試驗驗證的次數(shù)[10]。常用的優(yōu)化算法基于以下兩種策略的平衡,即探索(Exploration)和開發(fā)(Exploitation)。探索的策略主要考慮選取未知材料分布中預測值不確定性最大的成分點,反饋到初始數(shù)據(jù)集,最大程度矯正數(shù)據(jù)模型對預測不準確的數(shù)據(jù)點的評估,但是,所推薦成分的性能通常難以滿足要求。開發(fā)的策略基于對未知材料的預測,直接選擇具有最大預測值的材料進行試驗驗證,雖然能夠發(fā)現(xiàn)高性能材料,但可能會限于局部極值。因此,需要能夠同時平衡開發(fā)和探索的策略,即全局優(yōu)化算法(Efficient global optimization),可 以同時考慮預測值和伴隨的不確定性,在保證推薦高性能材料的同時,能夠跳出局部極值,最終提升新材料的開發(fā)效率。
主動學習中的關(guān)鍵一步便是數(shù)據(jù)的反饋,因此,基于優(yōu)化算法推薦的成分或者工藝,需要進行試驗或者模擬驗證,將數(shù)據(jù)反饋到初始數(shù)據(jù)集,快速提升數(shù)據(jù)模型的性能,提升迭代的效率。目前,所用的驗證方法主要為試驗。但是,對于某些極端條件或者電子尺度的性能,試驗表征難以實現(xiàn),可以選擇理論模擬的手段進行驗證。例如基于密度泛函理論(Density functional theory,DFT)可以計算晶體在0K 下的各種性質(zhì)如彈性模量、帶隙等[30];基于熱力學理論的CALPHAD(Calculation of phase diagram)計算可以模擬和預測材料的相圖[31];分子動力學(MD)和有限元模擬(FEM)可以分別在微觀尺度和介觀尺度上預測材料的相變和力學行為[32–33]。
航空發(fā)動機材料的惡劣服役環(huán)境給材料的研發(fā)帶來了巨大的挑戰(zhàn),新材料從開發(fā)到應用可能要經(jīng)過數(shù)十年的時間。本部分將以典型的航空發(fā)動機材料為例,如高溫合金、鈦基合金、陶瓷基復合材料、熱障涂層等,介紹基于機器學習的數(shù)據(jù)驅(qū)動方法在其中的應用及最新進展。
針對高溫鐵基奧氏體不銹鋼的抗蠕變性能,Shin 等[34]將熱力學計算的高溫下相體積分數(shù)、相元素含量等作為輸入變量建立模型,發(fā)現(xiàn)這些基于熱力學計算的參量對蠕變性能的數(shù)據(jù)模型有較大影響。之后,該團隊結(jié)合熱力學參數(shù)和機器學習預測了9%~12% Cr 鐵素體/馬氏體鋼在不同溫度下的屈服強度,發(fā)現(xiàn)在較低溫度下模型的R2可以達到0.9 以上,但是,隨著溫度升高,模型的準確率迅速下降,這可能是高溫下數(shù)據(jù)缺乏和變形機制的改變所導致的[16]。在機器學習預測鈷基或鎳基高溫合金性能的研究中,Yu 等[7,35]采用合金成分,元素性質(zhì)和時效溫度、時間等熱處理工藝參數(shù)作為描述符,成功預測了高溫合金中γ′相的溶解溫度和體積分數(shù)等;Zou 等[36]采用多重擴散法(Diffusion–multiple approach)獲得了1375 個具有γ/γ′兩相區(qū)的材料成分和γ′相的體積分數(shù),利用建立的數(shù)據(jù)庫,通過隨機森林、深度神經(jīng)網(wǎng)絡等算法構(gòu)建了能夠準確預測高溫合金γ′相體積分數(shù)的機器學習模型。此外,Tamura 等[37]利用機器學習建立了氣體霧化過程參數(shù)與晶粒尺寸的關(guān)系,所得結(jié)果與Lubanska 提出的公式中的趨勢一致,并以此優(yōu)化了Ni–Co 基高溫合金粉末冶金過程的工藝參數(shù)。鎳基高溫合金中拓撲密堆相(TCP)的存在會消耗強化元素并促進裂紋的產(chǎn)生,針對這一問題,Qin 等[38]基于高通量試驗獲得的數(shù)據(jù)庫,以合金成分和元素的混合熵、價電子濃度等物理參數(shù)為描述符,利用機器學習預測了合金中拓撲密堆相的存在,可以指導合金成分的快速篩選。上述利用材料微觀結(jié)構(gòu)的研究都采用了人工識別的方法,而在另外一項研究中,Khatavkar 等[18]利用圖像識別技術(shù)提取材料微觀結(jié)構(gòu)信息作為描述符,如圖3 所示[18]。首先將CMSX–6 和DZ125 兩種鎳基高溫合金的原始掃描電鏡圖像(圖3(a)和(d))進行閥值處理,產(chǎn)生只有黑白兩種顏色的圖像,如圖3(b)和(e)所示;之后通過圖像識別技術(shù)提取圖片信息如圖3(c)和(f)所示,作者將這種描述符用于機器學習并實現(xiàn)了對鎳基高溫合金硬度的精確預測。
圖3 通過圖像識別技術(shù)得到鎳基高溫合金微觀結(jié)構(gòu)信息Fig.3 Microstructure information of Ni-based superalloys obtained through image recognition technology
人工神經(jīng)網(wǎng)絡等機器學習技術(shù)已廣泛應用于鈦基材料的研究中,如對Ti–6Al–4V 合金的流動應力[39]、微觀組織演化[40]、機械性能[41]與工藝參數(shù)[42]的預測等。Arisoy 等[43]利用隨機森林模型研究了切削速度、刀具幾何形狀等工藝參數(shù)對合金顯微組織和性能的影響,并通過遺傳算法,根據(jù)所需的組織和硬度選擇合適的加工工藝。Harsha 等[44]利用神經(jīng)網(wǎng)絡算法研究了切削速度、給進量、切削時間等輸入?yún)?shù)與刀具磨損、鈦合金表面粗糙度等輸出響應之間的關(guān)系。另外,有研究通過機器學習預測了Ti–6Al–4V 合金切削過程中的無顫振加工條件,并提高了工件表面的質(zhì)量和刀具壽命[45]。對于其他的鈦基合金,有學者利用神經(jīng)網(wǎng)絡模型,預測了納米B4C 粒子增強型Ti–6Al–4V 合金磨損性能[46];根據(jù)鈦合金成分和熱處理溫度預測合金中的α 相和β 相的體積分數(shù)[47];建立了Ti–2Al–9.2Mo–2Fe 合金應變量、應變率、溫度和流變應力之間的預測模型,優(yōu)化了熱加工條件[48];以鈦合金相組成、氧化溫度、氧化時間、氧氣和水蒸氣含量作為描述符,通過梯度提升樹、隨機森林和k–近鄰3 種機器學習模型預測合金高溫氧化的拋物線速率常數(shù),其中梯度提升樹模型的R2可以達到0.92,這是一種基于梯度下降法和決策樹的集成算法,泛化能力較強,可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值[49];基于擴散復合技術(shù)產(chǎn)生的多組分變化數(shù)據(jù)庫,通過BP 神經(jīng)網(wǎng)絡建立了新型鈦合金(Ti–3Al–2Nb–1.2V–1Zr–1Sn–xCr–yMo)的成分–顯微組織–性能之間的模型,并成功設計出性能優(yōu)異的鈦合金[50]。
復合材料因其優(yōu)異的耐高溫、抗氧化、高比強度、抗蠕變等性能,是新一代航空發(fā)動機備受青睞的新型材料,包括陶瓷基復合材料、碳/碳復合材料、金屬基復合材料等[51]。神經(jīng)網(wǎng)絡模型常應用于復合材料性能和行為的預測,如圖4 所示[52],Pramod等[52]建立了預測Al2O3顆粒增強Al2075 復合材料磨損性能的人工神經(jīng)網(wǎng)絡模型,以密度、施加載荷、滑動距離和顆粒的質(zhì)量分數(shù)作為描述符預測表面磨損高度,其中隱藏層的作用是把輸入數(shù)據(jù)的特征抽象到另一個維度空間,使得更抽象化的特征能夠更好地映射模型輸出。SiCf– BN/SiC 復合材料中的纖維分布和基體形成層狀結(jié)構(gòu),這種結(jié)構(gòu)使得合金的陶瓷基體在橫向載荷下產(chǎn)生的連續(xù)性受損成為引發(fā)失效事件的關(guān)鍵因素。針對這一現(xiàn)象,Patel 等[53]通過神經(jīng)網(wǎng)絡模型量化連續(xù)纖維增強陶瓷基復合材料在相關(guān)尺度下的損傷,預測出最能抵抗基體損傷的纖維微結(jié)構(gòu)。Canakci 等[54]以時效溫度、時間等熱處理工藝參數(shù)、B4C 增強顆粒的尺寸和體積分數(shù)作為輸入,硬度、抗拉強度、屈服強度和彈性模量作為輸出,建立了預測Al–Cu–Mg 基復合材料性能的神經(jīng)網(wǎng)絡模型(錯誤率僅有2%),發(fā)現(xiàn)熱處理工藝很大程度上決定了材料性能。隨著復合材料制造技術(shù)的提升,分級、多孔、多維等復雜結(jié)構(gòu)大大擴展了復合材料的設計空間,也使得結(jié)構(gòu)優(yōu)化變得至關(guān)重要,機器學習正是一種選擇最佳結(jié)構(gòu)的有效手段,從而發(fā)揮復合材料的最大潛力。
圖4 神經(jīng)網(wǎng)絡模型預測復合材料的磨損性能Fig.4 Neural network model used to predict the wear performance of composite materials
晶格熱導率決定了非金屬材料的導熱能力,是設計熱障涂層的重要參數(shù)。Chen 等[55]通過基于隨機森林的特征選擇建立了高斯回歸模型預測晶格熱導率,在19 個樣本的測試集里達到0.93(R2)的準確性,但由于數(shù)據(jù)集較小,存在過擬合的風險。為了提高泛化能力,Juneja 等[56]結(jié)合通過高通量計算得到的描述符,利用包含2162 種材料的數(shù)據(jù)集進行機器學習,得到了高魯棒性的預測模型,實現(xiàn)了對晶格熱導率的準確預測。Loftis 等[57]關(guān)注了符號回歸、多層感知器的深度神經(jīng)網(wǎng)絡、隨機森林回歸3 種模型在347 個樣本的數(shù)據(jù)集上對晶格熱導率的預測能力和不同特點,隨機森林通過集成學習降低了過擬合的風險;多層感知器的深度神經(jīng)網(wǎng)絡能夠從數(shù)據(jù)集中準確發(fā)現(xiàn)非線性關(guān)系;符號回歸雖然計算量大、耗時長,但會產(chǎn)生具有物理意義的公式,圖5 所示為符號回歸得到的公式和預測結(jié)果[57],公式中的符號都為數(shù)據(jù)集中包含的描述符,這對理解描述符的作用和設計具有高晶格熱導率的涂層材料有很大的價值。描述符的數(shù)據(jù)可以來源于各種測量儀器,有學者利用神經(jīng)網(wǎng)絡模型學習紅外成像數(shù)據(jù),模擬熱響應與熱障涂層厚度的關(guān)系[58];通過BP 神經(jīng)網(wǎng)絡優(yōu)化超聲反射系數(shù)譜特征參數(shù),并利用高斯回歸算法預測熱障涂層的孔隙率,其誤差小于5.3%[59];通過多元線性回歸、BP 神經(jīng)網(wǎng)絡、支持向量機3 種模型,結(jié)合涂層的太赫茲光譜特征預測材料的微觀結(jié)構(gòu)(孔隙率、孔隙裂紋比、孔徑等)[60]。數(shù)值型、圖案型、圖表型等不同類型的數(shù)據(jù)都可以通過特征工程轉(zhuǎn)化為可用于機器學習的數(shù)據(jù),從而幫助理解機器學習模型和分析原始數(shù)據(jù)與目標性能的關(guān)系。
圖5 基于符號回歸得到的計算公式與模型的預測結(jié)果Fig.5 Calculation formula and results of model prediction based on symbolic regression
通過機器學習模型預測材料力學性能或斷裂、氧化等失效行為的關(guān)鍵在于尋找合適的描述符,從而提高預測模型的準確性和可解釋性,因此,如何收集和選擇描述符數(shù)據(jù)是材料研究與機器學習結(jié)合的重點之一。對于高溫合金,材料的微觀組織結(jié)構(gòu)是決定其性能的重要因素,但這種信息往往需要研究人員或?qū)<覐牟牧系娘@微圖像中提取,過于依賴科研人員的個人知識與經(jīng)驗。研發(fā)適用于材料科學的計算機圖像識別技術(shù),可以從文獻資料里大量的顯微圖像中快速有效地提取關(guān)鍵信息,甚至得到一些研究人員難以直接觀察到的結(jié)構(gòu)信息。高溫鈦合金常用于航空航天發(fā)動機復雜結(jié)構(gòu)件,對性能要求較高的同時也提高了加工工藝的難度,如何采集各種工藝參數(shù)及其對工件性能或結(jié)構(gòu)變化的響應信息,并將其轉(zhuǎn)化為可用于機器學習的數(shù)據(jù)是應用這一技術(shù)設計工藝參數(shù)的關(guān)鍵。另一方面,鈦合金的組織與性能對熱處理溫度、時間等工藝參數(shù)敏感,例如合金在β 轉(zhuǎn)變溫度以上退火時,晶粒會迅速長大,從而降低材料的力學性能,因此,這要求機器學習模型能夠準確預測材料性能并通過逆向設計推薦合適的參數(shù)。在復合材料領(lǐng)域,機器學習對界面的研究還比較少見,而這一因素對復合材料的物理、化學等性能有重要的影響,界面的結(jié)合狀態(tài)和強度,以及界面的傳遞效應、阻斷效應、不連續(xù)效應等都可以應用機器學習進行研究。降低熱導率是設計熱障涂層的首要目標,目前機器學習的應用只集中于普通材料的晶格熱導率,而忽略了涂層本身的微觀結(jié)構(gòu)和形態(tài)也是影響其導熱能力的重要因素。
本文回顧了機器學習在航空發(fā)動機材料中的應用,主要關(guān)注了基于主動學習的材料開發(fā)和優(yōu)化策略,對主動學習中每一個步驟進行了較為詳細的總結(jié),并系統(tǒng)回顧了機器學習或者數(shù)據(jù)驅(qū)動算法在高溫合金、鈦基合金、復合材料、熱障涂層等方面的應用。雖然目前機器學習正在被越來越多地用于航空發(fā)動機材料研究中,但是依然存在大量的問題,需要用機器學習技術(shù)去解決。例如,目前的方法主要集中于利用機器學習構(gòu)建成分、工藝與性能之間的預測模型,但是基于預測模型進行逆向設計的研究還比較鮮見。同時,航空發(fā)動機材料的組織結(jié)構(gòu)對最終服役性能至關(guān)重要,目前的研究對組織結(jié)構(gòu)的關(guān)注不夠。將圖像識別技術(shù)應用于材料微觀組織結(jié)構(gòu)的量化,并充分利用機器學習逆向設計的優(yōu)勢設計新材料是解決這些問題的關(guān)鍵。值得注意的是,因為航空發(fā)動機材料的服役環(huán)境惡劣,導致服役數(shù)據(jù)難以獲得,即能夠用于訓練機器學習模型的數(shù)據(jù)集有限。這會導致數(shù)據(jù)模型的高度不確定性,如何解決數(shù)據(jù)的缺乏問題,是這一領(lǐng)域面臨的關(guān)鍵問題。這一問題有望通過以下思路解決。
(1)利用遷移學習,從容易獲得的數(shù)據(jù)中挖掘信息,用于較少數(shù)據(jù)的建模,提升模型預測能力;
(2)發(fā)展不確定性評估方法,對基于小數(shù)據(jù)的預測模型進行不確定性估計,有效利用不確定性來推薦候選材料或工藝,減少試驗次數(shù);
(3)有效利用材料科學中存在的大量成熟理論如熱力學和動力學模型,提升數(shù)據(jù)模型性能,縮小待探索的未知材料/參數(shù)空間;
(4)研發(fā)文本挖掘和自然語言處理技術(shù),利用文獻發(fā)表的數(shù)據(jù),擴大樣本數(shù)量。
總之,基于機器學習的材料研發(fā)是一種材料研究的新范式,將加速材料的開發(fā)效率,降低成本。這一新的研究方向結(jié)合了材料科學和數(shù)據(jù)科學、計算機科學、人工智能,是一個多學科交叉的研究領(lǐng)域,需要材料領(lǐng)域與計算機領(lǐng)域的專家相互協(xié)作,進一步推動其快速發(fā)展。