姚煜胡濤付建勛胡順波
(1.上海大學(xué)計算機(jī)工程與科學(xué)學(xué)院,上海200444;2.上海大學(xué)材料科學(xué)與工程學(xué)院先進(jìn)凝固技術(shù)中心省部共建高品質(zhì)特殊鋼冶金與制備國家重點(diǎn)實(shí)驗(yàn)室,上海200444;3.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444;4.之江實(shí)驗(yàn)室,浙江杭州311100)
新材料是國民經(jīng)濟(jì)的發(fā)展基石,而數(shù)據(jù)驅(qū)動的方法被認(rèn)為是研究新材料的第四范式[1].材料數(shù)據(jù)有著高維度、小樣本、大噪聲等特點(diǎn),而獲得高質(zhì)量的材料數(shù)據(jù)是數(shù)據(jù)驅(qū)動方法的前提.然而,影響材料數(shù)據(jù)質(zhì)量的因素有很多,如制備條件、測試條件等,即使是在同等的實(shí)驗(yàn)條件下,由于其他未知因素以及敏感性不同的缺陷,都會使測試結(jié)果的分散性較大.通常的方法是對同等實(shí)驗(yàn)條件下獲得的測試結(jié)果取算術(shù)平均值,這雖然減少了樣本量,但加劇了小樣本問題,更重要的是忽略了分散的樣本數(shù)據(jù)之間所隱含的信息.
本工作研究的1215MS非調(diào)質(zhì)鋼和三點(diǎn)彎混凝土數(shù)據(jù)集都是典型的小樣本分散數(shù)據(jù)集,這里小樣品的小主要體現(xiàn)在樣品種類特別少,不同種類的樣品經(jīng)過多次性能表征后,形成了大量的數(shù)據(jù).由于測量誤差或者樣品個體差異導(dǎo)致數(shù)據(jù)非常分散,呈現(xiàn)分桶特性(即桶很少,但桶內(nèi)數(shù)據(jù)高度分散).針對這樣的數(shù)據(jù)分布,傳統(tǒng)的機(jī)器學(xué)習(xí)方法很難處理,而有豐富的概率描述特性的高斯過程模型非常適合這類數(shù)據(jù).
高斯過程由于其靈活性和描述函數(shù)估計不確定性的固有能力被廣泛用于監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)等.Hewing等[2]提出了一種模型預(yù)測控制方法,該方法將標(biāo)稱系統(tǒng)與建模為高斯過程的動力學(xué)的加法非線性部分集成在了一起,由于高斯過程回歸模型預(yù)測的殘余不確定性,故可以實(shí)現(xiàn)謹(jǐn)慎控制,在遠(yuǎn)程控制賽車中增加了控制器的安全性能.蔡紅等[3]應(yīng)用多任務(wù)高斯過程回歸模型來加強(qiáng)風(fēng)速數(shù)值預(yù)測,顯著提高了預(yù)測精度,并能同時反映風(fēng)速可能性的變化.Vel′asquez等[4]利用縮小空間高斯過程回歸對2020年的美國新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)傳播進(jìn)行了預(yù)測和評估,結(jié)果發(fā)現(xiàn)使用高斯模型預(yù)測Covid-19,平均場模型可以用于收集流行病傳播的定量圖像,包括感染率、死亡率和康復(fù)率;預(yù)測出了美國部分州在未來幾個月的平均評估和不確定性都會呈上升趨勢.李曉宇等[5]將高斯過程回歸運(yùn)用于計算鋰電池健康壽命的預(yù)測,建立了與非線性回歸相結(jié)合的短期電池退化模型;建立了自回歸長期電池預(yù)測模型,證明其可以有效預(yù)測電池健康狀況.
本工作利用小樣本分散數(shù)據(jù)的特性,將高斯過程回歸模型運(yùn)用到材料數(shù)據(jù)中.首先,對數(shù)據(jù)樣本進(jìn)行貝葉斯先驗(yàn),運(yùn)用核函數(shù)來模擬樣本間的協(xié)方差函數(shù);采用極大似然估計進(jìn)行核函數(shù)的超參數(shù)學(xué)習(xí),獲得數(shù)據(jù)間的相關(guān)性.其次,采用隨機(jī)采樣獲得回歸模型的后驗(yàn)分布圖形,預(yù)測出目標(biāo)函數(shù)的平均值和方差,以計算出的95%置信區(qū)間來評估分散數(shù)據(jù)的不確定性.最后,結(jié)合高斯過程回歸模型的特性,運(yùn)用遺傳算法對材料數(shù)據(jù)進(jìn)行多目標(biāo)優(yōu)化,將材料的力學(xué)性能以及所對應(yīng)的度量不確定性的方差作為需要優(yōu)化的目標(biāo)函數(shù),在考慮最優(yōu)力學(xué)性能的同時兼顧不確定因素對實(shí)驗(yàn)結(jié)果的影響.本工作采用結(jié)合高斯過程回歸和多目標(biāo)優(yōu)化,可為小樣本且分散的材料數(shù)據(jù)集建模,以此作為下次實(shí)驗(yàn)點(diǎn)的推薦,從而輔助材料設(shè)計和制備優(yōu)化.
高斯過程(Gaussian process,GP)是隨機(jī)變量的集合[6],其中任意有限數(shù)量的隨機(jī)變量具有聯(lián)合高斯分布.高斯過程由其均值函數(shù)和協(xié)方差函數(shù)指定,其中均值函數(shù)m(x)和協(xié)方差函數(shù)κ(x,x′)分別為
式中:E為數(shù)學(xué)期望值.
高斯過程中樣本隨機(jī)變量之間存在相關(guān)關(guān)系,這種相關(guān)關(guān)系通過協(xié)方差矩陣Σ來體現(xiàn),各個變量之間的協(xié)方差可以通過高斯過程來模擬.核函數(shù)是高斯過程的核心,決定了高斯過程的性質(zhì)[7].
高斯過程回歸(Gaussian process regression,GPR)[5]是使用高斯過程先驗(yàn)對數(shù)據(jù)進(jìn)行回歸分析的非參數(shù)模型,GPR是基于相似性的機(jī)器學(xué)習(xí)方法,不需要顯式地指定函數(shù)的具體形式,而是假設(shè)其服從某個指定均值函數(shù)和協(xié)方差函數(shù)的高斯過程,函數(shù)的后驗(yàn)分布是通過擬合訓(xùn)練數(shù)據(jù)時自動學(xué)習(xí)得到的,且在似然為正態(tài)分布時該后驗(yàn)具有的解析形式.
在GPR中,通常假設(shè)輸入輸出對(x,y),則對回歸模型為
式中:?~N(0,σ2noise)表示噪聲滿足高斯分布,且假設(shè)f(x)與?相互獨(dú)立.從函數(shù)空間看,GPR取該函數(shù)空間的先驗(yàn)為高斯過程,即高斯過程被看作f(x)的分布:
式中:GP表示為高斯過程;m(x)為x處的期望值,不失一般性,通常假設(shè)均值為0;方差函數(shù)κ(x,x′)刻畫了不同輸入點(diǎn)處(x,x′)對應(yīng)函數(shù)值的關(guān)聯(lián)度.
給定學(xué)習(xí)樣本X={X1,X2,···,XT},Y={Y1,Y2,···,YT},由先驗(yàn)觀測值組成的列向量Y=[y1,y2,···,yn]T,協(xié)方差矩陣為
式中:X=[x1,x2,···,xn]T.Y的先驗(yàn)概率分布為由于噪聲項(xiàng)獨(dú)立且服從高斯分布,故GPR在高斯過程先驗(yàn)和正態(tài)分布似然下求解回歸模型的后驗(yàn),令預(yù)測點(diǎn)為x*,預(yù)測噪聲為f*,則有
寫成緊致形式:
因此,訓(xùn)練數(shù)據(jù)Y和函數(shù)值f*的聯(lián)合正態(tài)分布為
對上述聯(lián)合分布取f*的邊緣分布,由聯(lián)合正態(tài)分布的邊緣分布性質(zhì)可得,GPR的預(yù)測形式為
式中:表示后驗(yàn)均值,
cov(f*)為后驗(yàn)方差,
在GPR模型中,用高斯過程核來模擬協(xié)方差函數(shù),協(xié)方差核函數(shù)均含有超參數(shù).目前GPR大多采用極大似然估計進(jìn)行超參數(shù)學(xué)習(xí).假設(shè)X為觀測數(shù)據(jù)的輸入,y為輸出,θ為所有超參數(shù)組成的向量,包括噪聲的方差σ2noise,根據(jù)貝葉斯原理,可得
式中:P(y|X)=Σ(y|X,θi)P(θi);P(y|X,θ)為邊緣似然函數(shù).對P(y|X,θ)取對數(shù)得到對數(shù)似然函數(shù),即
再對其求導(dǎo)并用共軛梯度法求得概率最大時的θ值,
式中:α=(K+σ2noiseIn)-1y;Tr為矩陣的跡.確定超參數(shù)即確定了核函數(shù)的具體形式.基于訓(xùn)練樣本的高斯過程學(xué)習(xí)實(shí)際上是一個求解協(xié)方差函數(shù)中未知參數(shù)的問題,當(dāng)未知參數(shù)數(shù)量不多時,也可以通過交叉驗(yàn)證等方法[8]求解.在已知觀測數(shù)據(jù)集的輸入與輸出以及預(yù)測樣本的輸入時,可根據(jù)式(10)來估計預(yù)測樣本的輸出.GPR算法流程如圖1所示.
圖1 高斯過程回歸算法流程Fig.1 Flowchart of Gaussian process regression algorithm
1.2.1 數(shù)據(jù)集介紹
非調(diào)質(zhì)鋼是在傳統(tǒng)碳鋼的基礎(chǔ)上加入Nb、V、Ti等微合金化元素,采用控軋(鍛)控冷等強(qiáng)韌化方法,達(dá)到或接近調(diào)質(zhì)鋼力學(xué)性能的一類優(yōu)質(zhì)結(jié)構(gòu)鋼[9].含碲非條質(zhì)鋼(telluriumcontaining non-quenched and tempered steel,TeNQTS)數(shù)據(jù)集由胡濤等[10]通過實(shí)驗(yàn)獲得,是在傳統(tǒng)碳鋼的基礎(chǔ)上加入了碲元素,因?yàn)轫诳捎行Ц纳品钦{(diào)質(zhì)鋼的力學(xué)性能.數(shù)據(jù)集共有26條數(shù)據(jù),每條數(shù)據(jù)包含了非調(diào)質(zhì)鋼中不同碲含量(0、94、230 μg/g)所對應(yīng)的鋼的抗拉強(qiáng)度、斷后伸長率、斷面收縮率和硬度這4項(xiàng)力學(xué)性能.
1.2.2 高斯過程回歸模型
利用現(xiàn)有的3組不同碲含量的數(shù)據(jù)進(jìn)行高斯過程回歸,模型核函數(shù)選擇多項(xiàng)式核函數(shù)(polynomial kernel):
式中:γ、δ為超參數(shù).在給定了學(xué)習(xí)樣本(碲含量與4項(xiàng)力學(xué)性能的關(guān)系)后,由貝葉斯定理求解超參后驗(yàn),得出回歸結(jié)果(見圖2),其中95%置信區(qū)間為
圖2 GPR預(yù)測4項(xiàng)力學(xué)性能的結(jié)果Fig.2 Four mechanical properties prediction by GPR
式中:μ為GPR模型返回的均值;std為模型返回的標(biāo)準(zhǔn)差;n為觀測樣本的數(shù)量;數(shù)值1.96為95%置信水平在標(biāo)準(zhǔn)正態(tài)分布下的取值.
為了驗(yàn)證GPR模型預(yù)測出的均值與95%置信區(qū)間是否可以用來作為實(shí)驗(yàn)點(diǎn)推薦,本實(shí)驗(yàn)選取了碲含量為58 μg/g時進(jìn)行驗(yàn)證,GPR預(yù)測結(jié)果與實(shí)際實(shí)驗(yàn)結(jié)果的對比如表1所示,可視化展示如圖3所示.可以看出,4項(xiàng)性能預(yù)測的平均絕對百分比誤差僅為10.47%.
表1 含碲58 μg/g非調(diào)質(zhì)鋼預(yù)測結(jié)果與實(shí)驗(yàn)結(jié)果比較Table 1 Comparisons between prediction and experimental results of 58 μg/g TeNQTS
圖3中,紅色點(diǎn)表示在同一實(shí)驗(yàn)條件下,多次測量碲含量為58 μg/g非調(diào)質(zhì)鋼樣品時所獲得的力學(xué)性能實(shí)驗(yàn)數(shù)據(jù).實(shí)驗(yàn)結(jié)果表明,對于抗拉強(qiáng)度,有12%的實(shí)驗(yàn)數(shù)據(jù)在回歸曲線的95%置信區(qū)間內(nèi);對于斷后伸長率,有21%的實(shí)驗(yàn)數(shù)據(jù)在回歸曲線的95%置信區(qū)間內(nèi);斷面收縮率有35%的實(shí)驗(yàn)數(shù)據(jù)在回歸曲線的95%置信區(qū)間內(nèi);硬度有73%的實(shí)驗(yàn)數(shù)據(jù)在回歸曲線的95%置信區(qū)間內(nèi).上述結(jié)果說明從數(shù)據(jù)的分散性角度分析,從大到小依次為抗拉強(qiáng)度、斷后伸長率、斷面收縮率以及硬度.
圖3 含碲58 μg/g非調(diào)質(zhì)鋼4項(xiàng)力學(xué)性能GPR預(yù)測與實(shí)驗(yàn)結(jié)果Fig.3 GPR prediction and experimental results of 4 mechanical properties of 58 μg/g TeNQTS
1.3.1 數(shù)據(jù)集介紹
有關(guān)混凝土力學(xué)性能和缺陷的研究主要有缺陷檢測[11-12]、腐蝕預(yù)測[13]、界面屈服強(qiáng)度和塑性強(qiáng)度[14]等.本工作的數(shù)據(jù)集來自文獻(xiàn)[15],共有57條數(shù)據(jù),包含了3種混凝土尺寸(0.40、2.15和5.00 dm)和3種缺口大小(預(yù)切槽長度與樣品尺寸的比值,分別為0、0.075和0.300)下混凝土材料三點(diǎn)彎曲試驗(yàn)對應(yīng)的峰值應(yīng)力.
1.3.2 高斯過程回歸
根據(jù)現(xiàn)有的3組數(shù)據(jù)進(jìn)行高斯過程回歸.模型選擇RBF核函數(shù)(RBF kernel):
式中:σ、l為超參數(shù).給定學(xué)習(xí)樣本(混凝土尺寸與峰值應(yīng)力關(guān)系)以及缺口大小與峰值應(yīng)力關(guān)系,由貝葉斯定理求解超參數(shù)后驗(yàn),同時計算95%置信區(qū)間得到回歸結(jié)果(見圖4).
圖4 混凝土尺寸以及缺口大小對應(yīng)峰值應(yīng)力高斯過程后驗(yàn)分布Fig.4 Gaussian process posterior distribution prediction of concrete size and notch size on peak stress
1.3.3實(shí)驗(yàn)與驗(yàn)證
類似1215MS非調(diào)質(zhì)鋼實(shí)驗(yàn),選取相同歸一化標(biāo)準(zhǔn)化下混凝土尺寸為0.93 dm、缺口大小為0.15的混凝土作為驗(yàn)證,同樣進(jìn)行了3種不同混凝土尺寸下缺口大小為0.15的實(shí)驗(yàn),將實(shí)際實(shí)驗(yàn)數(shù)據(jù)與預(yù)測數(shù)據(jù)進(jìn)行比較,結(jié)果如表2所示.
表2 混泥土三點(diǎn)彎數(shù)據(jù)GPR預(yù)測結(jié)果與實(shí)驗(yàn)結(jié)果比較Table 2 Comparisons between GPR prediction and experiments on concrete 3-point bend data
從表2中統(tǒng)計所有落在預(yù)測區(qū)間的實(shí)驗(yàn)數(shù)據(jù)數(shù)量可以看到,平均有50%的實(shí)驗(yàn)數(shù)據(jù)在GPR模型的預(yù)測區(qū)間內(nèi).從數(shù)據(jù)的分散性來看,在混凝土尺寸為0.93 dm,缺口大小為0.075、0.150和0.300時,模型能較好地預(yù)測置信區(qū)間;而在缺口大小為0(處于邊界值)時,預(yù)測精度會降低,在缺口大小為0.15,混凝土尺寸為0.40、2.15和5.00 dm這3種情況下的預(yù)測結(jié)果都不理想.結(jié)合混凝土尺寸在0.93 dm下的預(yù)測方差可以得出,在GPR模型中,混凝土尺寸數(shù)據(jù)間的相關(guān)性比缺口大小數(shù)據(jù)間的相關(guān)性更強(qiáng),對峰值應(yīng)力的影響更大.因此,在進(jìn)行后續(xù)實(shí)驗(yàn)時可以更多地調(diào)整混凝土尺寸來獲得更好的力學(xué)性能效果.
多目標(biāo)優(yōu)化問題(multi-objective optimization,MOO),是指待優(yōu)化問題有k個目標(biāo)函數(shù)f1,f2,···,fk均需要最優(yōu)化.假設(shè)目標(biāo)函數(shù)fi的最優(yōu)值為f*i,在理想狀態(tài)下最優(yōu)解X*應(yīng)當(dāng)符合
在材料科學(xué)中,可能存在目標(biāo)間的內(nèi)在沖突,即一個目標(biāo)的優(yōu)化是以其他目標(biāo)劣化為代價,因此很難出現(xiàn)唯一最優(yōu)解X*,取而代之的是在目標(biāo)中間做出協(xié)調(diào)和折衷,使總體目標(biāo)盡可能達(dá)到最優(yōu).
針對多目標(biāo)優(yōu)化問題,主要有2種廣泛使用的解決方案[16].
(1)將多目標(biāo)優(yōu)化轉(zhuǎn)化為單目標(biāo)的優(yōu)化問題.常用的方法是線性加權(quán)法,依據(jù)目標(biāo)函數(shù)fk的重要程度,設(shè)定權(quán)重進(jìn)行線性加權(quán),即新的目標(biāo)函數(shù)f′為然而,權(quán)重的設(shè)定往往需要專家領(lǐng)域知識,對最優(yōu)解的結(jié)果影響較大.
(2)不需要轉(zhuǎn)化為單目標(biāo)問題的帕累托模型.優(yōu)化的結(jié)果是在帕累托前沿上取得一個最優(yōu)解的集合,并從中選擇所需要的解來進(jìn)行實(shí)驗(yàn)設(shè)計.帕累托最優(yōu)的核心概念是支配關(guān)系[17],這種關(guān)系是建立在解空間上的偏序關(guān)系,一個解p支配另一個解q當(dāng)且僅當(dāng)p、q滿足如下2個條件:?i∈[1,k],fi(p)≥fi(q)和?i∈[1,k],fi(p)>fi(q),即p在所有目標(biāo)函數(shù)上都不差于q,并且至少在一個目標(biāo)函數(shù)上優(yōu)于q.由此可見,帕累托最優(yōu)解是指沒有被其他任何解支配的解,這樣的解可能有多個,因此帕累托最優(yōu)解實(shí)際上是一個解集.
基于帕累托模型的多目標(biāo)算法有多種,本工作選用帶精英策略的非支配遺傳算法(elitist non-dominated sorting genetic algorithm,NSGA-Ⅱ)[18].該算法的主要思想是①隨機(jī)產(chǎn)生規(guī)模為N的初始種群,非支配排序后通過遺傳算法的選擇、交叉、變異這3個基本操作得到第一代子代種群;②從第二代開始,將父代種群與子代種群合并,進(jìn)行快速非支配排序,同時對每個非支配層中的個體進(jìn)行擁擠度計算,根據(jù)非支配關(guān)系和個體的擁擠度選取合適的個體組成新的父代種群;③通過遺傳算法的基本操作產(chǎn)生新的子代種群;依此類推,直到滿足程序結(jié)束的條件.算法流程如圖5所示.
圖5 帶精英策略的非支配遺傳算法流程圖Fig.5 Flow chart of elitist non-dominated sorting genetic algorithm
該算法的核心部分為2個排序算法:非支配排序和擁擠度排序.非支配排序算法首先在所有解中找到帕累托最優(yōu)解集,這一集合中的解被定義為在非支配排序中順序?yàn)?;然后,在解集中刪除所有排序?yàn)?的解,在剩余的解中重復(fù)上述過程,依次得到非支配排序?yàn)?、3直到n的解.由于在非支配排序中順序相同的解可能有很多,這些解之間也有一定優(yōu)劣關(guān)系.常用的衡量標(biāo)準(zhǔn)是解的分布,多目標(biāo)優(yōu)化得到的是一個解集,如果解都非常近似則選擇空間會很小,這種情況被認(rèn)為是差的;相反,如果解的分布比較廣泛,則認(rèn)為是較優(yōu)的解集.為了量化評價這種選擇空間,算法使用擁擠度排序方法.擁擠度定義為
式中:(x)為同一級帕累托集合中的所有解在目標(biāo)函數(shù)fi上的取值中小于fi(x)的最大值;(x)為所有解在目標(biāo)函數(shù)fi上的取值中大于fi(x)的最小值.因此,擁擠度是一個解在每個目標(biāo)函數(shù)方向上與相鄰2個解的距離平方和,擁擠度越小代表其周圍的解越多,在同一帕累托集合中的優(yōu)先級就越低.
多目標(biāo)優(yōu)化算法在運(yùn)行時需要多次評估目標(biāo)函數(shù)值,自變量會在可行解范圍內(nèi)任意取值,因此必須先對每個目標(biāo)函數(shù)建立預(yù)測模型,以模型代替真實(shí)分布,在優(yōu)化算法運(yùn)行時提供目標(biāo)函數(shù)值的信息.本工作將在1215MS非調(diào)質(zhì)鋼數(shù)據(jù)集上進(jìn)行多目標(biāo)優(yōu)化,數(shù)據(jù)集中的數(shù)據(jù)含有4個力學(xué)性能.在觀察高斯過程回歸結(jié)果中發(fā)現(xiàn),由于斷面收縮率的目標(biāo)函數(shù)在GPR模型上預(yù)測獲得的平均值改變幅度較小,均在10-5級別,對于最后的尋優(yōu)結(jié)果并沒有影響,故可以刪去.選擇抗拉強(qiáng)度、斷后伸長率、硬度這3個力學(xué)性能對應(yīng)3個目標(biāo)函數(shù),優(yōu)化的目標(biāo)是這3個目標(biāo)函數(shù)數(shù)值越大,綜合力學(xué)性能越好.碲含量是待優(yōu)化的自變量.考慮到數(shù)據(jù)集的分桶特性,模型預(yù)測得到的方差即置信區(qū)間也是所需要尋優(yōu)的目標(biāo)函數(shù),即3個力學(xué)性能預(yù)測的方差越小,預(yù)測結(jié)果的不確定性越小,尋優(yōu)目標(biāo)是盡可能減小方差,因此本實(shí)驗(yàn)的多目標(biāo)遺傳算法共有6個目標(biāo)函數(shù),即3個性能和其對應(yīng)的方差.另外,Ishibuchi等[19]已證明NSGA-Ⅱ算法在5個左右目標(biāo)函數(shù)的情況下有很高的搜索效率,超參數(shù)少且效果穩(wěn)定.
本實(shí)驗(yàn)中,用遺傳算法[20]求解多目標(biāo)優(yōu)化問題,包括如下主要環(huán)節(jié).
(1)染色體編碼.采用二進(jìn)制編碼,鑒于材料實(shí)驗(yàn)的工藝受限,碲含量的精確度達(dá)到百萬分之一級別,對應(yīng)范圍為0~300 μg/g,對應(yīng)的染色體長度為300,共需9位二進(jìn)制數(shù).
(2)交叉算子.選擇2條親代染色體,隨機(jī)生成一段區(qū)間[p,q],使得p≥0、q≤9的同時p<q,子代染色體在[0,p)及(q,9)區(qū)間內(nèi)的基因來自一條父代染色體,而[p,q]區(qū)間內(nèi)的基因來自另一條父代染色體.
(3)變異算子.一條父代染色體中隨機(jī)選擇一個基因變換為另一個基因,即1變成0,0變成1.
另外,由于模型預(yù)測的方差為正值,故為尋找最小方差,用方差的負(fù)值作為適應(yīng)度函數(shù).實(shí)驗(yàn)中,設(shè)置種群大小為50,迭代次數(shù)為50次,交叉概率為0.8,變異概率為0.4.實(shí)驗(yàn)中,通過NSGA-Ⅱ共搜索到25個帕累托最優(yōu)解,選取其中6個(見表3),選取標(biāo)準(zhǔn)為3個力學(xué)性能對應(yīng)的均值和方差各自的最優(yōu)值.
表3 NSGA-Ⅱ用于含碲非調(diào)質(zhì)鋼力學(xué)性能尋優(yōu)結(jié)果Table 3 NSGA-Ⅱoptimization results for mechanical properties of Tellurium-containing non-quenched and tempered steel
圖6顯示了GPR預(yù)測得到的3個力學(xué)性能在95%置信區(qū)間以及對應(yīng)方差的帕累托最優(yōu)解集,其中紅點(diǎn)上的細(xì)線(誤差棒)表示方差,誤差棒越長方差越大.
據(jù)此,可以根據(jù)實(shí)際需求優(yōu)先選取所需的力學(xué)性能指標(biāo),同時通過方差大小來判斷實(shí)驗(yàn)結(jié)果的不確定性.以圖6為例,如果優(yōu)先考慮抗拉強(qiáng)度,且兼顧實(shí)驗(yàn)的不確定性(盡量小),則應(yīng)選擇右上角的帕累托解集,可以得知此時的碲含量為8 μg/g.
圖6 NSGA-Ⅱ?qū)诜钦{(diào)質(zhì)鋼力學(xué)性能尋優(yōu)結(jié)果可視化Fig.6 Visualization results of NSGA-Ⅱon Tellurium-containing non-quenched and tempered steel
針對傳統(tǒng)機(jī)器學(xué)習(xí)方法對小樣本分散數(shù)據(jù)集建模表現(xiàn)欠佳,本工作采用高斯過程進(jìn)行回歸建模,在1215MS非調(diào)質(zhì)鋼數(shù)據(jù)集和三點(diǎn)彎混凝土數(shù)據(jù)集上,運(yùn)用高斯過程回歸模型計算概率后驗(yàn)來擬合回歸曲線,度量小樣本數(shù)據(jù)建模的不確定性.在1215MS非調(diào)質(zhì)鋼數(shù)據(jù)集上,運(yùn)用帶精英策略的非支配遺傳算法對3項(xiàng)力學(xué)性能進(jìn)行多目標(biāo)優(yōu)化.實(shí)驗(yàn)結(jié)果表明,平均有53%的數(shù)據(jù)在GPR所擬合出來的回歸曲線的95%置信區(qū)間內(nèi),GPR模型可從概率的角度衡量具有分桶特性的小樣本數(shù)據(jù)的分散性.基于GPR回歸的多目標(biāo)優(yōu)化可結(jié)合方差進(jìn)行逆向設(shè)計的同時,給對設(shè)計結(jié)果的不確定性進(jìn)行估計.
進(jìn)一步的工作主要有:①高斯過程的性質(zhì)很大程度上取決于核函數(shù)選擇,不同的核函數(shù)影響GPR的擬合和模型外推能力.對于本工作1215MS非調(diào)質(zhì)鋼數(shù)據(jù)集,斷面收縮率在GPR模型中沒有被較好地擬合,這一方面是由數(shù)據(jù)本身的分布特性造成,另一方面與沒有合適的核函數(shù)選擇有關(guān);②GPR模型預(yù)測方差通常由觀測噪聲主導(dǎo),模型傾向于將大部分預(yù)測方差分配給與輸入無關(guān)的觀察噪聲,較少使用與輸入相關(guān)的函數(shù)不確定性,這使得高斯過程先驗(yàn)未起太大作用,未來可對GPR模型進(jìn)行擴(kuò)展改善預(yù)測的不確定性;③基于GPR的多目標(biāo)優(yōu)化,所求的最優(yōu)帕累托解集如何更好地結(jié)合材料領(lǐng)域知識,自動推薦下一次實(shí)驗(yàn)候選點(diǎn)則需要進(jìn)一步研究.