武星高進(jìn)丁鵬
(1.上海大學(xué)計算機工程與科學(xué)學(xué)院,上海200444;2.之江實驗室,浙江杭州311100;3.上海大學(xué)理學(xué)院,上海200444;4.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444)
聚丙烯因其低成本和優(yōu)異的加工特性在日常生活和工業(yè)中得到廣泛使用,例如紡織、家電、塑料以及汽車等領(lǐng)域.但是,聚丙烯材料的力學(xué)性能較差,為了改善其力學(xué)性能,通常加入穩(wěn)定劑、抗氧化劑以及硬脂酸鋅等材料形成聚丙烯復(fù)合材料[1],以彌補原始材料的性能缺陷,提升其力學(xué)性能.
材料在使用過程中不可避免地會受到光照、高溫和濕氣等環(huán)境因素的影響,導(dǎo)致材料外觀及力學(xué)性能的惡化,這種現(xiàn)象稱為材料老化[2].正確預(yù)測聚丙烯復(fù)合材料的老化能夠得出其使用壽命,傳統(tǒng)的預(yù)測主要采用經(jīng)驗試錯法和基于密度泛函理論(density functional theory,DFT)[3]的方法,測試效率低并且成本高.隨著人工智能的發(fā)展,許多研究者提出將集成學(xué)習(xí)的方法應(yīng)用到材料科學(xué)中,通過集成學(xué)習(xí)算法解決聚丙烯復(fù)合材料小樣本數(shù)據(jù)集以及材料老化性能的預(yù)測.
本工作根據(jù)現(xiàn)有的聚丙烯復(fù)合材料老化的力學(xué)性能指標(biāo)數(shù)據(jù)集,采用集成學(xué)習(xí)算法,使用基于數(shù)據(jù)分布的虛擬樣本生成(virtual sample generation,VSG)[4]算法對原始數(shù)據(jù)集使用期望最大化(expectation-maximization,EM)算法[5]優(yōu)化的高斯混合模型(Gaussian mixed model,GMM)[6]生成虛擬樣本,將生成的數(shù)據(jù)集劃分為訓(xùn)練集與測試集,使用多種集成學(xué)習(xí)算法模型通過訓(xùn)練集訓(xùn)練模型,再利用訓(xùn)練得到的算法模型對測試集進(jìn)行預(yù)測,得到回歸擬合的結(jié)果.本工作分別采用隨機森林(random forest,RF)[7-9]、極端梯度提升(extreme gradient boosting,XGBoost)[10]、輕量級梯度提升機(light gradient boosting machine,LightGBM)[11]以及分類梯度提升(categorical boosting,CatBoost)[12]4種集成學(xué)習(xí)算法,采用交叉驗證[13]的方式建立聚丙烯復(fù)合材料老化的算法預(yù)測模型,同時對機器學(xué)習(xí)的預(yù)測結(jié)果進(jìn)行比較與評估(見圖1).實驗結(jié)果表明,集成學(xué)習(xí)對聚丙烯復(fù)合材料老化的力學(xué)性能預(yù)測具有重要的參考意義和實用價值.
圖1 基于虛擬樣本生成的集成學(xué)習(xí)預(yù)測方法工作流程圖Fig.1 Workflow of the ensemble learning prediction method based on virtual samples generation
材料科學(xué)領(lǐng)域數(shù)據(jù)代價昂貴,一般是小樣本數(shù)據(jù)集,難以達(dá)到機器學(xué)習(xí)數(shù)據(jù)量的要求,而虛擬樣本生成可以解決這樣的數(shù)據(jù)難題.
主流的虛擬樣本生成大致分為基于深度學(xué)習(xí)和基于數(shù)據(jù)分布2種,但是基于深度學(xué)習(xí)的虛擬樣本生成需要高維度的表征支撐,并且不能直接用于回歸任務(wù),因此,本工作采用基于數(shù)據(jù)分布的虛擬樣本生成.從深度學(xué)習(xí)的角度出發(fā),Cai等[14]提出基于生成對抗網(wǎng)絡(luò)來生成織物材料的摩擦的紋理信號,從而在電振動觸覺顯示器上進(jìn)行觸覺渲染.Ali等[15]提出基于深度卷積神經(jīng)網(wǎng)絡(luò)創(chuàng)建數(shù)字材料2D玻璃和3D碳的μCT圖像方法,并在預(yù)測上具有更高的精度.從數(shù)據(jù)分布的角度出發(fā),Lei等[4]提出一種新型的基于多元高斯概率分布的虛擬樣本生成方法,并通過實驗提出參數(shù)指標(biāo)證明虛擬樣本生成方法的有效性.但這種方法只能在指定數(shù)據(jù)分布的數(shù)據(jù)集上有效,為了提升虛擬樣本生成方法的健壯性以及泛化能力提出基于高斯混合模型的虛擬樣本生成方法,高斯混合模型的虛擬樣本生成按照樣本分布擴充數(shù)據(jù)集.Li等[16]提出基于高斯混合模型的虛擬樣本生成方法,并在工業(yè)加氫裂化中建模與預(yù)測獲得較高的準(zhǔn)確性.
集成學(xué)習(xí)[17]是有監(jiān)督學(xué)習(xí)算法,通過組合多個弱學(xué)習(xí)模型形成一個強學(xué)習(xí)模型進(jìn)行預(yù)測.集成學(xué)習(xí)通過結(jié)合多個弱學(xué)習(xí)器解決了單學(xué)習(xí)器由于數(shù)據(jù)量少與計算偏差導(dǎo)致的模型預(yù)測效果差的問題,通過使用多個學(xué)習(xí)器擴大搜索空間,并通過加權(quán)多個學(xué)習(xí)器避免陷入局部最優(yōu),以此獲得較優(yōu)的性能.集成學(xué)習(xí)分為Bagging集成學(xué)習(xí)與Boosting集成學(xué)習(xí),主要區(qū)別就是Boosting集成學(xué)習(xí)模型基學(xué)習(xí)器不存在強依賴關(guān)系并加入殘差,提升算法模型的預(yù)測性能.
RF算法[18]是Bagging集成學(xué)習(xí)典型算法,被廣泛應(yīng)用解決材料科學(xué)領(lǐng)域的材料預(yù)測、材料發(fā)現(xiàn)與材料分析等問題.Liu[19]在預(yù)測鋰離子電池活性材料質(zhì)量負(fù)載和孔隙率影響時提出基于RF方法,通過高效靈敏度分析獲得電池制造的有前景的制造方法.Gao等[20]在解決碳纖維增強陶瓷復(fù)合材料的孔隙率預(yù)測問題上根據(jù)材料的組成和制備工藝的特點提出建立RF模型,準(zhǔn)確地預(yù)測了材料的性能,提升了碳纖維增強陶瓷復(fù)合材料的應(yīng)用前景.Khan等[21]根據(jù)RF算法建立模型預(yù)測生成粉煤灰基地址聚合物混凝土的抗壓強度指標(biāo),并且根據(jù)基因表達(dá)編程得到一個經(jīng)驗方程用來估計抗壓強度.
Boosting集成學(xué)習(xí)算法是基于CART樹[22]的回歸算法,采用加權(quán)的方式融合基學(xué)習(xí)器,不斷擬合殘差提升模型性能,提高材料性能預(yù)測的精度.Song等[23]在探索鋼的特性以及成本與制造參數(shù)之間的關(guān)系時,引入XGBoost算法來解決多變量優(yōu)化問題,準(zhǔn)確地預(yù)測了鋼的抗拉強度與塑性,從而提升鋼的力學(xué)性能.Zhao等[24]在水泥熟料中的游離氧化鈣含量預(yù)測問題上提出使用基于時間序列輸入窗口的貝葉斯優(yōu)化的LightGBM算法,解決了傳統(tǒng)方法無法直接進(jìn)行測量游離氧化鈣含量的問題.Bhamare等[25]在研究相變材料集屋頂建筑的熱性能預(yù)測問題上提出使用CatBoost算法來解決材料性能預(yù)測問題,并獲得較高的預(yù)測效果.
目前,集成學(xué)習(xí)被大量使用解決材料領(lǐng)域難題,在材料預(yù)測的準(zhǔn)確性上遠(yuǎn)遠(yuǎn)高于傳統(tǒng)材料科學(xué)方法,該方法能夠發(fā)現(xiàn)材料數(shù)據(jù)中屬性之間的潛在知識,甚至被應(yīng)用在新材料發(fā)現(xiàn)場景.
傳統(tǒng)的材料老化預(yù)測主要采用經(jīng)驗試錯法和基于密度泛函理論的方法,測試效率低并且成本高.但是,集成學(xué)習(xí)計算成本低、開發(fā)周期短以及具有強大的數(shù)據(jù)處理能力和高預(yù)測性能,被廣泛應(yīng)用到材料老化性能預(yù)測工作中.
本工作在解決聚丙烯復(fù)合材料老化預(yù)測工作上,首先采用高斯混合模型虛擬樣本生成算法擴充小樣本數(shù)據(jù)集,然后將擴充后的數(shù)據(jù)樣本分為訓(xùn)練集與測試集,并根據(jù)集成學(xué)習(xí)思想從訓(xùn)練集中集成多個弱學(xué)習(xí)器成最優(yōu)的強學(xué)習(xí)器模型,最后通過最優(yōu)模型預(yù)測測試集效果.
高斯混合模型生成虛擬樣本是基于數(shù)據(jù)分布進(jìn)行虛擬樣本生成技術(shù),能夠按照原始聚丙烯復(fù)合材料老化性能的數(shù)據(jù)分布特點平滑生成驗證有效的虛擬樣本,解決聚丙烯復(fù)合材料老化性能預(yù)測由于樣本量難以滿足集成學(xué)習(xí)數(shù)據(jù)量要求而預(yù)測性能差的問題.
高斯混合模型指多個高斯分布函數(shù)的線性組合,用于描述不同數(shù)據(jù)密度組合的數(shù)據(jù)分布.設(shè)有原始聚丙烯復(fù)合材料老化樣本集自變量為X,則高斯混合模型表示為
式中:N(x|μk,Σk)表示高斯混合模型的第k個高斯分布;πk是混合系數(shù),表示每個高斯分布的權(quán)重,并且滿足
對于聚丙烯復(fù)合材料老化性能進(jìn)行高斯混合模型估計參數(shù),主要采用EM算法.EM算法求解后驗參數(shù)主要使用E步以及M步解決,E步通過計算每個高斯分布的后驗概率參數(shù)值,M步優(yōu)化后驗參數(shù)值,得到最優(yōu)的高斯混合模型的參數(shù).
圖2表示高斯混合模型生成虛擬樣本算法.通過GMM與EM算法得到最優(yōu)的數(shù)據(jù)分布,生成的虛擬樣本分布往往有偏于真實樣本分布.
圖2 高斯混合模型虛擬樣本生成算法Fig.2 Gaussian mixture model virtual samples generation approach
Bagging集成學(xué)習(xí)是將不構(gòu)成強依賴關(guān)系的基學(xué)習(xí)器集成為一個強學(xué)習(xí)器預(yù)測聚丙烯復(fù)合材料老化性能指標(biāo)的算法,Bagging的典型代表是RF算法.
隨機森林算法是由BREIMAN于2001年提出的決策樹組合算法,通過bagging集成學(xué)習(xí)的思想將多棵決策樹合并到一起的算法.隨機森林思想是隨機的方式建立一個森林,森林里有許多的決策樹組成,每個決策樹決定選擇樣本與樣本屬性分叉,隨機森林中的每一棵決策樹之間是沒有關(guān)聯(lián)的.決策時通過多個決策樹的預(yù)測匯總結(jié)果作為最終的輸出.使用隨機森林進(jìn)行聚丙烯復(fù)合材料老化性能預(yù)測的構(gòu)造過程如下:
步驟1聚丙烯復(fù)合材料老化性能樣本集由N個樣本組成,有放回的隨機選擇N個樣本(每次隨機選擇一個樣本,然后返回繼續(xù)選擇),將選擇好的N個數(shù)據(jù)樣本訓(xùn)練一個決策樹h(X,θk),決定根節(jié)點用選擇的N個樣本進(jìn)行分支.
步驟2聚丙烯復(fù)合材料老化性能樣本的特征為M個屬性,在決策樹的每個節(jié)點需要分裂時,隨機從這M個特征中選擇m個特征,滿足m小于M,然后從這m個特征中采用信息增益來選擇一個特征作為該節(jié)點的分裂特征.描述每個基決策樹選擇的聚丙烯復(fù)合材料老化性能樣本與特征為
步驟3決策樹形成過程中所有材料樣本都要按照步驟2來分裂,一直到不能夠再分裂為止.整個決策樹形成過程中不能進(jìn)行剪枝.
步驟4按照步驟1~步驟3建立K個決策樹,構(gòu)成一個隨機森林模型預(yù)測聚丙烯復(fù)合材料老化性能精度.構(gòu)建的隨機森林模型為
Boosting集成學(xué)習(xí)通過改變聚丙烯復(fù)合材料老化性能訓(xùn)練樣本的權(quán)重分布訓(xùn)練基分類器,并通過加權(quán)融合基分類器組合成一個強分類器模型,在融合過程中擬合前分類器的殘差不斷迭代提升模型的精度.本工作使用的Boosting集成學(xué)習(xí)包含XGBoost算法、LightGBM算法以及CatBoost算法,3種算法都是梯度提升決策樹(gradient boosting decision tree,GDBT)的改進(jìn)算法,其中LightGBM與CatBoost是XGBoost在資源消耗上的優(yōu)化算法.
Boosting集成學(xué)習(xí)所用樹模型是CART回歸樹模型.n條老化性能樣本、m個維度特征的聚丙烯復(fù)合材料老化性能數(shù)據(jù)集表示為
式中:Xi為聚丙烯復(fù)合材料老化性能數(shù)據(jù)集D的自變量;yi表示數(shù)據(jù)樣本預(yù)測值.
樹集成模型使用K個樣本決策樹的累加和來預(yù)測輸出,
式中:K就是決策樹數(shù)量;Γ表示所有可能的CART樹;^yi為樣本集的預(yù)測值.
Boosting集成學(xué)習(xí)算法模型第t次優(yōu)化的目標(biāo)函數(shù)為
式中:l表示聚丙烯復(fù)合材料老化性能預(yù)測值與實際值的偏差函數(shù);表示第i個樣本在第t-1次迭代的預(yù)測值;ft(Xi)表示第t次優(yōu)化的最小目標(biāo)函數(shù)模型;Ω(ft)表示第t次優(yōu)化的正則化項,用來控制當(dāng)前最優(yōu)決策樹超出誤差的聚丙烯復(fù)合材料老化樣本的懲罰程度;C(k-1)表示前K-1棵樹的正則化項,來懲罰已經(jīng)生成的決策樹.
式中:γ、λ表示CART樹的復(fù)雜程度.γ、λ越大,表示越希望獲得結(jié)構(gòu)簡單的樹.
本工作采用平均絕對誤差(mean absolute error,MAE)、均方誤差(mean squared error,MSE)、平方絕對百分比誤差(mean absolute percentage error,MAPE)、擬合系數(shù)R2和均方根誤差(root mean squared error,RMSE)作為機器學(xué)習(xí)預(yù)測結(jié)果的評估標(biāo)準(zhǔn).
式中:n為樣本數(shù)量;為真實值;yi為預(yù)測值;為平均值.
本工作使用高斯混合模型生成虛擬樣本并使用集成學(xué)習(xí)算法對聚丙烯復(fù)合材料老化性能進(jìn)行預(yù)測,為了獲得比較好的預(yù)測效果,原始數(shù)據(jù)采集工作準(zhǔn)確性一定要高.本工作采用的數(shù)據(jù)集是12條按配方稱取對應(yīng)比例的滑石粉、回收聚丙烯、硬脂酸鋅、抗氧劑以及光穩(wěn)劑并通過擠出機制備得到的聚丙烯復(fù)合材料老化樣本.為了保證老化測試樣本測試的準(zhǔn)確性,每次實驗測試3次,取平均值得到聚丙烯復(fù)合材料的力學(xué)性能,形成聚丙烯復(fù)合材料初始狀態(tài)性能指標(biāo)、50 h性能指標(biāo)、10 h性能指標(biāo)、200 h性能指標(biāo)、400 h性能指標(biāo)以及500 h性能指標(biāo)為特征的數(shù)據(jù)集,其中取500 h性能指標(biāo)作為預(yù)測變量,前面的材料老化性能指標(biāo)作為自變量構(gòu)建集成學(xué)習(xí)算法模型.
根據(jù)獲得的聚丙烯復(fù)合材料老化樣本集,基于高斯混合模型虛擬樣本生成的聚丙烯復(fù)合材料老化集成學(xué)習(xí)預(yù)測模型(見圖3)構(gòu)建如下.
圖3 集成學(xué)習(xí)算法模型流程圖Fig.3 Flow chart of ensemble learning algorithm model
(1)數(shù)據(jù)預(yù)處理.將12條數(shù)據(jù)通過數(shù)據(jù)預(yù)處理得到10條聚丙烯復(fù)合材料老化樣本集,通過數(shù)據(jù)的原始分布采用高斯混合模型虛擬樣本生成方法平滑生成驗證有效的100條數(shù)據(jù).
(2)數(shù)據(jù)準(zhǔn)備.將虛擬樣本與真實樣本混合以8∶2的比例隨機劃分為訓(xùn)練集與測試集.
(3)模型訓(xùn)練.設(shè)置10折交叉驗證,分別建立RF算法、XGBoost算法、LightGBM算法、CatBoost算法4種集成學(xué)習(xí)算法模型,并通過集成算法模型對測試集數(shù)據(jù)評估效果.
(4)模型效果評估.使用MAE、MSE、MAPE、R2、RMSE等評價指標(biāo)對模型效果進(jìn)行評估.
(5)模型應(yīng)用.利用訓(xùn)練好的集成學(xué)習(xí)算法模型對測試集的聚丙烯材料老化性能指標(biāo)進(jìn)行預(yù)測,并對效果評估.
為了提升模型預(yù)測精度,采用sklearn庫中網(wǎng)格搜索對參數(shù)進(jìn)行尋優(yōu).選取不同的參數(shù)取值范圍得到預(yù)測精度最高的模型.
基于聚丙烯復(fù)合材料老化的10條數(shù)據(jù),使用高斯混合模型虛擬樣本生成方法基于原始數(shù)據(jù)分布生成100條虛擬樣本,再基于這100條數(shù)據(jù)以8∶2劃分訓(xùn)練集與測試集,使用RF算法、XGBoost算法、LightGBM算法以及CatBoost算法4種集成學(xué)習(xí)算法采用10折交叉驗證對訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,得到準(zhǔn)確度(見表1).
表1 集成學(xué)習(xí)模型的10折交叉驗證準(zhǔn)確度Table 1 10-fold cross-validation results for ensemble learning models
從表1中可知,4種集成學(xué)習(xí)算法訓(xùn)練出的模型效果比較準(zhǔn)確,大部分準(zhǔn)確性都達(dá)到99%.這也可以說明集成學(xué)習(xí)算法在預(yù)測聚丙烯復(fù)合材料老化性能上比較精確,這得益于基于高斯混合模型虛擬樣本生成算法生成的平滑的樣本集,另外,集成學(xué)習(xí)算法根據(jù)組合策略結(jié)合多個基學(xué)習(xí)器降低搜索空間中與真實值的誤差,同時通過多個基學(xué)習(xí)器擴大聚丙烯復(fù)合材料老化性能預(yù)測的搜索空間,也避免了最終模型陷入局部最優(yōu)的狀態(tài),這也是集成學(xué)習(xí)性能好于傳統(tǒng)機器學(xué)習(xí)的根本原因.聚丙烯復(fù)合材料老化數(shù)據(jù)在使用高斯混合模型虛擬樣本生成算法后進(jìn)行集成學(xué)習(xí)模型預(yù)測的結(jié)果較優(yōu),表明集成學(xué)習(xí)在解決聚丙烯復(fù)合材料老化性能預(yù)測問題上具有較大的潛力.
表2描述了4種集成學(xué)習(xí)算法在虛擬樣本生成前使用網(wǎng)格搜索尋優(yōu)并在測試數(shù)據(jù)上求MAE、MSE、MAPE、R2以及RMSE性能指標(biāo)參數(shù)值.在生成虛擬樣本之前,由R2決定系數(shù)可知,預(yù)測值可以基本解釋樣本自變量的方差變動,表明集成學(xué)習(xí)算法可以處理聚丙烯復(fù)合材料老化性能預(yù)測,但由于集成學(xué)習(xí)算法需要數(shù)據(jù)的支撐,小樣本難以獲得較優(yōu)的性能效果,這也是在虛擬樣本生成之前誤差較高的根本原因.
表2 虛擬樣本生成前測試集擬合結(jié)果比較Table 2 Comparison of testing set fitting results before generating virtual samples
表3描述了4種集成學(xué)習(xí)算法在虛擬樣本生成后使用網(wǎng)格搜索尋優(yōu)并對測試集數(shù)據(jù)求MAE、MSE、MAPE、R2以及RMSE性能指標(biāo)參數(shù)值.由表3可知,集成學(xué)習(xí)方法在處理聚丙烯復(fù)合材料老化預(yù)測問題上具有比較好的性能,一方面得益于集成學(xué)習(xí)方法在聚丙烯復(fù)合材料老化性能預(yù)測問題上需要一定的數(shù)據(jù)支撐,而高斯混合模型虛擬樣本生成算法解決了小樣本數(shù)據(jù)集的難題;另一方面,機器學(xué)習(xí)使用單個基學(xué)習(xí)器模型預(yù)測效果,而集成學(xué)習(xí)通過多個基學(xué)習(xí)器降低預(yù)測值偏離真實值的概率,并通過多個基學(xué)習(xí)器擴大聚丙烯復(fù)合材料老化性能預(yù)測的搜索空間,避免出現(xiàn)單學(xué)習(xí)器預(yù)測性能時陷入局部最優(yōu)的情況,同時,集成學(xué)習(xí)通過多個基學(xué)習(xí)器的組合挖掘了數(shù)據(jù)的潛在知識以及高維知識.
表3 虛擬樣本生成后測試集擬合結(jié)果比較Table 3 Comparison of testing set fitting results after generating virtual samples
圖4為4種集成學(xué)習(xí)算法在訓(xùn)練集與測試集下真實值與預(yù)測值的誤差.由圖4可以看出:集成學(xué)習(xí)算法預(yù)測聚丙烯復(fù)合材料老化性能準(zhǔn)確性較高,LightGBM算法與CatBoost算法預(yù)測誤差小于RF算法.一方面,Boosting集成學(xué)習(xí)算法的基學(xué)習(xí)器之間不存強依賴關(guān)系,算法模型為每個基學(xué)習(xí)器學(xué)習(xí)到不同的權(quán)重來進(jìn)行預(yù)測,通過學(xué)習(xí)不同的權(quán)重不斷擬合最優(yōu)模型的參數(shù),而不是RF算法賦予每個基學(xué)習(xí)器相同的權(quán)重集成各個基學(xué)習(xí)器成一個強學(xué)習(xí)器預(yù)測結(jié)果.另一方面,Boosting集成學(xué)習(xí)在Bagging集成學(xué)習(xí)基礎(chǔ)上加入殘差,通過不斷迭代前學(xué)習(xí)器的擬合結(jié)果,使得在處理聚丙烯復(fù)合材料老化性能回歸預(yù)測具有更高的準(zhǔn)確性;同時LightGBM與CatBoost在代價函數(shù)上加入了正則項,用于控制模型的復(fù)雜度,降低了模型的方差,從而提升了預(yù)測的準(zhǔn)確性.
圖4 集成學(xué)習(xí)預(yù)測模型預(yù)測精度Fig.4 Ensemble learning prediction models prediction accuracy
表4為使用高斯混合模型生成虛擬樣本下非集成學(xué)習(xí)算法的擬合結(jié)果.由表4可知,非集成學(xué)習(xí)算法預(yù)測聚丙烯復(fù)合材料老化性能指標(biāo)擬合誤差遠(yuǎn)遠(yuǎn)大于集成學(xué)習(xí)算法的擬合誤差,主要原因是非集成學(xué)習(xí)算法是通過單一的學(xué)習(xí)器來預(yù)測回歸問題,在聚丙烯復(fù)合材料老化回歸問題上執(zhí)行局部搜索時容易陷入局部最優(yōu)狀態(tài),同時單一學(xué)習(xí)器的搜索問題的有效空間比較狹隘,難以取得較優(yōu)的結(jié)果,而集成學(xué)習(xí)通過多個學(xué)習(xí)器的集成解決了單一學(xué)習(xí)器存在的問題.比較顯眼的是KNN的結(jié)果,與集成學(xué)習(xí)算法的預(yù)測結(jié)果相似,根據(jù)最優(yōu)的KNN模型的分類結(jié)果顯示,模型最優(yōu)參數(shù)n_neighbors為4,這表明將5個樣本分為一個類別來預(yù)測結(jié)果,而KNN算法結(jié)果較優(yōu)的原因是虛擬樣本生成算法按照樣本原始的數(shù)據(jù)分布擴充樣本,使得樣本近鄰附近生成了大量的虛擬樣本,用分類算法能有效地劃分大量聚集的數(shù)據(jù),所以KNN的效果較優(yōu).但是KNN算法是一種使用聚類的思想進(jìn)行回歸的算法,從算法角度來看,不適合處理聚丙烯復(fù)合材料老化性能回歸預(yù)測問題.從總體數(shù)據(jù)來看,非集成學(xué)習(xí)算法在預(yù)測聚丙烯復(fù)合材料老化性能問題上的準(zhǔn)確性明顯低于集成學(xué)習(xí)算法,集成學(xué)習(xí)在聚丙烯復(fù)合材料老化性能預(yù)測上更有優(yōu)勢.
表4 生成虛擬樣本后非集成學(xué)習(xí)測試集擬合結(jié)果比較Table 4 Comparison of testing set fitting results of non-ensemble learning algorithms after generating virtual samples
本工作主要包括高斯混合模型虛擬樣本生成與集成學(xué)習(xí)算法預(yù)測聚丙烯復(fù)合材料老化性能.在對原始聚丙烯復(fù)合材料老化數(shù)據(jù)集樣本進(jìn)行擴充時,選擇高斯混合模型基于數(shù)據(jù)分布特點平滑地對數(shù)據(jù)集進(jìn)行虛擬樣本生成,再使用集成學(xué)習(xí)算法對聚丙烯復(fù)合材料老化性能進(jìn)行預(yù)測.本工作討論的模型中,使用LightGBM算法與CatBoost算法得到的模型的性能最優(yōu),訓(xùn)練集與測試集的預(yù)測值的R2指標(biāo)表明預(yù)測值能解釋自變量的方差變動,模型精度比較高,并由對比實驗可知,高斯混合模型虛擬樣本生成算法與集成學(xué)習(xí)算法都為提升聚丙烯復(fù)合材料老化性能預(yù)測精度做出了貢獻(xiàn).