武星胡明濤丁鵬
(1.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444;2.之江實(shí)驗(yàn)室,浙江杭州311100;3.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444;4.上海大學(xué)理學(xué)院,上海200444)
陶瓷涂層是由陶瓷材料發(fā)展而來(lái)的一種新型復(fù)合材料[1-2].陶瓷材料具有耐高溫、耐腐蝕、耐磨損等優(yōu)良特性,但其抗彎強(qiáng)度較低且韌性較差,本質(zhì)上屬于一種脆性材料.利用熱噴涂技術(shù)將陶瓷涂層噴涂至金屬基層上,可以形成一種陶瓷復(fù)合材料.該復(fù)合材料將陶瓷材料的特性與金屬基層的特性結(jié)合在一起,既保留了傳統(tǒng)陶瓷材料的優(yōu)點(diǎn),又保持了金屬基體材料的強(qiáng)韌性.
陶瓷涂層往往被用于極端環(huán)境,需要承受高溫及苛刻的化學(xué)環(huán)境,因此對(duì)其性能指標(biāo)[3]的測(cè)量至關(guān)重要.熱膨脹系數(shù)[4]和熱導(dǎo)率[5]是陶瓷涂層兩個(gè)重要的性能指標(biāo),與其耐高溫的特性息息相關(guān).熱膨脹系數(shù)是指材料在熱脹冷縮效應(yīng)作用下,幾何特性隨著溫度的變化而發(fā)生變化的規(guī)律性系數(shù).熱導(dǎo)率是定義材料導(dǎo)熱能力的度量指標(biāo).準(zhǔn)確地評(píng)估陶瓷涂層的熱膨脹系數(shù)和熱導(dǎo)率,能夠直接或間接影響其使用性能.在國(guó)防工業(yè)、石油化工、國(guó)防軍工、航天航空等領(lǐng)域,許多構(gòu)件的表面都需要噴涂陶瓷熱障涂層或耐磨耐腐涂層,以實(shí)現(xiàn)耐高溫、抗腐蝕、抗氧化的效果.由于陶瓷涂層與基體層材料的熱膨脹系數(shù)和熱導(dǎo)率存在差異,且陶瓷涂層大都為脆性涂層,厚度較薄且難以從基體上直接剝離,因此很難將陶瓷涂層作為單獨(dú)的塊體材料測(cè)試其熱膨脹系數(shù)和熱導(dǎo)率.正是由于陶瓷涂層的性能測(cè)試環(huán)境較為苛刻且其難以從基體上剝離,因此尋找一種既能降低陶瓷涂層性能測(cè)試成本,又能保證測(cè)試準(zhǔn)確度的方法是非常必要的.
模態(tài)是指事物存在的形式,例如視頻、音頻或者文本.模態(tài)的表征學(xué)習(xí)是指將信息表示為計(jì)算機(jī)可以處理的數(shù)值向量,或進(jìn)一步抽象為更高層的特征向量.生活中的信息往往不是只有一種存在形式,多種模態(tài)構(gòu)成了人類生活的世界.因此,如何協(xié)調(diào)多種模態(tài)之間的信息交互,從而完成實(shí)際任務(wù)是當(dāng)前的一個(gè)研究熱點(diǎn).Baltruˇsaitis等[6]根據(jù)輸出的表征是否在一個(gè)統(tǒng)一的表征空間內(nèi),將多模態(tài)表征分為統(tǒng)一表征和協(xié)同表征.統(tǒng)一表征融合多個(gè)單模態(tài)信息,并將它們映射到一個(gè)統(tǒng)一的表征空間.協(xié)同表征分別處理每一個(gè)模態(tài)的信息,但在不同模態(tài)之間增加相似性的約束.多模態(tài)表征學(xué)習(xí)[7]通過(guò)利用多模態(tài)之間的互補(bǔ)性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征表示.將各個(gè)模態(tài)的特征融合在一起構(gòu)成多模態(tài)的融合特征,最終能夠利用多模態(tài)表征進(jìn)行各項(xiàng)任務(wù).特征融合包括早期融合、晚期融合和混合融合3種方法,其結(jié)構(gòu)如圖1所示.早期融合首先從每個(gè)模態(tài)中分別提取特征;然后將提取到的特征直接拼接在一起形成融合特征;最后將融合特征輸入模型中,輸出預(yù)測(cè)結(jié)果.晚期融合首先用不同模型對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,然后再融合多個(gè)模型的輸出結(jié)果.晚期融合采用最大值結(jié)合、平均值結(jié)合、貝葉斯規(guī)則結(jié)合等結(jié)合方式來(lái)確定不同模型輸出結(jié)果的結(jié)合策略.混合融合在綜合了早期融合和晚期融合二者優(yōu)點(diǎn)的同時(shí),也增加了模型結(jié)構(gòu)的復(fù)雜度和訓(xùn)練難度.
圖1 特征融合方法結(jié)構(gòu)圖Fig.1 Structure diagram of the feature fusion method
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,許多研究者將多模態(tài)表征應(yīng)用到機(jī)器學(xué)習(xí)方法中.宋云峰等[8]利用跨模態(tài)注意力機(jī)制實(shí)現(xiàn)了模態(tài)間的兩兩特征融合,并結(jié)合多任務(wù)學(xué)習(xí)獲得了情感和情緒的分類結(jié)果.實(shí)驗(yàn)結(jié)果表明,情感和情緒分類的準(zhǔn)確度都有所提升.田彥濤等[9]設(shè)計(jì)了一種車輛深度交互編碼并結(jié)合基于注意力機(jī)制的解碼器模型.該模型同時(shí)輸出車輛的多模態(tài)行為預(yù)測(cè)結(jié)果和未來(lái)軌跡預(yù)測(cè)分布.薛景瑜[10]基于阿爾茲海默癥的多模態(tài)影像數(shù)據(jù)建立了預(yù)測(cè)模型,對(duì)病人各階段的診斷結(jié)果進(jìn)行預(yù)測(cè).Maimaitijiang等[11]使用多光譜、熱傳感器等多模態(tài)數(shù)據(jù),基于深度神經(jīng)網(wǎng)絡(luò)框架估計(jì)了大豆谷物產(chǎn)量.實(shí)驗(yàn)結(jié)果表明,模型對(duì)谷物產(chǎn)量預(yù)測(cè)的準(zhǔn)確度較高.Pakdamanian等[12]提出了DeepTake,使用來(lái)自車輛數(shù)據(jù)、駕駛員生物特征和主觀測(cè)量的特征,預(yù)測(cè)了自動(dòng)駕駛車輛中駕駛員的意圖和接管質(zhì)量.Liu等[13]使用多模態(tài)數(shù)據(jù)建立了Hybrid DL模型,預(yù)測(cè)了人類乳腺癌分子亞型.模型在10次10折交叉驗(yàn)證中的預(yù)測(cè)準(zhǔn)確率達(dá)到88.07%.McClenny等[14]使用深度多模態(tài)遷移學(xué)習(xí)回歸器(deep multimodal transfer-learned regressor,DMTL-R),在深度回歸架構(gòu)中對(duì)圖像和特征數(shù)據(jù)進(jìn)行了多模態(tài)學(xué)習(xí),有效預(yù)測(cè)了數(shù)據(jù)貧乏域中的目標(biāo)參數(shù).
上述研究表明,基于多模態(tài)數(shù)據(jù)表征構(gòu)建的模型能夠整合不同模態(tài)之間的信息,使得模型的預(yù)測(cè)準(zhǔn)確度更高、誤差更小.本工作基于陶瓷涂層多模態(tài)數(shù)據(jù)表征構(gòu)建了模型,對(duì)不同工藝參數(shù)情況下陶瓷涂層的性能進(jìn)行了預(yù)測(cè),主要內(nèi)容包括:①基于高斯混合模型虛擬樣本生成(Gaussian mixture model virtual sample generation,GMMVSG)算法[15],生成符合真實(shí)陶瓷涂層數(shù)據(jù)分布的樣本;②采用K最近鄰(K-nearest neighbor,KNN)[16]、支持向量機(jī)回歸(support vector regression,SVR)[17]和多層感知機(jī)[18](multi-layer perceptron,MLP)3種回歸算法,基于單模態(tài)陶瓷涂層結(jié)構(gòu)化數(shù)據(jù),建立了回歸模型預(yù)測(cè)陶瓷涂層的熱膨脹系數(shù)和熱導(dǎo)率;③利用在ImageNet[19]大型圖像數(shù)據(jù)集上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)VGG16[20],對(duì)陶瓷涂層的顯微結(jié)構(gòu)圖像數(shù)據(jù)進(jìn)行特征提取;然后使用主成分分析(principal components analysis,PCA)技術(shù)對(duì)圖像特征進(jìn)行降維.利用TabNet[21]對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行特征提取.采用早期融合方法將提取到的圖像數(shù)據(jù)特征與結(jié)構(gòu)化數(shù)據(jù)特征拼接在一起,形成多模態(tài)的特征融合數(shù)據(jù).根據(jù)多模態(tài)數(shù)據(jù)表征,預(yù)測(cè)陶瓷涂層的熱膨脹系數(shù)和熱導(dǎo)率.
實(shí)驗(yàn)結(jié)果表明,基于GMMVSG算法生成的樣本結(jié)合真實(shí)數(shù)據(jù)能夠?qū)崿F(xiàn)較好的性能預(yù)測(cè)效果.相比于單模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型,多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型對(duì)陶瓷涂層性能指標(biāo)預(yù)測(cè)的準(zhǔn)確度更高、誤差更小.這是因?yàn)槎嗄B(tài)數(shù)據(jù)的各個(gè)模態(tài)之間可能存在互補(bǔ)信息[22],對(duì)于同一任務(wù)應(yīng)用多個(gè)模態(tài)的數(shù)據(jù),可以得到更具有魯棒性的預(yù)測(cè)結(jié)果.
本工作使用的陶瓷涂層數(shù)據(jù)集屬于小樣本數(shù)據(jù)集.小樣本數(shù)據(jù)集的數(shù)據(jù)分布具有離散性和稀疏性,模型難以捕獲數(shù)據(jù)樣本之間的潛在信息,直接采用此數(shù)據(jù)集進(jìn)行預(yù)測(cè),效果較差.基于GMMVSG算法可以根據(jù)真實(shí)樣本生成有效的虛擬樣本.虛擬樣本可以彌補(bǔ)原始樣本空間中真實(shí)樣本數(shù)據(jù)不足造成的信息缺口,擴(kuò)大樣本數(shù)量,從而提高模型的預(yù)測(cè)能力.
高斯混合模型是一種概率建模方法,由多個(gè)高斯分布函數(shù)線性疊加,通過(guò)調(diào)節(jié)它們的均值和協(xié)方差來(lái)擬合成任意連續(xù)的概率密度函數(shù).假設(shè)z∈Rd是一個(gè)具有d個(gè)特征的陶瓷涂層樣本,如果樣本z來(lái)自混合高斯模型,則其概率密度函數(shù)可表示為
式中:K表示高斯混合模型中高斯分量的數(shù)量;ωk表示第k個(gè)高斯分量的概率權(quán)重.假設(shè)X是具有K個(gè)分量的高斯混合模型中的參數(shù)集,其中包括高斯混合模型參數(shù)θk以及概率權(quán)重ωk(1≤k≤K).給定N個(gè)陶瓷涂層訓(xùn)練樣本Z=[z1,z2,···,zN],似然函數(shù)和對(duì)數(shù)似然函數(shù)分別為
本工作基于GMMVSG算法生成的虛擬樣本和真實(shí)樣本的分布如圖2所示,其中黃色圓點(diǎn)代表真實(shí)樣本,藍(lán)色圓點(diǎn)是基于真實(shí)樣本生成的虛擬樣本.可以看出,通過(guò)GMMVSG算法能夠在真實(shí)樣本的間隙中嵌入虛擬樣本,縮小樣本之間的信息間隙.
圖2 基于GMMVSG算法的虛擬樣本和真實(shí)樣本分布圖Fig.2 Distribution map of virtual and real samples based on the GMMVSG algorithm
KNN算法通過(guò)計(jì)算陶瓷涂層樣本集中,每個(gè)樣本到數(shù)據(jù)集中其他樣本的距離,按照距離的大小進(jìn)行排序,選擇與當(dāng)前樣本最近的K個(gè)樣本作為該樣本的鄰居,并將這K個(gè)樣本輸出值的均值作為新樣本的輸出.距離的計(jì)算公式一般采用歐式距離.設(shè)P和Q是陶瓷涂層數(shù)據(jù)集中的2個(gè)樣本,其中P={p1,p2,···,pn},Q={q1,q2,···,qn},那么P和Q之間的距離d可表示為
式中:p1~pn是樣本P的所有特征信息;q1~qn是樣本Q的所有特征信息.
SVR算法的基本思想是通過(guò)一個(gè)非線性映射Φ,將陶瓷涂層樣本集中的樣本映射到高維特征空間F,并在這個(gè)空間進(jìn)行線性回歸.假設(shè)陶瓷涂層的訓(xùn)練樣本為D={(x1,y1),(x2,y2),···(xn,yn)},yi∈R,其中xi和yi分別是陶瓷涂層的顯微結(jié)構(gòu)參數(shù)和性能目標(biāo)參數(shù).在高維空間F中構(gòu)造最優(yōu)的線性函數(shù)為
式中:ω代表權(quán)重;b代表偏置項(xiàng).這樣在高維空間中的線性回歸就對(duì)應(yīng)于陶瓷涂層樣本集低維空間的非線性回歸.
SVR算法在高維空間F中通過(guò)最小化一個(gè)以ε為參數(shù)的不敏感損失函數(shù)來(lái)完成線性回歸,同時(shí)通過(guò)最小化‖ω‖2來(lái)減少模型的復(fù)雜度.最終SVR算法優(yōu)化的目標(biāo)函數(shù)為
式中:μ和μ′是非負(fù)的松弛變量;C是正則化參數(shù),用于控制對(duì)超出誤差的陶瓷涂層樣本的懲罰程度.
MLP包括輸入層、隱藏層和輸出層.假設(shè)陶瓷涂層樣本是一個(gè)n維向量X={x1,x2,···,xn},將其輸入MLP.在輸入層不進(jìn)行任何計(jì)算,僅將向量X傳遞至隱藏層.隱藏層的輸出是f(ω1X+b1),其中ω1是權(quán)重,b1是偏置,函數(shù)f是sigmoid函數(shù).經(jīng)過(guò)隱藏層后到達(dá)輸出層,輸出層的輸出是softmax(ω2X1+b2),其中X1是隱藏層的輸出f(ω1X+b1).
式中,i=1,2,···,n.MLP算法的總體公式為
其網(wǎng)絡(luò)架構(gòu)如圖3所示.
圖3 MLP網(wǎng)絡(luò)架構(gòu)Fig.3 Network architecture of MLP
本工作利用VGG16對(duì)88張?zhí)沾赏繉语@微結(jié)構(gòu)圖像數(shù)據(jù)進(jìn)行了特征提取.每張圖像提取的特征是1×4 096的行向量.圖像特征的數(shù)量較多會(huì)提高計(jì)算成本,且當(dāng)圖像特征的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)圖像樣本的數(shù)量時(shí),容易導(dǎo)致模型過(guò)擬合.因此本工作使用了PCA技術(shù)對(duì)圖像特征進(jìn)行降維.PCA技術(shù)利用正交變換把一系列可能線性相關(guān)的變量轉(zhuǎn)換為一組線性不相關(guān)的變量.這些線性不相關(guān)的變量也稱為主成分.主成分是原有變量的線性組合,其數(shù)目不多于原始變量,但組合之后相當(dāng)于獲得了一批新的觀測(cè)數(shù)據(jù).這些數(shù)據(jù)的含義不同于原有數(shù)據(jù),但包含了原有數(shù)據(jù)的大部分特征,并且有著較低的維度,便于進(jìn)一步的分析.
假設(shè)陶瓷涂層圖像特征數(shù)據(jù)有N個(gè)樣本點(diǎn),用Y表示,每個(gè)樣本點(diǎn)是M維的.現(xiàn)在使用PCA技術(shù)進(jìn)行降維,降成D維,用X表示.X中還是含有N個(gè)樣本點(diǎn),只是每個(gè)樣本的維度變成了D維,用矩陣乘法可表示為
也就是說(shuō),PCA技術(shù)進(jìn)行降維的本質(zhì)是找到一個(gè)M×D維的矩陣W,需要對(duì)W=(w1,w2,···,wd)進(jìn)行一些約束,使得‖wi‖=1,且wTi×wj=0(j!=i),W滿足X=Y×W.
基于陶瓷涂層結(jié)構(gòu)化數(shù)據(jù)構(gòu)建單模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型的流程如圖4所示,具體步驟如下.
圖4 單模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型構(gòu)建流程Fig.4 Flow chart of the single-modal data representation learning model construction
(1)數(shù)據(jù)擴(kuò)充.基于22條真實(shí)陶瓷涂層結(jié)構(gòu)化數(shù)據(jù),以GMMVSG算法生成110條數(shù)據(jù).生成的數(shù)據(jù)中可能存在陶瓷涂層性能目標(biāo)參數(shù)值為負(fù)數(shù)的情況,需要?jiǎng)h除這些不符合真實(shí)分布的數(shù)據(jù).
(2)數(shù)據(jù)集劃分.將GMMVSG算法生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)混合在一起,以8∶2的比例隨機(jī)劃分為訓(xùn)練集G和測(cè)試集W.
(3)模型訓(xùn)練.分別建立KNN、SVR、MLP算法模型,在訓(xùn)練集G上使用3種算法模型進(jìn)行訓(xùn)練.
(4)模型應(yīng)用.利用訓(xùn)練后的多個(gè)算法模型在測(cè)試集W上進(jìn)行預(yù)測(cè).
(5)模型效果評(píng)估.根據(jù)測(cè)試結(jié)果計(jì)算平均絕對(duì)誤差(mean absolute error,MAE)、均方誤差(mean square error,MSE)、R2決定系數(shù)等評(píng)價(jià)指標(biāo),對(duì)模型預(yù)測(cè)效果進(jìn)行評(píng)估.
基于陶瓷涂層結(jié)構(gòu)化數(shù)據(jù)和圖像數(shù)據(jù)構(gòu)建多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型的流程如圖5所示,具體步驟如下.
圖5 多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型構(gòu)建流程圖Fig.5 Flow chart of the multi-modal data representation learning model construction
(1)特征提取.利用在ImageNet上預(yù)訓(xùn)練的VGG16對(duì)88張?zhí)沾赏繉訄D像數(shù)據(jù)進(jìn)行特征提取,每張圖像的特征向量是1×4 096的行向量.利用TabNet對(duì)22條結(jié)構(gòu)化數(shù)據(jù)進(jìn)行特征提取,每條結(jié)構(gòu)化數(shù)據(jù)的特征向量是1×4的行向量.將所有結(jié)構(gòu)化數(shù)據(jù)特征向量縱向拼接在一起,形成22×4的特征向量矩陣.
(2)圖像特征處理.將每條陶瓷涂層結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的4張不同狀態(tài)的顯微結(jié)構(gòu)圖像特征向量求取平均值,得到平均的特征向量.最終可以得到22個(gè)求均值的圖像特征向量.將這些圖像特征向量縱向拼接在一起形成22×4 096的特征向量矩陣.最后利用PCA技術(shù)將圖像特征向量降維成22×10的特征向量矩陣.
(3)特征融合.采用早期融合方法將求均值的圖像特征向量與對(duì)應(yīng)結(jié)構(gòu)化數(shù)據(jù)的特征向量橫向拼接在一起,構(gòu)成22條具有14個(gè)特征的多模態(tài)特征融合數(shù)據(jù).
(4)特征擴(kuò)充.基于22條真實(shí)的多模態(tài)特征融合數(shù)據(jù),在特征空間中利用GMMVSG算法生成110條多模態(tài)特征融合數(shù)據(jù).生成的多模態(tài)特征融合數(shù)據(jù)中可能存在陶瓷涂層性能目標(biāo)參數(shù)值為負(fù)數(shù)的情況,需要去除這些不符合真實(shí)分布的多模態(tài)特征融合數(shù)據(jù).
(5)特征集劃分.將GMMVSG算法生成的多模態(tài)特征融合數(shù)據(jù)和真實(shí)的多模態(tài)特征融合數(shù)據(jù)混合在一起,以8∶2的比例隨機(jī)劃分為特征訓(xùn)練集M和特征測(cè)試集S.
(6)模型訓(xùn)練.分別建立KNN、SVR、MLP算法模型,在特征訓(xùn)練集M上使用3種算法模型進(jìn)行訓(xùn)練.
(7)模型應(yīng)用.利用訓(xùn)練后的多個(gè)算法模型在特征測(cè)試集S上進(jìn)行預(yù)測(cè).
(8)模型效果評(píng)估.根據(jù)測(cè)試結(jié)果計(jì)算MAE、MSE、R2決定系數(shù)等評(píng)價(jià)指標(biāo),對(duì)模型預(yù)測(cè)效果進(jìn)行評(píng)估.
本工作以平均絕對(duì)誤差(mean absolute error,MAE)、均方誤差(mean squared error,MSE)和決定系數(shù)R2作為模型的評(píng)估指標(biāo),
基于陶瓷涂層的22條結(jié)構(gòu)化數(shù)據(jù)和88張顯微結(jié)構(gòu)圖像數(shù)據(jù),本工作分別以單模態(tài)數(shù)據(jù)和多模態(tài)數(shù)據(jù)為基礎(chǔ)建立模型,對(duì)陶瓷涂層的熱膨脹系數(shù)和熱導(dǎo)率進(jìn)行預(yù)測(cè).使用GMMVSG算法生成110條數(shù)據(jù),刪除其中不符合真實(shí)分布的3條數(shù)據(jù).將22條真實(shí)數(shù)據(jù)與107條通過(guò)GMMVSG算法生成的數(shù)據(jù)混合在一起,組成新的樣本集.隨機(jī)選取129條新樣本集中的103條作為訓(xùn)練集,剩余的26條作為測(cè)試集.分別使用KNN、SVR、MLP算法建立回歸模型,在原始樣本集和新樣本集的訓(xùn)練集上進(jìn)行訓(xùn)練,并在相應(yīng)的測(cè)試集上進(jìn)行測(cè)試,結(jié)果如表1~3所示.
表1 基于KNN算法的模型預(yù)測(cè)結(jié)果比較Table 1 Comparisons of the model prediction results based on KNN algorithm
從結(jié)果可以看出,僅使用原始的22條數(shù)據(jù)建立模型對(duì)性能指標(biāo)進(jìn)行預(yù)測(cè),無(wú)論是基于單模態(tài)還是多模態(tài)數(shù)據(jù)表征建模,模型的R2決定系數(shù)都較低且存在為負(fù)數(shù)的情況,模型的解釋性很差.這是因?yàn)樵紨?shù)據(jù)集只含有22條數(shù)據(jù),樣本之間的信息差距過(guò)大,模型難以捕獲數(shù)據(jù)樣本之間的潛在信息.當(dāng)使用GMMVSG算法將樣本集擴(kuò)充至129條數(shù)據(jù)后,基于單模態(tài)和多模態(tài)數(shù)據(jù)表征訓(xùn)練的模型預(yù)測(cè)效果都得到了明顯提升.這表明通過(guò)GMMVSG算法生成的樣本能夠彌補(bǔ)原始樣本空間中由于真實(shí)樣本數(shù)據(jù)不足所造成的信息缺口,提高了模型的預(yù)測(cè)能力.經(jīng)過(guò)數(shù)據(jù)擴(kuò)充后,多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型的預(yù)測(cè)效果優(yōu)于單模態(tài).這表明多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型充分利用了陶瓷涂層結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的潛在共享信息,有利于提升模型的預(yù)測(cè)準(zhǔn)確度.
從表2還可以看出,基于SVR算法構(gòu)建的多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型預(yù)測(cè)效果的提升最為明顯.相比于單模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型,其對(duì)熱膨脹系數(shù)預(yù)測(cè)的R2決定系數(shù)由0.586 1提升至0.988 3,提升了0.402 2;對(duì)熱導(dǎo)率預(yù)測(cè)的R2決定系數(shù)由0.563 4提升至0.973 1,提升了0.409 7.這一方面是由于多個(gè)模態(tài)的數(shù)據(jù)為模型提供了更好的特征表示,另一方面SVR算法本身的計(jì)算復(fù)雜度較低,對(duì)非線性回歸問(wèn)題的處理具有很大優(yōu)勢(shì).
表2 基于SVR算法的模型預(yù)測(cè)結(jié)果比較Table 2 Comparisons of the model prediction results based on SVR algorithm
從表3還可以看出,基于MLP算法構(gòu)建的多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型對(duì)陶瓷涂層性能預(yù)測(cè)誤差最小,對(duì)熱膨脹系數(shù)預(yù)測(cè)的MAE和MSE分別為0.026 6和0.001 7,對(duì)熱導(dǎo)率預(yù)測(cè)的MAE和MSE分別為0.017 9和0.000 7.這是因?yàn)镸LP算法內(nèi)部由許多相同的處理單元并聯(lián)組合而成,具有高度的并發(fā)性,對(duì)信息的處理能力非常強(qiáng),能夠顯著提升模型的預(yù)測(cè)效果.
表3 基于MLP算法的模型預(yù)測(cè)結(jié)果比較Table 3 Comparisons of the model prediction results based on MLP algorithm
為了更直觀地展示多個(gè)算法模型對(duì)陶瓷涂層熱膨脹系數(shù)和熱導(dǎo)率的預(yù)測(cè)效果,圖6和7展示了基于KNN、SVR和MLP算法的多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型,在測(cè)試集上預(yù)測(cè)陶瓷涂層性能指標(biāo)的預(yù)測(cè)值和真實(shí)值情況.可以看出,SVR算法和MLP算法預(yù)測(cè)值與真實(shí)值的擬合程度要好于KNN算法.
圖6 熱膨脹系數(shù)真實(shí)值與預(yù)測(cè)值對(duì)比Fig.6 Comparisons of the real and prediction values of thermal expansion coefficients
上述實(shí)驗(yàn)結(jié)果表明:不同算法模型對(duì)于小樣本陶瓷涂層數(shù)據(jù)的預(yù)測(cè)效果都不好;基于GMMVSG算法擴(kuò)充原樣本集后,預(yù)測(cè)效果有較大提升;多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型的預(yù)測(cè)效果要好于單模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型;不同算法模型對(duì)不同性能指標(biāo)的預(yù)測(cè)效果并不一樣,其中基于MLP算法訓(xùn)練的多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型對(duì)陶瓷涂層的性能指標(biāo)預(yù)測(cè)效果最好.
圖7 熱導(dǎo)率真實(shí)值與預(yù)測(cè)值對(duì)比Fig.7 Comparisons of the real and prediction values of thermal conductivity
本工作利用GMMVSG算法對(duì)陶瓷涂層材料數(shù)據(jù)進(jìn)行了擴(kuò)充,分別建立了基于KNN、SVR和MLP算法的單模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型和多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型,用于預(yù)測(cè)陶瓷涂層的性能指標(biāo),且都取得了較好地預(yù)測(cè)效果.相比于單模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型,多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型由于引入了更多的陶瓷涂層材料信息,其預(yù)測(cè)結(jié)果更加準(zhǔn)確.特別地,基于MLP算法訓(xùn)練的多模態(tài)數(shù)據(jù)表征學(xué)習(xí)模型對(duì)性能指標(biāo)的預(yù)測(cè)效果最好,在擴(kuò)充的數(shù)據(jù)集上對(duì)陶瓷涂層熱膨脹系數(shù)和熱導(dǎo)率的預(yù)測(cè)結(jié)果R2決定系數(shù)分別達(dá)到了0.996 9和0.987 2.本工作提出的陶瓷涂層材料多模態(tài)數(shù)據(jù)表征學(xué)習(xí)的性能預(yù)測(cè)方法,結(jié)合了陶瓷涂層的結(jié)構(gòu)化數(shù)據(jù)和圖像數(shù)據(jù)對(duì)陶瓷涂層的性能指標(biāo)進(jìn)行了預(yù)測(cè),預(yù)測(cè)準(zhǔn)確度較高,實(shí)驗(yàn)成本較低,為陶瓷涂層性能指標(biāo)的測(cè)量提供了有效的技術(shù)支持.