奚建峰 史柏迪 莊曙東,3 陳天翔 陳 威
(1.瓦盧瑞克天大(安徽)股份有限公司常州公司 常州 213033)(2.河海大學(xué)機電工程學(xué)院 常州 213022)(3.南京航空航天大學(xué)江蘇省精密儀器重點實驗室 南京 213009)
表面粗糙度直接決定零件的裝配精度[1]與使用壽命[2~3],為加工中必須被約束的重要參數(shù)。在當(dāng)前中國制造2025 的趨勢之下對零件表面質(zhì)量提出了更高的要求。傳統(tǒng)試切法[4]、經(jīng)驗切法加工效率較低,且當(dāng)切削參數(shù)配置不合理時極易造成零件粗糙度發(fā)散,導(dǎo)致資源浪費。
當(dāng)前表面粗糙度預(yù)測模型以回歸模型為主可以分為如下類型:線性回歸模型、機器學(xué)習(xí)及深度學(xué)習(xí)模型。目前國內(nèi)外已經(jīng)有了諸多成果,Kong等[5]在其論文中提出了一種改進的統(tǒng)計學(xué)回歸模型,通過對線性回歸模型引入貝葉斯矩陣分解,在一定程度內(nèi)提高了模型預(yù)測精確性;馬堯在在其論文中基于多元線性回歸在精確預(yù)測粗糙度的同時可有效分析誤差成分。Li 等[6]分析在2018 年基于Weierstrass-Mandelbrot 函數(shù)有效分析在不同切削力作用下切削液所產(chǎn)生的油膜厚度對粗糙度的作用機理影響。馬堯在2020 年[7]通過使用統(tǒng)計學(xué)多元線性模型建立了TC25鈦合金的銑削粗糙度預(yù)測及分析模型。上述統(tǒng)計學(xué)模型大多依賴于線性回歸原理,基于凸優(yōu)化[8]原則一定可解得全局最優(yōu)解,因此運算復(fù)雜度低,可直接寫入嵌入式開發(fā)設(shè)備。但對于多維復(fù)雜系統(tǒng),統(tǒng)計學(xué)回歸模型預(yù)測精度通常難以滿足實際工程需求。其中,以SVM、XGBoost 及最近鄰為代表的機器學(xué)習(xí)算法,因其強大的非線性擬合能力被廣泛應(yīng)用于各類復(fù)雜工程問題。在2020 年學(xué)者魯娟[9]通過使用PSO 優(yōu)化SVM 算法精確預(yù)測蠕墨鑄鐵加工過程中的表面質(zhì)量。學(xué)者Yang 等[10]使用隨機森林算法結(jié)合大氣反射率建立了長江三角洲地區(qū)的pm2.5 監(jiān)測模型。Wen 等基于[11]KNN 與SVM 算法提出了一種表面肌電分類特征提取方法。以神經(jīng)網(wǎng)絡(luò)算法為代表的深度學(xué)習(xí)模型因其強大的非線性擬合能力,近年來被廣泛運用于各領(lǐng)域。雖尚存一些可解釋性的機理與原理的”黑盒”問題,但通過多層全連接網(wǎng)絡(luò)可有效解析多元非線性模型。大量工程實踐表用,深度學(xué)習(xí)算法在圖片識別[12]、文本翻譯[13]相對統(tǒng)計學(xué)及機器學(xué)習(xí)模型均有更優(yōu)的表現(xiàn)。其中,卷積神經(jīng)網(wǎng)絡(luò)在表面粗糙度實時檢測[14~15]工程中有著廣泛運用,但模型超參數(shù)眾且過度依賴于樣本,其訓(xùn)練需依賴梯度進行多輪迭代,參數(shù)配置不當(dāng)時極易產(chǎn)生過擬合與欠擬合現(xiàn)象。
本模型為降低模型誤差上界,使用集成學(xué)習(xí)中Stacking[16]方法基于三折交叉驗證原則依次訓(xùn)練PSO-SVM、Xgboost、KNN 模型(注:KNN 為惰性學(xué)習(xí)算法只需設(shè)置近鄰個數(shù)(k)無需訓(xùn)練),并引入加權(quán)平均法通過平衡偏差來提高模型泛化性能力。
本模型使用U71Mn 高錳鋼為測試材料,其具有較好的抗沖擊與耐磨性能[17],被廣泛運用于軌道交通項目。但當(dāng)切削參數(shù)配置不合理時容易導(dǎo)致材料表面馬氏體粗大,力學(xué)性能急速下降[18],為典型的難加工材料。使用M-V5CN 組合機床圖1,4齒硬質(zhì)合金平底立銑刀圖2進行銑削加工。
為避免隨機采樣誤差,該零件表面粗糙度由光電輪廓儀任選零件加工后表面三處均勻表面測量取均值獲得。最終獲取1000組試驗樣本,表1為部分試驗數(shù)據(jù)。
表1 樣本數(shù)據(jù)
表中,n相對f、ap、ae數(shù)據(jù)量波動較大,為避免數(shù)值波動對模型帶來的影響,使用式(1)對試驗樣本金鐘標準化處理。
式中,nor為標準化數(shù)據(jù);i為樣本索引,j為特征索引。μj為第j個特征均值,sj為其標準差;最終樣本集按照如下規(guī)則劃分如圖1所示。
圖1 樣本劃分
圖中,Test 為實現(xiàn)預(yù)留的100 個測試集樣本用于檢測最終Stacking 集成模型。Set1、Set2、Set3 平分余下900 個樣本,為最大化集成Stacking 模型泛化性能力,三折交叉驗證下的3 種樣本劃分形式依次用于訓(xùn)練PSO-SVM、RF、KNN。
Xgboost 算法通過在T輪迭代中集成回歸樹f優(yōu)化每輪殘差使模型逼近觀測值。此外引入正則化項目Ω(f)約束回歸樹的深度及葉子節(jié)點分裂數(shù)目有效避免模型產(chǎn)生過擬合現(xiàn)象。Xgboost模型由目標函數(shù)與正則化項組成可表示為式(2):
式中,x=[n,f,ap,ae];θ為模型待訓(xùn)練的超參數(shù);n為樣本數(shù)量;l為均方誤差函數(shù),其輸入為:樣本實際表面粗糙度y與模型預(yù)測值?;Ω為懲罰函數(shù)來降低模型復(fù)雜度并避免過擬合;其中,K為模型所集成回歸樹的數(shù)量;T為對應(yīng)數(shù)模型所包含的葉子節(jié)點數(shù),γ為l1 其正則化系數(shù);w為葉子節(jié)點權(quán)重即為l2 正則化項;Xgboost 算法在每輪迭代中通過集成多棵樹模型直接優(yōu)化殘差,結(jié)合泰勒公式可以將第t輪目標函數(shù)Obj二階展開為式(3):
式中,為在第t-1輪對樣本i的輸出預(yù)測值;g,h分別為模型的一階與二階梯度損失函數(shù)。ft(xi)為第t輪的樹模型,最終樣本輸入值會被分配到各葉子節(jié)點進行加權(quán)輸出,聯(lián)立式(2)可得第t輪殘差優(yōu)化目標式(4):
式中,Ij為葉子節(jié)點j所劃分的樣本集;此外基于凸優(yōu)化原則可求解出w最優(yōu)解式(5):
式中,g,h為基于式(5)求得樣本i 的特征的梯度與偏置;結(jié)合式(2)減去引入該葉子節(jié)點的代價γ,可計算求得各特征對應(yīng)葉子節(jié)點所占輸出權(quán)重。基于式(2)~(5)處理樣本即可得切削要素特征權(quán)重分布圖2。
圖2 輸入特征權(quán)重
圖中,x軸方向為各特征對表面粗糙度的F 檢驗得分;y軸為各特征;最終零件表面粗糙度收主軸轉(zhuǎn)速n影響較大后續(xù)加工應(yīng)予以重視。Xgboost 的模測試集樣本預(yù)測誤差見圖3。
圖3 RF模型測試誤差
RF 模型誤差可穩(wěn)定約束于0.08(μm),最終模型 決 定 系 數(shù)r(0.894),MAE(0.0374μm),errmax(0.076μm)。
SVM 通過核函數(shù)將低維不可分數(shù)據(jù)映射至高維空間尋求決策邊界向量,具有良好的魯棒性與泛化性。但因使用非線性高斯內(nèi)核,無法解得模型全局最優(yōu)超參數(shù)(gamma 系數(shù)γ與軟間隔系數(shù)C),本模型使用遺傳算法進行參數(shù)調(diào)優(yōu),設(shè)置種群數(shù)目N為100,迭代次數(shù)T為100。GA-SVM流程如下:
1)初始化參數(shù)。種群NP由N個二進制編碼的個體pop={γ,C}組成。
2)迭代準備?;贜P參數(shù)建立SVM 模型,計算種群初始適應(yīng)度y,記錄最優(yōu)適應(yīng)度個體pb;
3)遺傳進化。對種群NP基于精英策略進行選擇(賭盤法)、交叉、變異,同時將滿足精度的個體加入下輪循環(huán),不滿足精度的個體進行剔除。
4)迭代終止。當(dāng)?shù)螖?shù)達到上限T時,輸出NP中最優(yōu)個體,并基于此參數(shù)建立SVM模型。
最終迭代求解出SVM 模型參數(shù)gamma 為0.74,C為0.47,圖4為GA尋優(yōu)誤差波動。
圖4 GA參數(shù)尋優(yōu)
圖中,通過GA 迭代優(yōu)化超參數(shù)在模型訓(xùn)練之前便顯著降低模型均方誤差。通過后續(xù)訓(xùn)練,最終模型測試集性能如表2。
表2 GA-SVM
KNN 算法作為經(jīng)典機器學(xué)習(xí)算法,僅有最近鄰數(shù)目k一項超參數(shù)。其算法思想如下:基于特定算法在樣本集中尋找與待測輸入特征最相似的k個樣本取其均值進行輸出,除近鄰查找外無需進行任何超參數(shù)調(diào)優(yōu)。本模型使用歐幾里得距離作為相似度評判標準,k值在區(qū)間[3,25]內(nèi)設(shè)置步長為1 窮竭搜索法取得,表3 為篩選出的4 個最優(yōu)備選解。
表3 備選最優(yōu)k值
當(dāng)k設(shè)置為9模型取得最小的errmax、MAE,且決定系數(shù)最大。下基于Stacking方法進行模型集成。
基于k折交叉驗證原則已經(jīng)依次訓(xùn)練了KNN、Xgboost、GA-SVM 模型。Stacking 集成思想[19]為:基于k折交叉驗證劃分k種樣本組合來訓(xùn)練k個異質(zhì)的模型作為一級學(xué)習(xí)器,將k個一級學(xué)習(xí)器的輸入作為二級學(xué)習(xí)器,將二級學(xué)習(xí)器輸出為預(yù)測輸出??捎扇缦聜未a描述本Stacking模型流程。
偽代碼算法流程:
其中,T為基學(xué)習(xí)器數(shù)目,t為其索引。m為樣本數(shù)目,i為其索引。D,為基學(xué)習(xí)器(b1,…,bT)的輸出(zi1,…,ziT)與樣本真實標簽y組成的向量,其值作為二級集成學(xué)習(xí)器b輸入,?′為其輸出。
本Stacking 模型基學(xué)習(xí)器(b1,b2,b3) 依次為Xgboost、GA-SVM 和KNN 模型;學(xué)習(xí)樣本D為圖1中分層抽樣取得的900 個樣本。?′作為二級學(xué)習(xí)器為避免模型過擬合,使用加權(quán)平均模型,定義其基學(xué)習(xí)器模型輸出權(quán)重為wt,可得其輸出式(6):
式中,w滿足wt≥0 且。結(jié)合算法中二級學(xué)習(xí)器包含樣本真實標簽y,可得集成誤差式(7):
當(dāng)不考慮正則化系數(shù)w時式(7)使用拉格朗日乘子法可直接求解權(quán)重系數(shù)。但為避免因部分基學(xué)習(xí)器所占權(quán)重過大產(chǎn)生稀疏學(xué)習(xí)現(xiàn)象,對各項基學(xué)習(xí)器權(quán)重wt引入l1 正則化系數(shù)γ,可得最終Stacking模型優(yōu)化目標式(8):
式中,待尋優(yōu)參數(shù)為正則化系數(shù)γ與基學(xué)習(xí)器權(quán)重w;且?t需滿足GA-SVM、KNN、Xgboost模型條件;采用諸如PSO、GA 等全局優(yōu)化算法進行求解針對性交叉運算復(fù)雜度較高。使用隨機梯度下降(SGD)式(9)算法進行迭代求解超參數(shù)γ、w。
式中,t為當(dāng)前迭代次數(shù);η為模型學(xué)習(xí)率,設(shè)置為10-4;k為每輪迭代開始時隨機隨機選取的特征序號;迭代初值權(quán)重設(shè)置為,正則化懲罰系數(shù)γ0=[1,1,1],迭代次數(shù)設(shè)置為100 時,表4 為最速下降法(GD)與SGD迭代性能。
表4 偽代碼算法流程
表中,最終w依次對應(yīng)GA-SVM、Xgboost、KNN 模型;GD 算法對每項超參數(shù)分別求解梯度進行更新,當(dāng)超參數(shù)線性無關(guān)時迭代尋優(yōu)更具針對性。但綜合考慮迭代初值的影響與基模型之間相互耦合作用,SGD算法通過引入隨機過程更新超參數(shù),不僅大量簡化運算,工程實踐表明效果良好。選用SGD 解得的權(quán)重解帶入Stacking 模型,最終各模型在測試樣本中性能表現(xiàn)表5。
表5 模型對比
表中,Stacking 模型通過集成KNN、Xgboost、GA-SVM 模型,最終平均絕對誤差顯著降低,且有著最好的預(yù)測決定系數(shù)。但因KNN 近鄰特性,且KNN 迭代權(quán)重數(shù)值解較小,最大誤差依舊高于KNN,但對比Xgboost、GA-SVM 均有效降低。綜上依舊可以表明Stacking模型集成有效性。
1)使用Xgboost 算法樣本集特征增益分析表明,使用M-V5CN 銑削U71Mn 高錳鋼表面粗糙度影響因素由大到小依次為主軸轉(zhuǎn)速、銑削深度、每齒進給量、銑削寬度。
2)基于GA 算法可以有效優(yōu)化SVM 初始超參數(shù),在SVM訓(xùn)練之前便顯著降低模型均方誤差。
3)使用SGD 算法可以有效迭代求解Stacking模型加權(quán)投票法中各基模型權(quán)重。
4)基于加權(quán)投票法的Stacking 模型相對其基模型可以更加精確地預(yù)測零件表面粗糙度。