摘 要:文章針對汽車電力變壓器生產過程中存在的供銷不平衡的問題,利用預測模型,對汽車電力變壓器的工業(yè)生產過程進行優(yōu)化研究。文章使用Kaggle平臺上470條電力變壓器故障分析數(shù)據(jù),對電力變壓器的預期壽命進行回歸預測。將GradientBoosting模型與RandomForest等8種模型進行對比,GradientBoosting模型準確率達86%,證明了其預測性能的優(yōu)越性。此外,文章還對特征進行重要性分析,有助于理解模型的內部工作機制、更好地進行數(shù)據(jù)預處理和特征工程。
關鍵詞:電力變壓器 生產流程優(yōu)化 預測模型 特征重要性排序 機器學習
0 引言
電力變壓器是一種交流電壓轉換的設備,由一個或多個線圈組成,可以用于傳輸和分配電能。氫、氧化原、氮、甲烷、一氧化碳、二氧化碳等絕緣氣體,乙烯、乙烷、亞甲基、二芐基二硫等絕緣材料,它們可以用于保護變壓器線圈免受外界環(huán)境的影響。功率因數(shù)、介電剛度、含水量等參數(shù)是電力變壓器中常用的技術參數(shù),它們可以用于評估變壓器的性能和可靠性。
經(jīng)查閱相關資料,目前汽車電力變壓器工業(yè)生產流程優(yōu)化方法主要包括基于仿真技術的優(yōu)化、基于數(shù)理模型的優(yōu)化等。基于仿真技術的優(yōu)化主要集中在CAD/CAM、三維虛擬仿真分析等方面;如蘇得收(2018)[1]結合層次分析法用工業(yè)互聯(lián)網(wǎng)的思維導入LED封裝生產;田磊(2020)[2]通過將三維仿真軟件和工業(yè)工程相結合合理進行人員調度及資源配置;陳碩(2022)[3]提出基于Petri網(wǎng)建模的產品生產線優(yōu)化研究?;跀?shù)理模型的優(yōu)化主要集中于統(tǒng)計模型與機器學習模型;孫洋(2019)[4]通過IE法和線性規(guī)劃模型對B型斷路器進行的生產線平衡改善;劉孝保[5]、楊小實[6]等分別建立機器學習模型對相關流程進行優(yōu)化;此外,深度學習中的神經(jīng)網(wǎng)絡[7]、遷移學習[8]也得到廣泛應用。
綜上,制造業(yè)的工業(yè)流程優(yōu)化研究中,各界學者已經(jīng)做了大量工作,但少有研究對多種機器學習模型效果進行綜合評比,且所選模型缺乏可解釋性?;诖?,考慮實驗數(shù)據(jù)的多特征性,本文選擇多種集成模型,對汽車電力變壓器的預期壽命進行預測,并結合特征重要性,分析外界因素對其需求量影響,從而對汽車電力變壓器工業(yè)生產流程進行優(yōu)化。
1 優(yōu)化方法簡述
1.1 集成模型
集成學習模型是一種將多個模型結合在一起來提升整體性能的方法。集成學習模型的流程如下:首先,構建多個子學習器;然后,使用某種集成策略將這些模型集成在一起;最后,完成學習任務。子學習器的篩選原則是每個子學習器都要有一定的準確性,并且子學習器之間要保持相對獨立性和多樣性。
本文所用的Boosting算法的主要思想在于:每一個后續(xù)的學習器都會重點關注前一個學習器預測錯誤的樣本,并對這些樣本賦予更高的權重,以此來逐步改進模型的預測性能。
1.2 特征重要性排序
特征重要性排序是為了確定哪些特征對模型預測結果的影響最大。有多種方法可以用來計算特征重要性,包括嵌入法(如使用sklearn庫中的SelectFromModel)、排列重要性(Permutation Importance)以及SHAP值等。
本文所用的排列重要性是一種基于模型的特征選擇方法。其原理是打亂某個特征的值,然后觀察模型性能的變化。如果打亂某個特征后,模型預測的正確率顯著下降,那么這個特征就被認為是重要的。為了消除隨機性的影響,這個過程會多次重復,然后求取平均值和方差。
2 實驗準備
2.1 數(shù)據(jù)勘查
本文數(shù)據(jù)來源于Kaggle平臺所提供的電力變壓器數(shù)據(jù)故障分析。該數(shù)據(jù)集提供了電力變壓器的材料、外界因素等相關信息,通過對全部數(shù)據(jù)分析發(fā)現(xiàn),該電力變壓器共14個屬性,2個標簽。使用info()函數(shù)可得該數(shù)據(jù)集共有16列,每列有470條數(shù)據(jù),均無缺失值、重復值,故可不做相關預處理。
2.2 數(shù)據(jù)相關性
通過corr函數(shù)查看各特征與'Life expectation'(預期壽命)列之間的相關性,并按相關性從高到低排序,且各個影響因素與預期壽命均有顯著的統(tǒng)計關系,因此保留每一項影響因素。
為進一步了解數(shù)據(jù)的分布、異常值等特點,對每個影響因素進行可視化,展示其分布情況,包括直方圖、箱形圖和群點圖。其中,CO對預期壽命的影響如圖1所示。
初步探索數(shù)據(jù)后,調用scikit-learn庫中的train_test_split函數(shù),將數(shù)據(jù)集按7﹕3的比例劃分為訓練集和測試集,并使用scikit-learn庫中的StandardScaler來對所有數(shù)據(jù)進行標準化處理,使其更適合機器學習算法。
3 預測模型構建與評分
3.1 模型建立
對數(shù)據(jù)進行清洗后,采用九種集成模型對訓練集進行訓練,并計算每個模型在測試集上的準確率,GradientBoosting模型的準確度達到了0.86,因此,選用GradientBoosting作為基礎模型。
為了更好全面評估機器學習模型的預測性能,利用matplotlib庫繪制散點圖(如圖2所示),采用可視化技術來展示數(shù)據(jù)實際值與預測值之間的關系。
為深入探究機器學習模型在訓練過程中的性能演變,對模型的偏差進行可視化分析。偏差是衡量模型預測值與實際值之間差異的重要指標,它隨著迭代次數(shù)的增加而逐漸減小,圖3能夠直觀了解模型在訓練過程中的性能變化,從而識別出可能存在的過擬合或欠擬合問題。
3.2 模型調參
通過前文實驗篩選出預測精度最好的GradientBoostingRegressor模型,輸入訓練集與測試集進行性能測試。并使用GridSearchCV來搜索最佳的超參數(shù),此方法是對模型的指定參數(shù)進行范圍內窮舉,以獲得最佳的性能。調參優(yōu)化步驟如表1所示。
3.3 實驗效果評估
為進一步比較電力變壓器剩余壽命預測模型的準確性,利用均方誤差(MSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)、決定系數(shù)(R2)等指標對模型進行評價,結果如表2所示。
由表2可知,該模型在訓練集上表現(xiàn)優(yōu)異,但在測試集上性能較差,可能存在過擬合問題。為了改進模型性能,可以考慮采用正則化技術、增加數(shù)據(jù)多樣性、調整模型復雜度或使用交叉驗證等方法來減少過擬合。
4 基于特征重要性的電力變壓器影響特征分析
為深入理解各個特征對電力變壓器預期壽命的影響程度,本文采用兩種不同的方法來評估特征的重要性,并通過可視化展示結果。
除使用模型自帶的feature_importances_屬性獲取每個特征的重要性分數(shù)以外,本文還采用了更為穩(wěn)健的置換重要性(Permutation Importance)來進一步評估特征的重要性。置換重要性是通過隨機打亂測試集中某個特征的值,然后觀察模型性能的變化來計算的。如果打亂某個特征后模型性能大幅下降,則說明該特征對于模型的預測能力至關重要。
由圖4可以看出,Interfacial、Water content、Health index特征性排名前三,說明其對電力變壓器的預期壽命影響較大;在實際工程中,可重點關注其值的變化,以便準確的掌握電力變壓器的使用狀況等。
5 結論
本文介紹并詳細闡述了實施方法、流程和具體效果,且對比了GradientBoosting等9種集成學習模型的預測效果,結果表明GradientBoosting模型預測精度達到0.86,明顯優(yōu)于其他模型,驗證了其有效性。
使用綜合性能最優(yōu)的集成模型對電力變壓器數(shù)據(jù)故障分析的變量進行特征重要性排序,結果顯示Interfacial、Water content、Health index對模型預測結果影響較大,并針對變量的重要性對電力變壓器的生產監(jiān)控提供建議,幫助公司優(yōu)化其工業(yè)流程,提升經(jīng)濟效益。
基金項目:2022年四川省大學生創(chuàng)新創(chuàng)業(yè)訓練項目:基于預測模型的汽車零部件工業(yè)流程優(yōu)化方法研究(107261858)。
參考文獻:
[1]蘇得收.基于工業(yè)互聯(lián)網(wǎng)的LED封裝生產流程優(yōu)化[D].天津:天津大學,2017.
[2]田磊,王婕.VR眼鏡后組裝生產線流程優(yōu)化研究[J].制造技術與機床,2020(03):139-144.
[3]陳碩.基于Petri網(wǎng)建模的G公司缸蓋生產線優(yōu)化[D].石家莊:河北科技大學,2022.
[4]孫洋.基于Witness的電力設備生產線平衡優(yōu)化研究[D].北京:華北電力大學(北京),2020.
[5]劉孝保,嚴清秀,易斌,等.基于集成學習和改進粒子群優(yōu)化算法的流程制造工藝參數(shù)優(yōu)化[J].中國機械工程,2023,34(23):2842-2853.
[6]楊小實,王湘龍.基于機器學習支持向量回歸SVR算法對外賣配送流程優(yōu)化的研究[J].計算機產品與流通,2019(11):108+146.
[7]王旭.面向神經(jīng)計算的連鑄坯質量預測方法研究[D].唐山;華北理工大學,2022.
[8]陳航.基于BERT和遷移學習的業(yè)務流程預測與可解釋性研究[D].淮南:安徽理工大學,2023.