亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征選擇和貝葉斯優(yōu)化LightGBM的注塑制品尺寸預測

2021-08-23 05:20:02宋建陳廣森陳敬福徐百平

工程塑料應用 2021年8期

宋建，陳廣森，陳敬福，徐百平

(1.華南理工大學廣東省高分子先進制造技術及裝備重點實驗室，廣州 510640； 2.華南理工大學聚合物加工工程教育部重點實驗室，廣州 510640；3.五邑大學智能制造學部，廣東江門 529020； 4.廣東輕工職業(yè)技術學院廣東省高分子先進加工工程技術研究中心，廣州 510300)

聚合物加工是現代新型工業(yè)中的重要行業(yè)，注塑作為一種常見的聚合物成型工藝，其成型制品被廣泛使用于實際生活中。作為制造業(yè)中非常重要和代表性的工藝，注塑已有一套相當成熟的工藝流程，但是在注塑過程中，還沒有一個可靠的方案實現注塑制品的質量實時監(jiān)控，目前僅通過產后抽檢再調機優(yōu)化的辦法具有一定的延時性，會導致廢品率始終居高不下。因此，如何利用注塑過程的工藝參數和物理量去實時精確地預測注塑制品的質量成為亟需解決的問題。

人工智能的發(fā)展為充分利用注塑過程產生的工業(yè)數據帶來新的思路，已有一部分學者開始研究如何將機器學習技術應用到優(yōu)化注塑工藝中。鄭生榮等[1]使用雙層BP神經網絡建立注塑參數預測模型，證明了利用注塑參數數據進行建模預測的可行性。王博等[2]使用BP神經網絡、灰色理論和遺傳算法的組合算法，建立模型實現注塑制品的翹曲變形預測。季寧等[3]將注塑過程中的一些重要物理量考慮進來，提出了一種徑向基函數(RBF)網絡和多島遺傳算法對注塑質量進行預測，且預測結果具有一定可靠性。盡管上述實驗結論具備一定說服力，但實驗的數據大多來源于CAE軟件模擬，而非真實生產環(huán)境，且樣本較小，所用的算法模型難以應用到包含大量工藝數據的真實注塑環(huán)境中。筆者基于注塑過程中采集的每一模次的注塑機狀態(tài)數據和高頻采樣數據，提出一種基于特征選擇和貝葉斯優(yōu)化的LightGBM算法對注塑制品的尺寸進行回歸預測，所提出算法能夠適應數據特征較多以及數據樣本量較大的情況，并且預測模型具備較高的魯棒性和精度。

1 特征工程

機器學習中數據集的構建至關重要，數據的數量和質量，以及用于建模的輸入特征決定了預測模型的質量[4]，因為每個數據集蘊含的有用信息有限，而使用不同的算法模型只是盡可能地去逼近這個極限。因此，在使用機器學習算法構建模型前，必須先進行特征工程，將盡可能多的有價值信息涵括其中。

1.1 數據來源

筆者所用的注塑數據來自于富士康科技集團的真實加工場域，數據集主要包括注塑機的狀態(tài)數據和注塑過程中的高頻采樣數據，因為在注塑過程中，影響注塑工藝制品質量的因素除了注塑機的狀態(tài)數據外，注塑機在成型過程中的實時物理量變化也是不可忽略的因素[5]。圖1是數據采集系統(tǒng)主要傳感器的位置布置圖。

圖1 數據采集系統(tǒng)主要測量點位置布置圖

注塑機的狀態(tài)數據為表征成型過程狀態(tài)的數據，每一模次對應一組數據，包含注塑加工的周期時間、鎖模壓力、溫度均值、熔膠背壓、最大注塑壓力等特征。表1為注塑機狀態(tài)數據的部分特征字段名及其對應的含義。

表1 注塑機的狀態(tài)數據部分特征變量

注塑過程的高頻采樣數據主要有來自模具中的傳感器信號以及模溫機、注塑單元的相關數據，在加工過程中分階段按不同的采集頻率采集，采樣頻率根據不同注塑階段有20 Hz和50 Hz兩種，采集物理量包括模內壓力、模內溫度、模溫機水流流量計實際流量、噴嘴頭的射出壓力、實際螺桿位置、動模溫度、定模溫度等物理量。表2列舉了注塑機的高頻采樣數據的部分特征字段名及其對應的含義。

表2 注塑過程高頻采樣數據部分特征變量

1.2 數據清洗與特征提取

在注塑機的狀態(tài)數據集中，共包含86維特征，其中存在48個特征為空值或恒定值特征，這些特征對于模型訓練效果不產生作用，且會造成計算資源的浪費，因此采取剔除法去除。對于保留38個特征中存在的離群點，采取均值插補法處理，使用該特征所有數據的均值進行替換。

注塑過程的高頻采樣數據包括的數據量龐大，必須從中提取出有價值的信息，構建新的特征。對重要的高頻特征，包括模內壓力、模內溫度、噴嘴頭的射出壓力等8個物理量，求其平均值、最大值、最小值，構建出一個包含24維特征的數據子集，與注塑機的狀態(tài)數據集組合為一個新的數據集，最終數據集共包含62維特征。

1.3 特征選擇

經數據預處理后注塑數據集包含的特征數較大，容易引起“維度災難”[6]。為降低預測模型的復雜度，選擇Pearson相關系數從原始特征集中提取特征子集[7]，去除冗余特征和無關特征，降低特征維數，只保留與預測值最相關的特征。Pearson相關系數[8]用于度量數據特征和預測變量之間的相關程度，通過計算預測樣本真實值序列和對應的模型預測值序列之間的相關性，能夠在一定程序上反映數據特征對于預測變量的重要性。Pearson相關系數的取值區(qū)間為[–1，1]，其中1表示完全正相關，0表示沒有線性關系，–1表示完全負相關。Pearson相關系數越大，則說明該特征對于預測變量而言越重要。因此可通過算出每個特征向量與預測值向量之間的Pearson相關系數，選擇相關系數最大的K個特征。Pearson相關系數的計算公式如式(1)所示。

式中：r——Pearson相關系數；

X，Y—— 一對的連續(xù)變量；

σX和σY——變量X和Y的標準差；

cov(X，Y)——X與Y的協(xié)方差。

1.4 數據預處理流程

圖2是對注塑數據集進行特征工程的流程圖。首先對注塑數據集中的注塑機的狀態(tài)數據和高頻采樣數據分別做數據清洗和特征提取，將兩部分數據合并為一個總的數據集，然后使用Pearson相關系數法選出相關性最大的n個特征，構建新的數據集。

圖2 注塑數據集的特征工程流程圖

2 基于貝葉斯優(yōu)化的LightGBM算法的注塑制品尺寸預測模型

2.1 LightGBM算法

LightGBM算法[9]是由微軟研究院提出的一種基于梯度提升框架的集成算法，相對于傳統(tǒng)的梯度提升決策樹(GBDT)算法，其精度更高，模型訓練速度更快。

LightGBM算法使用一種帶深度限制的Leafwise的葉子生長策略，每次從當前所有葉子中找到具有最大分裂增益的葉子節(jié)點進行迭代分裂。相比傳統(tǒng)的GBDT算法采用的Level-wise生長策略，在同樣的分裂次數下，Leaf-wise的誤差更低、效率更高。但由于Leaf-wise可能會生長出深度較大的決策樹，產生過擬合，因此LightGBM在Leaf-wise之上增加了一個最大深度限制，在保證高效率的同時也能避免過擬合。按Leaf-wise策略的節(jié)點生長過程如圖3所示。

圖3 Leaf-wise生長策略

除此之外，LightGBM算法采用直方圖算法替換了傳統(tǒng)的Pre-Sorted算法，將連續(xù)特征離散化為k個特征數，同時構造一個寬度為k的直方圖。遍歷數據時，根據離散化后的值作為索引進行累計統(tǒng)計，然后遍歷尋找最優(yōu)點，從而加速訓練流程并減少內存使用。直方圖算法的原理如圖4所示。

圖4 直方圖原理示意圖

2.2 貝葉斯優(yōu)化調參

機器學習中，不同的超參數組合會導致模型在預測性能上存在很大的差別。由于LightGBM模型具有的超參數較多，因此必須對模型進行調參，搜索出能使模型性能更佳的超參數。LightGBM算法主要超參數如表3所示。

表3 LightGBM算法主要超參數

常用的超參數尋優(yōu)方法包括人工搜索法、網格搜索法、隨機搜索法[10]以及貝葉斯優(yōu)化[11]。網格搜索法和隨機搜索法在測試一個新的點時，會忽略前一個點的信息，導致搜索效率極低。而貝葉斯優(yōu)化是一種基于超參數先驗知識的智能優(yōu)化算法，能夠有效避免不必要的采樣。同時，貝葉斯優(yōu)化利用代理模型的后驗概率分布構造采集函數，通過該采集函數主動選擇可能更好的超參數，從而減少不必要的目標函數評估，快速搜索超參數的最優(yōu)解。

貝葉斯優(yōu)化主要包含代理模型和采集函數兩個核心部分：代理模型一般有高斯過程(GP)和樹形Parzen估計器(TPE)；采集函數一般有最大概率提升(PI)和最大期望提升(EI)。TPE代理模型[12]相較于GP代理模型，其將超參數的搜索空間從圖結構轉換為樹形結構，并且使用非參數估計取代參數估計，在效率和精度上都獲得更好的收益。采集函數EI相較于PI，不僅整合了提升的概率，也體現出不同的提升量，平衡了深度與寬度的關系。為此，選取TPE代理模型和EI采集函數構造貝葉斯優(yōu)化算法。

首先，根據超參數的先驗概率分布p(x|y)，使用TPE代理模型估計對應的目標函數風險值分布p(y)，其中{x(1)，x(2)，x(3)，…，x(k)}表示超參數，y表示風險值。根據EI采集函數選取下一個超參數。重復上述過程，不斷利用代理模型的后驗分布選擇超參數，直到得到最優(yōu)解。TPE算法的概率分布定義如式(2)所示。

式中：e(x)——觀測值{x(i)}形成的密度，其對應的風險損失y=f(x(i))小于y*；

g(x)——使用除{x(i)}外剩余的觀測值形成的密度。

TPE算法選擇y*作為當前觀測風險值y的某個分位數γ，滿足p(y

接下來通過最大期望提升進一步優(yōu)化，最大期望提升EI的定義如式(3)所示。

根據貝葉斯定理，上式可改寫為：

根據p(y

最終得到：

從式(6)可看出，為了能獲得最大期望提升，超參數x在e(x)的概率要盡可能大，而在g(x)的概率要盡可能小。通過g(x)／e(x)評估每一個超參數x，在每次迭代中，算法將返回具有最大EI的超參數值。

2.3 K折交叉驗證訓練模型

在訓練注塑制品尺寸預測模型的過程中，需要從訓練集中劃分一部分數據作為驗證集，用以確定模型迭代的最優(yōu)次數，為充分利用訓練集中所有數據，使用K折交叉驗證作為模型訓練過程中訓練集和驗證集劃分的策略。K折交叉驗證[13]是一種評估泛化性能的統(tǒng)計學方法，它比單次劃分訓練集和測試集的方法更加穩(wěn)定、全面。在K折交叉驗證中，首先將數據平等劃分為K個部分，每一個部分為一折，在訓練過程中，每次使用K–1折數據作為訓練集進行訓練，使用剩余的1折作為驗證集對模型進行校驗。使用K折交叉驗證能夠充分地利用所有的注塑數據，并能避免由于不同批次的注塑數據差異而導致訓練集和驗證集分布不均勻的極端情況出現。

2.4 基于貝葉斯優(yōu)化的LightGBM算法建模流程

圖5為基于貝葉斯優(yōu)化的LightGBM算法預測模型的建模流程圖，將完成特征工程預處理后的注塑數據集劃分為訓練集和測試集?；谟柧毤褂秘惾~斯優(yōu)化算法尋找出LightGBM模型的最優(yōu)超參數，通過K折交叉驗證訓練預測模型，使用測試集去評估模型的預測性能。

圖5 預測模型建模流程圖

3 預測模型驗證

3.1 數據準備

采取1.2節(jié)所述的方法進行注塑數據的預處理，獲得一個包含62個連續(xù)數值變量特征的數據集。使用Pearson相關系數法從中選擇相關系數最大的40維特征，最終的訓練集共計14612×40組數據，測試集共計2289×40組數據。

3.2 模型訓練

使用第2節(jié)所述的貝葉斯優(yōu)化LightGBM算法，通過迭代計算獲取LightGBM模型的最優(yōu)超參數，如表4所示。

表4 基于貝葉斯優(yōu)化LightGBM模型的最優(yōu)超參數

為防止模型在訓練過程欠擬合或過擬合，使用5折交叉驗證迭代訓練模型，根據驗證集在模型訓練過程的表現確定最優(yōu)的迭代次數，模型學習曲線如圖6所示，從圖6可直觀看出預測模型在接近400次迭代訓練后均方根誤差(RMSE)已接近最小值。

圖6 預測模型學習曲線圖

預測模型完成訓練后，可計算出各特征對于預測模型的重要性，表5展示了預測模型前10重要的特征，從表5可看出，模內溫度平均值(Sensor5_mean)、噴嘴頭的射出壓力平均值(IJ_mean)、鎖模壓力(EL_CLAMP_PRESS)、模溫機水流流量計實際流量平均值(Sensor8_mean)、模內壓力平均值(Sensor2_mean)等特征變量對于注塑制品尺寸預測具有較為重要的作用，即這些特征在注塑加工過程中對注塑制品成型尺寸的影響較為顯著，這與現有的理論研究一致[14]。

表5 預測模型特征重要性排名

3.3 模型評價指標

回歸預測模型的預測準確性和性能主要根據預測值和實際值之間的誤差進行評估。目前比較常用的指標主要有平均絕對誤差(MAE)、均方誤差(MSE)和RMSE及決定系數(R2)。

MAE是所有個體樣本差異的平均加權，反映了回歸模型預測的真實殘差的聚集。MSE與待預測樣本真實值的量綱相同，具有較好的解釋性。RMSE對于特大或特小的誤差都非常敏感，能夠反映出測量的精密度，因此在模型訓練過程中使用RMSE作為訓練評價指標。R2通過數值量化回歸模型的擬合程度，其值為負無窮到1，當R2越接近1，表示預測模型越具有更好的擬合優(yōu)度，其預測精度越高。它們的計算公式如式(7)～式(10)所示。

式(7)～式(10)中，yi為待預測樣本真實值，為模型預測值，為待預測樣本真實值的均值。

3.4 試驗結果

將訓練完畢后的LightGBM預測模型對測試集進行注塑制品尺寸預測，同時采用傳統(tǒng)的支持向量機算法(SVM)[15]、隨機森林算法[16]、人工神經網絡(ANN)[17]，使用上述的特征工程與貝葉斯優(yōu)化調參，分別構建注塑制品的尺寸預測模型，根據3.3節(jié)所述評價指標，可得到四種算法的預測性能結果對比。

圖7給出了四種模型對注塑制品尺寸的預測值和真實值的擬合對比，圖中黑色空心三角形代表真實值，灰色空心圓形代表預測值，分別對應每一模次注塑制品的真實尺寸值和預測尺寸值。從圖7可直觀看出，經貝葉斯優(yōu)化后的LightGBM模型的擬合效果最優(yōu)，能夠準確預估注塑制品在連續(xù)生產過程中的尺寸變化趨勢，隨機森林模型的擬合效果稍差于LightGBM模型，ANN模型的擬合效果最差，其預測值遠遠超出了尺寸公差范圍。

圖7 四種模型的注塑制品尺寸預測對比

表6列出上述四種模型的預測精度對比，其中，經貝葉斯優(yōu)化后的LightGBM模型的R2高達0.8642，在預測精度上優(yōu)于其它三種機器學習算法。

表6 四種預測模型的預測精度對比

4 結論

使用注塑加工過程產生的大數據，經過數據預處理和Pearson相關系數提取特征，建立貝葉斯優(yōu)化的LightGBM算法進行訓練和測試，實現對注塑制品尺寸的智能預測。并通過與隨機森林、支持向量機以及人工神經網絡進行對比驗證，結果表明經貝葉斯優(yōu)化后的LightGBM模型在平均絕對誤差、均方誤差以及決定系數等評價指標上的分數均為最優(yōu)，能夠準確地預測注塑制品的尺寸，并能準確反映注塑制品尺寸的變化趨勢。