亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于KMUS-RF算法的復雜產(chǎn)品關鍵質(zhì)量特性識別研究

2021-11-05 23:22:41柳嘉昊

中小企業(yè)管理與科技·下旬刊 2021年10期

柳嘉昊

【摘? 要】復雜產(chǎn)品生產(chǎn)數(shù)據(jù)具有高維度、不平衡的特點，為在復雜產(chǎn)品的生產(chǎn)階段有效識別關鍵質(zhì)量特性，及時進行質(zhì)量控制，論文提出了一種基于聚類欠采樣的改進隨機森林算法（Random forest algorithm base on K-Means clustering under sampling，KMUS-RF），利用K-Means算法對多數(shù)樣本進行聚類，并根據(jù)聚類結(jié)果進行多次欠采樣形成多個平衡數(shù)據(jù)集，以隨機森林為基分類器進行識別，最終根據(jù)分類過程中的特征重要性輸出關鍵質(zhì)量特性集。算例表明，KMUS-RF算法相比現(xiàn)有的多種分類器有良好的整體分類性能，并能顯著降低復雜產(chǎn)品分類的第二類錯誤率，滿足產(chǎn)品實際生產(chǎn)需求。

【Abstract】The production data of complex products have the characteristics of high dimension and imbalance. In order to effectively identify the critical-to-quality characteristics in the production stage of complex products and timely control the quality， this paper proposes an improved random forest algorithm base on K-Means clustering under sampling （KMUS-RF）. K-Means algorithm is used to cluster the majority of samples， and multiple undersampling is performed according to the clustering results to form multiple balanced data sets. The random forest based classifier is used for recognition， and finally the critical-to-quality characteristics set is output according to the feature importance in the classification process. Numerical examples show that KMUS-RF algorithm has good overall classification performance compared with existing classifiers， and can significantly reduce the type II error rate of complex product classification， and meet the actual production needs of products.

【關鍵詞】關鍵質(zhì)量特性;不平衡數(shù)據(jù);隨機森林;K-Means;第二類錯誤

【Keywords】critical-to-quality characteristics; imbalanced data; random forest; K-Means; type II error

【中圖分類號】F273.2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069（2021）10-0134-04

1 引言

質(zhì)量強則國家強，質(zhì)量興則民族興，質(zhì)量可靠性是產(chǎn)品生產(chǎn)最基本的要求。在復雜產(chǎn)品的生產(chǎn)制造過程中，由于復雜產(chǎn)品由諸多系統(tǒng)組成，且它們具有高度集成、系統(tǒng)之間相互關聯(lián)、相互制約的特點，因此需要控制的變量極多。例如，汽車發(fā)動機由五大系統(tǒng)和兩大機構(gòu)組成。五大系統(tǒng)是燃料供給系統(tǒng)、冷卻系統(tǒng)、潤滑系統(tǒng)、點火系統(tǒng)和起動系統(tǒng)。兩大機構(gòu)是曲柄連桿機構(gòu)和配氣機構(gòu)，其中某一系統(tǒng)又由活塞、連桿、搖臂等零部件組成，零部件又能進一步被分解為螺絲、軸承等，每一微小的零部件都有尺寸、重量等質(zhì)量特性。在復雜產(chǎn)品被從部件分解成零件的過程中，產(chǎn)品質(zhì)量特性數(shù)據(jù)集的維度會隨著產(chǎn)品結(jié)構(gòu)的逐步分解而不斷升高。另外，在實際生產(chǎn)過程中，產(chǎn)品數(shù)據(jù)往往具有不平衡性。在制造業(yè)中，如果生產(chǎn)出的合格產(chǎn)品數(shù)量是不合格產(chǎn)品數(shù)量的10倍以上，就稱這樣的數(shù)據(jù)為不平衡數(shù)據(jù)（Imbalance Data Sets，IDS）。高維度、不平衡的復雜產(chǎn)品生產(chǎn)數(shù)據(jù)使質(zhì)量控制成為難題。因此，質(zhì)量問題成為復雜產(chǎn)品生產(chǎn)控制的關鍵問題，這不僅關系到復雜裝備的生產(chǎn)質(zhì)量問題，更關系到經(jīng)濟安全甚至生命安全。為了在較低的控制成本下有效實現(xiàn)質(zhì)量控制，就需要從高維度、不平衡的質(zhì)量特性數(shù)據(jù)集中識別出對產(chǎn)品質(zhì)量有顯著影響的關鍵質(zhì)量特性（Critical-to-Quality Characteristics，CTQ）。

2 相關研究工作概述

傳統(tǒng)的CTQ識別主要依賴于工程人員的專業(yè)知識或者是顧客的需求，從產(chǎn)品構(gòu)造、產(chǎn)品加工、工程特性、顧客需求等角度定性或定量方法識別產(chǎn)品的CTQ。應用最多的就是質(zhì)量功能展開法（Quality Function Deployment，QFD）。QFD法主要包括以下幾個步驟：調(diào)查顧客需求、產(chǎn)品規(guī)劃、產(chǎn)品設計方案確定、零部件規(guī)劃、零部件設計和工藝過程設計、工藝規(guī)劃、工藝質(zhì)量控制。

至今，QFD仍被認為是產(chǎn)品設計階段CTQ識別的最有效方法。但是，在應用中發(fā)現(xiàn)，當QFD法應用于高維度、不平衡的數(shù)據(jù)集時會因自身的局限性而大大降低效率，QFD法的質(zhì)量矩陣變得難以確定，由此便產(chǎn)生了通過數(shù)據(jù)挖掘、機器學習等方法識別產(chǎn)品CTQ的研究，這方面的研究還相對較少。閆偉等（2012）通過改進ReliefF算法、Wrapper方法及EM（Expectation Maximization）算法，有效提高了CTQ識別性能并大幅降低了第二類錯誤率，還在2014年通過調(diào)整CEM（Classification EM Algorithm）算法的K值輸出不同的聚類結(jié)果，消除冗余樣本后作為IG（Information Gain）算法的輸入，有效降低了數(shù)據(jù)高維度和不平衡帶來的負面影響，正確識別了產(chǎn)品CTQ集。李岸達等（2016）提出了基于NSGA-II的特征選擇算法，引入第II類錯誤率度量質(zhì)量特性子集的重要性，通過理想點法在非支配解集中選擇最佳調(diào)和解，得到產(chǎn)品的CTQ集。

從現(xiàn)有研究中發(fā)現(xiàn)，目前的CTQ識別方法有以下幾點不足：難以應用于高維度、不平衡的復雜產(chǎn)品數(shù)據(jù)集;未考慮到第二類錯誤率對實際生產(chǎn)中的影響;基于數(shù)據(jù)挖掘、機器學習的CTQ識別算法不夠高效。針對以上不足，本文旨在提供一種算法，能高效識別產(chǎn)品CTQ集，可應用于高維度、不平衡的數(shù)據(jù)集，并且能夠降低第二類錯誤率，滿足實際生產(chǎn)中的需要。

3 研究思路和方法

3.1 構(gòu)建基于改進隨機森林算法的CTQ識別方法

本文從不同于傳統(tǒng)CTQ識別方法的視角，構(gòu)建了一套完整的高維度、不平衡復雜產(chǎn)品數(shù)據(jù)集CTQ識別方法，基本框架如圖1所示。

基于改進隨機森林算法的CTQ識別方法步驟如下：

①獲取復雜產(chǎn)品原始質(zhì)量特性數(shù)據(jù)集。

②數(shù)據(jù)預處理（填補缺失值、標準化數(shù)據(jù)）。

③對多數(shù)類樣本進行K-Means聚類。

④根據(jù)聚類結(jié)果進行欠采樣生成n個多數(shù)類樣本集。

⑤將每個多數(shù)類樣本集與少數(shù)類樣本集組成n個平衡的訓練集。

⑥對每個平衡訓練集用決策樹進行分類，直至生成n棵決策樹形成隨機森林。

⑦對于測試集，經(jīng)過每棵樹決策判斷，最后投票確認分到哪一類。

⑧根據(jù)分類過程中的特征重要性輸出CTQ質(zhì)量特性數(shù)據(jù)集。

該方法的構(gòu)建總體分為3個階段：第一階段（步驟①、②）對原始高維度、不平衡數(shù)據(jù)進行初始處理;第二階段（步驟③～⑥）基于聚類欠采樣的改進隨機森林算法（Random forest algorithm base on K-Means clustering under sampling，KMUS-RF）對樣本數(shù)據(jù)進行分類;第三階段（步驟⑦、⑧）驗證算法的有效性，并輸出CTQ數(shù)據(jù)集。

3.2 KMUS-RF算法評價指標

為評價KMUS-RF算法的分類效果，本文構(gòu)建了混淆矩陣，如表1所示。TN表示模型將反類樣本預測為反類的數(shù)量，F(xiàn)P表示模型將反類樣本預測為正類的數(shù)量，F(xiàn)N表示模型將正類樣本預測為反類的數(shù)量，TP表示模型將正類樣本預測為正類的數(shù)量。

基于表1，可以得到各種分類性能的衡量指標，包括：分類精度（Accuracy）、準確率（Precision）、召回率（Recall）、F1得分（F-score）、第二類錯誤率（Type II error）。各評價指標的計算如式（1）～（5）所示。

本文選用分類精度和第二類錯誤率2個指標對分類結(jié)果進行評價。其中，第一類錯誤的定義為錯誤地將合格產(chǎn)品判定為不合格產(chǎn)品，這類錯誤的風險承擔者為生產(chǎn)者，因此也被稱為“生產(chǎn)者風險”;第二類錯誤的定義為錯誤地將不合格產(chǎn)品判定為合格產(chǎn)品，這類錯誤的風險承擔者為消費者，因此也被稱為“消費者風險”。在復雜產(chǎn)品的生產(chǎn)過程中，第二類錯誤帶來的損失通常遠高于第一類錯誤。因此，本文選用的評價指標兼顧了分類器的性能和實際生產(chǎn)應用的需求。

4 實證分析

4.1 數(shù)據(jù)獲取與預處理

本文復雜產(chǎn)品質(zhì)量特性數(shù)據(jù)集來源于UCI數(shù)據(jù)庫的SECOM數(shù)據(jù)集，該數(shù)據(jù)集為半導體生產(chǎn)過程控制數(shù)據(jù)。數(shù)據(jù)集共有樣本1567個，每個樣本有590個質(zhì)量特性，將其標號為“Q0”“Q1”…“Q589”，樣本分為合格產(chǎn)品和不合格產(chǎn)品2類，其中合格產(chǎn)品數(shù)量為1463個，不合格產(chǎn)品數(shù)量為104個。SECOM數(shù)據(jù)集中質(zhì)量特性數(shù)量多，合格產(chǎn)品數(shù)量超過不合格產(chǎn)品數(shù)量的10倍，是典型的高維度、不平衡數(shù)據(jù)集。因此，在分類器識別之前需要對數(shù)據(jù)進行預處理。

首先，填補缺失值。SECOM數(shù)據(jù)集中，部分樣本缺少某個或某幾個質(zhì)量特性的數(shù)據(jù)，為便于模型進行預測，本文使用均值填充法（Mean Completer），用每一質(zhì)量特性的均值填充缺失值。

接著，標準化數(shù)據(jù)。為進一步提高模型的收斂速度和預測精度，本文使用標準差標準化（StandardScaler）對數(shù)據(jù)樣本進行無量綱化處理，具體方法如式（6）所示。

（6）

式中，x'表示無量綱化樣本，x表示原始樣本，表示樣本均值，s表示樣本標準差。最后，分割數(shù)據(jù)集為訓練集和測試集，本文隨機選取26個合格產(chǎn)品和26個不合格產(chǎn)品組成測試集，剩余數(shù)據(jù)為訓練集，具體信息如表2所示。

4.2 基于K-Means聚類欠采樣

隨機森林算法基分類器的多樣性將決定最終分類效果，為此，本文通過聚類的欠采樣方法構(gòu)建不同的訓練子集，以提高基分類器的多樣性。首先，對多數(shù)類樣本進行K-Means聚類，具體過程如下：①從多數(shù)類樣本中選擇k個樣本作為初始簇中心：C=η。②計算每個多數(shù)類樣本xj到k個簇中心ηi（1≤i≤k）的歐氏距離dij，確定xj的簇標記λj=arg mini∈{1，2，…，k）dij，并分配給最近的簇中心Cλj=Cλj∪{xj}。③將每個簇中心設置為所分配的所有多數(shù)類樣本的平均值。④重復步驟②、③直至簇中心不再變化，結(jié)束循環(huán)。⑤輸出多數(shù)類樣本的聚類結(jié)果。

本文取k=39，經(jīng)過K-Means聚類后，訓練集中的多數(shù)類樣本被聚類成39個簇。接著，從39個簇中有放回得抽樣2次，并與少數(shù)類樣本進行合并，生成1個平衡訓練子集（其中含有78個多數(shù)類樣本和78個少數(shù)類樣本）。最后，重復進行上一步中的抽樣，得到n個平衡訓練子集。

4.3 基于隨機森林算法的產(chǎn)品分類實現(xiàn)

對上文得到的n個平衡訓練子集，構(gòu)建n棵決策樹組成的隨機森林，根據(jù)每棵決策樹對單一訓練子集的訓練結(jié)果，對測試集進行分類，最終輸出n棵決策樹投票得到測試集分類結(jié)果。

本文設定n=50，為增加實驗結(jié)果的客觀性，本文通過調(diào)整采樣時的隨機數(shù)種子，進行5次實驗，分別記為E1、E2、E3、E4、E5。結(jié)果如表3所示。

此外，本文選擇RF、RUS-RF、SMOTEENN-RF、SMOTETomek-RF、ADASYNENN-RF、CEM-IG、改進ReliefF、改進Wrapper、改進EM九種算法作為本文的對照算法。

其中，RF代表不做任何處理的隨機森林算法;RUS-RF代表先采用隨機欠采樣，再用隨機森林進行分類的算法;SMOTEENN-RF代表先用SMOTE進行過采樣，再用EditedNearestNeighbours進行欠采樣，最后用隨機森林進行分類的算法;SMOTETomek-RF代表先用SMOTE進行過采樣，再用Tomek Links進行欠采樣，最后用隨機森林進行分類的算法;ADASYNENN-RF代表先用ADASYN進行過采樣，再用EditedNearestNeighbours進行欠采樣，最后用隨機森林進行分類的算法，其余為現(xiàn)有文獻中應用的算法。另外，在用到隨機森林進行分類的算法中，統(tǒng)一設定用50棵決策樹進行投票。各算法的比較結(jié)果如表4所示。

從表4可以很直觀地看出，本文提出的基于KMUS-RF算法的分類方法在分類精度和第二類錯誤率2個指標均優(yōu)于現(xiàn)有的基于重采樣技術的隨機森林算法，證明本文的聚類欠采樣方法能夠良好保留多數(shù)類樣本的信息。

此外，與其他CTQ識別算法相比，雖然分類精度不是最優(yōu)，但也表現(xiàn)出良好的性能。本文算法大幅降低了產(chǎn)品分類的第二類錯誤率，有效降低了實際生產(chǎn)過程中的負面影響。

4.4 基于KMUS-RF算法的CTQ識別

本文根據(jù)每次實驗中隨機森林算法的特征重要性（feature_importance）進行降序排列，即對影響復雜產(chǎn)品分類結(jié)果的各個質(zhì)量特性的重要性從高到低進行排列，可認為，某個質(zhì)量特性對分類結(jié)果影響越大，該質(zhì)量特性越重要。為不失一般性，本文對5次實驗的前top_n個質(zhì)量特性取交集，得到對每次實驗的產(chǎn)品分類都起重要作用的質(zhì)量特性集，將其作為CTQ集，具體結(jié)果如表5所示。

由表5可得，通過對top_n值的改變，能夠明顯看出質(zhì)量特性的重要性梯度，在實際生產(chǎn)應用中，企業(yè)可根據(jù)自身的質(zhì)量控制能力靈活調(diào)整top_n值，對關鍵質(zhì)量特性進行有效控制，便于及時發(fā)現(xiàn)產(chǎn)品缺陷，調(diào)整生產(chǎn)策略。

5 結(jié)論與展望

近年來，隨著制造業(yè)的不斷發(fā)展和各種測量儀器的進步，從產(chǎn)品加工過程中獲得各個零部件的尺寸參數(shù)等技術已較為成熟，但復雜產(chǎn)品組成系統(tǒng)眾多，客觀上造成了數(shù)據(jù)的高維度性，而合格產(chǎn)品數(shù)量遠大于不合格產(chǎn)品數(shù)量，又造成了數(shù)據(jù)的不平衡性，這2個特性給企業(yè)在生產(chǎn)過程中的CTQ識別控制帶來了一定困擾。本文提出的KMUS-RF算法以高維度、不平衡的復雜產(chǎn)品生產(chǎn)數(shù)據(jù)為研究對象，算例結(jié)果表明：該方法可以準確地對復雜產(chǎn)品進行分類，并有效識別復雜產(chǎn)品CTQ集，還能有效降低產(chǎn)品分類的第二類錯誤率。算法既給復雜產(chǎn)品高維度、不平衡數(shù)據(jù)的CTQ識別研究提供了理論借鑒，也給企業(yè)實際生產(chǎn)過程中進行質(zhì)量控制、降低第二類錯誤率提供了方法參考。在后續(xù)的研究中，可將更多的數(shù)據(jù)挖掘、機器學習方法應用于復雜產(chǎn)品CTQ識別中，探究更精確的算法，也可根據(jù)其他復雜產(chǎn)品生產(chǎn)數(shù)據(jù)集對本文算法進行改進和創(chuàng)新。

【參考文獻】

【1】李伯虎.復雜產(chǎn)品制造信息化的重要技術——復雜產(chǎn)品集成制造系統(tǒng)[J].中國制造業(yè)信息化，2006（14）：20-24.

【2】張健，方宏彬.剪枝與欠采樣相結(jié)合的不平衡數(shù)據(jù)分類方法[J].計算機應用研究，2012，29（03）：847-848.

【3】何益海，唐曉青，王美清.產(chǎn)品設計質(zhì)量數(shù)據(jù)與管理模型研究[J].計算機集成制造系統(tǒng)，2006，12（8）：1161-1166.

【4】馬驪.隨機森林算法的優(yōu)化改進研究[D].廣州：暨南大學，2016.

【5】Chawla N V， Bowyer K W， Hall L O， et al. SMOTE： Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research，2002，16（1）：321-357.

【6】He H， Bai Y， Garcia E A， et al. ADASYN： Adaptive synthetic sampling approach for imbalanced learning[C]// Neural Networks， 2008. IJCNN 2008. （IEEE World Congress on Computational Intelligence）.

IEEE International Joint Conference on. IEEE， 2008.

【7】Batista G E A P A ， Prati R C， Monard M C. A study of the behavior of several methods for balancing machine learning training data[J].Acm Sigkdd Explorations Newsletter，2004，6（1）：20-29.

【8】閆偉.基于數(shù)據(jù)挖掘的復雜產(chǎn)品關鍵質(zhì)量特性識別的方法研究[D].天津：天津大學，2012.

【9】閆偉，何楨，李岸達.基于CEM—IG算法的復雜產(chǎn)品關鍵質(zhì)量特性識別[J].系統(tǒng)工程理論與實踐，2014（5）：1230-1236.

【10】于志忠.利用QFD方法建立基于顧客滿意的質(zhì)量目標[J].中國認證認可，2010（11）：35-37.

【11】李岸達，何楨，何曙光.基于NSGA-Ⅱ的非平衡制造數(shù)據(jù)關鍵質(zhì)量特性識別[J].系統(tǒng)工程理論與實踐，2016，36（06）：1472-1479.