周鵬,何飛,梁冰,徐科
?
基于Adaboost加權(quán)支持向量機(jī)的熱軋板帶彎曲性能質(zhì)量預(yù)警
周鵬1,何飛2,梁冰2,徐科2
(1. 北京科技大學(xué)工程技術(shù)研究院,北京,100083;2. 北京科技大學(xué)鋼鐵共性技術(shù)協(xié)同創(chuàng)新中心,北京,100083)
針對熱軋帶鋼彎曲性能質(zhì)量監(jiān)控與預(yù)警過程中因正常樣本與異常樣本的比例嚴(yán)重失衡而導(dǎo)致質(zhì)量監(jiān)控過程中預(yù)警不靈敏、異常檢出率較低的問題,從數(shù)據(jù)層面和算法層面研究不平衡樣本數(shù)據(jù)的質(zhì)量預(yù)警問題,提出基于Adaboost加權(quán)支持向量機(jī)的熱軋帶鋼彎曲性能質(zhì)量預(yù)警方法。研究結(jié)果表明:采用該方法所得平均異常檢出率提高至88.58%,誤判率為0.63%。該方法具有較強(qiáng)的異常檢出能力,能夠?yàn)闊彳埌鍘a(chǎn)過程的質(zhì)量預(yù)警提供保障。
帶鋼彎曲性能;質(zhì)量預(yù)警;Adaboost加權(quán)支持向量機(jī)
彎曲性能是指材料在經(jīng)受彎曲負(fù)荷作用時的彎曲強(qiáng)度以及抵抗塑性變形的能力。帶鋼往往要經(jīng)過多道次的深加工(如沖壓、冷彎成型、焊接等)才能成為產(chǎn)品,這就要求帶鋼除了尺寸精度和表面質(zhì)量符合標(biāo)準(zhǔn)要求外,更重要的是要有良好的彎曲性能,否則就會在深加工過程出現(xiàn)開裂、塌陷、分離等缺陷[1]。因此,需對帶鋼彎曲性能數(shù)據(jù)進(jìn)行質(zhì)量預(yù)警,根據(jù)實(shí)際生產(chǎn)數(shù)據(jù)可以及時檢出異常產(chǎn)品,甚至在成熟的質(zhì)量預(yù)警模型的基礎(chǔ)上實(shí)現(xiàn)質(zhì)量優(yōu)化。然而,在質(zhì)量預(yù)警的過程中,異常數(shù)據(jù)往往占很少一部分,出現(xiàn)不平衡分類問題,為異常的檢出帶來困難[2]。常用的不平衡數(shù)據(jù)分類策略包括數(shù)據(jù)層面和算法層面2類策略[3]。數(shù)據(jù)層面方法的策略是通過對數(shù)據(jù)進(jìn)行重采樣(re-sampling)來調(diào)整原始數(shù)據(jù)集的樣本分布,具體方法包括過采樣(over-sampling)和欠采樣(under-sampling) 2種,其主要思想是通過合理增加或者減少一定量的樣本去重新實(shí)現(xiàn)樣本的平衡,從而減輕數(shù)據(jù)不平衡對分類器造成的負(fù)面影響。常規(guī)欠采樣方法對多數(shù)類的數(shù)據(jù)進(jìn)行相應(yīng)處理,將離分類邊界較遠(yuǎn)的數(shù)據(jù)進(jìn)行剔除,或隨機(jī)刪除多數(shù)類數(shù)據(jù),但并沒有考慮數(shù)據(jù)信息的問題[4]。FN欠采樣方法(furthest neighbor based under-sampling)試圖在樣本集的每一區(qū)域均保留一定量的樣本,以便較好地保留數(shù)據(jù)的真實(shí)性[5]。常規(guī)的過采樣方法是隨機(jī)復(fù)制某一類樣本,而改進(jìn)后的過采樣方法SMOTE(synthetic minority over-sampling technique)算法[6?8]是利用近鄰和線性插值,在相距較近的2個少數(shù)類樣本間按照一定的規(guī)則人為地插入新的樣本,使少數(shù)類樣本數(shù)目增加,數(shù)據(jù)集趨于平衡。本文作者從數(shù)據(jù)層面和算法層面,嘗試多種解決不平衡分類問題的方法,對比其在隨機(jī)樣本集中異常檢出率的穩(wěn)定性以及在不同樣本比例下的泛化能力。最終從算法層面對不平衡數(shù)據(jù)進(jìn)行分析,采用優(yōu)秀的支持向量機(jī)作為數(shù)據(jù)分類器,引入加權(quán)函數(shù)來減少不平衡數(shù)據(jù)帶來的影響[9?10]。Adaboost算法可以通過循環(huán)迭代多次更新樣本分布,增強(qiáng)分類效果。為此,本文作者提出Adaboost加權(quán)支持向量機(jī)的質(zhì)量預(yù)警方法,分別從數(shù)據(jù)層面和算法層面提高不平衡數(shù)據(jù)的分類效果。
熱連軋生產(chǎn)常以連鑄板坯為原料,將鋼材加工為厚度為2~6 mm的板帶產(chǎn)品。常用的帶鋼熱連軋生產(chǎn)線一般包括:加熱爐區(qū)、粗軋區(qū)、粗精軋之間的中間輥道及飛剪、精軋區(qū)[11]、熱輸出輥道及層流冷卻裝置、卷取區(qū)等,如圖1所示。
帶鋼熱連軋生產(chǎn)過程需要保證成品帶鋼的質(zhì)量,具體如下:1) 厚度精度、寬度精度、凸度及平直度等尺寸形狀參數(shù);2) 屈服強(qiáng)度、抗拉強(qiáng)度、延伸率、彎曲性能和硬度等力學(xué)性能;3) 劃痕、裂紋等[1]。
彎曲性能是衡量帶鋼沖壓成形的重要指標(biāo)。研究選用的鋼種屬于高碳鋼,彎曲試驗(yàn)主要用于測定其抗彎強(qiáng)度,也能反映塑性指標(biāo)的撓度。按照國家標(biāo)準(zhǔn)GB232“金屬材料彎曲試驗(yàn)方法”,在萬能材料機(jī)上進(jìn)行彎曲試驗(yàn),以測試由軋帶鋼的彎曲性能。試驗(yàn)時將試樣加載,使其彎曲到一定程度,觀察試樣表面有無裂縫,若有裂縫,則說明彎曲性能異常。
某生產(chǎn)線時常會出現(xiàn)彎曲性能異常的情況,從實(shí)際的機(jī)理模型出發(fā)難以解釋其原因,為此,擬從數(shù)據(jù)分析角度進(jìn)行質(zhì)量異常診斷。首先從工藝角度分析,收集可能引起彎曲質(zhì)量異常的工藝參數(shù)和對應(yīng)的彎曲性能類別。根據(jù)實(shí)際數(shù)據(jù)采集情況和工藝需求,主要收集如下3類參數(shù):化學(xué)成分信息(包括C,Si,Mn,P和S等的質(zhì)量分?jǐn)?shù))、熱軋溫度信息(包括粗軋出口溫度、精軋入口溫度、精軋出口溫度和卷取溫度)、厚度壓下率(指精軋入口到出口的壓下率)。
圖1 熱連軋生產(chǎn)過程的布置圖
在實(shí)際的質(zhì)量預(yù)警中,由于質(zhì)量數(shù)據(jù)中出現(xiàn)異常的數(shù)據(jù)屬于少數(shù),給質(zhì)量預(yù)警帶來困難,為此,從2個方面解決不平衡數(shù)據(jù)帶來的困難:一是基于支持向量機(jī)分類的自身算法針對不平衡數(shù)據(jù)問題進(jìn)行改進(jìn),另一個是采用加強(qiáng)算法對支持向量機(jī)算法進(jìn)行強(qiáng)化。
由常規(guī)支持向量機(jī)(SVM)決策分類面:
則決策函數(shù)可以寫成
其中:參數(shù)控制不同的支持向量在分類決策函數(shù)中的權(quán)重。當(dāng)2類樣本數(shù)量基本一致,同時支持向量分布均衡時,取值應(yīng)相同,即所有的支持向量權(quán)重是相等的;而當(dāng)樣本分布不均衡時,決策函數(shù)傾向于將邊界處的測試樣本劃分到多數(shù)類樣本的范疇中,所以,在新的算法中,應(yīng)該調(diào)整少數(shù)類樣本權(quán)重,使少數(shù)類樣本支持向量在分類決策函數(shù)中的比重加大。為此,引入?yún)?shù)來調(diào)整多數(shù)類與少數(shù)類之間的差距。則新的決策函數(shù)為
其中:為控制少數(shù)類樣本支持向量在決策函數(shù)中的權(quán)重,≥1。由于和包含在指數(shù)項(xiàng)內(nèi),因此,取值較小。根據(jù)經(jīng)驗(yàn),取值應(yīng)該在[1,1.01]之間,稱這種帶權(quán)重的SVM算法為SVM。
Adaboost算法[13]通過循環(huán)迭代多次更新樣本分布,尋找當(dāng)前分布下的最優(yōu)弱分類器,并計(jì)算弱分類器誤差率;然后聚合多次訓(xùn)練的弱分類器。其完整流程的偽代碼如下。
1) 定義。
2) For=1 to,為循環(huán)迭代次數(shù)。
并令
②將弱分類器集合到強(qiáng)分類器中:
③更新樣本分布權(quán)重:
3) 輸出最終集成得到強(qiáng)分類器:
Adaboost具有如下特點(diǎn):
①每次迭代改變的是樣本的分布,而不是重復(fù)采樣(re-weight)。
②樣本分布的改變?nèi)Q于樣本是否被正確分類:總是分類正確的樣本權(quán)值低,總是分類錯誤的樣本權(quán)值高(通常是邊界附近的樣本)。
③最終的結(jié)果是弱分類器的加權(quán)組合,權(quán)值表示該弱分類器的性能。
簡單來說,Adaboost有很多優(yōu)點(diǎn),它是一種較高精度的分類器,可以使用各種方法構(gòu)建子分類器。Adaboost算法僅為算法提供框架,不存在過擬合問題?;贏daboost加權(quán)支持向量機(jī)算法不僅結(jié)合了Adaboost算法和加權(quán)算法對于解決不平衡問題的優(yōu)點(diǎn),而且采用了優(yōu)秀的分類算法SVM,具有較強(qiáng)的解決不平衡問題的能力,具體流程如圖2所示。
圖2 Adaboost加權(quán)支持向量機(jī)算法流程圖
為驗(yàn)證方法的有效性,從實(shí)際生產(chǎn)線采集相關(guān)數(shù)據(jù)對算法進(jìn)行分析。
在某熱軋帶鋼生產(chǎn)線中選擇同一鋼種、同一厚度的帶鋼作為研究對象,發(fā)現(xiàn)其中有71卷帶鋼的彎曲性能存在異常,而有890個樣本的彎曲性能正常,屬于典型的不平衡分類問題。分別采用相關(guān)算法進(jìn)行分類預(yù)警分析。所有樣本的各變量統(tǒng)計(jì)值如表1所示。為消除量綱對結(jié)果的影響,在分析之前首先對數(shù)據(jù)集中各變量進(jìn)行標(biāo)準(zhǔn)化處理。
在Adaboost+SVM方法中,權(quán)重系數(shù)和迭代次數(shù)是非常重要的2個參數(shù),對誤差率和檢出率影響較大。圖3~4所示分別為權(quán)重和迭代次數(shù)對誤差率和檢出率的影響。由圖3~4可知:當(dāng)boost循環(huán)次數(shù)取值大于某一值后誤差率和檢出率趨于平穩(wěn),說明該方法對取值不敏感,可供后續(xù)使用。
為驗(yàn)證方法的有效性,重復(fù)試驗(yàn)100次,各方法實(shí)驗(yàn)結(jié)果如表2~3所示。
從表2可以看出:各方法的異常檢出率相對于單純的SVM建模方法均有很大的提高,且都有一定的波動范圍;隨機(jī)過采樣+SVM方法、SMOTE+SVM方法及Adaboost+SVM方法的檢出率均值達(dá)85.00%以上,其中Adaboost+SVM方法的檢出率波動范圍最小(標(biāo)準(zhǔn)差為6.47)。在100次隨機(jī)試驗(yàn)中,比較各方法的檢出率,SMOTE+SVM方法勝出次數(shù)最多(34次)。從表3可以看出:在檢出率提高的同時,誤判率也相應(yīng)增加。在欠采樣方法和過采樣方法中,誤判率增加得更為明顯;SVM方法誤判率均值及標(biāo)準(zhǔn)差均最小(均值為0.22,標(biāo)準(zhǔn)差為0.46),其勝出次數(shù)也最高(51次)。但若同時考慮檢出率及誤判率,則Adaboost+SVM方法可以達(dá)到較高的檢出率及較低的誤判率,且方法相對較穩(wěn)定,在多次隨機(jī)試驗(yàn)中,均有較好的效果。因此, Adaboost+SVM 具有較好的算法優(yōu)勢,更有利于實(shí)際應(yīng)用。
表1 變量統(tǒng)計(jì)值
(a) 誤判率與μ的關(guān)系;(b) 檢出率與μ的關(guān)系
(a) 誤判率與boost循環(huán)數(shù)的關(guān)系;(b) 檢出率與boost循環(huán)數(shù)的關(guān)系
表2 100次隨機(jī)試驗(yàn)異常檢出率
注:表中各指標(biāo)最優(yōu)值用黑體表示。
表3 100次隨機(jī)試驗(yàn)誤判率
注:表中各指標(biāo)最優(yōu)值用黑體表示。
在不平衡數(shù)據(jù)分析中,少數(shù)樣本的比例是一個重要的影響指標(biāo)。為更好地對比各方法對不平衡程度的影響,對數(shù)據(jù)集進(jìn)行9次抽樣形成訓(xùn)練集,其中異常樣本分別占總樣本的10%,20%,…,90%。對訓(xùn)練集進(jìn)行訓(xùn)練,并應(yīng)用訓(xùn)練模型對原始數(shù)據(jù)集分類。以誤判率為橫軸,檢出率為縱軸,繪制ROC曲線[14],如圖5所示。
從圖5可以看出:Adaboost+SVM方法的曲線最接近左上方,說明該方法一般化能力最強(qiáng)。對彎曲性能數(shù)據(jù)分類時,通過對比不同解決方法的改善效果、穩(wěn)定性以及泛化能力,得出最優(yōu)解決方案為Adaboost與SVM結(jié)合的方法。通過該最優(yōu)方案對彎曲性能數(shù)據(jù)進(jìn)行分類建模,平均異常檢出率從33.33%提高至88.58%,平均誤判率為0.63%,對異常樣本的預(yù)警能力大大提高。
1—SVM;2—欠采樣+SVM;3—FN欠采樣+SVM;4—過采樣+SVM;5—SMOTE+SVM;6—μSVM;7—Adaboost+SVM;8—Adaboost+μSVM。
1) 提出Adaboost+SVM的質(zhì)量預(yù)警方法,分別從數(shù)據(jù)層面和算法層面解決不平衡樣本的分類問題。比較多種方法在質(zhì)量預(yù)警效果、穩(wěn)定性以及泛化能力中的表現(xiàn),證實(shí)Adaboost+SVM方法在綜合性能上表現(xiàn)最優(yōu)。
2) 通過Adaboost+SVM方法對熱軋帶鋼彎曲性能數(shù)據(jù)進(jìn)行分類建模,異常樣本平均檢出率從33.33%提高至88.58%,達(dá)到較好的質(zhì)量預(yù)警效果。
[1] 何飛, 徐金梧, 梁治國, 等. 基于核熵成分分析的熱軋帶鋼自適應(yīng)聚類分析[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 43(5): 1732?1738. HE Fei, XU Jinwu, LIANG Zhiguo, et al. Hot rolled strip state clustering based on kernel entropy component analysis[J]. Journal of Central South University (Science and Technology), 2012, 43(5): 1732?1738.
[2] 葉志飛, 文益民, 呂寶糧. 不平衡分類問題研究綜述[J]. 智能系統(tǒng)學(xué)報(bào), 2009, 4(2): 148?156.YE Zhifei, WEN Yimin, LV Baoliang. A survey of imbalanced pattern classification problems[J]. China Association of Artificial Intelligence Transactions on Intelligent Systems, 2009, 4(2): 148?156.
[3] 王德成, 林輝. 一種SVM不平衡分類方法及在故障診斷的應(yīng)用[J]. 電機(jī)與控制學(xué)報(bào), 2012, 16(9): 48?52.WANG Decheng LIN Hui.Imbalanced pattern classification method based on support vector machine and its application on fault diagnosis[J]. Electric Machines and Control, 2012, 16(9): 48?52.
[4] 李倩倩, 劉胥影. 多類類別不平衡學(xué)習(xí)算法: Easy Ensemble. M [J]. 模式識別與人工智能, 2014, 27(2): 187?192.LI Qianqian LIU Xuying. EasyEnsemble. M for Multiclass Imbalance Problem[J]. Pattern Recognition and Artificial Intelligence, 2014, 27(2): 187?192.
[5] 朱明, 陶新民. 基于隨機(jī)下采樣和 SMOTE 的不均衡 SVM 分類算法[J]. 信息技術(shù), 2012, 1: 39?43.ZHU Ming TAO Xinmin. The SVM classifier for unbalanced data based on combination of RU-Undersample and SMOTE[J]. Information Technology, 2012, 1: 39?43.
[6] 王超學(xué), 潘正茂, 董麗麗, 等. 基于改進(jìn) SMOTE 的非平衡數(shù)據(jù)集分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2013, 49(2): 184?187.WANG Chaoxue, PAN Zhengmao, DONG Lili, et al. Research on classification for imbalanced dataset based on improved SMOTE[J]. Computer Engineering and Applications, 2013, 49(2): 184?187.
[7] 趙自翔, 王廣亮, 李曉東. 基于支持向量機(jī)的不平衡數(shù)據(jù)分類的改進(jìn)欠采樣方法[J]. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 51(6): 10?16. ZHAO Zixiang, WANG Guangliang, LI Xiaodong. An improved SVM based under-sampling method for classifying imbalanced data[J]. Acta Scientiarum Naturalium Universitatis Sunyatseni, 2013, 51 (6): 10?16.
[8] BLAGUS R, LUSA L. SMOTE for high-dimensional class-imbalanced data[J]. BMC Bioinformatics, 2013, 14(3): 106?121.
[9] LóPEZ J, MALDONADO S. Group-penalized feature selection and robust twin SVM classification via second-order cone programming[J]. Neurocomputing, 2017, 235(c): 112?121.
[10] LEE W, JUN C H, LEE J S. Instance categorization by support vector machines to adjust weights in AdaBoost for imbalanced data classification[J]. Information Sciences, 2017, 381: 92?103.
[11] 王健, 劉長青, 肖宏. 熱連軋精軋機(jī)組預(yù)設(shè)定和自適應(yīng)研究[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 43(7): 2607?2612. WANG Jian, LIU Changqing, XIAO Hong, Research on finishing setup and self-adaptive of hot strip mill[J]. Journal of Central South University (Science and Technology), 2012, 43(7): 2607?2612.
[12] 江彤, 唐明珠, 陽春華. 基于不確定性采樣的自訓(xùn)練代價(jià)敏感支持向量機(jī)研究[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 43(2): 158?163.JIANG Tong TANG Mingzhu YANG Chunhua. Self-training cost-sensitive support vector machine with uncertainty based on sampling[J]. Journal of Central South University (Science and Technology), 2012, 43(2): 158?163.
[13] FREUND Y, IYER R, SCHAPIRE R E, et al. An efficient boosting algorithm for combining preferences[J]. Journal of Machine Learning Research, 2003, 4(6): 933?969.
[14] DRUMMOND C, HOLTE R C. Explicitly representing expected cost: An alternative to ROC representation[C]//Proceedings of the sixth ACM SIGKDD international conference on knowledge discovery and data mining. New York, USA: ACM, 2000: 198?207.
(編輯 伍錦花)
Research on quality warning of strip bending performance based on Adaboost-weighted support vector machine
ZHOU Peng1, HE Fei2, LIANG Bing2, XU Ke2
(1. Engineering Technology Research Institute, University of Science and Technology Beijing, Beijing 100083, China;2. Collaborative Innovation Center of Steel Technology,University of Science and Technology Beijing, Beijing 100083, China)
Due to the data imbalance between normal and abnormal samples, the quality warning is not sensitive and the detection rate is low in the quality monitoring of strip bending performance. To solve this problem, different imbalance solutions to the abnormal detection from data level and algorithm level were studied. The quality warning method based on the Adaboost-weighted support vector machine method was proposed. The results show that the average value of fault detection rate is improved to 88.58%, and the average value of false alarm rate is reduced to 0.63%. The proposed method produces satisfying results in fault detection, which provides support for quality warning in hot rolling strip process.
strip bending performance; quality early warning; Adaboost-weighted support vector machine
10.11817/j.issn.1672?7207.2017.10.009
TG335.5
A
1672?7207(2017)10?2622?06
2017?01?05;
修回日期:2017?02?24
國家自然科學(xué)基金資助項(xiàng)目(51204018);“十二五”國家科技支撐計(jì)劃項(xiàng)目(2015BAF30B01);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(TW201711,F(xiàn)RF-TP-16-018A1)(Project (51204018) supported by the National Natural Science Foundation of China; Project (2015BAF30B01) supported by the National Science and Technology Pillar Program during the 12th “Five-year” Plan of China; Project (TW201711, FRF-TP-16-018A1) supported by the Fundamental Research Funds for the Central Universities)
何飛,博士,副研究員,從事生產(chǎn)過程質(zhì)量建模、模式識別、板帶控制等的研究;E-mail:hefei@ustb.edu.cn