李 軍
(上海寶信軟件股份有限公司,上海 201203)
目前深度學(xué)習(xí)和聚類分析已經(jīng)廣泛應(yīng)用于工業(yè)生產(chǎn)中,深度學(xué)習(xí)主要應(yīng)用于圖像識(shí)別、語(yǔ)音識(shí)別等方面,是生產(chǎn)控制和工藝研究的一個(gè)輔助手段。聚類分析作為無(wú)監(jiān)督學(xué)習(xí)的關(guān)鍵技術(shù)也被廣泛應(yīng)用于工業(yè)生產(chǎn),主要是發(fā)現(xiàn)數(shù)據(jù)間內(nèi)在結(jié)構(gòu)的相關(guān)性,完成自主分類。兩類技術(shù)的集成應(yīng)用也越來(lái)越多,如楊琪設(shè)計(jì)的DBNOC算法,在工業(yè)生產(chǎn)領(lǐng)域也有應(yīng)用,如趙晶晶等提出一種將深度學(xué)習(xí)、聚類算法結(jié)合用于電網(wǎng)快速分區(qū)。
鋼鐵行業(yè)是中國(guó)經(jīng)濟(jì)高質(zhì)量發(fā)展的重要支撐,如何對(duì)鋼鐵行業(yè)進(jìn)行精準(zhǔn)的優(yōu)化控制以及趨勢(shì)預(yù)測(cè)至關(guān)重要。鋼鐵企業(yè)生產(chǎn)過(guò)程時(shí)刻都在產(chǎn)生海量數(shù)據(jù),例如煉鐵高爐各項(xiàng)指標(biāo)及工藝參數(shù),這些數(shù)據(jù)規(guī)模大、實(shí)時(shí)性強(qiáng)、結(jié)構(gòu)多樣且維度高,需要及時(shí)高效地從中挖掘出關(guān)鍵特征指標(biāo),通過(guò)聚類生成高爐畫像,并通過(guò)對(duì)標(biāo)找差的方式實(shí)現(xiàn)對(duì)高爐生產(chǎn)狀況的精準(zhǔn)把控。該文借鑒Lim等人的設(shè)計(jì)思路,采用有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)結(jié)合的方式,將各高爐指標(biāo)數(shù)據(jù)先抽象化為高維空間中的點(diǎn),再映射到低維流形中進(jìn)行聚類,解決了聚類過(guò)程中由于指標(biāo)數(shù)量龐大且屬性分布分散帶來(lái)的指標(biāo)權(quán)重難以量化分配的問(wèn)題。
高爐指標(biāo)聚類算法模型以高爐畫像中高維數(shù)據(jù)作為輸入,最終輸出結(jié)果用以支撐高爐對(duì)標(biāo)管理實(shí)際應(yīng)用需要,主要流程包括數(shù)據(jù)預(yù)處理、特征工程、算法建模及訓(xùn)練、模型驗(yàn)證上線及模型自學(xué)習(xí)等,其總體流程如圖1所示。
圖1 算法模型總體流程
基于高爐4類高維特征數(shù)據(jù),通過(guò)構(gòu)建統(tǒng)計(jì)模型生成各高爐個(gè)體畫像,經(jīng)過(guò)異常數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)全和歸一化等預(yù)處理后,采用相關(guān)性檢驗(yàn)、自變量篩選、因變量加工等特征工程算法為深度學(xué)習(xí)聚類算法建模提供規(guī)范化數(shù)據(jù);基于歷史數(shù)據(jù)完成模型訓(xùn)練和測(cè)試,測(cè)試結(jié)果達(dá)標(biāo)的納入模型庫(kù)管理,并定期導(dǎo)入生產(chǎn)過(guò)程中新產(chǎn)生數(shù)據(jù),對(duì)模型結(jié)果進(jìn)行動(dòng)態(tài)監(jiān)控,達(dá)標(biāo)則輸出到高爐對(duì)標(biāo)應(yīng)用,未達(dá)標(biāo)則通過(guò)自訓(xùn)練控制進(jìn)入下一次迭代。
高爐煉鐵是鋼鐵工業(yè)降低能源消耗、降低污染排放、控制制造成本的核心工序。基于高爐生產(chǎn)管理系統(tǒng)數(shù)據(jù),通過(guò)統(tǒng)計(jì)模型,建立各高爐個(gè)體畫像,采集指標(biāo)包括操作類、排放類、鐵水成本類、能耗類等數(shù)十個(gè)指標(biāo)。通過(guò)高爐畫像為每座在役高爐建立檔案信息,包括高爐身份ID、爐役、爐齡、爐容、爐缸直徑、地理位置、所屬基地等,支持爐役、爐齡等屬性的自動(dòng)更新。通過(guò)高爐畫像,可以支撐實(shí)現(xiàn)以下3點(diǎn)。
篩選反映高爐爐況的生產(chǎn)指標(biāo)和工藝參數(shù),按爐容等級(jí)設(shè)置評(píng)價(jià)規(guī)則。
根據(jù)收集到的高爐實(shí)際生產(chǎn)數(shù)據(jù),匹配評(píng)價(jià)規(guī)則,形成單高爐、制造基地、公司法人層級(jí)的高爐評(píng)價(jià)報(bào)告。
采用多指標(biāo)、考慮權(quán)重,計(jì)算高爐綜合競(jìng)爭(zhēng)力分值,綜合比較評(píng)價(jià)各生產(chǎn)基地每座高爐的競(jìng)爭(zhēng)力。
對(duì)高爐畫像指標(biāo)數(shù)據(jù)進(jìn)行異常數(shù)據(jù)清洗、缺失值補(bǔ)充,并使用MinMaxScaler方法進(jìn)行歸一化預(yù)處理后,抽象化為高維空間中的數(shù)據(jù)點(diǎn)。將預(yù)處理后的數(shù)據(jù)使用Pearson相關(guān)系數(shù)法,保留相關(guān)性最強(qiáng)的幾個(gè)特征,作為模型的輸入?yún)?shù)。
該文構(gòu)建深度學(xué)習(xí)聚類算法中包括表達(dá)空間學(xué)習(xí)、低維空間聚類以及最優(yōu)解算法模塊三部分,如圖2所示,最終將輸出每個(gè)高爐畫像高維原始數(shù)據(jù)、表達(dá)空間低維特征數(shù)據(jù)、低維特征數(shù)據(jù)聚類所屬族群等三項(xiàng)結(jié)果。
圖2 深度學(xué)習(xí)聚類算法流程
算法以經(jīng)過(guò)預(yù)處理和特征工程的高爐畫像高維原始數(shù)據(jù)作為輸入,通過(guò)基于神經(jīng)網(wǎng)絡(luò)自編碼器的表達(dá)空間學(xué)習(xí)同時(shí)輸出高爐畫像低維特征數(shù)據(jù)和高維近似數(shù)據(jù),使用高斯混合模型(Gaussian Mixture Model,GMM)完成低維特征數(shù)據(jù)聚類,同時(shí)考慮表達(dá)空間學(xué)習(xí)損失和低維空間聚類損失,通過(guò)超參數(shù)訓(xùn)練求得最優(yōu)。
表達(dá)空間學(xué)習(xí)部分的核心是神經(jīng)網(wǎng)絡(luò)自編碼器模型,分為編碼器和解碼器兩個(gè)部分。編碼器將高維高爐畫像數(shù)據(jù)通過(guò)深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為低維表達(dá)空間數(shù)據(jù),解碼器將低維表達(dá)空間數(shù)據(jù)逆轉(zhuǎn)換為高維高爐畫像數(shù)據(jù)。訓(xùn)練后,通過(guò)編碼器與解碼器以后的擬合數(shù)據(jù)與原始數(shù)據(jù)誤差足夠小,表達(dá)空間學(xué)習(xí)完成,其架構(gòu)圖如圖3所示。
圖3 表達(dá)空間學(xué)習(xí)模型架構(gòu)
從輸入層到隱藏層,神經(jīng)網(wǎng)絡(luò)編碼器將高爐畫像高維原始數(shù)據(jù)壓縮為低維特征數(shù)據(jù),從隱藏層到輸出層,神經(jīng)網(wǎng)絡(luò)解碼器再將還原為高維數(shù)據(jù),將其作為原始數(shù)據(jù)的近似表達(dá)。在表達(dá)空間學(xué)習(xí)的過(guò)程中反復(fù)對(duì)比與的誤差,并進(jìn)行反向傳遞,逐步提升神經(jīng)網(wǎng)絡(luò)自編碼器的準(zhǔn)確性,最終得到能夠很好地描繪出高爐畫像的低維特征數(shù)據(jù)。
低維空間聚類部分的核心采用GMM聚類模型。將通過(guò)上述步驟以后的高維高爐畫像數(shù)據(jù)的結(jié)果基于GMM模型進(jìn)行聚類,根據(jù)屬于不同簇的概率分布,確定單個(gè)高爐數(shù)據(jù)點(diǎn)的最終簇歸屬。。
最優(yōu)解算法模塊是綜合考量前兩個(gè)步驟,也就是有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)模型的損失函數(shù),建立統(tǒng)一損失函數(shù)和最優(yōu)化模型,并尋找表達(dá)空間學(xué)習(xí)和聚類模型中參數(shù)最優(yōu)解,優(yōu)化前兩個(gè)步驟中的模型。統(tǒng)一損失函數(shù)定義如公式(1)所示。
式中:和分別代表編碼器和解碼器函數(shù),x是高爐畫像第維特征,(x)是其經(jīng)過(guò)編碼后的低維特征表達(dá),((x))是經(jīng)過(guò)解碼的高維近似特征,||x-((x))||即為表達(dá)空間學(xué)習(xí)損失,C為(x)所屬簇k的質(zhì)心,||(x)-C||即為低維空間聚類損失,是介于0和1之間用于平衡兩個(gè)損失函數(shù)的影響的超參數(shù),模型最優(yōu)化目標(biāo)函數(shù)為min()。
數(shù)據(jù)集選用國(guó)內(nèi)某大型多基地鋼鐵企業(yè)4大類高爐指標(biāo)數(shù)據(jù),其中包括操作類指標(biāo),如爐容利用系數(shù)、爐缸截面利用系數(shù)、煤氣利用率、休風(fēng)率、燃料比、焦比、煤比、富氧率等;排放類指標(biāo),如熱風(fēng)爐煙氣SO、熱風(fēng)爐煙氣NO、爐頂煤氣SO和降塵量等;鐵水成本類指標(biāo),如全成本、變動(dòng)成本、固定成本、原料成本、燃料成本、能介成本、噸鐵折舊等;能耗類指標(biāo),如煉鐵工序能耗、高爐工序能耗等。
訓(xùn)練集和測(cè)試集按照8∶2的比例劃分,對(duì)每個(gè)模型的超參數(shù)(如GMM聚類簇?cái)?shù)n_components、統(tǒng)一損失函數(shù)權(quán)重)選擇,使用交叉驗(yàn)證,其中驗(yàn)證集合占比1/6。
模型整體性能采用統(tǒng)一損失函數(shù)和最優(yōu)化模型進(jìn)行訓(xùn)練、優(yōu)化,針對(duì)該文設(shè)計(jì)的基于GMM的低維空間聚類模型,采用CH分?jǐn)?shù)(Calinski Harabasz Score,CHS)和輪廓系數(shù)(Silhouette Coefficient,SC)作為其性能評(píng)估指標(biāo),其中CH分?jǐn)?shù)主要基于簇間協(xié)方差與簇內(nèi)協(xié)方差比值計(jì)算,其值越大越好,輪廓系數(shù)基于每個(gè)樣本與簇內(nèi)及簇間其他樣本間平均距離計(jì)算,其取值為[-1,1],為1時(shí)表示簇內(nèi)樣本緊湊,為0時(shí)簇間存在重疊,為-1時(shí)則聚類效果差。
自學(xué)習(xí)機(jī)制由聚類結(jié)果監(jiān)測(cè)與自訓(xùn)練模塊組成,針對(duì)動(dòng)態(tài)變化的高爐指標(biāo)數(shù)據(jù),定時(shí)監(jiān)測(cè)聚類模型性能指標(biāo),當(dāng)性能指標(biāo)顯著下降,低于系統(tǒng)設(shè)定閾值時(shí),啟動(dòng)自訓(xùn)練模塊對(duì)模型進(jìn)行重訓(xùn)練提升模型性能。
試驗(yàn)數(shù)據(jù)集選用該鋼鐵企業(yè)2021年全年7個(gè)基地24座高爐指標(biāo)歷史數(shù)據(jù),共42萬(wàn)條,每條數(shù)據(jù)包括基地、爐號(hào)以及四大類101項(xiàng)指標(biāo)數(shù)據(jù),對(duì)其進(jìn)行異常數(shù)據(jù)去除與歸一化預(yù)處理后,通過(guò)表達(dá)空間學(xué)習(xí)模型抽象化為高維空間中的數(shù)據(jù)點(diǎn),采用8∶2的比例劃分為訓(xùn)練集和測(cè)試集。針對(duì)訓(xùn)練集,留取1/6的數(shù)據(jù)作為驗(yàn)證集,用于交叉驗(yàn)證和超參數(shù)最優(yōu)化,迭代試驗(yàn)結(jié)果見(jiàn)表1。
表1 性能對(duì)比結(jié)果
結(jié)合深度學(xué)習(xí)聚類算法模型最終輸出的每個(gè)高爐聚類所屬族群、高爐綜合爐況等信息,通過(guò)豐富的圖形化方式實(shí)現(xiàn)多層級(jí)、多維度的高爐生產(chǎn)指標(biāo)對(duì)標(biāo)功能。對(duì)標(biāo)層級(jí)包括單高爐、爐容等級(jí)、制造基地、公司法人等。對(duì)標(biāo)的主要指標(biāo)包括利用系數(shù)、截面利用系數(shù)、煤氣利用率、休風(fēng)率、冶煉強(qiáng)度、燃料比、焦比、煤比、工序能耗、風(fēng)溫、全焦負(fù)荷、礦耗、噸鐵耗風(fēng)、TRT噸鐵發(fā)電量、富氧率、鐵水合格率等。
針對(duì)試驗(yàn)所選用的鋼鐵企業(yè),將高爐聚類生成的4個(gè)族群結(jié)果應(yīng)用到高爐對(duì)標(biāo)管理中,按照高爐聚類族群,展示對(duì)標(biāo)對(duì)象綜合爐況排名結(jié)果,刻畫出綜合爐況的高爐群像,體現(xiàn)高爐與高爐、高爐與高爐群體、高爐群體與高爐群體之間的關(guān)系,應(yīng)用效果圖如圖4所示。
圖4 高爐對(duì)標(biāo)應(yīng)用效果圖
該研究借助于深度學(xué)習(xí)聚類算法模型,減少人為因素的介入,適用于需要業(yè)務(wù)快速部署與迭代、冷啟動(dòng)等場(chǎng)景,如在業(yè)務(wù)需要增加或者減少考量多個(gè)生產(chǎn)、經(jīng)濟(jì)效益指標(biāo)情景下,能夠不依靠大量一線操作人員經(jīng)驗(yàn)判斷指標(biāo)權(quán)重,自行訓(xùn)練得出最合理的聚類結(jié)果。
該研究通過(guò)試驗(yàn)驗(yàn)證了該算法模型在高爐指標(biāo)聚類應(yīng)用中的有效性,研究更為重要的意義在于促進(jìn)各個(gè)鋼鐵企業(yè)、設(shè)計(jì)院、供應(yīng)商、科研機(jī)構(gòu)以及行業(yè)協(xié)會(huì)等整個(gè)鋼鐵生態(tài)圈的信息互聯(lián)互通、數(shù)據(jù)深度應(yīng)用、產(chǎn)學(xué)研用緊密結(jié)合和核心競(jìng)爭(zhēng)力提高。