亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學(xué)習(xí)聚類算法在煉鐵高爐指標(biāo)聚類中的應(yīng)用

2022-09-23 14:07:16李軍

中國(guó)新技術(shù)新產(chǎn)品 2022年12期

李軍

（上海寶信軟件股份有限公司，上海 201203）

0 引言

目前深度學(xué)習(xí)和聚類分析已經(jīng)廣泛應(yīng)用于工業(yè)生產(chǎn)中，深度學(xué)習(xí)主要應(yīng)用于圖像識(shí)別、語(yǔ)音識(shí)別等方面，是生產(chǎn)控制和工藝研究的一個(gè)輔助手段。聚類分析作為無(wú)監(jiān)督學(xué)習(xí)的關(guān)鍵技術(shù)也被廣泛應(yīng)用于工業(yè)生產(chǎn)，主要是發(fā)現(xiàn)數(shù)據(jù)間內(nèi)在結(jié)構(gòu)的相關(guān)性，完成自主分類。兩類技術(shù)的集成應(yīng)用也越來(lái)越多，如楊琪設(shè)計(jì)的DBNOC算法，在工業(yè)生產(chǎn)領(lǐng)域也有應(yīng)用，如趙晶晶等提出一種將深度學(xué)習(xí)、聚類算法結(jié)合用于電網(wǎng)快速分區(qū)。

鋼鐵行業(yè)是中國(guó)經(jīng)濟(jì)高質(zhì)量發(fā)展的重要支撐，如何對(duì)鋼鐵行業(yè)進(jìn)行精準(zhǔn)的優(yōu)化控制以及趨勢(shì)預(yù)測(cè)至關(guān)重要。鋼鐵企業(yè)生產(chǎn)過(guò)程時(shí)刻都在產(chǎn)生海量數(shù)據(jù)，例如煉鐵高爐各項(xiàng)指標(biāo)及工藝參數(shù)，這些數(shù)據(jù)規(guī)模大、實(shí)時(shí)性強(qiáng)、結(jié)構(gòu)多樣且維度高，需要及時(shí)高效地從中挖掘出關(guān)鍵特征指標(biāo)，通過(guò)聚類生成高爐畫像，并通過(guò)對(duì)標(biāo)找差的方式實(shí)現(xiàn)對(duì)高爐生產(chǎn)狀況的精準(zhǔn)把控。該文借鑒Lim等人的設(shè)計(jì)思路，采用有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)結(jié)合的方式，將各高爐指標(biāo)數(shù)據(jù)先抽象化為高維空間中的點(diǎn)，再映射到低維流形中進(jìn)行聚類，解決了聚類過(guò)程中由于指標(biāo)數(shù)量龐大且屬性分布分散帶來(lái)的指標(biāo)權(quán)重難以量化分配的問(wèn)題。

1 算法模型總體流程

高爐指標(biāo)聚類算法模型以高爐畫像中高維數(shù)據(jù)作為輸入，最終輸出結(jié)果用以支撐高爐對(duì)標(biāo)管理實(shí)際應(yīng)用需要，主要流程包括數(shù)據(jù)預(yù)處理、特征工程、算法建模及訓(xùn)練、模型驗(yàn)證上線及模型自學(xué)習(xí)等，其總體流程如圖1所示。

圖1 算法模型總體流程

基于高爐4類高維特征數(shù)據(jù)，通過(guò)構(gòu)建統(tǒng)計(jì)模型生成各高爐個(gè)體畫像，經(jīng)過(guò)異常數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)全和歸一化等預(yù)處理后，采用相關(guān)性檢驗(yàn)、自變量篩選、因變量加工等特征工程算法為深度學(xué)習(xí)聚類算法建模提供規(guī)范化數(shù)據(jù)；基于歷史數(shù)據(jù)完成模型訓(xùn)練和測(cè)試，測(cè)試結(jié)果達(dá)標(biāo)的納入模型庫(kù)管理，并定期導(dǎo)入生產(chǎn)過(guò)程中新產(chǎn)生數(shù)據(jù)，對(duì)模型結(jié)果進(jìn)行動(dòng)態(tài)監(jiān)控，達(dá)標(biāo)則輸出到高爐對(duì)標(biāo)應(yīng)用，未達(dá)標(biāo)則通過(guò)自訓(xùn)練控制進(jìn)入下一次迭代。

2 算法模型設(shè)計(jì)

2.1 高爐畫像

高爐煉鐵是鋼鐵工業(yè)降低能源消耗、降低污染排放、控制制造成本的核心工序。基于高爐生產(chǎn)管理系統(tǒng)數(shù)據(jù)，通過(guò)統(tǒng)計(jì)模型，建立各高爐個(gè)體畫像，采集指標(biāo)包括操作類、排放類、鐵水成本類、能耗類等數(shù)十個(gè)指標(biāo)。通過(guò)高爐畫像為每座在役高爐建立檔案信息，包括高爐身份ID、爐役、爐齡、爐容、爐缸直徑、地理位置、所屬基地等，支持爐役、爐齡等屬性的自動(dòng)更新。通過(guò)高爐畫像，可以支撐實(shí)現(xiàn)以下3點(diǎn)。

篩選反映高爐爐況的生產(chǎn)指標(biāo)和工藝參數(shù)，按爐容等級(jí)設(shè)置評(píng)價(jià)規(guī)則。

根據(jù)收集到的高爐實(shí)際生產(chǎn)數(shù)據(jù)，匹配評(píng)價(jià)規(guī)則，形成單高爐、制造基地、公司法人層級(jí)的高爐評(píng)價(jià)報(bào)告。

采用多指標(biāo)、考慮權(quán)重，計(jì)算高爐綜合競(jìng)爭(zhēng)力分值，綜合比較評(píng)價(jià)各生產(chǎn)基地每座高爐的競(jìng)爭(zhēng)力。

2.2 特征工程

對(duì)高爐畫像指標(biāo)數(shù)據(jù)進(jìn)行異常數(shù)據(jù)清洗、缺失值補(bǔ)充，并使用MinMaxScaler方法進(jìn)行歸一化預(yù)處理后，抽象化為高維空間中的數(shù)據(jù)點(diǎn)。將預(yù)處理后的數(shù)據(jù)使用Pearson相關(guān)系數(shù)法，保留相關(guān)性最強(qiáng)的幾個(gè)特征，作為模型的輸入?yún)?shù)。

2.3 算法建模

該文構(gòu)建深度學(xué)習(xí)聚類算法中包括表達(dá)空間學(xué)習(xí)、低維空間聚類以及最優(yōu)解算法模塊三部分，如圖2所示，最終將輸出每個(gè)高爐畫像高維原始數(shù)據(jù)、表達(dá)空間低維特征數(shù)據(jù)、低維特征數(shù)據(jù)聚類所屬族群等三項(xiàng)結(jié)果。

圖2 深度學(xué)習(xí)聚類算法流程

算法以經(jīng)過(guò)預(yù)處理和特征工程的高爐畫像高維原始數(shù)據(jù)作為輸入，通過(guò)基于神經(jīng)網(wǎng)絡(luò)自編碼器的表達(dá)空間學(xué)習(xí)同時(shí)輸出高爐畫像低維特征數(shù)據(jù)和高維近似數(shù)據(jù)，使用高斯混合模型（Gaussian Mixture Model，GMM）完成低維特征數(shù)據(jù)聚類，同時(shí)考慮表達(dá)空間學(xué)習(xí)損失和低維空間聚類損失，通過(guò)超參數(shù)訓(xùn)練求得最優(yōu)。

表達(dá)空間學(xué)習(xí)部分的核心是神經(jīng)網(wǎng)絡(luò)自編碼器模型，分為編碼器和解碼器兩個(gè)部分。編碼器將高維高爐畫像數(shù)據(jù)通過(guò)深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為低維表達(dá)空間數(shù)據(jù)，解碼器將低維表達(dá)空間數(shù)據(jù)逆轉(zhuǎn)換為高維高爐畫像數(shù)據(jù)。訓(xùn)練后，通過(guò)編碼器與解碼器以后的擬合數(shù)據(jù)與原始數(shù)據(jù)誤差足夠小，表達(dá)空間學(xué)習(xí)完成，其架構(gòu)圖如圖3所示。

圖3 表達(dá)空間學(xué)習(xí)模型架構(gòu)

從輸入層到隱藏層，神經(jīng)網(wǎng)絡(luò)編碼器將高爐畫像高維原始數(shù)據(jù)壓縮為低維特征數(shù)據(jù)，從隱藏層到輸出層，神經(jīng)網(wǎng)絡(luò)解碼器再將還原為高維數(shù)據(jù)，將其作為原始數(shù)據(jù)的近似表達(dá)。在表達(dá)空間學(xué)習(xí)的過(guò)程中反復(fù)對(duì)比與的誤差，并進(jìn)行反向傳遞，逐步提升神經(jīng)網(wǎng)絡(luò)自編碼器的準(zhǔn)確性，最終得到能夠很好地描繪出高爐畫像的低維特征數(shù)據(jù)。

低維空間聚類部分的核心采用GMM聚類模型。將通過(guò)上述步驟以后的高維高爐畫像數(shù)據(jù)的結(jié)果基于GMM模型進(jìn)行聚類，根據(jù)屬于不同簇的概率分布，確定單個(gè)高爐數(shù)據(jù)點(diǎn)的最終簇歸屬。。

最優(yōu)解算法模塊是綜合考量前兩個(gè)步驟，也就是有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)模型的損失函數(shù)，建立統(tǒng)一損失函數(shù)和最優(yōu)化模型，并尋找表達(dá)空間學(xué)習(xí)和聚類模型中參數(shù)最優(yōu)解，優(yōu)化前兩個(gè)步驟中的模型。統(tǒng)一損失函數(shù)定義如公式（1）所示。

式中：和分別代表編碼器和解碼器函數(shù)，x是高爐畫像第維特征，（x）是其經(jīng)過(guò)編碼后的低維特征表達(dá)，（（x））是經(jīng)過(guò)解碼的高維近似特征，||x-（（x））||即為表達(dá)空間學(xué)習(xí)損失，C為（x）所屬簇k的質(zhì)心，||（x）-C||即為低維空間聚類損失，是介于0和1之間用于平衡兩個(gè)損失函數(shù)的影響的超參數(shù)，模型最優(yōu)化目標(biāo)函數(shù)為min（）。

2.4 模型訓(xùn)練

數(shù)據(jù)集選用國(guó)內(nèi)某大型多基地鋼鐵企業(yè)4大類高爐指標(biāo)數(shù)據(jù)，其中包括操作類指標(biāo)，如爐容利用系數(shù)、爐缸截面利用系數(shù)、煤氣利用率、休風(fēng)率、燃料比、焦比、煤比、富氧率等；排放類指標(biāo)，如熱風(fēng)爐煙氣SO、熱風(fēng)爐煙氣NO、爐頂煤氣SO和降塵量等；鐵水成本類指標(biāo)，如全成本、變動(dòng)成本、固定成本、原料成本、燃料成本、能介成本、噸鐵折舊等；能耗類指標(biāo)，如煉鐵工序能耗、高爐工序能耗等。

訓(xùn)練集和測(cè)試集按照8∶2的比例劃分，對(duì)每個(gè)模型的超參數(shù)（如GMM聚類簇?cái)?shù)n_components、統(tǒng)一損失函數(shù)權(quán)重）選擇，使用交叉驗(yàn)證，其中驗(yàn)證集合占比1/6。

2.5 性能評(píng)估指標(biāo)

模型整體性能采用統(tǒng)一損失函數(shù)和最優(yōu)化模型進(jìn)行訓(xùn)練、優(yōu)化，針對(duì)該文設(shè)計(jì)的基于GMM的低維空間聚類模型，采用CH分?jǐn)?shù)（Calinski Harabasz Score，CHS）和輪廓系數(shù)（Silhouette Coefficient，SC）作為其性能評(píng)估指標(biāo)，其中CH分?jǐn)?shù)主要基于簇間協(xié)方差與簇內(nèi)協(xié)方差比值計(jì)算，其值越大越好，輪廓系數(shù)基于每個(gè)樣本與簇內(nèi)及簇間其他樣本間平均距離計(jì)算，其取值為[-1，1]，為1時(shí)表示簇內(nèi)樣本緊湊，為0時(shí)簇間存在重疊，為-1時(shí)則聚類效果差。

2.6 自學(xué)習(xí)機(jī)制

自學(xué)習(xí)機(jī)制由聚類結(jié)果監(jiān)測(cè)與自訓(xùn)練模塊組成，針對(duì)動(dòng)態(tài)變化的高爐指標(biāo)數(shù)據(jù)，定時(shí)監(jiān)測(cè)聚類模型性能指標(biāo)，當(dāng)性能指標(biāo)顯著下降，低于系統(tǒng)設(shè)定閾值時(shí)，啟動(dòng)自訓(xùn)練模塊對(duì)模型進(jìn)行重訓(xùn)練提升模型性能。

3 試驗(yàn)與評(píng)估

試驗(yàn)數(shù)據(jù)集選用該鋼鐵企業(yè)2021年全年7個(gè)基地24座高爐指標(biāo)歷史數(shù)據(jù)，共42萬(wàn)條，每條數(shù)據(jù)包括基地、爐號(hào)以及四大類101項(xiàng)指標(biāo)數(shù)據(jù)，對(duì)其進(jìn)行異常數(shù)據(jù)去除與歸一化預(yù)處理后，通過(guò)表達(dá)空間學(xué)習(xí)模型抽象化為高維空間中的數(shù)據(jù)點(diǎn)，采用8∶2的比例劃分為訓(xùn)練集和測(cè)試集。針對(duì)訓(xùn)練集，留取1/6的數(shù)據(jù)作為驗(yàn)證集，用于交叉驗(yàn)證和超參數(shù)最優(yōu)化，迭代試驗(yàn)結(jié)果見(jiàn)表1。

表1 性能對(duì)比結(jié)果

4 高爐對(duì)標(biāo)應(yīng)用

結(jié)合深度學(xué)習(xí)聚類算法模型最終輸出的每個(gè)高爐聚類所屬族群、高爐綜合爐況等信息，通過(guò)豐富的圖形化方式實(shí)現(xiàn)多層級(jí)、多維度的高爐生產(chǎn)指標(biāo)對(duì)標(biāo)功能。對(duì)標(biāo)層級(jí)包括單高爐、爐容等級(jí)、制造基地、公司法人等。對(duì)標(biāo)的主要指標(biāo)包括利用系數(shù)、截面利用系數(shù)、煤氣利用率、休風(fēng)率、冶煉強(qiáng)度、燃料比、焦比、煤比、工序能耗、風(fēng)溫、全焦負(fù)荷、礦耗、噸鐵耗風(fēng)、TRT噸鐵發(fā)電量、富氧率、鐵水合格率等。

針對(duì)試驗(yàn)所選用的鋼鐵企業(yè)，將高爐聚類生成的4個(gè)族群結(jié)果應(yīng)用到高爐對(duì)標(biāo)管理中，按照高爐聚類族群，展示對(duì)標(biāo)對(duì)象綜合爐況排名結(jié)果，刻畫出綜合爐況的高爐群像，體現(xiàn)高爐與高爐、高爐與高爐群體、高爐群體與高爐群體之間的關(guān)系，應(yīng)用效果圖如圖4所示。

圖4 高爐對(duì)標(biāo)應(yīng)用效果圖

5 結(jié)論

該研究借助于深度學(xué)習(xí)聚類算法模型，減少人為因素的介入，適用于需要業(yè)務(wù)快速部署與迭代、冷啟動(dòng)等場(chǎng)景，如在業(yè)務(wù)需要增加或者減少考量多個(gè)生產(chǎn)、經(jīng)濟(jì)效益指標(biāo)情景下，能夠不依靠大量一線操作人員經(jīng)驗(yàn)判斷指標(biāo)權(quán)重，自行訓(xùn)練得出最合理的聚類結(jié)果。

該研究通過(guò)試驗(yàn)驗(yàn)證了該算法模型在高爐指標(biāo)聚類應(yīng)用中的有效性，研究更為重要的意義在于促進(jìn)各個(gè)鋼鐵企業(yè)、設(shè)計(jì)院、供應(yīng)商、科研機(jī)構(gòu)以及行業(yè)協(xié)會(huì)等整個(gè)鋼鐵生態(tài)圈的信息互聯(lián)互通、數(shù)據(jù)深度應(yīng)用、產(chǎn)學(xué)研用緊密結(jié)合和核心競(jìng)爭(zhēng)力提高。