李 華,賈 雪
(長(zhǎng)春大學(xué) 理學(xué)院,長(zhǎng)春 130022)
運(yùn)行基準(zhǔn)是應(yīng)用于工業(yè)生產(chǎn)的一種具有指導(dǎo)意義的工業(yè)生產(chǎn)運(yùn)行參數(shù),運(yùn)行人員可以通過對(duì)照和對(duì)比不同參數(shù)條件下的運(yùn)行基準(zhǔn),調(diào)整可控的運(yùn)行參數(shù),使得機(jī)組運(yùn)行具有更高的安全性、經(jīng)濟(jì)性和高效性。因此,運(yùn)行基準(zhǔn)對(duì)工業(yè)生產(chǎn)具有重大意義。在提取運(yùn)行基準(zhǔn)方面,目前已有一些提取基準(zhǔn)的方法,包括基于遺傳算法和支持向量機(jī)方法計(jì)算不同工況下汽輪機(jī)主蒸汽壓力的基準(zhǔn)值[4];采用神經(jīng)網(wǎng)絡(luò)技術(shù),根據(jù)鍋爐燃燒調(diào)整試驗(yàn)和機(jī)組運(yùn)行歷史數(shù)據(jù),建立了燃燒優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)模型,并采用遺傳算法對(duì)鍋爐可調(diào)燃燒運(yùn)行參數(shù)進(jìn)行了優(yōu)化[5]?;贔M度量和穩(wěn)定性算法進(jìn)行自適應(yīng)的聚類系數(shù)k值選擇,并使用K-Means算法進(jìn)行聚類,選取煤耗最低的聚類中心作為運(yùn)行基準(zhǔn)。
在大型工業(yè)生產(chǎn)運(yùn)行機(jī)組實(shí)際運(yùn)行中,設(shè)備運(yùn)行狀態(tài)會(huì)受到多種條件影響而隨時(shí)發(fā)生改變,運(yùn)行過程存在穩(wěn)態(tài)工況和非穩(wěn)態(tài)工況。非穩(wěn)態(tài)工況相比于穩(wěn)態(tài)工況,輸入?yún)?shù)和輸出參數(shù)之間沒有較強(qiáng)的關(guān)聯(lián)性,且非穩(wěn)態(tài)工況中參數(shù)波動(dòng)較大,不能準(zhǔn)確反應(yīng)機(jī)組當(dāng)前的運(yùn)行性能。因此,為了提高數(shù)據(jù)分析的準(zhǔn)確性,需要對(duì)初始數(shù)據(jù)進(jìn)行穩(wěn)態(tài)篩選。
根據(jù)目前已有的一些穩(wěn)態(tài)工況判別方法,包括基于權(quán)重的遍歷算法并利用改進(jìn)的置信區(qū)間篩選出穩(wěn)態(tài)離群點(diǎn)[6];采用滑動(dòng)窗口法對(duì)大樣本數(shù)據(jù)進(jìn)行穩(wěn)態(tài)工況篩選[7];基于滑動(dòng)窗口法的特征變量一階差分穩(wěn)態(tài)判別法[8]。
選擇基于方差的穩(wěn)態(tài)數(shù)據(jù)篩選法。在t時(shí)刻,計(jì)算連續(xù)s時(shí)間段的方差,如果該方差小于某個(gè)規(guī)定的閾值,則t時(shí)刻是穩(wěn)態(tài)數(shù)據(jù),否則為非穩(wěn)態(tài)數(shù)據(jù)。
另外,在穩(wěn)態(tài)數(shù)據(jù)篩選后,由于數(shù)據(jù)的特征眾多,可能會(huì)出現(xiàn)某些特征不在其控制范圍之內(nèi)的情況,對(duì)此,我們有兩種解決方法。第一,在僅有少量特征超限的情況下,采用填補(bǔ)法對(duì)其進(jìn)行填補(bǔ),以保證數(shù)據(jù)的可用性,填補(bǔ)法可以使用均值填補(bǔ)法、回歸填補(bǔ)法等;第二,在大部分特征都超限的情況下,我們認(rèn)為該數(shù)據(jù)樣本不具有可用性,可以將其刪掉,僅保留優(yōu)質(zhì)的數(shù)據(jù)樣本。
在大型工業(yè)生產(chǎn)運(yùn)行中,由于設(shè)備的多樣性,采集的測(cè)點(diǎn)眾多,同一時(shí)間的測(cè)點(diǎn)可能有幾千甚至幾萬。而在數(shù)據(jù)分析中,測(cè)點(diǎn)過多,會(huì)導(dǎo)致計(jì)算效率極低,且有可能會(huì)影響到數(shù)據(jù)分析的質(zhì)量,從而難以應(yīng)用到實(shí)際中。因此,在進(jìn)行數(shù)據(jù)分析之前,我們需要對(duì)初始樣本進(jìn)行特征選擇。特征選擇的方式分為兩種,第一種可以通過工業(yè)生產(chǎn)運(yùn)行人員提供的方式獲得,他們?cè)诙嗄甑墓ぷ鹘?jīng)驗(yàn)中,對(duì)重要特征有更為專業(yè)的看法,這些特征往往是與建模目標(biāo)高度相關(guān)的;第二種是根據(jù)大數(shù)據(jù)分析方法進(jìn)行特征選擇,比如逐步回歸法、方差選擇法、相關(guān)系數(shù)法等。
另外,機(jī)組運(yùn)行的過程中,運(yùn)行人員會(huì)根據(jù)不同的目標(biāo)對(duì)可控參數(shù)進(jìn)行不同程度的調(diào)整,在這種情況下,我們的基準(zhǔn)要針對(duì)不同的參數(shù)條件來進(jìn)行挖掘。在不同的參數(shù)條件下,運(yùn)行基準(zhǔn)是不同的,我們把不同的參數(shù)條件稱為工況。因此,要對(duì)數(shù)據(jù)樣本進(jìn)行工況劃分,可以采用滑動(dòng)平移的方式來劃分工況。
在工業(yè)生產(chǎn)運(yùn)行中,往往會(huì)根據(jù)機(jī)組設(shè)計(jì)值或者行業(yè)標(biāo)準(zhǔn)來優(yōu)化生產(chǎn)目標(biāo)。而在實(shí)際生產(chǎn)中可能會(huì)對(duì)設(shè)備進(jìn)行部分改造,或者隨著設(shè)備的磨損,導(dǎo)致設(shè)計(jì)值難以達(dá)到優(yōu)化目標(biāo)。另外,各工業(yè)生產(chǎn)企業(yè)對(duì)經(jīng)濟(jì)、節(jié)能、高效有著一定的要求。實(shí)踐表明,基于歷史數(shù)據(jù)進(jìn)行基準(zhǔn)挖掘能夠良好的解決上述穩(wěn)態(tài)。合理地運(yùn)用基準(zhǔn)也能夠在保證機(jī)組安全運(yùn)行的同時(shí)有效降低可控的能耗損失。因此,準(zhǔn)確、合理的基準(zhǔn)值對(duì)提高機(jī)組運(yùn)行效率和節(jié)能降耗具有重要意義。
李打油嘴都笑歪了。真的歪,跟我父親一樣,平時(shí)看不出,淺笑也看不出,只有笑得特別開心時(shí),笑過后要把笑容收回去的那一瞬間,才會(huì)發(fā)現(xiàn),他倆嘴都有點(diǎn)歪。共祖宗嘛,也許家族遺傳。估計(jì)我也是??晌液孟駴]遇到什么特別開心的事。
利用大數(shù)據(jù)分析方法來進(jìn)行基準(zhǔn)挖掘已成為當(dāng)前的主流方法,包括模糊C-均值聚類算法[9]、K-Means算法[10-11]等。聚類是將一個(gè)數(shù)據(jù)集分成由類似的數(shù)據(jù)樣本組成的多個(gè)類的過程。由聚類所生成的簇是一組數(shù)據(jù)樣本的集合,這些樣本與同一個(gè)簇中的其他樣本彼此相似,與其他簇中的樣本相異。通過聚類,可以從數(shù)據(jù)集的大量樣本中提取出具有代表性的幾堆,有助于簡(jiǎn)化問題。因此,本研究也采用聚類的方式來進(jìn)行基準(zhǔn)挖掘。
聚類算法包括基于劃分的聚類方法、基于層次的聚類方法、基于密度的聚類方法等?;趯哟蔚木垲惙椒山忉屝院?,但時(shí)間復(fù)雜度高;基于劃分的聚類方法,如K-Means算法,其對(duì)于大型數(shù)據(jù)集是簡(jiǎn)單有效的,時(shí)間和空間復(fù)雜度低,但需要預(yù)先設(shè)定K值;基于密度的聚類方法,如DBSCAN,能發(fā)現(xiàn)任意形狀的聚類,但聚類的結(jié)果與參數(shù)有很大的關(guān)系。本研究結(jié)合了FM度量,通過穩(wěn)定性算法確定聚類參數(shù),再通過K-Means算法進(jìn)行聚類分析,得到聚類結(jié)果,能對(duì)K-Means算法的缺陷進(jìn)行一部分的補(bǔ)足。
FM度量是一種對(duì)聚類的質(zhì)量和優(yōu)度進(jìn)行評(píng)價(jià)的指標(biāo)。其通過對(duì)樣本點(diǎn)的劃分標(biāo)簽和分簇標(biāo)簽進(jìn)行分析,度量聚類的精度,其最大值為1,聚類質(zhì)量越高,F(xiàn)M度量值越接近1。
式中,prec是聚類的成對(duì)精度,其衡量了正確聚類的點(diǎn)對(duì)占同一個(gè)簇中所有點(diǎn)對(duì)的比例;recall是聚類的成對(duì)召回,其衡量了正確標(biāo)記的點(diǎn)對(duì)占同一個(gè)劃分中所有點(diǎn)對(duì)的比例。
K-Means算法采用一種貪心的迭代方法來找到使得SSE目標(biāo)函數(shù)值最小的聚類。K-Means聚類算法的基本原理與步驟如下。首先從數(shù)據(jù)空間中隨機(jī)生成k個(gè)點(diǎn)作為初始的聚類中心;其次,計(jì)算并比較其他的數(shù)據(jù)樣本到k個(gè)聚類中心的距離;再對(duì)距離大小進(jìn)行排序后,將數(shù)據(jù)樣本劃分到最近聚類中心所在的那一簇;劃分結(jié)束后,重新計(jì)算每一簇中樣本數(shù)據(jù)的平均值,將其作為新的聚類中心。不斷重復(fù)上述過程,直到目標(biāo)函數(shù)值收斂。
式中,SSE表示所有樣本點(diǎn)的平方誤差總和;xj代表第i個(gè)簇內(nèi)第j個(gè)樣本點(diǎn);μi代表第i個(gè)簇的中心。
K-Means聚類算法的聚類效果依賴于聚類參數(shù)k的選擇,聚類中心數(shù)過少,則樣本的特征不能夠全面體現(xiàn);聚類中心數(shù)過多,同一簇中的數(shù)據(jù)可能會(huì)被分隔開。
分簇穩(wěn)定性的主要思想是,從與D相同的分布中抽樣得到的若干數(shù)據(jù)集生成的聚類應(yīng)當(dāng)是相似或“穩(wěn)定”的。分簇穩(wěn)定性的方法可用于找出一個(gè)給定聚類算法的合適參數(shù)值。分簇穩(wěn)定性算法的基本原理與步驟如下。首先通過從D中抽樣,生成t個(gè)大小為n的樣本,然后對(duì)每一個(gè)樣本Di,分別用不同的參數(shù)值運(yùn)行相同的聚類算法。然后通過計(jì)算在每一個(gè)參數(shù)上的每一對(duì)數(shù)據(jù)集的聚類之間的距離。最后,計(jì)算期望成對(duì)距離,選擇使得期望成對(duì)距離最小的參數(shù)作為最佳參數(shù)。
分簇穩(wěn)定性算法流程:step1:輸入聚類算法A,抽樣數(shù)量t,分簇最大數(shù)目K,數(shù)據(jù)集D;step2:通過有放回抽樣,從數(shù)據(jù)集D中抽取與之?dāng)?shù)據(jù)量相同的樣本,記作D1,D2,...,Dt;step3:對(duì)每一個(gè)數(shù)據(jù)集D1,D2,...,Dt,分別使用聚類算法A,將Di聚類分為k個(gè)簇 ;step4:為了計(jì)算分簇間的距離,需要先對(duì)數(shù)據(jù)集對(duì)去交集,記作D(1_2)1,D(1_3)1,...,D(t-1_t)1;step5:對(duì)每一個(gè)k,計(jì)算不同數(shù)據(jù)對(duì)間的分簇距離,記作dk i_j,本研究選擇FM度量(相似度);step6:對(duì)每一個(gè)k,計(jì)算期望成對(duì)距離,記作μk d;step7:選擇使得成對(duì)距離最小(相似度最大)的k作為該數(shù)據(jù)集D的最佳k值。
為了驗(yàn)證模型的有效性,選用某實(shí)際運(yùn)行的雙抽式汽輪發(fā)電機(jī)組作為案例。從DCS集散控制系統(tǒng) (Distributed control system)中采集歷史運(yùn)行數(shù)據(jù),采樣間隔為1 min。因?yàn)樵摍C(jī)組純凝期和供熱期的數(shù)據(jù)有較大差距,故選取純凝期2020年—8月的機(jī)組平穩(wěn)運(yùn)行數(shù)據(jù)記錄作為案例的訓(xùn)練樣本,共計(jì)165 016組,選取2021年6月的數(shù)據(jù)作為案例的測(cè)試樣本。其中,訓(xùn)練樣本中主蒸汽流量波動(dòng)如圖1所示。從圖1可以看出,當(dāng)主蒸汽流量從一個(gè)穩(wěn)定狀態(tài)切換到另一個(gè)新的穩(wěn)定狀態(tài)時(shí)會(huì)經(jīng)歷短暫且快速的非穩(wěn)態(tài)過程。在運(yùn)行數(shù)據(jù)中存在著大量的非穩(wěn)態(tài)工況。因此,有必要先將機(jī)組的非穩(wěn)態(tài)工況與穩(wěn)態(tài)工況區(qū)分開,對(duì)165 016組機(jī)組原始運(yùn)行數(shù)據(jù)樣本進(jìn)行穩(wěn)態(tài)判別。
圖1 主蒸汽流量波動(dòng)
采用機(jī)組運(yùn)行人員提供的幾個(gè)重要指標(biāo)的波動(dòng)性對(duì)原始數(shù)據(jù)進(jìn)行穩(wěn)態(tài)篩選,共有79 831組樣本被劃分成穩(wěn)態(tài)工況,其余樣本則被劃分成非穩(wěn)態(tài)工況。分別繪制穩(wěn)態(tài)工況和全數(shù)據(jù)情況下主蒸汽流量的波動(dòng)曲線,如圖2所示。從圖2可以看出,穩(wěn)態(tài)工況下主蒸汽流量的分布呈現(xiàn)明顯的穩(wěn)定性。
圖2 全數(shù)據(jù)與穩(wěn)態(tài)數(shù)據(jù)對(duì)比
在穩(wěn)態(tài)工況被篩選出的基礎(chǔ)上,我們以工業(yè)生產(chǎn)運(yùn)行人員提供的特征作為重要特征,針對(duì)穩(wěn)態(tài)工況中的異常數(shù)據(jù)進(jìn)行了異常值處理,分別進(jìn)行了均值填補(bǔ)和刪除,使得數(shù)據(jù)質(zhì)量進(jìn)一步提高,有助于基準(zhǔn)挖掘的準(zhǔn)確性和實(shí)用性。并且,我們根據(jù)參數(shù)條件的不同,將數(shù)據(jù)樣本進(jìn)行劃分,以參數(shù)從小到大的順序?qū)⑵鋭澐譃?7個(gè)工況,記作工況1、工況2、...、工況37。如圖3所示。相同的工況下,參數(shù)條件相對(duì)一致,因此,在細(xì)分的工況中進(jìn)行基準(zhǔn)挖掘能夠更好的覆蓋機(jī)組運(yùn)行的實(shí)際條件,準(zhǔn)確性也會(huì)隨之提升。
圖3 各工況聚類參數(shù)k值
為了從運(yùn)行工況中提取出最具指導(dǎo)意義的運(yùn)行基準(zhǔn),采用FM度量通過穩(wěn)定性算法自適應(yīng)的生成k值,各工況k值如下圖所示。然后使用K-Means聚類算法對(duì)工況內(nèi)的樣本進(jìn)行聚類。
對(duì)比同一工況的不同聚類簇,從圖4可以看出,不同的聚類簇可以很好的將工況中的數(shù)據(jù)樣本區(qū)分開來,聚類效果良好。然后,為了更好地節(jié)能降耗,我們選取簇中心煤耗最低的簇作為基準(zhǔn)簇。
圖4 同一工況的不同聚類簇
選擇同一工況下使得煤耗最低的簇中心,作為該工況的基準(zhǔn),如表1所示。
表1 各工況基準(zhǔn)值
為了測(cè)試基準(zhǔn)是否能夠優(yōu)化運(yùn)行,選用2021年6月1日—2021年7月1日的實(shí)際運(yùn)行數(shù)據(jù),并根據(jù)其工況推送出對(duì)應(yīng)的基準(zhǔn),如圖5所示。
圖5
我們能看到基準(zhǔn)煤耗普遍是低于實(shí)際運(yùn)行的煤耗的,其中,煤耗的基準(zhǔn)值與實(shí)際運(yùn)行值相比,基準(zhǔn)值比實(shí)際值低了8 g/(kW·h),也就是說每發(fā)電1 kW·h則可節(jié)省煤量8 g。因此,運(yùn)行基準(zhǔn)挖掘?qū)τ趯?shí)際運(yùn)行生產(chǎn)具有高效經(jīng)濟(jì)的作用。
針對(duì)大型工業(yè)生產(chǎn)運(yùn)行機(jī)組基準(zhǔn)挖掘穩(wěn)態(tài)展開研究,以重要特征為出發(fā)點(diǎn),利用機(jī)組大量運(yùn)行數(shù)據(jù),采用基于FM度量的自適應(yīng)K-Means聚類算法,確定影響機(jī)組運(yùn)行效率和節(jié)能降耗的參數(shù)基準(zhǔn)值。并通過案例分析,首先通過對(duì)數(shù)據(jù)進(jìn)行穩(wěn)態(tài)工況篩選,并對(duì)異常值進(jìn)行處理,然后利用基于FM度量的自適應(yīng)K-Means聚類算法進(jìn)行聚類,并選擇使得煤耗最低的聚類簇中心作為參數(shù)基準(zhǔn)。通過基準(zhǔn)煤耗 與實(shí)際煤耗進(jìn)行比較,驗(yàn)證了所提方法的有效性。