李春曉,李艷紅
(1.西安外事學(xué)院工學(xué)院計算機系,陜西西安,710077;2.西安外事學(xué)院工學(xué)院計算機公共教學(xué)部,陜西西安,710077)
當前社會環(huán)境下互聯(lián)網(wǎng)的發(fā)展數(shù)字化的時代特征越來越明顯,也使電力行業(yè)緊跟時代潮流逐漸的信息化[1-2]。最為明顯的就是監(jiān)控信息系統(tǒng)(Su-pervisory Information System,簡稱SIS)與分布式控制系統(tǒng)(Distributed Control,簡稱DCS)兩者在電力行業(yè)中被運用,以便于電力行業(yè)中的大量數(shù)據(jù)能夠完好存儲,數(shù)據(jù)挖掘也逐漸在電力行業(yè)中慢慢被重視,越來越多是相關(guān)研究人員在電站機組中碰到難題時選擇運用數(shù)據(jù)挖掘的方式來進行處理[3]。因此電站在提升鍋爐效率與解決NOx排放等問題時均將數(shù)據(jù)挖掘聚類分析運用到其中。
在1982年波蘭數(shù)學(xué)家Pawlak提出了粗糙集理論,為解決難以確定以及難以做到精確時的數(shù)據(jù)研究理論,主要的研究主體為信息數(shù)據(jù)系統(tǒng),以更加簡約的形式來完成數(shù)據(jù)的分類,且能夠維持信息數(shù)據(jù)分類的相應(yīng)能力不被改變。相較于其余的同類型解決數(shù)據(jù)不能精確的理論而言,此理論最具突出的特點為不必要為待解決問題提供除數(shù)據(jù)庫的其余任意相關(guān)先驗知識,能夠與其余理論形成互補。如今,在臨床醫(yī)學(xué)、模糊識別以及預(yù)測控制等多種行業(yè)中得到運用。
粗糙理論的最大優(yōu)點為其屬性約簡,首先最佳子集從原始特征中來進行篩選,而后在其中選出最為重要的特征,將多余無用的數(shù)據(jù)刪去,以使數(shù)據(jù)維度縮小,以此進一步提升數(shù)據(jù)的研究效益。本文主要在Pawlak屬性基礎(chǔ)之上的決策表屬性約簡算法中完成屬性約簡,具體的屬性約簡主要框架見圖1。
在Hadoop平臺,需要在MapReduce的主要框架下完成數(shù)據(jù)的分析,該框架能夠滿足大數(shù)據(jù)的問題處理模式。且在MapReduce框架下主要運用Map和Reduce兩種函數(shù),即映射與歸約函數(shù)來完成數(shù)據(jù)處理。按照實際情況對數(shù)據(jù)源分散處理,通過<key,value>鍵值對來完成Map與Reduce兩個函數(shù)的輸入輸出。Key為聚類類別、value主要是數(shù)據(jù)維度和主體數(shù)據(jù)的數(shù)量累加。每個數(shù)據(jù)塊都以分別對應(yīng)的各自的Map函數(shù)同時完成數(shù)據(jù)的計算輸出,而后進行輸出數(shù)據(jù)的順序排列與整合,并且對key值一樣的數(shù)據(jù)來形成Reduce函數(shù)的輸入值,而后繼續(xù)完成計算。MapReduce框架的具體運作流程見圖2。
圖1 屬性約簡的基本框架
圖2 MapReduce工作流程
在MapReduce的基礎(chǔ)之上進行順序組合而形成的程序則為RCK-means算法,首先同樣需要對數(shù)據(jù)的原件進行屬性約簡處理,而后根據(jù)其順序可分為Canopy與K-means兩個子框架來繼續(xù)進行計算。詳細順序流程可見圖3。
(1)首先創(chuàng)建最初的決策表通過粗糙集理論來完成,而后進行條件與決策屬性的判定,再根據(jù)兩者屬性的依賴度來完成下一步的屬性約簡,將無關(guān)的數(shù)據(jù)刪去,留下的有用數(shù)據(jù)組成集合。
(2)在Canopy算法中進行Map函數(shù)時,將有用的新數(shù)據(jù)集合換為<key,value>鍵值對的方式,并將其放入m個Map函數(shù)繼續(xù)進行計算。當每個數(shù)據(jù)塊的距離閥值,并且需將計算出的數(shù)值與D1、D2完成對比之后分類處理,最后迭代形成一個集合,即Canopy集合。
(3)在Canopy算法中進行Reduce函數(shù)時,首先需要對Map中完成的結(jié)果進行并集處理,組合成一個新的Q集合。之后對該新集合實行Canopy流程,不斷的進行程序處理,直至該集合為空,可以計算出聚類簇K,而后才可將其當做輸入值進行K-means框架的處理。
(4)K-means算法中Map函數(shù)時,將Canopy程序處理得出的聚類簇以<key,value>鍵值對輸入,之后計算節(jié)點與中心點之間的距離計算,而后匯總,進行類別的分類處理,最后用同樣的方式輸出。
(5)通過Combine函數(shù)來完成上一階段輸出值的分類處理,之后本地進行數(shù)據(jù)歸集,對各數(shù)據(jù)的維度值做總和計算,且需得出數(shù)據(jù)的數(shù)量,最后輸出以<key,value>鍵值對的方式。
(6)在K-means算法中進行Reduce函數(shù)時,首先需要對上一階段Combine函數(shù)的輸出結(jié)果進行分析,對各數(shù)據(jù)的維度值做出總和計算,且需得出數(shù)據(jù)的數(shù)量,最后形成新的聚類中心,之后繼續(xù)進行重新的迭代,直到收斂。
圖3RCK-means算法流程
電站機組一直將電站鍋爐的能源節(jié)約作為其優(yōu)化的重點,這是由于鍋爐的效率是電站經(jīng)濟與環(huán)保性的重要參考數(shù)值。如今,優(yōu)化方式有以下兩種,其一為對燃燒器與受熱面進行升級整改處理,以此優(yōu)化效率,亦或引進更為先進的相關(guān)設(shè)備來實現(xiàn)鍋爐使用時的參數(shù)監(jiān)測。然而此類方式雖能夠產(chǎn)生很好的效果,但同樣需要花費的人力財力也非常高。其二為以DCS為基準,加上數(shù)據(jù)挖掘來完成鍋爐使用最佳參數(shù)的選擇,這一方式的不足之處在于需要較多的依靠模型優(yōu)化以及算法升級來完成,因此會在模型優(yōu)化中出現(xiàn)建模過程難以得到樣本的問題,實用度不強。以電站DCS系統(tǒng)擁有的大量數(shù)據(jù)作為大數(shù)據(jù)挖掘技術(shù)做鋪墊,加之嚴密的計算流程,將影響鍋爐效率的參數(shù)從熱力系統(tǒng)的大量數(shù)據(jù)中挖掘出來,即使實際得出的參數(shù)值會與理論上參數(shù)最佳值之間有些誤差,但得出的這一參數(shù)值能夠成為至今最佳的參數(shù)值。本文運用K-means聚類算法的優(yōu)化加之Hadoop框架,在大量的數(shù)據(jù)中依據(jù)集(簇)聚類中心點來挖掘鍋爐效率的影響參數(shù),以形成最佳集合,之后結(jié)合實際理論以及數(shù)理檢測來驗證最佳的適用參數(shù),以此保證所得參數(shù)符合實際可用性,具有真正的現(xiàn)實意義,能夠被應(yīng)用于使鍋爐效率提升的參數(shù)挖掘,提升整體鍋爐效率。
研究以某一600 MW燃煤機組鍋爐作為主體,此鍋爐的燃燒器為擺動四角切圓形,選取分析研究數(shù)據(jù)一共129 600條,主要數(shù)據(jù)選取區(qū)間為2018-10-01~2018-12-31。
將鍋爐效率當作本次分析研究的主要目標,運用RCK-means算法來尋找會對鍋爐效率產(chǎn)生影響的數(shù)據(jù),在處于一般情況下,運用集(簇)聚類中心點于鍋爐效率之間的聯(lián)系來確定最佳的參數(shù),為實際操作確定方向。在能夠影響鍋爐效率的相關(guān)參數(shù)中,選出以下幾項來分析研究,即排煙氧量,燃燒器擺角,排煙溫度,磨煤機給煤量以及飛灰含碳量。
粗糙集理論只能夠?qū)﹄x散型的數(shù)據(jù)進行分析,因為其具有不能辨別數(shù)據(jù)關(guān)系的這一缺點,然而運用DCS所歸集的大部分均屬于連續(xù)而非離散的信息,由此可知在事前需要對DCS歸集的相關(guān)信息進行分散處理。能夠分散數(shù)據(jù)的方式有許多,若運用傳統(tǒng)的方式,則會出現(xiàn)數(shù)據(jù)分割點難以尋找,且若沒有對數(shù)據(jù)進行準確的分散,會影響后面的數(shù)據(jù)處理,進行數(shù)據(jù)分散較易出現(xiàn)有用數(shù)據(jù)被排除可能。因此本文選擇運用模糊粗糙集分散方法,顧名思義即為模糊集與粗糙集兩種方式相結(jié)合來進行數(shù)據(jù)分散,運用兩種均具有不確定性質(zhì)的方式對歸集的數(shù)據(jù)完成“柔化分”與屬性約簡處理。這樣的分散方式能夠在一定程度上彌補單獨運用粗糙集時存在的不足之處,也降低有用的重要數(shù)據(jù)被排除的可能性。
對約簡后的數(shù)據(jù)運用RCK-means算法來繼續(xù)完成數(shù)據(jù)的挖掘。將Hadoop平臺的支持度設(shè)定一個最小值2%。而后依據(jù)標準的數(shù)據(jù)計算處理順序?qū)s簡后形成的集合進行處理,挖掘有用的參數(shù),找到在大量的數(shù)據(jù)中聚類中心點和鍋爐效率之間最佳的參數(shù)值。
據(jù)實際分析可知,運行出的排煙氧量最佳優(yōu)化值與設(shè)定的實際值之間會存在著較大差異。當出現(xiàn)低負荷的情況時,設(shè)定值會小于最佳優(yōu)化值,這是因為在此環(huán)境下鍋爐較難燃燒,一定程度上使排煙氧量增多會有助于降低不燃燒熱而引起的不利影響,提升整體效益。而當負荷值較大,達到500 MW之上則有助于鍋爐的燃燒,相應(yīng)的排煙氧量最佳優(yōu)化值會降低,出現(xiàn)設(shè)定值大于最佳優(yōu)化值的情況。由此可知,在實際運用中,以便于更好的在不同情況下均可達到效率最大化,則不可運用設(shè)定值進行操作,需要對不同運行情況下的數(shù)據(jù)進行更新優(yōu)化,以找到最適的參數(shù)值,達到實際效用。
運用大數(shù)據(jù)技術(shù)對影響鍋爐效率的數(shù)據(jù)進行挖掘,尋找最佳的參數(shù)值,使鍋爐效率得到最大化。RCK-means新算法的運用將無效數(shù)據(jù)進行排除,形成最佳的集合,從整體上提升了聚類準確率。在實際運用中,為了更好的在不同情況下均可達到效率最大化,則不可運用設(shè)定值進行操作,需要設(shè)定一個最佳區(qū)間,而后針對不同情況進行數(shù)據(jù)優(yōu)化,以找到最合適的參數(shù)值。