盧 經(jīng)
(國網(wǎng)新源水電有限公司新安江水力發(fā)電廠,浙江 杭州 311608)
大數(shù)據(jù)環(huán)境背景下,電力信息系統(tǒng)的建立要以電力數(shù)據(jù)為基礎(chǔ),實現(xiàn)對海量數(shù)據(jù)信息的利用,完善電力系統(tǒng)的功能,避免電力系統(tǒng)運行中各種外部因素所造成的運行故障。電力信息系統(tǒng)監(jiān)控預(yù)判的智能分析對于減少電力系統(tǒng)故障、實現(xiàn)故障處理與預(yù)警等具有重要的意義,是當代電力行業(yè)發(fā)展中的熱點議題。
本項目以電廠作為研究對象,在電廠內(nèi)部包含了大量的電網(wǎng)運行數(shù)據(jù),數(shù)據(jù)庫、服務(wù)器等較多。文章中的研究包含了1 個虛擬平臺與7 個核心業(yè)務(wù)系統(tǒng),在這些系統(tǒng)的使用中,每年所產(chǎn)生的性能檢測數(shù)據(jù)極多,數(shù)據(jù)存儲量每年急速上升。在這種情況下,可以對這些數(shù)據(jù)利用大數(shù)據(jù)的手段,采用數(shù)據(jù)挖掘技術(shù),獲得電網(wǎng)系統(tǒng)運行所需要的有效數(shù)據(jù),從而為電力系統(tǒng)的決策等提供重要的數(shù)據(jù)支持。
在本項目的研究中,主要是以電廠的磁盤使用率、CPU 使用率等作為主要的數(shù)據(jù)挖掘?qū)ο螅瑥亩鶕?jù)挖掘結(jié)果,將目標數(shù)據(jù)劃分為5 個警告等級。在此過程中,有必要建立相應(yīng)的數(shù)學(xué)模型,通過該數(shù)學(xué)模型來預(yù)測各個樣本數(shù)據(jù)發(fā)生的警告等級,如果是高警告等級的樣本數(shù)據(jù),還需要預(yù)測和判斷其發(fā)生的時間等。
就電廠的實際情況來看,硬件設(shè)備、系統(tǒng)數(shù)據(jù)資源等較多,要保證其預(yù)測的準確性,最終選用隨機森林算法來建立模型。
在本項目的研究過程中,包含的狀態(tài)較多,在這種情況下,需要采用3 級告警轉(zhuǎn)為5 級告警的概率預(yù)測方式。具體的應(yīng)用過程中,需要從所獲得的告警數(shù)據(jù)中獲得提取相應(yīng)的正負樣本。對每個5 級樣本而言,需要將前一天的所有3 級告警作為一條正樣本,而每個5 級告警之前5 天的3 級告警作為一條負樣本,正樣本的數(shù)量要略微少于負樣本的數(shù)量。由于采用的是隨機森林算法,需要在決策過程中依據(jù)相關(guān)的技術(shù)建立決策樹模型,從而確定其最終的分類結(jié)果。就隨機森林算法的應(yīng)用效果來看,其本身對于復(fù)雜問題的分析與分類等能力較強,使得其在應(yīng)用中對于一些噪聲數(shù)據(jù)等具有較好的穩(wěn)定性。該算法在運算速度、變量重要性度量等方面有明顯的有效優(yōu)勢,因此在很多檢測問題的處理上有著極為廣泛的應(yīng)用。
(1)主站結(jié)構(gòu)設(shè)計。要實現(xiàn)對電力系統(tǒng)故障的預(yù)判,使得大數(shù)據(jù)環(huán)境下電力信息系統(tǒng)可以發(fā)揮其應(yīng)有的作用,就需要建立相對完善的系統(tǒng)結(jié)構(gòu)。電力系統(tǒng)中應(yīng)該包含主站與子站,主站的承擔(dān)著子站數(shù)據(jù)的匯總功能,需要在應(yīng)用的過程中根據(jù)系統(tǒng)的功能差異性,實現(xiàn)對這些數(shù)據(jù)的合理利用,從而發(fā)揮數(shù)據(jù)的最大價值。主站與子站之間存在著緊密聯(lián)系,兩者之間需要通過通信網(wǎng)絡(luò)實現(xiàn)連接,一般通過TCP/IP 與電話撥號的方式進行連接,以實現(xiàn)兩者之間的數(shù)據(jù)傳輸與共享。
(2)子站結(jié)構(gòu)設(shè)計。在子站的設(shè)計過程中,要避免子站與監(jiān)控系統(tǒng)的組網(wǎng)連接,因為監(jiān)控系統(tǒng)是一種實時傳輸系統(tǒng),在此情況下,子站與監(jiān)控系統(tǒng)同時處于安全運行狀態(tài)下,不同的安全區(qū)需要采取必要的隔離措施。因為在實際的生活中,Windows 系統(tǒng)的應(yīng)用較多,這也就使得子站系統(tǒng)在設(shè)計與使用中存在病毒因素的干擾,因此,需要在設(shè)計中將其子站系統(tǒng)與保護系統(tǒng)實現(xiàn)共網(wǎng),從而減低子站系統(tǒng)運行中受到其他因素的干擾作用。
在電力信息系統(tǒng)的數(shù)據(jù)處理中,常常存在著數(shù)據(jù)缺失問題。很多因素都會誘發(fā)數(shù)據(jù)缺失現(xiàn)象,一般將這些缺失原因分為人為與機械兩種。機械原因主要是由于機械問題所引發(fā)的數(shù)據(jù)丟失或者數(shù)據(jù)保存失敗等,比如存儲器損壞使得系統(tǒng)運行數(shù)據(jù)不能有效保存,在特定的時期內(nèi),服務(wù)器無法獲得相關(guān)的數(shù)據(jù);人為原因主要是主觀失誤等造成的。在缺失值的處理上,一般通過刪除與填充進行處理,而在填充過程中,還需綜合分析系統(tǒng)運行的情況,科學(xué)進行數(shù)據(jù)填充。
在異常數(shù)據(jù)的處理中,常常存在個別數(shù)據(jù)過大或者過小的情況,如果將這些異常數(shù)據(jù)與正常數(shù)據(jù)放在一起加以處理,就會降低數(shù)據(jù)處理的準確性,從而使得電力系統(tǒng)對于數(shù)據(jù)處理的有效性不足。而如果采用簡單的數(shù)據(jù)剔除方式剔除異常數(shù)據(jù)值,就會造成數(shù)據(jù)缺失,導(dǎo)致系統(tǒng)內(nèi)缺乏重要的參數(shù)信息等。因此,在異常數(shù)據(jù)的處理上,最為關(guān)鍵的是對異常數(shù)據(jù)的判斷與剔除。判斷與剔除是數(shù)據(jù)處理中的關(guān)鍵環(huán)節(jié),其直接影響著數(shù)據(jù)處理的質(zhì)量。異常值一般與正常數(shù)值存在著明顯的差距,一般包括類型不匹配異常、大小不匹配異常、分布異常等,這些異常情況需要結(jié)合數(shù)據(jù)的實際情況來分析數(shù)據(jù)出現(xiàn)的合理性,從而采取必要的處理方式。
采用隨機森林算法加以建模,數(shù)據(jù)集的80%與20%分別作為訓(xùn)練集與測試集,將袋外錯誤率作為衡量的標準,科學(xué)選擇隨機森林中樹的規(guī)模。為了避免過擬合現(xiàn)象的出現(xiàn),最終選用了92 棵決策樹,根據(jù)其模型特征分布情況,可以得到其最終的關(guān)鍵指標。
精度、召回率等如表1 所示。
表1 模型性能評估
由表1,可以精確獲得模型的精度等指標,結(jié)合混淆矩陣,最終獲得其模型準確率參數(shù)為0.77。同時,其預(yù)測效果較好,可以為電力系統(tǒng)的可靠運行等提供重要的數(shù)據(jù)參考。
在電力信息系統(tǒng)模型的數(shù)據(jù)處理中,一般采用的是Hadoop 結(jié)構(gòu),該方案是一個分布式系統(tǒng)基礎(chǔ)框架,在應(yīng)用中可以實現(xiàn)對海量數(shù)據(jù)的分布式處理。在實際的應(yīng)用過程中,Hadoop 需要與其他核心軟件相配合才能發(fā)揮其良好的應(yīng)用效果,也就是MapReduce 和HDFS 軟件,這兩個軟件在數(shù)據(jù)處理中分別承擔(dān)著運算與存儲的作用。在數(shù)據(jù)處理過程中,分布式數(shù)據(jù)處理過程的成本較為低廉,可以在根據(jù)電力系統(tǒng)運行所產(chǎn)生的數(shù)據(jù)建立相關(guān)的存儲集群。一般情況下,其設(shè)計模型包含了決策層、支撐層、數(shù)據(jù)層。在具體的應(yīng)用中,各個模型層分別負責(zé)各自的任務(wù),決策層包含了數(shù)據(jù)分析與處理平臺、決策者,在運行中可以進行海量數(shù)據(jù)的分割處理,使得數(shù)據(jù)的處理更為高效;而支撐層主要負責(zé)的是數(shù)據(jù)的挖掘與存儲,但是該存儲過程并不是將數(shù)據(jù)存儲于HDFS,而是將其存儲于HBase;數(shù)據(jù)層主要負責(zé)的是數(shù)據(jù)的采集與預(yù)處理過程,子站系統(tǒng)可以在獲得相應(yīng)的數(shù)據(jù)以后對其加以預(yù)處理,進而將預(yù)處理以后的數(shù)據(jù)逐步傳輸于高層,高層再對數(shù)據(jù)進行進一步處理,如圖1 所示。
圖1 電力信息系統(tǒng)大數(shù)據(jù)故障處理模型
在大數(shù)據(jù)環(huán)境下的電力信息系統(tǒng)的故障預(yù)判過程中,子站系統(tǒng)需要將獲得的電力系統(tǒng)運行數(shù)據(jù)等加以預(yù)處理,隨后,這些數(shù)據(jù)逐步傳輸于主站系統(tǒng)中。在整個電力系統(tǒng)中,包含了一個主站與多個子站,主站可以主動接收來自不同子站系統(tǒng)內(nèi)的預(yù)處理數(shù)據(jù),并對這些數(shù)據(jù)加以精細化的處理,使得其能夠變?yōu)楦鼮橛行У臄?shù)據(jù)。數(shù)據(jù)預(yù)處理過程中,子站可以剔除一些垃圾數(shù)據(jù)或者無用數(shù)據(jù),避免這些無用數(shù)據(jù)進入主站干擾主站的數(shù)據(jù)處理過程。要保證數(shù)據(jù)的剔除效果,就需要重視預(yù)處理過程,及時清除子站中包含的一些重復(fù)數(shù)據(jù)等。預(yù)處理過程主要包含了數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗與監(jiān)控過程,這些環(huán)節(jié)的處理過程在一定程度上提高了數(shù)據(jù)預(yù)處理的實際效果。
近年來,大數(shù)據(jù)時代的到來改變了各行各業(yè)的發(fā)展模式,有些電力企業(yè)借助于大數(shù)據(jù)技術(shù),逐步建立了電力信息系統(tǒng),實現(xiàn)了故障預(yù)判的智能分析,在維持了電力系統(tǒng)穩(wěn)定性與可靠性的基礎(chǔ)上,帶動了電力行業(yè)的技術(shù)創(chuàng)新,實現(xiàn)了電力行業(yè)的長遠發(fā)展。