盧 經(jīng)
(國(guó)網(wǎng)新源水電有限公司新安江水力發(fā)電廠,浙江 杭州 311608)
大數(shù)據(jù)環(huán)境背景下,電力信息系統(tǒng)的建立要以電力數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)信息的利用,完善電力系統(tǒng)的功能,避免電力系統(tǒng)運(yùn)行中各種外部因素所造成的運(yùn)行故障。電力信息系統(tǒng)監(jiān)控預(yù)判的智能分析對(duì)于減少電力系統(tǒng)故障、實(shí)現(xiàn)故障處理與預(yù)警等具有重要的意義,是當(dāng)代電力行業(yè)發(fā)展中的熱點(diǎn)議題。
本項(xiàng)目以電廠作為研究對(duì)象,在電廠內(nèi)部包含了大量的電網(wǎng)運(yùn)行數(shù)據(jù),數(shù)據(jù)庫(kù)、服務(wù)器等較多。文章中的研究包含了1 個(gè)虛擬平臺(tái)與7 個(gè)核心業(yè)務(wù)系統(tǒng),在這些系統(tǒng)的使用中,每年所產(chǎn)生的性能檢測(cè)數(shù)據(jù)極多,數(shù)據(jù)存儲(chǔ)量每年急速上升。在這種情況下,可以對(duì)這些數(shù)據(jù)利用大數(shù)據(jù)的手段,采用數(shù)據(jù)挖掘技術(shù),獲得電網(wǎng)系統(tǒng)運(yùn)行所需要的有效數(shù)據(jù),從而為電力系統(tǒng)的決策等提供重要的數(shù)據(jù)支持。
在本項(xiàng)目的研究中,主要是以電廠的磁盤(pán)使用率、CPU 使用率等作為主要的數(shù)據(jù)挖掘?qū)ο?,從而根?jù)挖掘結(jié)果,將目標(biāo)數(shù)據(jù)劃分為5 個(gè)警告等級(jí)。在此過(guò)程中,有必要建立相應(yīng)的數(shù)學(xué)模型,通過(guò)該數(shù)學(xué)模型來(lái)預(yù)測(cè)各個(gè)樣本數(shù)據(jù)發(fā)生的警告等級(jí),如果是高警告等級(jí)的樣本數(shù)據(jù),還需要預(yù)測(cè)和判斷其發(fā)生的時(shí)間等。
就電廠的實(shí)際情況來(lái)看,硬件設(shè)備、系統(tǒng)數(shù)據(jù)資源等較多,要保證其預(yù)測(cè)的準(zhǔn)確性,最終選用隨機(jī)森林算法來(lái)建立模型。
在本項(xiàng)目的研究過(guò)程中,包含的狀態(tài)較多,在這種情況下,需要采用3 級(jí)告警轉(zhuǎn)為5 級(jí)告警的概率預(yù)測(cè)方式。具體的應(yīng)用過(guò)程中,需要從所獲得的告警數(shù)據(jù)中獲得提取相應(yīng)的正負(fù)樣本。對(duì)每個(gè)5 級(jí)樣本而言,需要將前一天的所有3 級(jí)告警作為一條正樣本,而每個(gè)5 級(jí)告警之前5 天的3 級(jí)告警作為一條負(fù)樣本,正樣本的數(shù)量要略微少于負(fù)樣本的數(shù)量。由于采用的是隨機(jī)森林算法,需要在決策過(guò)程中依據(jù)相關(guān)的技術(shù)建立決策樹(shù)模型,從而確定其最終的分類(lèi)結(jié)果。就隨機(jī)森林算法的應(yīng)用效果來(lái)看,其本身對(duì)于復(fù)雜問(wèn)題的分析與分類(lèi)等能力較強(qiáng),使得其在應(yīng)用中對(duì)于一些噪聲數(shù)據(jù)等具有較好的穩(wěn)定性。該算法在運(yùn)算速度、變量重要性度量等方面有明顯的有效優(yōu)勢(shì),因此在很多檢測(cè)問(wèn)題的處理上有著極為廣泛的應(yīng)用。
(1)主站結(jié)構(gòu)設(shè)計(jì)。要實(shí)現(xiàn)對(duì)電力系統(tǒng)故障的預(yù)判,使得大數(shù)據(jù)環(huán)境下電力信息系統(tǒng)可以發(fā)揮其應(yīng)有的作用,就需要建立相對(duì)完善的系統(tǒng)結(jié)構(gòu)。電力系統(tǒng)中應(yīng)該包含主站與子站,主站的承擔(dān)著子站數(shù)據(jù)的匯總功能,需要在應(yīng)用的過(guò)程中根據(jù)系統(tǒng)的功能差異性,實(shí)現(xiàn)對(duì)這些數(shù)據(jù)的合理利用,從而發(fā)揮數(shù)據(jù)的最大價(jià)值。主站與子站之間存在著緊密聯(lián)系,兩者之間需要通過(guò)通信網(wǎng)絡(luò)實(shí)現(xiàn)連接,一般通過(guò)TCP/IP 與電話(huà)撥號(hào)的方式進(jìn)行連接,以實(shí)現(xiàn)兩者之間的數(shù)據(jù)傳輸與共享。
(2)子站結(jié)構(gòu)設(shè)計(jì)。在子站的設(shè)計(jì)過(guò)程中,要避免子站與監(jiān)控系統(tǒng)的組網(wǎng)連接,因?yàn)楸O(jiān)控系統(tǒng)是一種實(shí)時(shí)傳輸系統(tǒng),在此情況下,子站與監(jiān)控系統(tǒng)同時(shí)處于安全運(yùn)行狀態(tài)下,不同的安全區(qū)需要采取必要的隔離措施。因?yàn)樵趯?shí)際的生活中,Windows 系統(tǒng)的應(yīng)用較多,這也就使得子站系統(tǒng)在設(shè)計(jì)與使用中存在病毒因素的干擾,因此,需要在設(shè)計(jì)中將其子站系統(tǒng)與保護(hù)系統(tǒng)實(shí)現(xiàn)共網(wǎng),從而減低子站系統(tǒng)運(yùn)行中受到其他因素的干擾作用。
在電力信息系統(tǒng)的數(shù)據(jù)處理中,常常存在著數(shù)據(jù)缺失問(wèn)題。很多因素都會(huì)誘發(fā)數(shù)據(jù)缺失現(xiàn)象,一般將這些缺失原因分為人為與機(jī)械兩種。機(jī)械原因主要是由于機(jī)械問(wèn)題所引發(fā)的數(shù)據(jù)丟失或者數(shù)據(jù)保存失敗等,比如存儲(chǔ)器損壞使得系統(tǒng)運(yùn)行數(shù)據(jù)不能有效保存,在特定的時(shí)期內(nèi),服務(wù)器無(wú)法獲得相關(guān)的數(shù)據(jù);人為原因主要是主觀失誤等造成的。在缺失值的處理上,一般通過(guò)刪除與填充進(jìn)行處理,而在填充過(guò)程中,還需綜合分析系統(tǒng)運(yùn)行的情況,科學(xué)進(jìn)行數(shù)據(jù)填充。
在異常數(shù)據(jù)的處理中,常常存在個(gè)別數(shù)據(jù)過(guò)大或者過(guò)小的情況,如果將這些異常數(shù)據(jù)與正常數(shù)據(jù)放在一起加以處理,就會(huì)降低數(shù)據(jù)處理的準(zhǔn)確性,從而使得電力系統(tǒng)對(duì)于數(shù)據(jù)處理的有效性不足。而如果采用簡(jiǎn)單的數(shù)據(jù)剔除方式剔除異常數(shù)據(jù)值,就會(huì)造成數(shù)據(jù)缺失,導(dǎo)致系統(tǒng)內(nèi)缺乏重要的參數(shù)信息等。因此,在異常數(shù)據(jù)的處理上,最為關(guān)鍵的是對(duì)異常數(shù)據(jù)的判斷與剔除。判斷與剔除是數(shù)據(jù)處理中的關(guān)鍵環(huán)節(jié),其直接影響著數(shù)據(jù)處理的質(zhì)量。異常值一般與正常數(shù)值存在著明顯的差距,一般包括類(lèi)型不匹配異常、大小不匹配異常、分布異常等,這些異常情況需要結(jié)合數(shù)據(jù)的實(shí)際情況來(lái)分析數(shù)據(jù)出現(xiàn)的合理性,從而采取必要的處理方式。
采用隨機(jī)森林算法加以建模,數(shù)據(jù)集的80%與20%分別作為訓(xùn)練集與測(cè)試集,將袋外錯(cuò)誤率作為衡量的標(biāo)準(zhǔn),科學(xué)選擇隨機(jī)森林中樹(shù)的規(guī)模。為了避免過(guò)擬合現(xiàn)象的出現(xiàn),最終選用了92 棵決策樹(shù),根據(jù)其模型特征分布情況,可以得到其最終的關(guān)鍵指標(biāo)。
精度、召回率等如表1 所示。
表1 模型性能評(píng)估
由表1,可以精確獲得模型的精度等指標(biāo),結(jié)合混淆矩陣,最終獲得其模型準(zhǔn)確率參數(shù)為0.77。同時(shí),其預(yù)測(cè)效果較好,可以為電力系統(tǒng)的可靠運(yùn)行等提供重要的數(shù)據(jù)參考。
在電力信息系統(tǒng)模型的數(shù)據(jù)處理中,一般采用的是Hadoop 結(jié)構(gòu),該方案是一個(gè)分布式系統(tǒng)基礎(chǔ)框架,在應(yīng)用中可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分布式處理。在實(shí)際的應(yīng)用過(guò)程中,Hadoop 需要與其他核心軟件相配合才能發(fā)揮其良好的應(yīng)用效果,也就是MapReduce 和HDFS 軟件,這兩個(gè)軟件在數(shù)據(jù)處理中分別承擔(dān)著運(yùn)算與存儲(chǔ)的作用。在數(shù)據(jù)處理過(guò)程中,分布式數(shù)據(jù)處理過(guò)程的成本較為低廉,可以在根據(jù)電力系統(tǒng)運(yùn)行所產(chǎn)生的數(shù)據(jù)建立相關(guān)的存儲(chǔ)集群。一般情況下,其設(shè)計(jì)模型包含了決策層、支撐層、數(shù)據(jù)層。在具體的應(yīng)用中,各個(gè)模型層分別負(fù)責(zé)各自的任務(wù),決策層包含了數(shù)據(jù)分析與處理平臺(tái)、決策者,在運(yùn)行中可以進(jìn)行海量數(shù)據(jù)的分割處理,使得數(shù)據(jù)的處理更為高效;而支撐層主要負(fù)責(zé)的是數(shù)據(jù)的挖掘與存儲(chǔ),但是該存儲(chǔ)過(guò)程并不是將數(shù)據(jù)存儲(chǔ)于HDFS,而是將其存儲(chǔ)于HBase;數(shù)據(jù)層主要負(fù)責(zé)的是數(shù)據(jù)的采集與預(yù)處理過(guò)程,子站系統(tǒng)可以在獲得相應(yīng)的數(shù)據(jù)以后對(duì)其加以預(yù)處理,進(jìn)而將預(yù)處理以后的數(shù)據(jù)逐步傳輸于高層,高層再對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步處理,如圖1 所示。
圖1 電力信息系統(tǒng)大數(shù)據(jù)故障處理模型
在大數(shù)據(jù)環(huán)境下的電力信息系統(tǒng)的故障預(yù)判過(guò)程中,子站系統(tǒng)需要將獲得的電力系統(tǒng)運(yùn)行數(shù)據(jù)等加以預(yù)處理,隨后,這些數(shù)據(jù)逐步傳輸于主站系統(tǒng)中。在整個(gè)電力系統(tǒng)中,包含了一個(gè)主站與多個(gè)子站,主站可以主動(dòng)接收來(lái)自不同子站系統(tǒng)內(nèi)的預(yù)處理數(shù)據(jù),并對(duì)這些數(shù)據(jù)加以精細(xì)化的處理,使得其能夠變?yōu)楦鼮橛行У臄?shù)據(jù)。數(shù)據(jù)預(yù)處理過(guò)程中,子站可以剔除一些垃圾數(shù)據(jù)或者無(wú)用數(shù)據(jù),避免這些無(wú)用數(shù)據(jù)進(jìn)入主站干擾主站的數(shù)據(jù)處理過(guò)程。要保證數(shù)據(jù)的剔除效果,就需要重視預(yù)處理過(guò)程,及時(shí)清除子站中包含的一些重復(fù)數(shù)據(jù)等。預(yù)處理過(guò)程主要包含了數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗與監(jiān)控過(guò)程,這些環(huán)節(jié)的處理過(guò)程在一定程度上提高了數(shù)據(jù)預(yù)處理的實(shí)際效果。
近年來(lái),大數(shù)據(jù)時(shí)代的到來(lái)改變了各行各業(yè)的發(fā)展模式,有些電力企業(yè)借助于大數(shù)據(jù)技術(shù),逐步建立了電力信息系統(tǒng),實(shí)現(xiàn)了故障預(yù)判的智能分析,在維持了電力系統(tǒng)穩(wěn)定性與可靠性的基礎(chǔ)上,帶動(dòng)了電力行業(yè)的技術(shù)創(chuàng)新,實(shí)現(xiàn)了電力行業(yè)的長(zhǎng)遠(yuǎn)發(fā)展。