毛先胤,文 屹,馬曉紅,黃 歡,張 輝,余 容
(1.貴州電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,貴州貴陽(yáng) 550002;2.中國(guó)電建集團(tuán)貴州電力設(shè)計(jì)研究院有限公司,貴州貴陽(yáng) 550000)
隨著我國(guó)電力系統(tǒng)發(fā)展的規(guī)模不斷擴(kuò)大,通信技術(shù)、互聯(lián)網(wǎng)技術(shù)、傳感器等新科技的不斷發(fā)展,電網(wǎng)數(shù)據(jù)的數(shù)量及種類已開(kāi)始呈現(xiàn)出爆炸式的增長(zhǎng)趨勢(shì),電網(wǎng)發(fā)展已經(jīng)逐步邁入大數(shù)據(jù)時(shí)代。由大量監(jiān)測(cè)設(shè)備采集、各監(jiān)測(cè)分析系統(tǒng)以及計(jì)算機(jī)系統(tǒng)分析產(chǎn)生了的海量形式結(jié)構(gòu)不同的數(shù)據(jù),這些數(shù)據(jù)從全方位反映著智能電網(wǎng)的運(yùn)行環(huán)境與運(yùn)行狀態(tài),已成為非常珍貴的資源。而如何迅速篩選并充分利用海量數(shù)據(jù)堆中的有用信息,是目前電力系統(tǒng)建設(shè)面臨的巨大挑戰(zhàn)[1]。因此對(duì)多源信息進(jìn)行融合已大勢(shì)所趨。它可以把來(lái)自多方面的數(shù)據(jù)融合在一起,實(shí)現(xiàn)對(duì)雜亂無(wú)章的電網(wǎng)數(shù)據(jù)整理并得出關(guān)于研究對(duì)象更詳細(xì)、全面的分析[2-3]。
隨著電力企業(yè)朝著集約化、經(jīng)濟(jì)化的發(fā)展,整合電力大數(shù)據(jù)挖掘電力大數(shù)據(jù)的潛能,實(shí)現(xiàn)電力企業(yè)的可靠、安全、高效、經(jīng)濟(jì)化運(yùn)營(yíng)成為一個(gè)亟需解決的難題。一個(gè)高維復(fù)雜的電力系統(tǒng)包含有電力流、業(yè)務(wù)流、故障流、信息流和氣象流等不同的數(shù)據(jù)流。電力系統(tǒng)內(nèi)部各類數(shù)據(jù)的流向以及電力大數(shù)據(jù)的應(yīng)用架構(gòu)如圖1所示。電力大數(shù)據(jù)的應(yīng)用架構(gòu)包括各個(gè)環(huán)節(jié),主要由電力數(shù)據(jù)的采集、MIS系統(tǒng)、電能計(jì)量系統(tǒng)、存儲(chǔ)系統(tǒng)、大數(shù)據(jù)處理系統(tǒng)以及數(shù)據(jù)檢測(cè)系統(tǒng)、預(yù)測(cè)系統(tǒng)數(shù)據(jù)、電網(wǎng)運(yùn)維監(jiān)測(cè)管理系統(tǒng)等構(gòu)成。
電力大數(shù)據(jù)在電力企業(yè)中的應(yīng)用前景十分廣闊,在單獨(dú)的電網(wǎng)應(yīng)用系統(tǒng)中,通過(guò)單獨(dú)應(yīng)用實(shí)現(xiàn)其使用的價(jià)值,如電網(wǎng)運(yùn)維監(jiān)測(cè)中的輸電線路覆冰監(jiān)測(cè)系統(tǒng)直接應(yīng)用電網(wǎng)覆冰監(jiān)測(cè),實(shí)現(xiàn)對(duì)輸電線路覆冰厚度的估算預(yù)警。同時(shí)也可以通過(guò)打通與各個(gè)系統(tǒng)之間的通道實(shí)現(xiàn)系統(tǒng)之間數(shù)據(jù)融合及共享使用,如輸電線路山火監(jiān)測(cè)系統(tǒng)、輸電線路覆冰監(jiān)測(cè)系統(tǒng)、輸電線路地質(zhì)災(zāi)害監(jiān)測(cè)系統(tǒng),輸電線路用戶管理系統(tǒng)構(gòu)建一個(gè)大數(shù)據(jù)平臺(tái)?;诖诉M(jìn)行數(shù)據(jù)挖掘與分析,構(gòu)建電力輸電線路安全風(fēng)險(xiǎn)綜合評(píng)估系統(tǒng),實(shí)現(xiàn)對(duì)輸電線路狀態(tài)的風(fēng)險(xiǎn)評(píng)估,及時(shí)下達(dá)輸電線路運(yùn)維任務(wù),并制定輸電線路運(yùn)維管理策略,發(fā)掘出以往不可能實(shí)現(xiàn)的應(yīng)用[4-5]。
1.2.1 電力大數(shù)據(jù)缺乏統(tǒng)一的標(biāo)準(zhǔn)
隨著電網(wǎng)信息化、數(shù)字化建設(shè)的不斷加快,電網(wǎng)信息化程度逐年呈上升態(tài)勢(shì),與電力相關(guān)的各個(gè)企業(yè)對(duì)電網(wǎng)信息化建設(shè)的投資也逐年增大,但是不同省級(jí)電網(wǎng)企業(yè)的信息化建設(shè)相對(duì)獨(dú)立,缺乏統(tǒng)一的標(biāo)準(zhǔn)與規(guī)范;而且同一個(gè)電力企業(yè)內(nèi)部,會(huì)根據(jù)不同部門的實(shí)際需求,開(kāi)發(fā)出的系統(tǒng)僅僅是針對(duì)某方面的應(yīng)用,可擴(kuò)展性比較差。它們?cè)陂_(kāi)發(fā)的語(yǔ)言、開(kāi)發(fā)的框架、開(kāi)發(fā)的標(biāo)準(zhǔn)、數(shù)據(jù)的存儲(chǔ)格式、系統(tǒng)的結(jié)構(gòu)上存在比較大的差異,系統(tǒng)之間難以打通形成共享,造成信息利用的連貫性比較差,同時(shí)造成資源的浪費(fèi),在整個(gè)電網(wǎng)中,形成了多個(gè)“信息孤島”,進(jìn)而影響了整個(gè)南方電網(wǎng)甚至是國(guó)家電網(wǎng)的的電力發(fā)展戰(zhàn)略[6]。在電網(wǎng)企業(yè)中,內(nèi)部的調(diào)度中心運(yùn)行方式與電力自動(dòng)化控制、繼電保護(hù)等電力管理部門各自根據(jù)業(yè)務(wù)的需求建立了不同的數(shù)據(jù)庫(kù)和數(shù)據(jù)模型,不同的數(shù)據(jù)庫(kù)的數(shù)據(jù)編碼格式與存儲(chǔ)模式都有所不同,導(dǎo)致多元電網(wǎng)運(yùn)行參數(shù)不一致,無(wú)法共享參數(shù)信息,互相辨識(shí)數(shù)據(jù),缺乏彼此協(xié)同機(jī)制與一致性,進(jìn)而使得數(shù)據(jù)在電網(wǎng)企業(yè)內(nèi)部也不能實(shí)現(xiàn)數(shù)據(jù)的共享,各系統(tǒng)之間的數(shù)據(jù)的協(xié)同作用無(wú)法發(fā)揮出來(lái),在企業(yè)的內(nèi)部電網(wǎng)中就形成了“一個(gè)電網(wǎng),多套數(shù)據(jù)”的問(wèn)題,對(duì)電網(wǎng)建設(shè)的可持續(xù)發(fā)展十分不利。
1.2.2 電網(wǎng)企業(yè)協(xié)作比較困難
在現(xiàn)代電網(wǎng)企業(yè)的發(fā)展中,特別是智能電網(wǎng)企業(yè)發(fā)展中,只有電網(wǎng)企業(yè)內(nèi)部各個(gè)部門以及電網(wǎng)企業(yè)之間相互協(xié)調(diào)、相互協(xié)作,才能夠有效地完成電網(wǎng)自動(dòng)化調(diào)動(dòng);統(tǒng)一協(xié)調(diào)管理、運(yùn)營(yíng)等,只有在電力大數(shù)據(jù)統(tǒng)一運(yùn)行與管理的情況下才能夠?qū)崿F(xiàn)。現(xiàn)代電網(wǎng)中,尤其是智能電網(wǎng)的發(fā)展,企業(yè)中各個(gè)部門之間、各企業(yè)之間相互協(xié)調(diào)協(xié)作才能更好的完成電力業(yè)務(wù)的自動(dòng)化調(diào)度、運(yùn)營(yíng)以及管理。例如電力數(shù)據(jù)需要按照業(yè)務(wù)的流傳模式從一個(gè)部門轉(zhuǎn)移到另一個(gè)部門時(shí),或者數(shù)據(jù)從上級(jí)發(fā)送到下級(jí)以及不同的部門在數(shù)據(jù)共享時(shí),當(dāng)數(shù)據(jù)的格式、標(biāo)準(zhǔn)不同,需要通過(guò)數(shù)據(jù)的轉(zhuǎn)換才能實(shí)現(xiàn)數(shù)據(jù)的共享,進(jìn)而造成部門之間、電力企業(yè)之間協(xié)作繁瑣、數(shù)據(jù)共享效率低。
1.2.3 電力大數(shù)據(jù)發(fā)展與電力企業(yè)的發(fā)展不一致
電網(wǎng)逐步向智能化邁進(jìn)的過(guò)程中,電網(wǎng)的高效安全可靠的運(yùn)營(yíng)需要依賴數(shù)據(jù)的交換。在電力企業(yè)設(shè)備建設(shè)的過(guò)程中,不同區(qū)域因各自的區(qū)域特點(diǎn)往往會(huì)采用不同的電力設(shè)備,在不同的區(qū)域與地點(diǎn),就會(huì)產(chǎn)生大量的結(jié)構(gòu)化與半結(jié)構(gòu)化的數(shù)據(jù),如何有效實(shí)現(xiàn)這些電力大數(shù)據(jù)的融合,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一與共享,成為電力企業(yè)在發(fā)展過(guò)程中面臨的主要問(wèn)題。因此,在電力企業(yè)發(fā)展的過(guò)程中,需要解決電力大數(shù)據(jù)與電力企業(yè)統(tǒng)一管理的標(biāo)準(zhǔn),將多源異構(gòu)的電力大數(shù)據(jù)融合在一起,形成一個(gè)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),以便于實(shí)現(xiàn)電力大數(shù)據(jù)的互聯(lián)互通、交換共享。
因此,亟需一套行之有效的多源異構(gòu)融合算法使得多源異構(gòu)的電力大數(shù)據(jù)融合。實(shí)現(xiàn)電力大數(shù)據(jù)的互聯(lián)互通、交換共享,以便實(shí)現(xiàn)各企業(yè)、各系統(tǒng)的協(xié)同,充分發(fā)掘電力大數(shù)據(jù)的潛在價(jià)值[7]。
數(shù)據(jù)融合是一項(xiàng)新興技術(shù)。它能夠在設(shè)計(jì)好的一套完整的算法結(jié)構(gòu)內(nèi)對(duì)所采集的數(shù)據(jù)按照預(yù)定規(guī)律進(jìn)行自動(dòng)的關(guān)聯(lián)和特征提取,能夠更迅速的進(jìn)行研究對(duì)象的狀態(tài)評(píng)估和決策任務(wù)的信息處理。
信息融合可從以下三個(gè)層次進(jìn)行描述,如圖2所示。
數(shù)據(jù)融合的作用主要有以下三種。
(1)電力系統(tǒng)中信息采集點(diǎn)在一定范圍內(nèi)感知到的數(shù)據(jù)可能會(huì)存在數(shù)據(jù)冗余性,在一定程度上占用了有限的帶寬。
(2)在數(shù)據(jù)傳輸中,多個(gè)數(shù)據(jù)采集點(diǎn)的數(shù)據(jù)利用單通道影響數(shù)據(jù)傳輸速度,造成數(shù)據(jù)擁塞,增大數(shù)據(jù)處理時(shí)延。
(3)單一的數(shù)據(jù)監(jiān)測(cè)系統(tǒng)當(dāng)遇到故障時(shí),如果僅僅依賴故障監(jiān)測(cè)系統(tǒng)采集的數(shù)據(jù)會(huì)造成錯(cuò)誤數(shù)據(jù)的蔓延,造成整個(gè)線路狀態(tài)分析不準(zhǔn)確,擴(kuò)大電網(wǎng)線路故障范圍。
傳統(tǒng)數(shù)據(jù)融合算法主要利用反向傳播(back propagation,BP)網(wǎng)絡(luò)。傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)從性能方面看,收斂速度慢,在BP網(wǎng)絡(luò)中,BP算法決定收斂速度關(guān)鍵的兩個(gè)因素就在于學(xué)習(xí)率參數(shù)和相關(guān)傳遞函數(shù)導(dǎo)數(shù)數(shù)值的大??;局部極小點(diǎn)有待改進(jìn)。BP算法下降沿著負(fù)梯度方向時(shí),其誤差函數(shù)達(dá)到了梯度0狀態(tài)時(shí),閾值、權(quán)值的更新就會(huì)停止。當(dāng)誤差函數(shù)是嚴(yán)格的凹函數(shù),存在著唯一極小點(diǎn),也就是全局最小點(diǎn),最終得到最優(yōu)權(quán)值、閾值。當(dāng)誤差函數(shù)不是嚴(yán)格凹函數(shù)的時(shí)候,此時(shí)的局部極小點(diǎn)在全局來(lái)看并不一定是最小點(diǎn);從結(jié)構(gòu)上看,其網(wǎng)絡(luò)結(jié)構(gòu)不確定、學(xué)習(xí)率難以選取。網(wǎng)絡(luò)結(jié)構(gòu)的確定主要關(guān)鍵在于兩個(gè)數(shù)值,即網(wǎng)絡(luò)隱含層數(shù)目和神經(jīng)元個(gè)數(shù)。通常來(lái)說(shuō),這兩者的數(shù)目的變化都會(huì)直接造成網(wǎng)絡(luò)結(jié)構(gòu)的改變,網(wǎng)絡(luò)隱含層數(shù)目過(guò)大會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,隱含層數(shù)目過(guò)小,網(wǎng)絡(luò)學(xué)習(xí)和逼近性能就會(huì)變差。一個(gè)性能良好的網(wǎng)絡(luò)結(jié)構(gòu)離不開(kāi)準(zhǔn)確的隱含層數(shù)目和和神經(jīng)元數(shù)的選取。只是目前還沒(méi)有一套完整的理論體系適用于如何來(lái)確定網(wǎng)絡(luò)結(jié)構(gòu)中最合適的網(wǎng)絡(luò)隱含層數(shù)目及神經(jīng)元個(gè)數(shù),只能憑經(jīng)驗(yàn)和實(shí)驗(yàn)探索。
Hermite正交基前向神經(jīng)網(wǎng)絡(luò)從多項(xiàng)式插值和逼近理論出發(fā),是一種以正交多項(xiàng)式作為隱含層神經(jīng)元的激勵(lì)函數(shù)直接確定權(quán)值的神經(jīng)網(wǎng)絡(luò)算法。本算法省略掉繁瑣的迭代訓(xùn)練過(guò)程,極大的節(jié)約了網(wǎng)絡(luò)訓(xùn)練時(shí)間。Hermite正交多項(xiàng)式激勵(lì)的前向神經(jīng)網(wǎng)絡(luò)模型如圖3所示。Hermite正交基神經(jīng)網(wǎng)絡(luò)采用三層前向結(jié)構(gòu),該前向神經(jīng)網(wǎng)絡(luò)采用了一組Hermite正交多項(xiàng)式函數(shù)為隱含層神經(jīng)元的激勵(lì)函數(shù),而其輸入層和輸出層神經(jīng)元使用線性激勵(lì)函數(shù)并巧妙固定其權(quán)閾值[8-9]。
Hermite正交基前向神經(jīng)網(wǎng)絡(luò)算法本身設(shè)計(jì)是適用于少量嚴(yán)格樣本數(shù)據(jù),并不適合處理大數(shù)據(jù)樣本。在處理大數(shù)據(jù)時(shí)存在耗時(shí)長(zhǎng)、I/O操作頻繁甚至計(jì)算不出權(quán)值的問(wèn)題,從而導(dǎo)致內(nèi)存不足。況且在目前智能電網(wǎng)的日常監(jiān)測(cè)與檢測(cè)中時(shí)時(shí)刻刻都在采集數(shù)據(jù),所獲得到的數(shù)據(jù)量并不是只依靠算法這一種工具能夠有效處理的。而MapReduce(分布式處理框架)可在集群上并發(fā)處理大數(shù)據(jù)集。MapReduce一共包含兩個(gè)部分,一個(gè)是“Map”對(duì)應(yīng)“映 射 ”,一 個(gè) 是 “Reduce”對(duì) 應(yīng) “歸 約 ”[10]。MapReduce可以將大數(shù)據(jù)樣本集自動(dòng)地被分為很多個(gè)數(shù)據(jù)塊,每一個(gè)數(shù)據(jù)塊對(duì)應(yīng)一個(gè)計(jì)算任務(wù),并自動(dòng)調(diào)度計(jì)算節(jié)點(diǎn)來(lái)處理相應(yīng)的數(shù)據(jù)塊。作業(yè)和任務(wù)調(diào)度功能主要負(fù)責(zé)分配和調(diào)度計(jì)算Map節(jié)點(diǎn)或Reduce節(jié)點(diǎn)。同時(shí)負(fù)責(zé)監(jiān)控這些節(jié)點(diǎn)的執(zhí)行狀態(tài),并負(fù)責(zé)Map節(jié)點(diǎn)執(zhí)行的同步控制。為了減少數(shù)據(jù)通信開(kāi)銷,中間結(jié)果數(shù)據(jù)進(jìn)入Reduce節(jié)點(diǎn)前會(huì)進(jìn)行一定的合并處理。一個(gè)Reduce節(jié)點(diǎn)所處理的數(shù)據(jù)可能會(huì)來(lái)自多個(gè)Map節(jié)點(diǎn),為了避免Reduce計(jì)算階段發(fā)生數(shù)據(jù)相關(guān)性,Map節(jié)點(diǎn)輸出的中間結(jié)果使用一定的策略進(jìn)行適當(dāng)?shù)膭澐痔幚?,保證相關(guān)性數(shù)據(jù)發(fā)送到同一個(gè)Reduce節(jié)點(diǎn);此外,MapReduce還進(jìn)行一些計(jì)算性能優(yōu)化處理,如對(duì)最慢的計(jì)算任務(wù)采用多備份執(zhí)行、選最快完成者作為結(jié)果,提高處理速度從而達(dá)到系統(tǒng)優(yōu)化的目的。同時(shí)節(jié)點(diǎn)硬件(主機(jī)、磁盤、內(nèi)存等)出錯(cuò)和軟件出錯(cuò),MapReduce能檢測(cè)并隔離出錯(cuò)節(jié)點(diǎn),并調(diào)度分配新的節(jié)點(diǎn)接管出錯(cuò)節(jié)點(diǎn)的計(jì)算任務(wù)[11]。
MapReduce從客戶的任務(wù)提交到任務(wù)完成的全過(guò)程 主 要 依 靠 Client、Job Tracker、Task Tracker、HDFS四個(gè)獨(dú)立部分。Client(客戶端)主要任務(wù)是編寫調(diào)制程序以及程序任務(wù)的提交。Job Tracker協(xié)調(diào)作業(yè)的運(yùn)行,對(duì)并行處理進(jìn)行管理,負(fù)責(zé)整個(gè)節(jié)點(diǎn)群的資源配置及任務(wù)規(guī)劃。Task Tracker運(yùn)行作業(yè)劃分后的任務(wù),一個(gè)是從Job Tracker接受并執(zhí)行命令,一個(gè)是將工作完成狀態(tài)依靠心跳機(jī)制向 Job Tracker進(jìn)行反饋。HDFS(分布式文件系統(tǒng))用來(lái)在實(shí)體間共享作業(yè)文件,主要使用其數(shù)據(jù)高吞吐量?jī)?yōu)勢(shì)對(duì)訪問(wèn)程序進(jìn)行保存,并且HDFS可以實(shí)現(xiàn)流動(dòng)數(shù)據(jù)的形式訪問(wèn)數(shù)據(jù)中心。
將一個(gè)大樣本分解為多個(gè)小樣本并且由多個(gè)處理器分別計(jì)算的并行計(jì)算,其與傳統(tǒng)串行計(jì)算相比,明顯提高了運(yùn)行效率?;贛apReduce模型的Hermite正交基前向神經(jīng)網(wǎng)絡(luò)算法的并行處理流程圖如圖4。
在Hermite正交基前向神經(jīng)網(wǎng)絡(luò)方法在作業(yè)時(shí),具備數(shù)據(jù)塊分別處理時(shí)各自獨(dú)立的特點(diǎn),因此可以將Hermite正交基前向神經(jīng)網(wǎng)絡(luò)方法結(jié)合MapReduce對(duì)其并行化處理。在樣本數(shù)據(jù)集融合起初使用Map映射機(jī)制可將樣本數(shù)據(jù)集等分為子數(shù)據(jù)集1、子數(shù)據(jù)集2…子數(shù)據(jù)集n,然后根據(jù)任務(wù)分配節(jié)點(diǎn)分配到各任務(wù)執(zhí)行節(jié)點(diǎn),最后結(jié)合本文融合算法按照規(guī)定的指標(biāo)進(jìn)行數(shù)據(jù)融合,并通過(guò)多個(gè)Reduce函數(shù)把每一個(gè)節(jié)點(diǎn)計(jì)算處理的子集進(jìn)行匯總。
在當(dāng)前電力大數(shù)據(jù)背景下,基于分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop平臺(tái),利用HDFS進(jìn)行海量數(shù)據(jù)存儲(chǔ),利用MapReduce為電力大數(shù)據(jù)分析提供快速處理能力[12]。本文使用風(fēng)力發(fā)電廠的發(fā)電功率預(yù)測(cè)為目標(biāo),其數(shù)據(jù)并行處理的步驟如圖5。
基于MapReduce并行化模式下的數(shù)據(jù)融合關(guān)鍵步驟如下。
(1)數(shù)據(jù)離散化。根據(jù)本文的目標(biāo),需要采集的數(shù)據(jù)多為歷史發(fā)電功率、溫度,風(fēng)速,氣溫,濕度等。數(shù)據(jù)的離散化處理目前僅僅需要針對(duì)連續(xù)變化的數(shù)據(jù)進(jìn)行處理,其中開(kāi)關(guān)量、枚舉量均為離散變量,無(wú)需離散化,現(xiàn)階段的數(shù)據(jù)離散化方法主要是等距、等頻以及基于聚類的方法。根據(jù)本文處理的數(shù)據(jù)有溫度、濕度、發(fā)電量、歷史發(fā)電功率、氣溫等等,因此采用了等距離散方法。
(2)數(shù)據(jù)矩陣化處理。假設(shè)向量N是某一時(shí)刻采集到的數(shù)據(jù),N=(n1,n2,…,nm,t)。其中 m表示維數(shù),ni表示第i維樣本數(shù)據(jù)取值,t表示采集時(shí)刻。某一個(gè)風(fēng)機(jī)某一時(shí)刻采集到的數(shù)據(jù)矩陣為Nq:
則在某一時(shí)間段內(nèi)多個(gè)設(shè)備所收集到的數(shù)據(jù)為矩陣M:
(3)根據(jù)基于MapReduce并行化算法進(jìn)行訓(xùn)練預(yù)測(cè)。
本文在分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop平臺(tái)上結(jié)合風(fēng)電場(chǎng)采集的數(shù)據(jù),對(duì)海量數(shù)據(jù)進(jìn)行融合分析,發(fā)現(xiàn)其關(guān)聯(lián)關(guān)系,對(duì)輸出功率進(jìn)行預(yù)測(cè)[13]。HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS集群是由一個(gè)NameNode和若干個(gè)DataNode組成的。其中NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)操作;集群中的DataNode管理存儲(chǔ)的數(shù)據(jù)[14-15]。根據(jù)前文所提到的MapReduce數(shù)據(jù)處理過(guò)程特點(diǎn),構(gòu)建10臺(tái)電腦配置相同的節(jié)點(diǎn)組成整個(gè)實(shí)驗(yàn)平臺(tái)建立基礎(chǔ),其中1臺(tái)機(jī)器作為Name Node和Job Tracker服務(wù)節(jié)點(diǎn),另外9臺(tái)作為Date Node和Task Tracker服務(wù)節(jié)點(diǎn),在Eclipse開(kāi)發(fā)環(huán)境上實(shí)現(xiàn)。
本實(shí)驗(yàn)中分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群平臺(tái)各節(jié)點(diǎn)機(jī)器的配置如表1。
表1 各機(jī)器配置Tab.1 Configuration of each machine
實(shí)驗(yàn)采用某風(fēng)電場(chǎng)2019年8月風(fēng)機(jī)的歷史監(jiān)測(cè)數(shù)據(jù),其大小為5GB,并選取相電流(A)、有功功率(kw)、無(wú)功功率(kw)、齒輪油溫溫度(℃)、齒輪箱軸承溫度(℃)、發(fā)電機(jī)溫度(℃)、相電壓(V)、機(jī)艙溫度(℃)、環(huán)境溫度(℃)、風(fēng)向角(°)、總電量(kW·h)、風(fēng)速(m/s)狀態(tài)參數(shù)作為數(shù)據(jù)輸入,對(duì)風(fēng)電場(chǎng)發(fā)電功率進(jìn)行預(yù)測(cè)分析。
針對(duì)風(fēng)電場(chǎng)發(fā)電功率預(yù)測(cè)目標(biāo)本實(shí)驗(yàn)采用標(biāo)準(zhǔn)誤差(RMSE)、平均絕對(duì)百分誤差(MAPE)兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)當(dāng)作最終結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。標(biāo)準(zhǔn)誤差的公式如下:
式中Yt表示預(yù)測(cè)值,yt表示實(shí)際值,n為預(yù)測(cè)點(diǎn)的個(gè)數(shù)(n>1),根據(jù)標(biāo)準(zhǔn)誤差的計(jì)算結(jié)果,標(biāo)準(zhǔn)誤差越小則說(shuō)明預(yù)測(cè)效果越精確。
平均絕對(duì)百分誤差 MAPE(mean absolute percentage error),表示誤差整體的情況即預(yù)測(cè)數(shù)據(jù)整體上和實(shí)際數(shù)據(jù)的匹配程度,其表達(dá)式為:
其中Yt表示預(yù)測(cè)值,yt表示實(shí)際值,n為預(yù)測(cè)點(diǎn)的個(gè)數(shù)。對(duì)于MAPE值大小代表預(yù)測(cè)的準(zhǔn)確度,當(dāng)MAPE值越小時(shí),其預(yù)測(cè)越準(zhǔn)確。
本實(shí)驗(yàn)將BP網(wǎng)絡(luò)算法、本文算法進(jìn)行比較,在通過(guò)上文的誤差分析求得兩種算法的標(biāo)準(zhǔn)誤差(RMSE)和平均絕對(duì)百分誤差(MAPE),從表2可以看出,無(wú)論是標(biāo)準(zhǔn)誤差還是平均絕對(duì)百分誤差,本文算法相對(duì)于傳統(tǒng)BP算法在誤差值上均有所降低,且平均絕對(duì)百分誤差的波動(dòng)更小,本文算法的結(jié)果相比于BP神經(jīng)網(wǎng)絡(luò)算法更接近于真實(shí)值。精度更準(zhǔn)確的原因在于Hermite神經(jīng)網(wǎng)絡(luò)算法以正交多項(xiàng)式作為隱含層神經(jīng)元的激勵(lì)函數(shù),且僅需一步就可以計(jì)算出網(wǎng)絡(luò)連接的最優(yōu)權(quán)值,在對(duì)變量進(jìn)行選擇訓(xùn)練時(shí)不僅能實(shí)現(xiàn)數(shù)據(jù)融合,還能保留原始數(shù)據(jù)的特征信息,這樣才使結(jié)果更逼近于真實(shí)結(jié)果。
表2 兩種算法標(biāo)準(zhǔn)誤差對(duì)比Tab.2 Standard error comparison of two algorithms
為了全方位及準(zhǔn)確地驗(yàn)證本文算法的優(yōu)勢(shì),下面從計(jì)算時(shí)效性方面考慮,下面從計(jì)算時(shí)效性方面考慮,本實(shí)驗(yàn)將數(shù)據(jù)分為四組,將數(shù)據(jù)擴(kuò)充后分別取5GB、10GB、40GB、120GB,分別記錄其在傳統(tǒng)單處理系統(tǒng)的時(shí)間及在本文中MapReduce系統(tǒng)處理的時(shí)間,分別采用傳統(tǒng)方法與本文算法進(jìn)行實(shí)驗(yàn)對(duì)比。以處理時(shí)間為衡量標(biāo)準(zhǔn),四組數(shù)據(jù)下兩種算法分別用時(shí)如表3。
表3 兩種算法并行運(yùn)算消耗時(shí)間對(duì)比結(jié)果Tab.3 Comparison results of parallel operation time of two algorithms
由表3可以看出,當(dāng)數(shù)據(jù)集較小時(shí),兩種算法數(shù)據(jù)處理效率差異不顯著,隨著數(shù)據(jù)量逐漸增多,分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop平臺(tái)表現(xiàn)出高效的處理速率。與傳統(tǒng)算法比較而言更適合于電力大數(shù)據(jù)的處理。集群相對(duì)傳統(tǒng)處理速度接近2.5倍。
本文介紹了Hermite正交基前向神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合方法,同時(shí)為了應(yīng)對(duì)大數(shù)據(jù)海量的特點(diǎn),結(jié)合了MapReduce并行化模式將本文算法進(jìn)行并行化。通過(guò)借助分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop搭建大數(shù)據(jù)處理平臺(tái),以風(fēng)電場(chǎng)發(fā)電功率預(yù)測(cè)為例,并與傳統(tǒng)BP網(wǎng)絡(luò)算法數(shù)據(jù)融合效果進(jìn)行比對(duì)。發(fā)現(xiàn)本文算法較BP算法不僅在功率預(yù)測(cè)精度上有明顯效果更有效的縮短數(shù)據(jù)處理的時(shí)間,從而在時(shí)效性上更能滿足電力系統(tǒng)的要求。給智能電網(wǎng)大數(shù)據(jù)分析與處理理論提供了有益的研究?jī)r(jià)值。