李 亞 李存斌
(華北電力大學(xué)經(jīng)濟與管理學(xué)院,北京 102206)
國家電網(wǎng)公司在“2009特高壓輸電技術(shù)國際會議”上提出了名為“堅強智能電網(wǎng)”的發(fā)展規(guī)劃。堅強智能電網(wǎng)的核心技術(shù)就是傳感技術(shù),利用傳感器對關(guān)鍵設(shè)備(溫度在線監(jiān)測裝置、斷路器在線監(jiān)測裝置、避雷器在線監(jiān)測、容性設(shè)備在線監(jiān)測)的運行狀況進行實時監(jiān)控,然后把獲得的數(shù)據(jù)通過網(wǎng)絡(luò)系統(tǒng)進行收集、整合,最后通過對數(shù)據(jù)的分析,挖掘,并根據(jù)挖掘出的信息進行決策,從而達到對整個電力系統(tǒng)的優(yōu)化管理。
隨著可再生能源技術(shù)的發(fā)展,可再生分布式發(fā)電得到了很大的發(fā)展,分布式電網(wǎng)和微網(wǎng)也會隨著分布式可再生發(fā)電系統(tǒng)的發(fā)展得到很大的發(fā)展。越來越多的分布式微網(wǎng)的接入對電網(wǎng)運行的安全性帶來了新的挑戰(zhàn)。通過配電網(wǎng)和微電網(wǎng)直接向用戶供電,不僅可以提高電能質(zhì)量,還可從區(qū)域電網(wǎng)吸收電能提供給用戶,同時將分布式能源發(fā)出的電能回送給區(qū)域電網(wǎng),實現(xiàn)潮流雙向流動[1]。對分布式能源接入狀態(tài)進行監(jiān)測,分析監(jiān)測數(shù)據(jù)實現(xiàn)風(fēng)險預(yù)警,提前防范成為保障電網(wǎng)安全運行的重要措施。然而分布式能源系統(tǒng)分布位置難以集中,數(shù)據(jù)類型繁多,每天產(chǎn)生的數(shù)據(jù)量也很大,數(shù)據(jù)的集成和分析也變得很困難。本文針對分布式的能源接入狀態(tài)監(jiān)測數(shù)據(jù)的特點設(shè)計了一種利用Hadoop解決數(shù)據(jù)集成問題的方案。
分布式能源是指靠近用戶側(cè)分散的一切可利用能源,既包括化石燃料能源,又涵蓋了可再生能源,諸如石油、天然氣、風(fēng)能、太陽能、生物質(zhì)能等。可單獨為用戶提供電能,也可與大電網(wǎng)并網(wǎng)供電運行,當(dāng)單獨為用戶供電是可與儲能裝置構(gòu)成微電網(wǎng)[2]。隨著智能電網(wǎng)的進一步發(fā)展,家庭微型發(fā)電系統(tǒng)也將會并入電網(wǎng)。
狀態(tài)信息是智能電網(wǎng)狀態(tài)監(jiān)測的基礎(chǔ)支撐,智能電網(wǎng)狀態(tài)監(jiān)測的信息已遠遠超出了傳統(tǒng)電網(wǎng)狀態(tài)監(jiān)測的信息范疇,是更加寬泛的信息采集。在智能電網(wǎng)中,一次裝備與二次設(shè)備、設(shè)備與系統(tǒng)將更加融合,多學(xué)科復(fù)合技術(shù)應(yīng)用將日益廣泛,隨之而來的就是專業(yè)界限的模糊和融合。因此,智能電網(wǎng)狀態(tài)監(jiān)測的信息采集不僅涵蓋了傳統(tǒng)二次系統(tǒng)設(shè)備,還囊括了傳統(tǒng)一次系統(tǒng)的裝備,不僅涉及電網(wǎng)裝備,還包括發(fā)電、用電裝備,不僅包含裝備自身狀態(tài)信息,還包括電網(wǎng)運行狀態(tài)信息及其他信息[3]。
Hadoop是開源組織Apache的一個子項目,Hadoop簡化了基于集群的分布式應(yīng)用程序的開發(fā),其具有很高的可擴展性,可以隨著數(shù)據(jù)規(guī)模的增長來增加硬件設(shè)備的投入。Hadoop最主要的兩部分是Map/Reduce和HDFS,Map/Reduce是分布式運算的基本操作,輸入時通過Map把數(shù)據(jù)分解,分別計算,使用Reduce把計算的結(jié)果匯總,HDFS(Hadoop Distributed File System)是一個分布式文件系統(tǒng),是谷歌GFS(google File System)的開源實現(xiàn)。此外,Hadoop下面還有眾多的子項目,如數(shù)據(jù)倉庫工具Hive,列式數(shù)據(jù)庫HBase,數(shù)據(jù)分析工具Pig等。在信息爆炸的時代,Hadoop可以很好地應(yīng)對數(shù)據(jù)量的大規(guī)模增長,從而幫助企業(yè)分析處理數(shù)據(jù),把信息有效地轉(zhuǎn)化為價值。
MapReduce是一種分布式的編程模型,其核心思想是把數(shù)據(jù)分割成split0、split1等小塊分散到不同的計算機上進行map操作,經(jīng)過sort和計算機之間的復(fù)制,數(shù)據(jù)之間的合并得到有序的數(shù)據(jù)集合,最主要的應(yīng)用是在搜索引擎上的倒排索引的建立。
Hadoop分別從不同的角度將主機劃分為不同的角色。在集群上,劃分為master和slave,即主從分布模式;在HDFS的工作上,可以劃分為NameNode和DataNode,NameNode作為主服務(wù)器,負責(zé)對文件命名空間和客戶端訪問文件的權(quán)限進行管理,也可以對數(shù)據(jù)到DataNode上的映射進行管理,DataNode則負責(zé)數(shù)據(jù)存儲的管理,在NameNode的調(diào)度下回應(yīng)客戶端的讀寫請求;從MapReduce工作機制上看,可以把主機劃分為JobTracker和TaskTracker,JobTracker負責(zé)初始化和分配MapReduce作業(yè),并和TaskTracker進行通訊,監(jiān)控TaskTracker的狀態(tài)信息。TaskTracker負責(zé)執(zhí)行JobTracker分配的任務(wù),并把自己的狀態(tài)信息發(fā)送給TaskTracker。
Sqoop也是Apache軟件基金會組織下的一款開源的軟件。Sqoop是傳統(tǒng)的數(shù)據(jù)庫和HDFS之間的橋梁,通過Sqoop可以方便地把關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)復(fù)制到HDFS中,而不用編寫復(fù)雜的MapReduce任務(wù),簡化了開發(fā)的流程,同樣Sqoop也可以把數(shù)據(jù)分析的結(jié)果導(dǎo)入到關(guān)系型數(shù)據(jù)庫里面,以便利用關(guān)系型數(shù)據(jù)庫高效的索引技術(shù),方便數(shù)據(jù)的使用。
Sqoop封裝了Map操作可以把數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫導(dǎo)入到HDFS里面或者導(dǎo)入到Hive表或者HBase里面。
當(dāng)數(shù)據(jù)分析完成之后可以把存在HDFS里的數(shù)據(jù)導(dǎo)出到數(shù)據(jù)庫里面,Sqoop導(dǎo)出數(shù)據(jù)到數(shù)據(jù)庫的原理如圖1所示。
圖1 Sqoop導(dǎo)出數(shù)據(jù)原理圖
分布式發(fā)電系統(tǒng)在運行的時候由SCADA系統(tǒng)收集了系統(tǒng)運行的基本信息,這些基礎(chǔ)信息一般保存在本地的數(shù)據(jù)庫服務(wù)器中,在風(fēng)電和光電發(fā)電系統(tǒng)都有著本地的數(shù)據(jù)庫服務(wù)器,分布式的家庭微電網(wǎng)也有著諸如SqlLite之類的嵌入式數(shù)據(jù)庫服務(wù)器,大規(guī)模的分布式發(fā)電系統(tǒng)數(shù)據(jù)量較大,可以通過專用的光纖連接到當(dāng)?shù)氐臄?shù)據(jù)中心,分布式的家庭微電網(wǎng)可以通過VPN鏈路連接到當(dāng)?shù)氐臄?shù)據(jù)中心。
在當(dāng)?shù)氐臄?shù)據(jù)中心部署DataNode節(jié)點服務(wù)器,負責(zé)信息的收集,數(shù)據(jù)通過Sqoop從現(xiàn)場的數(shù)據(jù)庫服務(wù)器傳輸?shù)疆?dāng)?shù)財?shù)據(jù)中心部署的HDFS里,完成數(shù)據(jù)收集的Map任務(wù),各地數(shù)據(jù)中心的數(shù)據(jù)可以通過高速的光纖網(wǎng)絡(luò)互連,從而在分析數(shù)據(jù)的時候可以較快地運行Reduce任務(wù)。數(shù)據(jù)導(dǎo)入系統(tǒng)設(shè)計如圖2所示。
圖2 分布式發(fā)電監(jiān)測數(shù)據(jù)集成
在分布式Hadoop平臺上運行MapReduce任務(wù)可以很好地處理大規(guī)模的監(jiān)測數(shù)據(jù)[4],可以運行Pig或者使用Mahout運行數(shù)據(jù)分析,這樣就可以避免編寫復(fù)雜的MapReduce程序進行數(shù)據(jù)處理[5]。在運行數(shù)據(jù)分析后,數(shù)據(jù)分析的結(jié)果存在HDFS中,為了更快地檢索和使用可以使用Sqoop把分析的數(shù)據(jù)結(jié)果保存到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中。這樣就可以利用傳統(tǒng)關(guān)系型數(shù)據(jù)庫的索引機制加快數(shù)據(jù)的檢索,方便決策支持系統(tǒng)提取數(shù)據(jù)進行決策分析。
文章論述了規(guī)?;姆植际侥茉醇磳⒄归_大規(guī)模的商用[6],研究了大規(guī)模的風(fēng)電機組數(shù)據(jù)的監(jiān)測[7],兆瓦級的風(fēng)電場每個風(fēng)機都會產(chǎn)生大規(guī)模的數(shù)據(jù),隨著數(shù)據(jù)量增長Hadoop在數(shù)據(jù)集成上對比傳統(tǒng)的集成方案有著明顯的優(yōu)勢。雖然Hadoop可以處理大規(guī)模的數(shù)據(jù),但是監(jiān)測數(shù)據(jù)需要保存到傳統(tǒng)的數(shù)據(jù)庫中才能利用Sqoop傳輸?shù)疆?dāng)?shù)財?shù)據(jù)中心。這就需要數(shù)據(jù)集成系統(tǒng)方案提供商能夠提供跨越數(shù)據(jù)庫和網(wǎng)絡(luò)連接的解決方案,直接把傳感器的數(shù)據(jù)寫入到HDFS中的DataNode節(jié)點。由于數(shù)據(jù)集成方案提供商較多,這就需要提供統(tǒng)一的類似IEC61850這樣的通信標準,只有基于Hadoop的分布式電網(wǎng)數(shù)據(jù)集成方案才能得到大規(guī)模的使用。
隨著Hadoop以及監(jiān)測技術(shù)的發(fā)展,以及文章[8]中提到的分布式電網(wǎng)故障信息集成和智能分析的應(yīng)用,分布式能源接入電網(wǎng)對電網(wǎng)的影響可以降到很低,而且還可以提高電網(wǎng)運行的穩(wěn)定性。所以基于Hadoop的分布式能源狀態(tài)監(jiān)測集成的研究也就顯得尤為重要。
[1]梅生偉,王瑩瑩.輸電網(wǎng)-配電網(wǎng)-微電網(wǎng)三級電網(wǎng)規(guī)劃的若干基礎(chǔ)問題[J]. 電力科學(xué)與技術(shù)學(xué)報,2009,24(4):3-11.
[2]馬晶.分布式能源在智能電網(wǎng)環(huán)境下的發(fā)展方式探究[D].上海:上海交通大學(xué),2012.
[3]劉驥,黃國方,徐石明.智能電網(wǎng)狀態(tài)監(jiān)測的發(fā)展[J].電力建設(shè),2009(7):1-3.
[4]Chuck Lam.Hadoop in Action[J].Manning Publications,2010.
[5]Sean Owen,Robin Anil,TedDunning,et al..Mahout in Action[J].Manning Publications,2010.
[6]陳偉,張軍,李桂菊,等.規(guī)?;稍偕茉窗l(fā)電及分布式電網(wǎng)有望實現(xiàn)商業(yè)應(yīng)用[J].中國科學(xué)院院刊,2013(5):630-632.
[7]單光坤.兆瓦級風(fēng)電機組狀態(tài)監(jiān)測及故障診斷研究[D].沈陽:沈陽工業(yè)大學(xué),2011.
[8]趙萍,徐辰婧,趙紀元.分布式電網(wǎng)故障信息集成與智能分析的研究及應(yīng)用[J]. 華東電力,2012(10):1824-1827.