袁寶超,劉道偉,劉麗平,王澤忠
(1.華北電力大學電氣與電子工程學院,北京市 102206;2.中國電力科學研究院,北京市 100192)
基于Spark的大電網(wǎng)廣域時空序列分析平臺構(gòu)建
袁寶超1,劉道偉2,劉麗平2,王澤忠1
(1.華北電力大學電氣與電子工程學院,北京市 102206;2.中國電力科學研究院,北京市 100192)
為了適應(yīng)能源互聯(lián)網(wǎng)發(fā)展趨勢及日益復雜的運行環(huán)境,亟需依托大數(shù)據(jù)技術(shù),提升能源互聯(lián)網(wǎng)多源大數(shù)據(jù)的挖掘深度及應(yīng)用效率。首先,針對大電網(wǎng)廣域時空序列數(shù)據(jù),闡述了Spark在分布式計算中的優(yōu)勢,闡明大數(shù)據(jù)平臺建設(shè)目標,設(shè)計了基于Spark的電力大數(shù)據(jù)平臺架構(gòu),并對平臺各個層次進行詳細的論述。其次,描述了Spark針對電網(wǎng)時空序列數(shù)據(jù)的處理過程。最后,在搭建的Spark和Hadoop實驗環(huán)境基礎(chǔ)上,對典型聚類算法進行性能對比測試,驗證了Spark相對于Hadoop的MapReduce計算模型數(shù)據(jù)處理的優(yōu)勢,為下一步研究工作奠定了基礎(chǔ)。
能源互聯(lián)網(wǎng);Spark;時空序列;流計算;聚類
伴隨著能源互聯(lián)網(wǎng)建設(shè)進程的穩(wěn)步推進,互聯(lián)網(wǎng)、新能源和可再生能源技術(shù)深度融合,電網(wǎng)將逐漸演變成具有廣泛互聯(lián)、高度智能、開放互動和自主行為的復雜能源網(wǎng)絡(luò)[1-3]。傳統(tǒng)的電力系統(tǒng)運行模式將發(fā)生巨大改變,在信息流、能量流2種載荷交錯運行的情況下,多源數(shù)據(jù)規(guī)模呈現(xiàn)出爆發(fā)式增長趨勢,致使電網(wǎng)在海量數(shù)據(jù)獲取、管理與分析,安全穩(wěn)定運行等方面面臨嚴峻的挑戰(zhàn)[4-6]。
近年來,國內(nèi)外大停電事故時有發(fā)生,暴露了傳統(tǒng)的離線預(yù)決策方式已經(jīng)不能滿足大電網(wǎng)穩(wěn)定控制技術(shù)要求[7-10]。新一代智能電網(wǎng)調(diào)度技術(shù)支持系統(tǒng)(D5000)實現(xiàn)了大電網(wǎng)運行狀態(tài)的廣域測量,為實現(xiàn)信息驅(qū)動的大電網(wǎng)在線安全評估與防控提供了數(shù)據(jù)平臺基礎(chǔ)。電力大數(shù)據(jù)服務(wù)應(yīng)用作為能源領(lǐng)域的國家戰(zhàn)略,為加強廣域時空序列數(shù)據(jù)在大電網(wǎng)安全防控中的應(yīng)用,提升對廣域信息的綜合分析、處理能力,滿足海量數(shù)據(jù)存儲、管理需求,提供了重要的技術(shù)支撐手段[11-14]。
在大數(shù)據(jù)技術(shù)領(lǐng)域中,Spark是繼Hadoop之后的新一代大數(shù)據(jù)分布式處理平臺。目前,已經(jīng)有部分專家學者針對Spark平臺在電力系統(tǒng)中的應(yīng)用展開了研究。文獻[15]基于Spark平臺和多變量L2-Boosting回歸模型建立了分布式能源系統(tǒng)短期負荷預(yù)測方法;文獻[16]提出了在Spark環(huán)境下電力變壓器監(jiān)測數(shù)據(jù)并行診斷方法;文獻[17]在Spark環(huán)境下通過粒子群優(yōu)化算法對最小二乘支持向量機的參數(shù)進行調(diào)優(yōu),提出短期分布式電力負荷預(yù)測方法;文獻[18]提出了基于Spark和聚類分析的電力系統(tǒng)不良數(shù)據(jù)辨識新方法。以上文獻所述方法取得了不錯的效果,但均未指明Spark平臺在電力系統(tǒng)中應(yīng)用的具體設(shè)計方案以及相較于同類大數(shù)據(jù)平臺的數(shù)據(jù)處理優(yōu)勢。
本文以大電網(wǎng)采集的廣域時空序列數(shù)據(jù)為基礎(chǔ),設(shè)計基于Spark的廣域時空序列大數(shù)據(jù)分析平臺。在此基礎(chǔ)上,搭建Spark實驗室環(huán)境,為研究基于Spark的電力大數(shù)據(jù)平臺的有效性,分別采用Spark和Hadoop的MapReduce分布式計算框架對典型K-Means算法進行性能對比測試,由此驗證Spark在時空序列處理速度上相較于同類平臺的高效性。
1.1 計算優(yōu)勢
Spark分布式計算性能相比于Hadoop的MapReduce模型在性能上有很大的提升,表1展示了2014年在Daytona GraySort測試中Spark與Hadoop的對比結(jié)果[19]。
表1 Spark和Hadoop對比
Table 1 Comparison between Spark and Hadoop
從表1中可以看出排序100 TB的數(shù)據(jù)(1萬億條數(shù)據(jù)),Spark只用了Hadoop十分之一的計算資源,但耗時只有其三分之一。由于Spark內(nèi)部優(yōu)秀的容錯和調(diào)度機制,使其具有強大的分布式計算能力。
1.2 集成優(yōu)勢
Spark為批處理(Spark Core)、交互式查詢引擎(Spark SQL)、流式數(shù)據(jù)處理引擎(Spark Streaming)、機器學習庫(MLlib)、圖計算(GraphX)提供了統(tǒng)一的數(shù)據(jù)處理平臺。并且各個組件間輸入輸出數(shù)據(jù)可以無縫共享,無須格式轉(zhuǎn)換。因此,Spark在數(shù)據(jù)分析處理過程中,效率更高,相較于同類平臺具有很大優(yōu)勢。
(1)MLlib:機器學習是實現(xiàn)人工智能的核心思想和方法,為有效提升電網(wǎng)智能化實時感知及廣域協(xié)調(diào)控制水平,自然離不開機器學習算法的支撐。
(2)Spark SQL:高度優(yōu)化的SQL查詢引擎,可針對電網(wǎng)離線或?qū)崟r數(shù)據(jù)查詢請求進行高速處理,為電網(wǎng)海量數(shù)據(jù)查詢與處理提供了強有力的保障。
(3)Spark Streaming:基于微批量方式的計算和處理的流計算引擎,可用于處理實時流數(shù)據(jù)。針對廣域測量系統(tǒng)采集的實時數(shù)據(jù),只需設(shè)置合理的批處理間隔,即可完成對數(shù)據(jù)的實時分析與處理。
(4)GraphX:電網(wǎng)是一個典型的復雜網(wǎng)絡(luò)系統(tǒng),應(yīng)用復雜網(wǎng)絡(luò)理論和圖計算方法,可加深對電網(wǎng)拓撲結(jié)構(gòu)以及網(wǎng)絡(luò)特性間關(guān)聯(lián)關(guān)系的深入研究。
由此可見,Spark中集成的各個組件在電力大數(shù)據(jù)中均可得到應(yīng)用,而同類平臺則需要相互協(xié)調(diào)互為補充才能實現(xiàn)Spark所具備的功能。這樣可避免不同平臺間數(shù)據(jù)傳輸帶來的數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)共享等弊端。
2.1 平臺目標
電力系統(tǒng)傳統(tǒng)安全防控模式下,依靠“建模+仿真”模型,智能化水平不高,并且受到參數(shù)、模型等制約,對廣域測量信息的挖掘深度不足,時效性也很難得到保證。
建立基于大數(shù)據(jù)技術(shù)的信息驅(qū)動模式主要目標為滿足對大電網(wǎng)海量時空序列數(shù)據(jù)的高效分析與處理,動態(tài)跟蹤電網(wǎng)時空序列演變過程。同時,更好地結(jié)合機器學習、復雜網(wǎng)絡(luò)等理論,對大電網(wǎng)多維度時空動力學行為進行量化評估、自適應(yīng)廣域協(xié)同控制等。
如圖1所示,將二者相互結(jié)合,互為補充,可進一步深度挖掘時空序列信息的關(guān)聯(lián)關(guān)系與電網(wǎng)時空演變特性。
2.2 平臺架構(gòu)
基于電網(wǎng)廣域時空序列數(shù)據(jù),構(gòu)建以Spark為核心的數(shù)據(jù)分析平臺,如圖2所示,主要包括以下幾個層次。
圖1 電力大數(shù)據(jù)平臺建設(shè)目標
圖2 電網(wǎng)時空序列數(shù)據(jù)分析大數(shù)據(jù)平臺
該平臺旨在構(gòu)建以信息驅(qū)動為主的電網(wǎng)信息-物理耦合系統(tǒng),從復雜的信息網(wǎng)絡(luò)中提取主導電網(wǎng)運行狀態(tài)的關(guān)鍵特征,通過計算、通信、控制等技術(shù),利用信息-物理間的相互作用及反饋,提升電網(wǎng)的智能化實時感知和廣域協(xié)調(diào)控制能力,保障電網(wǎng)的安全穩(wěn)定運行。
2.2.1 采集層
Flume是一個分布式、高可靠、高可用的海量日志采集、聚合、傳輸系統(tǒng),負責實時數(shù)據(jù)的采集。
2.2.2 數(shù)據(jù)統(tǒng)一接入層
由于電網(wǎng)數(shù)據(jù)采集、存儲、處理速度不一定同步,使用分布式消息隊列Kafka[20]作為數(shù)據(jù)中心管道。同時,為數(shù)據(jù)流環(huán)節(jié)的數(shù)據(jù)規(guī)范,傳輸給Kafka的數(shù)據(jù)按規(guī)定格式輸出,避免后端多種接入方式的數(shù)據(jù)處理問題。
2.2.3 數(shù)據(jù)存儲層
為滿足電網(wǎng)時空序列信息高質(zhì)量獲取與整合、流式數(shù)據(jù)高速索引及存儲、錯誤自動檢測等功能,該平臺以分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)作為底層分布式存儲系統(tǒng),配合多種NoSQL數(shù)據(jù)庫,為大規(guī)模海量數(shù)據(jù)存儲提供了強大的底層支撐[21]。Alluxio作為分布式內(nèi)存文件系統(tǒng),可將多次使用的數(shù)據(jù)存儲在共享內(nèi)存中,避免大量的磁盤I/O操作,提升數(shù)據(jù)處理效率[22]。
2.2.4 數(shù)據(jù)處理層
數(shù)據(jù)處理層為該平臺的核心部分,計算及查詢框架主要使用了Spark Core,以及在其基礎(chǔ)上運行的四大組件:MLlib、Spark SQL、Spark Streaming、GraphX。計算框架采用統(tǒng)一的編程模式,各組件間輸入輸出數(shù)據(jù)可以實現(xiàn)無縫共享,無須格式轉(zhuǎn)換,充分發(fā)揮了Spark的優(yōu)勢。Redis內(nèi)存數(shù)據(jù)庫用作數(shù)據(jù)緩沖池,減輕數(shù)據(jù)庫負載。算法庫用于存儲常用的高性能并行算法,知識庫存儲經(jīng)機器學習訓練得到的認知模型。
2.2.5 服務(wù)層
服務(wù)層可借助從數(shù)據(jù)處理層獲取的業(yè)務(wù)洞察,用于電網(wǎng)異常事件監(jiān)測、實時制定決策等功能,以便對電網(wǎng)物理層進行實時控制。其還可以對數(shù)據(jù)進行封裝、解耦,實現(xiàn)數(shù)據(jù)共享,解決數(shù)據(jù)使用不靈活問題。
2.2.6 展示層
對計算結(jié)果進行圖形化展示,可供調(diào)度人員直觀辨識電網(wǎng)實時運行狀態(tài)。為便于前端展示,分別將歷史、實時數(shù)據(jù)的分析結(jié)果寫入不同數(shù)據(jù)庫。圖3簡要介紹了業(yè)務(wù)展示流程。
圖3 數(shù)據(jù)結(jié)果展示
使用Spark計算平臺,計算結(jié)果數(shù)據(jù)可存儲在內(nèi)存中,作為后續(xù)操作共享數(shù)據(jù),減少結(jié)果展示過程中讀寫磁盤I/O操作帶來的延時。針對歷史數(shù)據(jù)分析結(jié)果,將數(shù)據(jù)寫入磁盤數(shù)據(jù)庫進行持久化。對于實時數(shù)據(jù)分析結(jié)果,將計算結(jié)果數(shù)據(jù)寫入內(nèi)存數(shù)據(jù)庫,以滿足實時更新的需求。
廣域時空序列信息能反映電網(wǎng)實時運行狀態(tài),在信息流不斷演變的過程中進行實時遙測分析,捕捉電網(wǎng)異常行為,觸發(fā)相關(guān)處理邏輯。
3.1 數(shù)據(jù)預(yù)處理
圖4展示了基于Spark的時空序列數(shù)據(jù)預(yù)處理過程。
圖4 數(shù)據(jù)預(yù)處理
電網(wǎng)原始采集數(shù)據(jù)中會存在不完整、不一致等情況,為提高數(shù)據(jù)挖掘的質(zhì)量,需對實時接收數(shù)據(jù)進行清洗、轉(zhuǎn)換、歸約等預(yù)處理操作。Kafka作為數(shù)據(jù)中心管道,可以對集群中數(shù)據(jù)進行初步審計驗證服務(wù),檢測數(shù)據(jù)延遲、丟失情況,持續(xù)監(jiān)控數(shù)據(jù)的完整性。
在電力大數(shù)據(jù)環(huán)境下,直接對復雜的數(shù)據(jù)分析和挖掘效率比較低,可通過Spark Streaming對廣域時空序列數(shù)據(jù)進行特征提取、降維等操作,抓住影響電網(wǎng)穩(wěn)定的關(guān)鍵因素進行快速分析。由于Spark可以滿足復雜的批量數(shù)據(jù)處理、歷史數(shù)據(jù)的交互式查詢、實時數(shù)據(jù)流的處理3種情景,并且3種情景的輸入輸出數(shù)據(jù)可以無縫共享,無須格式轉(zhuǎn)換。因此,極大地方便了使用Spark SQL、MLlib對數(shù)據(jù)進行實時查詢與分析。整個流程根據(jù)業(yè)務(wù)需求可以對中間的結(jié)果進行疊加,或?qū)懭氪疟P進行持久化存儲。為了便于前端展示和頁面請求,處理及查詢得到的結(jié)果需寫入到數(shù)據(jù)庫中。
3.2 時空序列數(shù)據(jù)分析
圖5展示了基于Spark的電網(wǎng)時空序列數(shù)據(jù)處理過程。
圖5 時空序列數(shù)據(jù)評估
圖5描述了在算法模型、判據(jù)識別、評價指標等基礎(chǔ)上,對Spark Streaming數(shù)據(jù)預(yù)處理結(jié)果進行更深一步的量化評估,從而完成對電網(wǎng)運行態(tài)勢的實時監(jiān)測。同時,可以通過MLlib離線訓練模型,在Spark Streaming中使用該模型對在線數(shù)據(jù)進行實時分析。例如,將使用訓練好的預(yù)想故障集實時地對每一批處理間隔內(nèi)的數(shù)據(jù)進行檢測,實現(xiàn)周期性地對電網(wǎng)進行動態(tài)安全約束校核。此外,流數(shù)據(jù)源中的數(shù)據(jù)可以與Spark SQL訪問的靜態(tài)數(shù)據(jù)源進行聯(lián)合,將實時、靜態(tài)數(shù)據(jù)濃縮得更為精煉,用于實時分析,其編程模型的高度一致保證了業(yè)務(wù)邏輯在流處理、批處理和交互式處理中的共享和復用。
綜上所述,在機器學習、流計算等大數(shù)據(jù)技術(shù)應(yīng)用下,站在電網(wǎng)運行狀態(tài)全局可觀的角度。為了深度挖掘和高效利用廣域時空序列信息,需針對電網(wǎng)具體運行場景以及穩(wěn)定防控問題,抓住影響電網(wǎng)穩(wěn)定的主導因素,建立一系列依托于電力大數(shù)據(jù)的時空關(guān)聯(lián)約束模型。構(gòu)建電網(wǎng)異常事件行為知識庫,為電網(wǎng)異常事件的主動預(yù)警、實時決策提供可靠的知識保障體系,提升對電網(wǎng)時空序列信息智能化分析水平。
聚類算法可以對電網(wǎng)采集數(shù)據(jù)進行初步去噪預(yù)處理操作,將落在集合之外的數(shù)值視為噪聲。此外,聚類算法在電網(wǎng)中還有其他一些應(yīng)用[23-24]。因此本文選擇典型的聚類算法K-Means,針對相同的數(shù)據(jù)集,分別對Spark、Hadoop單機環(huán)境和集群環(huán)境進行測試并做對比。
4.1 K-Means聚類算法
K-Means算法是最為經(jīng)典的基于劃分的聚類方法,其基本思想是:首先從N個數(shù)據(jù)中隨機取k個元素,作為k個簇的各自的中心;分別計算剩下的元素到k個簇中心的距離,將這些元素分別劃歸到距離最近的簇;重新計算k個簇各自的中心,即取簇中所有元素各自維度的算術(shù)平均數(shù);重復以上步驟,直到滿足收斂條件為止。
4.2 實驗環(huán)境
基于圖2所描述的電力大數(shù)據(jù)平臺架構(gòu),搭建了以Spark為核心的實驗環(huán)境,該平臺以Yarn作為資源管理器,HDFS作為分布式文件存儲系統(tǒng),Spark為分布式計算框架。同時,為對比Spark和Hadoop的MapReduce這2個計算框架對相同數(shù)據(jù)的處理能力,二者運行在相同的機器上,并均以HDFS作為底層文件存儲系統(tǒng)。集群和單機配置情況如表2、表3所示(注:表中內(nèi)存指Spark可用內(nèi)存大小,并非主機實際物理內(nèi)存):集群內(nèi)存為14 GB,CPU核數(shù)為16;單機內(nèi)存為2 GB,CPU核數(shù)為2。
表2 集群配置
Table 2 Cluster configuration
表3 單機配置
4.3 測試數(shù)據(jù)
以某區(qū)域電網(wǎng)暫態(tài)時域仿真結(jié)果作為測試數(shù)據(jù),該區(qū)域電網(wǎng)有7 332個節(jié)點,10 928條支路。以中國電力科學研究院PSD-BPA仿真程序進行仿真。由于K-Means聚類時間和數(shù)據(jù)量大小有一定的關(guān)系,數(shù)據(jù)量越大,迭代一次所用時間越長。為更好地顯示對比效果,設(shè)置不同的仿真時間,生成5組測試數(shù)據(jù),如表4所示。
表4 測試數(shù)據(jù)
Table 4 Test data
4.4 單機環(huán)境對比
使用Hadoop的MapReduce和Spark這2種計算框架,在單機環(huán)境下對表4中數(shù)據(jù)進行K-Means測試,其對比結(jié)果如圖6所示。
圖6 單機環(huán)境測試對比結(jié)果
由圖6可以看出,在相同的硬件設(shè)施環(huán)境下,且在Spark與MapReduce上K-Means的迭代次數(shù)同為為25次,Spark的計算速度要明顯優(yōu)于Hadoop的MapReduce模型。圖7展示了隨著數(shù)據(jù)量逐漸增加,Spark和MapReduce運行K-Means處理相同數(shù)據(jù)的時間對比,曲線代表MapReduce運行時間與Spark運行時間的比值。
圖7 MapReduce與Spark數(shù)據(jù)處理時間比值
由圖7可以看出,數(shù)據(jù)量在500 MB左右時,Spark的處理數(shù)據(jù)的優(yōu)勢最為明顯。數(shù)據(jù)量比較小時,MapReduce模型每次迭代計算時磁盤讀寫時間比較短,系統(tǒng)性能并沒有明顯受到影響。當數(shù)據(jù)量增大時,致使數(shù)據(jù)不能完全保存在內(nèi)存中,Spark運行程序會在磁盤上進行,導致大量磁盤I/O操作,使系統(tǒng)性能下降。
4.5 集群環(huán)境對比
MapReduce和Spark這2種計算框架,在集群環(huán)境下對表4中數(shù)據(jù)進行K-Means測試,其對比結(jié)果如圖8所示。
圖8 集群環(huán)境測試對比結(jié)果
由圖8可以看出,Spark集群數(shù)據(jù)處理時間并沒有明顯變化。在同樣硬件設(shè)施、迭代次數(shù)環(huán)境下,K-Means在MapReduce模型上運行時間與Spark上運行時間比值基本維持在三十幾倍左右。
(1)單機和集群在相同的程序參數(shù)下,數(shù)據(jù)量比較小的時,集群與單機K-Means測試時間相差不多,有時單機處理甚至會更快一些。因為,集群啟動初始化需要一定的時間,并需要考慮分布式系統(tǒng)間通信和集群啟動帶來的延遲,所以處理時間相差不多。
(2)當數(shù)據(jù)量超過1 GB時,Spark單機處理時間倍增,特別是當數(shù)據(jù)量達到1.5 GB時。由于程序在運行、資源調(diào)度過程中需要占用一定的內(nèi)存,單機環(huán)境剩余的內(nèi)存已經(jīng)不夠緩存該數(shù)據(jù),從而導致大量的磁盤I/O操作,致使處理時間驟增。說明當數(shù)據(jù)量達到一定程度時,單機已經(jīng)不能滿足數(shù)據(jù)處理高效性的要求,并且其計算性能顯著降低。
(3)數(shù)據(jù)量增加時,Hadoop和Spark集群處理時間與單機環(huán)境相比并沒有增加太多,集群的優(yōu)勢在于可以利用多個計算機進行并行計算從而獲得很高的計算速度。當數(shù)據(jù)量達到單機處理能力的瓶頸時,集群的優(yōu)勢才會明顯體現(xiàn)出來,該優(yōu)勢遠大于考慮到分布式系統(tǒng)間通信帶來的劣勢。
(4)無論是在單機還是集群環(huán)境下,Hadoop的MapReduce計算模型數(shù)據(jù)處理速度都要比Spark慢很多。因為MapReduce作業(yè)執(zhí)行過程map階段和reduce階段的結(jié)果均要寫磁盤,會明顯降低系統(tǒng)性能,而Spark將數(shù)據(jù)和計算所得的中間結(jié)果直接緩存在內(nèi)存中,做不落地的運算,數(shù)據(jù)處理速度會顯著提升。
(5)在大數(shù)據(jù)實際數(shù)據(jù)處理過程中,數(shù)據(jù)量往往會達到TB,甚至PB數(shù)量級。此時,單臺計算機的存儲以及計算能力已經(jīng)遠遠不能滿足數(shù)據(jù)海量化、高效化處理的需求。因此,海量數(shù)據(jù)的處理需要大數(shù)據(jù)技術(shù)的支撐。
本文針對大電網(wǎng)廣域時空序列在線快速分析與處理需求,綜合考慮Spark在高性能數(shù)據(jù)處理、組件集成中的優(yōu)勢,設(shè)計了以Spark為核心的大電網(wǎng)廣域時空序列大數(shù)據(jù)分析平臺,為實現(xiàn)電網(wǎng)海量數(shù)據(jù)可靠存儲、高效處理提供了一套可行的解決方案。
通過對大電網(wǎng)時域仿真結(jié)果實際對比測試,驗證了本平臺相對于同類大數(shù)據(jù)平臺,對電網(wǎng)廣域時空序列快速、高效的處理能力的優(yōu)勢,滿足大電網(wǎng)在線安全分析與控制的需求,為實現(xiàn)能源互聯(lián)網(wǎng)形勢下的新一代安全防御系統(tǒng)提供重要的平臺支撐。
[1]孫宏斌, 郭慶來, 潘昭光, 等. 能源互聯(lián)網(wǎng):驅(qū)動力、評述與展望[J]. 電網(wǎng)技術(shù), 2015, 39(11): 3005-3013. SUN Hong, GUO Qinglai, PAN Shaoguang, et al. Energy internet: driving force, review and outlook[J]. Power System Technology, 2015, 39(11): 3005-3013.
[2]馬釗, 周孝信, 尚宇煒, 等. 能源互聯(lián)網(wǎng)概念、關(guān)鍵技術(shù)及發(fā)展模式探索[J]. 電網(wǎng)技術(shù), 2015, 39(11): 3014-3022. MA Zhao, ZHOU Xiaoxin, SHANG Yuwei, et al. Exploring the concept, key technologies and development model of energy internet[J]. Power System Technology, 2015, 39(11): 3014-3022.
[3]魏向向, 楊德昌, 葉斌. 能源互聯(lián)網(wǎng)中虛擬電廠的運行模式及啟示[J]. 電力建設(shè), 2016, 37(4): 1-9. WEI Xiangxiang, YANG Dechang, YE Bin. Development path exploration of energy internet[J]. Electric Power Construction, 2016, 37(4): 1-9.
[4]王瑋, 劉蔭, 于展鵬, 等. 電力大數(shù)據(jù)環(huán)境下大數(shù)據(jù)中心架構(gòu)體系設(shè)計[J]. 電力信息與通信技術(shù), 2016,14(1):1-6. WANG Wei, LIU Yin, YU Zhanpeng, et al. System design of the big data center architecture in electric power big data environment[J]. Electric Power Information Technology, 2016,14(1):1-6.
[5]朱朝陽, 王繼業(yè), 鄧春宇. 電力大數(shù)據(jù)平臺研究與設(shè)計[J]. 電力信息與通信技術(shù), 2015, 13(6): 1-7. ZHU Chaoyang, WANG Jiye, DENG Chunyu. Research and design of electric power big data platform[J]. Electric Power Information Technology, 2015, 13(6): 1-7.
[6]李亞樓, 張星, 李勇杰, 等. 交直流混聯(lián)大電網(wǎng)仿真技術(shù)現(xiàn)狀及面臨挑戰(zhàn)[J]. 電力建設(shè), 2015, 36(12): 1-8. LI Yalou, ZHANG Xing, LI Yongjie, et al. Present situation and challenges of AC /DC hybrid large-scale power grid simulation technology[J]. Electric Power Construction, 2015, 36(12): 1-8.
[7]印永華, 郭劍波, 趙建軍, 等. 美加“8. 14”大停電事故初步分析以及應(yīng)吸取的教訓[J]. 電網(wǎng)技術(shù), 2003, 27(10): 8-11. YIN Yonghua, GUO Jianbo, ZHAO Jianjun, et al. Preliminary analysis of large scale blackout in interconnected north America power grid on august 14 and lessons to be drawn[J]. Power System Technology, 2003, 27(10): 8-11.
[8]薛禹勝. 時空協(xié)調(diào)的大停電防御框架(一)從孤立防線到綜合防御[J]. 電力系統(tǒng)自動化, 2006, 30(1):8-16. XUE Yusheng. Space-time cooperative framework for defending blackouts, part I: from isolated defense lines to coordinated defending[J]. Automation of Electric Power Systems, 2006, 30(1): 8-16.
[9]薛禹勝. 時空協(xié)調(diào)的大停電防御框架(二)廣域信息、在線量化分析和自適應(yīng)優(yōu)化控制[J]. 電力系統(tǒng)自動化, 2006, 30(2):1-10. XUE Yusheng. Space-time cooperative framework for defending blackouts, part II : reliable information, quantitative analyses and adaptive controls[J]. Automation of Electric Power Systems, 2006, 30(2): 1-10.
[10]劉道偉, 張東霞, 孫華東, 等. 時空大數(shù)據(jù)環(huán)境下的大電網(wǎng)穩(wěn)定態(tài)勢量化評估與自適應(yīng)防控體系構(gòu)建[J]. 中國電機工程學報, 2015, 35(2):268-276. LIU Daowei, ZHANG Dongxia, SUN Huadong, et al. Construction of stability situation quantitative assessment and adaptive control system for large-scale power grid in the spatio-temporal big data environment[J]. Proceedings of the CSEE, 2015, 35(2): 268-276.
[11]胡學浩. 智能電網(wǎng)——未來電網(wǎng)的發(fā)展態(tài)勢[J]. 電網(wǎng)技術(shù), 2009, 33(14):1-5. HU Xuehao. Smart grid—A development trend of future power grid[J]. Power System Technology, 2009, 33(14): 1-5.
[12]宋亞奇, 周國亮, 朱永利. 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J]. 電網(wǎng)技術(shù), 2013,37(4): 927-935. SONG Yaqi, ZHOU Guoliang, ZHU Yongli. Present status and challenges of big data processing in smart grid[J]. Power System Technology, 2013, 37(4): 927-935.
[13]彭小圣, 鄧迪元, 程時杰, 等. 面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J]. 中國電機工程學報, 2015,35(3): 503-511. PENG Xiaosheng, DENG Diyuan, CHENG Shijie, et al. Key technologies of electric power big data and its application prospects in smart grid[J]. Proceedings of the CSEE, 2015,35(3): 503-511.
[14]趙春暉, 吳志力, 姜欣, 等. 跨平臺電網(wǎng)規(guī)劃數(shù)據(jù)融合與存儲模式[J].電力建設(shè), 2015, 36(3): 119-122. ZHAO Chunhui, WU Zhili, JIANG Xin, et al. Cross-Platform data fusion and storage pattern of power grid planning[J]. Electric Power Construction, 2015, 36(3): 119-122.
[15]馬天男, 牛東曉, 黃雅莉, 等. 基于Spark平臺和多變量L_2-Boosting回歸模型的分布式能源系統(tǒng)短期負荷預(yù)測[J]. 電網(wǎng)技術(shù), 2016, 40(6): 1642-1649. MA Tiannan, NIU Dongxiao, HUANG Yali, et al. Short-term load forecasting for distributed energy system based on Spark platform and multi-variable L2-boosting regression model[J]. Power System Technology, 2016, 40(6): 1642-1649.
[16]劉成, 牛銳, 范賀明, 等. 基于Spark環(huán)境變壓器故障并行診斷[J].電力科學與工程, 2016,32(6): 32-37. LIU Cheng, NIU Rui, FAN Heming, et al. Transformer fault diagnosis in parallel based on the Spark platform[J]. Electric Power Science and Engineering, 2016,32(6): 32-37.
[17]王保義, 王冬陽, 張少敏. 基于Spark和IPPSO_LSSVM的短期分布式電力負荷預(yù)測算法[J]. 電力自動化設(shè)備, 2016, 36(1): 117-122. WANG Baoyi, WANG Dongyang, ZHANG Shaomin. Distributed short-term load forecasting algorithm based on Spark and IPPSO_LSSVM[J]. Electric Power Automation Equipment, 2016, 36(1): 117-122.
[18]孟建良, 劉德超. 一種基于Spark和聚類分析的辨識電力系統(tǒng)不良數(shù)據(jù)新方法[J]. 電力系統(tǒng)保護與控制, 2016, 44(3): 85-91. MENG Jianliang, LIU Dechao. A new method for identifying bad data of power system based on Spark and clustering analysis[J]. Power System Protection and Control, 2016, 44(3): 85-91.
[19]XIN R. Spark officially sets a new record in large-scale sorting [EB/OL]. (2014-11-05)[2016-07-05].https://databricks. com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html
[20]KREPS J,NARKHEDE N,KAFKA R J: A distributed messaging system for log processing[C]//Proceedings of the NetDB, 2011:1-7.
[21]KALA KARUN A, CHITHARANJAN K. A review on hadoop—HDFS infrastructure extensions[C]// Information & Communication Technologies (ICT), 2013: 132-137.
[22]ZHANG H, CHEN G, OOI B C, et al. In-memory big data management and processing: A survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(7): 1920-1948.
[23]劉興杰, 岑添云, 鄭文書, 等. 基于模糊粗糙集與改進聚類的神經(jīng)網(wǎng)絡(luò)風速預(yù)測[J]. 中國電機工程學報, 2014, 34(19):3162-3169. LIU Xingjie,CEN Tianyun, ZHENG Wenshu, et al. Neural network wind speed prediction based on fuzzy rough set and improved clustering [J]. Proceedings of the CSEE, 2014, 34(19): 3162-3169.
[24]郭昆亞, 熊雄, 金鵬, 等. 基于模糊聚類-量子粒子群算法的用電特性識別[J]. 電力建設(shè), 2015, 36(8): 84-88. GUO Kunya, XIONG Xiong, JIN Peng, et al. Electricity characteristic recognition study based on fuzzy clustering-quantum particle swarm algorithm[J]. Electric Power Construction, 2015, 36(8): 84-88.
(編輯 張媛媛)
Platform Building for Wide-Area Spatiotemporal Sequences Analysis of Large-Scale Power Grid Based on Spark
YUAN Baochao1, LIU Daowei2, LIU Liping2, WANG Zezhong1
(1. North China Electric Power University, Beijing 102206, China; 2. China Electric Power Research Institute, Beijing 100192, China)
To address the energy internet trends and increasingly complex operating environment, we need to enhance the mining depth and utilization capability of energy internet multi-source data relying on big data technology. First, in the view of the wide-area spatiotemporal sequences data of large power grid, this paper expounds the Spark’s advantages in distributed computing and the goal of big data platform, designs the big data platform architecture of power grid based on Spark, and describes each level of the platform in detail. Secondly, this paper describes the Spark’s advantage in processing the spatiotemporal sequences data. Finally, on the basis of Spark and Hadoop experiment environment, this paper carries out typical clustering algorithm to compare the performance between Spark and Hadoop. The results verifies that Spark has a great advantage in data processing comparing with Hadoop MapReduce, which lays the foundation for the next step research.
energy internet; Spark; spatiotemporal sequences; streaming computing; cluster
國家自然科學基金項目(51207143);國家電網(wǎng)公司科技項目(XT71-15-056)
TM 73;TP 391.9
A
1000-7229(2016)11-0048-07
10.3969/j.issn.1000-7229.2016.11.008
2016-07-05
袁寶超(1990),男,碩士研究生,研究方向為基于廣域信息的電網(wǎng)擾動特性及大數(shù)據(jù)技術(shù);
劉道偉(1977),男,博士,高級工程師,主要研究方向為響應(yīng)式大電網(wǎng)穩(wěn)定態(tài)勢量化評估與自適應(yīng)控制;
劉麗平(1964),女,碩士研究生,教授級高工,主要研究方向為電力系統(tǒng)自動化;
王澤忠(1960),男,教授,博士生導師,研究方向為電力系統(tǒng)電磁兼容和電磁場數(shù)值計算。
Project supported by National Natural Science Foundation of China(51207143)