孫東磊,吳奎華,吳 健,馮 亮,劉曉明
(國網山東省電力公司經濟技術研究院,山東 濟南 250021)
電網規(guī)劃具有覆蓋范圍廣、數據信息量大、編制任務繁重等特點,科學合理電網規(guī)劃的基礎是對各個層次、各個維度的海量數據信息進行統(tǒng)籌管理,挖掘有效信息,以提升電網規(guī)劃效率。電網規(guī)劃數據對內涉及電網企業(yè)發(fā)展、建設、運檢、營銷等多個專業(yè)部門,對外涉及政府、企業(yè)、居民,覆蓋范圍廣、數據信息量大[1]。傳統(tǒng)電網規(guī)劃信息統(tǒng)計匯總存在以下問題:
1)傳統(tǒng)規(guī)劃數據以提資方式進行數據交換,表單的填寫、傳遞往往由設計人員手工完成,以報表形式存儲,人工遞送審核,環(huán)節(jié)間、層級間依托報表報送,所需時間長、數據質量低、出錯可能性大。
2)目前規(guī)劃數據采集、存儲、處理、分析缺乏統(tǒng)一規(guī)范,且數據口徑多、來源復雜、數據維護量大、相對孤立,導致信息交換困難,孤島現象嚴重。云計算、大數據分析技術[2-4]作用難以有效發(fā)揮,缺乏多因素、多場景、多維度的數據分析模型和工具,系統(tǒng)智能化支撐水平難以滿足業(yè)務的需求。
3)規(guī)劃系統(tǒng)各環(huán)節(jié)間、專業(yè)間數據難以有效共享,規(guī)劃成果共享不足。數據業(yè)務協(xié)同、智能分析,深層次數據分析挖掘和綜合利用不夠,缺乏對業(yè)務有效支撐,精益化管理水平有待進一步提高。難以滿足新形勢下國家電網公司“三集五大”體系提出的“大規(guī)劃”要求[5]。
4)規(guī)劃業(yè)務系統(tǒng)與其他各專業(yè)系統(tǒng)數據集成缺乏統(tǒng)一規(guī)劃和統(tǒng)一設計,各模塊規(guī)范和標準的集成方式各有差異,各專業(yè)集成數據難以重復利用,存在數據不對應,處理難度大,重復工作多等問題。統(tǒng)計工作效率低下、數據準確性不高、數據綜合利用程度較低等不足。
5)規(guī)劃數據缺乏科學管理。隨著電網規(guī)模逐年擴大,規(guī)劃中需要原始資料數據的信息量越來越大,需要花費大量時間和人員進行原始資料整理與數據提取,僅靠人工處理海量電網數據難以適應電網精益化管理、精準化投資的要求。即使是伴隨著電網信息化水平的提高,出現了關于電網規(guī)劃數據管理的信息化研究[6-8],但仍存在一些不足,如規(guī)劃數據共享程度不高,全局性綜合業(yè)務決策支撐不足。
針對上述問題,亟需依托大數據平臺和云平臺,設計開發(fā)大規(guī)劃基礎數據資源庫,實現統(tǒng)一內外部數據集成和數據管理,打造基于多源數據融合與分析的電網規(guī)劃綜合數據平臺,為各專業(yè)、各層級應用需求提供強有力的數據支撐。
圍繞“大規(guī)劃”體系建設要求,充分利用云計算與海量數據處理等技術手段,建設基于多源數據融合與深度挖掘的電網規(guī)劃綜合數據庫,實現設備數據庫、運行數據庫、圖形數據庫、規(guī)劃數據庫的“四庫合一”,實現省域電網數據資產的集中管理與高度共享,為各專業(yè)、各層級業(yè)務應用需求提供強有力的數據支撐。實現發(fā)展專業(yè)內外部數據集成和數據管理,形成系統(tǒng)、準確、高效、簡潔的規(guī)劃綜合數據庫,涵蓋數據集成、數據生產、數據存儲、指標管理、數據加工及信息服務等過程,對內支撐電網業(yè)務應用,對外提供信息咨詢服務。建設目標結構示意如圖1所示。
圖1 建設目標結構
電網規(guī)劃綜合數據平臺的技術架構如圖2所示。通過集成生產管理系統(tǒng)(PMS)、地理信息系統(tǒng)(GIS)、能量管理系統(tǒng)(EMS)、智能配網監(jiān)控、用電信息采集等多個業(yè)務系統(tǒng),采用數據倉庫技術(Extract-Transform-Load,ETL)[5]、 增量捕捉等多種技術手段,設計支撐電網業(yè)務全流程管理的數據結構,開展數據關聯分析和整合遷移,實現海量的關系型數據、文件型數據、分布式數據、空間型數據等數據的高效接入與深度融合。通過對數據的抽取、清洗、集成、融合形成電網現狀數據庫,包含電網運行信息、臺賬信息、空間信息等數據;在現狀數據庫元數據的基礎上,通過診斷分析、負荷分析、空間分析等多種計算方式形成電網規(guī)劃決策指標數據庫;在決策指標數據庫的基礎上,通過規(guī)劃數據管理、項目庫管理、規(guī)劃可研管理、項目前期管理、電網規(guī)劃圖形繪制工具、經濟技術評估計算等業(yè)務功能,形成電網規(guī)劃數據庫;綜合以上數據信息,最終形成集數據融合、存儲、挖掘、建模、計算、分析及智能感知于一體的電網規(guī)劃綜合數據庫,為省域電網發(fā)展提供全面的模型和數據支撐。
圖2 技術架構
圖3 統(tǒng)一模型數據鏈路
通過對電網接入系統(tǒng)和電網規(guī)劃業(yè)務的分析,進行規(guī)劃領域模型的統(tǒng)一構建,對各個模塊的業(yè)務模型從屬性、維度、狀態(tài)等角度進行統(tǒng)一標準化,形成統(tǒng)一模型數據鏈路,如圖3所示。依托多源融合的電網規(guī)劃綜合數據庫,開展綜合信息管理、電網現狀分析、負荷分析預測、電網診斷分析、電網仿真計算、經濟技術評估、規(guī)劃科研管理等業(yè)務,全面支撐發(fā)展各專業(yè)業(yè)務應用。
系統(tǒng)外部數據(包括:生產管理系統(tǒng)PMS數據、國網GIS空間數據、調度管理系統(tǒng)EMS數據、智能配網監(jiān)控平臺數據、用電信息采集數據)接入電網規(guī)劃數據庫后,按照規(guī)劃業(yè)務應用的實際要求,與系統(tǒng)內部電網診斷薄弱預警數據、負荷分析預測數據、電網規(guī)劃空間圖形數據、規(guī)劃可研評審數據、輔助決策數據相結合,通過數據對應、聚合計算、數據挖掘等多種方式對數據進行深度融合,逐步支撐業(yè)務,自上而下逐級穿透,敏感數據精準定位。
數據融合處理流程如圖4所示。異構數據融合涵蓋海量數據抽取、數據清洗和轉換等內容。
圖4 數據融合處理流程
1)海量數據抽取。
數據抽取和數據采集過程分別如圖5、圖6所示。通過采用Kafka、Sqoop、增量捕獲工具等多種技術手段,實現結構化、非結構化、海量歷史/準實時、電網空間數據(全量和增量捕獲)接入,對各類數據按照統(tǒng)一數據規(guī)范進行標準化格式存儲,依據應用需求存儲在分布式關系型數據庫、分布式非關系型數據庫和分布式文件系統(tǒng)中。
圖5 數據抽取過程
圖6 數據采集過程
實時數據(如:負荷數據、用戶用電數據、設備狀態(tài)監(jiān)測數據等)使用基于Kafka分布式消息隊列的數據通道接入大數據平臺。該數據通道基于快速、可擴展、持久的分布式消息發(fā)布—訂閱系統(tǒng),在數據抽取過程中,系統(tǒng)通過定義消息描述信息的方式設置數據抽取的主題,生產者向主題寫入數據,消費者從主題讀取數據。基于這樣的設計,系統(tǒng)可以在消息隊列中保存大量開銷很小的數據,并且支持大量的消費者訂閱,通過Hadoop的并行加載機制統(tǒng)一線上和離線的消息處理讓數據存入 Hadoop集群變得非常簡單,并且,當擁有多個數據來源和多個數據目的地時,為每一個來源和目的地配對地編寫一個單獨的數據通道會導致混亂發(fā)生,該數據抽取方式規(guī)范了數據通道格式,并且允許每一個系統(tǒng)獲取數據和寫入數據各一次,這樣極大地減少數據通道的復雜性和操作耗時。
結構化數據(如關系型數據庫里的數據)通過Sqoop工具,分割成多個數據集并創(chuàng)建Hadoop任務來并行處理每個區(qū)塊,高效寫入大數據平臺的分布式數據倉庫,生成發(fā)布滿足特定業(yè)務需求的數據主題,為數據挖掘和自助式分析提供數據訪問支撐。在導入開始之前,使用JDBC來檢查需要導入的表,檢索出表中所有的列以及列的SQL數據類型。這些SQL類型被映射到Java數據類型,在MapReduce應用中將使用這些對應的Java類型來保存字段的值。MapReduce是Google提出的一種并行編程模型,可以實現大規(guī)模數據集的并行處理[9]。Sqoop的代碼生成器使用這些信息來創(chuàng)建對應表的類,用于保存從表中抽取的記錄。數據導入過程中,Sqoop啟動MapReduce作業(yè)使用JDBC連接方式從一個數據庫表中讀取內容,JDBC的ResultSet接口提供了一個用戶從檢查結果中檢索記錄的游標,并將ResultSet中每一行數據來填充Sqoop創(chuàng)建的類,在生成反序列化代碼和配置抽取數據源之后,Sqoop將作業(yè)發(fā)送到MapReduce集群。Map任務將執(zhí)行查詢并將ResultSet中的數據反序列化到生成類的實例,這些數據被持久化寫到HDFS的數據倉庫中。為了獲取更好地導入性能,Hadoop能夠為幾個Map任務查詢結果按照表的主鍵進行劃分達到并行的目的。
非結構化數據(如電網系統(tǒng)運行日志文件等)通過Flume工具將數據直接寫入大數據平臺的分布式文件系統(tǒng),Flume實時監(jiān)控不同日志源文件的狀態(tài)變更,聚合來自不同代理服務器的日志文件輸送到平臺文件系統(tǒng),輔助電網開展數據分析、數據挖掘和規(guī)劃決策支持等功能。Flume作為數據流平臺中日志數據收集模塊的核心組件,系統(tǒng)使用了其強大的收集和分流功能,在原有的基礎上加上了分流配置的可管理功能,把日志的分流集中管理,有效避免了Flume原有分流方式日志重復發(fā)送的弊端。系統(tǒng)為保證輸送的成功性,在送到目的地之前,會先緩存數據,待數據真正到達目的地后,刪除自己緩存的數據。各地市公司產生的數據被運行在數據發(fā)生器所在服務器上的代理機收集,之后數據收容器將各個代理機上采集的數據匯總,并將存入到HDFS或者HBase中。
2)數據清洗和轉換。
大數據的清洗階段主要完成對已接收數據進行智能剔除和貯存等操作。通過各種傳感器所獲得的大數據,由于客觀外界條件變動 (電網供電電壓突變、電磁干擾等)或者人為原因會引起異常數據。異常數據會給正確分析數據造成影響,以致使各種計算和測試結論的可靠性降低。因此需要剔出異常數據從而保持數據的有效性。不符合要求的數據主要有不完整的數據、錯誤的數據、重復的數據3大類。
不完整的數據。這一類數據主要是一些應該有的信息缺失,如設備的名稱、業(yè)務系統(tǒng)中主表與明細表不能匹配等。對于這一類數據過濾出來,按缺失的內容分別寫入不同Excel文件向系統(tǒng)的存儲平臺提交,要求在規(guī)定的時間內補全,補全后才寫入數據倉庫。
錯誤的數據。這一類錯誤產生的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數據庫造成的,比如數值數據輸成全角數字字符、字符串數據后面有一個回車操作、日期格式不正確等。這一類數據需要分類,對于類似于全角字符、數據前后有不可見字符的問題,通過寫SQL語句的方式找出來,然后在業(yè)務系統(tǒng)修正之后抽取。
重復的數據。對于這一類數據,特別是維表中會出現這種情況——將重復數據記錄的所有字段導出來,有選擇地進行剔除。
3)基于 K-means 聚簇算法[10]的數據挖掘。
通過對大數據的分析,利用數據挖掘技術,對大數據進行建模,并通過數理模型對數據進行分析?,F在,多源系統(tǒng)的接入為平臺的數據挖掘功能提供了充足的數據基礎,這個基礎上通過對數據進行多維的篩選發(fā)掘出對電網規(guī)劃評審、診斷分析有意義的潛在價值,是進行數據挖掘的根本目的,基于此目的平臺對清洗干凈的數據進行智能化處理,利用K-means方法對數據進行聚類,并且利用 Trust-Tech技術對聚類結果進行了優(yōu)化,按測點的狀態(tài)將節(jié)點數據進行合理的劃分,在聚類結果之間進行關聯規(guī)則的挖掘,得到任意測點不同狀態(tài)之間的關聯關系。
由于 K-means聚類算法可以指定數據的分類個數,因此采用K-means算法將所有測點數據簡化為特定類別數目的分類型數據,一方面,可以實現測點之間關聯規(guī)則的挖掘,得到任意測點不同狀態(tài)之間的關聯關系;另一方面,降低了數據復雜度,提高了數據運算速率。K-means聚類算法雖然具有聚類速度快、運算量適中且實現簡單的優(yōu)點,但是在聚類過程中易于陷入局部最優(yōu)解,得到的結果分布不能很好地反映數據的類間差異。因此,在聚類過程中,調用了Trust-Tech技術對局部最優(yōu)解集進行篩選和優(yōu)化,從中選出最接近全局最優(yōu)的結果,提高了分類的精確性,而且額外的計算負擔較小,保證了運算效率不受影響。
電網規(guī)劃綜合數據平臺提供數據源管理、業(yè)務語義、業(yè)務數據建模、多維數據建模、數據主題管理功能,將存儲的數據以業(yè)務視圖的角度進行語義描述、數據建模,生成并發(fā)布滿足特定業(yè)務需求的數據主題,為數據挖掘和自助式分析提供數據訪問支撐。數據建模功能如圖7所示。
圖7 數據建模功能
通過構建數據預處理、數據挖掘算法庫、統(tǒng)計分析算法庫、模型評估等功能,為數據挖掘過程涉及的數據預處理、算法建模、模型評估應用等環(huán)節(jié)提供支撐。數據挖掘功能如圖8所示。
圖8 數據挖掘功能
電網規(guī)劃綜合數據平臺通過提供流計算、內存計算、批量計算、查詢計算等分布式計算技術來滿足不同時效性的計算需求。數據計算功能如圖9所示。
圖9 數據計算功能
平臺提供了易用、快速、靈活的可視化設計器和豐富多樣化的可視化控件,結合數據建模發(fā)布的數據主題和數據挖掘發(fā)布的業(yè)務挖掘模型,實現了用戶可自定義配置分析界面。數據分析功能如圖10所示。
平臺存儲分為關系型數據庫、分布式文件系統(tǒng)、分布式數據庫3種存儲方式,滿足大量、多樣化數據的低成本存儲需求。數據存儲功能如圖11所示。
圖10 數據分析功能
圖11 數據存儲功能
基于大數據平臺的統(tǒng)一數據訪問服務,提供結構化、非結構化、GIS數據專業(yè)定制服務能力,為上層專業(yè)應用/高級應用提供數據服務。數據訪問功能如圖12所示。
圖12 數據訪問功能
基于大數據平臺的數據管理服務,涉及基礎數據管理、數據權限管理、數據質量管理、數據流轉監(jiān)控等數據管理服務。數據管理功能如圖13所示。
圖13 數據管理功能
平臺提供統(tǒng)一的流程管理功能,定義作業(yè)相關的基礎信息、調度策略及調度類型,通過統(tǒng)一的調度引擎執(zhí)行相關任務,提供直觀的、可視化的、流程化的操作,并達到任務和作業(yè)解耦的目的。流程管理功能如圖14所示。
圖14 流程管理功能
電網規(guī)劃綜合數據平臺建成后,已在國網山東省電力公司、國網山東省電力公司經濟技術研究院、山東全省17地市、98縣公司等業(yè)務應用部門開展全面推廣應用。電網規(guī)劃綜合數據平臺在電網規(guī)劃編制、規(guī)劃項目管理等方面發(fā)揮了重要作用。
在建設“最好的電網”方面,借助平臺龐大的電網規(guī)劃數據資源,創(chuàng)新開展了電網規(guī)劃前沿技術研究。依托電網規(guī)劃綜合數據平臺,開展了電網規(guī)劃數據分析研究,實現了電網數據的在線智能分析與離線綜合分析,全面反映電網現存問題與未來發(fā)展方向,全面支撐發(fā)展各專業(yè)。依托電網規(guī)劃綜合數據平臺,開展了電網規(guī)劃輔助決策研究,以服務電網規(guī)劃各核心業(yè)務為目標,開展對規(guī)劃數據的在線分析,診斷薄弱環(huán)節(jié),明確發(fā)展策略,優(yōu)化規(guī)劃方案,2016年電網規(guī)劃項目準確率提升到98%以上,比2014年提高了10余個百分點,有效提升了電網投資效益和發(fā)展質量。
在建設“一流配電網”方面,借助平臺龐大的電網現狀、規(guī)劃數據資源,實現了電網問題診斷可視化追根溯源與精準定位,針對性地提出問題治理與電網改造建設方案,為“世界一流電網”建設順利實施奠定良好基礎。
在班組建設減負增效方面,平臺通過多源數據、信息的高度集成與共享,創(chuàng)建集約化、專業(yè)化、精益化的電網規(guī)劃管理模式,切實減輕了規(guī)劃專業(yè)班組的工作負擔,提升了規(guī)劃的效率和質量。以“十三五”農網規(guī)劃工作為例,原先需要省、市、縣(區(qū))三級人工統(tǒng)計的133套9 000余張35萬個數據,通過平臺實現自動分析、校對和統(tǒng)計,數據處理工作量縮小90%以上。
針對規(guī)劃系統(tǒng)的各環(huán)節(jié)間數據難以有效共享等不足,以及規(guī)劃業(yè)務系統(tǒng)與其他各專業(yè)系統(tǒng)的數據集成缺乏統(tǒng)一規(guī)劃和統(tǒng)一設計等問題,開展了基于多源數據集成的電網規(guī)劃綜合數據平臺研究,構建了省域電網規(guī)劃綜合數據庫,首次實現了省域電網發(fā)展專業(yè)數據資產的集中管理與高度共享。通過有效集成內 PMS、GIS、EMS、智能配網監(jiān)控、用電信息采集等多個業(yè)務系統(tǒng),采用數據倉庫 (ETL)、K-means聚簇算法等大數據技術手段,實現了結構化、非結構化、海量歷史/準實時、電網空間數據等信息的高效接入以及電網設備、運行水平、圖形管理、規(guī)劃方案等數據的深度融合,形成了集數據融合、存儲、計算、建模、挖掘、分析及智能感知于一體的電網規(guī)劃綜合數據庫,實現了設備數據庫、運行數據庫、圖形數據庫、規(guī)劃數據庫的“四庫合一”,保證了全省電網數據的權威性、統(tǒng)一性和全面性,為公司發(fā)展專業(yè)全鏈條業(yè)務提供支撐。電網規(guī)劃綜合數據平臺已在山東省、市、縣三級電網得到全面推廣應用,為統(tǒng)籌電網發(fā)展專業(yè)資源和提升規(guī)劃專業(yè)管理水平帶來了可觀的效益,為山東省域電網全面建設“大規(guī)劃”體系提供了有力保障。
[1]周鯤鵬,方仍存,顏炯,等.電網規(guī)劃智能輔助決策系統(tǒng)的設計與實現[J].電力系統(tǒng)自動化,2013,37(3):77-82.
[2]王德文.基于云計算的電力數據中心基礎架構及其關鍵技術[J].電力系統(tǒng)自動化,2012,36(11):67-71,107.
[3]MAYILVAGANAN M,SABITHA M.A cloud-based architecture for big-data analytics in smart grid:a proposal[C]∥2013 IEEE International Conference on Computational Intelligence and Computing Research (ICCIC),IEEE,2013:1-4.
[4]ZHOU K,FU C,YANG S.Big data driven smart energy management:from big data to big insights[J].Renewable and Sustainable Energy Reviews,2016,56:215-225.
[5]國家電網公司.國家電網公司“三集五大”管理變革探索與實踐[M].北京:中國電力出版社,2015.
[6]XIAO Jun,BO Yu,LUO Fengzhang,et al.Simplification method for exported data from GIS of distribution system[C]∥The 3rd International Conference on Electric Utility Deregulation and Restructuring and Power Technologies (DRPT 2008),Nanjing,China,2008:1 273-1 280.
[7]李峰,劉正超,羅鳳章,等.廣東電網一體化規(guī)劃信息系統(tǒng)研究與應用[J].電力系統(tǒng)及其自動化學報,2011,23(5):151-156.
[8]杜旭,申剛,劉中勝,等.電網規(guī)劃管理信息系統(tǒng)數據庫的研究與實現[J].電力系統(tǒng)及其自動化學報,2013,25(2):163-166.
[9]曲朝陽,陳帥,楊帆,等.基于云計算技術的電力大數據預處理屬性約簡方法[J].電力系統(tǒng)自動化,2014,38(8):67-71.
[10] 冀素琴,石洪波.面向海量數據的 K-means聚類優(yōu)化算法[J].計算機工程與應用,2014,50(14):143-147.