馬平 徐偉東 沈浩欽 吳杭
(1.國網(wǎng)紹興供電公司,浙江紹興 312000;2.深圳市國電科技通信有限公司北京分公司,廣東深圳 100070)
電力大數(shù)據(jù)應用現(xiàn)狀及多源異構數(shù)據(jù)分析技術研究
馬平1徐偉東1沈浩欽1吳杭2
(1.國網(wǎng)紹興供電公司,浙江紹興 312000;2.深圳市國電科技通信有限公司北京分公司,廣東深圳 100070)
智能電網(wǎng)運行、檢修和管理過程中會產(chǎn)生海量異構、多態(tài)數(shù)據(jù),如何將它們進行高效可靠存儲,并實現(xiàn)快速分析訪問已是當前電力系統(tǒng)中重要的研宄課題。本文在分析電力生產(chǎn)各個環(huán)節(jié)大數(shù)據(jù)的產(chǎn)生來源和特點基礎上,闡述市場已有大數(shù)據(jù)技術在電力系統(tǒng)應用的優(yōu)勢和不足。最后,從電網(wǎng)異構多源信息融合及可視化方向提出了一種應用方法。
智能電網(wǎng) 大數(shù)據(jù) 異構分析 可視化
近年來,隨著全球能源問題日益嚴峻[1],世界各國都開展了智能電網(wǎng)的研究工作。智能電網(wǎng)的最終目標是建設成為覆蓋電力系統(tǒng)整個生產(chǎn)過程,包括發(fā)電、輸電、變電、配電、用電及調(diào)度等多個環(huán)節(jié)的全景實時系統(tǒng)。而支撐智能電網(wǎng)的基礎是電網(wǎng)大數(shù)據(jù)全景實時數(shù)據(jù)采集、傳輸、存儲以及快速分析。目前智能電網(wǎng)中的大數(shù)據(jù)主要來自以下幾個方面:
(1)海量電網(wǎng)狀態(tài)信息采集設備。常規(guī)的調(diào)度自動化系統(tǒng)含數(shù)十萬個采集點,配用電、數(shù)據(jù)中心將達到百萬甚至千萬級。需要監(jiān)測的設備數(shù)量巨大,每個設備都裝有若干傳感器,構成了一個龐大的數(shù)據(jù)網(wǎng)。
(2)高頻電網(wǎng)狀態(tài)信息捕獲技術。為滿足上層應用需求,設備的采樣頻率逐漸提高。在輸變電設備狀態(tài)監(jiān)測系統(tǒng)中,為了能對絕緣放電等狀態(tài)進行診斷,信號的采樣頻率必須在200kHz以上,特高頻檢測需要GHz的采樣率。
(3)視頻及模式識別系統(tǒng)推廣。智能電網(wǎng)視頻監(jiān)控系統(tǒng)不僅要求能夠真實地反映電力系統(tǒng)的情況,并且還需自動判斷情況的好與壞,同時自動采取相關措施,是一個“會思考”、“能做事”的智能化系統(tǒng)。為此,需要電網(wǎng)具備強大存儲及處理能力。
谷歌公司提出的分布式文件系統(tǒng)(distributed file system,DFS)和MapReduce技術,已成為現(xiàn)階段Facebook、雅虎等網(wǎng)絡公司大數(shù)據(jù)應用的解決方案[2]。
DFS技術,具備高容錯性特點,可部署在海量且價格低廉的硬件設備上,而且它為應用程序提供了高吞吐量的數(shù)據(jù)訪問,適合那些有著超大數(shù)據(jù)集程序。MapReduce為2004年由谷歌公司提出的一個用來進行并行處理和生成大數(shù)據(jù)集的并行編程模型。應用“解析器”,將復雜數(shù)據(jù)關系進行映射及化簡,配合DFS最終實現(xiàn)快速數(shù)據(jù)處理。但是,該方法應用在電力系統(tǒng)中直接面向業(yè)務對象,就表現(xiàn)出一定局限性。
(1)數(shù)據(jù)形式多樣化。電網(wǎng)業(yè)務數(shù)據(jù)大致分為3類:一是電網(wǎng)運行和設備檢測或監(jiān)測數(shù)據(jù);二是電力企業(yè)營銷數(shù)據(jù);三是電力企業(yè)管理數(shù)據(jù)。包含一維數(shù)據(jù)、二維數(shù)據(jù)、多維數(shù)據(jù)、文本與超文本、層次和圖形等多種形式。現(xiàn)有大數(shù)據(jù)技術無法直接或高效的分析處理。
(2)數(shù)據(jù)價值密度較低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有1~2 s。在輸變電設備狀態(tài)監(jiān)測中存在同樣問題,所采集的絕大部分數(shù)據(jù)都是正常數(shù)據(jù),只有極少量的異常數(shù)據(jù),而異常數(shù)據(jù)是狀態(tài)檢修的最重要依據(jù)。
電力系統(tǒng)若要應用成熟大數(shù)據(jù)技術,首先需對各類異構信息進行預處理,本文將就異構多數(shù)據(jù)處理技術在電力系統(tǒng)應用進行分析,并簡述一種針對低價值密度數(shù)據(jù)集的可視化方法。
圖1 電力系統(tǒng)大數(shù)據(jù)處理框圖
圖2 數(shù)據(jù)自動抽取與格式轉(zhuǎn)換模塊結構
為更好闡述本文提出的面向電力系統(tǒng)多源異構數(shù)據(jù)的多維分析與可視化方法,首先結合主要電力環(huán)節(jié)和信息處理流程,加入數(shù)據(jù)自動抽取與格式轉(zhuǎn)換模塊(含實時在線訪問控制模塊)、以及多形式的可視化展示模塊,形成如圖1所示電力系統(tǒng)大數(shù)據(jù)處理框圖。
針對各自治系統(tǒng)提供數(shù)據(jù)方式的不同以及兼顧電力數(shù)據(jù)的特點,提出并設計了一種多源異構海量數(shù)據(jù)的實時數(shù)據(jù)自動抽取與轉(zhuǎn)換模塊[3,4],模塊結構如圖2所示。
該模塊包括實時控制監(jiān)測層、實時抽取格式處理層以及實時存儲層等。其中:
實時控制監(jiān)測層:主要完成多源數(shù)據(jù)的訪問權限的配置與管理、訪問的方式配置、訪問頻次設定以及異常處理等,目的是與各數(shù)據(jù)來源建立合法可靠的數(shù)據(jù)訪問機制。
實時自動抽取與格式轉(zhuǎn)換處理層[5]:主要完成對實時監(jiān)測到的數(shù)據(jù)進行正確性檢查,根據(jù)各異構數(shù)據(jù)的不同抽取規(guī)則對實時在線獲取的數(shù)據(jù)進行分類多線程的自動抽取,并結合決策基礎數(shù)據(jù)庫的存儲設計要求進行相應格式轉(zhuǎn)換,形成具體統(tǒng)一規(guī)范的數(shù)據(jù)格式,此層顯然是最核心的處理層,在設計時要特別注意轉(zhuǎn)換的效率和轉(zhuǎn)換的正確性,是后期應用的基礎性工作。
圖3 像素法數(shù)據(jù)可視化
實時存儲層[6]:主要完成對產(chǎn)品數(shù)據(jù)的保存和數(shù)據(jù)的實時利用,同時也方便以后歷史數(shù)據(jù)的查詢和統(tǒng)計分析等。
電網(wǎng)智能分析結果可視化是電力大數(shù)據(jù)應用的一個重要的組成部分[7],可視化的效果直接影響到重要信息展示以及用戶決策。目前數(shù)據(jù)可視化已經(jīng)提出了許多方法,這些方法根據(jù)其原理不同可以劃分為基于幾何的技術、基于層次的技術、面向像素技術等?;趲缀闻c層次的可視化技術現(xiàn)階段已在較多領域應用,且不適合含有低價值密度數(shù)據(jù)的數(shù)據(jù)集。
面向像素技術是現(xiàn)階段應用于大數(shù)據(jù)展示的先進技術,它的基本思想是將每一個數(shù)據(jù)項的數(shù)據(jù)值對應于一個帶顏色的圖片像素,對于不同的數(shù)據(jù)屬性以不同的窗口分別表示。
面向像素的可視化方法包含獨立于查詢的方法和基于查詢的方法兩種[8]。
獨立于查詢的方法將數(shù)據(jù)庫中的數(shù)據(jù)依從左到右(從上到下)的次序一行一行(一列一列)地排列顯示出來,類似于幾何可視化方法。
而基于查詢的方法是根據(jù)數(shù)據(jù)值同所查詢的要求的符合程度來匹配不同的顏色。針對每一個數(shù)據(jù)項的值(a1,a2,...,an)及查詢要求(q1,q2,...,qn)通過一個距離函數(shù)計算每個屬性值與查詢要求的匹配值,得到每個數(shù)據(jù)的一個總的距離值dn+1以反映數(shù)據(jù)項與查詢要求之間的匹配程度,總的距離值dn+1越小越是用戶所希望看到的數(shù)據(jù)。查詢的數(shù)據(jù)結果按dn+1的值由小到大從屏幕的中央螺旋地向四周展開。這樣不僅能看到所查詢的數(shù)據(jù),而且對于數(shù)據(jù)從近似匹配到不匹配的走勢也能直觀地表現(xiàn)。該種方法配合模式識別技術,可對電力系統(tǒng)狀態(tài)檢修及故障專家決策系統(tǒng)有很大幫助。
未來的智能電網(wǎng)將是依托大數(shù)據(jù)分析處理技術的全景實時電網(wǎng)。本文針對行業(yè)內(nèi)海量數(shù)據(jù)預處理問題,提出了一種面向多源異構數(shù)據(jù)的多維預處理模型,又針對電力系統(tǒng)低價值密度數(shù)據(jù)集普遍存在這一事實,提出應用像素可視化方法,最大限度地克服了現(xiàn)有系統(tǒng)分析力度不夠和可視化單調(diào)的不足,提高了基于電力大數(shù)據(jù)技術的應用有效性。此外,該方法對非電力行業(yè)的分析與處理也有一定的參考價值。
[1]宋亞奇,周國亮.智能電網(wǎng)大數(shù)據(jù)處理技術現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術,2013,3(4): 927-935.
[2]李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[3]惠卿,孫翠娟,董鴻燕.基于服務數(shù)據(jù)對象的異構數(shù)據(jù)集成系統(tǒng)[J].自動化技術,2010,8(6):79-83.
[4]Peijian Wang.D-pro:dynamic data center operations with demand-responsive electricity prices in smart grid[J].IEEE Transactions on Smart Grid,2012,11(4):1743-1754.
[5]謝華成,陳向東.面向云存儲的非結構化數(shù)據(jù)存取[J].計算機應用,2012,32(7):1924-1928.
[6]張良,佟俐娟.異構數(shù)據(jù)庫集成中數(shù)據(jù)傳輸問題的研究[J].北京機械工業(yè)學院學報,2011,9(11):65-68.
[7]劉勘,周曉崢,周洞汝.數(shù)據(jù)可視化的研究與發(fā)展[J].計算機工程,2012(8):11-13.
[8]任永功,于戈.數(shù)據(jù)可視化技術的研究與進展[J].計算機科學,2010,31(12).