謝珍貴,陳振宇
(1.福建水利電力職業(yè)技術學院電力工程系,福建 永安 366000;2.廣東財經(jīng)大學信息學院,廣東 廣州 510320)
一個基于物聯(lián)網(wǎng)—云計算—大數(shù)據(jù)開發(fā)的巨大產(chǎn)業(yè)鏈即將形成,一個新的推動世界經(jīng)濟發(fā)展的科技革命將會誕生,國際經(jīng)濟即將進入一個新的發(fā)展階段.自2008年《自然》雜志推出一期名為“大數(shù)據(jù)”的封面文章,詳細講述了“數(shù)據(jù)”在數(shù)學、物理、生物以及社會經(jīng)濟中所扮演愈加重要的角色以來,美國政府在2009年由總統(tǒng)科學技術顧問委員會、能源部、國防部、參議院和數(shù)十所大學的著名教授醞釀,在2012年4月發(fā)表了“大數(shù)據(jù)開發(fā)計劃(Big data research and development initiative)”,很快在國際上掀起了新一輪信息革命的熱潮[1].在全球經(jīng)濟經(jīng)歷了近10年危機的情況下,經(jīng)過多年的醞釀,信息處理技術和各行業(yè)企業(yè)信息化程度已經(jīng)達到一定高度,在世界經(jīng)濟面臨何處去、如何突破困境的拷問時,大數(shù)據(jù)開發(fā)將給世界經(jīng)濟復蘇帶來一線曙光,許多經(jīng)濟學家將它稱為“大數(shù)據(jù)時代”的到來.2013年11月,我國首個行業(yè)——電力行業(yè)發(fā)布了《中國電力大數(shù)據(jù)發(fā)展白皮書》[2].中國電力出版社策劃總編肖蘭在發(fā)布儀式上評價說:“《中國電力大數(shù)據(jù)發(fā)展白皮書》是我國首個行業(yè)大數(shù)據(jù)白皮書,首次提出了電力大數(shù)據(jù)的定義和特征.”電力信息化專委會作為我國唯一的電力行業(yè)信息化專業(yè)協(xié)會,充分聽取了行業(yè)內(nèi)外專家意見,完善了白皮書編制思路,對推動我國電力大數(shù)據(jù)事業(yè)的發(fā)展、實現(xiàn)我國電力科學跨越具有極大的現(xiàn)實意義.
電力系統(tǒng)的數(shù)據(jù)已告別以往數(shù)據(jù)類型較為單一、增長較為緩慢的時代,隨著SG-ERP 和智能電網(wǎng)建設的開展和深入,數(shù)據(jù)量以幾何級數(shù)增長,數(shù)據(jù)來源也更加復雜和多樣(結構化、非結構化和半結構化).如何充分利用這些巨量的多樣化數(shù)據(jù),對其進行深入分析以便提供大量的高附加值服務,需要應用大數(shù)據(jù)的理念與技術.
在電力行業(yè),隨著堅強智能電網(wǎng)建設以及“三集五大”管理體系的決策部署,企業(yè)信息化程度不斷提高,數(shù)據(jù)量正在迅速膨脹,數(shù)據(jù)類型逐漸多樣化,電力大數(shù)據(jù)的環(huán)境正在形成.但在數(shù)據(jù)采集方面存在不足,如采集的數(shù)據(jù)質(zhì)量不高,采集過程不夠規(guī)范,采集數(shù)據(jù)重復,管控相對滯后等.為了后續(xù)工作的更加有效,有必要在源頭上對要采集的數(shù)據(jù)進行統(tǒng)一規(guī)范,避免重復、遺漏現(xiàn)象的發(fā)生,提高后續(xù)對數(shù)據(jù)處理的效率.
針對上述問題,應對策略是建立統(tǒng)一的數(shù)據(jù)質(zhì)量評價指標體系,甚至是數(shù)據(jù)質(zhì)量評價模型[3],分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的主要影響因素,按照數(shù)據(jù)的一致性、準確性、完整性、及時性4 個關鍵特性建立數(shù)據(jù)質(zhì)量評價指標,夯實數(shù)據(jù)基礎,提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)的準確、及時、有效和可信,為數(shù)據(jù)的集成和挖掘應用提供有力保障.同時,局部數(shù)據(jù)與全局數(shù)據(jù)、非共享與共享數(shù)據(jù)應實行分級管理,切實做好數(shù)據(jù)備份、災難恢復等工作機制,實現(xiàn)實時監(jiān)控、在線考評,強化數(shù)據(jù)質(zhì)量,實現(xiàn)事前監(jiān)測、事中控制、事后評價、問題整改,提高決策分析依據(jù)的準確性和實用性.
電力大數(shù)據(jù)具有4V 特點,即Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型多)、Velocity(處理速度快)和Value(價值密度低).除了數(shù)據(jù)量龐大之外,第二個特點就是數(shù)據(jù)類型多,不但有結構化數(shù)據(jù),還有半結構化數(shù)據(jù)和非結構化的數(shù)據(jù);不但有數(shù)值、文本、圖形信息,還有音頻、視頻等信息.據(jù)IDC 公司統(tǒng)計,2011年全球數(shù)據(jù)總量的75﹪來自于非結構化數(shù)據(jù),至2012年末,非結構化數(shù)據(jù)占有比例超過75﹪.
針對如此海量、復雜的電力數(shù)據(jù)信息,應對的策略是通過構建NoSQL 數(shù)據(jù)庫[4]、HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)及實時數(shù)據(jù)庫等3 種存儲方式,從存儲結構上初步實現(xiàn)信息與應用系統(tǒng)的分類、融合、互動,做到信息、能量與業(yè)務流的高度一體化,并根據(jù)信息處理的技術要求來提高數(shù)據(jù)的存儲管理能力[5].
傳統(tǒng)的關系型數(shù)據(jù)庫具有非常好的通用性和非常高的穩(wěn)定性.毫無疑問,對于絕大多數(shù)的應用來說它都是最有效的解決方案,特別是在處理傳統(tǒng)結構化數(shù)據(jù)方面.但在處理大容量、非結構化數(shù)據(jù)上,傳統(tǒng)的關系型數(shù)據(jù)庫顯得不足.這說明單純使用傳統(tǒng)的關系型數(shù)據(jù)庫已無法適應大數(shù)據(jù)時代的要求.NoSQL 數(shù)據(jù)庫屬于非關系型、分布式數(shù)據(jù)存儲系統(tǒng),它讓數(shù)據(jù)庫具備了非關系、可水平擴展、可分布和開源等特點.NoSQL數(shù)據(jù)庫可通過集成分布式系統(tǒng)、集群、分區(qū)等技術實現(xiàn)分布式存儲,以Key -Value 數(shù)據(jù)格式、面向文檔方式以及圖數(shù)據(jù)方式存儲,具有極高的并發(fā)讀寫性能、良好的查詢性能和彈性的擴展能力.由于未來數(shù)據(jù)發(fā)展趨勢是半結構化數(shù)據(jù)(電子郵件、XML 等)和非結構化數(shù)據(jù)(文檔、圖片、視頻等)占用的比重越來越高,針對每秒數(shù)萬次的讀寫請求,NoSQL 數(shù)據(jù)庫應付自如.從結構上看,NoSQL 數(shù)據(jù)存儲系統(tǒng)有兩種架構:master -slave 結構和P2P 環(huán)形結構.Master - Slave 結構的系統(tǒng)設計簡單,可控性好,通常采用基于水平分區(qū)實現(xiàn)數(shù)據(jù)分布,將master 節(jié)點和slave 節(jié)點的功能分開,以減輕節(jié)點的功能負載,由master節(jié)點維護其管理的slave 節(jié)點,但master 中心節(jié)點易成為瓶頸.P2P 環(huán)形結構的系統(tǒng)無中心節(jié)點,各節(jié)點平等,自協(xié)調(diào)性好,擴展方便,基于Hash 分布數(shù)據(jù),負載均衡性好,但不利于支持范圍查詢,并且系統(tǒng)設計復雜,可控性較差.由于上述兩種體系結構有很大差別,它們所采用的支持技術也不同,導致了不同體系結構的系統(tǒng)所支持功能也有一定的局限性.Cloudy 為用戶提供了一個可配置采用master-slave 或DHT 體系結構的Demo 系統(tǒng).在電力系統(tǒng)中,支持數(shù)據(jù)存儲系統(tǒng)的體系結構應結合P2P 分布式結構和master -slave 集中式結構兩者的優(yōu)勢,如Chord 和master-slave 的結合、CAN 與master -slave 的結合等,側重采用面向組件的靈活可配置的體系結構,結合兩者的優(yōu)勢,綜合考慮數(shù)據(jù)存儲的全局性和局部性.
HDFS 是一個分布式文件系統(tǒng).HDFS 有高容錯性特點,可以部署在低廉的硬件上.HDFS 放寬了POSIX 的要求,這樣可實現(xiàn)以流的形式訪問文件系統(tǒng)中的數(shù)據(jù),提供高吞吐量,適合那些有著超大數(shù)據(jù)集的應用程序.在時效性要求較高的場合,可以使用實時數(shù)據(jù)庫提高對數(shù)據(jù)的處理速度.必須對系統(tǒng)中的大數(shù)據(jù)根據(jù)性能和分析處理的要求進行分類存儲:對核心業(yè)務數(shù)據(jù)使用傳統(tǒng)的并行數(shù)據(jù)倉庫系統(tǒng);對非結構化的數(shù)據(jù)采用NoSQL 數(shù)據(jù)庫系統(tǒng),對大量的歷史和非結構化數(shù)據(jù)采用HDFS 分布式文件系統(tǒng);對處理速度與時效性要求高的數(shù)據(jù)采用實時數(shù)據(jù)庫系統(tǒng).
未來智能電網(wǎng)要求貫通發(fā)電、輸電、變電、配電、用電、調(diào)度等多個環(huán)節(jié),實現(xiàn)信息的全面采集、流暢傳輸和高效處理,支撐電力流、信息流、業(yè)務流的高度一體化.目前電力系統(tǒng)中仍存在監(jiān)測監(jiān)控、能量管理、配電管理、市場運營等各類信息系統(tǒng),它們之間有些相互獨立,數(shù)據(jù)信息不能共享[6].同時,傳統(tǒng)數(shù)據(jù)分析以結構化數(shù)據(jù)分析為主,業(yè)務分析更是以被動式信息接受為主.大數(shù)據(jù)時代下,隨著數(shù)據(jù)的累積和增加,可做的分析和對比也越來越多.通過對大量數(shù)據(jù)進行分析,揭示數(shù)據(jù)之間隱藏的關系、模式和趨勢,通過結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)的融合關聯(lián)分析,實現(xiàn)文本分析、數(shù)據(jù)挖掘、圖形分析、空間分析等數(shù)據(jù)分析模式,為決策者提供不同角度、不同形式的分析判斷依據(jù).
因此,首要措施是實現(xiàn)大規(guī)模多源異構信息的整合,解決系統(tǒng)間信息孤島的現(xiàn)象,同時加強對不同信息的分類分析和處理能力.
規(guī)范采集數(shù)據(jù)的源頭,提高采集數(shù)據(jù)的質(zhì)量,實際上就解決了數(shù)據(jù)的大量冗余,保證了數(shù)據(jù)的唯一性;建立分級、分類的存儲系統(tǒng),實際上就對原數(shù)據(jù)進行了分類預處理.借助于云計算平臺,實現(xiàn)對數(shù)據(jù)的抽取、轉換,比如通過MapReduce 的編程模型對輸入的數(shù)據(jù)按行并行處理,對每個文件的每一行數(shù)據(jù)進行操作.在MapReduce 的操作函數(shù)中加入對數(shù)據(jù)格式的檢查,實現(xiàn)數(shù)據(jù)的不完整處理、不一致處理以及噪音處理,完成數(shù)據(jù)清洗,實現(xiàn)數(shù)據(jù)不一致轉換、數(shù)據(jù)粒度轉換和商務規(guī)則計算[7-9].MapReduce 中的數(shù)據(jù)轉換模塊(ETL)在沒有大型并行數(shù)據(jù)庫時也可以提高其對數(shù)據(jù)的并行訪問速度,降低系統(tǒng)操作成本和對大型數(shù)據(jù)庫的維護成本.在處理過程中,無需關注數(shù)據(jù)分散、任務分配、數(shù)據(jù)收集等子任務,可在不熟悉分布式系統(tǒng)的基礎上實現(xiàn)分布式數(shù)據(jù)處理.
面對海量的圖片、視頻等智能電網(wǎng)數(shù)據(jù),如何在有限的屏幕空間下,以一種直觀、容易理解的可視化方式展現(xiàn)給用戶,也是一項非常有挑戰(zhàn)性的工作.可視化方法已被證明為一種解決大規(guī)模數(shù)據(jù)分析的有效方法,并在實踐中得到廣泛應用.它是通過一系列復雜的算法將數(shù)據(jù)繪制成高精度、高分辨率的圖片,并提供交互工具,有效利用人的視覺系統(tǒng),并允許實時改變數(shù)據(jù)處理和算法參數(shù),對數(shù)據(jù)進行觀察和定性及定量分析,通過可視化算法的可擴展性、并行圖像合成算法、重要信息的提取和顯示等技術來實現(xiàn)對該類型數(shù)據(jù)的處理.
根據(jù)上述數(shù)據(jù)采集、存儲、處理的思想,借助于云計算平臺,可實現(xiàn)對數(shù)據(jù)的集中處理,構建該系統(tǒng)的模型如圖1所示.
圖1 數(shù)據(jù)采集、存儲、處理模型
如何駕馭大數(shù)據(jù),如何在海量數(shù)據(jù)中挖掘有價值的信息是重點.因此,企業(yè)應專注于數(shù)據(jù)中隱藏的價值,通過應用大數(shù)據(jù)技術分析,充分挖掘數(shù)據(jù)的核心價值,不斷優(yōu)化業(yè)務流程,降低管理成本,輔助企業(yè)做出科學的決策,為企業(yè)的持續(xù)創(chuàng)新與發(fā)展積蓄力量.
目前電網(wǎng)的業(yè)務數(shù)據(jù)大致分為3 類:
一是電力企業(yè)生產(chǎn)數(shù)據(jù),如發(fā)電量、電壓穩(wěn)定性等方面的數(shù)據(jù).對于電力企業(yè)的生產(chǎn)數(shù)據(jù),可以通過一定的關聯(lián)規(guī)則,采用新型挖掘技術獲取信息.這在檢測故障、恢復電網(wǎng)運行穩(wěn)定方面,以往的研究中也取得過較好的成果.如文獻[10]中,采用基于FP-T 的多層關聯(lián)規(guī)則并發(fā)挖掘技術,利用混沌與分形數(shù)據(jù)、約簡的基本原理,實現(xiàn)電力系統(tǒng)高頻暫態(tài)波形的特征識別等.文獻[11]采用智能多代理技術,借助廣域量測系統(tǒng)(WAMS),實現(xiàn)對大電力系統(tǒng)故障的快速分析、診斷,提高了廣域電網(wǎng)運行的穩(wěn)定性;同時,可利用最新數(shù)據(jù)挖掘技術,在線計算輸送功率極限,實時考慮電壓等因素對功率極限的影響,從而合理設置系統(tǒng)輸出功率,有效平衡系統(tǒng)的安全性和經(jīng)濟性.
二是電力企業(yè)運營數(shù)據(jù),如交易電價、售電量、用電客戶等方面的數(shù)據(jù).在電力營銷環(huán)節(jié),針對“大營銷”體系建設,以客戶和市場為導向,借助于客戶服務、計量檢定配送業(yè)務屬地化管理的營銷管理體系和24 小時面向客戶的營銷服務系統(tǒng),通過數(shù)據(jù)分析改善服務模式,提高營銷能力和服務質(zhì)量.同時,以分析型數(shù)據(jù)為基礎,優(yōu)化現(xiàn)有營銷組織模式,科學配置計量、收費和服務資源,構建營銷稽查數(shù)據(jù)監(jiān)控分析模型.建立各種針對營銷的系統(tǒng)性算法模型庫,發(fā)現(xiàn)數(shù)據(jù)中存在的隱藏關系,為各級決策者提供多維、直觀、全面的分析預測數(shù)據(jù).
三是電力企業(yè)管理數(shù)據(jù),如ERP、一體化平臺、協(xié)同辦公等方面的數(shù)據(jù).如能充分利用這些來自配電、用電、客戶、天氣等數(shù)據(jù),經(jīng)過一定規(guī)則的轉換、整合,按照電力交易數(shù)據(jù)、氣候數(shù)據(jù)與客戶家庭年齡結構、生活習慣等因素融合分析,了解客戶的用電行為,滿足客戶的差異化需求,通過探尋深層需求開辟新的增值業(yè)務空間,可以提供大量的高附加值服務.這些增值服務將有利于電網(wǎng)安全檢測與控制(包括大災難預警與處理、供電與電力調(diào)度決策支持和更準確的用電量預測),有利于電力企業(yè)進行精細化運營管理,實現(xiàn)更科學的需求管理.
[1]徐立,田文盛.大數(shù)據(jù)開發(fā)將引發(fā)新一輪信息革命[N].人民郵電,2012 -06 -22 (7).
[2]李勝永.掀起新一輪電力信息化高潮[N].中國電力報,2013 -12 -05(7).
[3]張磊.油田數(shù)據(jù)質(zhì)量監(jiān)督與控制模型研究[D].大慶:東北石油大學碩士論文,2010.
[4]高丹丹.基于NoSQL 的電力系統(tǒng)大數(shù)據(jù)管理[J].科技創(chuàng)新導報,2014(6):190.
[5]曹軍威,萬宇鑫,涂國煜,等.智能電網(wǎng)信息系統(tǒng)體系結構研究[J].計算機學報,2013,36(1):143 -167.
[6]宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術,2013,37(4):927 -935.
[7]曲朝陽,朱莉,張士林.基于Hadoop 的廣域測量系統(tǒng)數(shù)據(jù)處理[J].電力系統(tǒng)自動化,2013,37(4):92-96.
[8]曲朝陽,陳帥,楊帆,等.基于云計算技術的電力大數(shù)據(jù)預處理屬性約簡方法[J].電力系統(tǒng)自動化,2014,38(8):67 -71.
[9]胡牧,李勇,孔震,等.數(shù)據(jù)拓撲及其在電網(wǎng)數(shù)據(jù)處理分析中的應用[J].電力系統(tǒng)自動化,2013,37(3):83-86.
[10]何友全.數(shù)據(jù)挖掘方法及其在電力系統(tǒng)故障診斷中的應用研究[D].成都:西南交通大學博士論文,2004.
[11]陳振宇.基于MAS 的廣域故障診斷及保護系統(tǒng)的研究[D].廣州:華南理工大學博士論文,2009.