高丹丹
摘 要:在大數據時代,針對大數據管理的需求,根據大數據的特點和支持大數據管理系統的特定性,電力系統也要在數據存儲、數據訪問、數據分析等方面進行相適應地管理,針對海量數據,采用NoSQL存儲系統支持海量電力信息數據的存儲和柔性管理。其中,介紹相關前沿研究和研究挑戰(zhàn),支持電力信息數據的體系結構,基于NoSQL的大數據管理,進而為電力系統未來發(fā)展趨勢提供分析與預測。
關鍵詞:大數據 數據管理 電力系統 NoSQL
中圖分類號:TP301 文獻標識碼:A 文章編號:1674-098X(2014)02(c)-0190-01
隨著電網建設投入力度的不斷加大,數字化電網、數字化變電站等研究應用的不斷深入,電力系統面對的數據存儲規(guī)模從目前的GB級發(fā)展到TB級。隨著這種海量大數據(big data)成幾何級數集增長,傳統的關系型數據庫已無法滿足其存儲與分析處理的要求,如何高效獲取、存儲、分析、共享甚至于展示海量數據已是目前迫切需要解決的問題。
1 大數據概述
隨著云時代的來臨,針對用戶網絡數據急劇增長,提出大數據存儲系統的概念。云計算作為計算資源的底層,支撐著上層的大數據處理,實現海量數據實時交互式的查詢和分析。大數據包括結構化、半結構化和非結構化數據。據IDC公司統計,2011年全球數據總量的75%來自于非結構化數據,至2012年末,非結構化數據占有比例超過75%。大數據具有類型復雜、海量、快速和價值的特點(“4V”),其中價值是其他3V服務的目標。大數據的總體架構分為三層:據存儲,數據處理和數據分析,其中,數據存儲層解決類型復雜和海量,數據處理層解決快速和時效性要求,數據分析層解決價值,通過數據分析和挖掘實現。三層相互配合,讓大數據最終產生價值。數據存儲層中,通過關系型數據庫、NoSQL數據庫和hdfs分布式文件系統三種存儲方式實現。其中,NoSQL數據庫實現海量數據的存儲,屬于非關系型、分布式數據存儲系統,以Key-Value數據格式、面向文檔方式以及圖數據方式存儲,實現數據極高的并發(fā)讀寫性能、良好的查詢性能、彈性的擴展能力。
2 面向NoSQL的電力信息數據的海量存儲
電力系統為確保電網安全穩(wěn)定運行與及時監(jiān)控管理,需要使用多種業(yè)務子系統提供足夠的數據支持,為此,各業(yè)務系統運行期間均會產生大量能有效反映電網運行狀況的監(jiān)控數據與歷史數據,同時,各類業(yè)務子系統的二次應用系統數量不斷增多,產生數據的種類與范圍也不斷擴展,存儲數據從GB級轉向TB級。隨著PMU采集裝置的普及以及廣域動態(tài)監(jiān)測系統WAMS的發(fā)展,帶來了更加突出的海量電力信息數據存儲問題。如此海量規(guī)模的電力信息,通過常規(guī)的關系型數據庫來存儲,無論從寫入速度還是查詢效率上都將很難滿足應用的需求,因此,NoSQL數據庫的特點滿足海量數據存儲管理。NoSQL數據庫通過集成分布式系統、集群、分區(qū)等技術實現分布式存儲,能有效擴展存儲規(guī)模,實現海量數據存儲和檢索。由于,數據發(fā)展趨勢是半結構化數據(電子郵件、XML等)和非結構化數據(文檔、圖片、視頻等),針對每秒數萬次的讀寫請求,NoSQL數據庫能從容應對。
NoSQL數據存儲系統總結起來有兩種架構:master-slave結構和P2P環(huán)形結構。Master-Slave結構的系統設計簡單,可控性好,通常基于水平分區(qū)實現數據分布,將master節(jié)點和slave節(jié)點的功能分開,減輕節(jié)點的功能負載,由master節(jié)點維護其管理的slave節(jié)點,但master中心節(jié)點易成為瓶頸;P2P環(huán)形結構的系統無中心節(jié)點,各節(jié)點平等,自協調性好,擴展方便,基于Hash分布數據,負載均衡性好,但不利于支持范圍查詢,并且系統設計復雜,可控性較差。由于所述的兩種體系結構有很大差別,它們所采用的支持技術也不同,導致了不同體系結構的系統所支持功能的局限性,Cloudy為用戶提供了一個可配置采用master-slave或DHT體系結構的Demo系統。在電力系統中,支持數據存儲系統的體系結構應結合P2P分布式結構和master-slave集中式結構兩者的優(yōu)勢,如Chord和master-slave的結合、CAN與master-slave的結合等,側重采用面向組件的靈活可配置的體系結構,結合兩者的優(yōu)勢,綜合考慮數據存儲的全局性和局部性。
3 結語
大數據在2013年短短一年的時間里擴展到經濟社會的各個層面與領域,像雨后春筍般在各個行業(yè)涌現。NoSQL數據存儲系統基于大數據的各種應用需求,提出了各具特色的產品。電力系統在大數據時代,遇到空前的機遇與挑戰(zhàn),將數據存儲、數據挖掘、數據驅動等研究,應用到電力系統中,今后還面臨更多新的問題需要研究者去探討研究。
參考文獻
[1] Big data.2011.http://en.wikipedia.org/wiki/Big_data.
[2] Li GJ.The scientific value of big data research. Communications of the China Computer Federation,2012,8(9):8-15(in Chinese).
[3] NoSQL.2011.http://zh.wikipedia.org/wiki/NoSQL.
[4] Tatemura J,Po O,Hsiung WP, Hacigümü H.Partiqle:An elastic SQL engine over key-value stores.In:Proc.of the SIGMOD.New York:ACM Press,2012.
[5] Rao J,Shekita EJ,Tata S. Using Paxos to build a scalable, consistent,and highly available datastore.In:Proc.of the VLDB. 2011.
[6] 互聯網分析沙龍.海量數據來了.2011. http://www.techxue.com/portal.php?mod=view&aid=55.
[7] 李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[8] Divyakant Agrawal,Philip Bernstein,Elisa Bertino et al. Challenges and Opportunities with Big Data,Cyber Center Technical Reports,February 2012.Available at:http://docs.lib.purdue.edu/cctech/1.endprint