付盼++劉曉龍
[摘 ?要]近年來,經過SG186工程、SG-ERP建設,國家電網公司積累了豐富的數據資源,但隨著公司業(yè)務系統(tǒng)數據量的不斷增大,數據價值挖掘需求的增長,電力大數據平臺需要橫向擴張,進一步整合優(yōu)化數據資源。本文研究探討了電力大數據平臺關鍵技術研究與應用,充分分析現有數據中心平臺組件待優(yōu)化點基礎上,開展公司大數據平臺基礎組件的研究,以實現統(tǒng)一為公司各類應用建設提供海量數據采集處理、存儲處理、計算處理、分析挖掘等基礎性支撐功能。
[關鍵詞]大數據平臺;關鍵技術;數據整合;數據存儲
中圖分類號:F426.61 文獻標識碼:A 文章編號:1009-914X(2016)24-0194-01
1 引言
隨著國網公司“三集五大”管理體系和調控、運監(jiān)、客服三中心的全面建設,信息系統(tǒng)已全面融入公司生產經營管理業(yè)務的各個方面,積累了大量的結構化數據、非結構化數據、海量歷史準實時數據和地理信息數據。按照“統(tǒng)籌規(guī)劃、協(xié)同推進、統(tǒng)一平臺、規(guī)范建設”的總體策略,在充分繼承現有信息化建設成果和一期大數據平臺試點建設經驗的基礎上,2016年公司將全面推廣大數據平臺建設工作,以提升公司內外部數據資源整合處理和價值挖掘水平,促進管理提升和業(yè)務創(chuàng)新。
2 關鍵技術研究
1)關系數據與分布式存儲同步技術
關系數據庫與分布式存儲同步技術是指可以將關系數據庫的數據抽取到分布式存儲中,又可以將分布式存儲中的數據回寫到關系數據庫中。
大數據平臺中的數據通常采取分布式存儲技術進行海量數據存儲,數據主要來源于公司現有的關系數據庫、數據倉庫。在數據進行傳輸的過程當中,既需要保障數據能在關系型數據庫和分布式存儲之間無縫傳輸,又需要保障大規(guī)模數據的傳輸與流轉效率,不能影響業(yè)務系統(tǒng)正常運行。而傳統(tǒng)的ETL抽取工具一般只具有關系數據庫、文件、服務等數據源之間同步功能,缺少關系數據庫與分布式存儲之間數據同步能力。因此需要利用關系數據庫與分布式存儲同步技術實現不同存儲機制下的數據雙向同步。
2)文件采集與處理技術
數據平臺的數據來源除了傳統(tǒng)的數據中心、數據倉庫之外,更多的數據是來自之前無法有效處理的各類文件,如系統(tǒng)日志、數據交換文件、現場檢修照片、遠程監(jiān)視的視頻等。這些文件數據結構不明確、清晰,變化頻繁,數量巨大。通過大數據平臺的分布式存儲可以低成本存儲文件,也可以將其中的數據解析成結構化或半結構化的數據存儲在大數據平臺中。
3)分布式文件系統(tǒng)
分布式文件系統(tǒng)是指基于客戶機/服務器模式,文件系統(tǒng)管理的物理資源不一定直接連接在本地節(jié)點上,而是通過計算機網絡與節(jié)點相連。分布式文件系統(tǒng)表現為文件數據存儲在分散的低成本存儲介質上,對外提供一致的文件訪問接口,具有良好的容錯性。分布式文件系統(tǒng)的引入,解決了海量數據存儲的難題,其所具備的全分布式架構、數據塊粒度切分、在線擴容減容、復制備份及普通PC硬件適用性等關鍵技術,支撐了安全的PB級以上規(guī)模數據在線存儲,使安全、低成本、可任意擴容的大數據存儲成為可能。
3 平臺架構內容
大數據平臺為業(yè)務系統(tǒng)大數據應用開發(fā)、運行提供統(tǒng)一的平臺支撐。其架構內容主要包括數據整合、數據存儲、數據計算、數據分析、平臺服務、安全管理、配置管理等模塊,并提供各種形式的服務對業(yè)務應用提供支撐。架構圖如下圖1所示。
數據整合:通過數據抽取、實時數據采集、文件數據采集、數據庫實時復制等多種技術從外部數據源抽取和采集結構化數據(關系數據庫記錄)、半結構化數據(日志、郵件等)、非結構化數據(文件、視頻、音頻、網絡數據流等),同時,實現數據的實時、非實時采集。
數據存儲:負責進行大數據的存儲,針對全數據類型和多樣計算需求,以海量規(guī)模存儲、快速查詢讀取為特征,存儲來自外部數據源的各類數據,支撐數據處理層的高級應用。
數據計算:對多樣化的大數據提供流計算、批量計算、內存計算、查詢計算等計算功能,允許對分布式存儲的數據文件或內存數據進行查詢和計算。通過流計算技術提供實時分析處理的計算能力,實現實時決策、預警等。通過離線計算提供落地數據的計算能力,實現數據的批量處理。
數據分析:對多樣化的大數據進行加工、處理、分析、挖掘,產生新的業(yè)務價值,發(fā)現業(yè)務發(fā)展方向,提供業(yè)務決策依據。
平臺服務:將底層數據分析工具、組件等能力封裝后為業(yè)務系統(tǒng)的大數據應用提供平臺服務支撐,包含存儲服務、計算服務、分析服務、展現服務等。
安全:解決從大數據環(huán)境下的數據采集、存儲、分析、應用等過程中產生的諸如身份驗證、授權過程和輸入驗證等大量安全問題。由于在數據分析、挖掘過程中涉及企業(yè)各業(yè)務的核心數據,防止數據泄露,控制訪問權限等安全措施在大數據應用中尤為關鍵。
管理配置:實時監(jiān)測大數據處理全過程中的整體運行狀態(tài)、資源使用情況和接口調用情況等性能指標并對關鍵系統(tǒng)險情進行告警,支持大數據組件安裝、配置和狀態(tài)管理,可快速擴展應用功能和能力,可實時性監(jiān)控和調度任務計劃,可對大數據集群的計算資源和存儲資源進行配置和管理。
4 總結
對電力大數據平臺關鍵技術的研究與應用的成功實施,為公司各類應用建設提供海量數據采集處理、存儲處理、計算處理、分析挖掘等基礎性支撐功能,提升公司內外部數據資源整合處理和價值挖掘水平,促進管理提升和業(yè)務創(chuàng)新。