王新柱,趙杰
(江蘇瑞中數(shù)據(jù)股份有限公司,江蘇 南京 210000)
隨著智能電網(wǎng)建設(shè)的逐步推進(jìn),智能電網(wǎng)的業(yè)務(wù)應(yīng)用也在不斷地完善和升級(jí),這對(duì)于數(shù)據(jù)的接入和數(shù)據(jù)的共享提出了更高的要求。而目前電網(wǎng)量測(cè)數(shù)據(jù)從接入、存儲(chǔ)到訪問和應(yīng)用開發(fā),均未有相關(guān)標(biāo)準(zhǔn)進(jìn)行規(guī)范化要求,不利于電網(wǎng)量測(cè)數(shù)據(jù)的深化應(yīng)用和高效管理[1-2]。由于各個(gè)系統(tǒng)的接入方式、存儲(chǔ)模型和訪問模式?jīng)]有進(jìn)行規(guī)范化處理,這就導(dǎo)致了無法對(duì)數(shù)據(jù)進(jìn)行高效的利用。因此,需要對(duì)接口訪問規(guī)范和采集量測(cè)數(shù)據(jù)共享技術(shù)進(jìn)行深入研究,提出科學(xué)、有效的解決方案,為智能電網(wǎng)的構(gòu)建提供有力的技術(shù)支持[3]。
由于電網(wǎng)量測(cè)數(shù)據(jù)的種類繁多,數(shù)據(jù)來源具有異源性和異構(gòu)性,并涉及到電力系統(tǒng)的方方面面,因此在數(shù)據(jù)共享方面普遍存在以下問題:
(1)數(shù)據(jù)異構(gòu)現(xiàn)象嚴(yán)重。在智能電網(wǎng)構(gòu)建過程中,由于系統(tǒng)構(gòu)建的階段性、技術(shù)性及其他一些人為因素影響,導(dǎo)致了業(yè)務(wù)種類繁多和存儲(chǔ)方式、數(shù)據(jù)格式、數(shù)據(jù)編碼等不規(guī)范、不一致,并造成了數(shù)據(jù)無法進(jìn)行有效共享[4]。
(2)數(shù)據(jù)存儲(chǔ)效率低下。由于部署在智能電網(wǎng)中的業(yè)務(wù)系統(tǒng)功能復(fù)雜,多個(gè)業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)包括實(shí)時(shí)數(shù)據(jù)、歷史數(shù)據(jù)、日志數(shù)據(jù)、多媒體數(shù)據(jù)等多種門類的數(shù)據(jù),數(shù)據(jù)分布也比較雜散,使得數(shù)據(jù)資源不便于進(jìn)行統(tǒng)一的訪問和管理。此外,急劇增長(zhǎng)的電網(wǎng)量測(cè)數(shù)據(jù)也對(duì)數(shù)據(jù)存儲(chǔ)提出了更高的要求[5-6]。
(3)缺乏規(guī)范化、統(tǒng)一化的體系。數(shù)據(jù)共享平臺(tái)雖然是依據(jù)公共信息模型為基礎(chǔ)進(jìn)行構(gòu)建的,但是在實(shí)際的設(shè)計(jì)過程中存在數(shù)據(jù)粒度不一、存儲(chǔ)標(biāo)準(zhǔn)多樣、執(zhí)行效率低下、數(shù)據(jù)規(guī)范多樣的問題,嚴(yán)重影響了數(shù)據(jù)共享工作的順利展開和推進(jìn)[7-8]。
(4)智能電網(wǎng)的運(yùn)行中會(huì)積累海量的量測(cè)數(shù)據(jù),其中涵蓋了很多有價(jià)值的信息,如何將這些數(shù)據(jù)轉(zhuǎn)換為實(shí)際價(jià)值意義重大?;跀?shù)據(jù)共享構(gòu)建大數(shù)據(jù)平臺(tái),采用數(shù)據(jù)挖掘技術(shù)等能夠有效提取量測(cè)數(shù)據(jù)的內(nèi)在價(jià)值,將潛在的數(shù)據(jù)價(jià)值挖掘出來,發(fā)揮其重要作用。
目前,電力系統(tǒng)數(shù)據(jù)共享模式是基于統(tǒng)一的數(shù)據(jù)中心為基礎(chǔ)實(shí)現(xiàn)的,數(shù)據(jù)共享普遍采用的是傳統(tǒng)的方法進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)換,基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ),這就造成了異構(gòu)數(shù)據(jù)的不易存儲(chǔ)性、低擴(kuò)展性、低吞吐性[9]。本文基于Hadoop生態(tài)系統(tǒng)為出發(fā)點(diǎn)進(jìn)行研究,實(shí)際上是一種分布式數(shù)據(jù)處理和存儲(chǔ)方法,對(duì)電網(wǎng)量測(cè)數(shù)據(jù)進(jìn)行深度處理、挖掘,從根本上實(shí)現(xiàn)了電網(wǎng)量測(cè)數(shù)據(jù)的高度共享,實(shí)現(xiàn)了數(shù)據(jù)資源的優(yōu)化配置,便于智能電網(wǎng)對(duì)大數(shù)據(jù)進(jìn)行高效的、科學(xué)的管理。
Hadoop生態(tài)系統(tǒng)在大數(shù)據(jù)分析處理領(lǐng)域占據(jù)主流地位[10],其基本框架如圖1所示。最關(guān)鍵的部分是底層的Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce框架,此外還包括了的HBase數(shù)據(jù)庫(kù)集群和ZooKeeper集群,二者都與HDFS文件系統(tǒng)和MapReduce框架緊密關(guān)聯(lián)。Hadoop生態(tài)系統(tǒng)具有完整性、多樣性、開放性的特點(diǎn),為大數(shù)據(jù)提供了科學(xué)、有效、合理的解決方案[11]。
圖1 Hadoop生態(tài)系統(tǒng)架構(gòu)
基于本文所研究的電網(wǎng)量測(cè)數(shù)據(jù)共享平臺(tái),其在技術(shù)承載上主要包括標(biāo)準(zhǔn)體系、服務(wù)管理、接口服務(wù)和共享功能等四個(gè)模塊[12],其具體的組織架構(gòu)如圖2所示。
圖2 電網(wǎng)量測(cè)數(shù)據(jù)共享架構(gòu)
(1)標(biāo)準(zhǔn)體系:即構(gòu)建采集量測(cè)數(shù)據(jù)從接入、存儲(chǔ)到訪問和開發(fā)的一整套標(biāo)準(zhǔn)化體系,支撐采集量測(cè)數(shù)據(jù)全過程的規(guī)范管理。
(2)服務(wù)管理:包括提供采集量測(cè)數(shù)據(jù)接入和訪問接口的監(jiān)控,采集量測(cè)數(shù)據(jù)接入和訪問的安全認(rèn)證,采集量測(cè)數(shù)據(jù)相關(guān)元數(shù)據(jù)管理。
(3)接口服務(wù):即對(duì)外提供的接口服務(wù)。包括提供支撐原有海量平臺(tái)應(yīng)用遷移的UAPI接口服務(wù),提供服務(wù)化的Restful接口。
(4)共享功能:主要包括連接管理、數(shù)據(jù)接入、數(shù)據(jù)查詢、數(shù)據(jù)統(tǒng)計(jì)、模型管理和跨庫(kù)查詢等功能。
根據(jù)智能電網(wǎng)全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心建設(shè)要求,以大數(shù)據(jù)平臺(tái)作為基礎(chǔ),逐步推進(jìn)電網(wǎng)量測(cè)數(shù)據(jù)的接入,再利用大數(shù)據(jù)平臺(tái)的計(jì)算資源和存儲(chǔ)資源,為業(yè)務(wù)應(yīng)用提供采集量測(cè)數(shù)據(jù)的支撐服務(wù)。其主要的技術(shù)路線是指定完善統(tǒng)一的接口調(diào)用規(guī)范,按照Restful的架構(gòu)通過對(duì)量測(cè)數(shù)據(jù)訪問組件的服務(wù)化,實(shí)現(xiàn)外部應(yīng)用與大數(shù)據(jù)平臺(tái)HBase解耦,為外部應(yīng)用訪問大數(shù)據(jù)平臺(tái)量測(cè)數(shù)據(jù)提供統(tǒng)一的接口,同時(shí)對(duì)訪問全過程進(jìn)行監(jiān)控,總體集成方案如圖3所示。
圖3 電網(wǎng)量測(cè)數(shù)據(jù)總體集成方案
全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心電網(wǎng)量測(cè)數(shù)據(jù)共享服務(wù)構(gòu)建項(xiàng)目通過調(diào)用HBase底層API實(shí)現(xiàn)對(duì)大數(shù)據(jù)平臺(tái)采集量測(cè)數(shù)據(jù)的訪問功能,對(duì)外提供共享訪問服務(wù)并對(duì)訪問全過程進(jìn)行監(jiān)控。需與大數(shù)據(jù)平臺(tái)進(jìn)行集成。數(shù)據(jù)集成原理如圖4所示。
圖4 電網(wǎng)量測(cè)數(shù)據(jù)集成原理
采集量測(cè)數(shù)據(jù)共享服務(wù)包括后臺(tái)訪問服務(wù)部署單元和前臺(tái)訪問監(jiān)控應(yīng)用服務(wù)單元。其中,后臺(tái)訪問服務(wù)部署單元主要是對(duì)大數(shù)據(jù)平臺(tái)列式存儲(chǔ)和關(guān)系數(shù)據(jù)庫(kù)中的量測(cè)數(shù)據(jù)和檔案數(shù)據(jù)進(jìn)行關(guān)聯(lián)查詢并提供對(duì)外訪問服務(wù);前臺(tái)訪問監(jiān)控應(yīng)用服務(wù)單元主要通過界面可視化提供接口權(quán)限配置及接口訪問情況監(jiān)控等方面功能。
在采集量測(cè)數(shù)據(jù)訪問過程中,主要通過建立HBase二級(jí)索引、高效的采集量測(cè)數(shù)據(jù)分布式緩存結(jié)構(gòu)兩種技術(shù)實(shí)現(xiàn)采集量測(cè)數(shù)據(jù)的高效訪問。
(1)建立HBase的二級(jí)索引
目前采集量測(cè)數(shù)據(jù)是存到大數(shù)據(jù)平臺(tái)HBase之中的,存儲(chǔ)模型行鍵基本是通過地域、時(shí)間及量測(cè)類型等進(jìn)行組合設(shè)計(jì)。但由于HBase的一級(jí)索引就是rowkey,我們通過rowkey進(jìn)行查詢能夠支持毫秒級(jí)的快速檢索,但是對(duì)于多字段的組合查詢卻無能為力。為了滿足業(yè)務(wù)應(yīng)用對(duì)于采集量測(cè)數(shù)據(jù)多維度的查詢需求,我們通過創(chuàng)建HBase的二級(jí)索引,基于Solr的HBase多條件查詢,將HBase表中涉及條件過濾的字段和rowkey在Solr中建立索引,通過Solr的多條件查詢快速獲得符合過濾條件的rowkey值,拿到這些rowkey之后在HBase中通過指定rowkey進(jìn)行查詢將大大提高數(shù)據(jù)的訪問效率。其訪問機(jī)制如圖5所示。
圖5 電網(wǎng)量測(cè)數(shù)據(jù)訪問機(jī)制
(2)高效的采集量測(cè)數(shù)據(jù)分布式緩存結(jié)構(gòu)
結(jié)合采集量測(cè)數(shù)據(jù)批量和斷面兩種訪問方式的特點(diǎn),對(duì)采集量測(cè)最新數(shù)據(jù)通過分布式緩存服務(wù)實(shí)現(xiàn)斷面緩存結(jié)構(gòu)和批量緩存結(jié)構(gòu)的存儲(chǔ)。當(dāng)業(yè)務(wù)應(yīng)用使用查詢接口發(fā)出查詢數(shù)據(jù)請(qǐng)求,首先在分布式緩存服務(wù)中查找數(shù)據(jù),如果查找到則返回,如果未查找到,再根據(jù)接口類型在Hbase中查找對(duì)應(yīng)表查詢對(duì)應(yīng)的數(shù)據(jù),從而達(dá)到采集量測(cè)熱數(shù)據(jù)的高效訪問。其數(shù)據(jù)存儲(chǔ)架構(gòu)如圖6所示。
圖6 電網(wǎng)量測(cè)數(shù)據(jù)存儲(chǔ)架構(gòu)
在建立數(shù)據(jù)共享平臺(tái)架構(gòu)的基礎(chǔ)上,采用主從模式的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成模式,構(gòu)建基于Hadoop架構(gòu)的數(shù)據(jù)共享模型。該模型采用的是基于HDFS的元數(shù)據(jù)管理機(jī)制,對(duì)數(shù)據(jù)的操作是以數(shù)據(jù)塊為單位實(shí)現(xiàn)的,主要由元數(shù)據(jù)結(jié)點(diǎn)、次元數(shù)據(jù)結(jié)點(diǎn)、數(shù)據(jù)結(jié)點(diǎn)三部分。HDFS的元數(shù)據(jù)由數(shù)據(jù)塊屬性、從屬關(guān)系、所屬位置三項(xiàng)因素決定。HDFS對(duì)元數(shù)據(jù)的管理采用“editlog+fsimage”方式實(shí)現(xiàn),editlog負(fù)責(zé)記錄元數(shù)據(jù)的操作記錄,存儲(chǔ)為操作日志,fsimage負(fù)責(zé)對(duì)文件系統(tǒng)進(jìn)行映射。
本文在研究智能電網(wǎng)數(shù)據(jù)化建設(shè)及數(shù)據(jù)管理現(xiàn)狀的基礎(chǔ)上,對(duì)基于Hadoop生態(tài)系統(tǒng)的電網(wǎng)量測(cè)數(shù)據(jù)共享模型進(jìn)行了深入研究,重點(diǎn)包括了電網(wǎng)量測(cè)數(shù)據(jù)共享架構(gòu)、數(shù)據(jù)集成方法、數(shù)據(jù)訪問機(jī)制、元數(shù)據(jù)管理幾個(gè)部分。該共享模型對(duì)于海量的、異源異構(gòu)電網(wǎng)量測(cè)數(shù)據(jù)的深度處理和集成具有重要作用,有效解決了智能電網(wǎng)數(shù)據(jù)擴(kuò)展性低、吞吐性低、容錯(cuò)性低、安全性低的問題。結(jié)合提出的數(shù)據(jù)共享平臺(tái)總體架構(gòu),為智能電網(wǎng)實(shí)現(xiàn)數(shù)據(jù)資源的集中管理、數(shù)據(jù)信息的深度共享、數(shù)據(jù)價(jià)值深度挖掘提供了技術(shù)指導(dǎo),對(duì)智能電網(wǎng)大數(shù)據(jù)處理技術(shù)的發(fā)展進(jìn)步具有重要意義。