李賢慧, 季勝鵬, 周 升, 陳 軍, 樓 平
(1.江蘇瑞中數(shù)據(jù)股份有限公司,南京 210000;2.國網(wǎng)浙江省電力公司電力科學(xué)研究院,杭州 310014;3.國網(wǎng)浙江省電力公司湖州供電公司,浙江 湖州 313000)
基于大數(shù)據(jù)技術(shù)的實(shí)時數(shù)據(jù)中心重構(gòu)研究
李賢慧1, 季勝鵬1, 周 升2, 陳 軍3, 樓 平3
(1.江蘇瑞中數(shù)據(jù)股份有限公司,南京 210000;2.國網(wǎng)浙江省電力公司電力科學(xué)研究院,杭州 310014;3.國網(wǎng)浙江省電力公司湖州供電公司,浙江 湖州 313000)
提出了一種基于大數(shù)據(jù)技術(shù)的電網(wǎng)企業(yè)實(shí)時數(shù)據(jù)中心重構(gòu)的方法。通過對實(shí)時數(shù)據(jù)中心數(shù)據(jù)接入接口的改造,實(shí)現(xiàn)實(shí)時數(shù)據(jù)接入大數(shù)據(jù)組件HBase;通過對HBase表結(jié)構(gòu)設(shè)計(jì)及相關(guān)參數(shù)的調(diào)優(yōu),實(shí)現(xiàn)電網(wǎng)企業(yè)實(shí)時數(shù)據(jù)的標(biāo)準(zhǔn)化存儲;通過基于大數(shù)據(jù)組件設(shè)計(jì)符合實(shí)時數(shù)據(jù)中心規(guī)范的標(biāo)準(zhǔn)訪問接口UAPI,實(shí)現(xiàn)實(shí)時數(shù)據(jù)中心上層業(yè)務(wù)應(yīng)用的遷移和平滑過渡。該方法的可行性已在多個?。ㄊ校╇娏镜玫津?yàn)證。
實(shí)時數(shù)據(jù)中心;大數(shù)據(jù)技術(shù);HBase;實(shí)時數(shù)據(jù)管理;數(shù)據(jù)接入;重構(gòu)
“十二五”期間,國家電網(wǎng)(以下簡稱國網(wǎng))公司和南方電網(wǎng)公司建成了實(shí)時數(shù)據(jù)中心,實(shí)現(xiàn)了對電力生產(chǎn)運(yùn)行過程中各業(yè)務(wù)應(yīng)用生成的實(shí)時數(shù)據(jù)的按需存儲、整合、共享交換和計(jì)算加工,接入了用電信息采集、SCADA(監(jiān)控與數(shù)據(jù)采集)、電能量、輸變電在線監(jiān)測等業(yè)務(wù)系統(tǒng)的實(shí)時數(shù)據(jù),支撐了大量業(yè)務(wù)應(yīng)用的實(shí)時數(shù)據(jù)訪問服務(wù)。
隨著信息化技術(shù)的發(fā)展,大數(shù)據(jù)已成為當(dāng)前數(shù)據(jù)處理領(lǐng)域的研究熱點(diǎn)[1-3],電網(wǎng)企業(yè)也在積極探索基于大數(shù)據(jù)的電網(wǎng)數(shù)據(jù)處理、分析、挖掘和應(yīng)用[4-10]。電網(wǎng)企業(yè)依托大數(shù)據(jù)、云計(jì)算等新技術(shù),提出了構(gòu)建大數(shù)據(jù)平臺支撐數(shù)據(jù)存儲、整合、計(jì)算、分析和挖掘等戰(zhàn)略規(guī)劃。因此,原有實(shí)時數(shù)據(jù)中心有必要基于大數(shù)據(jù)技術(shù)進(jìn)行重構(gòu),通過在實(shí)時數(shù)據(jù)中心引入大數(shù)據(jù)技術(shù),可以優(yōu)化數(shù)據(jù)整合、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)能力,支撐業(yè)務(wù)應(yīng)用建設(shè)。
實(shí)時數(shù)據(jù)是國網(wǎng)公司四大數(shù)據(jù)類型之一(結(jié)構(gòu)化、非結(jié)構(gòu)化、電網(wǎng)空間和實(shí)時數(shù)據(jù)),是公司設(shè)備狀態(tài)監(jiān)測、輔助決策分析、大數(shù)據(jù)挖掘等的重要基礎(chǔ)。根據(jù)公司“十二五”規(guī)劃,實(shí)時數(shù)據(jù)中心是公司實(shí)時數(shù)據(jù)按需存儲、整合、共享交換、計(jì)算加工和標(biāo)準(zhǔn)訪問的場所,是為智能電網(wǎng)和SG-ERP各業(yè)務(wù)應(yīng)用(特別是跨專業(yè)、跨部門業(yè)務(wù)應(yīng)用)在實(shí)時數(shù)據(jù)層面提供全面支撐的信息基礎(chǔ)設(shè)施。
以國網(wǎng)實(shí)時數(shù)據(jù)中心為例,覆蓋數(shù)據(jù)處理、數(shù)據(jù)加工、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理等9大功能模塊、180余個子功能模塊。實(shí)現(xiàn)了與電網(wǎng)運(yùn)營監(jiān)測、營銷稽查監(jiān)控等21類業(yè)務(wù)應(yīng)用的集成工作,在各單位深入挖掘平臺應(yīng)用需求,開展與“量價費(fèi)損”、一體化電量與線損等核心業(yè)務(wù)應(yīng)用的集成工作,覆蓋了營銷、運(yùn)行檢修、運(yùn)行監(jiān)控、發(fā)展策劃等部門。已完成調(diào)度EMS(能量管理系統(tǒng))、用電信息采集等11類數(shù)據(jù)源的實(shí)時數(shù)據(jù)接入,平臺接入量測點(diǎn)數(shù)達(dá)17.58億,磁盤空間占用總量192.46T,月增長10.3T。國網(wǎng)實(shí)時數(shù)據(jù)中心的總體架構(gòu)見圖1。
圖1 國網(wǎng)實(shí)時數(shù)據(jù)中心架構(gòu)
根據(jù)采集監(jiān)測數(shù)據(jù)的總體規(guī)劃,基于大數(shù)據(jù)平臺技術(shù)架構(gòu)的實(shí)時數(shù)據(jù)中心組件遷移改造工作主要包括數(shù)據(jù)接入改造、數(shù)據(jù)存儲、應(yīng)用查詢與共享、歷史數(shù)據(jù)遷移、實(shí)時數(shù)據(jù)管理、業(yè)務(wù)應(yīng)用遷移,最終通過相關(guān)大數(shù)據(jù)技術(shù)的應(yīng)用,實(shí)現(xiàn)采集監(jiān)測數(shù)據(jù)的接入,提升采集系統(tǒng)的處理能力、海量存儲能力,并支持后續(xù)對采集監(jiān)測數(shù)據(jù)的離線分析應(yīng)用,滿足業(yè)務(wù)應(yīng)用上對各類數(shù)據(jù)的深度應(yīng)用和分析挖掘需求。重構(gòu)總體架構(gòu)見圖2。
圖2 重構(gòu)總體架構(gòu)
(1)數(shù)據(jù)接入改造。
對原實(shí)時數(shù)據(jù)中心數(shù)據(jù)接入組件進(jìn)行改造,在支持實(shí)時數(shù)據(jù)中心數(shù)據(jù)接入的同時實(shí)現(xiàn)將數(shù)據(jù)接入大數(shù)據(jù)平臺,完成數(shù)據(jù)接入接口改造,保障數(shù)據(jù)質(zhì)量與有效性。
(2)數(shù)據(jù)存儲。
實(shí)時數(shù)據(jù)的訪問對時效性要求高,具有斷面訪問等特點(diǎn),需針對各類實(shí)時數(shù)據(jù)的使用場景進(jìn)行綜合分析,設(shè)計(jì)合理的存儲模型,以支撐實(shí)時數(shù)據(jù)的高效查詢與快速存儲。
(3)查詢與共享。
為使實(shí)時數(shù)據(jù)中心業(yè)務(wù)應(yīng)用能平滑過渡到大數(shù)據(jù)平臺,也為了簡化實(shí)時數(shù)據(jù)的訪問復(fù)雜度,開展基于大數(shù)據(jù)平臺接口封裝UAPI接口,實(shí)現(xiàn)新老系統(tǒng)的平滑過渡。
(4)歷史數(shù)據(jù)遷移。
設(shè)計(jì)研發(fā)歷史數(shù)據(jù)遷移工具,完成各業(yè)務(wù)系統(tǒng)存量實(shí)時數(shù)據(jù)的遷移,數(shù)據(jù)可從實(shí)時數(shù)據(jù)中心遷移到大數(shù)據(jù)平臺,也可從原業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫遷移到大數(shù)據(jù)平臺。
(5)實(shí)時數(shù)據(jù)管理。
對原有實(shí)時數(shù)據(jù)中心實(shí)時數(shù)據(jù)管理模塊進(jìn)行重構(gòu)和遷移,完成可視化實(shí)時數(shù)據(jù)管理工具、數(shù)據(jù)質(zhì)量、訪問服務(wù)、計(jì)算服務(wù)等模塊的遷移和重構(gòu)。對接入的各類數(shù)據(jù),在進(jìn)入大數(shù)據(jù)平臺之前,需進(jìn)行數(shù)據(jù)的預(yù)處理(即清洗和規(guī)范),對原數(shù)據(jù)中的噪聲、數(shù)據(jù)格式不規(guī)整等問題進(jìn)行處理;同時,數(shù)據(jù)的存儲模型非常關(guān)鍵,在大數(shù)據(jù)應(yīng)用過程中,將數(shù)據(jù)處理成需要的存儲格式。
(6)業(yè)務(wù)應(yīng)用遷移。
對原有基于實(shí)時數(shù)據(jù)中心統(tǒng)推、自建、個性化二次開發(fā)等業(yè)務(wù)應(yīng)用進(jìn)行遷移改造,實(shí)現(xiàn)基于大數(shù)據(jù)平臺的遷移和重構(gòu),保證原有業(yè)務(wù)應(yīng)用的連續(xù)性和平穩(wěn)過渡。
3.1 數(shù)據(jù)接入改造
分析域采集監(jiān)測數(shù)據(jù)需要接入的數(shù)據(jù)來自于現(xiàn)有采集監(jiān)測類業(yè)務(wù)系統(tǒng),數(shù)據(jù)接入面臨系統(tǒng)數(shù)量多、開發(fā)廠商眾多、數(shù)據(jù)格式不統(tǒng)一、接口形式多樣等困難,因而數(shù)據(jù)接入的工作量巨大,綜合分析各類數(shù)據(jù)源,認(rèn)為有2種數(shù)據(jù)接入方式(見圖3):第1種,重構(gòu)原實(shí)時數(shù)據(jù)中心的接入組件,將其提升為分析域的接入模塊,通過重構(gòu)后的模塊進(jìn)行“一發(fā)雙收”,為全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心分析域提供數(shù)據(jù)。第2種,研發(fā)全新的數(shù)據(jù)接入模塊,與各業(yè)務(wù)系統(tǒng)進(jìn)行對接,將數(shù)據(jù)接入至分析域數(shù)據(jù)中心。
當(dāng)前,信息通信部門主要通過實(shí)時數(shù)據(jù)中心接入相應(yīng)的采集監(jiān)測數(shù)據(jù),其拓?fù)浣Y(jié)構(gòu)見圖4。
改造實(shí)時數(shù)據(jù)中心接入組件和重新建立數(shù)據(jù)接入組件的接入拓?fù)湟妶D5。
圖3 數(shù)據(jù)采集接入2種方式
圖4 現(xiàn)有實(shí)時數(shù)據(jù)中心接入組件
圖5 改造后實(shí)時數(shù)據(jù)中心接入組件
重構(gòu)實(shí)時數(shù)據(jù)中心接入組件的方式主要優(yōu)點(diǎn)如下:
(1)原有的各業(yè)務(wù)系統(tǒng)無需感知,在數(shù)據(jù)需求不發(fā)生變化的情況下不需要做任何變化,避免了與各業(yè)務(wù)系統(tǒng)再進(jìn)行一次溝通、協(xié)調(diào)接口的工作,并避免了各業(yè)務(wù)系統(tǒng)端的開發(fā)工作。
(2)不會增加原有各業(yè)務(wù)系統(tǒng)的壓力。
(3)接入組件屏蔽了各種復(fù)雜性,實(shí)時數(shù)據(jù)中心和大數(shù)據(jù)平臺均無需感知前端對接接口的差異性,有利于以后的擴(kuò)展。
(4)極大縮短了數(shù)據(jù)接入的工期,降低了建設(shè)代價。
重構(gòu)后的數(shù)據(jù)采集組件總體結(jié)構(gòu)見圖6。
各系統(tǒng)產(chǎn)生的原始數(shù)據(jù)直接來自于源系統(tǒng)存儲模式,在進(jìn)入大數(shù)據(jù)平臺列式存儲前需進(jìn)行轉(zhuǎn)換,進(jìn)行必要的規(guī)范化處理,否則信息無法接入大數(shù)據(jù)平臺。其次業(yè)務(wù)應(yīng)用可能產(chǎn)生增量計(jì)算需求,需要在入庫前進(jìn)行流式增量計(jì)算(見圖7)。
數(shù)據(jù)處理的整個架構(gòu)按照管道過濾器的方式來進(jìn)行設(shè)計(jì),數(shù)據(jù)在各個管道中進(jìn)行流轉(zhuǎn),每個處理過程為一個線程任務(wù),所有過程以流水線方式串聯(lián)起來形成完整的處理過程。每一個過濾器均為一個處理單元,設(shè)置為一個處理規(guī)則,最終,將數(shù)據(jù)處理成目標(biāo)格式或計(jì)算結(jié)果。
圖6 重構(gòu)后的數(shù)據(jù)接入組件
圖7 增量計(jì)算示意
3.2 數(shù)據(jù)存儲
數(shù)據(jù)存儲環(huán)節(jié)實(shí)現(xiàn)對分析域采集監(jiān)測數(shù)據(jù)的分布式存儲(見圖8)。按照國網(wǎng)公司大數(shù)據(jù)平臺的統(tǒng)一規(guī)劃,大數(shù)據(jù)平臺主要有分布式列式數(shù)據(jù)庫、分布式內(nèi)存數(shù)據(jù)庫、分布式數(shù)據(jù)倉庫等,原則上,建議采集監(jiān)測數(shù)據(jù)存入列式數(shù)據(jù)庫中,并將近期數(shù)據(jù)(當(dāng)前半天或者一天內(nèi))置于緩存中,便于對于實(shí)時性要求較高的應(yīng)用進(jìn)行處理。
圖8 實(shí)時數(shù)據(jù)存儲示意
采集監(jiān)測數(shù)據(jù)量大,數(shù)據(jù)有其固定格式,查詢模式以批量查詢和斷面查詢?yōu)橹?,在?shù)據(jù)讀寫方面,寫入數(shù)據(jù)要求很高的吞吐量,讀取數(shù)據(jù)強(qiáng)調(diào)低時延。為滿足這些存儲需求,數(shù)據(jù)存儲方面首先在設(shè)計(jì)上需要有緩存機(jī)制,提高訪問效率;其次系統(tǒng)要具備良好的高可擴(kuò)展性以應(yīng)對數(shù)據(jù)的不斷增長;同時還需要關(guān)系型數(shù)據(jù)庫存儲經(jīng)流計(jì)算或離線計(jì)算程序計(jì)算得出的一些統(tǒng)計(jì)信息。
(1)數(shù)據(jù)存儲策略。
為了提高數(shù)據(jù)訪問效率,將近期數(shù)據(jù)存儲在數(shù)據(jù)緩存中,將長期數(shù)據(jù)存儲在“列式數(shù)據(jù)庫+分布式文件系統(tǒng)”中。而關(guān)系型數(shù)據(jù)庫系統(tǒng)主要存儲大數(shù)據(jù)平臺流計(jì)算或離線計(jì)算過程中需要保存的計(jì)算結(jié)果集。
(2)采集監(jiān)測數(shù)據(jù)存儲模型。
對于分布式緩存系統(tǒng),需要設(shè)計(jì)其鍵值模型,對于一般的采集監(jiān)測類數(shù)據(jù),以“測點(diǎn)編號+時間戳”為RowKey前綴,以量測值為Value將近期數(shù)據(jù)寫入緩存。應(yīng)用系統(tǒng)進(jìn)行數(shù)據(jù)查詢時,首先查看數(shù)據(jù)是否存在于分布式緩存中,如找到則返回,反之從列式存儲中進(jìn)一步查詢獲取。
采集監(jiān)測數(shù)據(jù)進(jìn)入系統(tǒng)后,最終存儲在“分布式列式數(shù)據(jù)庫+分布式文件系統(tǒng)”中。考慮到分布式列式數(shù)據(jù)庫原始接口寫入吞吐量并不理想,為進(jìn)一步提高數(shù)據(jù)加載效率,通過分布式文件系統(tǒng)Batch Load方式將數(shù)據(jù)循環(huán)導(dǎo)入分布式列式數(shù)據(jù)庫中。分布式列式數(shù)據(jù)庫中需結(jié)合應(yīng)用場景對數(shù)據(jù)存儲模型進(jìn)行設(shè)計(jì),比如批量查詢業(yè)務(wù)場景,可以選擇以“測點(diǎn)編號+時間戳”為Rowkey前綴,列族為t,以時間戳后綴為列,以量測值為列對應(yīng)的值。需要指出的是,當(dāng)前的分布式列式數(shù)據(jù)庫中存儲模型的設(shè)計(jì)方法都在假設(shè)業(yè)務(wù)查詢場景存在“二八”現(xiàn)象,即認(rèn)為業(yè)務(wù)應(yīng)用要么以批量查詢?yōu)橹?,要么就以斷面查詢?yōu)橹?,因此如果遇到一些批量查詢和斷面查詢都很頻繁的業(yè)務(wù)應(yīng)用,則需要重新調(diào)整存儲模型設(shè)計(jì)。
3.3 實(shí)時數(shù)據(jù)管理
基于大數(shù)據(jù)平臺總體技術(shù)架構(gòu),借鑒實(shí)時數(shù)據(jù)中心的研發(fā)思路,研發(fā)實(shí)時數(shù)據(jù)管理模塊(見圖9),支持對測點(diǎn)描述數(shù)據(jù)、實(shí)時數(shù)據(jù)的管理。具體包括:
(1)研發(fā)實(shí)時數(shù)據(jù)可視化管理模塊,提供在大數(shù)據(jù)平臺環(huán)境下支持測點(diǎn)數(shù)據(jù)的可視化增加、刪除、修改、查詢功能。
(2)研發(fā)測點(diǎn)數(shù)據(jù)質(zhì)量模塊,實(shí)現(xiàn)基于大數(shù)據(jù)平臺的內(nèi)部數(shù)據(jù)整理與數(shù)據(jù)處理;研發(fā)實(shí)時數(shù)據(jù)補(bǔ)招模塊,在大數(shù)據(jù)平臺環(huán)境下支持對量測數(shù)據(jù)根據(jù)指定時間段、指定數(shù)據(jù)源的補(bǔ)招等。
(3)實(shí)現(xiàn)實(shí)時數(shù)據(jù)訪問,提供對外數(shù)據(jù)訪問服務(wù)、服務(wù)內(nèi)容配置、數(shù)據(jù)訪問監(jiān)測與控制管理及訪問異常處理。通過UAPI、Webservice等方式對外提供實(shí)時數(shù)據(jù)的專用訪問服務(wù)。
(4)基于大數(shù)據(jù)平臺提供針對業(yè)務(wù)的特定計(jì)算配置功能,為應(yīng)用提供數(shù)據(jù)側(cè)計(jì)算服務(wù)。
圖9 實(shí)時數(shù)據(jù)管理
3.4 應(yīng)用查詢與共享
數(shù)據(jù)應(yīng)用與共享環(huán)節(jié)主要功能見圖10,可以實(shí)現(xiàn):已建采集監(jiān)測數(shù)據(jù)應(yīng)用系統(tǒng)遷移至大數(shù)據(jù)平臺;采集數(shù)據(jù)對外的統(tǒng)一共享服務(wù)。
圖10 應(yīng)用查詢示意
(1)“搬數(shù)據(jù)”到“搬計(jì)算“的應(yīng)用改造。
基于大數(shù)據(jù)平臺,利用分布式列式數(shù)據(jù)庫存儲采集監(jiān)測數(shù)據(jù),同時可通過分布式計(jì)算,結(jié)合其他業(yè)務(wù)數(shù)據(jù),支撐對采集監(jiān)測類數(shù)據(jù)的計(jì)算分析,實(shí)現(xiàn)從“搬數(shù)據(jù)”到“搬計(jì)算”的應(yīng)用改造,即原則上不對數(shù)據(jù)進(jìn)行大規(guī)模搬運(yùn),而是將業(yè)務(wù)應(yīng)用的數(shù)據(jù)分析計(jì)算在大數(shù)據(jù)平臺中實(shí)現(xiàn),返回計(jì)算結(jié)果給業(yè)務(wù)系統(tǒng),以減少采集監(jiān)測業(yè)務(wù)數(shù)據(jù)庫壓力,提升用采數(shù)據(jù)分析應(yīng)用的構(gòu)建效率。
(2)采集數(shù)據(jù)共享服務(wù)構(gòu)建。
針對部分采集監(jiān)測數(shù)據(jù)的查詢類操作或必要的子集數(shù)據(jù)共享,提供符合國網(wǎng)實(shí)時數(shù)據(jù)訪問標(biāo)準(zhǔn)的UAPI接口、大數(shù)據(jù)平臺通用的HBase-API接口、類SQL的JDBC數(shù)據(jù)訪問接口,支撐斷面查詢、批量查詢和特定邏輯的查詢。其中,通過UAPI服務(wù),實(shí)現(xiàn)外部業(yè)務(wù)系統(tǒng)對列式數(shù)據(jù)庫、數(shù)據(jù)緩存系統(tǒng)的統(tǒng)一訪問,同時實(shí)現(xiàn)外部系統(tǒng)與列式數(shù)據(jù)庫/數(shù)據(jù)緩存系統(tǒng)的解耦。通過SQL服務(wù),實(shí)現(xiàn)外部業(yè)務(wù)系統(tǒng)對內(nèi)部列式數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、分布式數(shù)據(jù)倉庫的統(tǒng)一邏輯訪問,可對測點(diǎn)數(shù)據(jù)、關(guān)系型數(shù)據(jù)進(jìn)行統(tǒng)一訪問,降低業(yè)務(wù)系統(tǒng)根據(jù)業(yè)務(wù)模型訪問實(shí)時數(shù)據(jù)的復(fù)雜度。
4.1 歷史數(shù)據(jù)遷移
目前,各?。ㄊ校┕緦?shí)時數(shù)據(jù)中心存儲的實(shí)時數(shù)據(jù)從數(shù)TB到數(shù)十TB不等,根據(jù)項(xiàng)目要求,需要將歷史數(shù)據(jù)遷移入大數(shù)據(jù)平臺。
目前,已接入實(shí)時數(shù)據(jù)中心的量測類系統(tǒng)多達(dá)11個,數(shù)據(jù)量大小不一,完成一次歷史數(shù)據(jù)遷移用時從數(shù)小時到數(shù)天不等,且不同系統(tǒng)歷史數(shù)據(jù)導(dǎo)入導(dǎo)出形式各不相同,需要針對各系統(tǒng)開發(fā)專用的歷史數(shù)據(jù)遷移工具。
4.2 業(yè)務(wù)應(yīng)用遷移
全網(wǎng)共有40多個基于實(shí)時數(shù)據(jù)中心的業(yè)務(wù)應(yīng)用,各省(市)公司情況不盡相同,隨著各公司分析域建設(shè)的推進(jìn),實(shí)時數(shù)據(jù)將逐步遷入大數(shù)據(jù)平臺,同步對原有基于實(shí)時數(shù)據(jù)中心統(tǒng)推、自建、個性化二次開發(fā)等業(yè)務(wù)應(yīng)用進(jìn)行遷移改造,實(shí)現(xiàn)基于大數(shù)據(jù)平臺的遷移和重構(gòu),主要包括:
(1)實(shí)時數(shù)據(jù)中心原有業(yè)務(wù)應(yīng)用的元數(shù)據(jù)存儲于關(guān)系型數(shù)據(jù)庫,在實(shí)現(xiàn)元數(shù)據(jù)遷移到大數(shù)據(jù)平臺關(guān)系庫基礎(chǔ)上,通過關(guān)系型數(shù)據(jù)與業(yè)務(wù)應(yīng)用的雙向調(diào)整,實(shí)現(xiàn)兩者的無縫融合。
(2)保證基于實(shí)時數(shù)據(jù)中心的訪問接口標(biāo)準(zhǔn)和規(guī)范基本不變,在實(shí)現(xiàn)基于大數(shù)據(jù)平臺標(biāo)準(zhǔn)訪問接口的基礎(chǔ)上,對原有業(yè)務(wù)應(yīng)用進(jìn)行適應(yīng)性調(diào)整,保證原有業(yè)務(wù)應(yīng)用的連續(xù)性和平穩(wěn)過渡。
(3)通過原有實(shí)時數(shù)據(jù)中心計(jì)算服務(wù)、訪問服務(wù)等模塊的重構(gòu),基于大數(shù)據(jù)平臺架構(gòu)特點(diǎn),實(shí)現(xiàn)原有業(yè)務(wù)應(yīng)用的改造、調(diào)整,保證滿足原有業(yè)務(wù)應(yīng)用的功能與性能要求。
提出一種基于大數(shù)據(jù)技術(shù)的電網(wǎng)企業(yè)實(shí)時數(shù)據(jù)中心重構(gòu)整體解決方案。通過對實(shí)時數(shù)據(jù)中心接入接口的改造,實(shí)現(xiàn)實(shí)時數(shù)據(jù)接入HBase;通過對HBase表結(jié)構(gòu)的合理設(shè)計(jì)和參數(shù)的調(diào)優(yōu),支撐實(shí)時數(shù)據(jù)的快速存取;通過對實(shí)時數(shù)據(jù)中心UAPI基于大數(shù)據(jù)技術(shù)的重構(gòu),支撐未來應(yīng)用的平穩(wěn)過渡。重構(gòu)后,HBase支撐了電網(wǎng)企業(yè)實(shí)時數(shù)據(jù)的集中存儲與訪問。
HBase作為通用的K-V(主存健值)數(shù)據(jù)庫,其對具體場景的適應(yīng)能力還需進(jìn)一步優(yōu)化,具體包括:
(1)K-V數(shù)據(jù)模型要經(jīng)過大量優(yōu)化設(shè)計(jì)才能滿足“測點(diǎn)ID,時間戳,值”采集數(shù)據(jù)模型,并且在性能上要低于實(shí)時數(shù)據(jù)庫。
(2)對于時序采集數(shù)據(jù)復(fù)雜應(yīng)用場景,如采集頻率不同、周期性采樣或變化采樣、斷面查詢和曲線查詢等,簡單的HBase難以支撐。
(3)HBase在外部大量數(shù)據(jù)快速寫入情況下會自動觸發(fā)HRegion分拆過程,導(dǎo)致數(shù)據(jù)接入速度波動明顯,高峰時時效性下降。
[1]A MCAFEE,E BRYNJOLFSSON.Big data∶the management revolution[J].Harvard Business Review,2012,90(10)∶60-66.
[2]V MAYER-SCHNBERGER,K CUKIER.Big Data∶A Revolution That Will Transform How We Live,Work,and Think[J].Information,2014,17(1)∶181-183.
[3]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013,25(s1)∶142-146.
[4]王繼業(yè).大數(shù)據(jù):電網(wǎng)企業(yè)創(chuàng)新發(fā)展驅(qū)動力[J].國家電網(wǎng),2015(12)∶58-61.
[5]張東霞,苗新,劉麗平,等.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機(jī)工程學(xué)報,2015,35(1)∶2-12.
[6]朱朝陽,王繼業(yè),鄧春宇.電力大數(shù)據(jù)平臺研究與設(shè)計(jì)[J].電力信息與通信技術(shù),2015,13(6)∶1-7.
[7]朱艷偉,黃森炯,蔡一駿,等,電網(wǎng)大數(shù)據(jù)時代調(diào)控管理應(yīng)對策略研究[J].浙江電力,2015,34(7)∶30-32.
[8]賀琛,王彥波,王云燁.基于電力通信傳輸網(wǎng)大數(shù)據(jù)的溫度監(jiān)測系統(tǒng)研究[J].浙江電力,2016,35(7)∶65-68.
[9]潘堅(jiān)躍,趙海,施婧.多系統(tǒng)監(jiān)測與大數(shù)據(jù)分析在供電搶修服務(wù)中的應(yīng)用[J].浙江電力,2015,34(8)∶59-61.
[10]王遠(yuǎn),陶燁,蔣英明,等.智能電網(wǎng)時序大數(shù)據(jù)實(shí)時處理系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2015,35(s2)∶88-92.
(本文編輯:方明霞)
Research on Real-time Data Center Reconstruction Technology Based on Big Data
LI Xianhui1,JI Shengpeng1,ZHOU Sheng2,CHEN Jun3,LOU Ping3
(1.China Realtime Database Co.,Ltd.,Nanjing 210000,China;2.State Grid Zhejiang Electric Power Reseach Institue,Hangzhou 310014,China;3.State Grid Huzhou Power Supply Company,Huzhou China)
This paper presents a new method for the reconstruction of the real time data center of power grid enterprises based on big data technology.Through data interface transformation of real-time data center,realtime data can have access to HBase;By optimization of HBase table structure design and parameters,realtime data storage standardization of grid enterprises is implemented;via big data based standard access interface UAPI with its component design complying with norms of real-time data center,upper-level services of real-time data center can be migrated and smoothly transited.This method is verified in many province(prefecture)level electric power companies.
real-time data center;big data technology;HBase;real-time data management;data access;reconstruction
TP311.13
:B
:1007-1881(2017)03-0075-06
2016-10-24
李賢慧(1983),男,工程師,主要從事實(shí)時數(shù)據(jù)庫、大數(shù)據(jù)平臺、MPP數(shù)據(jù)庫研究。