基于分布式技術(shù)的用電信息采集主站系統(tǒng)設(shè)計(jì)與應(yīng)用

2021-12-12 07:57:58閆海峰唐偉寧覃華勤馬先芹

電力系統(tǒng)自動(dòng)化 2021年23期

錢奇，閆海峰，唐偉寧，覃華勤，馬先芹

（1. 南瑞集團(tuán)有限公司（國網(wǎng)電力科學(xué)研究院有限公司）,江蘇省南京市 211106；2. 北京科東電力控制系統(tǒng)有限責(zé)任公司,北京市 100192；3. 國網(wǎng)吉林省電力有限公司電力科學(xué)研究院,吉林省長(zhǎng)春市 130022）

0 引言

中國“十四五”規(guī)劃建議提出,加快數(shù)字化發(fā)展,并對(duì)建設(shè)智慧能源系統(tǒng)、提升新能源消納和存儲(chǔ)能力、加快電力市場(chǎng)改革提出了明確要求［1］。國家電網(wǎng)有限公司2020 年6 月15 日提出建設(shè)“客戶側(cè)數(shù)字新基建”重點(diǎn)任務(wù),將分布式數(shù)據(jù)中心作為核心基礎(chǔ)平臺(tái),以提升數(shù)字化連接感知和計(jì)算處理能力,分布式數(shù)據(jù)中心呈現(xiàn)出大型化、規(guī)模化的發(fā)展趨勢(shì)［2-3］。隨著電力體制改革、能源互聯(lián)網(wǎng)建設(shè)工作的深入開展［4-5］,分布式能源、儲(chǔ)能、電動(dòng)汽車等新設(shè)施的規(guī)?；尤耄?］以及電力客戶便捷用電和智慧用能需求的快速增長(zhǎng),使得計(jì)量專業(yè)的業(yè)務(wù)邊界、業(yè)務(wù)內(nèi)容、業(yè)務(wù)形式發(fā)生了新的變化,電力用戶用電信息采集系統(tǒng)（以下簡(jiǎn)稱“采集系統(tǒng)”）的定位已逐漸從單一抄表向設(shè)備狀態(tài)感知、能源雙向互動(dòng)、負(fù)荷柔性調(diào)控、數(shù)據(jù)實(shí)時(shí)共享等方面延伸。隨著高速電力線載波［7］（HPLC）技術(shù)在低壓集中采集的推廣應(yīng)用,采集數(shù)據(jù)項(xiàng)由電能示值、需量擴(kuò)增到了電壓、電流、功率因數(shù)、功率及事件等,采集頻次從每日凍結(jié)1 次數(shù)據(jù)提升到了每15～60 min 采集1 次甚至每5 min 采集1 次數(shù)據(jù),使得采集數(shù)據(jù)總量達(dá)到PB 級(jí)別［8］,呈現(xiàn)了爆發(fā)式增長(zhǎng),對(duì)數(shù)據(jù)的采集質(zhì)效、信息的存儲(chǔ)分析與指令的快速響應(yīng)提出了更高要求。

采集系統(tǒng)由主站系統(tǒng)、通信信道、采集終端、智能電表等組成,主站系統(tǒng)是采集系統(tǒng)的關(guān)鍵部分,主要實(shí)現(xiàn)數(shù)據(jù)搜集、信息處理融合、在線監(jiān)控和應(yīng)用擴(kuò)展等功能［9-11］。傳統(tǒng)主站系統(tǒng)對(duì)集中式架構(gòu)存在依賴性,系統(tǒng)性能提升主要依靠增加CPU、內(nèi)存、磁盤等方式,可擴(kuò)展空間有限,在實(shí)時(shí)用電數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算方面,暴露出了明顯的性能瓶頸,已無法滿足高頻全量集中采集需求［12-13］,亟須優(yōu)化主站系統(tǒng)架構(gòu)和功能設(shè)計(jì),全面支撐配電網(wǎng)設(shè)備全面感知、需求側(cè)實(shí)時(shí)響應(yīng)、負(fù)荷智能調(diào)控、用戶友好互動(dòng)等功能,以滿足服務(wù)政府的外需、應(yīng)對(duì)公司企業(yè)數(shù)字化轉(zhuǎn)型的內(nèi)需、引導(dǎo)用戶用能的軟需、解決新興營銷業(yè)務(wù)缺乏支撐手段的剛需。

針對(duì)當(dāng)前能源互聯(lián)網(wǎng)形勢(shì)下主站系統(tǒng)面臨的問題,文獻(xiàn)［14］提出了一種基于云計(jì)算技術(shù)的主站系統(tǒng),通過在存儲(chǔ)系統(tǒng)、并行處理機(jī)制方面應(yīng)用云計(jì)算技術(shù),以增強(qiáng)主站系統(tǒng)在海量數(shù)據(jù)入庫、查詢、計(jì)算方面的處理能力。文獻(xiàn)［15］提出一種應(yīng)用Apache Kafka 分布式消息隊(duì)列與HBase 列式數(shù)據(jù)庫技術(shù)相結(jié)合優(yōu)化主站系統(tǒng)的方法,提升了海量數(shù)據(jù)的入庫性能及數(shù)據(jù)查詢效率。文獻(xiàn)［16］采用流式計(jì)算、微服務(wù)、分布式并行計(jì)算等技術(shù)改造原有集中式架構(gòu),構(gòu)建了云計(jì)算平臺(tái)上的分布式架構(gòu)用電信息采集系統(tǒng)。這些技術(shù)方法對(duì)于解決當(dāng)前在運(yùn)主站系統(tǒng)所面臨的大規(guī)模采集數(shù)據(jù)入庫或計(jì)算問題,具有一定優(yōu)化能力,但因尚未綜合考慮通信、服務(wù)器、終端設(shè)備、應(yīng)用擴(kuò)展等影響因素,難以滿足大規(guī)模用戶采集的實(shí)際工程應(yīng)用需求。

本文從實(shí)際工程應(yīng)用角度出發(fā),設(shè)計(jì)了一套基于分布式技術(shù)的高性能、高可用采集主站系統(tǒng)架構(gòu),提出了解決海量終端并發(fā)的異步網(wǎng)絡(luò)通信模型,研究了分布式任務(wù)調(diào)度算法,進(jìn)行了分布式存儲(chǔ)體系設(shè)計(jì)改造,引進(jìn)了分布式并行計(jì)算方法,整體提升了主站系統(tǒng)采集能力、數(shù)據(jù)存儲(chǔ)能力及分析處理能力。最后,通過工程實(shí)例分析驗(yàn)證了系統(tǒng)的實(shí)用性,滿足了新一代采集系統(tǒng)支撐用戶靈活、便捷、高效、實(shí)時(shí)的用能的需求。

1 總體架構(gòu)

分布式架構(gòu)被廣泛應(yīng)用在輸配電領(lǐng)域,作為一種專門針對(duì)海量數(shù)據(jù)場(chǎng)景的有效解決方案［17-19］,由部署在不同服務(wù)器上實(shí)現(xiàn)不同功能的節(jié)點(diǎn)組成,各節(jié)點(diǎn)之間相互連接、相互協(xié)同從而實(shí)現(xiàn)整個(gè)系統(tǒng)的高效處理,適用于能源互聯(lián)網(wǎng)形勢(shì)下的新一代采集主站系統(tǒng)建設(shè)。本文基于分布式技術(shù)構(gòu)建了高并發(fā)、低延時(shí)、易擴(kuò)展、高穩(wěn)定性的采集主站系統(tǒng)分布式架構(gòu),如圖1 所示。

圖1 分布式主站系統(tǒng)架構(gòu)Fig.1 Architecture of distributed master station system

采集主站系統(tǒng)分布式架構(gòu)方案在4 個(gè)層次完成設(shè)計(jì),分別為采集通信層、任務(wù)調(diào)度層、分布式存儲(chǔ)層及并行計(jì)算層。采集通信層通過構(gòu)建分布式異步網(wǎng)絡(luò)通信完成海量終端高并發(fā)接入及報(bào)文分布式處理,任務(wù)調(diào)度層通過分布式任務(wù)調(diào)度實(shí)現(xiàn)采集任務(wù)的分片執(zhí)行,分布式存儲(chǔ)層基于混合存儲(chǔ)策略實(shí)現(xiàn)數(shù)據(jù)按類型、時(shí)間、用途的綜合存儲(chǔ),并行計(jì)算層通過引入高效計(jì)算框架提升采集數(shù)據(jù)的實(shí)時(shí)分析能力。

2 分層設(shè)計(jì)

2.1 采集通信層

采集通信層整體負(fù)責(zé)與采集終端及任務(wù)調(diào)度層的通信,通過通信調(diào)度集群、通信前置集群和采集前置集群構(gòu)建分布式前置采集架構(gòu),實(shí)現(xiàn)采集任務(wù)報(bào)文的組裝下發(fā)及終端采集信息報(bào)文的識(shí)別處理。主站系統(tǒng)分布式前置采集架構(gòu)如圖2 所示。

圖2 分布式前置采集架構(gòu)Fig.2 Architecture of distributed pre-acquisition

采集終端經(jīng)過通用分組無線業(yè)務(wù)（GPRS）、碼分多址（CDMA）、光纖、230 MHz 無線專網(wǎng)等網(wǎng)絡(luò)渠道與采集通信層進(jìn)行交互。為降低數(shù)據(jù)采集在通信過程的邏輯處理復(fù)雜度,基于通信調(diào)度構(gòu)建分布式異步網(wǎng)絡(luò)通信模型,實(shí)現(xiàn)通信層協(xié)同工作,降低采集通信間的耦合性,同時(shí)提升通信交互整體效率?；谕ㄐ耪{(diào)度的異步網(wǎng)絡(luò)通信模型如圖3 所示。

圖3 異步網(wǎng)絡(luò)通信模型Fig.3 Asynchronous network communication model

通信調(diào)度集群是實(shí)現(xiàn)通信層整體異步網(wǎng)絡(luò)通信及分布式管理的控制樞紐,負(fù)責(zé)采集前置機(jī)和通信前置機(jī)間的通信管理。一方面將通信前置機(jī)上送的采集報(bào)文異步甄別后按終端及任務(wù)類型分布式調(diào)度至對(duì)應(yīng)采集前置機(jī)處理,另一方面將采集前置機(jī)的下行采集報(bào)文異步判別后按終端分布式調(diào)度至相應(yīng)通信前置機(jī)。終端鏈路經(jīng)硬件負(fù)載均衡器負(fù)載均攤于通信前置機(jī)集群,通信前置機(jī)將終端鏈路信息上報(bào)至調(diào)度前置機(jī)進(jìn)行統(tǒng)一維護(hù),調(diào)度前置機(jī)按照通信優(yōu)先級(jí)、終端鏈路信息實(shí)現(xiàn)通信報(bào)文、響應(yīng)報(bào)文的上下交互控制,在提高系統(tǒng)整體并發(fā)性能的同時(shí)實(shí)現(xiàn)主站系統(tǒng)數(shù)據(jù)采集與交互能力的提升。

通信前置集群負(fù)責(zé)維護(hù)采集主站系統(tǒng)與終端之間的遠(yuǎn)程通信鏈路,實(shí)現(xiàn)信道底層的心跳握手、鏈路連接及原始通信報(bào)文的收發(fā)。針對(duì)海量終端高并發(fā)鏈接請(qǐng)求量達(dá)30 萬以上,且均為長(zhǎng)鏈接的需求,基于非阻塞式輸入輸出（NIO）的通信框架,將通信鏈路原有的select 技術(shù)升級(jí)為使用Linux 內(nèi)核提供的異步Epoll 多路復(fù)用技術(shù),構(gòu)建終端鏈接層的異步網(wǎng)絡(luò)通信機(jī)制,基于自平衡二叉樹紅黑樹并結(jié)合雙向鏈表,將鏈路維護(hù)時(shí)間復(fù)雜度由O（n）降低為O（1）,實(shí)現(xiàn)以最小的資源消耗滿足最大并發(fā)處理的需求。表1 為并發(fā)接入能力提升的測(cè)試數(shù)據(jù)依據(jù)。

表1 并發(fā)鏈路維護(hù)技術(shù)的CPU 耗時(shí)對(duì)比Table 1 CPU time-consuming comparison of concurrent link maintenance technology

經(jīng)過底層通信改造,系統(tǒng)單臺(tái)前置的接入能力從3 萬提升到10 萬,并發(fā)通信能力從5 000 提升到3 萬,結(jié)合硬件負(fù)載均衡模式及通信調(diào)度的管理,實(shí)現(xiàn)了終端數(shù)量的動(dòng)態(tài)擴(kuò)展,滿足全省終端接入及海量數(shù)據(jù)高并發(fā)通信需求。

采集前置集群負(fù)責(zé)將采集任務(wù)按規(guī)約類型組裝成通信報(bào)文,調(diào)用加密機(jī)對(duì)其進(jìn)行加密并按國家電網(wǎng)公司安全應(yīng)用層（State Grid secure application layer,SSAL）協(xié)議進(jìn)行二次封裝后經(jīng)調(diào)度前置機(jī)下發(fā)至通信前置機(jī),同時(shí)接收通信前置機(jī)上送的終端上行報(bào)文,識(shí)別規(guī)約類型并解析后上送至任務(wù)調(diào)度層。為提升通信資源的最大化利用,采集前置設(shè)計(jì)了動(dòng)態(tài)組幀策略,主站系統(tǒng)按照終端廠家、協(xié)議版本在組幀時(shí)自動(dòng)組裝成不同的下行報(bào)文,并計(jì)算單終端下行請(qǐng)求最優(yōu)幀數(shù),其公式為：

式中：F為總幀數(shù)；M為終端采集的總電表數(shù)；Nd為數(shù)據(jù)單元個(gè)數(shù)；Lm為最大響應(yīng)長(zhǎng)度（單位為B）；Lp為采集單只電表終端可能回碼長(zhǎng)度（單位為B）。如一只1376.1 終端召測(cè)100 只電表日凍結(jié)正向有功示數(shù),假設(shè)配置的數(shù)據(jù)單元個(gè)數(shù)是8、最大響應(yīng)長(zhǎng)度為500 B,組幀一只表終端可能回碼的長(zhǎng)度為50 B,則總幀數(shù)為13 幀。采集前置按照終端型號(hào),配置每種終端單幀報(bào)文支持的最大響應(yīng)長(zhǎng)度和數(shù)據(jù)單元個(gè)數(shù)。在對(duì)某個(gè)終端下行請(qǐng)求組幀時(shí),根據(jù)終端參數(shù)動(dòng)態(tài)組幀,選擇最優(yōu)幀數(shù)。經(jīng)優(yōu)化改造,采集前置將更專注于報(bào)文處理,整體效率提升近3 倍,同步提升了資源利用率及通信成功率。

2.2 任務(wù)調(diào)度層

任務(wù)調(diào)度層主要解決既定周期或動(dòng)態(tài)新增采集任務(wù)、業(yè)務(wù)請(qǐng)求任務(wù)、數(shù)據(jù)上報(bào)任務(wù)等的并行調(diào)度執(zhí)行,同時(shí)支撐定時(shí)任務(wù)配置、任務(wù)狀態(tài)分析、任務(wù)補(bǔ)抄、系統(tǒng)資源監(jiān)視等功能。采集主站系統(tǒng)（以國網(wǎng)吉林省電力有限公司為例）每日至少執(zhí)行45 類、約215 個(gè)非高頻采集任務(wù),需耗費(fèi)大量系統(tǒng)資源處理任務(wù)編排及任務(wù)執(zhí)行,集中式任務(wù)調(diào)度受資源及并行效率限制,難以匹配高頻采集任務(wù)需求。基于分布式任務(wù)調(diào)度技術(shù),重點(diǎn)實(shí)現(xiàn)對(duì)采集前置按終端進(jìn)行采集任務(wù)的分布式分配,由分布式消息隊(duì)列配合完成。分布式任務(wù)調(diào)度邏輯架構(gòu)如圖4 所示。

圖4 分布式任務(wù)調(diào)度邏輯架構(gòu)Fig.4 Logic architecture of distributed task scheduling

為滿足采集系統(tǒng)整體資源調(diào)度性能需求,分布式任務(wù)調(diào)度由自行全新設(shè)計(jì)的TNRM（由Task、Node、Resource 及Mutual exclusion degree 首字母構(gòu)成）算法實(shí)現(xiàn),算法綜合考慮任務(wù)頻次、終端節(jié)點(diǎn)數(shù)量、服務(wù)器資源間的相互關(guān)系,實(shí)現(xiàn)最優(yōu)終端采集任務(wù)分配。分布式任務(wù)調(diào)度算法描述如下：

描述1：令T表示任務(wù)集合{t1,t2,…,ti},其中i為任務(wù)數(shù)。任務(wù)ti按執(zhí)行周期展開表示為{ti1,ti2,…,tij},其中tij表示第j個(gè) 周期執(zhí) 行ti的子任務(wù)。

描述2：令N表示終端集合{n1,n2,…,np},其中p為終端數(shù)。

描述3：令服務(wù)器資源綜合性能評(píng)估指標(biāo)集合R表示為{r1,r2,…,ro},其中o為分布式服務(wù)器節(jié)點(diǎn)數(shù),ro指標(biāo)數(shù)據(jù)由對(duì)第o個(gè)服務(wù)器節(jié)點(diǎn)經(jīng)性能調(diào)優(yōu)后,通過單一任務(wù)經(jīng)壓力測(cè)試機(jī)性能測(cè)試后的服務(wù)器綜合表現(xiàn)得出,取并發(fā)處理能力。令Co表示服務(wù)器節(jié)點(diǎn)o在所有節(jié)點(diǎn)中的分布式處理能力占比,表示為如下公式：

式中：htn表示第t個(gè)子任務(wù)是否處理終端n的采集任務(wù),是則為1,否則為0。

描述5：為了將不同終端任務(wù)放置于同一服務(wù)器節(jié)點(diǎn)執(zhí)行,且保證互相干擾性最小,引入任務(wù)互斥度概念,假設(shè)M12表示終端n1與終端n2在同一服務(wù)器節(jié)點(diǎn)上執(zhí)行時(shí)的綜合互斥度,m表示終端n1與終端n2在執(zhí)行具體子任務(wù)時(shí)的互斥度,則進(jìn)行如下定義。

1）如果有相同任務(wù)執(zhí)行,則完全互斥,m=1。

2）如果無相同任務(wù)執(zhí)行,但執(zhí)行時(shí)間重合,則完全互斥,m=1。

3）如果無相同任務(wù)執(zhí)行,且執(zhí)行時(shí)間不完全重合,則部分互斥,通過式（4）計(jì)算互斥度。

式中：At12為終端n1與終端n2在執(zhí)行子任務(wù)時(shí)相重疊的時(shí)間秒數(shù)；Bt12為2 個(gè)終端在執(zhí)行相同子任務(wù)時(shí)共同需要的時(shí)間秒數(shù)；0 ＜m＜1。

4）如果無相同任務(wù)執(zhí)行,且執(zhí)行時(shí)間不重合,則完全不互斥,m=0。

由此可得到終端n1與終端n2在同一服務(wù)器節(jié)點(diǎn)執(zhí)行所有子任務(wù)時(shí)的互斥度矩陣為：

由此可得到所有終端在同一服務(wù)器節(jié)點(diǎn)執(zhí)行時(shí)的互斥度矩陣為：

式中：Mp1為第p個(gè)終端與第1 個(gè)終端的綜合互斥度,直接置零表示與本身不互斥。

則只要求出終端間互斥度行列相加之和最小的數(shù),且滿足并發(fā)執(zhí)行任務(wù)數(shù)小于服務(wù)器節(jié)點(diǎn)處理能力即可求得最佳分配路徑。

描述6：設(shè)G為最優(yōu)分配集合,v為集合中所有終端在同一時(shí)間執(zhí)行時(shí)的最大任務(wù)并發(fā)數(shù),w為集合中所有終端間互斥度行列相加之和,則G應(yīng)滿足min(w)且v＜ro K,其中K為系數(shù),服務(wù)器資源調(diào)用不能超過此系數(shù),通常取0.8 以下。

經(jīng)以上綜合步驟,通過將服務(wù)器資源、并發(fā)任務(wù)數(shù)、終端并發(fā)量、資源占用互斥度的綜合計(jì)算,實(shí)現(xiàn)了采集任務(wù)的分布式分配及服務(wù)器資源的最大化利用。本算法同時(shí)也與任務(wù)調(diào)度較常用的蟻群算法及傳統(tǒng)輪詢調(diào)度、min-min 類算法進(jìn)行了特性對(duì)比,如表2 所示。

表2 任務(wù)調(diào)度算法特性對(duì)比Table 2 Characteristic comparison of task scheduling algorithms

蟻群算法需進(jìn)行信息素長(zhǎng)期積累訓(xùn)練［20］,傳統(tǒng)算法未充分考慮分布式環(huán)境的復(fù)雜性［21］,本文算法雖在單一任務(wù)最優(yōu)化上存在弱勢(shì),但綜合考慮了復(fù)雜任務(wù)類型與終端鏈路的最佳匹配,除提升服務(wù)器資源利用率外可節(jié)省網(wǎng)絡(luò)資源消耗,并可實(shí)現(xiàn)算法的自優(yōu)化,以及支撐服務(wù)器資源的動(dòng)態(tài)擴(kuò)增。經(jīng)工程應(yīng)用跟蹤驗(yàn)證,采集任務(wù)全部均攤至理想節(jié)點(diǎn),鏈路命中率100%,本文算法適用于高并發(fā)終端鏈接下的采集主站系統(tǒng)任務(wù)調(diào)度。

在任務(wù)調(diào)度中融入分布式消息隊(duì)列Kafka,可對(duì)系統(tǒng)中各類采集任務(wù)按照緊急程度、重要性進(jìn)行分類［22］,以多消息主題、多優(yōu)先級(jí)任務(wù)收發(fā)隊(duì)列實(shí)現(xiàn)任務(wù)的分級(jí)管理,支撐數(shù)據(jù)召測(cè)、參數(shù)下發(fā)、控制指令下發(fā)、采集數(shù)據(jù)上送等任務(wù)分主題交互,提高采集交互效率的同時(shí),降低任務(wù)與通信層的依賴。

2.3 分布式存儲(chǔ)層

分布式存儲(chǔ)層實(shí)現(xiàn)采集系統(tǒng)業(yè)務(wù)數(shù)據(jù)的綜合存儲(chǔ)。針對(duì)采集數(shù)據(jù)日均增量超80 GB、月均增量超2.5 TB、年均增量超30 TB 的情況,綜合考慮高頻數(shù)據(jù)采集引起的高并發(fā)入庫性能需求、存儲(chǔ)可擴(kuò)展性需求、對(duì)外數(shù)據(jù)共享需求,通過引入多類型分布式存儲(chǔ)框架,重構(gòu)由分布式存取服務(wù)、分布式內(nèi)存庫、分布式關(guān)系庫、生產(chǎn)查詢數(shù)據(jù)庫以及分布式大數(shù)據(jù)庫共同組成的主站系統(tǒng)存儲(chǔ)體系,以支撐海量多用途的數(shù)據(jù)存儲(chǔ)。分布式存儲(chǔ)架構(gòu)如圖5 所示。

圖5 分布式存儲(chǔ)邏輯架構(gòu)Fig.5 Logic architecture of distributed storage

存儲(chǔ)層首先將上送至分布式消息隊(duì)列的采集數(shù)據(jù)（上報(bào)任務(wù)數(shù)據(jù)和異常事件）經(jīng)數(shù)據(jù)存取服務(wù)監(jiān)聽并反序列化后按類型、頻度分別存儲(chǔ)于分布式內(nèi)存庫、分布式關(guān)系數(shù)據(jù)庫、生產(chǎn)查詢庫及分布式大數(shù)據(jù)庫,實(shí)現(xiàn)數(shù)據(jù)的按需分類存儲(chǔ)。

分布式內(nèi)存庫可緩解數(shù)據(jù)庫服務(wù)器磁盤輸入輸出（IO）存取壓力,提高數(shù)據(jù)訪問實(shí)時(shí)性［23］,采用Redis Cluster 技術(shù)研制實(shí)現(xiàn)。設(shè)計(jì)類關(guān)系型庫表結(jié)構(gòu),將數(shù)據(jù)庫態(tài)號(hào)、應(yīng)用號(hào)、表號(hào)、域號(hào)、記錄號(hào)按照規(guī)則生成唯一邏輯號(hào),并與內(nèi)存物理地址映射,數(shù)據(jù)存取時(shí)直接操作指定的內(nèi)存物理地址。分布式內(nèi)存庫通過提供標(biāo)準(zhǔn)應(yīng)用程序接口（API）傳參方式,實(shí)現(xiàn)數(shù)據(jù)的快速存取,部分接口設(shè)計(jì)如表3 所示。

表3 分布式內(nèi)存庫接口設(shè)計(jì)Table 3 Interface design of distributed memory database

分布式內(nèi)存庫可存儲(chǔ)檔案數(shù)據(jù)、終端地址碼、采集任務(wù)、終端在線信息、任務(wù)執(zhí)行結(jié)果、實(shí)時(shí)計(jì)算結(jié)果、系統(tǒng)配置參數(shù)、高頻更新數(shù)據(jù)等信息,保證了數(shù)據(jù)的實(shí)時(shí)訪問,有效支撐了任務(wù)調(diào)度層及并行計(jì)算層的高效執(zhí)行。

分布式關(guān)系數(shù)據(jù)庫因存儲(chǔ)節(jié)點(diǎn)可線性增加,不存在單點(diǎn)故障,海量數(shù)據(jù)并行入庫能力強(qiáng),具備高可用性及高擴(kuò)展性等優(yōu)點(diǎn),用于支撐高頻采集數(shù)據(jù)存儲(chǔ),實(shí)現(xiàn)在線事務(wù)處理應(yīng)用。分布式關(guān)系數(shù)據(jù)庫采用MySQL 數(shù)據(jù)庫搭配MyCat 代理中間件構(gòu)建,支持分片分析、路由分析、讀寫分離分析、緩存分析等數(shù)據(jù)處理功能［24］。在關(guān)系數(shù)據(jù)的分布式存儲(chǔ)設(shè)計(jì)上采用了取模分片、范圍分片、時(shí)間分片、哈希分片等多種混合分片策略實(shí)現(xiàn),整體原則如下：

1）對(duì)于數(shù)據(jù)量小于等于500 萬條且增量較小的實(shí)體,數(shù)據(jù)統(tǒng)一存儲(chǔ)在同一個(gè)數(shù)據(jù)節(jié)點(diǎn)；

2）對(duì)于數(shù)據(jù)量大于500 萬條、拆分后單表數(shù)據(jù)量小于等于1 000 萬條且增量較大的實(shí)體,將實(shí)體主鍵值按照數(shù)據(jù)節(jié)點(diǎn)數(shù)量取模進(jìn)行分庫存儲(chǔ)；

3）對(duì)于數(shù)據(jù)量大于500 萬條、拆分后單表數(shù)據(jù)量大于1 000 萬條且增量較大的實(shí)體,在實(shí)體主鍵值按照數(shù)據(jù)節(jié)點(diǎn)數(shù)量取模進(jìn)行分庫存儲(chǔ)基礎(chǔ)上,再按照數(shù)據(jù)采集日期切分策略進(jìn)行分表存儲(chǔ),盡量保證水平切分后每個(gè)實(shí)體數(shù)據(jù)量小于1 000 萬。

基于以上原則,將采集類數(shù)據(jù)以測(cè)量點(diǎn)ID 為分庫鍵進(jìn)行水平拆分,將事件類數(shù)據(jù)以終端ID 號(hào)為分庫鍵實(shí)現(xiàn)分庫存儲(chǔ),將數(shù)據(jù)量少、查詢?cè)L問頻率低和快速響應(yīng)的業(yè)務(wù)數(shù)據(jù)（例如配置類及采集任務(wù)等數(shù)據(jù)）分配到某一節(jié)點(diǎn)上,以減少多庫查詢對(duì)數(shù)據(jù)集進(jìn)行聚合帶來的效率問題。分布式關(guān)系庫支撐的數(shù)據(jù)存儲(chǔ)類型主要包括近期（6 個(gè)月至1 年）采集數(shù)據(jù)、任務(wù)數(shù)據(jù)、事件數(shù)據(jù)、計(jì)算結(jié)果數(shù)據(jù)、系統(tǒng)配置數(shù)據(jù)以及全量的檔案信息等。經(jīng)實(shí)際工程應(yīng)用表明,基于以上策略可實(shí)現(xiàn)數(shù)據(jù)的分片存儲(chǔ)及快速查詢,當(dāng)存儲(chǔ)節(jié)點(diǎn)擴(kuò)容時(shí),按照已有數(shù)據(jù)節(jié)點(diǎn)數(shù)量倍數(shù)擴(kuò)展,可實(shí)現(xiàn)最小化數(shù)據(jù)平滑遷移,滿足分鐘級(jí)高頻數(shù)據(jù)的存取需求。

生產(chǎn)查詢庫采用Oracle 數(shù)據(jù)庫存儲(chǔ),基于Oracle GoldenGate（OGG）方式完成與營銷檔案系統(tǒng)數(shù)據(jù)的同步,同時(shí)通過保存系統(tǒng)檔案、工單、日凍結(jié)數(shù)據(jù)及統(tǒng)計(jì)分析結(jié)果數(shù)據(jù),支撐主站系統(tǒng)復(fù)雜關(guān)聯(lián)查詢類業(yè)務(wù)應(yīng)用功能,以及對(duì)同安全區(qū)域系統(tǒng)的數(shù)據(jù)共享。

分布式大數(shù)據(jù)存儲(chǔ)庫將不具備聯(lián)機(jī)查詢價(jià)值但具備計(jì)算挖掘價(jià)值的采集原始數(shù)據(jù),如采集全量日凍結(jié)數(shù)據(jù)、高頻曲線數(shù)據(jù)、事件上報(bào)數(shù)據(jù)、計(jì)算結(jié)果數(shù)據(jù)、統(tǒng)計(jì)分析數(shù)據(jù)等海量數(shù)據(jù),基于Extract-Transform-Load（ETL）、Sqoop、Flume 等工具完成數(shù)據(jù)同步,采用Hadoop 分布式文件系統(tǒng)（HDFS）、分布式列式數(shù)據(jù)庫HBase 和廉價(jià)硬件環(huán)境完成存儲(chǔ)。分布式大數(shù)據(jù)存儲(chǔ)庫可為并行計(jì)算提供大數(shù)據(jù)支撐,同時(shí)為主站系統(tǒng)提供歷史數(shù)據(jù)存儲(chǔ)備份。

2.4 并行計(jì)算層

并行計(jì)算層［25］基于分布式內(nèi)存計(jì)算技術(shù)、分布式流式計(jì)算技術(shù)及數(shù)據(jù)挖掘、智能分析等組件構(gòu)建“分布式大數(shù)據(jù)并行計(jì)算平臺(tái)”,實(shí)現(xiàn)采集數(shù)據(jù)的實(shí)時(shí)處理及歷史挖掘分析,以提升系統(tǒng)監(jiān)測(cè)、用電預(yù)測(cè)、清潔能源消納、供電安全等方面的智能化程度,滿足分鐘級(jí)的低壓全量數(shù)據(jù)高頻采集需求、海量數(shù)據(jù)實(shí)時(shí)并行計(jì)算的系統(tǒng)計(jì)算能力需求。并行計(jì)算架構(gòu)如圖6 所示。

圖6 并行計(jì)算邏輯架構(gòu)Fig.6 Logic architecture of parallel computing

分布式內(nèi)存計(jì)算基于Spark 技術(shù)的彈性分布式數(shù)據(jù)集（resilient distributed dataset,RDD）、有向無環(huán)圖（directed acyclic graph,DAG）特性,實(shí)現(xiàn)計(jì)量在線監(jiān)測(cè)分析、臺(tái)區(qū)線損分析、多維指標(biāo)統(tǒng)計(jì)、電量統(tǒng)計(jì)分析、臺(tái)區(qū)負(fù)荷分析、防竊電挖掘分析等高級(jí)功能的并行計(jì)算。以臺(tái)區(qū)線損分析為例,首先基于HBase 設(shè)計(jì)以臺(tái)區(qū)編號(hào)、采集批次、測(cè)量點(diǎn)號(hào)為主的Rowkey,采集數(shù)據(jù)按Rowkey 規(guī)則存入列式數(shù)據(jù)庫,經(jīng)內(nèi)存計(jì)算平臺(tái)調(diào)用后,基于公式［（供電量?售電量）/供電量］×100%完成線損率［26］的并行計(jì)算。計(jì)算后的結(jié)果被推送至消息隊(duì)列,應(yīng)用層通過消息訂閱,將計(jì)算結(jié)果以WebSocket 方式主動(dòng)推送至線損可視化看板、線損在線監(jiān)測(cè)等前端。通過對(duì)線損波動(dòng)情況的實(shí)時(shí)掌握,幫助供電部門制定和實(shí)施經(jīng)濟(jì)合理的線損率指標(biāo),及時(shí)發(fā)現(xiàn)電網(wǎng)結(jié)構(gòu)、用電、計(jì)量設(shè)備性能及運(yùn)行狀況等方面的薄弱環(huán)節(jié),減少人為錯(cuò)誤和高損發(fā)生率,為線損管理提供及時(shí)科學(xué)的決策支撐。

分布式流計(jì)算基于Storm 技術(shù),實(shí)現(xiàn)消息流數(shù)據(jù)的邊采集邊計(jì)算,典型的應(yīng)用有基于事件流的停電故障、停電范圍實(shí)時(shí)研判。主站系統(tǒng)首先將上報(bào)的停電事件流推送至消息隊(duì)列,流計(jì)算平臺(tái)接收到訂閱的消息后,對(duì)停電事件的有效性與真實(shí)性進(jìn)行實(shí)時(shí)甄別,過濾掉無效事件及垃圾數(shù)據(jù)后,實(shí)時(shí)完成停電事件的準(zhǔn)確性研判及有效性研判,以及停電影響范圍的智能研判,經(jīng)研判后的停電信息經(jīng)接口動(dòng)態(tài)推送至供電服務(wù)指揮系統(tǒng)及客戶服務(wù)系統(tǒng),支撐主動(dòng)搶修業(yè)務(wù),提升服務(wù)響應(yīng)速度與客戶體驗(yàn)。

3 工程實(shí)例

在國網(wǎng)吉林省電力有限公司主站系統(tǒng)建設(shè)項(xiàng)目中,開展了基于分布式技術(shù)的采集主站系統(tǒng)工程應(yīng)用。該省電力公司低壓用戶約1 360 萬戶,共計(jì)約14 萬臺(tái)集中器及16 萬臺(tái)專用變壓器終端,整體部署運(yùn)行在由近100 臺(tái)服務(wù)器組成的節(jié)點(diǎn)、集群環(huán)境上。單臺(tái)服務(wù)器基本配置為CPU 2 個(gè),共16 核,主頻2.1 GHz,內(nèi)存128 GB。

選取了全量低壓用戶日凍結(jié)示值數(shù)據(jù)采集及變壓器實(shí)時(shí)組合曲線采集2 個(gè)任務(wù),只統(tǒng)計(jì)任務(wù)第1 次執(zhí)行結(jié)果,觀察一周計(jì)算平均性能。基于分布式技術(shù)的采集主站系統(tǒng)與集中式采集主站系統(tǒng)在并發(fā)接入、數(shù)據(jù)通信、任務(wù)調(diào)度、數(shù)據(jù)入庫、計(jì)算各方面的平均性能對(duì)比如表4 所示。

表4 2 種用電信息采集主站性能對(duì)比Table 4 Performance comparison of two main stations for power consumption information acquisition

2 種不同架構(gòu)主站系統(tǒng)下,變壓器實(shí)時(shí)組合曲線采集單個(gè)數(shù)據(jù)項(xiàng),從采集任務(wù)調(diào)度、任務(wù)下發(fā)至完成入庫,以及單臺(tái)區(qū)線損計(jì)算（按服務(wù)器并行均攤后）,分項(xiàng)平均耗時(shí)對(duì)比結(jié)果如圖7 所示。

圖7 實(shí)時(shí)組合曲線單個(gè)數(shù)據(jù)項(xiàng)處理平均耗時(shí)Fig.7 Average processing time of single data item of real-time composite curve

通過表4、圖7 對(duì)比結(jié)果可知,本文設(shè)計(jì)的基于分布式技術(shù)的主站系統(tǒng)在海量數(shù)據(jù)采集、通信、存儲(chǔ)、并行計(jì)算方面,相對(duì)于集中式主站系統(tǒng),具有明顯的性能優(yōu)勢(shì),在提升采集效率與入庫能力的同時(shí),提升了前置并發(fā)處理能力及采集成功率。

4 結(jié)語

本文基于分布式技術(shù)提出了高性能采集主站系統(tǒng)架構(gòu),并在國網(wǎng)吉林省電力有限公司進(jìn)行了應(yīng)用驗(yàn)證。驗(yàn)證結(jié)果表明,基于分布式技術(shù)的采集主站系統(tǒng)可以有效地提升主站系統(tǒng)在大規(guī)模數(shù)據(jù)采集、入庫方面的效率及服務(wù)能力,為智能電網(wǎng)采集系統(tǒng)下一步技術(shù)升級(jí)奠定了良好的理論和實(shí)踐基礎(chǔ),對(duì)采集系統(tǒng)應(yīng)用及提高采集系統(tǒng)對(duì)多種新需求的適應(yīng)性具有借鑒意義。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放