李莉,朱永利,宋亞奇
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院, 河北省保定市 071003)
電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的流式計(jì)算與動(dòng)態(tài)可視化展示
李莉,朱永利,宋亞奇
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院, 河北省保定市 071003)
電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)分析和可視化展示是智能電網(wǎng)建設(shè)的重要內(nèi)容。以Hadoop為代表的傳統(tǒng)數(shù)據(jù)處理模型不能滿足業(yè)務(wù)時(shí)延要求。提出基于阿里云流計(jì)算(Stream Compute)的電力設(shè)備監(jiān)測(cè)數(shù)據(jù)流式計(jì)算與動(dòng)態(tài)可視化展示方法,并應(yīng)用Stream Compute的上下游服務(wù)搭建了用于電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的時(shí)頻分析和可視化展示的應(yīng)用系統(tǒng)。試驗(yàn)測(cè)試表明,所搭建的系統(tǒng)整體的處理延遲被控制在s級(jí),能夠滿足電力設(shè)備在線監(jiān)測(cè)及實(shí)時(shí)數(shù)據(jù)展示的性能要求。
在線監(jiān)測(cè); 大數(shù)據(jù); 流計(jì)算; 數(shù)據(jù)可視化;阿里云
隨著電網(wǎng)狀態(tài)檢修全面推廣實(shí)施,輸變電設(shè)備狀態(tài)監(jiān)測(cè)系統(tǒng)進(jìn)入了全面建設(shè)階段,諸多先進(jìn)的傳感器技術(shù)也被應(yīng)用到構(gòu)建堅(jiān)強(qiáng)智能電網(wǎng)的實(shí)踐中。智能電網(wǎng)中的傳感器數(shù)量龐大、種類繁多,在發(fā)電、輸電、變電、配電和用電領(lǐng)域的廣泛使用產(chǎn)生了以指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù),呈現(xiàn)出數(shù)據(jù)量大、生成速度快、價(jià)值密度低、處理速度快等特點(diǎn),迫切需要新的處理技術(shù)去應(yīng)對(duì)存儲(chǔ)和計(jì)算方面的挑戰(zhàn)。
以Hadoop[1]為代表的傳統(tǒng)大數(shù)據(jù)處理技術(shù)使用MapReduce[2]編程框架實(shí)現(xiàn)并行計(jì)算,主要用于海量數(shù)據(jù)的批量處理。其特點(diǎn)是數(shù)據(jù)規(guī)模大、吞吐量高、實(shí)時(shí)性差,因此很難滿足電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)展示和在線計(jì)算等時(shí)效性要求較高的計(jì)算任務(wù)[3]。
流式計(jì)算[4]框架主要用于流式數(shù)據(jù)處理,相對(duì)于Hadoop MapReduce和Spark等批量計(jì)算框架,具有事件觸發(fā)和響應(yīng)時(shí)間短等特點(diǎn),事件觸發(fā)和響應(yīng)時(shí)間可達(dá)到s級(jí),甚至ms級(jí),主要的應(yīng)用場(chǎng)景包括實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)[5]、流式數(shù)據(jù)處理[6-7]、設(shè)備在線監(jiān)測(cè)[8]、故障診斷[9]、輿情監(jiān)控[10]、智能交通[11-12]、實(shí)時(shí)報(bào)表[13]等場(chǎng)景。流式大數(shù)據(jù)技術(shù)在電力行業(yè)中的應(yīng)用相對(duì)較少,研究成果大都是基于開(kāi)源的Apache Storm和Spark Streaming完成[14-15]。阿里云Stream Compute是阿里云提供的流式計(jì)算框架,在包括吞吐量在內(nèi)的若干關(guān)鍵性能指標(biāo)是Apache Storm的6~8倍,數(shù)據(jù)計(jì)算延遲優(yōu)化到s級(jí)乃至ms級(jí),單個(gè)作業(yè)吞吐量可達(dá)到百萬(wàn)條/s,單集群規(guī)模在數(shù)千臺(tái)[16],為實(shí)現(xiàn)更低延遲的電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的流式計(jì)算和可視化展示提供了強(qiáng)有力的計(jì)算引擎。
本文基于阿里云流計(jì)算以及配套的上下游產(chǎn)品(DataHub[17]、物聯(lián)網(wǎng)(internet of things,IOT)套件、關(guān)系數(shù)據(jù)庫(kù)服務(wù)(relation database service,RDS)、DataV[18])構(gòu)建了從數(shù)據(jù)采集、數(shù)據(jù)處理到數(shù)據(jù)可視化展示的一個(gè)完整系統(tǒng),實(shí)現(xiàn)了電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)收集、時(shí)頻分析以及動(dòng)態(tài)可視化數(shù)據(jù)展示。實(shí)驗(yàn)測(cè)試表明,整體的處理延遲控制在s級(jí)別,可以滿足電力設(shè)備在線監(jiān)測(cè)及實(shí)時(shí)數(shù)據(jù)展示的性能要求。
不同于傳統(tǒng)的離線數(shù)據(jù),電力設(shè)備監(jiān)測(cè)流式數(shù)據(jù)產(chǎn)生自源源不斷的事件流。由多個(gè)數(shù)據(jù)源持續(xù)生成數(shù)據(jù),流數(shù)據(jù)通常也以數(shù)據(jù)記錄的形式發(fā)送。但相較于離線數(shù)據(jù),流數(shù)據(jù)具有實(shí)時(shí)、連續(xù)、無(wú)界的特征,對(duì)于采集、計(jì)算、集成的時(shí)延要求較高。阿里云流式計(jì)算服務(wù)部署在分布式集群上,經(jīng)由DataHub高速通道到達(dá)的多源監(jiān)測(cè)數(shù)據(jù),進(jìn)入流計(jì)算后,在內(nèi)存中就可以完成數(shù)據(jù)分析,具有延遲時(shí)間短的特點(diǎn),可以在s級(jí)甚至ms級(jí)完成計(jì)算,與以Hadoop MapReduce為代表的批量計(jì)算有著本質(zhì)的差別?;诎⒗镌芐tream Compute技術(shù)所設(shè)計(jì)的電力設(shè)備監(jiān)測(cè)數(shù)據(jù)流式計(jì)算和可視化展示系統(tǒng)框架如圖1所示。
圖1 電力設(shè)備監(jiān)測(cè)數(shù)據(jù)流式計(jì)算和可視化展示系統(tǒng)框架圖Fig.1 Stream computing and visualization of power equipment monitoring data
系統(tǒng)整體架構(gòu)可以分為3個(gè)部分:數(shù)據(jù)采集和交互、實(shí)時(shí)數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用。數(shù)據(jù)采集設(shè)備嵌入阿里云IOT套件SDK,目前支持主流的MQTT/CCP協(xié)議,可以直接與IOT套件通信。IOT套件用于采集設(shè)備終端和云端的雙向通信,可以支撐億級(jí)設(shè)備長(zhǎng)連接,百萬(wàn)條消息并發(fā)。使用IOT套件規(guī)則引擎,可以配置數(shù)據(jù)實(shí)時(shí)同步至DataHub。
DataHub服務(wù)可以對(duì)各種電力設(shè)備監(jiān)測(cè)所產(chǎn)生的大量流式數(shù)據(jù)進(jìn)行持續(xù)不斷的采集、存儲(chǔ)和處理。監(jiān)測(cè)數(shù)據(jù)進(jìn)入DataHub之后,便直接由流計(jì)算引擎訂閱,監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)處理在流計(jì)算引擎中完成。流計(jì)算產(chǎn)出實(shí)時(shí)圖表、報(bào)警信息、實(shí)時(shí)統(tǒng)計(jì)等各種實(shí)時(shí)的數(shù)據(jù)處理結(jié)果,并可以同步至RDS,用于后期各類實(shí)時(shí)數(shù)據(jù)消費(fèi),包括可視化的實(shí)時(shí)數(shù)據(jù)展示和實(shí)時(shí)報(bào)表等。此外,流式計(jì)算的結(jié)果和流數(shù)據(jù)本身也可以再次同步至大數(shù)據(jù)計(jì)算引擎,用于支撐后期的歷史數(shù)據(jù)批量計(jì)算和分析。
2.1 監(jiān)測(cè)數(shù)據(jù)時(shí)頻域特征提取
本文的流計(jì)算任務(wù)主要基于變壓器局部放電特高頻波形數(shù)據(jù)進(jìn)行實(shí)時(shí)的時(shí)頻分析和特征提取,計(jì)算的特征包括:脈沖波形時(shí)間重心、頻率重心、等效時(shí)寬、等效頻寬、二次等效時(shí)寬和二次等效頻寬。
2.1.1 時(shí)間重心
設(shè)信號(hào)的1個(gè)脈沖波形時(shí)域表達(dá)式為s(t),將|s(t)|2看作時(shí)間密度,則基于標(biāo)準(zhǔn)偏差對(duì)時(shí)域信號(hào)進(jìn)行標(biāo)準(zhǔn)化處理后,信號(hào)的時(shí)間重心(平均時(shí)間)為
tN=∫T0τ[s(τ)]2∫T0[s(t)]2dtdτ
(1)
時(shí)間重心可以反映信號(hào)時(shí)域分布密度的特征及密度集中的位置。
2.1.2 頻率重心
與時(shí)域波形相似,設(shè)|s(ω)|2表示頻率密度,則經(jīng)過(guò)標(biāo)準(zhǔn)化處理后的信號(hào)頻率重心(平均頻率)為
ωN=∫0ω[s(ω)]2∫0[s(σ)]2dσdω
(2)
頻率重心可以反映信號(hào)頻率分布密度的特征及密度集中的位置。
2.1.3 等效時(shí)寬
由時(shí)間重心進(jìn)一步定義等效時(shí)寬Wt:
Wt=∫T0(τ-tN)2[s(τ)]2∫T0[s(t)]2dtdτ
(3)
等效時(shí)寬表示信號(hào)持續(xù)時(shí)間,反映了時(shí)間重心周圍信號(hào)的集中程度。
2.1.4 等效頻寬
由頻率重心定義等效頻寬Wf:
Wf=∫0(ω-ωN)2[s(ω)]2∫0[s(σ)]2dσdω
(4)
等效頻寬表示信號(hào)頻譜范圍,反映了頻率重心周圍信號(hào)的集中程度。
2.1.5 2次等效時(shí)寬和2次等效頻寬
通過(guò)引入隨機(jī)過(guò)程高階統(tǒng)計(jì)量,可計(jì)算脈沖波形的高維特征量,使波形特征量在數(shù)值上差異更大,更加有利于后續(xù)信號(hào)識(shí)別,Wkt和Wkf分別為k次等效時(shí)寬和k次等效頻寬[19],其計(jì)算公式為:
Wkt=∫T0(τ-tN)2k[s(τ)]2k∫T0[s(t)]2kdtdτWt
(5)
Wkf=∫0(ω-ωN)2k[s(ω)]2k∫0[s(σ)]2kdσdωWf
(6)
當(dāng)k=2時(shí),Wkt和Wkf分別為2次等效時(shí)寬和2次等效頻寬。
2.2 阿里云流式計(jì)算服務(wù)
阿里云流計(jì)算(Alibaba Cloud Stream Compute)是運(yùn)行在阿里云平臺(tái)上的流式大數(shù)據(jù)分析平臺(tái),提供在云上進(jìn)行流式數(shù)據(jù)實(shí)時(shí)分析的功能。使用阿里云StreamSQL,可以有效規(guī)避掉底層流式處理邏輯的繁雜重復(fù)開(kāi)發(fā)工作,主要應(yīng)用于流數(shù)據(jù)分析、實(shí)時(shí)監(jiān)控、實(shí)時(shí)報(bào)表和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)等領(lǐng)域。Stream Compute的典型應(yīng)用場(chǎng)景及主要的上下游工具組件如圖2所示。
不同于其他開(kāi)源流計(jì)算中間計(jì)算框架需要開(kāi)發(fā)者實(shí)現(xiàn)大量的流計(jì)算細(xì)節(jié),Stream Compute集成了諸多全鏈路功能,方便進(jìn)行全鏈路流計(jì)算開(kāi)發(fā)。Stream Compute集成的全鏈路功能包括:(1)流計(jì)算引擎。提供標(biāo)準(zhǔn)StreamSQL,支持各類Fail場(chǎng)景的自動(dòng)恢復(fù);支持故障情況下數(shù)據(jù)處理的準(zhǔn)確性;支持多種內(nèi)建的字符串處理、時(shí)間和統(tǒng)計(jì)等類型函數(shù)。(2)關(guān)鍵性能指標(biāo)超越Storm的6~8倍,數(shù)據(jù)計(jì)算延遲優(yōu)化到s級(jí)乃至ms級(jí),單個(gè)作業(yè)吞吐量可做到百萬(wàn)條/s,單集群規(guī)模在數(shù)千臺(tái)。(3)深度整合包括DataHub、日志服務(wù)、RDS、分析型數(shù)據(jù)庫(kù)、IOTHub等在內(nèi)的各類數(shù)據(jù)存儲(chǔ)系統(tǒng),無(wú)需額外的數(shù)據(jù)集成工作。
圖2 Stream Compute的典型應(yīng)用場(chǎng)景及主要的上下游工具組件Fig.2 Typical application scenario and main upstream and downstream tool assembly of Stream Compute
2.3 基于阿里云的實(shí)時(shí)特征提取的實(shí)現(xiàn)
2.3.1 存儲(chǔ)設(shè)計(jì)
通過(guò)IOT套件實(shí)時(shí)采集的監(jiān)測(cè)數(shù)據(jù)暫存在DataHub中。流計(jì)算處理產(chǎn)生的結(jié)果將存儲(chǔ)在云數(shù)據(jù)庫(kù)RDS中。在進(jìn)行流式處理前,需要首先在阿里云流計(jì)算中注冊(cè)其存儲(chǔ)信息,才可與這些數(shù)據(jù)源進(jìn)行互通。
需要在Data Hub中創(chuàng)建項(xiàng)目(Project)和主題(Topic)。Project是DataHub數(shù)據(jù)的基本組織單元,可以包含多個(gè)Topic。設(shè)計(jì)了4個(gè)Topic,分別用于暫存原始采樣數(shù)據(jù)和流數(shù)據(jù)統(tǒng)計(jì)特征。其邏輯模型和血緣關(guān)系如圖3所示。
圖3 存儲(chǔ)邏輯模型和血緣關(guān)系設(shè)計(jì)Fig.3 Storage logic model and related design
在圖3中,a0,a1,a2,…ai, …,an-1代表時(shí)域上n個(gè)采樣點(diǎn)的波形值;A0,A1,A2, …Ai, …,An-1則代表快速傅里葉變換后n個(gè)點(diǎn)的頻譜賦值。
特征提取過(guò)程分多步執(zhí)行,分別使用流計(jì)算任務(wù)實(shí)現(xiàn)實(shí)時(shí)計(jì)算。計(jì)算中間過(guò)程數(shù)據(jù)均使用DataHub的Topic暫存。最終特征計(jì)算結(jié)果持久化保存至RDS for MySQL數(shù)據(jù)庫(kù)。創(chuàng)建表的SQL如圖4所示。
圖4 創(chuàng)建表的SQL描述Fig.4 SQL of create table
2.3.2 流式數(shù)據(jù)處理
流式數(shù)據(jù)處理過(guò)程包含4個(gè)過(guò)程,如下詳述。
(1)注冊(cè)DataHub數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)源在使用前必須經(jīng)過(guò)流計(jì)算中的注冊(cè)過(guò)程,注冊(cè)相當(dāng)于在流計(jì)算平臺(tái)中登記相關(guān)數(shù)據(jù)源信息,方便后續(xù)的數(shù)據(jù)源使用。
(2)注冊(cè)RDS數(shù)據(jù)存儲(chǔ)。當(dāng)前RDS僅支持MySQL引擎的數(shù)據(jù)庫(kù),其他的數(shù)據(jù)庫(kù)引擎暫時(shí)不支持。
(3)創(chuàng)建Stream SQL任務(wù)。為了完成電力設(shè)備監(jiān)測(cè)數(shù)據(jù)實(shí)時(shí)特征提取,創(chuàng)建了4個(gè)串行的Stream SQL任務(wù),其依賴關(guān)系用工作流有向無(wú)環(huán)圖(directed acyclic graph,DAG)描述,如圖5所示。
圖5 實(shí)時(shí)流計(jì)算任務(wù)處理流程Fig.5 Processing flow of real time stream computing
Stream Compute的流計(jì)算任務(wù)主要使用Stream SQL描述,部分功能使用用戶自定義函數(shù)(user define function,UDF)定義,并嵌入到Stream SQL中??焖俑凳献儞Q(fast fourier transformation,F(xiàn)FT)計(jì)算的Stream SQL描述如圖6所示。
Stream SQL流計(jì)算任務(wù)主要包括3個(gè)部分:輸入表生成、輸出表生成和數(shù)據(jù)加工過(guò)程。Stream Compute并沒(méi)有存儲(chǔ)功能,所以這里的輸入和輸出均來(lái)自DataHub。數(shù)據(jù)加工中的FFT是UDF,使用Java語(yǔ)言實(shí)現(xiàn)。其他流計(jì)算過(guò)程的代碼結(jié)構(gòu)與圖6類似,這里不再贅述。最后1個(gè)流計(jì)算任務(wù)(計(jì)算2次等效時(shí)、頻寬)的輸出是RDS FOR MYSQL表,與之前的輸出均不相同。
圖6 FFT計(jì)算的Stream SQL描述Fig.6 Stream SQL of FFT computation
(4)上線Stream SQL任務(wù)。當(dāng)完成開(kāi)發(fā)、調(diào)試,經(jīng)過(guò)驗(yàn)證Stream SQL正確無(wú)誤之后,可將該任務(wù)上線到生產(chǎn)系統(tǒng)中。
2.4 實(shí)時(shí)可視化展示
數(shù)據(jù)展示使用阿里云數(shù)據(jù)可視化服務(wù)(DataV)實(shí)現(xiàn)。DavaV提供了多種場(chǎng)景模板和各類報(bào)表模板支持。DataV同時(shí)支持?jǐn)?shù)據(jù)庫(kù)、應(yīng)用程序接口、靜態(tài)文件等各類數(shù)據(jù)源的可視化展示。由于本文中流計(jì)算的輸出使用了RDS,所以在DataV中使用RDS FOR MYSQL作為數(shù)據(jù)源,與可視化組件綁定,生成動(dòng)態(tài)、實(shí)時(shí)的數(shù)據(jù)可視化報(bào)表。監(jiān)測(cè)數(shù)據(jù)可視化展示效果如圖7所示。
圖7 電力設(shè)備監(jiān)測(cè)數(shù)據(jù)實(shí)時(shí)可視化展示大屏Fig.7 Real time visualization of power equipment monitoring data
試驗(yàn)在阿里云的數(shù)加平臺(tái)上完成,使用的服務(wù)包括:IOT套件、DataHub、Stream Compute、RDS for MYSQL和DataV。其中,Stream Compute是本次工作的核心功能,申請(qǐng)的硬件配置是10 CU。CU是阿里云流計(jì)算中計(jì)算單元,1 CU描述了1個(gè)流計(jì)算作業(yè)最小運(yùn)行能力,即在限定的CPU、內(nèi)存和輸入/輸出設(shè)備 (I/O)情況下對(duì)于事件流處理的能力。1個(gè)流計(jì)算作業(yè)可以指定在1個(gè)或者多個(gè) CU上運(yùn)行。在計(jì)算能力上,1 CU的性能處理瓶頸是1 000條數(shù)據(jù)/s。
本文試驗(yàn)中,使用的是局部放電特高頻波形數(shù)據(jù),采樣率達(dá)到10 GHz,每次采樣時(shí)間取2 μs,每次觸發(fā)流計(jì)算任務(wù),處理的數(shù)據(jù)規(guī)模為80 KB,含2萬(wàn)個(gè)采樣點(diǎn)。
試驗(yàn)主要關(guān)注流計(jì)算的關(guān)鍵性能指標(biāo)包括業(yè)務(wù)延遲、計(jì)算耗時(shí)、數(shù)據(jù)輸入、數(shù)據(jù)輸出、CPU占用、內(nèi)存占用、源表響應(yīng)時(shí)間(response time,RT)和臟數(shù)據(jù)統(tǒng)計(jì)等。局部放電數(shù)據(jù)等效時(shí)、頻寬流計(jì)算任務(wù)的性能指標(biāo)分析如下詳述。
(1)業(yè)務(wù)延時(shí)。業(yè)務(wù)延時(shí)等于流計(jì)算處理時(shí)刻減去流式數(shù)據(jù)業(yè)務(wù)時(shí)間戳,集中反映當(dāng)前流計(jì)算全鏈路的1個(gè)時(shí)效情況。業(yè)務(wù)延時(shí)用來(lái)監(jiān)控全鏈路的數(shù)據(jù)處理進(jìn)度。如果源頭采集數(shù)據(jù)由于故障沒(méi)有進(jìn)入DataHub,業(yè)務(wù)延時(shí)也會(huì)隨之逐漸增大。局部放電數(shù)據(jù)等效時(shí)、頻寬流計(jì)算業(yè)務(wù)延時(shí)記錄如圖8所示。當(dāng)前該流計(jì)算任務(wù)的業(yè)務(wù)延時(shí),包括當(dāng)前的業(yè)務(wù)延時(shí)以及歷史的延時(shí)曲線。
圖8 業(yè)務(wù)延時(shí)記錄Fig.8 Service delay record
(2)計(jì)算耗時(shí)。計(jì)算耗時(shí)等于1批數(shù)據(jù)從進(jìn)入流計(jì)算過(guò)程到最終輸出結(jié)果所用的時(shí)間,集中反映出當(dāng)前流計(jì)算處理自身的時(shí)延,是表征流計(jì)算處理能力的一項(xiàng)數(shù)據(jù)指標(biāo)。一般計(jì)算耗時(shí)在s級(jí)。如果計(jì)算耗時(shí)大于1 min,可能是由于內(nèi)部處理邏輯過(guò)于復(fù)雜,需要調(diào)優(yōu)。局部放電數(shù)據(jù)等效時(shí)、頻寬流計(jì)算耗時(shí)如圖9所示。
圖9 計(jì)算耗時(shí)記錄Fig.9 Computation time record
計(jì)算耗時(shí)頁(yè)面會(huì)提供當(dāng)前該流計(jì)算任務(wù)的計(jì)算耗時(shí),包括當(dāng)前的計(jì)算耗時(shí)以及歷史的耗時(shí)曲線。
(3)數(shù)據(jù)輸入。對(duì)流計(jì)算任務(wù)所有的流式數(shù)據(jù)輸入進(jìn)行統(tǒng)計(jì),給出數(shù)據(jù)源輸入每s記錄數(shù)(record per second,RPS),如圖10所示。
圖10 流式數(shù)據(jù)輸入RPSFig.10 RPS of stream data input
(4)數(shù)據(jù)輸出。對(duì)該流計(jì)算任務(wù)所有的數(shù)據(jù)輸出進(jìn)行統(tǒng)計(jì),給出數(shù)據(jù)源輸出的RPS,如圖11所示。
(5)CPU占用。CPU占用反映的是流計(jì)算任務(wù)對(duì)于CPU資源消耗情況,包括CPU使用率和使用核數(shù)。本試驗(yàn)中CPU使用核數(shù)為1。CPU使用率如圖12所示。
圖11 流式數(shù)據(jù)輸出RPSFig.11 RPS of stream data output
圖12 CPU占用情況Fig.12 CPU occupancy
(6)內(nèi)存使用率。內(nèi)存使用率反映的是流計(jì)算任務(wù)對(duì)內(nèi)存資源消耗情況,如圖13所示。
圖13 內(nèi)存使用率Fig.13 Memory usage
(7)源表RT。源表RT反映的是流計(jì)算讀取1次源數(shù)據(jù)的平均RT時(shí)間,如圖14所示。
圖14 源表響應(yīng)時(shí)間Fig.14 Response time of source table
基于阿里云數(shù)據(jù)平臺(tái),以Stream Compute為核心,綜合應(yīng)用IOT套件、DataHub、RDS和DataV實(shí)現(xiàn)了電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)采集、數(shù)據(jù)加工、時(shí)頻分析和數(shù)據(jù)可視化展示。通過(guò)云監(jiān)控,實(shí)時(shí)監(jiān)視流計(jì)算任務(wù)的各項(xiàng)性能參數(shù),整體計(jì)算延時(shí)達(dá)到s級(jí),可以滿足電力設(shè)備在線監(jiān)測(cè)、計(jì)算和數(shù)據(jù)展示的性能需求。
[1] Tom W. Hadoop權(quán)威指南:中文版[M]. 周敏奇,王曉玲,金澈清, 譯. 北京: 清華大學(xué)出版社, 2010:51-55.
[2] DEAN J, GHEMAWAT S.MapReduce: simplified data processing on large clusters[C]//6th Conference on Symposium on Opearting Systems Design & Implementation. Berkeley:USENIX Association, 2004:137-150.
[3] AGNEESWARAN V S. Big data analytics beyond hadoop : real-time applications with storm, spark, and more hadoop alte[M]. New Jersey:Pearson Education, 2014:55-70.
[4] 孫大為, 張廣艷, 鄭緯民. 大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J].軟件學(xué)報(bào), 2014, 25(4):839-862. SUN Dawei, ZHANG Guangyan, ZHENG Weimin. Big data stream computing: Technologies and instances[J]. Journal of Software, 2014, 25(4):839-862.
[5] 林子雨, 林琛, 馮少榮,等. MESHJOIN*:實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下的數(shù)據(jù)流更新算法[J]. 計(jì)算機(jī)科學(xué)與探索, 2010, 04(10):927-939. LIN Ziyu, LIN Chen, FENG Shaorong, et al. MESHJOIN*: An algorithm supporting streaming updates in a real-time data warehouse[J]. Journal of Frontiers of Computer Science and Technology, 2010, 4(10):927-939.
[6] SILVA B N, KHAN M, HAN K. Big data analytics embedded smart city architecture for performance enhancement through real-time data processing and decision-making[J/OL].Wireless Communications and Mobile Computing,2017, [2017-01-18].https://doi.org/10.1155/2017/9429676.
[7] 喬通, 趙卓峰, 丁維龍. 面向套牌甄別的流式計(jì)算系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(1):153-158. QIAO Tong, ZHAO Zhuofeng, DING Weilong. Stream computing system for monitoring copy plate vehicles[J]. Journal of Computer Applications, 2017, 37(1):153-158.
[8] 王德文, 楊力平. 智能電網(wǎng)大數(shù)據(jù)流式處理方法與狀態(tài)監(jiān)測(cè)異常檢測(cè)[J]. 電力系統(tǒng)自動(dòng)化, 2016, 40(14):122-128. WANG Dewen, YANG Liping. Stream processing method and condition monitoring anomaly detection for big data in smart grid[J]. Automation of Electric Power Systems, 2016, 40(14): 122-128.
[9] 劉子英, 唐宏建, 肖嘉耀,等. 基于流式計(jì)算的Web實(shí)時(shí)故障診斷分析與設(shè)計(jì)[J]. 華東交通大學(xué)學(xué)報(bào), 2014(1):119-123. LIU Ziying, TANG Hongjian, XIAO Jiayao, et al. Analysis and design of web real-time fault diagnosis based on stream computing[J]. Journal of East China Jiaotong University, 2014(1):119-123.
[10] 高歡. 基于流式計(jì)算的網(wǎng)絡(luò)輿情分析模型研究[J]. 情報(bào)學(xué)報(bào), 2016, 35(7):723-729. GAO Huan. Research on model of network public opinion analysis based on stream computing[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(7):723-729.
[11] 張麗巖, 馬健. 流式計(jì)算在交通信息實(shí)時(shí)處理中的應(yīng)用框架初探[J]. 物流科技, 2014, 37(9):8-9. ZHANG Liyan, MA Jian. A preliminary application framework study of stream computing in traffic information real-time processing[J]. Logistics Sci-Tech, 2014, 37(9):8-9.
[12] 周建寧, 徐曉東, 蔡崗. 流式計(jì)算在交通管理中應(yīng)用研究[J]. 中國(guó)公共安全:學(xué)術(shù)版, 2016(1):70-75. ZHOU Jianning, XU Xiaodong, CAI Gang. Study on the application of steam computing in traffic management[J]. China Public Security, Academy Edition, 2016(1):70-75.
[13] SHRUTHI K, SIDDHARTH P. Easy, real-time big data analysis using storm [EB/OL]. [2012-12-04]. http://www.drdobbs.com/cloud/easy-real-time-big-data-analysis-using-s/240143874?pgno=1.
[14] 張少敏, 孫婕, 王保義. 基于Storm的智能電網(wǎng)廣域測(cè)量系統(tǒng)數(shù)據(jù)實(shí)時(shí)加密[J]. 電力系統(tǒng)自動(dòng)化, 2016, 40(21):123-127. ZHANG Shaomin, SUN Jie, WANG Baoyi. Storm based real-time data encryption in wide area measurement system of smart grid[J]. Automation of Electric Power Systems, 2016, 40(21):123-127.
[15] 王銘坤, 袁少光, 朱永利,等. 基于Storm的海量數(shù)據(jù)實(shí)時(shí)聚類[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(11):3078-3081. WANG Mingkun, YUAN Shaoguang, ZHU Yongli, et al. Real-time clustering for massive data using storm[J]. Journal of Computer Applications, 2014, 34(11):3078-3081.
[16] 阿里云. 流計(jì)算產(chǎn)品特點(diǎn)[EB/OL]. [2017-02-28]. https://help.aliyun.com/document_detail/49930.html ?spm=5176.doc49929.6.550.DVbqvj.
[17] 阿里云. 阿里云DataHub[EB/OL]. [2016-11-21]. https://data.aliyun.com/product/datahub?spm=a2c0j.117599.588239.11.abJECp.
[18] 阿里云. DataV數(shù)據(jù)可視化[EB/OL]. [2016-09-15]. https://data.aliyun.com/visual/datav?spm=a2c0j.117599.416540.109.abJECp.
[19] 鮑永勝. 局部放電脈沖波形特征提取及分類技術(shù)[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2013, 33(28):168-175. BAO Yongsheng. Partial discharge pulse waveform feature extraction and classification techniques[J]. Proceedings of the CSEE, 2013, 33(28):168-175.
(編輯 郭文瑞)
Stream Computing and Dynamic Visualization for Electric Power Equipment Monitoring Data
LI Li, ZHU Yongli, SONG Yaqi
(School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, Hebei Province, China)
Real-time analysis and visualization of power equipment monitoring data are the important contents of smart grid construction. The traditional data processing model represented by Hadoop cannot meet the requirements of business delay. This paper presents a method of stream computing and dynamic visualization for power equipment monitoring data based on Alibaba Cloud Stream Compute, and uses Stream Compute upstream and downstream service to build an application system for time-frequency analysis and visualization of power equipment monitoring data. The experimental tests show that the overall processing delay of the system is controlled at the second level, which can meet the performance requirements of on-line monitoring and real-time data display.
on-line monitoring; big data; stream computing; data visualization; Alibaba cloud
國(guó)家自然科學(xué)基金項(xiàng)目(51677072); 中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2016MS116,2016MS117)
TM 93
A
1000-7229(2017)05-0091-07
10.3969/j.issn.1000-7229.2017.05.012
2016-10-15
李莉(1980),女,博士研究生,講師,本文通信作者,主要從事輸變電設(shè)備狀態(tài)檢測(cè)大數(shù)據(jù)分析與信號(hào)處理等方面的研究工作;
朱永利(1963),男,教授,博士生導(dǎo)師,主要從事大數(shù)據(jù)技術(shù)在輸變電設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)分析中的應(yīng)用與智能信息處理等方面的研究工作;
宋亞奇(1979),男,博士,講師,主要從事電力大數(shù)據(jù)與云計(jì)算等方面的研究工作。
Project supported by National Natural Science Foundation of China(51677072)