邱子良
(深圳供電局有限公司,廣東 深圳 518033)
中國(guó)電力行業(yè)正在經(jīng)歷變電站計(jì)算機(jī)和通信設(shè)備飛速發(fā)展的時(shí)代。因此,大量的測(cè)量數(shù)據(jù)被不斷地收集、交流和處理[1]?,F(xiàn)有技術(shù)正面臨巨大的挑戰(zhàn),需要開(kāi)發(fā)適當(dāng)、高效的分析方法來(lái)利用非結(jié)構(gòu)化文本、音頻和視頻3種格式的海量異構(gòu)數(shù)據(jù)[2]。關(guān)于智能電網(wǎng)中基于云的大數(shù)據(jù)分析軟件平臺(tái)的研究可以在許多文獻(xiàn)中找到[3]。此外,大數(shù)據(jù)正在改變能源的生產(chǎn)方式和能源的消費(fèi)模式。因此,大量研究都集中于大數(shù)據(jù)驅(qū)動(dòng)的智能能源管理領(lǐng)域[4-6]。
目前,大多數(shù)現(xiàn)有的電力系統(tǒng)公司都沒(méi)有準(zhǔn)備好處理不斷增長(zhǎng)的數(shù)據(jù)。其中一個(gè)很大的障礙就是缺乏集成大數(shù)據(jù)處理、知識(shí)提取和呈現(xiàn)的智能平臺(tái),大數(shù)據(jù)技術(shù)的成功將為電網(wǎng)帶來(lái)許多好處,包括改進(jìn)的設(shè)備故障診斷、狀態(tài)估計(jì)和可視化、更細(xì)粒度的負(fù)載、可再生資源預(yù)測(cè)以及全面的政策影響分析等。該文將為輸配電設(shè)備的狀態(tài)監(jiān)測(cè)提供一個(gè)新的大數(shù)據(jù)處理和分析平臺(tái)。
該文提出了電力系統(tǒng)狀態(tài)監(jiān)控大數(shù)據(jù)處理與分析平臺(tái)的框架,如圖1所示。一般來(lái)說(shuō),平臺(tái)有4個(gè)主要模塊/系統(tǒng),分別是數(shù)據(jù)采集、大數(shù)據(jù)分析、輔助決策和信息集成。該文將簡(jiǎn)要介紹該框架,重點(diǎn)介紹大數(shù)據(jù)分析模塊的大數(shù)據(jù)管理和大數(shù)據(jù)分析技術(shù)。在電網(wǎng)中,由不同的子系統(tǒng)采集大量的數(shù)據(jù),例如能源管理系統(tǒng)、設(shè)備監(jiān)控系統(tǒng)、維護(hù)管理系統(tǒng)以及生產(chǎn)管理系統(tǒng)等。數(shù)據(jù)可以是異構(gòu)的,例如設(shè)備狀態(tài)數(shù)據(jù)、電能質(zhì)量數(shù)據(jù)以及環(huán)境數(shù)據(jù)等。在數(shù)據(jù)狀態(tài)方面,大數(shù)據(jù)處理和分析都需要?dú)v史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)和數(shù)據(jù)流,因此,該平臺(tái)可以提供有用和及時(shí)的信息來(lái)輔助決策,并且所有的信息和知識(shí)可以被集成并用于系統(tǒng)維護(hù)、系統(tǒng)操作系統(tǒng)評(píng)估、系統(tǒng)檢查以及構(gòu)建進(jìn)行特殊實(shí)驗(yàn)的策略。
圖1 電力系統(tǒng)狀態(tài)監(jiān)控大數(shù)據(jù)處理分析平臺(tái)
該文提出的平臺(tái)具有特殊的數(shù)據(jù)采集結(jié)構(gòu),如圖2所示。大數(shù)據(jù)采集和處理系統(tǒng)的3個(gè)主要部分(具體來(lái)說(shuō),3種不同形式的信息獲得數(shù)據(jù)的方法),包括數(shù)據(jù)導(dǎo)入、批量數(shù)據(jù)文件和消息隊(duì)列遙測(cè)傳輸(MQTT)協(xié)議,其中MQTT是“物聯(lián)網(wǎng)”的典型消息協(xié)議。為了支持頂層應(yīng)用,該文設(shè)計(jì)了各種數(shù)據(jù)存儲(chǔ)方法,其中包括Hadoop分布式文件系統(tǒng),它非常適合在大規(guī)模數(shù)據(jù)集上應(yīng)用。
圖2 大數(shù)據(jù)采集系統(tǒng)、分布式數(shù)據(jù)存儲(chǔ)引擎和數(shù)據(jù)處理引擎的構(gòu)造模型
在電力系統(tǒng)中,需要在不同的尺度下對(duì)一些特定的數(shù)據(jù)進(jìn)行收集或分析,然后到另一個(gè)維度進(jìn)行知識(shí)提取。在對(duì)這些異構(gòu)數(shù)據(jù)進(jìn)行投影或?qū)⑵滢D(zhuǎn)換為統(tǒng)一形式時(shí),需要重新協(xié)調(diào)不同數(shù)據(jù)結(jié)構(gòu)和語(yǔ)義之間的沖突,并考慮數(shù)據(jù)融合的不確定性和動(dòng)態(tài)性。因此,大數(shù)據(jù)平臺(tái)根據(jù)數(shù)據(jù)對(duì)象之間復(fù)雜的邏輯關(guān)系,采用廣義管理模型,通過(guò)對(duì)主體信息的歸一化和提取來(lái)表示數(shù)據(jù)。同時(shí),還需要對(duì)時(shí)空數(shù)據(jù)模型(例如電網(wǎng)故障擴(kuò)散模型和對(duì)設(shè)備的影響程度)進(jìn)行高效搜索。一個(gè)巨大的挑戰(zhàn)是設(shè)計(jì)一個(gè)靈活的數(shù)據(jù)管理系統(tǒng)架構(gòu),從而適應(yīng)多模式電力數(shù)據(jù)。
數(shù)據(jù)管理系統(tǒng)架構(gòu)的設(shè)計(jì)思路如下:大數(shù)據(jù)管理技術(shù)為了維護(hù)系統(tǒng)的穩(wěn)定性和可靠性,對(duì)電網(wǎng)的關(guān)鍵設(shè)備進(jìn)行監(jiān)控至關(guān)重要。因此,電網(wǎng)大數(shù)據(jù)代替了傳統(tǒng)的數(shù)據(jù)流產(chǎn)生,由于實(shí)時(shí)性、突發(fā)性、隨機(jī)性以及無(wú)限性等新特點(diǎn),對(duì)數(shù)據(jù)流管理提出了更高的要求。傳統(tǒng)的數(shù)據(jù)流依賴(lài)于集中式數(shù)據(jù)庫(kù),數(shù)據(jù)量少、數(shù)據(jù)對(duì)象單一,不能滿(mǎn)足用戶(hù)對(duì)大數(shù)據(jù)流管理的要求。該文在隨機(jī)混合系統(tǒng)中,通過(guò)由幾個(gè)組件和中間的緩沖器組成的數(shù)據(jù)流管道來(lái)對(duì)電源管理系統(tǒng)進(jìn)行優(yōu)化,這是因?yàn)閿?shù)據(jù)流管道系統(tǒng)的預(yù)期平均功耗最小。圖3和圖4顯示了傳統(tǒng)數(shù)據(jù)處理模型和該文數(shù)據(jù)流處理模型之間的對(duì)比。傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)建立在持久數(shù)據(jù)集的概念上,該數(shù)據(jù)集被可靠地存儲(chǔ)在穩(wěn)定的存儲(chǔ)中,并可以在其整個(gè)生命周期中查詢(xún)/更新。用戶(hù)發(fā)送數(shù)據(jù)操作語(yǔ)言(DML)語(yǔ)句作為查詢(xún),系統(tǒng)在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中搜索數(shù)據(jù)后返回結(jié)果。然而,當(dāng)數(shù)據(jù)量很大時(shí),由于輸入輸出交換量的原因,搜索效率會(huì)很低,不能滿(mǎn)足實(shí)時(shí)數(shù)據(jù)處理的要求。相反,整個(gè)數(shù)據(jù)其實(shí)并不保存在數(shù)據(jù)流過(guò)程中,而是以很小的容量存儲(chǔ)在大綱數(shù)據(jù)結(jié)構(gòu)中,對(duì)于數(shù)據(jù)流管理,該文引入了2個(gè)關(guān)鍵技術(shù)的思路。首先,使用了海量數(shù)據(jù)流彈性訪問(wèn)和高吞吐量技術(shù),根據(jù)數(shù)據(jù)到達(dá)的速率,靈活、及時(shí)地調(diào)度內(nèi)存資源,在極短的時(shí)間內(nèi)分配訪問(wèn)點(diǎn),從而實(shí)現(xiàn)基于多個(gè)輸入點(diǎn)的并行訪問(wèn)。這是為了在多層和長(zhǎng)持續(xù)時(shí)間中存儲(chǔ)流數(shù)據(jù),在每個(gè)接入點(diǎn)中應(yīng)用多級(jí)存儲(chǔ)結(jié)構(gòu)。其次,海量流媒體數(shù)據(jù)管理技術(shù)的應(yīng)用,數(shù)據(jù)流的及時(shí)性與數(shù)據(jù)值和分析結(jié)果的準(zhǔn)確性密切相關(guān)。通過(guò)時(shí)效性對(duì)數(shù)據(jù)進(jìn)行組織和管理,利用多重時(shí)效性索引策略對(duì)流中的數(shù)據(jù)單元進(jìn)行多層次提取,因此,可以大大提高數(shù)據(jù)訪問(wèn)和存儲(chǔ)的效率,還可以防止數(shù)據(jù)丟失。
圖3 傳統(tǒng)數(shù)據(jù)處理模型
圖4 數(shù)據(jù)流處理模型
可以將上述方法作為分析引擎的一部分對(duì)其進(jìn)行編程和集成,從而支持電力大數(shù)據(jù)的處理。因此,數(shù)據(jù)處理引擎可以通過(guò)建立動(dòng)態(tài)的、全局的和抽象的功率數(shù)據(jù)模型來(lái)支持整個(gè)系統(tǒng)的操作和控制,基于該模型推斷結(jié)果并做出決策。
針對(duì)以上傳統(tǒng)數(shù)據(jù)處理模型,該文提出一種新的數(shù)據(jù)流處理模型,而且展示了其具體的運(yùn)行算法過(guò)程,同時(shí)將其與傳統(tǒng)數(shù)據(jù)流處理模型的時(shí)間測(cè)試結(jié)果進(jìn)行了比較。
新的數(shù)據(jù)流處理模型可以運(yùn)用Hadoop分布對(duì)文件進(jìn)行了系統(tǒng)分類(lèi),從而減少了統(tǒng)計(jì)時(shí)間。
新的數(shù)據(jù)流處理模型的Hadoop使快速處理大量數(shù)據(jù)成為可能,并且具備對(duì)對(duì)象進(jìn)行索引的能力。與普通的處理方法相比,新的數(shù)據(jù)流處理模型的Hadoop具備以下2個(gè)主要的優(yōu)點(diǎn):1)知道空間數(shù)據(jù)的性質(zhì)。因?yàn)橛行?shù)據(jù)并不是單一存在的,其中一些數(shù)據(jù)相互關(guān)聯(lián),例如移動(dòng)物體軌跡。每個(gè)移動(dòng)對(duì)象由多個(gè)文件輸入行組成。傳統(tǒng)數(shù)據(jù)流處理模型只處理一堆文件;而該文的數(shù)據(jù)流處理模型可以將大數(shù)據(jù)文件分割成塊文件,在群集的數(shù)據(jù)節(jié)點(diǎn)上存儲(chǔ)和復(fù)制。數(shù)據(jù)拆分過(guò)程是一個(gè)移動(dòng)對(duì)象的數(shù)據(jù)可能會(huì)通過(guò)新的數(shù)據(jù)流處理模型中的多個(gè)塊文件進(jìn)行分區(qū)的過(guò)程。因此,任何操作都需要更多的時(shí)間來(lái)訪問(wèn)這些文件,以便重建移動(dòng)對(duì)象。顯然,這將對(duì)移動(dòng)對(duì)象查詢(xún)的效率產(chǎn)生明顯的負(fù)面影響。該文的數(shù)據(jù)流處理通過(guò)將移動(dòng)對(duì)象的文件注入相應(yīng)的數(shù)據(jù)流模型架構(gòu)來(lái)解決該問(wèn)題。因此,新的數(shù)據(jù)流處理模型能夠了解它們的存儲(chǔ)結(jié)構(gòu),并在拆分文件時(shí)服從該結(jié)構(gòu)。2)Hadoop提供能夠在操作前修剪某些數(shù)據(jù)的索引結(jié)構(gòu)。在傳統(tǒng)的數(shù)據(jù)處理模型中,操作員按順序和并行進(jìn)行鏈?zhǔn)胶颓短?,以?gòu)建復(fù)雜的分析作業(yè)。然而,在實(shí)驗(yàn)中,運(yùn)行時(shí)間成本主要是由于傳統(tǒng)數(shù)據(jù)流處理模型將數(shù)據(jù)復(fù)制到所有節(jié)點(diǎn)而造成的,這增加了不必要的工作,也限制了獲取數(shù)據(jù)的時(shí)間優(yōu)勢(shì)。因此,研究人員通過(guò)引入分區(qū)技術(shù)來(lái)解決該問(wèn)題。
該文的數(shù)據(jù)流處理的內(nèi)部具體構(gòu)造,如圖5所示。首先,先確定Hadoop的啟動(dòng),未啟動(dòng)就直接結(jié)束程序,隨后重新啟動(dòng)。確定完成后,對(duì)Hadoop監(jiān)控代理,對(duì)里面的文件源進(jìn)行分類(lèi),并對(duì)其數(shù)據(jù)來(lái)源進(jìn)行修剪,盡可能地去除不必要的部分;其次,對(duì)文件源的數(shù)據(jù)進(jìn)行采集,確認(rèn)數(shù)據(jù)在電能存儲(chǔ)的有效性,在這里也可以直接丟棄無(wú)效文件數(shù)據(jù),為后續(xù)搜索運(yùn)行節(jié)省了大量的時(shí)間;再次,對(duì)有效的文件進(jìn)行空間分配,方便以后搜索文件;最后,在界面顯示所得的結(jié)果,并將其保存在數(shù)據(jù)庫(kù)中。為了更好地體現(xiàn)數(shù)據(jù)流處理模型的優(yōu)越性,接下來(lái)對(duì)其進(jìn)行了文件源大小和處理時(shí)間的測(cè)試。
圖5 數(shù)據(jù)流處理模型的過(guò)程
如圖6所示,數(shù)據(jù)流處理模型的處理時(shí)間比傳統(tǒng)數(shù)據(jù)處理模型的處理時(shí)間少。在輸入單一數(shù)據(jù)時(shí),數(shù)據(jù)流處理模型的處理時(shí)間沒(méi)有體現(xiàn)出明顯的優(yōu)勢(shì),但是隨著數(shù)據(jù)的增多,當(dāng)以信息流的形式出現(xiàn)時(shí),就能明顯發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)處理模型的處理時(shí)間是數(shù)據(jù)流處理模型處理時(shí)間的7倍,足以說(shuō)明該文的數(shù)據(jù)流處理模型的優(yōu)越性。而且隨著社會(huì)的發(fā)展,信息一定越來(lái)越多、越來(lái)越雜,一定也會(huì)要求信息處理的時(shí)間要越來(lái)越短,該文所提到的數(shù)據(jù)流處理模型是解決未來(lái)信息處理問(wèn)題的一種選擇。
圖6 傳統(tǒng)數(shù)據(jù)處理模型和數(shù)據(jù)流處理模型處理時(shí)間的對(duì)比
該文討論了最近提出對(duì)處理現(xiàn)代電力系統(tǒng)產(chǎn)生的大數(shù)據(jù)新型處理平臺(tái)的應(yīng)用。該框架包括從整個(gè)電網(wǎng)收集電力數(shù)據(jù)的數(shù)據(jù)采集子系統(tǒng)、由數(shù)據(jù)流管理系統(tǒng)和數(shù)據(jù)值管理系統(tǒng)組成的大數(shù)據(jù)分析子系統(tǒng)、集成了許多強(qiáng)大的開(kāi)源計(jì)算算法、進(jìn)一步優(yōu)化策略的決策輔助子系統(tǒng)和信息集成子系統(tǒng)。需要注意的是,該文僅提供了大數(shù)據(jù)系統(tǒng)的概述框架,未來(lái)的工作將在早期工作的基礎(chǔ)上開(kāi)發(fā)一套全面的技術(shù)。該文對(duì)最新大數(shù)據(jù)技術(shù)和智能電網(wǎng)技術(shù)的協(xié)同作用進(jìn)行了全面闡述,這在未來(lái)智能電網(wǎng)的實(shí)時(shí)監(jiān)控和狀態(tài)評(píng)估方面具有巨大的潛力。