高 志 ,樊銳軼 ,耿少博 ,王偉力
(1.國網(wǎng)河北省電力有限公司,河北 石家莊 050000;2.國網(wǎng)天津市電力公司,天津 300019)
在大數(shù)據(jù)時代,大多數(shù)應(yīng)用都是由數(shù)據(jù)驅(qū)動的。如果能提高數(shù)據(jù)質(zhì)量,大數(shù)據(jù)應(yīng)用的有效性和可靠性也能得到提高[1-3]。在電力行業(yè)中,不斷積累的電力數(shù)據(jù)越來越多,并在此基礎(chǔ)上開發(fā)了許多電力應(yīng)用[4-7]。在我國,電力大數(shù)據(jù)在規(guī)模、結(jié)構(gòu)、格式、評估要求等方面都具有一定的特殊性,傳統(tǒng)的大數(shù)據(jù)評估框架無法直接應(yīng)用[8-9]。
因此,大數(shù)據(jù)質(zhì)量評估技術(shù)已成為研究熱點。文獻[10]設(shè)計了一個基于決策樹和多維模型的大數(shù)據(jù)質(zhì)量評估框架。但主要關(guān)注大數(shù)據(jù)評估的維度,沒有考慮不同領(lǐng)域的特點。文獻[11]討論了一種基于大數(shù)據(jù)采樣策略的高效數(shù)據(jù)質(zhì)量評估方案,雖然被證明是可行的,但是評估對象并不是整個數(shù)據(jù)集。
除了數(shù)據(jù)評估技術(shù)外,電力大數(shù)據(jù)評估還需要數(shù)據(jù)采集技術(shù)和數(shù)據(jù)存儲技術(shù)。近年來,針對海量數(shù)據(jù)采集和存儲提出了許多分布式技術(shù),但都不能直接應(yīng)用于電力大數(shù)據(jù)[12]。綜上所述,本文提出了一個電力數(shù)據(jù)質(zhì)量評估的大數(shù)據(jù)框架。該框架增加基于灰色理論的量化評價模塊,并給出一般性的數(shù)據(jù)指標(biāo)質(zhì)量計算公式。本框架可以同時積累實時數(shù)據(jù)和歷史數(shù)據(jù),為電力大數(shù)據(jù)評估提供集成計算環(huán)境,支持不同類型數(shù)據(jù)的存儲。本文的研究結(jié)果為其他具有相似特征的大數(shù)據(jù)應(yīng)用亦提供了一個有價值的框架。
由于大數(shù)據(jù)在多樣性、可變性和準(zhǔn)確性等方面的特殊性,當(dāng)下大數(shù)據(jù)的處理和存儲問題往往超出了傳統(tǒng)信息技術(shù)的能力。電力大數(shù)據(jù)在中國國家電網(wǎng)中的主要特點如下。
圖1 中國電力大數(shù)據(jù)特點
多層結(jié)構(gòu):電網(wǎng)是多層次的,有總部、省電網(wǎng)、地電網(wǎng)、市電網(wǎng)等。從總部來看,電網(wǎng)分為總部和省級電網(wǎng)兩個層次。
多源數(shù)據(jù):不同類型的數(shù)據(jù)以不同的方式產(chǎn)生?;緮?shù)據(jù)是手動輸入的。實時數(shù)據(jù)由傳感器設(shè)備連續(xù)生成。歷史數(shù)據(jù)來自傳感器設(shè)備。
多數(shù)據(jù)類型:電力數(shù)據(jù)主要有三種類型,包括基礎(chǔ)數(shù)據(jù)、歷史數(shù)據(jù)和實時數(shù)據(jù)?;A(chǔ)數(shù)據(jù)用于描述傳感器設(shè)備、指標(biāo)等。歷史數(shù)據(jù)為包含傳感器設(shè)備歷史運行狀態(tài)的波形數(shù)據(jù)和文件。實時數(shù)據(jù)是指傳感器設(shè)備連續(xù)產(chǎn)生的數(shù)據(jù)。
信息獨立:由于每個省級電網(wǎng)都部署了傳感器設(shè)備,數(shù)據(jù)沒有整合,無法從整體角度進行深入分析。
不同的處理要求:根據(jù)不同電力應(yīng)用的需求,完成數(shù)據(jù)處理的時間從分鐘到小時不等。
大規(guī)模:智能電網(wǎng)中廣泛部署的大規(guī)模電力傳感器不斷產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)的規(guī)模急劇增大。例如,當(dāng)2 000 個監(jiān)測點產(chǎn)生諧波數(shù)據(jù)時,每個監(jiān)測點包含2 000 個指標(biāo),中國一個省的諧波檢測數(shù)據(jù)的數(shù)據(jù)容量將達到6 TB。
針對以上特點,本文設(shè)計了一個電力大數(shù)據(jù)框架代替標(biāo)準(zhǔn)的大數(shù)據(jù)框架,并在框架中加入了基于灰色理論的客觀數(shù)據(jù)評估模塊,以提高電力數(shù)據(jù)的質(zhì)量。
圖2 設(shè)計了一個用于電力數(shù)據(jù)質(zhì)量評估的大數(shù)據(jù)框架。在功能方面,包括數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)計算三個部分。在組織結(jié)構(gòu)方面,分為總部和省電網(wǎng)兩部分。
圖2 電力大數(shù)據(jù)評估框架
首先,數(shù)據(jù)采集幾乎是每個大數(shù)據(jù)系統(tǒng)的重要組成部分。如圖2 所示,數(shù)據(jù)獲取包括四個主要模塊。細節(jié)如下。
(1)設(shè)備數(shù)據(jù)采集模塊:該模塊位于省級電網(wǎng)。收集大量傳感器設(shè)備的運行數(shù)據(jù)。
(2)實時數(shù)據(jù)積累模塊:該模塊負(fù)責(zé)收集省級電網(wǎng)的實時數(shù)據(jù)。實時數(shù)據(jù)積累過程如圖所示。總部首先從省電網(wǎng)獲取Kafka 的配置和主題。其次,數(shù)據(jù)被多個線程接收。最后,將實時數(shù)據(jù)保存在HBase 中,并將累積的日志記錄下來。
(3)歷史數(shù)據(jù)積累模塊:負(fù)責(zé)從省級電網(wǎng)獲取歷史數(shù)據(jù)。歷史數(shù)據(jù)積累過程如圖所示??偛颗c省電網(wǎng)首次建立了插座連接。其次,總部獲取部署在省電網(wǎng)的ftp 服務(wù)器的賬號和密碼。再次,獲取歷史數(shù)據(jù)的文件名。然后,下載并解壓縮包含歷史數(shù)據(jù)的zip 文件。最后,將歷史數(shù)據(jù)保存在HBase 和HDFS 中,并記錄相應(yīng)的日志。
(4)采集任務(wù)調(diào)度與監(jiān)控模塊:由于歷史數(shù)據(jù)的規(guī)模和頻率不相同,因此該模塊用于根據(jù)監(jiān)控數(shù)據(jù)對任務(wù)進行調(diào)度。
此外,為了存儲不同類型的數(shù)據(jù),設(shè)計了一個集成的存儲環(huán)境,包括關(guān)系數(shù)據(jù)庫Oracle、NoSQL 數(shù)據(jù)庫HBase 和分布式文件系統(tǒng)HDFS。使用Oracle 保存結(jié)構(gòu)化數(shù)據(jù),包括基礎(chǔ)數(shù)據(jù)和評估結(jié)果,使用HDFS 接收歷史數(shù)據(jù),使用HBase 保存實時數(shù)據(jù)和從歷史數(shù)據(jù)中提取的信息。
最后是數(shù)據(jù)評估模塊,該模塊負(fù)責(zé)使用各種數(shù)據(jù)質(zhì)量評估方法對電力大數(shù)據(jù)質(zhì)量進行檢查和評估。
如圖2 所示,所有數(shù)據(jù)質(zhì)量評估方法都由一個大數(shù)據(jù)平臺支持,該平臺涉及各種大數(shù)據(jù)技術(shù),如Sqoop、Hive、Hbase、HDFS、MapReduce(MR)和Spark。
數(shù)據(jù)質(zhì)量是一個多維的概念。主觀數(shù)據(jù)質(zhì)量評價和客觀數(shù)據(jù)質(zhì)量評價是兩種主要類型。主觀數(shù)據(jù)質(zhì)量評估是基于利益相關(guān)者的經(jīng)驗而實現(xiàn)的??陀^的數(shù)據(jù)質(zhì)量評價主要取決于數(shù)據(jù)的狀態(tài)。考慮到客觀數(shù)據(jù)質(zhì)量評估和主觀數(shù)據(jù)質(zhì)量評估,框架中應(yīng)用的數(shù)據(jù)質(zhì)量評估過程如圖3 所示。
如圖3 所示,輸入包括實時數(shù)據(jù)、歷史數(shù)據(jù)和基礎(chǔ)數(shù)據(jù),輸出為數(shù)據(jù)質(zhì)量評價結(jié)果和高質(zhì)量數(shù)據(jù)。由于數(shù)據(jù)的結(jié)構(gòu)可能不適合后續(xù)的評估,因此首先采用預(yù)處理來調(diào)整實時數(shù)據(jù)或歷史數(shù)據(jù)的結(jié)構(gòu)。例如,刪除多余的空白行和空白。其次,確定了數(shù)據(jù)質(zhì)量評價的類型。對于無法通過客觀數(shù)據(jù)質(zhì)量評價方法進行評價的數(shù)據(jù),采用主觀數(shù)據(jù)質(zhì)量評價方法。再次,對數(shù)據(jù)質(zhì)量評估的結(jié)果進行評估,以確定輸入數(shù)據(jù)是否需要清洗。如果輸入數(shù)據(jù)的質(zhì)量較低,則采用數(shù)據(jù)清洗方法,如基于閾值的離群點檢測方法和基于k均值的離群點檢測方法。
圖3 電力大數(shù)據(jù)評估流程
為實現(xiàn)電力數(shù)據(jù)質(zhì)量評價指標(biāo)的科學(xué)合理性,本文在評價模塊提出了基于灰色理論的客觀綜合評價方法,具體實現(xiàn)如下:
首先應(yīng)確定具體指標(biāo)評價算法。針對中國電力大數(shù)據(jù)現(xiàn)狀,選取待評價數(shù)據(jù)集的正確性、一致性、及時性、完整性、冗余性進行度量[13]。具體算法如下。其中,P1,P2a,P2b,P3,P4,和P5分別為正確性度量,記錄完整率,數(shù)據(jù)完整率,一致性度量,及時性度量和冗余性度量。
式中:Dq為問題數(shù)據(jù)數(shù),Cs為缺少數(shù)據(jù)項數(shù),Ra為記錄數(shù),Ca為數(shù)據(jù)項數(shù)。
式中:Rs為缺少記錄數(shù)。
式中:Cq為問題數(shù)據(jù)項數(shù)。
式中:To為數(shù)據(jù)出庫時間,Ti為數(shù)據(jù)發(fā)生時間,Ri為數(shù)據(jù)記錄時間,m為發(fā)生次數(shù)。
式中:Cr為冗余數(shù)據(jù)項數(shù),Rr為冗余記錄數(shù),Rfr為非冗余記錄數(shù)。
此外,本步驟也可根據(jù)實際情況選出需計算指標(biāo)[14],對于不適合客觀評價的指標(biāo),亦可選取專家評價法。
在獲取每項指標(biāo)的評價值后,本文提出依據(jù)灰色理論對數(shù)據(jù)進行綜合定量評價法。
(1)獲取指標(biāo)評價數(shù)據(jù)
最優(yōu)化指標(biāo)數(shù)列為Y={y(k)|k=1,2,…,n};待評價指標(biāo)數(shù)列為Xi={xi(k)|k=1,2,…,n},i=1,2,…,m。
(2)待評價指標(biāo)與最優(yōu)化指標(biāo)關(guān)聯(lián)系數(shù)計算
最優(yōu)化指標(biāo)Y與待評價指標(biāo)Xi的關(guān)聯(lián)系數(shù)計算公式如(7)所示。
式中:ρ∈(0,∞)。一 般ρ取值為(0,1),當(dāng)ρ≤0.546 3 時,分辨力最好,本文取ρ=0.5。ξi(k)是指標(biāo)矩陣xi的第k個元素與最優(yōu)化指標(biāo)矩陣Y的第k個元素之間的關(guān)聯(lián)系數(shù)。
(3)綜合數(shù)據(jù)質(zhì)量量化值計算
待評價指標(biāo)與最優(yōu)化指標(biāo)關(guān)聯(lián)系數(shù)是其在各個時刻或條件下的關(guān)聯(lián)程度值,數(shù)值不止一個,因此信息過于分散不便于進行整體性比較。作為待評價指標(biāo)與最優(yōu)化指標(biāo)關(guān)聯(lián)程度的數(shù)量表示,本文以求平均值為例,綜合數(shù)據(jù)質(zhì)量量化值ri計算公式如下:
本文最后提出數(shù)據(jù)框架應(yīng)用場景,如圖4 所示。本框架實現(xiàn)了對中國電網(wǎng)電力大數(shù)據(jù)評估的支持,由于本文主要內(nèi)容為一種耦合灰色理論和數(shù)據(jù)框架的新思路,因此本節(jié)僅對應(yīng)用架構(gòu)場景進行概述。
(1)總部系統(tǒng):主要分為四個部分。應(yīng)用接口服務(wù)器與省電網(wǎng)系統(tǒng)的業(yè)務(wù)服務(wù)器進行通信。Web服務(wù)器用于支持不同的應(yīng)用程序。存儲服務(wù)器包含評估結(jié)果的關(guān)系數(shù)據(jù)和基礎(chǔ)數(shù)據(jù)。大數(shù)據(jù)平臺用于保存實時數(shù)據(jù)和歷史數(shù)據(jù),支持?jǐn)?shù)據(jù)質(zhì)量評估方法。
(2)省級電網(wǎng)系統(tǒng):主要分為五個部分。接口服務(wù)器負(fù)責(zé)實現(xiàn)總部系統(tǒng)與省電網(wǎng)系統(tǒng)的通信。部署Web 服務(wù)器以支持本地電力相關(guān)應(yīng)用程序。省級數(shù)據(jù)中心負(fù)責(zé)基礎(chǔ)數(shù)據(jù)和歷史數(shù)據(jù)的保存。業(yè)務(wù)服務(wù)器集群是一組用于獲取、分析和緩存數(shù)據(jù)的服務(wù)器。前端處理器集群是一組前端處理器。前端處理器是對從傳感器設(shè)備收集到的數(shù)據(jù)進行預(yù)處理的設(shè)備。此外,熱備份技術(shù)可以避免單點故障。
本文提出了一個電力數(shù)據(jù)質(zhì)量評估的大數(shù)據(jù)框架。在功能方面,包括數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)計算三個部分。在組織結(jié)構(gòu)方面,分為總部和省電網(wǎng)兩部分。
該框架增加了基于灰色理論的量化評價模塊,并給出一般性的數(shù)據(jù)指標(biāo)質(zhì)量計算公式。本框架可以同時積累實時數(shù)據(jù)和歷史數(shù)據(jù),為電力大數(shù)據(jù)評估提供集成計算環(huán)境,支持不同類型數(shù)據(jù)的存儲。
其研究結(jié)果為其他具有相似特征的大數(shù)據(jù)應(yīng)用亦提供了一個有價值的框架。