潘建宏,張 帆,王 磊,張俊茹,郝保中
(1.國網(wǎng)吉林省電力有限公司,吉林長春 130000;2.國家電網(wǎng)有限公司大數(shù)據(jù)中心,北京 100052;3.國網(wǎng)遼源供電公司,吉林 遼源 136200;4.國網(wǎng)白城供電公司,吉林 白城 137000)
近年來,5G 與人工智能技術(shù)的迅速發(fā)展使能源行業(yè)數(shù)據(jù)呈現(xiàn)出指數(shù)級(jí)的增長;此外,冷-熱-電綜合能源系統(tǒng)的運(yùn)行和管理模式越來越復(fù)雜,相關(guān)數(shù)據(jù)監(jiān)測(cè)傳感網(wǎng)絡(luò)的建設(shè)快速推進(jìn),使能源大數(shù)據(jù)呈現(xiàn)出類型多、數(shù)量多等典型特征[1-3]。雖然能源數(shù)據(jù)發(fā)展前景明朗,但也遇到數(shù)據(jù)質(zhì)量與多源異構(gòu)數(shù)據(jù)融合的挑戰(zhàn)[4-6]。而能源大數(shù)據(jù)的準(zhǔn)確識(shí)別取決于數(shù)據(jù)質(zhì)量,且能源數(shù)據(jù)的誤差會(huì)影響數(shù)據(jù)處理的精度,并造成數(shù)據(jù)判斷失誤[7]。多源異構(gòu)數(shù)據(jù)融合是處理能源大數(shù)據(jù)的關(guān)鍵,對(duì)融合不同種類的能源數(shù)據(jù)有促進(jìn)作用,因此該文開展了基于多源異構(gòu)的能源數(shù)據(jù)處理技術(shù)研究。
能源大數(shù)據(jù)中90%以上均為實(shí)時(shí)測(cè)量的數(shù)據(jù),因此在辨識(shí)的過程中主要以測(cè)量數(shù)據(jù)為主,以判斷數(shù)據(jù)質(zhì)量的優(yōu)劣。通常而言,當(dāng)數(shù)據(jù)誤差大于5%時(shí),判斷為不良數(shù)據(jù)[8-9]。文獻(xiàn)[10]通過分析數(shù)據(jù)之間的相關(guān)性,將相關(guān)性理論引入到能源大數(shù)據(jù)的不良數(shù)據(jù)識(shí)別中,并提出不良數(shù)據(jù)的相關(guān)性識(shí)別方法。文獻(xiàn)[11]提出無監(jiān)督學(xué)習(xí)的能源大數(shù)據(jù)識(shí)別算法,通過訓(xùn)練樣本數(shù)據(jù)確定模型參數(shù),但該方法對(duì)樣本數(shù)據(jù)依賴性強(qiáng),且不利于工程化應(yīng)用。
針對(duì)上述問題,該文提出一種基于多源異構(gòu)的能源數(shù)據(jù)處理技術(shù),以SCADA 系統(tǒng)內(nèi)潮流數(shù)據(jù)作為樣本數(shù)據(jù),通過仿真分析驗(yàn)證了所提方法的有效性。
基于不同的能源大數(shù)據(jù),能夠從不同的角度建立數(shù)據(jù)模型,但由于建模的標(biāo)準(zhǔn)并未完全統(tǒng)一,所以目前還存在有數(shù)據(jù)不規(guī)范的問題,而采用基于隨機(jī)森林模型建立能源大數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),能夠較好地解決多源異構(gòu)數(shù)據(jù)融合問題[12]。
能源數(shù)據(jù)感知是構(gòu)建能源異構(gòu)數(shù)據(jù)的基礎(chǔ),并且關(guān)系到數(shù)據(jù)識(shí)別的精度[13]。隨著近年來科學(xué)技術(shù)的不斷發(fā)展,大量能源傳感器被部署在數(shù)據(jù)能源終端,并通過網(wǎng)絡(luò)相連接,進(jìn)而實(shí)現(xiàn)了不同形式的能源數(shù)據(jù)融合。通常能源數(shù)據(jù)傳感器的位置可用下式表示:
其中,位置信息通常用離散數(shù)值表示。而根據(jù)location 的位置信息,可獲得能源數(shù)據(jù)的行與列信息;attributes 為用于標(biāo)識(shí)數(shù)據(jù)的感知信息,采用“鍵-值”信息對(duì)表示一個(gè)或多個(gè)數(shù)據(jù)集合。為保證原始數(shù)據(jù)與目標(biāo)的關(guān)聯(lián)性,基于位置信息對(duì)原始數(shù)據(jù)進(jìn)行網(wǎng)格化和歸一化處理,從而保證網(wǎng)絡(luò)內(nèi)數(shù)據(jù)的統(tǒng)一性:
式中,Di為數(shù)據(jù)傳感器處于地點(diǎn)i到網(wǎng)絡(luò)中心點(diǎn)(xc,yc)的距離,經(jīng)整合可得到:
通過對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)集合,生成數(shù)據(jù)訓(xùn)練集與測(cè)試集,從而驗(yàn)證模型的準(zhǔn)確率及優(yōu)化模型的性能。
在給定的定義域D內(nèi),包含多源異構(gòu)數(shù)據(jù)集合S,其到目標(biāo)任務(wù)的推理模型可表示為:
式中,F(xiàn)(M) 為基于氣象數(shù)據(jù)M的特征抽取,time 為時(shí)間,GPS 為地理位置信息。那么,對(duì)于目標(biāo)任務(wù)g即可構(gòu)建訓(xùn)練樣本集D1:
若目標(biāo)任務(wù)g為未知時(shí),訓(xùn)練樣本集則可用D2表示為:
樣本訓(xùn)練集D1可用傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)處理,但對(duì)于未知目標(biāo)任務(wù)的訓(xùn)練樣本集D2卻無法使用,此外,樣本數(shù)量過少也會(huì)降低模型的精確度。需要注意的是,在多源異構(gòu)數(shù)據(jù)的融合過程中,不能使用固定數(shù)據(jù)模型進(jìn)行訓(xùn)練。
基于隨機(jī)森林算法提出的能源大數(shù)據(jù)MCS-RF框架,實(shí)現(xiàn)了能源大數(shù)據(jù)的半監(jiān)督學(xué)習(xí),并通過采用增量學(xué)習(xí)與離線學(xué)習(xí)的思想,在在線訓(xùn)練實(shí)時(shí)圖像數(shù)據(jù)中用增量學(xué)習(xí)方法對(duì)模型剪枝進(jìn)行更新,從而解決大數(shù)據(jù)的稀疏問題。
隨機(jī)森林為一組決策樹,假設(shè)第t棵樹為ft=f(x,θt):X→Y,其中θt為捕獲能源大數(shù)據(jù)的隨機(jī)向量,整個(gè)森林被表示為:F={f1,f2,···,fT},其中T為森林樹的數(shù)量,那么能源數(shù)據(jù)的評(píng)估概率可以定義為:
式中,ep(p|x)為第t棵樹的葉子概率密度,且森林樹的決策函數(shù)可表示為:
若ma(x,p)>0,則可得泛函誤差為:
式中,E為求取數(shù)學(xué)期望,也可以通過(x,p)得到整體分布。
由于能源大數(shù)據(jù)的某些信息無法標(biāo)注,使用半監(jiān)督學(xué)習(xí)算法的損失函數(shù)可表示為:
式中,Xl、Xu分別為標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù),h(·)為二分類器,λu(·)為對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行編碼的樣本數(shù)據(jù)。
在數(shù)據(jù)采集與處理的過程中,周圍環(huán)境的變化以及通信信號(hào)的不穩(wěn)定性,都會(huì)導(dǎo)致能源樣本數(shù)據(jù)采集出現(xiàn)一定的誤差,并影響數(shù)據(jù)的準(zhǔn)確度與數(shù)據(jù)分析結(jié)果,因此需要采取措施對(duì)噪聲數(shù)據(jù)進(jìn)行修復(fù)[14-15]。目前,不良數(shù)據(jù)的辨識(shí)通常是基于能源數(shù)據(jù)的狀態(tài)估計(jì),隨著數(shù)據(jù)量的增加、辨識(shí)次數(shù)變多以及運(yùn)算量的增大[16],若能在數(shù)據(jù)收集階段引入不良數(shù)據(jù)的辨識(shí)技術(shù),將有利于對(duì)數(shù)據(jù)的進(jìn)一步處理。能源系統(tǒng)狀態(tài)估計(jì)能夠在測(cè)量誤差的情況下配置系統(tǒng)的真實(shí)狀態(tài),為保證數(shù)據(jù)的高質(zhì)量提供基礎(chǔ),其測(cè)量方程z可表示為:
式中,h(x)為測(cè)量函數(shù),v為服從正態(tài)分布的測(cè)量誤差。因?yàn)闇y(cè)量誤差經(jīng)常發(fā)生變化,為方便計(jì)算,可以將目標(biāo)函數(shù)重新定義為:
式中,wi為測(cè)量誤差權(quán)重,通常取為測(cè)量方差的倒數(shù)。
應(yīng)用最優(yōu)化的思路,用加權(quán)最小二乘法表示誤差目標(biāo)函數(shù)為:
式中,R為方差矩陣,其維數(shù)為m、對(duì)角元素為。殘差搜索法是目前處理殘差應(yīng)用較為廣泛的一種方法,其工作流程如圖1 所示[17]。
圖1 殘差搜索法工作流程
能源數(shù)據(jù)具有數(shù)量大、種類多的特點(diǎn),通常由不同的系統(tǒng)采集得到,而各個(gè)系統(tǒng)之間的數(shù)據(jù)無法交互,難以實(shí)現(xiàn)數(shù)據(jù)共享,不利于數(shù)據(jù)的統(tǒng)一管理。為了實(shí)現(xiàn)能源數(shù)據(jù)的多源融合,需要對(duì)數(shù)據(jù)進(jìn)行清洗和去噪處理。而當(dāng)數(shù)據(jù)出現(xiàn)缺失時(shí),將會(huì)導(dǎo)致整體數(shù)據(jù)挖掘不充分、應(yīng)用不全面,因此需要采用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行聚類處理來實(shí)現(xiàn)融合。
聚類本質(zhì)上屬于無監(jiān)督范疇,對(duì)于不同類的能源數(shù)據(jù),需要采用不同的聚類算法。關(guān)聯(lián)規(guī)則是對(duì)不同事務(wù)之間的數(shù)據(jù)挖掘,目的是輔助決策者制定策略,最典型的關(guān)聯(lián)規(guī)則算法為Apriori 算法,其采用逐層生成測(cè)試策略,主要思路為先確定閾值,再找到頻繁屬性集X的非空子集Y,從而生成X與Y之間的關(guān)聯(lián)規(guī)則。Apriori 算法的基本流程如圖2 所示。
圖2 Apriori算法的基本流程
為了消除能源大數(shù)據(jù)中的冗余信息,需要將離散數(shù)據(jù)轉(zhuǎn)換為適用于關(guān)聯(lián)規(guī)則的數(shù)據(jù),其基本思路是將連續(xù)數(shù)據(jù)分為多個(gè)區(qū)間,為了減少數(shù)據(jù)存儲(chǔ)的片區(qū),并將原始樣本數(shù)據(jù)轉(zhuǎn)為離散數(shù)據(jù),該文應(yīng)用k-means 算法將大數(shù)據(jù)轉(zhuǎn)化為離散數(shù)據(jù)集,主要原理如下:
首先定義誤差平方和函數(shù),計(jì)算樣本xi與xj的歐式距離:
然后,進(jìn)行平方和準(zhǔn)則計(jì)算:
式中,k為聚類個(gè)數(shù),C為聚類集合,mi為樣本均值。
緊接著定義樣本數(shù)據(jù)置信度,應(yīng)用關(guān)聯(lián)規(guī)則計(jì)算出現(xiàn)的支持度計(jì)數(shù),計(jì)算公式如下:
式中,|db(l,o)|=|(n-o)/l|為總的數(shù)據(jù)子集個(gè)數(shù)。若支持度不超過用戶設(shè)定值,則表示在該周期內(nèi)其為強(qiáng)關(guān)聯(lián)規(guī)則。周期性關(guān)聯(lián)規(guī)則挖掘流程如圖3所示。
圖3 周期性關(guān)聯(lián)規(guī)則挖掘流程
該文以SCADA 系統(tǒng)內(nèi)潮流數(shù)據(jù)作為樣本數(shù)據(jù),其測(cè)量值的標(biāo)準(zhǔn)差為0.02,相角標(biāo)準(zhǔn)差為0.005,仿真分析某市35 kV 線路的電力數(shù)據(jù),模擬分析4~6 月內(nèi)的潮流數(shù)據(jù)變化。實(shí)驗(yàn)每隔1 min 采集一次SCADA 系統(tǒng)內(nèi)的潮流數(shù)據(jù),每天共1 440 個(gè)樣本數(shù)據(jù),其存儲(chǔ)格式如表1 所示。
表1 原始數(shù)據(jù)存儲(chǔ)單元
設(shè)置聚類個(gè)數(shù)k=8,經(jīng)過分析,雖然得到的3個(gè)月內(nèi)數(shù)據(jù)聚類結(jié)果各不相同,但也有部分相似之處。為了得到統(tǒng)一的數(shù)據(jù),首先采用聚類方法對(duì)數(shù)據(jù)結(jié)果進(jìn)行處理,然后進(jìn)行離散化處理,建立關(guān)聯(lián)規(guī)則數(shù)據(jù)庫,從而得到有功功率的離散等級(jí),如表2 所示。
表2 能源數(shù)據(jù)P值離散等級(jí)結(jié)果
以天為單位設(shè)置樣本數(shù)據(jù)標(biāo)號(hào),隨機(jī)選取其中72 個(gè)樣本數(shù)據(jù)為不良數(shù)據(jù),來驗(yàn)證該文方法的可行性。對(duì)于不良數(shù)據(jù),分別選取4 個(gè)良好樣本數(shù)據(jù)分別為T4、P4、Q5、I2,對(duì)其進(jìn)行辨識(shí)處理后生成不良數(shù)據(jù)集合?;陉P(guān)聯(lián)規(guī)則匹配發(fā)現(xiàn)T4 時(shí)刻出現(xiàn)不良電流數(shù)據(jù),再通過測(cè)量殘差來搜索出全部數(shù)據(jù)的測(cè)量值,從而證實(shí)了T4 采樣時(shí)刻的電流數(shù)據(jù)為不良數(shù)據(jù)。對(duì)于多個(gè)數(shù)據(jù)而言,可以分別設(shè)置兩個(gè)不良數(shù)據(jù)點(diǎn),再按照該文所述方法即可得到辨識(shí)結(jié)果,如表3 所示。
表3 多個(gè)不良數(shù)據(jù)辨識(shí)結(jié)果
若基于傳統(tǒng)的殘差算法進(jìn)行識(shí)別、排序和測(cè)量,需要計(jì)算到不再出現(xiàn)閾值外的數(shù)據(jù)為止。當(dāng)存在多個(gè)不良數(shù)據(jù)時(shí),兩種方法所需辨識(shí)次數(shù)的對(duì)比如表4所示。從表中能夠看出,該文所提方法的識(shí)別次數(shù)較少,且綜合性能更優(yōu)。
表4 辨識(shí)次數(shù)對(duì)比
應(yīng)用大數(shù)據(jù)處理技術(shù)對(duì)多源異構(gòu)的能源數(shù)據(jù)進(jìn)行分析和處理,是當(dāng)今綜合能源系統(tǒng)的發(fā)展趨勢(shì)。在此背景下,該文將關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法應(yīng)用于能源系統(tǒng)中。采用隨機(jī)森林完成了數(shù)據(jù)融合,基于增量學(xué)習(xí)與離線學(xué)習(xí)的思想搭建了能源大數(shù)據(jù)的MCS-RF 框架,通過將離散數(shù)據(jù)轉(zhuǎn)為適用于關(guān)聯(lián)規(guī)則的數(shù)據(jù),提高了不良數(shù)據(jù)的識(shí)別及能源數(shù)據(jù)狀態(tài)估計(jì)的準(zhǔn)確性。但在處理離散數(shù)據(jù)時(shí)使用了k-means聚類方法,所以計(jì)算結(jié)果容易受到主觀因素的影響。為此,在下一步研究工作中將考慮應(yīng)用HAC 層次凝聚式聚類法來處理離散數(shù)據(jù)。