亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多源異構(gòu)的能源數(shù)據(jù)處理技術(shù)研究

2022-09-02 06:25:16潘建宏張俊茹郝保中

電子設(shè)計(jì)工程 2022年16期

潘建宏，張帆，王磊，張俊茹，郝保中

（1.國網(wǎng)吉林省電力有限公司，吉林長春 130000；2.國家電網(wǎng)有限公司大數(shù)據(jù)中心，北京 100052；3.國網(wǎng)遼源供電公司，吉林遼源 136200；4.國網(wǎng)白城供電公司，吉林白城 137000）

近年來，5G 與人工智能技術(shù)的迅速發(fā)展使能源行業(yè)數(shù)據(jù)呈現(xiàn)出指數(shù)級(jí)的增長；此外，冷-熱-電綜合能源系統(tǒng)的運(yùn)行和管理模式越來越復(fù)雜，相關(guān)數(shù)據(jù)監(jiān)測(cè)傳感網(wǎng)絡(luò)的建設(shè)快速推進(jìn)，使能源大數(shù)據(jù)呈現(xiàn)出類型多、數(shù)量多等典型特征[1-3]。雖然能源數(shù)據(jù)發(fā)展前景明朗，但也遇到數(shù)據(jù)質(zhì)量與多源異構(gòu)數(shù)據(jù)融合的挑戰(zhàn)[4-6]。而能源大數(shù)據(jù)的準(zhǔn)確識(shí)別取決于數(shù)據(jù)質(zhì)量，且能源數(shù)據(jù)的誤差會(huì)影響數(shù)據(jù)處理的精度，并造成數(shù)據(jù)判斷失誤[7]。多源異構(gòu)數(shù)據(jù)融合是處理能源大數(shù)據(jù)的關(guān)鍵，對(duì)融合不同種類的能源數(shù)據(jù)有促進(jìn)作用，因此該文開展了基于多源異構(gòu)的能源數(shù)據(jù)處理技術(shù)研究。

能源大數(shù)據(jù)中90%以上均為實(shí)時(shí)測(cè)量的數(shù)據(jù)，因此在辨識(shí)的過程中主要以測(cè)量數(shù)據(jù)為主，以判斷數(shù)據(jù)質(zhì)量的優(yōu)劣。通常而言，當(dāng)數(shù)據(jù)誤差大于5%時(shí)，判斷為不良數(shù)據(jù)[8-9]。文獻(xiàn)[10]通過分析數(shù)據(jù)之間的相關(guān)性，將相關(guān)性理論引入到能源大數(shù)據(jù)的不良數(shù)據(jù)識(shí)別中，并提出不良數(shù)據(jù)的相關(guān)性識(shí)別方法。文獻(xiàn)[11]提出無監(jiān)督學(xué)習(xí)的能源大數(shù)據(jù)識(shí)別算法，通過訓(xùn)練樣本數(shù)據(jù)確定模型參數(shù)，但該方法對(duì)樣本數(shù)據(jù)依賴性強(qiáng)，且不利于工程化應(yīng)用。

針對(duì)上述問題，該文提出一種基于多源異構(gòu)的能源數(shù)據(jù)處理技術(shù)，以SCADA 系統(tǒng)內(nèi)潮流數(shù)據(jù)作為樣本數(shù)據(jù)，通過仿真分析驗(yàn)證了所提方法的有效性。

1 基于隨機(jī)森林的多源異構(gòu)數(shù)據(jù)融合

1.1 多源異構(gòu)能源數(shù)據(jù)感知

基于不同的能源大數(shù)據(jù)，能夠從不同的角度建立數(shù)據(jù)模型，但由于建模的標(biāo)準(zhǔn)并未完全統(tǒng)一，所以目前還存在有數(shù)據(jù)不規(guī)范的問題，而采用基于隨機(jī)森林模型建立能源大數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)，能夠較好地解決多源異構(gòu)數(shù)據(jù)融合問題[12]。

能源數(shù)據(jù)感知是構(gòu)建能源異構(gòu)數(shù)據(jù)的基礎(chǔ)，并且關(guān)系到數(shù)據(jù)識(shí)別的精度[13]。隨著近年來科學(xué)技術(shù)的不斷發(fā)展，大量能源傳感器被部署在數(shù)據(jù)能源終端，并通過網(wǎng)絡(luò)相連接，進(jìn)而實(shí)現(xiàn)了不同形式的能源數(shù)據(jù)融合。通常能源數(shù)據(jù)傳感器的位置可用下式表示：

其中，位置信息通常用離散數(shù)值表示。而根據(jù)location 的位置信息，可獲得能源數(shù)據(jù)的行與列信息；attributes 為用于標(biāo)識(shí)數(shù)據(jù)的感知信息，采用“鍵-值”信息對(duì)表示一個(gè)或多個(gè)數(shù)據(jù)集合。為保證原始數(shù)據(jù)與目標(biāo)的關(guān)聯(lián)性，基于位置信息對(duì)原始數(shù)據(jù)進(jìn)行網(wǎng)格化和歸一化處理，從而保證網(wǎng)絡(luò)內(nèi)數(shù)據(jù)的統(tǒng)一性：

式中，Di為數(shù)據(jù)傳感器處于地點(diǎn)i到網(wǎng)絡(luò)中心點(diǎn)(xc,yc)的距離，經(jīng)整合可得到：

通過對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)集合，生成數(shù)據(jù)訓(xùn)練集與測(cè)試集，從而驗(yàn)證模型的準(zhǔn)確率及優(yōu)化模型的性能。

1.2 多源異構(gòu)能源數(shù)據(jù)融合建模

在給定的定義域D內(nèi)，包含多源異構(gòu)數(shù)據(jù)集合S，其到目標(biāo)任務(wù)的推理模型可表示為：

式中，F(xiàn)(M) 為基于氣象數(shù)據(jù)M的特征抽取，time 為時(shí)間，GPS 為地理位置信息。那么，對(duì)于目標(biāo)任務(wù)g即可構(gòu)建訓(xùn)練樣本集D1：

若目標(biāo)任務(wù)g為未知時(shí)，訓(xùn)練樣本集則可用D2表示為：

樣本訓(xùn)練集D1可用傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)處理，但對(duì)于未知目標(biāo)任務(wù)的訓(xùn)練樣本集D2卻無法使用，此外，樣本數(shù)量過少也會(huì)降低模型的精確度。需要注意的是，在多源異構(gòu)數(shù)據(jù)的融合過程中，不能使用固定數(shù)據(jù)模型進(jìn)行訓(xùn)練。

1.3 基于隨機(jī)森林的多源異構(gòu)數(shù)據(jù)融合框架

基于隨機(jī)森林算法提出的能源大數(shù)據(jù)MCS-RF框架，實(shí)現(xiàn)了能源大數(shù)據(jù)的半監(jiān)督學(xué)習(xí)，并通過采用增量學(xué)習(xí)與離線學(xué)習(xí)的思想，在在線訓(xùn)練實(shí)時(shí)圖像數(shù)據(jù)中用增量學(xué)習(xí)方法對(duì)模型剪枝進(jìn)行更新，從而解決大數(shù)據(jù)的稀疏問題。

隨機(jī)森林為一組決策樹，假設(shè)第t棵樹為ft=f(x,θt):X→Y，其中θt為捕獲能源大數(shù)據(jù)的隨機(jī)向量，整個(gè)森林被表示為：F={f1,f2,···,fT}，其中T為森林樹的數(shù)量，那么能源數(shù)據(jù)的評(píng)估概率可以定義為：

式中，ep(p|x)為第t棵樹的葉子概率密度，且森林樹的決策函數(shù)可表示為：

若ma(x,p)＞0，則可得泛函誤差為：

式中，E為求取數(shù)學(xué)期望，也可以通過(x,p)得到整體分布。

由于能源大數(shù)據(jù)的某些信息無法標(biāo)注，使用半監(jiān)督學(xué)習(xí)算法的損失函數(shù)可表示為：

式中，Xl、Xu分別為標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)，h(·)為二分類器，λu(·)為對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行編碼的樣本數(shù)據(jù)。

2 能源數(shù)據(jù)處理技術(shù)

2.1 能源數(shù)據(jù)的不良數(shù)據(jù)辨識(shí)

在數(shù)據(jù)采集與處理的過程中，周圍環(huán)境的變化以及通信信號(hào)的不穩(wěn)定性，都會(huì)導(dǎo)致能源樣本數(shù)據(jù)采集出現(xiàn)一定的誤差，并影響數(shù)據(jù)的準(zhǔn)確度與數(shù)據(jù)分析結(jié)果，因此需要采取措施對(duì)噪聲數(shù)據(jù)進(jìn)行修復(fù)[14-15]。目前，不良數(shù)據(jù)的辨識(shí)通常是基于能源數(shù)據(jù)的狀態(tài)估計(jì)，隨著數(shù)據(jù)量的增加、辨識(shí)次數(shù)變多以及運(yùn)算量的增大[16]，若能在數(shù)據(jù)收集階段引入不良數(shù)據(jù)的辨識(shí)技術(shù)，將有利于對(duì)數(shù)據(jù)的進(jìn)一步處理。能源系統(tǒng)狀態(tài)估計(jì)能夠在測(cè)量誤差的情況下配置系統(tǒng)的真實(shí)狀態(tài)，為保證數(shù)據(jù)的高質(zhì)量提供基礎(chǔ)，其測(cè)量方程z可表示為：

式中，h(x)為測(cè)量函數(shù)，v為服從正態(tài)分布的測(cè)量誤差。因?yàn)闇y(cè)量誤差經(jīng)常發(fā)生變化，為方便計(jì)算，可以將目標(biāo)函數(shù)重新定義為：

式中，wi為測(cè)量誤差權(quán)重，通常取為測(cè)量方差的倒數(shù)。

應(yīng)用最優(yōu)化的思路，用加權(quán)最小二乘法表示誤差目標(biāo)函數(shù)為：

式中，R為方差矩陣，其維數(shù)為m、對(duì)角元素為。殘差搜索法是目前處理殘差應(yīng)用較為廣泛的一種方法，其工作流程如圖1 所示[17]。

圖1 殘差搜索法工作流程

2.2 能源數(shù)據(jù)的異構(gòu)融合

能源數(shù)據(jù)具有數(shù)量大、種類多的特點(diǎn)，通常由不同的系統(tǒng)采集得到，而各個(gè)系統(tǒng)之間的數(shù)據(jù)無法交互，難以實(shí)現(xiàn)數(shù)據(jù)共享，不利于數(shù)據(jù)的統(tǒng)一管理。為了實(shí)現(xiàn)能源數(shù)據(jù)的多源融合，需要對(duì)數(shù)據(jù)進(jìn)行清洗和去噪處理。而當(dāng)數(shù)據(jù)出現(xiàn)缺失時(shí)，將會(huì)導(dǎo)致整體數(shù)據(jù)挖掘不充分、應(yīng)用不全面，因此需要采用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行聚類處理來實(shí)現(xiàn)融合。

聚類本質(zhì)上屬于無監(jiān)督范疇，對(duì)于不同類的能源數(shù)據(jù)，需要采用不同的聚類算法。關(guān)聯(lián)規(guī)則是對(duì)不同事務(wù)之間的數(shù)據(jù)挖掘，目的是輔助決策者制定策略，最典型的關(guān)聯(lián)規(guī)則算法為Apriori 算法，其采用逐層生成測(cè)試策略，主要思路為先確定閾值，再找到頻繁屬性集X的非空子集Y，從而生成X與Y之間的關(guān)聯(lián)規(guī)則。Apriori 算法的基本流程如圖2 所示。

圖2 Apriori算法的基本流程

2.3 數(shù)據(jù)離散化處理

為了消除能源大數(shù)據(jù)中的冗余信息，需要將離散數(shù)據(jù)轉(zhuǎn)換為適用于關(guān)聯(lián)規(guī)則的數(shù)據(jù)，其基本思路是將連續(xù)數(shù)據(jù)分為多個(gè)區(qū)間，為了減少數(shù)據(jù)存儲(chǔ)的片區(qū)，并將原始樣本數(shù)據(jù)轉(zhuǎn)為離散數(shù)據(jù)，該文應(yīng)用k-means 算法將大數(shù)據(jù)轉(zhuǎn)化為離散數(shù)據(jù)集，主要原理如下：

首先定義誤差平方和函數(shù)，計(jì)算樣本xi與xj的歐式距離：

然后，進(jìn)行平方和準(zhǔn)則計(jì)算：

式中，k為聚類個(gè)數(shù)，C為聚類集合，mi為樣本均值。

緊接著定義樣本數(shù)據(jù)置信度，應(yīng)用關(guān)聯(lián)規(guī)則計(jì)算出現(xiàn)的支持度計(jì)數(shù)，計(jì)算公式如下：

式中，|db(l,o)|=|(n-o)/l|為總的數(shù)據(jù)子集個(gè)數(shù)。若支持度不超過用戶設(shè)定值，則表示在該周期內(nèi)其為強(qiáng)關(guān)聯(lián)規(guī)則。周期性關(guān)聯(lián)規(guī)則挖掘流程如圖3所示。

圖3 周期性關(guān)聯(lián)規(guī)則挖掘流程

3 算例分析

該文以SCADA 系統(tǒng)內(nèi)潮流數(shù)據(jù)作為樣本數(shù)據(jù)，其測(cè)量值的標(biāo)準(zhǔn)差為0.02，相角標(biāo)準(zhǔn)差為0.005，仿真分析某市35 kV 線路的電力數(shù)據(jù)，模擬分析4～6 月內(nèi)的潮流數(shù)據(jù)變化。實(shí)驗(yàn)每隔1 min 采集一次SCADA 系統(tǒng)內(nèi)的潮流數(shù)據(jù)，每天共1 440 個(gè)樣本數(shù)據(jù)，其存儲(chǔ)格式如表1 所示。

表1 原始數(shù)據(jù)存儲(chǔ)單元

設(shè)置聚類個(gè)數(shù)k=8，經(jīng)過分析，雖然得到的3個(gè)月內(nèi)數(shù)據(jù)聚類結(jié)果各不相同，但也有部分相似之處。為了得到統(tǒng)一的數(shù)據(jù)，首先采用聚類方法對(duì)數(shù)據(jù)結(jié)果進(jìn)行處理，然后進(jìn)行離散化處理，建立關(guān)聯(lián)規(guī)則數(shù)據(jù)庫，從而得到有功功率的離散等級(jí)，如表2 所示。

表2 能源數(shù)據(jù)P值離散等級(jí)結(jié)果

以天為單位設(shè)置樣本數(shù)據(jù)標(biāo)號(hào)，隨機(jī)選取其中72 個(gè)樣本數(shù)據(jù)為不良數(shù)據(jù)，來驗(yàn)證該文方法的可行性。對(duì)于不良數(shù)據(jù)，分別選取4 個(gè)良好樣本數(shù)據(jù)分別為T4、P4、Q5、I2，對(duì)其進(jìn)行辨識(shí)處理后生成不良數(shù)據(jù)集合?；陉P(guān)聯(lián)規(guī)則匹配發(fā)現(xiàn)T4 時(shí)刻出現(xiàn)不良電流數(shù)據(jù)，再通過測(cè)量殘差來搜索出全部數(shù)據(jù)的測(cè)量值，從而證實(shí)了T4 采樣時(shí)刻的電流數(shù)據(jù)為不良數(shù)據(jù)。對(duì)于多個(gè)數(shù)據(jù)而言，可以分別設(shè)置兩個(gè)不良數(shù)據(jù)點(diǎn)，再按照該文所述方法即可得到辨識(shí)結(jié)果，如表3 所示。

表3 多個(gè)不良數(shù)據(jù)辨識(shí)結(jié)果

若基于傳統(tǒng)的殘差算法進(jìn)行識(shí)別、排序和測(cè)量，需要計(jì)算到不再出現(xiàn)閾值外的數(shù)據(jù)為止。當(dāng)存在多個(gè)不良數(shù)據(jù)時(shí)，兩種方法所需辨識(shí)次數(shù)的對(duì)比如表4所示。從表中能夠看出，該文所提方法的識(shí)別次數(shù)較少，且綜合性能更優(yōu)。

表4 辨識(shí)次數(shù)對(duì)比

4 結(jié)束語

應(yīng)用大數(shù)據(jù)處理技術(shù)對(duì)多源異構(gòu)的能源數(shù)據(jù)進(jìn)行分析和處理，是當(dāng)今綜合能源系統(tǒng)的發(fā)展趨勢(shì)。在此背景下，該文將關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法應(yīng)用于能源系統(tǒng)中。采用隨機(jī)森林完成了數(shù)據(jù)融合，基于增量學(xué)習(xí)與離線學(xué)習(xí)的思想搭建了能源大數(shù)據(jù)的MCS-RF 框架，通過將離散數(shù)據(jù)轉(zhuǎn)為適用于關(guān)聯(lián)規(guī)則的數(shù)據(jù)，提高了不良數(shù)據(jù)的識(shí)別及能源數(shù)據(jù)狀態(tài)估計(jì)的準(zhǔn)確性。但在處理離散數(shù)據(jù)時(shí)使用了k-means聚類方法，所以計(jì)算結(jié)果容易受到主觀因素的影響。為此，在下一步研究工作中將考慮應(yīng)用HAC 層次凝聚式聚類法來處理離散數(shù)據(jù)。