唐冬來(lái),李 玉,何 為,劉友波,歐 淵,吳 磊
(1.四川中電啟明星信息技術(shù)有限公司,四川省成都市 610074;2.國(guó)網(wǎng)四川省電力公司,四川省成都市 610041;3.四川大學(xué)電氣工程學(xué)院,四川省成都市 610065)
用戶電表是指安裝在用電客戶進(jìn)戶線處的電能計(jì)量裝置,用于計(jì)量用電客戶的電能消耗情況,具有地理位置分布廣泛、類型眾多、數(shù)量龐大等特點(diǎn)[1-2]。在推動(dòng)“雙碳”戰(zhàn)略和建設(shè)新型電力系統(tǒng)的背景下,用戶電表作為電網(wǎng)末端監(jiān)測(cè)的重要設(shè)備,是推動(dòng)“電力減碳”和新型電力系統(tǒng)建設(shè)的關(guān)鍵環(huán)節(jié)之一[3-4]。為保障電網(wǎng)末端家庭智慧用能、分布式能源服務(wù)、電動(dòng)汽車與電網(wǎng)互動(dòng)(vehicle to grid,V2G)等新型電力系統(tǒng)新興業(yè)務(wù)的開(kāi)展,須通過(guò)新一代智能電表的采集數(shù)據(jù)指導(dǎo)配電臺(tái)區(qū)“源網(wǎng)荷儲(chǔ)”協(xié)同控制[5-6]。新一代智能電表以每天96 個(gè)時(shí)段頻次采集用戶的電氣數(shù)據(jù),采集頻次高、數(shù)據(jù)傳輸信道壓力大。在數(shù)據(jù)采集過(guò)程中,受電表故障、信道噪聲等因素影響,用戶電表采集數(shù)據(jù)存在大量缺失、錯(cuò)誤等異常情況,電表全量數(shù)據(jù)的采集成功率為96.5%,電表遠(yuǎn)程付費(fèi)控制單次成功率為96.2%[7-9],供電公司的用電信息采集系統(tǒng)須多次下發(fā)付費(fèi)控制指令方能執(zhí)行成功,進(jìn)而影響配電臺(tái)區(qū)“源網(wǎng)荷儲(chǔ)”控制的準(zhǔn)確性。
用戶電表采集異常數(shù)據(jù)處理的方法分為刪除法與填補(bǔ)法兩類。其中,刪除法將用戶電表采集異常值的周期數(shù)據(jù)項(xiàng)刪除,以滿足計(jì)算條件。但該方法會(huì)造成真實(shí)數(shù)據(jù)丟失,導(dǎo)致計(jì)算結(jié)果偏差更大[10-11]。填補(bǔ)法采用近似值來(lái)填補(bǔ)用戶電表的異常值,分為插值法和機(jī)器學(xué)習(xí)法。插值法利用均值、分位數(shù)、中值等進(jìn)行插補(bǔ),具有邏輯簡(jiǎn)單、計(jì)算速度快的特點(diǎn),但該方法將異常值視為線性變化值,未考慮用戶電表采集數(shù)據(jù)時(shí)序中蘊(yùn)含的變化規(guī)律,異常值修復(fù)誤差大[12-15]。機(jī)器學(xué)習(xí)法考慮了用戶電表采集數(shù)據(jù)時(shí)序變化規(guī)律,采用貝葉斯網(wǎng)絡(luò)、K近鄰、長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)等模型進(jìn)行訓(xùn)練,提高了異常值的修復(fù)精度[16-18]。但上述方法將用戶電表數(shù)據(jù)作為一個(gè)整體進(jìn)行修復(fù),未考慮不同異常類型用戶電表采集數(shù)據(jù)的差異,數(shù)據(jù)修復(fù)準(zhǔn)確性不高。
多分類器是一種組合式的模型訓(xùn)練方法。該方法將用戶電表采集異常數(shù)據(jù)集訓(xùn)練成不同的子集,每個(gè)子集的訓(xùn)練程度均有差別。然后,采用子集修復(fù)不同時(shí)段的用戶電表采集異常數(shù)據(jù),進(jìn)而形成更準(zhǔn)確的用戶電表采集異常數(shù)據(jù)修復(fù)結(jié)果[19]。多分類器在電力系統(tǒng)的故障預(yù)警、負(fù)荷預(yù)測(cè)等方面得到了應(yīng)用,表明多分類器能夠較好地學(xué)習(xí)用戶電表真實(shí)數(shù)據(jù)特征[20]。但采用多分類器進(jìn)行用戶電表數(shù)據(jù)修復(fù)訓(xùn)練時(shí),難以找到用戶電表真實(shí)時(shí)序數(shù)據(jù)來(lái)訓(xùn)練模型。
本文在多分類器的基礎(chǔ)上,采用變分自編碼器(variational autoencoder,VAE)[21]設(shè)計(jì)了一種用戶電表采集數(shù)據(jù)修復(fù)方法。首先,該方法將用戶電表采集數(shù)據(jù)中的完整區(qū)塊作為訓(xùn)練子集,將其縮減后作為子分類器,在此基礎(chǔ)上建立分類器集合,并對(duì)用戶電表采集異常數(shù)據(jù)進(jìn)行分類。然后,通過(guò)VAE 構(gòu)建模型訓(xùn)練子集,從而在用戶電表采集異常數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的真實(shí)變化規(guī)律。最后,對(duì)用戶電表采集異常數(shù)據(jù)進(jìn)行修復(fù),形成用戶電表采集數(shù)據(jù)修復(fù)集合。所提方法在無(wú)監(jiān)督環(huán)境下訓(xùn)練與修復(fù),可提高用戶電表采集數(shù)據(jù)修復(fù)的準(zhǔn)確率。
基于多分類器的用戶電表采集數(shù)據(jù)修復(fù)方法流程圖如圖1 所示。
圖1 用戶電表采集數(shù)據(jù)修復(fù)流程圖Fig.1 Flow chart of restoration of collection data from user electricity meters
1)用戶電表采集異常數(shù)據(jù)分類
首先,在包含異常值的用戶電表采集數(shù)據(jù)中獲取不含異常數(shù)值的數(shù)據(jù)段,將其作為完整數(shù)據(jù)區(qū)塊,以及分類訓(xùn)練的備選子集。然后,縮減用戶電表采集數(shù)據(jù)完整區(qū)塊的數(shù)量,直至有效完整區(qū)塊數(shù)量最小,以降低模型訓(xùn)練時(shí)間,提高模型運(yùn)行性能。在此基礎(chǔ)上,針對(duì)每個(gè)有效的完整區(qū)塊分別建立不同的子分類器。最后,在計(jì)及子分類器權(quán)重的情況下形成分類器集合,并以此對(duì)用戶電表采集異常數(shù)據(jù)進(jìn)行分類。
2)用戶電表采集異常數(shù)據(jù)修復(fù)
首先,對(duì)單類用戶電表采集異常數(shù)據(jù)進(jìn)行編碼,通過(guò)輸入的用戶電表采集數(shù)據(jù)得到標(biāo)準(zhǔn)差和均值。然后,對(duì)單類用戶電表采集異常數(shù)據(jù)重新進(jìn)行參數(shù)化,通過(guò)用戶電表采集數(shù)據(jù)的標(biāo)準(zhǔn)差和均值生成用戶電表采集數(shù)據(jù)中的蘊(yùn)含變量。在此基礎(chǔ)上,進(jìn)行單類異常數(shù)據(jù)解碼和隱含層信息分析,直至所有分類完成隱含層信息分析。最后,通過(guò)分類集合對(duì)用戶電表異常數(shù)據(jù)進(jìn)行重構(gòu)與修復(fù),并輸出修復(fù)結(jié)果。
在用戶電表采集數(shù)據(jù)的過(guò)程中,受電表故障、高速電力線載波(high-speed power line carrier,HPLC)信道噪聲等因素影響,造成采集異常數(shù)據(jù)的缺失、錯(cuò)誤等[22]。若采用含異常樣本的數(shù)據(jù)集訓(xùn)練分類模型,將導(dǎo)致異常數(shù)據(jù)分類性能大幅下降,對(duì)用戶電表采集數(shù)據(jù)異常值的修復(fù)也不準(zhǔn)確。因此,須采用正確的數(shù)據(jù)訓(xùn)練模型。
數(shù)據(jù)區(qū)塊是指具有典型特征的數(shù)據(jù)區(qū)域。完整數(shù)據(jù)區(qū)塊是指不含異常數(shù)值的數(shù)據(jù)區(qū)域,異常區(qū)塊是指含異常數(shù)值的數(shù)據(jù)區(qū)域。本文按每天96 個(gè)時(shí)段頻次采集電表數(shù)據(jù)。因此,本文完整數(shù)據(jù)區(qū)塊的提取方法是將一個(gè)時(shí)間段內(nèi)不含異常數(shù)值的數(shù)據(jù)作為一個(gè)完整數(shù)據(jù)區(qū)塊進(jìn)行提取,并以此進(jìn)行模型分類訓(xùn)練。
用戶電表采集數(shù)據(jù)異常特征分為缺失部分和異常部分。其中,缺失部分為用戶電表空值數(shù)據(jù),通過(guò)空值進(jìn)行檢測(cè)識(shí)別,缺失的用戶電表數(shù)據(jù)異常特征屬于異常樣本屬性集。異常數(shù)據(jù)為用戶電表非空值數(shù)據(jù),包括超過(guò)電表量測(cè)范圍、臺(tái)區(qū)總表與戶表之和的差異超過(guò)量測(cè)閾值、三相電表總量與分量之間的差異超過(guò)量測(cè)閾值3 類,通過(guò)比較總表與戶表量測(cè)數(shù)據(jù)差異閾值和量測(cè)范圍進(jìn)行識(shí)別,異常的用戶電表數(shù)據(jù)特征不完全屬于異常樣本屬性集。用戶電表采集數(shù)據(jù)異常特征ck可表示為:
式中:di為含異常樣本數(shù)據(jù)集中的第i個(gè)樣本值;Ea為用戶電表采集異常樣本屬性集;dil為用戶電表采集第i個(gè)樣本值的第l個(gè)異常特征值;dnull為用戶電表采集數(shù)據(jù)的缺失值;“∧”表示交運(yùn)算。
含異常樣本的用戶電表采集數(shù)據(jù)集中,每個(gè)采集樣本都有異常樣本屬性,即每個(gè)電表異常采集曲線的數(shù)據(jù)中有不同的缺失數(shù)據(jù)點(diǎn)或異常數(shù)據(jù)點(diǎn)。若多個(gè)電表的缺失數(shù)據(jù)點(diǎn)或異常數(shù)據(jù)點(diǎn)時(shí)間相同,則構(gòu)成一類異常區(qū)塊,并按同一個(gè)屬性子集處理。
異常區(qū)塊可以視為含異常樣本數(shù)據(jù)集Dall在異常樣本屬性子集Eb的投影,屬于異常樣本屬性子集Eb的 第i個(gè) 樣 本 值 用di[Eb]表 示,異 常 區(qū) 塊Qa可 表示為:
因此,在每個(gè)用戶電表采集異常區(qū)塊Qa中,均包含異常數(shù)據(jù)。
用戶電表采集數(shù)據(jù)第i個(gè)完整數(shù)據(jù)區(qū)塊數(shù)據(jù)Qci可表示為:
式中:Dalli為含第i個(gè)異常樣本的數(shù)據(jù)集;Qai為含第i個(gè)異常樣本的異常區(qū)塊。
通過(guò)式(3)獲得的用戶電表采集數(shù)據(jù)完整區(qū)塊數(shù)量龐大,且多個(gè)完整區(qū)塊間存在部分特征重疊,若將全部完整區(qū)塊用于模型訓(xùn)練,將導(dǎo)致模型性能降低。因此,本文在全部完整區(qū)塊中篩選出可以代表完整區(qū)塊的典型區(qū)塊,以縮減用于模型訓(xùn)練的完整區(qū)塊數(shù)量。
縮減用戶電表完整數(shù)據(jù)區(qū)塊的規(guī)則為:將用戶電表完整數(shù)據(jù)區(qū)塊時(shí)段內(nèi)的電量、電壓、電流、有功功率、功率因數(shù)的每天96 個(gè)時(shí)段曲線進(jìn)行比較,若短時(shí)段完整數(shù)據(jù)區(qū)塊曲線與長(zhǎng)時(shí)段曲線的一部分相似,則縮減短時(shí)段完整數(shù)據(jù)區(qū)塊,從而降低完整區(qū)塊數(shù)量,直至所有完整數(shù)據(jù)區(qū)塊時(shí)段曲線相似度不重疊,即為最小完整數(shù)據(jù)區(qū)塊數(shù)量。曲線相似度分析采用歐氏距離量度,限于篇幅,本文不再贅述。
貪心算法(greedy algorithm,GA)是一種集合覆蓋算法,該方法在每一步執(zhí)行過(guò)程中均求解當(dāng)前局部最優(yōu)狀態(tài)并不斷迭代,直至整體逼近最優(yōu)求解。但GA 在搜索過(guò)程中若找不出滿足條件的特征屬性,則陷入局部收斂[23-24]。因此,本文將GA 改進(jìn)為雙向搜索,在傳統(tǒng)開(kāi)始點(diǎn)向結(jié)果點(diǎn)正向搜索的基礎(chǔ)上,增加了從結(jié)果點(diǎn)到開(kāi)始點(diǎn)的逆向搜索。若正向搜索和逆向搜索重疊,則完成全局逼近最優(yōu)求解。
在改進(jìn)GA 縮減完整區(qū)塊的方法中,當(dāng)輸入候選完整區(qū)塊Qcd不為空值時(shí),隨機(jī)構(gòu)造一個(gè)包含參數(shù)集λ的完整區(qū)塊Qe,并進(jìn)行迭代縮減。在迭代縮減環(huán)節(jié)中,GA 集合Qci包含未被覆蓋的元素集合,該元素集合中擁有的特征為Ga;通過(guò)GA 對(duì)Qci正向搜索以縮減完整區(qū)塊得到Qg;通過(guò)GA 對(duì)Qci反向搜索以縮減完整區(qū)塊得到Qh;正、反方向搜索均向同一方向逼近,直至Qg與Qh重疊,則完成用戶電表采集數(shù)據(jù)全局逼近最優(yōu)求解。
以每個(gè)用戶電表采集數(shù)據(jù)完整區(qū)塊訓(xùn)練子分類器,子分類器中可充分學(xué)習(xí)到該完整區(qū)塊的特征信息。因不同用戶電表采集數(shù)據(jù)特征對(duì)最終分類結(jié)果的影響不同,針對(duì)每個(gè)子分類器設(shè)置不同的權(quán)重。在此基礎(chǔ)上建立分類器集合,并對(duì)用戶電表采集數(shù)據(jù)進(jìn)行異常數(shù)據(jù)分類。
隨機(jī)森林(random forest,RF)是一種分類器,該分類器從原始數(shù)據(jù)中提取多個(gè)訓(xùn)練樣本,并對(duì)每個(gè)樣本建立決策樹(shù)進(jìn)行單獨(dú)訓(xùn)練,構(gòu)建不同的訓(xùn)練樣本集,從而擴(kuò)大決策樹(shù)與各子樣本訓(xùn)練集之間的差異。然后,采用決策投票的方式組合多個(gè)決策樹(shù),從而得到樣本的分類結(jié)果[25]。RF 可以處理含大量數(shù)據(jù)的用戶電表采集完整區(qū)塊數(shù)據(jù),具有算法運(yùn)行速度快、分類結(jié)果準(zhǔn)確率高的特點(diǎn)。因此,采用RF 建立子分類器和分類器集合。
在用戶電表采集數(shù)據(jù)子分類器訓(xùn)練中,采用信息熵衡量子分類器的重要程度,熵值越小,則子分類器的不確定性越小,即重要性越高;反之,熵值越大,則重要性越小。計(jì)算子分類器的信息熵值El如下:
式中:na為子分類器的個(gè)數(shù);oj為子分類器j所占的信息量。
然后,計(jì)算子分類器的權(quán)重wl如下:
式中:Elj為子分類器j的信息熵值。
在用戶電表采集數(shù)據(jù)子分類器訓(xùn)練完成后,得到nb個(gè)子分類器,并形成分類器集合,通過(guò)多數(shù)投票決策的方式得到用戶電表采集數(shù)據(jù)分類器集合的最終分類結(jié)果。RF 最終的分類決策輸出結(jié)果Rout可表示為:
式中:A(rj)為子分類器j決策樹(shù)輸出數(shù)據(jù);rj為j決策樹(shù)輸出數(shù)據(jù);wlj為不同子分類器權(quán)重。
最后,采用RF 最終的分類決策結(jié)果對(duì)輸入的用戶電表采集異常數(shù)據(jù)進(jìn)行分類。
VAE 是一種深度隱含空間的生成模型。VAE包含編碼器、重新參數(shù)化和解碼器3 個(gè)部分,可挖掘輸入數(shù)據(jù)的規(guī)律與隱含信息,實(shí)現(xiàn)缺失數(shù)據(jù)的推理重構(gòu),具有強(qiáng)大的缺失數(shù)據(jù)修復(fù)能力[26-27]。在VAE的結(jié)構(gòu)中,編碼器用于對(duì)輸入樣本數(shù)據(jù)的方差和均值進(jìn)行計(jì)算與推理;重新參數(shù)化用于計(jì)算輸入樣本數(shù)據(jù)方差和均值的專屬正態(tài)分布特征;解碼器對(duì)重新參數(shù)化的特征進(jìn)行解碼,重構(gòu)生成數(shù)據(jù)。VAE 異常數(shù)據(jù)修復(fù)框架如圖2 所示。圖中:m為用戶電表采集異常分類數(shù)量;zm為輸入VAE 的原始數(shù)據(jù)分類樣本;fm為VAE 重新參數(shù)化的采樣變量;zam為VAE輸出的生成修復(fù)樣本數(shù)據(jù)。
圖2 VAE 異常數(shù)據(jù)修復(fù)框架Fig.2 Framework of VAE abnormal data restoration
VAE 中,編碼器用于計(jì)算用戶電表采集異常原始子分類樣本的方差和均值;重新參數(shù)化用于在用戶電表采集異常數(shù)據(jù)子分類的專屬正態(tài)分布中進(jìn)行采樣變量獲得推理特征Cm;解碼器則對(duì)推理特征進(jìn)行解碼,得出不同分類的用戶電表采集異常數(shù)據(jù)類型的隱含變量Sm:
式中:δm為分類m的用戶電表采集異常數(shù)據(jù)方差;hm為分類m的用戶電表采集異常數(shù)據(jù)均值。
通過(guò)解碼器得到各子分類用戶電表采集異常數(shù)據(jù)的隱含變量后,考慮各子分類隱含變量之間的關(guān)系,對(duì)所有子分類集合進(jìn)行整體解耦,從而避免單個(gè)子隱含類解耦存在的關(guān)聯(lián)分析不足的問(wèn)題。
在分類集合解耦過(guò)程中,各子分類的隱含變量相互獨(dú)立,其并發(fā)似然概率為各子分類概率的積。因此,各子分類的改變不會(huì)影響其他子分類,即不同用戶電表采集異常數(shù)據(jù)子分類VAE 訓(xùn)練程度不同,從而滿足各子分類用戶電表采集異常數(shù)據(jù)特征。然后,采用分類集合進(jìn)行整體解耦并生成修復(fù)數(shù)據(jù)樣本。分類集合整體解耦的目標(biāo)函數(shù)Bout可表示為:
式中:nh為VAE 中子分類的數(shù)量;ng為VAE 每次訓(xùn)練的子分類數(shù)量;vm為子分類m的修復(fù)數(shù)據(jù)邊界值;ψ為超參數(shù);um為子分類m的最小正態(tài)分布。
VAE 訓(xùn)練的目標(biāo)為重新參數(shù)化中的用戶電表采集數(shù)據(jù)正態(tài)分布值與正態(tài)分布的相對(duì)熵散度最小。VAE 解碼器輸出的用戶電表采集修復(fù)數(shù)據(jù)與編碼器輸入的用戶電表采集數(shù)據(jù)相似。VAE 損失函數(shù)lall可表示為:
式中:lstudy為學(xué)習(xí)損失,即確保VAE 重新參數(shù)化中學(xué)習(xí)的正態(tài)分布、正態(tài)分布的相對(duì)熵散度與真實(shí)值相似;lrebuild為重建損失,即確保VAE 解碼器輸出與編碼器輸入的用戶電表采集數(shù)據(jù)相似。
式中:nd為VAE 中學(xué)習(xí)的用戶電表采集異常數(shù)據(jù)分類數(shù)量。
式中:no為VAE 中重建的用戶電表采集異常數(shù)據(jù)分類數(shù)量。
采用中國(guó)西部某城市小區(qū)的用戶電表真實(shí)采集數(shù)據(jù)驗(yàn)證本文所提方法。用戶電表異常數(shù)據(jù)的真實(shí)值無(wú)法獲取,故采用完整的用戶電表采集數(shù)據(jù)來(lái)構(gòu)建缺失數(shù)據(jù)集,并將修復(fù)后的用戶電表采集數(shù)據(jù)與真實(shí)數(shù)據(jù)進(jìn)行比較,以驗(yàn)證所提方法的有效性??紤]城市小區(qū)總表和用戶電表線損校驗(yàn)規(guī)則等情況,本文方法訓(xùn)練和數(shù)據(jù)修復(fù)時(shí)均采用城市小區(qū)電表的所有數(shù)據(jù)。訓(xùn)練樣本選擇的用戶電表數(shù)量為該配電臺(tái)區(qū)下276 個(gè)單相用戶電表2022 年全年的數(shù)據(jù)。采集頻次為每天96 個(gè)時(shí)段,采集和修復(fù)的數(shù)據(jù)類型為電壓、電流、有功功率、無(wú)功功率、功率因數(shù)、電量。所用的276 個(gè)用戶電表數(shù)據(jù)自身帶有一定缺陷,經(jīng)人工依據(jù)行業(yè)標(biāo)準(zhǔn)校核后,將該數(shù)據(jù)假定為真實(shí)數(shù)據(jù)。
本文仿真方法的硬件平臺(tái)采用Intel Core i7 8700 中央處理器,處理器頻率為3.2 GHz,內(nèi)存為16 GB;軟件平臺(tái)操作系統(tǒng)為Windows 10,算法采用Python 實(shí)現(xiàn)。在訓(xùn)練過(guò)程中,編碼器層數(shù)設(shè)置為1,節(jié)點(diǎn)大小設(shè)置為3 000,訓(xùn)練次數(shù)設(shè)置為400 和800,激活函數(shù)選擇Sigmoid,初始學(xué)習(xí)率設(shè)置為0.000 2,批 大 小 為64,并 與LSTM 網(wǎng) 絡(luò)[28]、生 成 對(duì) 抗 網(wǎng) 絡(luò)(generative adversarial network,GAN)[29]等 主 流 用戶電表數(shù)據(jù)修復(fù)方法進(jìn)行對(duì)比。
4.1.1 縮減完整區(qū)塊訓(xùn)練分析
在GA 訓(xùn)練過(guò)程中,采用精準(zhǔn)率和召回率來(lái)衡量GA 完整區(qū)塊縮減精度。其中,精準(zhǔn)率又稱查準(zhǔn)率,是指在預(yù)測(cè)縮減完整區(qū)塊的數(shù)量中,正確縮減完整區(qū)塊所占的比例,其值越大,說(shuō)明完整區(qū)塊縮減越準(zhǔn)確;召回率又稱查全率,是指預(yù)測(cè)正確縮減的完整區(qū)塊占總正確縮減完整區(qū)塊的比例。采用GA 雙向搜索法與集合覆蓋法[30]比較精準(zhǔn)率和召回率。集合覆蓋方法在縮減數(shù)據(jù)集領(lǐng)域廣泛應(yīng)用,通用性強(qiáng)。因此,采用該方法與GA 雙向搜索法進(jìn)行比較。GA 縮減完整區(qū)塊訓(xùn)練如附錄A 圖A1 所示。
由附錄A 圖A1 可見(jiàn),在精準(zhǔn)率方面,高精準(zhǔn)率是縮減完整區(qū)塊的基礎(chǔ),在GA 訓(xùn)練過(guò)程中,雙向搜索法與集合覆蓋法的精準(zhǔn)率均維持在較高的水平。隨著訓(xùn)練次數(shù)的增加,雙向搜索法的精準(zhǔn)率在60 次訓(xùn)練附近時(shí)收斂為98.6%,集合覆蓋法的精準(zhǔn)率在80 次訓(xùn)練附近時(shí)收斂為91.4%。在召回率方面,隨著訓(xùn)練次數(shù)的增加,縮減完整區(qū)塊的問(wèn)題不斷得到解決,召回率不斷提升,雙向搜索法的召回率在140 次訓(xùn)練附近時(shí)收斂為98.5%,集合覆蓋法的召回率在180 次訓(xùn)練附近時(shí)收斂為91.5%。由此可見(jiàn),在縮減完整區(qū)塊中,GA 雙向搜索法優(yōu)于集合覆蓋法。
4.1.2 異常數(shù)據(jù)分類訓(xùn)練分析
采用RF 進(jìn)行異常數(shù)據(jù)分類訓(xùn)練中,訓(xùn)練次數(shù)和RF 分類的正確率有不同程度的影響,訓(xùn)練次數(shù)少于異常數(shù)據(jù)分類類別時(shí),RF 的分類誤差較大;訓(xùn)練次數(shù)過(guò)多時(shí),將消耗大量的訓(xùn)練空間和時(shí)間資源。樸素貝葉斯分類(native Bayesian classification,NBC)算法[31]結(jié)構(gòu)穩(wěn)定,損失誤差小,行業(yè)通用性強(qiáng)。因此,選擇NBC 算法與RF 進(jìn)行異常數(shù)據(jù)分類訓(xùn)練比較,異常數(shù)據(jù)分類訓(xùn)練分析如附錄A 圖A2所示。由附錄A 圖A2 可見(jiàn),隨著訓(xùn)練次數(shù)的增加,異常數(shù)據(jù)分類損失率不斷下降,RF 異常數(shù)據(jù)分類訓(xùn)練次數(shù)在240 次左右時(shí)收斂在0.5%處;NBC 異常數(shù)據(jù)分類訓(xùn)練次數(shù)在300 次時(shí)收斂在0.7%處。由此可見(jiàn),RF 較NBC 算法在更少的訓(xùn)練次數(shù)下取得了更少的損失誤差。
4.1.3 異常數(shù)據(jù)修復(fù)訓(xùn)練分析
在異常數(shù)據(jù)修復(fù)訓(xùn)練中,損失函數(shù)包括學(xué)習(xí)損失和重建損失,訓(xùn)練次數(shù)對(duì)異常數(shù)據(jù)修復(fù)的影響程度不同。當(dāng)模型訓(xùn)練次數(shù)較少時(shí),VAE 未充分學(xué)習(xí),不能獲得最優(yōu)求解;訓(xùn)練次數(shù)過(guò)多時(shí),會(huì)造成VAE 過(guò)擬合。采用LSTM 網(wǎng)絡(luò)和GAN 與VAE 進(jìn)行異常數(shù)據(jù)修復(fù)訓(xùn)練比較,如圖3 所示。
圖3 異常數(shù)據(jù)修復(fù)訓(xùn)練分析Fig.3 Analysis of abnormal data restoration training
由圖3 可見(jiàn),VAE 總損失由VAE 學(xué)習(xí)損失和VAE 重建損失構(gòu)成。隨著訓(xùn)練次數(shù)的增加,VAE學(xué)習(xí)損失和VAE 重建損失不斷下降,在訓(xùn)練次數(shù)為110 次附近時(shí)分別收斂在0.11%和0.09%處;VAE總損失在訓(xùn)練次數(shù)為110 附近時(shí)收斂在0.2%處;GAN 損失在訓(xùn)練次數(shù)為150 次附近時(shí)收斂在0.4%處;LSTM 網(wǎng)絡(luò)損失在訓(xùn)練次數(shù)為180 次附近時(shí)收斂在0.5% 處。由此可見(jiàn),VAE 較LSTM 網(wǎng)絡(luò)、GAN 在更少的訓(xùn)練次數(shù)下取得了更少的損失誤差。
均方根誤差(root mean squared error,RMSE)是一種衡量異常數(shù)據(jù)修復(fù)效果的指標(biāo),為修復(fù)數(shù)據(jù)值與真實(shí)值偏差的平方與觀測(cè)次數(shù)比值的平方根[32]。RMSE 可減少誤差互相抵消的問(wèn)題,更加準(zhǔn)確地反映用戶電表采集異常數(shù)據(jù)修復(fù)誤差的絕對(duì)值。 平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)是用戶采集異常數(shù)據(jù)修復(fù)誤差百分比絕對(duì)值的平均值,用于衡量用戶采集異常數(shù)據(jù)修復(fù)性能[33]。
異常數(shù)據(jù)分為缺失數(shù)據(jù)和錯(cuò)誤數(shù)據(jù),為了簡(jiǎn)化計(jì)算,在模擬異常數(shù)據(jù)時(shí)將用戶電表采集缺失數(shù)據(jù)分為完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)和非隨機(jī)缺失(missing not at random,MNAR)3 類。其中,MCAR 中缺失數(shù)據(jù)不依賴任何變量;MAR 中缺失數(shù)據(jù)依賴其他完整變量;MNAR 中缺失數(shù)據(jù)依賴不完整的變量。將錯(cuò)誤數(shù)據(jù)模擬為超出用戶電表計(jì)量量程外的數(shù)據(jù)。
4.2.1 異常數(shù)據(jù)分類準(zhǔn)確率分析
異常數(shù)據(jù)分類準(zhǔn)確率是評(píng)估改進(jìn)分類器異常分類是否準(zhǔn)確的核心指標(biāo),為簡(jiǎn)化計(jì)算,將模擬的用戶電表異常數(shù)據(jù)分為MCAR、MAR、MNAR、錯(cuò)誤數(shù)據(jù)4 類,采用多分類器模型對(duì)異常數(shù)據(jù)進(jìn)行分類,其異常數(shù)據(jù)分類與模擬數(shù)據(jù)類型一致,則異常數(shù)據(jù)分類準(zhǔn)確。多分類器模型分類準(zhǔn)確的數(shù)據(jù)與模擬數(shù)據(jù)總數(shù)的比值即為異常數(shù)據(jù)分類準(zhǔn)確率。
在單個(gè)用戶電表采集的一年245 280 條電壓、電流、有功功率、無(wú)功功率、功率因數(shù)、電量數(shù)據(jù)中,每類數(shù)據(jù)各模擬1 000 條MCAR、MAR、MNAR、錯(cuò)誤 數(shù) 據(jù)。其 中,1 月1 日 至2 月19 日、3 月1 日 至4 月19 日、5 月1 日 至6 月19 日、7 月1 日 至8 月19 日 的4 個(gè)50 天時(shí)間段內(nèi),每天分別模擬MCAR、MAR、MNAR、錯(cuò)誤數(shù)據(jù)各20 條,模擬的數(shù)據(jù)點(diǎn)為時(shí)段13—20(03:15—05:00)、時(shí) 段77—88(19:15—22:00)。分別采用GA 與RF 組合的多分類器與NBC 比較用戶電表采集異常數(shù)據(jù)分類準(zhǔn)確率,如附錄A 表A1 所 示。
由附錄A 表A1 可見(jiàn),因錯(cuò)誤數(shù)據(jù)為超出用戶電表計(jì)量范圍外的數(shù)據(jù),容易辨識(shí),所以GA 與RF組合的多分類器與NBC 的錯(cuò)誤數(shù)據(jù)分類一致。在MCAR、MAR、MNAR 數(shù)據(jù)中,GA 與RF 組合的多分類器利用完整區(qū)塊進(jìn)行訓(xùn)練,訓(xùn)練效果好于使用缺失數(shù)據(jù)訓(xùn)練的NBC。GA 與RF 組合的多分類器整體異常數(shù)據(jù)分類準(zhǔn)確率為99.6%,高于NBC 方法,因此,其多分類器缺失數(shù)據(jù)分類更準(zhǔn)確。
4.2.2 異常數(shù)據(jù)修復(fù)誤差分析
1)不同類型異常數(shù)據(jù)修復(fù)分析
在真實(shí)的用戶電表數(shù)據(jù)采集中,異常數(shù)據(jù)包括采集缺失數(shù)據(jù)和采集錯(cuò)誤數(shù)據(jù)兩類。假設(shè)用戶電表采集成功率為96.5%,則異常數(shù)據(jù)包括采集3.5%的缺失數(shù)據(jù)和采集錯(cuò)誤數(shù)據(jù),若無(wú)采集錯(cuò)誤數(shù)據(jù),則異常數(shù)據(jù)等同于采集缺失數(shù)據(jù)。但受采集和信道噪聲影響,用戶電表采集數(shù)據(jù)中存在采集錯(cuò)誤數(shù)據(jù),因此,參照文獻(xiàn)[34]中的最大采集錯(cuò)誤數(shù)據(jù)率17.17%,則異常數(shù)據(jù)率為20.67%。若配電臺(tái)區(qū)存在用戶設(shè)備產(chǎn)生干擾高頻電磁波的情況,則用戶電表采集異常數(shù)據(jù)率高達(dá)50%[35]。因此,為驗(yàn)證在極端情況下用戶電表異常數(shù)據(jù)修復(fù)效果,將異常數(shù)據(jù)率設(shè)定為50%。本文用戶電表修復(fù)的數(shù)據(jù)包括電壓、電流、有功功率、無(wú)功功率、功率因數(shù)、電量,各類數(shù)據(jù)的修復(fù)方法一致。
本文異常數(shù)據(jù)修復(fù)誤差分析中,選擇100 個(gè)用戶電表4 天的數(shù)據(jù),每天包含96 個(gè)時(shí)段的電壓、電流、有功功率、無(wú)功功率、功率因數(shù)、電量數(shù)據(jù)。按異常率50%來(lái)模擬數(shù)據(jù),其中,第1、3、4 天分別模擬MCAR、MNAR 和 錯(cuò) 誤 數(shù) 據(jù) 各4 組:第1 組 為 時(shí) 段5—8(01:15—02:00);第2 組 為 時(shí) 段13—20(03:15—05:00);第3 組為時(shí)段29—44(07:15—11:00);第4 組為時(shí)段57—76(14:15—19:00)。第2 天模擬MAR 數(shù)據(jù)6 組,每隔4 h 連續(xù)缺失8 個(gè)時(shí)段數(shù)據(jù);并采用多分類器、LSTM 網(wǎng)絡(luò)、GAN 分別進(jìn)行異常數(shù)據(jù)修復(fù),50%異常數(shù)據(jù)修復(fù)平均誤差率如表1 所示。表1 可見(jiàn),多分類器方法適用于用戶電表的電壓、電流、有功功率、無(wú)功功率、功率因數(shù)、電量數(shù)據(jù),且在異常數(shù)據(jù)率為50%時(shí),MAPE 為2.65%,低于LSTM 網(wǎng)絡(luò)和GAN 方法。
表1 50%異常數(shù)據(jù)修復(fù)平均誤差率Table 1 Average error rate for 50% abnormal data restoration
2)不同異常原因數(shù)據(jù)修復(fù)分析
用戶電表數(shù)據(jù)異常原因主要包括時(shí)鐘超差、器件損壞等引起的電表故障和HPLC 信道噪聲。不同原因造成的數(shù)據(jù)異常特征存在差異,且不同用戶類型的電表采集數(shù)據(jù)也存在差異。因此,本文根據(jù)已知不同用戶類型的電表故障、HPLC 信道噪聲數(shù)據(jù)特征來(lái)模擬異常數(shù)據(jù),以檢驗(yàn)所提方法的修復(fù)效果。
本文以電表故障和HPLC 信道噪聲引起的錯(cuò)誤數(shù)據(jù)為例,進(jìn)行不同異常原因數(shù)據(jù)修復(fù)分析說(shuō)明。選擇該城市小區(qū)內(nèi)居民家庭用戶、商業(yè)用戶電表各10 個(gè)20 天(每天96 個(gè)時(shí)段)的電壓、電流、有功功率、無(wú)功功率、功率因數(shù)、電量數(shù)據(jù)。按異常率50%來(lái)模擬數(shù)據(jù),前10 天模擬電表故障數(shù)據(jù),后10 天模擬HPLC 信道噪聲數(shù)據(jù),每天的異常數(shù)據(jù)分 為4 組:第1 組 為 時(shí) 段5—8(01:15—02:00);第2 組 為 時(shí) 段13—20(03:15—05:00);第3 組 為時(shí)段29—44(07:15—11:00);第4 組為時(shí)段57—76(14:15—19:00)。采用多分類器、LSTM 網(wǎng)絡(luò)、GAN 分別進(jìn)行異常數(shù)據(jù)修復(fù),不同異常原因數(shù)據(jù)修復(fù)分析如表2 所示。
表2 不同異常原因數(shù)據(jù)修復(fù)分析Table 2 Data restoration analysis of different abnormal causes
由表2 可見(jiàn),采用多分類器方法,在電表故障異常數(shù)據(jù)為50%的情況下,居民用戶電表的MAPE 為2.65%,商業(yè)用戶電表的MAPE 為2.67%;在信道噪聲異常數(shù)據(jù)為50% 的情況下,居民用戶電表的MAPE 為2.62%、商業(yè)用戶電表的MAPE 為2.51%。該方法的數(shù)據(jù)均優(yōu)于GAN 和LSTM 方法,且在處理信道噪聲數(shù)據(jù)修復(fù)時(shí)的MAPE 小于電表故障數(shù)據(jù)。
3)異常數(shù)據(jù)修復(fù)結(jié)果分析
限于篇幅,本文以用戶電表有功功率曲線修復(fù)為例,進(jìn)行異常數(shù)據(jù)修復(fù)說(shuō)明。選擇一個(gè)用戶電表4 天(每天96 個(gè)時(shí)段)的有功功率數(shù)據(jù),根據(jù)表1 的數(shù)據(jù)模擬規(guī)則,按天依次模擬50% 的MCAR、MAR、MNAR 缺失和錯(cuò)誤數(shù)據(jù),并采用多分類器、LSTM 網(wǎng)絡(luò)、GAN 分別進(jìn)行異常數(shù)據(jù)修復(fù),異常數(shù)據(jù)修復(fù)曲線如圖4 所示。
由圖4 可見(jiàn),在50%的用戶電表采集數(shù)據(jù)異常率下,LSTM 修復(fù)方法誤差較大,尤其在該用戶的早、晚用電高峰期修復(fù)數(shù)據(jù)功率曲線偏差大。相較之下,GAN 修復(fù)方法采用了判別網(wǎng)絡(luò)進(jìn)行生成數(shù)據(jù)修復(fù),修復(fù)后功率曲線偏差較小。而多分類器方法按不同的用戶功率數(shù)據(jù)分類進(jìn)行訓(xùn)練并進(jìn)行功率曲線修復(fù)。因此,本文所提多分類器方法修復(fù)的功率曲線偏差最小。
4)不同異常率下的修復(fù)誤差分析
在不同異常率的情況下,用戶電表采集數(shù)據(jù)修復(fù)方法的RMSE 和MAPE 均不同。配電臺(tái)區(qū)內(nèi)用戶設(shè)備產(chǎn)生高頻電磁波的強(qiáng)度與用戶電表采集異常數(shù)據(jù)率相關(guān)。而異常數(shù)據(jù)率過(guò)大時(shí),會(huì)造成VAE 編碼器推理得到方差和均值誤差超過(guò)上限,導(dǎo)致VAE解碼器生成的數(shù)據(jù)MAPE 過(guò)大,數(shù)據(jù)無(wú)法使用。用戶電表在高頻電磁波干擾的極端條件下,異常數(shù)據(jù)率高達(dá)50%。為驗(yàn)證在極端情況下用戶電表異常數(shù)據(jù)修復(fù)效果,將用戶電表采集異常數(shù)據(jù)率設(shè)定為10%~70%,并分別采用多分類器、LSTM 網(wǎng)絡(luò)、GAN 進(jìn)行數(shù)據(jù)修復(fù),其修復(fù)RMSE 和MAPE 分別如表3、表4 所示。
表4 異常數(shù)據(jù)修復(fù)的MAPETable 4 MAPE of abnormal data restoration
用戶電表數(shù)據(jù)包含多種異常數(shù)據(jù)類型,而每種異常數(shù)據(jù)均具有不同的典型特征。所提方法在訓(xùn)練過(guò)程中,模型通過(guò)歷史數(shù)據(jù)充分學(xué)習(xí)到每類異常數(shù)據(jù)的特征,并根據(jù)不同的用戶電表異常數(shù)據(jù)類型選用與之對(duì)應(yīng)的VAE 推理重構(gòu)數(shù)據(jù)。隨著異常數(shù)據(jù)率的增加,編碼器推理得到方差和均值誤差不斷增大,而解碼器生成的誤差也越大,即可信度越小。圖4 中,異常數(shù)據(jù)時(shí)間段越長(zhǎng),VAE 修復(fù)數(shù)據(jù)誤差越大。由表3、表4 可見(jiàn),在異常數(shù)據(jù)率為10%的情況下,多分類器異常數(shù)據(jù)MAPE 為0.22%,較GAN、LSTM 網(wǎng)絡(luò)方法分別減少2.77%、5.38%。在實(shí)際工程應(yīng)用中,用戶電表異常數(shù)據(jù)率通常在30%以內(nèi),而在高頻電磁波干擾的極端條件下,異常數(shù)據(jù)率高達(dá)50%。在考慮異常數(shù)據(jù)率裕度的情況下,將異常數(shù)據(jù)率上限設(shè)置為60%。在此條件下,異常數(shù)據(jù)分類依賴歷史數(shù)據(jù)訓(xùn)練得出,VAE 推理得到方差和均值誤差增大,造成了解碼器生成的誤差已接近工程應(yīng)用上限,所提方法異常數(shù)據(jù)的MAPE 為2.8%,較GAN、LSTM 網(wǎng)絡(luò)方法分別減少了8.71%、11.21%。電表數(shù)據(jù)MAPE 為3.5%時(shí),仍可進(jìn)行遠(yuǎn)程付費(fèi)控制、線損分析等工作。由此可見(jiàn),在異常數(shù)據(jù)率為60%時(shí),本文方法MAPE 為2.8%,仍滿足工程應(yīng)用要求,且修復(fù)精度較GAN 和LSTM 高。而在異常數(shù)據(jù)率為70%時(shí),所提方法的VAE 推理得到的方差和均值誤差已超過(guò)上限,其解碼器生成的MAPE 為17.75%,已不能滿足工程應(yīng)用要求。
針對(duì)當(dāng)前用戶電表采集數(shù)據(jù)修復(fù)方法中存在的時(shí)序變化規(guī)律挖掘不足、異常值修復(fù)誤差大的問(wèn)題,提出了一種基于改進(jìn)多分類器的用戶電表采集數(shù)據(jù)修復(fù)方法。該方法對(duì)多分類器結(jié)構(gòu)進(jìn)行了改進(jìn),將用戶電表采集數(shù)據(jù)中的完整區(qū)塊用于訓(xùn)練模型,以減少異常數(shù)據(jù)分類和修復(fù)誤差;通過(guò)VAE 學(xué)習(xí)每類異常數(shù)據(jù)的變化規(guī)律,并采用分類集合方式生成修復(fù)數(shù)據(jù)。算例以某小區(qū)用戶電表進(jìn)行仿真,所提方法異常數(shù)據(jù)修復(fù)質(zhì)量與RF 和VAE 訓(xùn)練程度相關(guān),其訓(xùn)練程度越高,則所提算法異常數(shù)據(jù)修復(fù)誤差率越小。算例結(jié)果表明,在不同異常數(shù)據(jù)率下,該方法較LSTM 網(wǎng)絡(luò)、GAN 具有更好的異常數(shù)據(jù)修復(fù)效果。
在用戶電表異常數(shù)據(jù)率越限時(shí),所提方法數(shù)據(jù)修復(fù)誤差較大。后續(xù)研究重點(diǎn)為優(yōu)化VAE 結(jié)構(gòu),從而降低所提方法在用戶電表異常數(shù)據(jù)率越限時(shí)的修復(fù)誤差。
附錄見(jiàn)本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。