李曉蕾,劉 昊,牛斌斌,夏 越,袁少光,毛萬登
(1.國網(wǎng)河南省電力公司,河南 鄭州 450000;2.國網(wǎng)河南省電力公司電力科學(xué)研究院,河南 鄭州 450052;3.中國農(nóng)業(yè)大學(xué)信息電氣工程學(xué)院,北京 100083)
準(zhǔn)確完整的拓?fù)潢P(guān)系是臺區(qū)精益化管理的基礎(chǔ),尤其是用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序,對于客戶報修定位、線損管理、臺區(qū)變壓器三相不平衡治理具有重要作用。部分老舊小區(qū)、沿街門面線路復(fù)雜,同時不法用戶違約用電,私自搭接線路,臺區(qū)用戶拓?fù)潢P(guān)系常常不準(zhǔn)確甚至缺失,電網(wǎng)工作人員在不停電狀態(tài)下難以識別臺區(qū)的拓?fù)潢P(guān)系。
當(dāng)前,臺區(qū)拓?fù)潢P(guān)系識別主要集中在研制基于端對端通信的設(shè)備或裝置識別用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序。文獻(xiàn)[1]提出了一種基于電力線載波通信的臺區(qū)拓?fù)潢P(guān)系識別方案。文獻(xiàn)[2]提出了基于電力載波信號法與脈沖電流法相結(jié)合的臺區(qū)拓?fù)潢P(guān)系識別。文獻(xiàn)[3]提出了基于工頻通信技術(shù)的臺區(qū)拓?fù)潢P(guān)系識別。基于端對端通信的設(shè)備或裝置開展臺區(qū)拓?fù)潢P(guān)系識別,需要配電運檢人員手持設(shè)備逐個臺區(qū)現(xiàn)場核查,耗費大量人力、物力,效率低下,無法開展實時大批量的臺區(qū)拓?fù)潢P(guān)系數(shù)據(jù)核查。
隨著用電信息采集系統(tǒng)的推廣應(yīng)用,電網(wǎng)公司積累了海量變壓器和用戶監(jiān)測數(shù)據(jù)。充分挖掘用電信息采集系統(tǒng)的量測類大數(shù)據(jù)價值,從配電變壓器、用戶的電壓、電流異?,F(xiàn)象著手,快速識別臺區(qū)拓?fù)潢P(guān)系問題數(shù)據(jù)是切實可行的。因此,提出了一種改進(jìn)二叉樹支持向量機的低壓臺區(qū)用戶拓?fù)潢P(guān)系識別方法,基于電壓曲線波動相似性大小快速識別用戶連接變壓器相序,以及與變壓器的連接關(guān)系是否正確。經(jīng)驗證,該方法所需人力成本低,準(zhǔn)確性高,可操作性強。
低壓臺區(qū)由于用戶用電的隨機性,電壓時刻在波動,電氣距離較近的用戶電壓曲線常常比較相似,而電氣距離較遠(yuǎn)的用戶電壓曲線相似度比較低。相應(yīng)地,連接在供電變壓器同一個相序的用戶電壓曲線波動比較相似,不同相序的用戶電壓曲線波動相似性比較差;連接在同一個供電變壓器的用戶電壓曲線波動比較相似,不同供電變壓器的用戶電壓曲線波動相似性比較差。因此,可以通過比較用戶與供電變壓器A、B、C 三相電壓曲線相似性大小識別用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序。
圖1 是2019 年6 月份某天某臺區(qū)用戶與供電變壓器三相電壓曲線。用戶1、2、3、4、5 是某臺區(qū)的5 個用戶,其中用戶1 和2 連接在變壓器A 相,用戶3、4 連接在C 相,用戶5 與變壓器隸屬關(guān)系錯誤。從圖1 可以看出,用戶1、2 電壓曲線波動比較相似;用戶3、4 電壓曲線波動比較相似;用戶1、3 電壓曲線波動相似性較差。用戶5 與1、2、3、4 4 個用戶電壓曲線波動相似性都相對較差。
圖1 某臺區(qū)用戶與供電變壓器三相電壓曲線
皮爾遜相關(guān)系數(shù)用來衡量2 個連續(xù)變量之間線性關(guān)聯(lián)性的程度,給定2 個連續(xù)變量x和y,皮爾遜相關(guān)系數(shù)p定義如下:
上述臺區(qū)用戶與變壓器三相電壓曲線之間的相關(guān)系數(shù)矩陣如表1 所示,可以看出用戶1、2 與A 相電壓曲線之間相關(guān)系數(shù)較大,用戶3、4 與C 相電壓曲線之間相關(guān)系數(shù)較大,用戶5 與三相曲線相關(guān)系數(shù)都較小。因此,智能電表電壓序列數(shù)據(jù)之間的相關(guān)系數(shù)可以有效度量二者之間的相似性。
表1 某臺區(qū)用戶與供電變壓器三相電壓曲線相關(guān)系數(shù)
通過大量樣本分析,如果只是通過某一天用戶與供電變壓器三相電壓曲線的相關(guān)系數(shù)大小識別臺區(qū)拓?fù)潢P(guān)系,準(zhǔn)確性較低。需要統(tǒng)計一段時間內(nèi)用戶與供電變壓器三相電壓曲線的相關(guān)系數(shù)大小,通過相關(guān)系數(shù)分布識別臺區(qū)拓?fù)潢P(guān)系。
(1)用戶與變壓器隸屬關(guān)系正確
圖2 為某臺區(qū)用戶與變壓器A、B、C 三相電壓曲線相關(guān)系數(shù)曲線,該用戶與三相電壓曲線相關(guān)系數(shù)在一個月內(nèi)均大于0.6,而且該用戶與A 相電壓曲線相關(guān)系數(shù)普遍高于與B、C 兩相電壓曲線,判定該用戶連接變壓器相序為A 相。經(jīng)過現(xiàn)場核查比對,該用戶確實為A 相用戶。
圖2 某臺區(qū)用戶與變壓器三相電壓曲線相關(guān)系數(shù)曲線
(2)用戶與變壓器隸屬關(guān)系錯誤
圖3 為某臺區(qū)用戶與變壓器A、B、C 三相電壓曲線相關(guān)系數(shù)曲線,該用戶與三相電壓曲線相關(guān)系數(shù)在一個月內(nèi)均小于0.5,判定該用戶與變壓器隸屬關(guān)系錯誤。經(jīng)過現(xiàn)場核查比對,該用戶與變壓器隸屬關(guān)系確實錯誤。
圖3 某臺區(qū)用戶與變壓器三相電壓曲線相關(guān)系數(shù)曲線
基于用戶與變壓器三相電壓曲線相關(guān)系數(shù)分布可以開展低壓臺區(qū)用戶拓?fù)潢P(guān)系識別,但是在具體識別用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序時,需要設(shè)置2 個閾值:相關(guān)系數(shù)閾值和頻率閾值,一個月內(nèi)用戶與變壓器某相電壓曲線之間相關(guān)系數(shù)大于相關(guān)系數(shù)閾值,頻率大于頻率閾值時,判定用戶與變壓器該相連接。2 個閾值設(shè)置不合理常常會導(dǎo)致識別效果不佳。
支持向量機(Support Vector Machine,SVM)是一種典型的機器學(xué)習(xí)算法模型。相對于其他分類方法,主要優(yōu)點如下:可以解決非線性、高維問題,可以解決小樣本的機器學(xué)習(xí)問題;具有較好的推廣性;避免了選擇局部極小點問題。但是最初的SVM 是用來解決二類分類問題的,并不能直接運用在多類分類問題上。而SVM 決策樹解決了多類分類問題,通過構(gòu)造一系列的二類分類SVM,并把它們組合在一起來實現(xiàn)多類分類。針對低壓臺區(qū)用戶拓?fù)潢P(guān)系識別,采用基于二叉樹的SVM 多類分類方法,該方法優(yōu)于其他多類分類方法,具有較好的推廣性。
給定樣本集合D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1},SVM 的基本思想是在樣本空間構(gòu)造一個劃分超平面使得所分樣本之間的間隔達(dá)到最大,具體如圖4 所示。
圖4 支持向量機示意圖
當(dāng)樣本線性可分時,劃分超平面表達(dá)式為:
式中:w=(w1;w2;…;wd)為法向量,b為位移。為最大化間隔,式(2)轉(zhuǎn)化為:
當(dāng)樣本線性不可分時,需要將樣本從原始空間映射到更高維空間使得樣本線性可分。設(shè)φ(x)是x映射后的特征向量,劃分超平面表達(dá)式為:
為最大化間隔,式(4)轉(zhuǎn)化為:
引入拉格朗日乘子,其對偶問題為:
式中:αi,αj是對偶最優(yōu)化問題的解,(xi,yi)和(xj,yj)是兩個不同訓(xùn)練樣本。
φ(xi)Tφ(xj)通常求解比較困難,需要尋找一個函數(shù)K(xi,xj)=<φ(xi),φ(xj)>=φ(xi)Tφ(xj)。式(6)又可重寫為:
式中:函數(shù)K(xi,xj)稱為核函數(shù)[6-7]。
在低壓配電網(wǎng)中,電氣距離越近的負(fù)荷電壓曲線波動越相似。低壓用戶電壓曲線,如果和供電變壓器三相電壓曲線相似性都很差,則用戶與變壓器隸屬關(guān)系錯誤。否則,如果與A相電壓曲線相似較大,則用戶連接在變壓器A相,如果與B相電壓曲線相似較大,則用戶連接在變壓器B相,如果與C相電壓曲線相似較大,則用戶連接變壓器C相。
如何根據(jù)具體應(yīng)用構(gòu)造最優(yōu)的二叉樹是SVM多分類應(yīng)用領(lǐng)域的一個熱點。二叉樹的結(jié)構(gòu)直接影響著分類器的分類性能,越靠近根節(jié)點的節(jié)點分類準(zhǔn)確度對整個分類模型的整體性能影響越大,所以靠上的節(jié)點應(yīng)盡量避免分類錯誤的發(fā)生?;诖怂枷?在構(gòu)造性能優(yōu)良的二叉樹時,應(yīng)考慮優(yōu)先將容易分、不容易出現(xiàn)分類錯誤的類分出來,之后再分相對較難分的類,使可能產(chǎn)生的錯分盡量地遠(yuǎn)離根節(jié)點,使其對整體產(chǎn)生的影響降至最小。因此,采用一種基于樣本分布的類間分離性測度。
假設(shè)要進(jìn)行M類分類,樣本類別數(shù)為M,訓(xùn)練樣本集由類Xi,i=1,…,M,ci為通過訓(xùn)練樣本計算得出的類中心,Ci=,i=1,…,M;(ni為類中樣本的個數(shù)),用dij表示類i和j中心間的距離:dij=‖ci-cj‖;
σi為表示類分布的類方差:
定義類i和j之間的分離性測度sepij:
如果sepij≥1,則類i和j之間無交疊;如果sepij<1,則兩類之間有交疊。sepij值越大,代表類i和j之間的分離性越好。
類i的分離性測度sepi為該類與其他類之間的分離性,將類i與其他類間的最小分離性測度作為該類的分離性測度。所得到的分離性測度最大的類即為最容易分的類。
基于改進(jìn)的決策樹多分類支持向量機算法流程如下:
步驟1 計算各類的類中心ci,各類之間的距離dij,類分布的方差σi。
步驟2 根據(jù)類方差和類之間的距離計算各類樣本數(shù)據(jù)的類間分離度sepij,并根據(jù)定義的類分離度從中選擇最小的分離性測度作為該類的分離性測度。
步驟3 對所有類別的分離度進(jìn)行比較,得到最容易分的類,即分離性測度最大的類,并根據(jù)由大到小的順序進(jìn)行排列,最終得到所有類別的排列n1,n2,n3,…,nm。
步驟4 在根節(jié)點選擇分離性測度值最大的n1類作為正樣本集,其余各類為負(fù)樣本集來構(gòu)造第一個分類器進(jìn)行分類,然后把總樣本集中所有n1類樣本刪除。同樣地,在第二個節(jié)點處,將n2類樣本作為正樣本集,其余的為負(fù)樣本集,構(gòu)造第二個分類器,之后將屬于n2類的樣本刪掉。按照此方法依次循環(huán)下去,直到將所有的類別都分出來,如果兩個類最后算出來的分離性測度值相同,則選擇將類標(biāo)號小的類先分離出來,最終得到改進(jìn)后的二叉樹多類SVM 模型。
采用基于二叉樹的SVM 多類分類方法,其多類分類器構(gòu)造步驟如下:第1 個二類分類器SVM1將與供電變壓器隸屬關(guān)系正確用戶、隸屬關(guān)系錯誤用戶分開;第2 個分類器SVM2將A 相用戶與B 相、C相用戶分開;第3 個分類器器SVM3將B 相、C 相用戶分開。低壓臺區(qū)拓?fù)潢P(guān)系識別SVM 決策樹判別流程如圖5 所示。
圖5 二叉樹支持向量機
在不平衡數(shù)據(jù)集的分類中,采樣方法通過對小類進(jìn)行向上采樣或者通過小類向下采樣來平衡數(shù)據(jù)集,向下采樣刪除大類樣本,向上采用增加小類樣本。
合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE)是由Chaplain 等人[17]提出的一種新穎的向上采樣,目的是解決小類中樣本數(shù)量過少的問題。SMOTE 通過合成新的小類樣本來減輕類別的不平衡。其主要思想是在相距較近的小類樣本之間進(jìn)行線性插值,從而生成新的小類樣本。
SMOTE 通過生成人工樣本來對小類樣本向上采樣。對于每個小類樣本x,找到其k個同類最近鄰樣本。然后根據(jù)向上采樣的倍率N,隨機從中選擇N個樣本。接下來,在x和被選擇的每個近鄰樣本構(gòu)成的線段上生成新的樣本。例如,假設(shè)向上采樣倍率為300%,k=5,那么5 個近鄰中的3 個樣本將被選擇,然后分別在每個被選擇的近鄰樣本的方向上生成一個新樣本。
其方法可以簡單地概括為:對小類的每一個樣本x,搜索其k個最近鄰;若向上采樣的倍率N,則在其k個最近鄰隨機選擇N個樣本,記為y1,y2,…,yN;然后在小類樣本x與yj之間進(jìn)行線性插值生成新樣本Pj:
式中:rand(0,1)表示(0,1)內(nèi)的一個隨機數(shù)。
所提出的基于改進(jìn)二叉樹支持向量機的低壓臺區(qū)用戶拓?fù)潢P(guān)系識別,在某地市供電公司的營配貫通數(shù)據(jù)質(zhì)量核查工作進(jìn)行了驗證和推廣應(yīng)用。
首先,從營銷業(yè)務(wù)系統(tǒng)提取最新用戶-變壓器隸屬關(guān)系數(shù)據(jù),并獲取每個臺區(qū)所有用戶列表;接著,對于每個用戶,從用電信息采集系統(tǒng)提取其最近一段時間的電壓序列數(shù)據(jù),個別時間點電壓值為空時根據(jù)線性插值法將電壓數(shù)據(jù)填補。某臺區(qū)變壓器及其用戶2019 年6 月某天電壓曲線如圖6 所示。
圖6 某臺區(qū)變壓器與用戶電壓曲線
其次,以天為單位根據(jù)式(1)計算每個用戶與變壓器電壓曲線之間的相關(guān)系數(shù)p,上述電壓曲線相關(guān)系數(shù)矩陣如表2 所示。
表2 某臺區(qū)用戶與變壓器各相電壓曲線相關(guān)系數(shù)矩陣
最后,統(tǒng)計該單位1 月份每個用戶與變壓器各相的相關(guān)系數(shù)值p在不同區(qū)間出現(xiàn)的頻率作為輸入屬性(屬性F1,屬性F2,依次類推),其中用戶與變壓器A 相相關(guān)系數(shù)r 在[-1,0.2)出現(xiàn)頻率為屬性F1,在[0.2,0.6)出現(xiàn)頻率為屬性F2,在[0.6,0.8)出現(xiàn)頻率為屬性F3,在[0.8,1)出現(xiàn)頻率為屬性F4,依此類推。將A 相用戶標(biāo)記為A 類,B 相用戶類別標(biāo)記為B 類,C 相用戶類別標(biāo)記為C 類,用戶-變壓器隸屬關(guān)系錯誤的用戶標(biāo)記為D 類作為輸出屬性,采用改進(jìn)的二叉樹支持向量機構(gòu)建低壓臺區(qū)拓?fù)浣Y(jié)構(gòu)識別模型,判斷用戶與變壓器隸屬關(guān)系是否正確,以及用戶所連接變壓器的相序。
在模型構(gòu)建和驗證階段,選擇有代表性居民小區(qū)手持臺區(qū)拓?fù)渥R別儀識別用戶與變壓器隸屬關(guān)系,以及所連接變壓器相序,同時通過計算機程序變更部分用戶與變壓器隸屬關(guān)系數(shù)據(jù),179 個用戶-變壓器隸屬關(guān)系錯誤的用戶標(biāo)記為D 類。分別采用基于決策樹、改進(jìn)的二叉樹支持向量機構(gòu)建低壓臺區(qū)拓?fù)浣Y(jié)構(gòu)識別模型,判斷與變壓器隸屬關(guān)系是否正確,以及連接變壓器的相序。低壓用戶拓?fù)潢P(guān)系數(shù)據(jù)是否錯誤的混淆矩陣如表4 所示。
表4 隸屬關(guān)系數(shù)據(jù)是否錯誤的混淆矩陣
根據(jù)所提出的校驗方法,利用2019 年4 月份數(shù)據(jù)對某公司400 個臺區(qū)44 826 個用戶的拓?fù)溥B接關(guān)系進(jìn)行識別,結(jié)果發(fā)現(xiàn)隸屬關(guān)系錯誤用戶744 個,A 相用戶14 636 個,B 相用戶14 712 個,C 相用戶14 734 個。同時該公司營銷人員對判斷用戶拓?fù)潢P(guān)系進(jìn)行了現(xiàn)場核查,發(fā)現(xiàn)隸屬關(guān)系數(shù)據(jù)錯誤用戶679 個,正確識別A 相序用戶14 201 個,B 相用戶14 194 個,C 相用戶14 224 個,準(zhǔn)確率達(dá)到96.6%。結(jié)果證明與僅僅依靠人力現(xiàn)場巡測相比,該方法是切實有效的。
表3 用戶與變壓器各相電壓曲線相關(guān)系數(shù)值分布
針對當(dāng)前電網(wǎng)公司用戶拓?fù)溥B接關(guān)系缺失和不準(zhǔn)確,提出了一種改進(jìn)二叉樹支持向量機的低壓用戶拓?fù)溥B接關(guān)系識別方法。從用電信息采集系統(tǒng)提取待識別臺區(qū)所有用戶最近一段時間的電壓序列數(shù)據(jù),計算每個用戶與變壓器A、B、C 三相電壓序列數(shù)據(jù)之間相關(guān)系數(shù)p;基于電壓曲線相關(guān)系數(shù)值在不同區(qū)間出現(xiàn)的頻率,采用改進(jìn)的二叉樹支持向量機構(gòu)建低壓用戶拓?fù)溥B接關(guān)系識別模型,可快速識別用戶連接變壓器相序,以及與變壓器連接關(guān)系是否正確。經(jīng)驗證,該校驗方法所需人力成本低,準(zhǔn)確性高,可操作性強。