李曉蕾,劉 昊,牛斌斌,夏 越,袁少光,毛萬登
(1.國(guó)網(wǎng)河南省電力公司,河南 鄭州 450000;2.國(guó)網(wǎng)河南省電力公司電力科學(xué)研究院,河南 鄭州 450052;3.中國(guó)農(nóng)業(yè)大學(xué)信息電氣工程學(xué)院,北京 100083)
準(zhǔn)確完整的拓?fù)潢P(guān)系是臺(tái)區(qū)精益化管理的基礎(chǔ),尤其是用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序,對(duì)于客戶報(bào)修定位、線損管理、臺(tái)區(qū)變壓器三相不平衡治理具有重要作用。部分老舊小區(qū)、沿街門面線路復(fù)雜,同時(shí)不法用戶違約用電,私自搭接線路,臺(tái)區(qū)用戶拓?fù)潢P(guān)系常常不準(zhǔn)確甚至缺失,電網(wǎng)工作人員在不停電狀態(tài)下難以識(shí)別臺(tái)區(qū)的拓?fù)潢P(guān)系。
當(dāng)前,臺(tái)區(qū)拓?fù)潢P(guān)系識(shí)別主要集中在研制基于端對(duì)端通信的設(shè)備或裝置識(shí)別用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序。文獻(xiàn)[1]提出了一種基于電力線載波通信的臺(tái)區(qū)拓?fù)潢P(guān)系識(shí)別方案。文獻(xiàn)[2]提出了基于電力載波信號(hào)法與脈沖電流法相結(jié)合的臺(tái)區(qū)拓?fù)潢P(guān)系識(shí)別。文獻(xiàn)[3]提出了基于工頻通信技術(shù)的臺(tái)區(qū)拓?fù)潢P(guān)系識(shí)別?;诙藢?duì)端通信的設(shè)備或裝置開展臺(tái)區(qū)拓?fù)潢P(guān)系識(shí)別,需要配電運(yùn)檢人員手持設(shè)備逐個(gè)臺(tái)區(qū)現(xiàn)場(chǎng)核查,耗費(fèi)大量人力、物力,效率低下,無法開展實(shí)時(shí)大批量的臺(tái)區(qū)拓?fù)潢P(guān)系數(shù)據(jù)核查。
隨著用電信息采集系統(tǒng)的推廣應(yīng)用,電網(wǎng)公司積累了海量變壓器和用戶監(jiān)測(cè)數(shù)據(jù)。充分挖掘用電信息采集系統(tǒng)的量測(cè)類大數(shù)據(jù)價(jià)值,從配電變壓器、用戶的電壓、電流異?,F(xiàn)象著手,快速識(shí)別臺(tái)區(qū)拓?fù)潢P(guān)系問題數(shù)據(jù)是切實(shí)可行的。因此,提出了一種改進(jìn)二叉樹支持向量機(jī)的低壓臺(tái)區(qū)用戶拓?fù)潢P(guān)系識(shí)別方法,基于電壓曲線波動(dòng)相似性大小快速識(shí)別用戶連接變壓器相序,以及與變壓器的連接關(guān)系是否正確。經(jīng)驗(yàn)證,該方法所需人力成本低,準(zhǔn)確性高,可操作性強(qiáng)。
低壓臺(tái)區(qū)由于用戶用電的隨機(jī)性,電壓時(shí)刻在波動(dòng),電氣距離較近的用戶電壓曲線常常比較相似,而電氣距離較遠(yuǎn)的用戶電壓曲線相似度比較低。相應(yīng)地,連接在供電變壓器同一個(gè)相序的用戶電壓曲線波動(dòng)比較相似,不同相序的用戶電壓曲線波動(dòng)相似性比較差;連接在同一個(gè)供電變壓器的用戶電壓曲線波動(dòng)比較相似,不同供電變壓器的用戶電壓曲線波動(dòng)相似性比較差。因此,可以通過比較用戶與供電變壓器A、B、C 三相電壓曲線相似性大小識(shí)別用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序。
圖1 是2019 年6 月份某天某臺(tái)區(qū)用戶與供電變壓器三相電壓曲線。用戶1、2、3、4、5 是某臺(tái)區(qū)的5 個(gè)用戶,其中用戶1 和2 連接在變壓器A 相,用戶3、4 連接在C 相,用戶5 與變壓器隸屬關(guān)系錯(cuò)誤。從圖1 可以看出,用戶1、2 電壓曲線波動(dòng)比較相似;用戶3、4 電壓曲線波動(dòng)比較相似;用戶1、3 電壓曲線波動(dòng)相似性較差。用戶5 與1、2、3、4 4 個(gè)用戶電壓曲線波動(dòng)相似性都相對(duì)較差。
圖1 某臺(tái)區(qū)用戶與供電變壓器三相電壓曲線
皮爾遜相關(guān)系數(shù)用來衡量2 個(gè)連續(xù)變量之間線性關(guān)聯(lián)性的程度,給定2 個(gè)連續(xù)變量x和y,皮爾遜相關(guān)系數(shù)p定義如下:
上述臺(tái)區(qū)用戶與變壓器三相電壓曲線之間的相關(guān)系數(shù)矩陣如表1 所示,可以看出用戶1、2 與A 相電壓曲線之間相關(guān)系數(shù)較大,用戶3、4 與C 相電壓曲線之間相關(guān)系數(shù)較大,用戶5 與三相曲線相關(guān)系數(shù)都較小。因此,智能電表電壓序列數(shù)據(jù)之間的相關(guān)系數(shù)可以有效度量二者之間的相似性。
表1 某臺(tái)區(qū)用戶與供電變壓器三相電壓曲線相關(guān)系數(shù)
通過大量樣本分析,如果只是通過某一天用戶與供電變壓器三相電壓曲線的相關(guān)系數(shù)大小識(shí)別臺(tái)區(qū)拓?fù)潢P(guān)系,準(zhǔn)確性較低。需要統(tǒng)計(jì)一段時(shí)間內(nèi)用戶與供電變壓器三相電壓曲線的相關(guān)系數(shù)大小,通過相關(guān)系數(shù)分布識(shí)別臺(tái)區(qū)拓?fù)潢P(guān)系。
(1)用戶與變壓器隸屬關(guān)系正確
圖2 為某臺(tái)區(qū)用戶與變壓器A、B、C 三相電壓曲線相關(guān)系數(shù)曲線,該用戶與三相電壓曲線相關(guān)系數(shù)在一個(gè)月內(nèi)均大于0.6,而且該用戶與A 相電壓曲線相關(guān)系數(shù)普遍高于與B、C 兩相電壓曲線,判定該用戶連接變壓器相序?yàn)锳 相。經(jīng)過現(xiàn)場(chǎng)核查比對(duì),該用戶確實(shí)為A 相用戶。
圖2 某臺(tái)區(qū)用戶與變壓器三相電壓曲線相關(guān)系數(shù)曲線
(2)用戶與變壓器隸屬關(guān)系錯(cuò)誤
圖3 為某臺(tái)區(qū)用戶與變壓器A、B、C 三相電壓曲線相關(guān)系數(shù)曲線,該用戶與三相電壓曲線相關(guān)系數(shù)在一個(gè)月內(nèi)均小于0.5,判定該用戶與變壓器隸屬關(guān)系錯(cuò)誤。經(jīng)過現(xiàn)場(chǎng)核查比對(duì),該用戶與變壓器隸屬關(guān)系確實(shí)錯(cuò)誤。
圖3 某臺(tái)區(qū)用戶與變壓器三相電壓曲線相關(guān)系數(shù)曲線
基于用戶與變壓器三相電壓曲線相關(guān)系數(shù)分布可以開展低壓臺(tái)區(qū)用戶拓?fù)潢P(guān)系識(shí)別,但是在具體識(shí)別用戶與供電變壓器隸屬關(guān)系以及所連接變壓器相序時(shí),需要設(shè)置2 個(gè)閾值:相關(guān)系數(shù)閾值和頻率閾值,一個(gè)月內(nèi)用戶與變壓器某相電壓曲線之間相關(guān)系數(shù)大于相關(guān)系數(shù)閾值,頻率大于頻率閾值時(shí),判定用戶與變壓器該相連接。2 個(gè)閾值設(shè)置不合理常常會(huì)導(dǎo)致識(shí)別效果不佳。
支持向量機(jī)(Support Vector Machine,SVM)是一種典型的機(jī)器學(xué)習(xí)算法模型。相對(duì)于其他分類方法,主要優(yōu)點(diǎn)如下:可以解決非線性、高維問題,可以解決小樣本的機(jī)器學(xué)習(xí)問題;具有較好的推廣性;避免了選擇局部極小點(diǎn)問題。但是最初的SVM 是用來解決二類分類問題的,并不能直接運(yùn)用在多類分類問題上。而SVM 決策樹解決了多類分類問題,通過構(gòu)造一系列的二類分類SVM,并把它們組合在一起來實(shí)現(xiàn)多類分類。針對(duì)低壓臺(tái)區(qū)用戶拓?fù)潢P(guān)系識(shí)別,采用基于二叉樹的SVM 多類分類方法,該方法優(yōu)于其他多類分類方法,具有較好的推廣性。
給定樣本集合D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1},SVM 的基本思想是在樣本空間構(gòu)造一個(gè)劃分超平面使得所分樣本之間的間隔達(dá)到最大,具體如圖4 所示。
圖4 支持向量機(jī)示意圖
當(dāng)樣本線性可分時(shí),劃分超平面表達(dá)式為:
式中:w=(w1;w2;…;wd)為法向量,b為位移。為最大化間隔,式(2)轉(zhuǎn)化為:
當(dāng)樣本線性不可分時(shí),需要將樣本從原始空間映射到更高維空間使得樣本線性可分。設(shè)φ(x)是x映射后的特征向量,劃分超平面表達(dá)式為:
為最大化間隔,式(4)轉(zhuǎn)化為:
引入拉格朗日乘子,其對(duì)偶問題為:
式中:αi,αj是對(duì)偶最優(yōu)化問題的解,(xi,yi)和(xj,yj)是兩個(gè)不同訓(xùn)練樣本。
φ(xi)Tφ(xj)通常求解比較困難,需要尋找一個(gè)函數(shù)K(xi,xj)=<φ(xi),φ(xj)>=φ(xi)Tφ(xj)。式(6)又可重寫為:
式中:函數(shù)K(xi,xj)稱為核函數(shù)[6-7]。
在低壓配電網(wǎng)中,電氣距離越近的負(fù)荷電壓曲線波動(dòng)越相似。低壓用戶電壓曲線,如果和供電變壓器三相電壓曲線相似性都很差,則用戶與變壓器隸屬關(guān)系錯(cuò)誤。否則,如果與A相電壓曲線相似較大,則用戶連接在變壓器A相,如果與B相電壓曲線相似較大,則用戶連接在變壓器B相,如果與C相電壓曲線相似較大,則用戶連接變壓器C相。
如何根據(jù)具體應(yīng)用構(gòu)造最優(yōu)的二叉樹是SVM多分類應(yīng)用領(lǐng)域的一個(gè)熱點(diǎn)。二叉樹的結(jié)構(gòu)直接影響著分類器的分類性能,越靠近根節(jié)點(diǎn)的節(jié)點(diǎn)分類準(zhǔn)確度對(duì)整個(gè)分類模型的整體性能影響越大,所以靠上的節(jié)點(diǎn)應(yīng)盡量避免分類錯(cuò)誤的發(fā)生?;诖怂枷?在構(gòu)造性能優(yōu)良的二叉樹時(shí),應(yīng)考慮優(yōu)先將容易分、不容易出現(xiàn)分類錯(cuò)誤的類分出來,之后再分相對(duì)較難分的類,使可能產(chǎn)生的錯(cuò)分盡量地遠(yuǎn)離根節(jié)點(diǎn),使其對(duì)整體產(chǎn)生的影響降至最小。因此,采用一種基于樣本分布的類間分離性測(cè)度。
假設(shè)要進(jìn)行M類分類,樣本類別數(shù)為M,訓(xùn)練樣本集由類Xi,i=1,…,M,ci為通過訓(xùn)練樣本計(jì)算得出的類中心,Ci=,i=1,…,M;(ni為類中樣本的個(gè)數(shù)),用dij表示類i和j中心間的距離:dij=‖ci-cj‖;
σi為表示類分布的類方差:
定義類i和j之間的分離性測(cè)度sepij:
如果sepij≥1,則類i和j之間無交疊;如果sepij<1,則兩類之間有交疊。sepij值越大,代表類i和j之間的分離性越好。
類i的分離性測(cè)度sepi為該類與其他類之間的分離性,將類i與其他類間的最小分離性測(cè)度作為該類的分離性測(cè)度。所得到的分離性測(cè)度最大的類即為最容易分的類。
基于改進(jìn)的決策樹多分類支持向量機(jī)算法流程如下:
步驟1 計(jì)算各類的類中心ci,各類之間的距離dij,類分布的方差σi。
步驟2 根據(jù)類方差和類之間的距離計(jì)算各類樣本數(shù)據(jù)的類間分離度sepij,并根據(jù)定義的類分離度從中選擇最小的分離性測(cè)度作為該類的分離性測(cè)度。
步驟3 對(duì)所有類別的分離度進(jìn)行比較,得到最容易分的類,即分離性測(cè)度最大的類,并根據(jù)由大到小的順序進(jìn)行排列,最終得到所有類別的排列n1,n2,n3,…,nm。
步驟4 在根節(jié)點(diǎn)選擇分離性測(cè)度值最大的n1類作為正樣本集,其余各類為負(fù)樣本集來構(gòu)造第一個(gè)分類器進(jìn)行分類,然后把總樣本集中所有n1類樣本刪除。同樣地,在第二個(gè)節(jié)點(diǎn)處,將n2類樣本作為正樣本集,其余的為負(fù)樣本集,構(gòu)造第二個(gè)分類器,之后將屬于n2類的樣本刪掉。按照此方法依次循環(huán)下去,直到將所有的類別都分出來,如果兩個(gè)類最后算出來的分離性測(cè)度值相同,則選擇將類標(biāo)號(hào)小的類先分離出來,最終得到改進(jìn)后的二叉樹多類SVM 模型。
采用基于二叉樹的SVM 多類分類方法,其多類分類器構(gòu)造步驟如下:第1 個(gè)二類分類器SVM1將與供電變壓器隸屬關(guān)系正確用戶、隸屬關(guān)系錯(cuò)誤用戶分開;第2 個(gè)分類器SVM2將A 相用戶與B 相、C相用戶分開;第3 個(gè)分類器器SVM3將B 相、C 相用戶分開。低壓臺(tái)區(qū)拓?fù)潢P(guān)系識(shí)別SVM 決策樹判別流程如圖5 所示。
圖5 二叉樹支持向量機(jī)
在不平衡數(shù)據(jù)集的分類中,采樣方法通過對(duì)小類進(jìn)行向上采樣或者通過小類向下采樣來平衡數(shù)據(jù)集,向下采樣刪除大類樣本,向上采用增加小類樣本。
合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE)是由Chaplain 等人[17]提出的一種新穎的向上采樣,目的是解決小類中樣本數(shù)量過少的問題。SMOTE 通過合成新的小類樣本來減輕類別的不平衡。其主要思想是在相距較近的小類樣本之間進(jìn)行線性插值,從而生成新的小類樣本。
SMOTE 通過生成人工樣本來對(duì)小類樣本向上采樣。對(duì)于每個(gè)小類樣本x,找到其k個(gè)同類最近鄰樣本。然后根據(jù)向上采樣的倍率N,隨機(jī)從中選擇N個(gè)樣本。接下來,在x和被選擇的每個(gè)近鄰樣本構(gòu)成的線段上生成新的樣本。例如,假設(shè)向上采樣倍率為300%,k=5,那么5 個(gè)近鄰中的3 個(gè)樣本將被選擇,然后分別在每個(gè)被選擇的近鄰樣本的方向上生成一個(gè)新樣本。
其方法可以簡(jiǎn)單地概括為:對(duì)小類的每一個(gè)樣本x,搜索其k個(gè)最近鄰;若向上采樣的倍率N,則在其k個(gè)最近鄰隨機(jī)選擇N個(gè)樣本,記為y1,y2,…,yN;然后在小類樣本x與yj之間進(jìn)行線性插值生成新樣本Pj:
式中:rand(0,1)表示(0,1)內(nèi)的一個(gè)隨機(jī)數(shù)。
所提出的基于改進(jìn)二叉樹支持向量機(jī)的低壓臺(tái)區(qū)用戶拓?fù)潢P(guān)系識(shí)別,在某地市供電公司的營(yíng)配貫通數(shù)據(jù)質(zhì)量核查工作進(jìn)行了驗(yàn)證和推廣應(yīng)用。
首先,從營(yíng)銷業(yè)務(wù)系統(tǒng)提取最新用戶-變壓器隸屬關(guān)系數(shù)據(jù),并獲取每個(gè)臺(tái)區(qū)所有用戶列表;接著,對(duì)于每個(gè)用戶,從用電信息采集系統(tǒng)提取其最近一段時(shí)間的電壓序列數(shù)據(jù),個(gè)別時(shí)間點(diǎn)電壓值為空時(shí)根據(jù)線性插值法將電壓數(shù)據(jù)填補(bǔ)。某臺(tái)區(qū)變壓器及其用戶2019 年6 月某天電壓曲線如圖6 所示。
圖6 某臺(tái)區(qū)變壓器與用戶電壓曲線
其次,以天為單位根據(jù)式(1)計(jì)算每個(gè)用戶與變壓器電壓曲線之間的相關(guān)系數(shù)p,上述電壓曲線相關(guān)系數(shù)矩陣如表2 所示。
表2 某臺(tái)區(qū)用戶與變壓器各相電壓曲線相關(guān)系數(shù)矩陣
最后,統(tǒng)計(jì)該單位1 月份每個(gè)用戶與變壓器各相的相關(guān)系數(shù)值p在不同區(qū)間出現(xiàn)的頻率作為輸入屬性(屬性F1,屬性F2,依次類推),其中用戶與變壓器A 相相關(guān)系數(shù)r 在[-1,0.2)出現(xiàn)頻率為屬性F1,在[0.2,0.6)出現(xiàn)頻率為屬性F2,在[0.6,0.8)出現(xiàn)頻率為屬性F3,在[0.8,1)出現(xiàn)頻率為屬性F4,依此類推。將A 相用戶標(biāo)記為A 類,B 相用戶類別標(biāo)記為B 類,C 相用戶類別標(biāo)記為C 類,用戶-變壓器隸屬關(guān)系錯(cuò)誤的用戶標(biāo)記為D 類作為輸出屬性,采用改進(jìn)的二叉樹支持向量機(jī)構(gòu)建低壓臺(tái)區(qū)拓?fù)浣Y(jié)構(gòu)識(shí)別模型,判斷用戶與變壓器隸屬關(guān)系是否正確,以及用戶所連接變壓器的相序。
在模型構(gòu)建和驗(yàn)證階段,選擇有代表性居民小區(qū)手持臺(tái)區(qū)拓?fù)渥R(shí)別儀識(shí)別用戶與變壓器隸屬關(guān)系,以及所連接變壓器相序,同時(shí)通過計(jì)算機(jī)程序變更部分用戶與變壓器隸屬關(guān)系數(shù)據(jù),179 個(gè)用戶-變壓器隸屬關(guān)系錯(cuò)誤的用戶標(biāo)記為D 類。分別采用基于決策樹、改進(jìn)的二叉樹支持向量機(jī)構(gòu)建低壓臺(tái)區(qū)拓?fù)浣Y(jié)構(gòu)識(shí)別模型,判斷與變壓器隸屬關(guān)系是否正確,以及連接變壓器的相序。低壓用戶拓?fù)潢P(guān)系數(shù)據(jù)是否錯(cuò)誤的混淆矩陣如表4 所示。
表4 隸屬關(guān)系數(shù)據(jù)是否錯(cuò)誤的混淆矩陣
根據(jù)所提出的校驗(yàn)方法,利用2019 年4 月份數(shù)據(jù)對(duì)某公司400 個(gè)臺(tái)區(qū)44 826 個(gè)用戶的拓?fù)溥B接關(guān)系進(jìn)行識(shí)別,結(jié)果發(fā)現(xiàn)隸屬關(guān)系錯(cuò)誤用戶744 個(gè),A 相用戶14 636 個(gè),B 相用戶14 712 個(gè),C 相用戶14 734 個(gè)。同時(shí)該公司營(yíng)銷人員對(duì)判斷用戶拓?fù)潢P(guān)系進(jìn)行了現(xiàn)場(chǎng)核查,發(fā)現(xiàn)隸屬關(guān)系數(shù)據(jù)錯(cuò)誤用戶679 個(gè),正確識(shí)別A 相序用戶14 201 個(gè),B 相用戶14 194 個(gè),C 相用戶14 224 個(gè),準(zhǔn)確率達(dá)到96.6%。結(jié)果證明與僅僅依靠人力現(xiàn)場(chǎng)巡測(cè)相比,該方法是切實(shí)有效的。
表3 用戶與變壓器各相電壓曲線相關(guān)系數(shù)值分布
針對(duì)當(dāng)前電網(wǎng)公司用戶拓?fù)溥B接關(guān)系缺失和不準(zhǔn)確,提出了一種改進(jìn)二叉樹支持向量機(jī)的低壓用戶拓?fù)溥B接關(guān)系識(shí)別方法。從用電信息采集系統(tǒng)提取待識(shí)別臺(tái)區(qū)所有用戶最近一段時(shí)間的電壓序列數(shù)據(jù),計(jì)算每個(gè)用戶與變壓器A、B、C 三相電壓序列數(shù)據(jù)之間相關(guān)系數(shù)p;基于電壓曲線相關(guān)系數(shù)值在不同區(qū)間出現(xiàn)的頻率,采用改進(jìn)的二叉樹支持向量機(jī)構(gòu)建低壓用戶拓?fù)溥B接關(guān)系識(shí)別模型,可快速識(shí)別用戶連接變壓器相序,以及與變壓器連接關(guān)系是否正確。經(jīng)驗(yàn)證,該校驗(yàn)方法所需人力成本低,準(zhǔn)確性高,可操作性強(qiáng)。