趙雙,鄧楚然,潘徽,謝瀚陽(yáng),江疆
(廣東電網(wǎng)有限責(zé)任公司,廣東廣州610106)
在目前的電網(wǎng)用戶分類指標(biāo)中,指標(biāo)之間相似度過(guò)大,導(dǎo)致評(píng)價(jià)時(shí)存在重復(fù)指標(biāo),因此提出用戶分類指標(biāo)管理。在對(duì)指標(biāo)進(jìn)行相似度管理時(shí),大多使用的是聚類方法,但聚類方法無(wú)法實(shí)現(xiàn)對(duì)用戶指標(biāo)中的概率變量的分析,為實(shí)現(xiàn)電網(wǎng)用戶分類指標(biāo)相似度管理,已有相關(guān)領(lǐng)域?qū)W者對(duì)電網(wǎng)用戶分類指標(biāo)管理體系做出了研究。
文獻(xiàn)[1]提出監(jiān)管視角下的電力市場(chǎng)用戶分類指標(biāo)體系,通過(guò)考慮用戶需求響應(yīng)及負(fù)荷曲線,構(gòu)建分類指標(biāo)體系,對(duì)數(shù)據(jù)降維,濾除無(wú)關(guān)信息,完成指標(biāo)結(jié)果可視化。文獻(xiàn)[2]提出高壓企業(yè)客戶電力信用綜合評(píng)價(jià)體系。構(gòu)建用戶電力信用指標(biāo),利用大數(shù)據(jù)聚類算法構(gòu)建電力信用評(píng)價(jià)體系,并通過(guò)電力信用等級(jí)和信用分計(jì)算,驗(yàn)證所設(shè)計(jì)評(píng)價(jià)體系的準(zhǔn)確性。
主成分分析是一種可以通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量的一種統(tǒng)計(jì)方法。主成分分析可以直接將相關(guān)變量轉(zhuǎn)換為不相關(guān)變量,而對(duì)不相關(guān)變量可以直接使用其他方法來(lái)進(jìn)行相似度分析,無(wú)需進(jìn)行變量轉(zhuǎn)換[3-5],因此提出基于主成分分析的電網(wǎng)用戶分類指標(biāo)管理體系設(shè)計(jì)。
在已有文獻(xiàn)的基礎(chǔ)上,提出了兩級(jí)電力用戶的分類指標(biāo)體系,如圖1所示。
圖1 電網(wǎng)用戶分類指標(biāo)體系
圖1中共包括3 個(gè)一級(jí)指標(biāo),20 個(gè)二級(jí)指標(biāo)。電壓等級(jí)B1代表用來(lái)衡量電網(wǎng)用戶的負(fù)荷線路電壓,并根據(jù)電壓的負(fù)荷情況劃分等級(jí)。年用電量B2代表當(dāng)前電網(wǎng)用戶的用電規(guī)模,指標(biāo)采用年用電量來(lái)評(píng)判。年最大負(fù)荷B3表示電網(wǎng)用戶在當(dāng)年內(nèi),所有用電設(shè)備使用時(shí)的最大用電負(fù)荷。而在用電情況指標(biāo)中存在量級(jí)差異性,因此文中將上述的電壓等級(jí)B1、年用電量B2、年最大負(fù)荷B3并這3 個(gè)指標(biāo)按照量化規(guī)則進(jìn)行量化[6]。年用電負(fù)荷率B4用來(lái)衡量年平均負(fù)荷以及最高負(fù)荷之間的差異度,用電波動(dòng)率B5表示該用戶對(duì)用電穩(wěn)定性的需求程度。而其中B4的量化,根據(jù)相關(guān)文獻(xiàn)提供的數(shù)值差別,使用10 000 和年用電量B2的乘積,除以8 760 與年最大負(fù)荷B3乘積的值,即為用戶在當(dāng)年的年用電負(fù)荷率。設(shè)Li為第i個(gè)月的用電量,可將B5量化為:
式中,代表i月中的用電量均值。在得出式(1)的值后,對(duì)數(shù)據(jù)中的B5指標(biāo)取倒數(shù),并使其指標(biāo)同樣具有數(shù)值越大越好的性質(zhì)。而用戶功率因數(shù)B6反映用戶的用電品質(zhì),表示為:
式中,d代表當(dāng)月的平均功率因數(shù),月平均功率因數(shù)作為調(diào)整力率電費(fèi)的數(shù)值,指標(biāo)依據(jù)為該用戶每個(gè)月的實(shí)用有功電量。式(2)中,d1和d2分別代表月平均功率因數(shù)的下限和上限。
在保證不同指標(biāo)可以相同量化后,針對(duì)每個(gè)方面的候選指標(biāo)進(jìn)行主成分分析,得到每個(gè)主成分的方差貢獻(xiàn)值。以每個(gè)主成分中的方差貢獻(xiàn)率,作為主成分分析中的權(quán)重和候選指標(biāo)的載荷系數(shù),在方差貢獻(xiàn)率絕對(duì)值處于指標(biāo)方差和之間時(shí),對(duì)該指標(biāo)進(jìn)行計(jì)算[7-10]。同時(shí)反映實(shí)驗(yàn)對(duì)象信息的重要水平[11]。將某一指標(biāo)設(shè)為X,指標(biāo)采用X1,X2,…,Xn來(lái)表示,若按照其中某一個(gè)指標(biāo)Xp為例,則Xp的重要水平即:
式中,p1,p2,…,pn代表Xp的載荷系數(shù),comp.1,comp.2,…,comp.n作為主成分的方差貢獻(xiàn)率,而在數(shù)值接近零時(shí)則任務(wù)指標(biāo)的重要性較小,并在候選指標(biāo)里刪除,剩余指標(biāo)進(jìn)入下一步。而對(duì)剩余的候選指標(biāo)可以使用相關(guān)系數(shù)法對(duì)候選指標(biāo)之間的相關(guān)系數(shù)進(jìn)行檢驗(yàn)[12-13]。文中將閾值設(shè)置為0.3,也就是說(shuō)在該指標(biāo)和其他指標(biāo)之間的相關(guān)系數(shù)均小于0.3 時(shí),候選指標(biāo)可以直接進(jìn)入最后的用戶分類指標(biāo)中,而剩余指標(biāo)則進(jìn)行進(jìn)一步地分析。對(duì)存在相關(guān)關(guān)系的指標(biāo)再次使用主成分分析,并分析指標(biāo)的重要程度,同時(shí)對(duì)剩余指標(biāo)進(jìn)行運(yùn)算,建立相關(guān)系數(shù)矩陣[14-15]。
對(duì)剩余的指標(biāo)使用負(fù)載曲線聚類進(jìn)行處理,根據(jù)常用的MIA指標(biāo)對(duì)各聚類算法進(jìn)行比較,其中MIA指標(biāo)可以代表在各聚類中心與對(duì)應(yīng)聚類中的所有元素中的聚類平均值,MIA指標(biāo)計(jì)算如下:
式中,假設(shè)通過(guò)聚類分析和分類電網(wǎng)用戶類數(shù)為K,則CK代表在每個(gè)聚類中包含的單位集合,nk代表每個(gè)聚類中的單位數(shù)目,而在每個(gè)聚類中的代表線CTK代表該聚類方法的聚類中心,其中k=1,2…k。d代表剩余指標(biāo)經(jīng)過(guò)主成分分析后得出的相關(guān)系數(shù)。而其中:
式中,ntk代表在該集合中的所有元素。通過(guò)MIA指標(biāo)來(lái)對(duì)同一類的負(fù)荷曲線之間的聚類進(jìn)行表示,而其中MIA數(shù)值越小則說(shuō)明該指標(biāo)類的重要性越高。這里可以參考在主成分分析中的相關(guān)系數(shù)矩陣表得出全不相關(guān)指標(biāo),在通過(guò)聚類后,要考慮聚類后的指標(biāo)與全不相關(guān)指標(biāo)是否相似或相關(guān)。在定義相似度時(shí)則使用曲線聚類分析,將定義相似度作為兩條曲線之間的距離s,在曲線中兩條曲線之間距離越小,則相似度越大,其中用c來(lái)代表48 個(gè)時(shí)刻點(diǎn),p總,i與p分,i則代表總負(fù)荷曲線和各類負(fù)荷曲線所對(duì)應(yīng)的時(shí)刻負(fù)荷值,即:
通過(guò)公式(6)確立在聚類指標(biāo)間的相似度,而對(duì)兩個(gè)聚類指標(biāo)間相似度過(guò)高的指標(biāo)進(jìn)行修改或移除。而使用曲線聚類處理無(wú)法將指標(biāo)中概率出現(xiàn)的變量相似度進(jìn)行分析,因此需要使用Helinger 距離分類變量運(yùn)算法來(lái)對(duì)指標(biāo)之間的相似度實(shí)現(xiàn)運(yùn)算[16]。
考慮在被聚類的指標(biāo)中的變量,而使用曲線聚類分析難以確認(rèn)分類指標(biāo)中變量的相似度,因此對(duì)已經(jīng)完成的聚類指標(biāo)中的變量間的相似度進(jìn)行計(jì)算。文中使用Helinger 距離的分類變量運(yùn)算,在概率論中,f散度是用來(lái)度量?jī)蓚€(gè)以概率分布的變量E與Q之間的差異性的函數(shù),設(shè)f(t)作為定義在t>0區(qū)間上且f(1) =0 的凸函數(shù),這時(shí)若指標(biāo)中的變量E與Q呈現(xiàn)概率分布式,那么E與Q之間的f散度則為:
式中,y為未知的概率出現(xiàn)的變量,而當(dāng)f(t)=1-時(shí),得出的f散度稱為Hellinger 距離,在該情況下E與Q之間的Hellinger 距離的計(jì)算公式為:
式中,d2H(E,Q)即為得出的Hellinger 距離,而當(dāng)指標(biāo)中出現(xiàn)離散變量時(shí),E與Q之間的Hellinger 距離公式變?yōu)椋?/p>
式中,將E與Q在可度量空間上的變量設(shè)為λ,根據(jù)式(8)和式(9)的計(jì)算即可得出兩個(gè)分類指標(biāo)中變量的相似度。根據(jù)上文的聚類分析與Hellinger 對(duì)用戶分類指標(biāo)中的相似度實(shí)現(xiàn)管理,提高用戶分類的效率[17]。
為了驗(yàn)證該文分類指標(biāo)管理體系的可行性,使用該文用戶分類指標(biāo)管理體系以及文獻(xiàn)[1]中的分類指標(biāo)管理、文獻(xiàn)[2]分類指標(biāo)和無(wú)管理的分類指標(biāo)進(jìn)行分類。
實(shí)驗(yàn)中,通過(guò)對(duì)4 種分類指標(biāo)得出的用戶分類指標(biāo)之間進(jìn)行相似度計(jì)算,得出實(shí)驗(yàn)對(duì)象的優(yōu)劣性。實(shí)驗(yàn)中使用的相似度計(jì)算法為歐式距離系數(shù),如圖2所示。
圖2 兩用戶之間的距離系數(shù)
如圖2所示,假設(shè)實(shí)驗(yàn)分類得到的兩個(gè)用戶為S1和S2,在橫坐標(biāo)中的Z1表示其中的特征屬性1,縱坐標(biāo)Z2表示特征屬性2,對(duì)特征屬性來(lái)說(shuō),期間差異越大則距離越大。分類指標(biāo)的相似系數(shù)計(jì)算如式(10)所示:
式中,每個(gè)分類指標(biāo)樣品中存在有p個(gè)變量,而B(niǎo)ik表示在第i個(gè)分類指標(biāo)樣品中的第m個(gè)指標(biāo)的標(biāo)準(zhǔn)化數(shù)值。而B(niǎo)jk則代表在第j個(gè)樣品中的第m個(gè)指標(biāo)的標(biāo)準(zhǔn)化值,其中,在第i個(gè)樣品和第j個(gè)樣品之間的歐氏相似系數(shù)設(shè)為Rij。
實(shí)驗(yàn)中使用了4 種分類指標(biāo)進(jìn)行管理,并根據(jù)電網(wǎng)用戶的分類依據(jù),使用上述算法,將所分的每?jī)蓚€(gè)指標(biāo)作為一個(gè)指標(biāo)對(duì)比分組,并將指標(biāo)對(duì)比分組使用上述算法進(jìn)行相似度分析,根據(jù)集中指標(biāo)分組最終得出的平均相似度系數(shù)來(lái)判斷指標(biāo)管理體系的優(yōu)劣性。圖3是經(jīng)所提方法、文獻(xiàn)[1]方法及文獻(xiàn)[2]方法管理后的分類指標(biāo)之間的相似度。
圖3 經(jīng)體系1管理后的指標(biāo)相似度
分析圖3可知,經(jīng)所提分類指標(biāo)管理后指標(biāo)之間的平均相似度為0.197。且每組指標(biāo)對(duì)比組之間相似度系數(shù)差距不明顯。經(jīng)文獻(xiàn)[1]方法管理后的用戶分類指標(biāo)之間的平均相似度為0.261。因體系管理后,分類指標(biāo)數(shù)不同,因此實(shí)驗(yàn)中的指標(biāo)對(duì)比組數(shù)量也不同。而僅文獻(xiàn)[1]方法管理后的指標(biāo)相似度之間差別較為明顯。在經(jīng)文獻(xiàn)[2]方法管理后的分類指標(biāo)之間的平均相似度為0.257,且每個(gè)指標(biāo)對(duì)比分組之間的相似度系數(shù)明顯。
為了進(jìn)一步判斷用戶分類指標(biāo)管理的有效性,使用無(wú)指標(biāo)管理的用戶分類法來(lái)進(jìn)行指標(biāo)分類,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 不使用指標(biāo)管理的指標(biāo)相似度
分析圖4可知,在不使用指標(biāo)管理情況下的指標(biāo)之間平均相似系數(shù)為0.370。其原因在于不使用指標(biāo)管理,導(dǎo)致指標(biāo)之間的相似度系數(shù)差別很大,因此存在高相似度的分類指標(biāo)。經(jīng)由實(shí)驗(yàn)證明,文中設(shè)計(jì)的基于主成分分析的電網(wǎng)用戶分類指標(biāo)管理體系可以有效地對(duì)指標(biāo)之間的相似度實(shí)現(xiàn)管理,具有可行性。
文中對(duì)電網(wǎng)用戶的分類指標(biāo),設(shè)計(jì)了基于主成分分析的電網(wǎng)用戶分類指標(biāo)管理體系。通過(guò)主成分分析的變量轉(zhuǎn)換,并使用Hellinger 距離分類變量運(yùn)算,實(shí)現(xiàn)對(duì)分類指標(biāo)的管理[18]。但在設(shè)計(jì)中因使用Hellinger 對(duì)概率出現(xiàn)的指標(biāo)變量進(jìn)行運(yùn)算,導(dǎo)致運(yùn)算結(jié)構(gòu)繁瑣,運(yùn)算時(shí)間較長(zhǎng),仍需進(jìn)一步地改進(jìn)。