金偉超,張 旭,劉晟源,黃榮國,潘柏良,林振智
(1. 浙江大學(xué)電氣工程學(xué)院,浙江省杭州市310027;2. 國網(wǎng)浙江省電力有限公司營銷部,浙江省杭州市310007;3. 國網(wǎng)浙江省電力有限公司營銷服務(wù)中心,浙江省杭州市311121;4. 浙江華云信息科技有限公司,浙江省杭州市310008)
隨著新一輪電力體制改革,用電量大且用電穩(wěn)定的工商業(yè)用戶將直接參與雙邊交易[1]、電力現(xiàn)貨市場、需求側(cè)響應(yīng)并承擔(dān)清潔能源配額[2],對發(fā)電調(diào)度計劃、電網(wǎng)運行方式、電網(wǎng)調(diào)峰能力、新能源消納等有重要影響?;谟秒娦畔⒉杉到y(tǒng)中積累的海量用戶歷史用電數(shù)據(jù),挖掘并掌握各行業(yè)的生產(chǎn)特點和用電需求,不僅能夠提高配電公司負荷預(yù)測精度和調(diào)度管理水平[3],而且也能夠為電價制定、經(jīng)濟調(diào)度、需求響應(yīng)[4]等提供支撐。因此,辨識各行業(yè)的典型負荷曲線對于配電網(wǎng)的精細化管理和售電公司的營銷服務(wù)、風(fēng)險管理均有重要意義。
分析某一(類)用戶一定時段內(nèi)的用電行為,可以獲得用戶的典型負荷曲線與特征。目前國內(nèi)外在電力負荷曲線分類與辨識方面已有一定的研究。文獻[5]采用混合高斯分布模擬用戶的用電模式,并提出了基于對稱化廣義Kullback-Leibler(KL)散度的分布距離量度方法,有效辨識了居民用戶的典型負荷模式。文獻[6]提出了一種基于時間馬爾可夫模型的電力負荷動態(tài)行為建模方法,并采用密度峰值快速搜索聚類(clustering by fast search and find of density peaks,CFSFDP)算法獲得典型的動態(tài)負荷行為。文獻[7]提出一種基于自適應(yīng)k-means 的分布式聚類方法,采用兩階段聚類實現(xiàn)了海量用戶的用電態(tài)勢感知。文獻[8-9]提出了用電特征的互信息量、相關(guān)系數(shù)和聚類結(jié)果的準(zhǔn)確度、有效度等評價指標(biāo),以確定負荷曲線聚類的最優(yōu)特征集和最優(yōu)聚類數(shù)。與居民用戶相比,工商業(yè)用戶的生產(chǎn)需求及用電特征與其行業(yè)特點有緊密聯(lián)系[10],因此需要分不同行業(yè)對負荷曲線分別進行分析。文獻[11]采用向量誤差修正(vector error correction,VEC)理論識別不同行業(yè)之間電力需求的關(guān)聯(lián)關(guān)系,并在此基礎(chǔ)上提出了一種新型的中長期負荷預(yù)測方法,避免了用電結(jié)構(gòu)突變對負荷預(yù)測帶來的不良影響。文獻[12]構(gòu)建了人口、氣象、經(jīng)濟等影響因素與不同行業(yè)的關(guān)聯(lián)度矩陣,并針對不同行業(yè)構(gòu)建了基于深度信念網(wǎng)絡(luò)的中長期負荷預(yù)測模型。
綜上所述,現(xiàn)有研究通常采用聚類等方法對用戶用電數(shù)據(jù)進行挖掘分析,并辨識用戶的典型負荷曲線。然而,現(xiàn)有研究采用的歐氏距離或特征降維方法對負荷曲線之間的形態(tài)相似性量度不夠準(zhǔn)確。此外,當(dāng)前行業(yè)用電分析的研究與應(yīng)用中[10-12],均未考慮電網(wǎng)公司營銷管理系統(tǒng)中存在的檔案行業(yè)信息錯誤對分析效果的影響。鑒于此,本文提出一種基于剪枝策略和密度峰值聚類的行業(yè)典型負荷曲線辨識方法。該方法將快速動態(tài)時間扭曲(fast dynamic time warping,F(xiàn)DTW)距離作為電力負荷曲線相似性指標(biāo)以準(zhǔn)確量度負荷形態(tài)相似性,采用加權(quán)密度峰值聚類算法和重心平均(barycenter averaging,BA)算法對行業(yè)負荷進行準(zhǔn)確分類并辨識具有共同形態(tài)特征的典型負荷曲線。
基于電力負荷曲線的形態(tài)進行聚類是實現(xiàn)典型負荷曲線辨識的重要手段[13]。在負荷聚類分析中,必須選取合適的負荷形態(tài)相似性量度才能得到合理的結(jié)果。在比較時間序列時,距離相似性量度方法需要能識別其多種變化才有實際意義[14]。時間序列常見的變化有:尺度變化,即時間序列在尺度(縮放)中存在差異;位移變化,即時間序列具有相似的形態(tài),單相位(時刻)具有一定偏差;噪聲變化,即時間序列在采集中受到不同程度噪聲干擾。
在電力負荷曲線相似性量度中,尺度變化和位移變化是常見的。例如,同一地區(qū)兩家相同行業(yè)的企業(yè),可能僅在工作時間存在一定的偏差。同一用戶的日負荷也容易受天氣、交通等因素影響,在短時間內(nèi)也會發(fā)生一定的位移變化。尺度變化則主要由負荷數(shù)據(jù)采集缺失或者采集頻率不同引起。當(dāng)前用電信息采集系統(tǒng)的采集精度和采集成功率均已達到較高水平,解決了電力負荷曲線存在的尺度變化問題。位移變化由于電力用戶自身用電的隨機性和不同用戶的差異性始終存在,已成為電力負荷曲線相似性量度的主要難點[5]。
量度電力負荷曲線、語音信號等時間序列的相似性有很多種方法,常見量度方法有閔可夫斯基距離[3](包括歐氏距離、曼哈頓距離等)、相關(guān)系數(shù)[3]、Kullback-Leibler(KL)散度[5]等。閔可夫斯基距離和相關(guān)系數(shù)對位移變化和尺度變化較為敏感;KL散度是2 個概率分布間差異的非對稱量度距離,對位移變化和尺度變化不敏感,但是在對稱化中會損失部分精度。為了解決電力負荷曲線存在的位移變化、尺度變化等問題,本文采用FDTW[15]距離量度電力負荷曲線的相似性。動態(tài)時間扭曲(dynamic time warping,DTW)通過對時間序列進行延伸和縮短,來計算2 個時間序列之間的相似性,已被應(yīng)用于電力系統(tǒng)的故障檢測[16]、負荷辨識[17]、誤差監(jiān)測[18]等研究。FDTW 是對DTW 的改進,通過約束搜索空間在提高計算效率的同時避免了時間軸過度扭曲引起的量度異常。下面介紹DTW 距離以及適用于負荷曲線形態(tài)相似性量度的FDTW 算法。
假設(shè)2 個電力負荷曲線A 和B,相同采集時段內(nèi)的采集點數(shù)分別為m 和n,即A=[a1,a2,…,am]和B=[b1,b2,…,bn]。首先構(gòu)建大小為m×n 的代價矩陣D(m,n),元素d(ai,bj)表示電力負荷曲線A 在第i 個采集點ai與負荷曲線B 在第j 個采集點bj的功率差異,一般采用歐氏距離衡量。DTW 可以歸結(jié)為尋找一條從代價矩陣D 的起點(1,1)到終點(m,n)的最佳路徑,使得路徑通過的矩陣點累積距離最小。定義路徑W=[w1,w2,…,wK]且滿足邊界性、連續(xù)性和單調(diào)性[16]約束,則最優(yōu)路徑的目標(biāo)為累積距離DDTW(A,B)最小,即
式中:d(wk)為wk中從ai到bj的距離;K 為路徑W 的長度。
在尋找路徑的過程中,借助動態(tài)規(guī)劃的思想,使用迭代的方法計算,定義一個累積距離S(i,j),并從邊界點(1,1)開始匹配這2 個負荷曲線。邊界起點為S(1,1)=d(a1,b1),則累積距離可表示為:
FDTW 的實現(xiàn)方法主要有分段近似計算和空間約束2 種方法。其中分段近似計算通過犧牲DTW 精確度以提高計算效率,空間約束則通過限制代價矩陣中可用單元的數(shù)量以減少DTW 搜索路徑。與其他一般的時間序列相比,電力負荷數(shù)據(jù)的采集時刻是對齊的,其位移變化主要由電力用戶自身用電的隨機性和同類型用戶的微小差異引起,變化值較小。因此,采用約束搜索空間不僅更加合理,還可以避免2 種完全不同的負荷曲線在DTW 匹配中的過度扭曲。
FDTW 常見的空間約束有Itakura 平行四邊形約束和Sakoe-Chiba 帶狀約束[19],與Itakura 平行四邊形約束相比,Sakoe-Chiba 帶狀約束適用于任意位置發(fā)生位移變化的時間序列匹配。本文選取的電力負荷數(shù)據(jù)采樣間隔為15 min,采集長度均為1 d,即m=n=96。由于負荷的位移變化具有不確定性,無法確定位移變化發(fā)生的時段,因此本文選擇Sakoe-Chiba 帶狀約束,則DFDTW的表達式為:
式中:τ 為路徑空間約束參數(shù)。
Sakoe-Chiba 帶狀約束下FDTW 路徑空間如圖1 所示。
圖1 Sakoe-Chiba 帶狀約束下FDTW 路徑空間Fig.1 FDTW path space under Sakoe-Chiba band constraint
通過約束FDTW 路徑空間,不僅避免了負荷曲線匹配過度扭曲,還減小了路徑的搜索空間(圖1 綠色部分),使計算復(fù)雜度從O(m2)減少為O(τm),其中O(·)為復(fù)雜度函數(shù),提高了FDTW 的計算效率。
電力負荷曲線之間的形態(tài)相似性準(zhǔn)確量度是負荷曲線準(zhǔn)確分類和辨識的前提。位移變化主要存在于形態(tài)相似的電力負荷曲線之間,而形態(tài)差異較大的負荷曲線則存在用電習(xí)慣的區(qū)別。為了更好地衡量負荷之間位移變化后的相似性并提高其計算效率,本文提出一種基于剪枝策略和FDTW 距離的負荷曲線相似性量度方法。其中剪枝策略通過選取FDTW 距離的上下界來估計FDTW 距離的范圍值,搜索相似的負荷曲線并采用FDTW 距離衡量其形態(tài)相似性以避免位移變化的影響;對差異較大的負荷曲線之間的FDTW 距離則進行剪枝[20],即不進行進一步的FDTW 距離求解,從而在保證負荷聚類距離計算精度的基礎(chǔ)上提高相似性量度距離計算效率?;诩糁Σ呗院虵DTW 距離的負荷曲線相似性量度矩陣的計算流程如下。
步驟1:對于某一行業(yè)的用戶負荷數(shù)據(jù)集X∈RM×N,M 表示分析時段采集分析的負荷樣本數(shù),N表示一個分析時段內(nèi)負荷的采樣點數(shù),本文取N=96,將用戶負荷曲線樣本X=[X1,X2,…,XM]作為輸入,計算其上、下界距離矩陣DUB和DLB,且上、下界 距 離 滿 足 DLB(Xi,Xj) 步驟2:對于負荷曲線聚類待求取剪枝后的距離矩陣D,其距離搜索的剪枝判據(jù)如下。 判據(jù)1:DLB(Xi,Xj)>dc或DUB(Xi,Xj) 判據(jù)2:DUB(Xi,Xi(k)) 判據(jù)1 和2 分別適用于基于dc和基于距離排序的聚類算法。當(dāng)滿足判據(jù)1 或2 時,可以對負荷樣本Xi和Xj之間的FDTW 距離進行剪枝,即令D(Xi,Xj)=DUB(Xi,Xj),否 則D(Xi,Xj)=DFDTW(Xi,Xj)。 采用以上FDTW 距離搜索的剪枝策略,可以基于電力負荷樣本集的上、下界距離矩陣確定負荷曲線聚類所需的FDTW 距離集。剪枝后的FDTW 距離計算復(fù)雜度為βO(DFDTW)+O(DLB+DUB),其中β為剪枝保留的比例。因此剪枝策略提高FDTW 距離計算效率的關(guān)鍵是選取能準(zhǔn)確估計FDTW 距離范圍值且計算復(fù)雜度低的上、下界距離。目前已有多種計算FDTW 距離下界的算法,其中LB_Keogh算法是目前最準(zhǔn)確的FDTW 距離下界算法,滿足DLB(A,B) 由于FDTW 距離是基于歐氏距離矩陣動態(tài)規(guī)劃所得最小路徑的距離,故滿足DLB(A,B) 本文采用的CFSFDP 算法是一種密度聚類方法。該方法基于截斷距離dc判斷樣本的鄰域密度,故可以采用基于剪枝策略的FDTW 距離矩陣進行聚類,在保證聚類準(zhǔn)確性的同時提高聚類效率。 與居民用戶的用電習(xí)慣相比,工商業(yè)用戶的用電特征與其行業(yè)特點有緊密聯(lián)系,其檔案的行業(yè)信息正確率會影響該行業(yè)典型負荷曲線的辨識效果。因此,本文在電網(wǎng)公司行業(yè)分類信息的基礎(chǔ)上,采用加權(quán)CFSFDP[22]算法對各行業(yè)的負荷曲線進一步分類,并采用密度異常指標(biāo)識別該行業(yè)用戶中存在的檔案信息錯誤與異常用電。 CFSFDP 是一種基于密度的聚類算法,其核心思想是認為聚類簇的中心由一些局部密度比較低的點圍繞,并且這些點與其他有高局部密度的點距離都比較大。該算法分別計算了局部密度ρ 和密度相對距離δ 來確定聚類中心。對于某一行業(yè)的用戶負荷數(shù)據(jù)集X=[X1,X2,…,XM],任一負荷曲線樣本Xi的局部密度ρi和密度相對距離δi的表達式分別為: 式中:χ(x)為距離截斷函數(shù),用于判斷其他樣本是否在Xi的鄰域內(nèi);密度相對距離δi為樣本Xi與密度更大的其他樣本間的最小距離,若樣本Xi的局部密度為最大,則密度相對距離取δi=max(D(Xi,Xj));j=1,2,…,M。 與居民用戶負荷相比,同一行業(yè)的工商業(yè)用戶由于企業(yè)規(guī)模、產(chǎn)值的差異,在日用電量上的差異很大。日用電量數(shù)十千瓦時和數(shù)十兆瓦時的工商業(yè)用戶對于該行業(yè)生產(chǎn)的代表程度不同,因此在聚類中有必要基于用戶的用電量對其負荷曲線賦予權(quán)重。工商業(yè)用戶的負荷對其行業(yè)用電的代表程度主要體現(xiàn)在用電量上,但是直接以電量作為聚類權(quán)重會導(dǎo)致聚類結(jié)果完全以大型用戶為中心??紤]一個行業(yè)內(nèi)的用戶規(guī)模及用電量通常呈對數(shù)正態(tài)分布[23],其電量經(jīng)過對數(shù)變換后滿足正態(tài)分布,故可認為是一種較為合理的權(quán)重賦值分布[24]。因此本文對行業(yè)內(nèi)用戶負荷樣本的日用電量進行對數(shù)變換并歸一化,將其作為負荷曲線聚類分析的權(quán)重。負荷曲線Xi的權(quán)重ωi表達式為: 式中:Ei為負荷曲線Xi對應(yīng)的日用電量;E=[E1,E2,…,EM]為該行業(yè)的M 條負荷曲線對應(yīng)的日用電量向量。 在獲得該行業(yè)內(nèi)各用戶負荷曲線的聚類權(quán)重后,本文對CFSDFP 算法進行相應(yīng)的改進[7],改進后的加權(quán)局部密度可表示為: 加權(quán)CFSFDP 算法根據(jù)樣本集原始空間距離分布確定加權(quán)局部密度ρW和密度相對距離δ,如圖2所示,其中樣本的大小表示對應(yīng)的權(quán)重,ζc為異常指標(biāo)閾值。 圖2 加權(quán)CFSFDP 指標(biāo)示意圖Fig.2 Schematic diagram of weighted CFSFDP index 由圖2(a)可知,在原始的樣本空間分布中,樣本10、14 處于高密度簇的中心且具有較高的加權(quán)權(quán)重,而樣本4、11 和20 則屬于離群點。根據(jù)樣本加權(quán)局部密度ρW和密度相對距離δ 可以快速確定聚類中心和離群點并完成聚類。圖2(b)中具有高樣本加權(quán)局部密度ρW和高密度相對距離δ 的負荷樣本意味著處于某一類負荷曲線簇的中心且具有較大的用電量,因此可以作為負荷曲線聚類中心;圖2(b)中具有低樣本加權(quán)局部密度ρW和高密度相對距離δ 的負荷樣本意味著用電量較少或用電特征與該行業(yè)其他用戶負荷差異均較大,可能存在行業(yè)檔案信息錯誤、異常用電、特殊生產(chǎn)等情況,故將其視為離群點。為了定量確定行業(yè)中的離群點負荷樣本,本文采用密度異常指數(shù)[25]衡量樣本的離群程度,即 ζi越大,則認為該用戶負荷的用電異常程度越高,存在行業(yè)信息錯誤、異常用電等情況的可能性越大,故將該部分用戶負荷曲線作為離群點并排除在負荷聚類劃分之外。其余樣本點則劃分到離它最近的簇中心所在的簇。 基于形態(tài)相似性距離對負荷曲線樣本集進行聚類劃分后,其典型負荷曲線可以用來描述該類負荷樣本集合的整體形態(tài)特征。傳統(tǒng)k-means 方法取每一類負荷曲線的算術(shù)平均值作為典型負荷曲線,但是該方法辨識的典型負荷曲線會因為位移變化損失關(guān)鍵特征。因此,本文采用BA[26]算法辨識典型負荷曲線。BA 算法以最小化典型負荷曲線與簇內(nèi)樣本的FDTW 距離之和為目標(biāo),其表達式為: 綜上所述,基于剪枝策略和加權(quán)CFSFDP 的行業(yè)典型負荷曲線辨識流程如附錄B 圖B1 所示。 本文以浙江省某市的金屬加工機械制造行業(yè)為例,選取該行業(yè)200 個用戶于2019 年4 月9 至13 日的共計1 000 條負荷曲線作為分析樣本,以驗證本文所提算法的有效性。 選取如圖3 所示的金屬加工機械制造行業(yè)3 個用戶的日負荷曲線作為研究對象,分析不同負荷相似度量度距離的準(zhǔn)確性。圖3 中用戶1 和用戶2 具有同類型的日間雙峰型負荷,用戶3 則在夜間(18:00—21:00)依然有較大的用電負荷,三者的歐氏距離、DTW 距離以及Sakoe-Chiba 約束的FDTW距離如表1 所示。 圖3 金屬加工機械制造行業(yè)的3 條負荷曲線Fig.3 Three power load curves of metal processing and machinery manufacturing industry 從負荷分類的角度來說,用戶1 和用戶2 的用電習(xí)慣更加接近,兩者僅在用電時間上相差約40 min;相比之下,用戶1、2 和用戶3 在夜間的3 h 有明顯的用電差異。歐氏距離是負荷曲線各時刻功率差異的平方和,因此會將用戶1 負荷和用戶2 負荷在位移變化上的差異進一步放大,導(dǎo)致其歐氏距離值大于用戶1 負荷和用戶3 負荷的歐氏距離。DTW會將負荷曲線的時間軸匹配過度扭曲,造成3 個用戶負荷之間的距離值均過小。FDTW 算法則通過分析相似負荷曲線之間的位移變化,辨識出用戶1負荷和用戶2 負荷的相似性距離值為最小,且用戶2負荷和用戶3 負荷之間距離值最大,這與用電習(xí)慣差異分析結(jié)果更加一致;同時FDTW 距離通過Sakoe-Chiba 約束避免了DTW 時間軸過度扭曲的問題。因此,相比歐氏距離和DTW 距離,本文所提的FDTW 距離能更加準(zhǔn)確地衡量3 位用戶之間的負荷曲線差異。 表1 負荷曲線之間的距離值Table 1 Distance values between load curves 考慮到FDTW 距離的計算復(fù)雜度較高,本文采用基于上、下界的FDTW 距離搜索剪枝策略,求解得到金屬加工機械制造行業(yè)1 000 個日負荷樣本兩兩之間剪枝后的距離d,結(jié)果如圖4 所示,其中粉色點為剪枝后保留的FDTW 距離,共計28 221 個,各距離計算所需時長如表2 所示。 圖4 金屬加工機械制造行業(yè)負荷樣本曲線的不同距離值Fig.4 Different distance values of power load sample curves of metal processing and machinery manufacturing industry 表2 不同方法計算全部樣本距離值所需的時間Table 2 Time required for calculating distance values of all samples by different methods 由表2 可得,歐氏距離計算效率最快,但是由表1 可知歐氏距離無法量度位移變化后的負荷曲線相似性;FDTW 距離通過Sakoe-Chiba 約束限制了FDTW 路徑的搜索空間,因此計算效率高于DTW算法。本文選取的上、下界距離嚴格滿足DLB 從表2 可以看出:由于FDTW 上、下界距離計算復(fù)雜度遠低于FDTW 距離,因此剪枝FDTW 距離集的計算時長仍明顯低于未剪枝的FDTW 距離計算時長。由此可得,本文所提FDTW 距離搜索的剪枝策略可以在保留負荷曲線聚類所需FDTW 距離的前提下,避免不相似負荷的相似性距離精確量度帶來的計算成本。 金屬加工機械制造行業(yè)負荷曲線樣本集的日電量分布如附錄B 圖B2 所示,經(jīng)過對數(shù)變換后可以得到接近正態(tài)分布的負荷曲線聚類權(quán)重。基于金屬加工機械制造行業(yè)負荷樣本集的權(quán)重和剪枝后的FDTW 距離集,對負荷樣本集進行聚類分析以辨識該行業(yè)的典型負荷曲線。首先計算負荷樣本的ρW和δ 分布,如圖5(a)所示。由圖5(a)可得,點1 至5同時具有較高ρW和δ,故選取為聚類中心;設(shè)定異常指標(biāo)閾值ζc=2,則圖5(a)中紅色虛線左側(cè)的樣本被判定為離群點,不參與進一步的聚類;其余樣本點則根據(jù)最近的聚類中心劃入同一簇。為了進一步分析聚類簇的分布情況及離群點相對位置,本文采用非經(jīng)典多維縮放(non-classical multi-dimensional scaling,NCMDS)[27]將聚類結(jié)果分布從原始距離空間映射至二維平面,并使映射前后各樣本點在高維和二維特征空間中的分布位置及相對距離保持不變,其結(jié)果如圖5(b)所示。圖5(b)中,X、Y 軸為中心化的正交二維坐標(biāo)軸,樣本點在該坐標(biāo)系中的歐氏距離可認為是原始負荷曲線之間的FDTW 距離,黑色點表示離群點,其余顏色表示不同的簇,點的大小表示樣本負荷權(quán)重,簇1 至5 具體對應(yīng)的5 類的典型負荷曲線如附錄B 圖B3 所示。 由附錄B 圖B3 可得,金屬加工機械制造行業(yè)的負荷主要可以分為5 類,其中,第1 類為加班型日間負荷;第2 類為典型的日間雙峰型負荷;第3 類為平穩(wěn)型負荷;第4 類為較為平穩(wěn)的日間雙峰型負荷;第5 類為避峰型負荷。第1 類和第2 類的負荷類型差異較小,第3 類和第4 類的負荷類型差異也較小,這與圖5(b)中簇1 和簇2 樣本分布相鄰、簇3 和簇4 的樣本分布相鄰的現(xiàn)象是一致的。由圖B3 可得,BA算法在FDTW 距離的基礎(chǔ)上,所辨識的典型負荷曲線中心的爬坡斜率、峰谷差等關(guān)鍵特征均與原始負荷簇相近;而算數(shù)平均方法由于無法處理負荷簇的位移變化,導(dǎo)致所辨識的典型負荷曲線峰谷差減小、爬坡斜率平緩及其他關(guān)鍵特征損失。 圖5 金屬加工機械制造行業(yè)CFSFDP 聚類結(jié)果Fig.5 CFSFDP results of metal processing and machinery manufacturing industry 分別采用本文算法、自適應(yīng)k-means 算法[28]和基于密度的噪聲應(yīng)用空間聚類(density-based spatial clustering of application with noise,DBSCAN)算法[29]對金屬加工機械制造行業(yè)負荷樣本集進行聚類分析和對比,并采用DB 和Calinski-Harabas(CH)指標(biāo)[4]衡量不同負荷相似性量度距離和聚類算法對負荷曲線分類的效果。DB 指數(shù)是衡量聚類性能常見指標(biāo),為分類簇內(nèi)的平均距離和簇間的最小距離之比,其值越小越好;CH 指標(biāo)通過簇內(nèi)離差矩陣量度緊密度,簇間離差矩陣量度分離度,其值越大,表明簇內(nèi)樣本越緊密,簇間區(qū)別越大,則聚類效果越好。DB 和CH 指標(biāo)值的表達式見附錄C,其中CH 指標(biāo)基于用電負荷的5 個形態(tài)特征指標(biāo),用于衡量聚類算法對不同需求響應(yīng)潛力的負荷分類效果[4]。不同算法的最優(yōu)聚類數(shù)(由DB 確定的)及其聚類結(jié)果的性能指標(biāo)和計算時長如表3 所示,其中k-means 聚類不是密度聚類,因此采用未剪枝的FDTW 距離。 表3 不同負荷曲線聚類算法性能指標(biāo)及計算時長Table 3 Indicator values and calculation time of different power load curve clustering algorithms 由表3 可得,本文所提方法聚類結(jié)果的DB 值和CH 值分別為1.385 和2 119,優(yōu)于其他聚類算法的指標(biāo)?;贔DTW 距離的k-means 算法的DB 和CH 指標(biāo)與本文方法接近,但是k-means 算法由于迭代不穩(wěn)定,需要多次聚類才可以收斂獲得較優(yōu)的聚類結(jié)果,且無法應(yīng)用剪枝策略,因此計算效率較低。DBSCAN 算法計算效率略快于CFSFDP 算法,其聚類結(jié)果的CH 指標(biāo)較低,說明該方法聚類所得負荷曲線簇的簇內(nèi)形態(tài)特征相似性較低。由此可得,本文采用的加權(quán)CFSFDP 算法聚類性能優(yōu)于其他算法,可以基于FDTW 距離對電力負荷曲線進行快速有效分類?;贔DTW 距離的3 種聚類分析結(jié)果的CH 指標(biāo)值分別為2 119、2 039 和683,分別優(yōu)于采用歐氏距離和DTW 距離的相同聚類算法結(jié)果的CH 值,說明FDTW 可以更好地辨識不同負荷類型形態(tài)上的差異,從而使分類后的負荷曲線簇在日負載率、日峰谷差率、峰平谷時段負載率等特征具有更高的簇內(nèi)相似性和簇間差異性。 選取浙江省某市其他重要行業(yè)的用戶樣本并采用本文方法進行分析。以互聯(lián)網(wǎng)接入及相關(guān)服務(wù)、棉紡織及印染精加工等行業(yè)為例,各行業(yè)負荷樣本的ρ 和δ 分布及聚類結(jié)果分布如附錄D 圖D1 所示,其典型負荷曲線如附錄D 圖D2 至圖D6 所示。為了核實CFSFDP 算法識別的離群點中是否存在行業(yè)檔案錯誤,該市供電公司于2019 年7 月對日負荷曲線多次被識別為離群點的工商業(yè)用戶進行了現(xiàn)場排查,具體的用戶行業(yè)信息和排查統(tǒng)計結(jié)果如附錄D表D1 和表4 所示。 表4 各行業(yè)離群點用戶檔案信息排查結(jié)果Table 4 Investigation results of users’profile information of outliers in various industries 由表4 排查結(jié)果可以看出,互聯(lián)網(wǎng)接入及相關(guān)服務(wù)、棉紡織及印染精加工、金屬加工機械制造這3 個行業(yè)中識別出較多的檔案行業(yè)信息錯誤樣本。互聯(lián)網(wǎng)接入及相關(guān)服務(wù)行業(yè)的用電負荷類型比較單一,以平穩(wěn)型負荷為主,當(dāng)其他行業(yè)非平穩(wěn)型負荷的樣本誤標(biāo)記為互聯(lián)網(wǎng)接入及相關(guān)服務(wù)行業(yè)時,采用本方法可有效識別出來。本文所提方法通過密度異常指標(biāo)識別檔案行業(yè)信息錯誤的工商業(yè)用戶,在提高行業(yè)典型負荷曲線辨識準(zhǔn)確性的同時,也可以作為供電公司進行工商業(yè)用戶行業(yè)信息校驗的參考,從而節(jié)省營銷系統(tǒng)檔案信息管理與更新所需的人力成本。 本文提出一種基于剪枝策略和密度峰值聚類的行業(yè)典型負荷曲線辨識方法。FDTW 距離解決了常規(guī)距離量度中的負荷位移變化敏感問題,實現(xiàn)對不同負荷曲線形態(tài)相似性的精準(zhǔn)量度;基于上、下界的FDTW 距離搜索的剪枝策略,在滿足負荷曲線聚類精度的前提下,提高了聚類的準(zhǔn)確性與效率;CFSFDP 算法和BA 算法可以實現(xiàn)對行業(yè)負荷準(zhǔn)確分類并辨識具有共同形態(tài)特征的行業(yè)典型負荷曲線。 浙江省某市部分行業(yè)的負荷樣本分析表明,本文方法可以在準(zhǔn)確量度負荷曲線形態(tài)相似性的基礎(chǔ)上,對營銷管理系統(tǒng)存在的部分行業(yè)信息錯誤進行識別,實現(xiàn)對行業(yè)典型負荷曲線的準(zhǔn)確辨識,也能為供電公司營銷部門糾正工商業(yè)用戶行業(yè)信息提供參考。本文所述方法的未來研究包括利用所得行業(yè)典型負荷曲線指導(dǎo)負荷預(yù)測、用能優(yōu)化、電價設(shè)計等應(yīng)用,并研究基于應(yīng)用場景需求的自適應(yīng)或可控聚類算法,以期滿足工程差異化需求的同時提高算法準(zhǔn)確率。 附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。2 基于加權(quán)密度峰值聚類的行業(yè)典型負荷曲線辨識
3 算例分析
3.1 負荷曲線形態(tài)相似性量度距離
3.2 行業(yè)典型負荷曲線辨識及對比
3.3 基于典型負荷辨識的檔案錯誤排查應(yīng)用
4 結(jié)語