曾四鳴, 李鐵成, 李順, 梁紀(jì)峰, 范輝, 楊軍, 吳賦章
(1.國網(wǎng)河北省電力有限公司電力科學(xué)研究院, 石家莊 050001; 2.武漢大學(xué)電氣與自動化學(xué)院, 武漢 430072; 3.國網(wǎng)河北省電力有限公司, 石家莊 050021)
隨著新能源接入比例的不斷增加,電網(wǎng)的安全經(jīng)濟(jì)運(yùn)行對需求側(cè)響應(yīng)提出了更高要求[1],面對海量異質(zhì)靈活資源參與系統(tǒng)運(yùn)行調(diào)節(jié),精準(zhǔn)制定負(fù)荷標(biāo)簽數(shù)據(jù)庫和構(gòu)建用戶畫像是提高需求側(cè)響應(yīng)措施實施有效性的基礎(chǔ)[2]。而在制定負(fù)荷標(biāo)簽數(shù)據(jù)庫和構(gòu)建用戶畫像中,首先需要對用戶用電特性進(jìn)行可靠、精簡的分析,且用戶用電特性由用戶日負(fù)荷曲線體現(xiàn)。此時,制定一個高質(zhì)量的標(biāo)簽數(shù)據(jù)庫與構(gòu)建精準(zhǔn)用戶畫像的關(guān)鍵在于如何從海量用戶用電數(shù)據(jù)中提取出有價值的信息以反映用戶用電特性[3]。電力日負(fù)荷曲線聚類是一種依據(jù)同類用戶負(fù)荷曲線的相似性將負(fù)荷曲線劃分到不同類別中以提取同類群體用戶的用電特性的方法[4]。因此,提高電力日負(fù)荷曲線聚類質(zhì)量是進(jìn)行精準(zhǔn)用戶畫像的保障,進(jìn)一步支撐需求側(cè)響應(yīng)策略的有效實施[5]、電力負(fù)荷的準(zhǔn)確預(yù)測[6]以及分時電價的合理制定[7]等,在新能源高比例接入與海量異質(zhì)靈活資源參與系統(tǒng)運(yùn)行調(diào)節(jié)背景下具有十分重要的應(yīng)用價值。
在電力負(fù)荷聚類分析方面國內(nèi)外已經(jīng)展開了一些研究工作,其算法可分為兩類:直接法和間接法。直接法是直接將原始數(shù)據(jù)作為聚類輸入,但隨著智能電網(wǎng)的建設(shè),數(shù)據(jù)規(guī)模和維數(shù)不斷攀升,其計算效率面臨巨大挑戰(zhàn),如文獻(xiàn)[8]采用動態(tài)時間彎曲距離來量度負(fù)荷曲線相似性,提高了分類可靠性,但距離計算較為復(fù)雜,算法效率較低;文獻(xiàn)[9]提出基于云模型確定聚類算法的初始聚類中心和最佳聚類數(shù),但仍然以原始數(shù)據(jù)作為聚類輸入,數(shù)據(jù)維數(shù)過高導(dǎo)致計算過程復(fù)雜,不能滿足實時聚類的需求。間接法是將原始數(shù)據(jù)先進(jìn)行降維處理后,再進(jìn)行聚類,但存在信息丟失嚴(yán)重的問題,如文獻(xiàn)[10]通過提取原始電量特征(如最大負(fù)荷利用小時數(shù)、日負(fù)荷率等)對功率曲線進(jìn)行降維處理,明顯提升了計算效率,然而所提取特征不完善,難以最大限度保證負(fù)荷曲線的整體、局部形態(tài)特征;文獻(xiàn)[11-14]分別采用不同的降維技術(shù)對原始功率曲線進(jìn)行降維處理,能夠很好地提高聚類效率,卻帶來曲線失真等新的問題;文獻(xiàn)[15]提出增加特征指標(biāo)進(jìn)行日負(fù)荷曲線聚類能更加精細(xì)化描述負(fù)荷曲線。基于劃分、基于層次、基于密度的傳統(tǒng)聚類算法存在質(zhì)量不佳、計算效率低、曲線失真等缺陷,其主要原因有:①初始聚類中心選取隨機(jī),最佳聚類數(shù)難以確定;②數(shù)據(jù)規(guī)模和數(shù)據(jù)復(fù)雜度較大,導(dǎo)致計算效率低;③算法對參數(shù)選取敏感帶來結(jié)果魯棒性差。以上這些研究工作,對傳統(tǒng)聚類算法存在的不足有改善作用,但仍然存在,亟待進(jìn)一步提升聚類質(zhì)量。
密度峰值聚類算法不僅能夠快速自適應(yīng)確定聚類中心,還保留了傳統(tǒng)聚類算法計算簡單、快速的優(yōu)勢[16],但仍然存在以下兩點(diǎn)不足:一是針對離聚類中心遠(yuǎn)近不同的數(shù)據(jù)點(diǎn)采取一步劃簇方法容易導(dǎo)致誤差擴(kuò)大且結(jié)果不可靠;二是對截斷距離敏感。為改進(jìn)密度峰值聚類算法第一點(diǎn)不足,設(shè)計了兩步劃簇方法[17],解決了離聚類中心遠(yuǎn)近不同的數(shù)據(jù)點(diǎn)密度測量不均勻和誤差擴(kuò)大的問題。為改進(jìn)第二點(diǎn)不足,提出了利用信息熵[18]、基尼不純度[19]等方法確定截斷距離的改進(jìn)密度峰值聚類算法,進(jìn)一步地提出了基于K近鄰、模糊加權(quán)K近鄰的方法避免計算截斷距離。
現(xiàn)首先采用所提特征指標(biāo)選取方法選取指標(biāo);其次,采用熵權(quán)法給每種指標(biāo)賦予合理權(quán)重;再次,將實際電力負(fù)荷數(shù)據(jù)輸入改進(jìn)的聚類算法中驗證該聚類算法的聚類準(zhǔn)確率;最后,將各類模擬的電力負(fù)荷數(shù)據(jù)輸入改進(jìn)的聚類算法中驗證該算法的魯棒性。以期通過仿真達(dá)到特征提取方法選取指標(biāo)夠滿足實際工程需要,聚類算法能夠自適應(yīng)地確定鄰域參數(shù)和初始聚類中心,克服傳統(tǒng)聚類算法的缺陷,體現(xiàn)聚類算法在聚類質(zhì)量、魯棒性方面的顯著優(yōu)勢。
電力用戶用電特性可以用功率曲線表征,也可從功率曲線獲取特征指標(biāo)來描述?,F(xiàn)有研究通過增加特征指標(biāo)提升聚類效果,而增加特征指標(biāo)并不能保證聚類質(zhì)量的提升,因為若增加的特征指標(biāo)存在冗余,將會給聚類效果帶來負(fù)面影響。在原始電量特征集中提取了能夠反映用戶用電特性的完備特征指標(biāo)進(jìn)行特征指標(biāo)完善,最大限度地保證各類負(fù)荷曲線形態(tài)特征,且特征指標(biāo)不產(chǎn)生冗余效應(yīng)以提升算法效率。原始電量特征集包含參數(shù)有:日用電量、日最大負(fù)荷、日最小負(fù)荷、日平均負(fù)荷、日谷峰差、谷電系數(shù)、日負(fù)荷率、峰時耗電率、日最大負(fù)荷利用小時數(shù)、峰期負(fù)荷率、谷期負(fù)荷率、平期負(fù)荷率等。其中,日最大負(fù)荷利用小時數(shù)可由日負(fù)荷率表示,日平均負(fù)荷可由日用電量獲得,日谷峰差和日峰谷差率可由日最大負(fù)荷和最小負(fù)荷計算,日負(fù)荷率可由日用電量和日最大負(fù)荷描述等。據(jù)此,從原始電量特征集所提的完備的特征指標(biāo)及物理意義如表1所示。
表1 各類特征指標(biāo)及物理意義Table 1 Characteristic indexes and physical significance
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,聚類這種無監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘方法出現(xiàn)了較多經(jīng)典算法,如K均值聚類[20]、基于密度的聚類算法(density-based spatial clustering of applications with noise,DBSCAN)[21]等,而這些傳統(tǒng)的聚類算法均需要人為設(shè)置鄰域參數(shù)。雖然這些算法由于簡單、快捷得到了廣泛的應(yīng)用,但均因存在對參數(shù)敏感的缺陷,限制了在數(shù)據(jù)更高維、規(guī)模更大場合的應(yīng)用。針對傳統(tǒng)算法缺陷同時傳承傳統(tǒng)算法簡單、快捷的優(yōu)點(diǎn),采用改進(jìn)型密度峰值算法進(jìn)行聚類分析。該算法為了自適應(yīng)確定鄰域參數(shù)和初始聚類中心,采用一種新的鄰域概念—自適應(yīng)最近鄰[22],其根據(jù)數(shù)據(jù)自身特性自適應(yīng)地確定鄰域參數(shù),結(jié)合改進(jìn)的密度峰值算法的優(yōu)勢進(jìn)行電力負(fù)荷聚類。
根據(jù)商業(yè)負(fù)荷用電一般規(guī)律,選擇峰時段為:9:00—12:00,18:00—21:00;谷期時段為:22:00—6:00;平期為:6:00—9:00,12:00—18:00,21:00—22:00。
自適應(yīng)最近鄰是一種不同于傳統(tǒng)近鄰的新定義,其最大的優(yōu)勢在于無需提前確定任何參數(shù),其參數(shù)由數(shù)據(jù)自身結(jié)構(gòu)特點(diǎn)決定。它的核心思想為:若樣本點(diǎn)i出現(xiàn)在點(diǎn)j的r鄰域內(nèi),則點(diǎn)j為點(diǎn)i的自適應(yīng)最近鄰。為了便于描述尋找自適應(yīng)最近鄰的搜索算法,給出如下定義。
定義1(自適應(yīng)最近鄰居)對于數(shù)據(jù)點(diǎn)x,稱數(shù)據(jù)點(diǎn)y為數(shù)據(jù)點(diǎn)x的自適應(yīng)最近鄰居,若x在y的r鄰域內(nèi),且對數(shù)據(jù)集合中任何一點(diǎn)z,都至少存在一個數(shù)據(jù)點(diǎn)的r鄰域包含z。
定義2(特征值sk)數(shù)據(jù)集的sk為使得任意數(shù)據(jù)點(diǎn)x都至少被另外一個數(shù)據(jù)點(diǎn)y(y≠x)的r鄰域包含的最小r值,其數(shù)學(xué)表達(dá)式如式(1)所示。
sk=min{r|?x∈X, ?y∈X,y≠x,
stx∈nnr(y)}
(1)
式(1)中:nnr(y)為數(shù)據(jù)點(diǎn)的r鄰域,即距離點(diǎn)y最近的r個點(diǎn)的集合;sk也被稱為平均自適應(yīng)鄰居數(shù)。
根據(jù)自適應(yīng)最近鄰居的定義可知,密集區(qū)域的樣本點(diǎn)往往具有更多的自適應(yīng)最近鄰居;反之,稀疏區(qū)域的樣本點(diǎn)具有較少的自適應(yīng)最近鄰居,符合數(shù)據(jù)分布特點(diǎn)。根據(jù)特征值的定義可知,鄰域值的確定不需要人為提前設(shè)置,從數(shù)據(jù)自身結(jié)構(gòu)特點(diǎn)出發(fā),總能找到一個合適的鄰域參數(shù),便于后續(xù)高質(zhì)量聚類。
在自適應(yīng)地確定每一個電力負(fù)荷樣本數(shù)據(jù)點(diǎn)的特征值和自適應(yīng)最近鄰居以及自適應(yīng)最近鄰包含數(shù)量的過程中,由于存在離群點(diǎn)時特征值會過大,從而導(dǎo)致計算復(fù)雜度增加,甚至后續(xù)樣本點(diǎn)合理劃簇失敗。為了識別并剔除離群點(diǎn),采用了一種改進(jìn)型自適應(yīng)最近鄰搜索算法,其優(yōu)化思想為:隨著r鄰域?qū)?yīng)參數(shù)值的不斷增加,若自適應(yīng)最近鄰居為零的樣本點(diǎn)個數(shù)持續(xù)不變,則停止繼續(xù)搜尋,輸出結(jié)果。算法流程如表2所示。
表2 改進(jìn)型自適應(yīng)最近鄰搜索的算法流程Table 2 Flow of improved natural nearest neighbor search algorithm
通過2.1節(jié)的改進(jìn),能夠在后續(xù)聚類過程中針對傳統(tǒng)聚類算法對參數(shù)敏感以及初始聚類中心難以確定等問題進(jìn)行優(yōu)化,以此來改進(jìn)整個算法。改進(jìn)型密度峰值算法能夠更加準(zhǔn)確地獲取每個樣本點(diǎn)的自適應(yīng)最近鄰居。據(jù)此計算每個樣本點(diǎn)i的局部密度ρi和其與較高密度點(diǎn)的最近距離δi,以局部密度做橫軸,以距離做縱軸,繪制決策圖。在決策圖中選擇最近距離和局部密度均較大的數(shù)據(jù)點(diǎn)作為初始聚類中心。進(jìn)一步地,給出如下定義。
定義3(數(shù)據(jù)點(diǎn)的局部密度)結(jié)合定義1,將局部密度定義為
(2)
式(2)中:k(i)=min{sk,nb(i)},nb(i)為點(diǎn)i的自適應(yīng)最近鄰居數(shù);dij為點(diǎn)i、j之間的歐氏距離;ANN(i)為點(diǎn)i的自適應(yīng)最近鄰域。
定義4(與較高密度最近距離)點(diǎn)i與較高密度點(diǎn)的最近距離δi定義為
(3)
定義5(離群點(diǎn))由于離群點(diǎn)距離正常點(diǎn)較遠(yuǎn),難以被其他數(shù)據(jù)點(diǎn)識別為自然最近鄰居,因此由自適應(yīng)最近鄰居搜索算法和自適應(yīng)最近鄰的定義可知,離群點(diǎn)的自適應(yīng)最近鄰居數(shù)為0,即nb(i)=0的數(shù)據(jù)點(diǎn)可以認(rèn)為是離群點(diǎn)。
定義6(樣本相似度)對于兩個不同的非離群點(diǎn)i和j,兩者相似性定義為
(4)
式(4)中:avedi為數(shù)據(jù)點(diǎn)i與其自適應(yīng)最近鄰的平均距離;αij為縮放系數(shù);inter(i,j)為數(shù)據(jù)點(diǎn)i和j的自適應(yīng)最近鄰集合的交集;這里常數(shù)設(shè)置為1的目的是避免沒有自適應(yīng)最近鄰交集的兩點(diǎn)相似度為零,增強(qiáng)相似性度量的穩(wěn)健性。
定義7(隸屬度)將數(shù)據(jù)點(diǎn)i對簇C的隸屬度定義為
(5)
式(5)中:ω(i,j)為權(quán)重;yj為數(shù)據(jù)點(diǎn)j的簇標(biāo)記。
定義9(簇核心區(qū))對于一個未被分配聚類中心的數(shù)據(jù)點(diǎn)i,其自適應(yīng)最近鄰為ANN(i),將點(diǎn)i、ANN(i)以及從ANN(i)出發(fā)、相似可達(dá)概念經(jīng)過的點(diǎn)統(tǒng)稱為該簇的簇核心區(qū)。
定義10(簇間相似度)若有兩簇Cp和Cq,兩個簇中互為自適應(yīng)最近鄰居的點(diǎn)對數(shù)量為DN(Cp,Cq),這兩個簇的所有數(shù)據(jù)點(diǎn)的平均自適應(yīng)最近鄰數(shù)分別為mnb(Cp)和mnb(Cq),兩簇間的相似度定義為
(6)
式(6)中:p1=|Cp|/(|Cp|+|Cq|);|Cp|和|Cq|分別為兩個簇的樣本數(shù);當(dāng)S(Cp,Cq)≥1時,合并兩簇。
利用表2算法和決策圖確定初始簇中心后,進(jìn)行兩步分配策略,其核心思想如下。
(1)將初始聚類中心密度按降序排列,不斷挑選出剩余未分配的聚類中心,分配簇標(biāo)簽,并確定對應(yīng)的簇核心區(qū)域。
(2)按照隸屬度定義(見定義7)將未分配的非離群點(diǎn)分配給隸屬度最高的簇。
具體地,可進(jìn)行兩次分配,第一次分配:賦予從未被訪問過的聚類中心中挑選局部密度最大的點(diǎn)以及該點(diǎn)的自適應(yīng)最近鄰居以簇標(biāo)簽,并標(biāo)記已訪問;然后,對該被賦予標(biāo)簽的集合(除了該聚類中心以外)的每個點(diǎn),尋找其最相似的自適應(yīng)最近鄰,如果被認(rèn)為是最相似的自適應(yīng)最近鄰在被標(biāo)記集合的范圍之外,則將該點(diǎn)歸到該標(biāo)簽下,直到所有的點(diǎn)均被遍歷為止;再繼續(xù)對剩余的未被訪問過的聚類中心重復(fù)上述步驟,最終確定每一個初始聚類中心的簇核心區(qū)。第二次分配:經(jīng)過上述步驟后,對仍然未被訪問過的點(diǎn)計算每個點(diǎn)對每個簇核心區(qū)的隸屬度,并將點(diǎn)歸于對應(yīng)隸屬度最大的簇;重復(fù)此過程,直到余下的點(diǎn)都被訪問。最后,計算簇間距離,若此距離不小于1,則合并相應(yīng)的兩簇,并返回聚類結(jié)果。算法流程如圖1所示。
聚類質(zhì)量的好壞需要通過可靠的檢驗指標(biāo)來衡量。高質(zhì)量的聚類結(jié)果要求簇內(nèi)樣本間具有較高的相似性,簇間的樣本具有較高的差異性[23]。評價聚類有效性指標(biāo)眾多,其中輪廓系數(shù)[24](Silhouette coefficient, SC)、戴維森堡丁指數(shù)[25](Davies-Bouldin index,DBI)能夠同時考慮類間距離和內(nèi)距離,均能全面體現(xiàn)聚類結(jié)果的有效性。因此,上述兩項指標(biāo)適用于對電力負(fù)荷數(shù)據(jù)的聚類質(zhì)量的檢驗。
在聚類準(zhǔn)確率檢測方面,曲線聚類后的歸屬類別與聚類之前的歸屬類別一致,則認(rèn)為聚類準(zhǔn)確。將聚類準(zhǔn)確率定義為
(7)
式(7)中:Lc,all為聚類準(zhǔn)確的日負(fù)荷曲線總條數(shù);Lall為日負(fù)荷曲線總數(shù)。
為驗證本文方法的有效性以及優(yōu)越性,算例分析設(shè)置如下。
(1)以實際日負(fù)荷曲線數(shù)據(jù)為基礎(chǔ),分別采用傳統(tǒng)聚類算法(K-means)、僅選取典型特征指標(biāo)的聚類算法、特征指標(biāo)選取完善后的聚類算法(本文算法)進(jìn)行用戶負(fù)荷聚類,并進(jìn)行對比分析。
(2)選取典型負(fù)荷曲線構(gòu)造模擬數(shù)據(jù)并加入一定比例的擾動,驗證本文算法的魯棒性。
(3)分析特征指標(biāo)選取差異以及權(quán)重配置變化對本文算法魯棒性的影響。本文算法流程如圖1所示。
圖1 自適應(yīng)最近鄰密度峰值聚類算法流程Fig.1 Natural nearest neighbor density peak clustering algorithm flow
3.1.1 數(shù)據(jù)來源
以某市2018年某日實測312個典型電力用戶的日負(fù)荷曲線為研究對象,數(shù)據(jù)細(xì)粒度為1 h/點(diǎn),每條曲線共計24個功率點(diǎn)。經(jīng)數(shù)據(jù)預(yù)處理后,算例共有305條有效日負(fù)荷曲線(輕工企業(yè)80條、重工業(yè)108條、市政居民117條,分別定義為第一、二、三類負(fù)荷曲線)。
3.1.2 聚類結(jié)果及對比分析
計算每條負(fù)荷曲線的9個特征指標(biāo)值,得到305個9維數(shù)值向量,采用熵權(quán)法得到權(quán)重向量W=[0.056, 0.108, 0.142, 0.121, 0.166, 0.152, 0.200, 0.021, 0.034];然后,將特征指標(biāo)數(shù)值向量每一維分別乘以對應(yīng)的權(quán)重系數(shù)得到的新向量,作為聚類輸入;利用傳統(tǒng)聚類算法、基于典型特征指標(biāo)的聚類算法、本文算法對該305條日負(fù)荷曲線進(jìn)行分類,并在聚類質(zhì)量、聚類效率方面進(jìn)行對比分析。聚類結(jié)果分別如圖2~圖4所示,傳統(tǒng)聚類算法的聚類結(jié)果中歸于一、二、三類的曲線數(shù)依次為96、108、101,基于典型特征指標(biāo)的聚類算法的聚類結(jié)果中歸于一、二、三類的曲線數(shù)依次為94、108、103,本文算法的聚類結(jié)果中歸于一、二、三類的曲線數(shù)依次為85、108、112。由于第二類曲線與其他兩類曲線的負(fù)荷水平以及形態(tài)相差較大,所以三種聚類算法都能將其準(zhǔn)確區(qū)分;而第一類和第三類負(fù)荷水平曲線存在較大的相似性,容易產(chǎn)生誤分情況。
圖2 基于傳統(tǒng)聚類算法的日負(fù)荷曲線聚類結(jié)果Fig.2 Clustering results of daily load curve based on traditional clustering algorithm
圖3 基于典型特征指標(biāo)聚類算法的日負(fù)荷曲線聚類結(jié)果Fig.3 Clustering results of daily load curve based on typical characteristic index clustering algorithm
對各簇的形態(tài)特性分析為:第一類為單峰型,曲線所反映的特性比較符合事業(yè)單位、輕工業(yè)電力用戶的用電行為,僅白天負(fù)荷水平高;第二類為平峰型,比較符合重工業(yè)電力用戶的用電行為,負(fù)荷形態(tài)比較平穩(wěn),持續(xù)保持較高負(fù)荷水平;第三類為三峰型,曲線所反映的特性比較符合市政居民用電行為,早、中、晚分別會出現(xiàn)對應(yīng)的小高峰、次高峰、最高峰。
對三種方法的聚類準(zhǔn)確率進(jìn)行計算,傳統(tǒng)聚類算法、基于典型特征指標(biāo)的聚類算法、本文算法的聚類準(zhǔn)確率分別為94.7%、95.4%、98.4%。傳統(tǒng)聚類算法、基于典型特征指標(biāo)的聚類算法的聚類準(zhǔn)確率和聚類結(jié)果高度相似,說明在用戶用電特性分析中可采用特征指標(biāo)代替功率向量作為聚類輸入,且能夠滿足實際工程的需要;通過本文算法所得的聚類準(zhǔn)確率與前兩種算法對比可知,采用完備的特征指標(biāo)作為輸入,聚類準(zhǔn)確率明顯提升。
進(jìn)一步對3種算法聚類結(jié)果性能進(jìn)行對比,如表3所示,可知在聚類結(jié)果相似的情況下,傳統(tǒng)聚類算法和選取典型特征指標(biāo)的聚類算法在聚類有效性指標(biāo)方面較為接近,在完善特征指標(biāo)選取后,聚類有效性指標(biāo)方面表現(xiàn)比前兩者更優(yōu)。
為了驗證本文算法相比于傳統(tǒng)算法具有優(yōu)良的魯棒性,分別選取單峰型、雙峰型、平峰型、三峰型、避峰型五類典型的日負(fù)荷曲線,在每一類典型日負(fù)荷曲線上的每一個功率點(diǎn)處添加比例為r的隨機(jī)干擾,通過仿真模擬得到五類日負(fù)荷曲線(每一類100條,總計500條)。由于各點(diǎn)擾動比例相同,所以在負(fù)荷水平較高時波動較大,在負(fù)荷水平較低時波動較小。
表3 三種算法聚類結(jié)果性能對比Table 3 Performance comparison of three clustering algorithms
從模擬數(shù)據(jù)中提取特征指標(biāo),并得到聚類結(jié)果。改變隨機(jī)干擾比例,分別采用三種算法進(jìn)行用電負(fù)荷聚類分析,利用聚類質(zhì)量檢驗指標(biāo)大小、聚類準(zhǔn)確率共3個指標(biāo)檢驗新算法的魯棒性,如表4所示。
圖4 基于本文算法的日負(fù)荷曲線聚類結(jié)果Fig.4 Clustering results of daily load curve based on clustering algorithm
由表4可知,隨著擾動比例的增加,DBI指標(biāo)數(shù)值增大,SC指標(biāo)數(shù)值減小,分類準(zhǔn)確率降低。對于3種不同算法,當(dāng)隨機(jī)擾動比例增加時,各項指標(biāo)值和聚類準(zhǔn)確率都呈現(xiàn)變差的趨勢。具體地,對于傳統(tǒng)算法,當(dāng)隨機(jī)擾動超過10%時,各項指標(biāo)已經(jīng)開始出現(xiàn)偏差,聚類準(zhǔn)確率也出現(xiàn)波動,因此該算法受隨機(jī)擾動影響大,魯棒性差;對于基于典型特征指標(biāo)算法,當(dāng)隨機(jī)擾動比例超過25%時對于聚類質(zhì)量開始明顯下降;對于本文算法,當(dāng)隨機(jī)擾動比例超過35%時,各項指標(biāo)和聚類準(zhǔn)確率才會出現(xiàn)明顯偏差。因此,本文算法的魯棒性相比傳統(tǒng)聚類算法有明顯提升,且隨著特征指標(biāo)的完善,魯棒性更優(yōu)。
特征指標(biāo)完善前聚類準(zhǔn)確率等各方面的檢驗指標(biāo)表現(xiàn)均較差,主要原因為選取典型特征指標(biāo)難以表達(dá)原始負(fù)荷曲線的局部、整體特征,容易導(dǎo)致誤分類,同時魯棒性較差,且隨著擾動增加,上述情況會愈加明顯;隨著特征指標(biāo)的完善,上述情況都會得到明顯改善。在3.1.2節(jié)中,采用基于典型特征指標(biāo)算法和本文算法對實際日負(fù)荷曲線聚類的分析亦可得出相同的結(jié)論。在此特別強(qiáng)調(diào),相比于選取典型特征指標(biāo)時,雖完善特征指標(biāo)會增加聚類數(shù)據(jù)的維數(shù),影響聚類效率,但相比于原始數(shù)據(jù)維數(shù)已經(jīng)大大降低,而且還能顯著提升聚類質(zhì)量和魯棒性。因此,完善特征指標(biāo)不但滿足精細(xì)化聚類的要求,還提升聚類綜合效果。
以從實際負(fù)荷數(shù)據(jù)得到的9類特征指標(biāo)數(shù)據(jù)為基礎(chǔ),分別在等權(quán)重、經(jīng)驗權(quán)重[26]、熵權(quán)法3種方式下,采用本文算法分別計算各種指標(biāo)和聚類準(zhǔn)確率,結(jié)果如表5所示。
由表5可知,聚類效果會受到權(quán)重配置的影響,雖然經(jīng)驗配置權(quán)重方法較為主觀,但能夠一定程度上體現(xiàn)各指標(biāo)的貢獻(xiàn)度,通過配置權(quán)重可以減弱干擾對聚類結(jié)果的影響,在一定程度上提升聚類效果;通過經(jīng)驗權(quán)重和熵權(quán)法的聚類效果對比可知,合理配置權(quán)重可進(jìn)一步提高聚類質(zhì)量和抗干擾的能力。
表4 3種算法魯棒性比較Table 4 Robustness comparison of three algorithms
表5 不同權(quán)重配置方式下聚類效果對比Table 5 Comparison of clustering effect under different weight configurations
在海量異質(zhì)靈活資源參與高比例新能源接入系統(tǒng)運(yùn)行調(diào)節(jié)背景下,針對現(xiàn)有用戶用電行為特性分析方法魯棒性差、效率低的問題,采用了一種基于特征指標(biāo)完善和改進(jìn)型密度峰值算法的日負(fù)荷聚類分析方法。通過仿真分析可得到如下結(jié)論。
(1)采用特征指標(biāo)描述電力用戶用電特性能夠滿足實際工程需要,而且特征指標(biāo)的完善,不但可以更加精細(xì)地反映用戶的用電特性,還能更好地區(qū)分曲線差異。
(2)改進(jìn)的密度峰值算法能夠自適應(yīng)地確定鄰域參數(shù)和初始聚類中心,能克服傳統(tǒng)聚類算法的缺陷。
(3)相比于傳統(tǒng)K-means聚類算法和基于典型特征指標(biāo)的聚類算法,本文算法在聚類質(zhì)量、魯棒性方面具有顯著優(yōu)勢,雖然在計算時長上略大于傳統(tǒng)K-means聚類算法和基于典型特征指標(biāo)的聚類算法,但其足以滿足電網(wǎng)優(yōu)化運(yùn)行與調(diào)度對計算快速性的要求。
在用戶用電特征分析中樣本密度近似且距離較近是造成聚類分析不準(zhǔn)確的因素之一,在自然最近鄰居定義的基礎(chǔ)上如何定義更加準(zhǔn)確可靠的簇間相似度以及合并條件將是下一步研究工作的重點(diǎn)。此外,將本文方法的聚類結(jié)果服務(wù)于建立電力用戶畫像模型,聚類準(zhǔn)確性是關(guān)注重點(diǎn),而不同場景中所關(guān)注的重點(diǎn)不同,因此本文方法是否能夠應(yīng)用于其他場景也是后續(xù)研究重點(diǎn)。