韓明沖,鐘建偉,陳 靜,黃 明,張繼學(xué),鄢 蓓
(1.湖北民族大學(xué) 信息工程學(xué)院,湖北 恩施 445000;2.國網(wǎng)湖北省電力有限公司恩施供電公司,湖北 恩施 445000)
近年來,“智能配用電網(wǎng)絡(luò)”一詞在電氣領(lǐng)域較為熱門,它是為實(shí)現(xiàn)電力網(wǎng)的精細(xì)智能化管理而誕生的一種網(wǎng)絡(luò)。因其優(yōu)點(diǎn)較多,故近年來我國一直在大力推進(jìn)智能配用電網(wǎng)絡(luò)的建設(shè)。而對(duì)于近年來同樣較為火熱的智能電網(wǎng)而言,智能配用電是其發(fā)展中不可缺少的一個(gè)環(huán)節(jié),通過分析用戶的用電行為,可對(duì)用戶側(cè)進(jìn)行智能優(yōu)化,以提高供電側(cè)電能的質(zhì)量以及供電的可靠性,使得供電方和用電方實(shí)現(xiàn)雙贏。配用電的對(duì)象是用戶,屬于智能電網(wǎng)的末端,其網(wǎng)絡(luò)體積龐大、結(jié)構(gòu)復(fù)雜。另外,配用電的業(yè)務(wù)類型也較多,這就造成用戶用電行為分析難度較大。但由于前些年智能小區(qū)的流行,既提高了用戶參與智能用電環(huán)節(jié)的積極性,又方便了電網(wǎng)對(duì)于用戶側(cè)的精細(xì)智能管理。又因近年來大數(shù)據(jù)技術(shù)發(fā)展迅速,為用戶用電行為的分析提供了一條新的途徑。由于不同家用電器的用電特性有差異,所以即便小區(qū)家庭中用電設(shè)備的種類繁多,也為其功能的實(shí)現(xiàn)提供了可能。對(duì)用戶而言,實(shí)現(xiàn)智能用電可以合理控制家庭電器的使用,進(jìn)而節(jié)省用電開支。對(duì)電網(wǎng)來說,通過對(duì)用戶用電行為的分析,可以了解到用戶的用電規(guī)律,做到對(duì)用電負(fù)荷的預(yù)測(cè),進(jìn)而制定合理的送電策略;還能方便進(jìn)行能效的管理、客戶分類、異常用電檢測(cè)以及電力營銷等,這對(duì)電網(wǎng)側(cè)經(jīng)濟(jì)性的提高有著重大意義。另外,用戶用電情況分析也為政府做出產(chǎn)業(yè)調(diào)整、經(jīng)濟(jì)調(diào)控等宏觀決策提供了依據(jù)。
隨著聚類技術(shù)的蓬勃發(fā)展,電氣領(lǐng)域涌現(xiàn)出了較多基于聚類的機(jī)器學(xué)習(xí)研究。例如,張斌等人使用降維聚類技術(shù)分析電力負(fù)荷曲線;趙明等人把聚類技術(shù)應(yīng)用于用電負(fù)荷峰谷平時(shí)段的劃分;黃文思以氣象因素為依據(jù)進(jìn)行負(fù)荷預(yù)測(cè)。有待解決的問題主要包括電力用戶細(xì)分和電力用戶負(fù)荷預(yù)測(cè)。
綜上所述,為了深度挖掘用戶用電行為特性,提升居民在用電行為上的用電效率和電力企業(yè)在電力市場(chǎng)上的份額,本文采用了基于改進(jìn)K均值聚類算法的用戶用電行為分析方法,對(duì)用戶用電數(shù)據(jù)進(jìn)行預(yù)處理后再進(jìn)行聚類;根據(jù)聚類結(jié)果對(duì)用戶用電行為進(jìn)行分析,為供電公司的營銷策略提出改進(jìn)意見。
K-means算法是聚類算法的一種。所謂聚類,就是根據(jù)某一標(biāo)準(zhǔn)(如距離準(zhǔn)則)將研究對(duì)象中相似的部分劃分成多個(gè)類的過程。每個(gè)類中對(duì)象的差異性和相似性要盡可能大。對(duì)于一個(gè)特征矩陣(樣本數(shù)為N),該算法可以將其分割成K個(gè)簇(需要人為設(shè)定),且這些簇之間沒有交集。同一簇中樣本數(shù)歸為一類,不同簇為不同類別的分類結(jié)果。
設(shè)定K值,算出聚類中心和簇中數(shù)據(jù)點(diǎn)間的間距并進(jìn)行多次迭代,以得到最優(yōu)聚類中心,其數(shù)量為K。算法距離的定義采用歐式距離。如圖1中直線OB的長(zhǎng)度即為O、B兩點(diǎn)在三維空間中的歐氏距離,其計(jì)算公式為:
圖1 三維空間的歐氏距離
簇內(nèi)的所有樣本點(diǎn)到質(zhì)點(diǎn)(聚類中心)距離的平方和的計(jì)算公式為:
其中:為一個(gè)簇內(nèi)樣本數(shù)量;為每個(gè)樣本點(diǎn)的特征數(shù)量;為某一簇內(nèi)的樣本點(diǎn);為某一簇內(nèi)的聚類中心;為組成點(diǎn)的每個(gè)特征;為每個(gè)樣本的符號(hào)。
整體平方和(Inertia)為數(shù)據(jù)中所有簇內(nèi)平方和之和,如式(3)所示。整體平方和值越小,表示每個(gè)簇中樣本差異性越小,即聚類處理效果越佳。
結(jié)合以上計(jì)算過程及圖2的算法流程可以看出,均值算法在選取聚類中心時(shí),因具有隨機(jī)性,故可能出現(xiàn)每次聚類結(jié)果差異較大的情況。針對(duì)此問題,需要對(duì)該算法進(jìn)行一些改進(jìn)。
圖2 K-means算法流程
因-means算法隨機(jī)選擇聚類中心,故可能使得最終聚類結(jié)果不理想,比如初始點(diǎn)都選在一個(gè)簇內(nèi)。針對(duì)這一缺點(diǎn),-means++算法誕生,主要是對(duì)初始聚類中心的選擇做了改進(jìn)。首先把值,即初始聚類中心數(shù)確定,然后進(jìn)行聚類中心的選擇。設(shè)算法已完成個(gè)中心的選取,在選擇下一個(gè)中心時(shí),若此點(diǎn)距離當(dāng)前個(gè)中心點(diǎn)越遠(yuǎn),則其被選概率越大。但如果為1,則此算法與未改進(jìn)前一樣,即聚類中心隨機(jī)選取。換句話說,算法改進(jìn)前后的區(qū)別在于對(duì)初始點(diǎn)的處理,確定好初始點(diǎn)之后,其余步驟都同未改進(jìn)前一樣。
首先隨機(jī)選擇初始聚類中心,然后計(jì)算出聚類中心與每個(gè)樣本的距離,取其最小值并記為()。根據(jù)式(4)計(jì)算每個(gè)樣本點(diǎn)被選中的概率(為樣本數(shù)),并不斷計(jì)算聚類中心與每個(gè)樣本點(diǎn)的距離,直至個(gè)中心選取完成。接下來的步驟與原始-means算法相同。
對(duì)于用戶用電行為分析,其整個(gè)模型功能的實(shí)現(xiàn)主要分為以下五步:第一步,導(dǎo)入必要的模塊,從數(shù)據(jù)庫文件中讀取歷史電力負(fù)荷數(shù)據(jù);第二步,進(jìn)行數(shù)據(jù)清洗,即查詢當(dāng)前數(shù)據(jù)中的空缺值,并把空缺值刪除;第三步,為更好地避免用電行為的差異,過濾掉周末的用電數(shù)據(jù),并將不同的時(shí)間分列;第四步,通過聚類模型完成可視化類的構(gòu)建,以便對(duì)數(shù)據(jù)進(jìn)行分析;第五步,調(diào)用模型得到最終結(jié)果。模塊功能實(shí)現(xiàn)流程如圖3所示。
圖3 模型功能實(shí)現(xiàn)流程
算法試驗(yàn)在Python3.7環(huán)境下開展,采用Python語言編寫程序,數(shù)據(jù)源自某能源數(shù)據(jù)庫。首先導(dǎo)入從數(shù)據(jù)庫中下載的數(shù)據(jù),然后進(jìn)行數(shù)據(jù)清洗,即查詢當(dāng)前數(shù)據(jù)中的空缺值,并把空缺值刪除。本文隨機(jī)選取某地區(qū)2015年7月20日的電力負(fù)荷數(shù)據(jù),該數(shù)據(jù)中共有213戶用電用戶。假設(shè)工作日每天的用電情況相似,過濾掉周末的用電數(shù)據(jù),再隨機(jī)選取某一天,得到一組用戶用電負(fù)荷數(shù)據(jù);導(dǎo)入得到的數(shù)據(jù),得到該日不同時(shí)間不同用戶的用電特征曲線,如圖4所示。圖中顯示的結(jié)果規(guī)律性并不明顯,不利于下一步的分析。因此,應(yīng)對(duì)當(dāng)前得到的數(shù)據(jù)進(jìn)行聚類處理。
圖4 用戶用電特征曲線
當(dāng)前數(shù)據(jù)經(jīng)過聚類處理后,聚類數(shù)量與距離的關(guān)系曲線如圖5所示。從圖中可以看出,值增加,樣本點(diǎn)與中心點(diǎn)的距離反而較小,反之則增加。
圖5 聚類數(shù)量-距離關(guān)系曲線
由聚類數(shù)量-距離關(guān)系曲線可知,取值為4或5均可。本文值取5,構(gòu)建了一個(gè)聚類數(shù)量為5的模型。利用模型對(duì)數(shù)據(jù)進(jìn)行分組,各組用電數(shù)據(jù)曲線的對(duì)比如圖6所示,圖中黑色粗線為每個(gè)聚類的平均值。
圖6 數(shù)據(jù)進(jìn)行5分類后的結(jié)果
為方便觀察和分析,本文把5個(gè)聚類結(jié)果的平均值曲線放到一張圖中進(jìn)行對(duì)比,繪制出如圖7所示的不同類型用戶用電行為曲線。
圖7 不同類型用戶用電行為曲線
聚類模型根據(jù)用戶用電量的梯度,將213戶用戶分成了5類。
第1類用戶的數(shù)量為77戶。該類用戶的用電量從10:00開始上升,18:00左右用電量達(dá)到峰值后開始逐漸下降。該類用戶數(shù)量是五類用戶中最多的,但其整體用電量不算大。此類用戶屬于供電公司的基礎(chǔ)客戶,供電公司應(yīng)該保持住這類用戶的用電活躍度。
第2類用戶的數(shù)量為15戶,數(shù)量較少。該類用戶的用電量從8:00左右開始增加,且整體來看用電量較多,所以此類用戶可能是某些公司或工廠。
第3類用戶的數(shù)量為56戶,數(shù)量較多,但其全日的用電量一直較低,且一整天波動(dòng)不大。用戶可能當(dāng)日出門不在家或是獨(dú)居的退休老人。供電公司可以考慮如何提升該類用戶的用電活躍度。
第4類用戶的數(shù)量為63戶,用戶數(shù)量較多,且其全日的用電量變化與第1類用戶類似,可以與第1類用戶歸為一類。區(qū)別就是第4類用戶的日平均用電量較高,但其也是供電公司的基礎(chǔ)客戶。從曲線可以看出,此類用戶的用電峰谷平時(shí)段分界明確,供電公司可以此為依據(jù),為其制定更加精確的供電方案和收費(fèi)策略。
第5類用戶的數(shù)量為2戶,用戶數(shù)量最少。此類用戶的夜間用電量很大,用電曲線起伏也較大,考慮到晚上電價(jià)便宜,此類用戶可能是某些大型生產(chǎn)商。
各類用戶具體行為有待結(jié)合實(shí)際情況做進(jìn)一步分析。
本文隨機(jī)選取了數(shù)據(jù)庫中某一天的數(shù)據(jù)進(jìn)行了分析,提出了基于聚類算法的用戶用電行為分析方法。經(jīng)過數(shù)據(jù)預(yù)處理、聚類個(gè)數(shù)的選取,最終采用-means++算法對(duì)213戶用戶某工作日的日負(fù)荷曲線進(jìn)行聚類,并對(duì)用戶進(jìn)行用電行為的分析。因大多數(shù)用戶的用電行為是習(xí)慣性的,即在一周或者更長(zhǎng)時(shí)間內(nèi),用戶的電能消耗行為可能一直保持不變,故也可以按此方法確定用戶一周甚至更長(zhǎng)時(shí)間的功耗習(xí)慣和類型。此外,考慮到用戶主要是夜間用戶,供電公司可以考慮降低電價(jià),鼓勵(lì)用戶在夜間使用更多的電力,這對(duì)電網(wǎng)的健康更有利。通過基于分類模式的用戶日用電量分析,可以更好地了解用戶的用電行為。本文針對(duì)每種類型的電力負(fù)荷展開用戶用電行為分析,以方便供電公司給用戶提供更合理的套餐服務(wù);同時(shí)根據(jù)不同類型的電力消費(fèi)用戶,收取不同的稅費(fèi),并提高系統(tǒng)的電能利用效率,為今后的工作提供可靠的依據(jù)。