葛 翔,山憲武,宋秩行,陳 術(shù),高弘毅,孫永輝
(1.國網(wǎng)新疆電力有限公司營銷服務(wù)中心,新疆 烏魯木齊 830000;2.國網(wǎng)重慶市電力公司營銷服務(wù)中心,重慶 401123: 3.河海大學(xué) 能源與電氣學(xué)院,江蘇 南京 211100)
近年來,中國各地長期電力供不應(yīng)求,家庭用電占社會用電的比重日趨增大。在此背景下,增強(qiáng)居民節(jié)約用電意識顯得尤為重要[1]。非侵入式負(fù)荷監(jiān)測技術(shù)能夠基于區(qū)域入的總電量的分解,實(shí)現(xiàn)區(qū)域內(nèi)分項(xiàng)負(fù)荷的狀態(tài)感知,如獲取負(fù)荷的數(shù)量、種類、啟停時(shí)間、工作狀態(tài)以及對應(yīng)的功率水平等[2-3]。由于具有成本低、普適性強(qiáng)等優(yōu)點(diǎn),基于智能電表的非侵入式負(fù)荷監(jiān)測(Non-intrusive load monitoring,NILM)技術(shù)已經(jīng)在世界各地得到廣泛應(yīng)用,為精細(xì)描述用戶用電特征創(chuàng)造了條件[4]。計(jì)及用戶負(fù)荷信息,基于用戶用電行為特征分析,研究居民用戶分類方法,已經(jīng)成為重要的研究方向。
當(dāng)前對于居民用戶特征識別與分類的相關(guān)研究已取得了一些成果。文獻(xiàn)[5]考慮將圖結(jié)構(gòu)用于表示社交網(wǎng)絡(luò),基于子圖劃分原理,實(shí)現(xiàn)復(fù)雜度較低,準(zhǔn)確率較高的社交網(wǎng)絡(luò)聚類。文獻(xiàn)[6]運(yùn)用K-means算法,根據(jù)負(fù)荷曲線的整體分布、局部動態(tài)與整體動態(tài)三種特性,自適應(yīng)地獲取權(quán)重系數(shù),對日負(fù)荷曲線聚類。文獻(xiàn)[7]根據(jù)地理位置、住宅面積、電器裝置等特征建立了家庭特征匹配評分準(zhǔn)則,通過得分排名尋找相似鄰里。文獻(xiàn)[8]首先根據(jù)海量電力數(shù)據(jù)從多角度建立用戶特征標(biāo)簽體系,然后,基于改進(jìn)K-means聚類算法對用戶進(jìn)行分類,將用戶綜合畫像可視化呈現(xiàn)。文獻(xiàn)[9]基于用電特征優(yōu)選策略,設(shè)計(jì)了一種基于極限學(xué)習(xí)機(jī)的居民用戶分類方法,算例測試證明了所提出方法的有效性。文獻(xiàn)[10]利用基于密度的帶噪聲數(shù)據(jù)應(yīng)用的空間聚類方法(Density based spatial clustering of applications with noise,DBSCAN)剔除異常數(shù)據(jù),獲取用戶典型用電模式,再用引力搜索算法對用電模式進(jìn)行聚類。上述研究在用戶用電模式分類方面更多關(guān)注總負(fù)荷曲線,而較少考慮居民用戶分項(xiàng)負(fù)荷曲線,難以精確本區(qū)分用戶用電模式的差異化特征。
本文設(shè)計(jì)一種相似鄰里查找模型,利用DBSCAN處理NILM數(shù)據(jù),提取待查用戶池中用戶的分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線,計(jì)算各分項(xiàng)負(fù)荷時(shí)間分布的余弦相似度,結(jié)合熵權(quán)法對各項(xiàng)余弦相似度進(jìn)行加權(quán),根據(jù)相似度排序結(jié)果查找相似鄰里。最后以公開的居民用戶用電數(shù)據(jù)集進(jìn)行仿真分析,驗(yàn)證所述方法的有效性。
基于NILM技術(shù)采集的居民用戶分項(xiàng)負(fù)荷曲線由采樣點(diǎn)功率值表示為
(1)
受多種因素(如高/低溫、外出旅游等)的影響,居民用戶在個(gè)別日的負(fù)荷曲線與一般負(fù)荷曲線存在較大差別,將這些負(fù)荷曲線稱為異常負(fù)荷曲線。傳統(tǒng)的曲線聚類手段對異常負(fù)荷曲線敏感,因此存在缺陷。
針對上述問題,同時(shí)考慮到居民用戶的正常負(fù)荷曲線趨向于聚集在標(biāo)準(zhǔn)曲線附近,而異常曲線有時(shí)會偏離標(biāo)準(zhǔn)曲線,采用基于密度空間的聚類算法DBSCAN,提取一個(gè)月內(nèi)居民用戶分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線。
DBSCAN算法能夠?qū)⒖臻g中分布密度大的點(diǎn)聚類為一簇,避免異常數(shù)據(jù)點(diǎn)對整體分析的干擾[11]。DBSCAN聚類算法的超參數(shù)為聚類半徑ε和核心點(diǎn)閾值NMinPts。
為了有效地排除異常曲線,提取標(biāo)準(zhǔn)曲線,合理地設(shè)置核心參數(shù)ε及NMinPts,在多次測試的基礎(chǔ)上,同時(shí)參考文獻(xiàn)[12]提出的經(jīng)驗(yàn)公式,采用如下設(shè)置DBSCAN算法參數(shù)的方法。
異常曲線占分項(xiàng)負(fù)荷曲線總數(shù)N的比重一般不超過20%,為了防止異常曲線的誤劃分,取
NMinPts=[N×20%]
(2)
考慮居民用戶正常用電情況下,分項(xiàng)負(fù)荷曲線變化范圍不超過最大分項(xiàng)負(fù)荷值10%,取聚類半徑為
(3)
式中:T是每日采樣點(diǎn)總數(shù);Pmax為30日內(nèi)最大負(fù)荷。
DBSCAN算法流程如圖1所示。
圖1 DBSCAN算法流程圖
經(jīng)過負(fù)荷預(yù)處理后,獲取用戶i的分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線集
(4)
為了避免數(shù)據(jù)不完整的用戶和空置房對查找產(chǎn)生不利的影響,針對某一特定地區(qū)的居民用戶,建立待查用戶池。步驟包括:獲取同一地區(qū)內(nèi)所有過去30日分項(xiàng)NILM數(shù)據(jù)完整的用戶數(shù)據(jù);剔除異常用戶,其中異常用戶指過去12個(gè)月總用電量小于或等于200 kW·h,或者過去30天用電量小于或等于20 kW·h的用戶。
在此基礎(chǔ)上,采用上文所述的密度聚類算法,提取待查用戶池中各用戶的分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線,作為相似鄰里查找的依據(jù)。
相似度函數(shù)是用于量化數(shù)據(jù)對象之間近似水平的一種測度,余弦相似度函數(shù)越趨向于1時(shí)雙方近似水平越高。定義用戶i和用戶j關(guān)于負(fù)荷m的余弦相似度函數(shù)
(5)
式中:特別地,當(dāng)某一向量為零向量,另一向量非零向量時(shí),余弦相似度為零;當(dāng)雙方均未零向量時(shí),余弦相似度為一。
為了描述兩組離散數(shù)據(jù)在分布形態(tài)上的近似水平,序列向量的方向比模更值得關(guān)注,余弦相似度函數(shù)能夠簡單清晰地度量兩個(gè)向量在角度上的相似度,適合用于基于分項(xiàng)負(fù)荷時(shí)間分布的相似鄰里查找。
計(jì)算分項(xiàng)負(fù)荷的相似度后,將其加權(quán)求和,得到總相似度,以此為依據(jù)排序。熵權(quán)法的原理是用信息熵量化度量一組數(shù)據(jù)的變動水平的大小,其變動水平越大,數(shù)字越有價(jià)值,其比重也越大。傳統(tǒng)熵權(quán)法具有權(quán)重對于接近于1的熵值過于敏感等缺點(diǎn),因此采用改進(jìn)熵權(quán)法求得各分項(xiàng)負(fù)荷相似度的權(quán)重[13]。其步驟如下:
(1)數(shù)據(jù)歸一化,若要查找用戶i的相似鄰里,則用戶j關(guān)于m負(fù)荷的歸一化余弦相似度Rm(i,j)的計(jì)算方法為
(6)
式中:特別地,若max(Cm(i,j))和min(Cm(i,j))相等時(shí),Rm(i,j)等于1。
(2)計(jì)算信息熵,關(guān)于負(fù)荷m的信息熵記為Em(i),表達(dá)式如下
(7)
(8)
式中:N為待查用戶池用戶總量。
(3)計(jì)算權(quán)重,負(fù)荷m的余弦相似度權(quán)重ωm(i)計(jì)算方式如下
(9)
(4)求總相似度,根據(jù)步驟(3)求得的權(quán)重,對分項(xiàng)負(fù)荷相似度加權(quán),求得用戶j對用戶i的負(fù)荷時(shí)間分布總相似度S(i,j),由式(10)計(jì)算
(10)
(5)根據(jù)總相似度的排名情況,選取排名靠前的一定比例的居民用戶作為相似鄰里。文中取前7.5%用戶作為相似鄰里。
為了驗(yàn)證上述模型的有效性,選取UC Irvine School of Information and Computer Science公開的數(shù)據(jù)集作為分析實(shí)例。運(yùn)用上述模型查找一名來自阿拉斯加安克雷奇的居民(記為用戶1)的相似鄰里。
以居住于佛羅里達(dá)西棕櫚灘的某用戶為例,利用DBSCAN密度聚類算法對一月份的用電負(fù)荷進(jìn)行預(yù)處理,提取標(biāo)準(zhǔn)曲線,結(jié)果如圖2所示。該用戶在一月份內(nèi)大多數(shù)負(fù)荷曲線形態(tài)相似,但是存在2條曲線與其他曲線差異較大。通過DBSCAN密度聚類,將分布差異較大的2條標(biāo)記為異常曲線,并將其余的曲線標(biāo)記為正常曲線。圖2示例證明,DBSCAN算法能夠檢測出異常用電行為,提取居民用戶的標(biāo)準(zhǔn)負(fù)荷曲線。
圖2 分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線提取實(shí)例
以用戶1為參考對象,先根據(jù)式(5)求其余用戶與用戶1的分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線的余弦相似度,然后根據(jù)式(6)計(jì)算得到歸一化余弦相似度,再根據(jù)式(7)和(8)計(jì)算各負(fù)荷的信息熵,各項(xiàng)負(fù)荷的余弦相似度的信息熵如表1所示。最后采用式(9)基于改進(jìn)熵權(quán)法計(jì)算權(quán)重。傳統(tǒng)熵權(quán)法采用式(11)計(jì)算得到權(quán)重。兩種權(quán)重計(jì)算結(jié)果比較如圖3所示。
(11)
圖3 改進(jìn)熵權(quán)法與傳統(tǒng)熵權(quán)法比較
表1 各項(xiàng)負(fù)荷余弦相似度的信息熵
結(jié)合表1和圖3看出,傳統(tǒng)熵權(quán)法對于較小的熵值變化較為敏感,尤其對于處于0.95~1.00之間的熵值賦權(quán)時(shí),微小的熵值差異也會引起權(quán)值的大幅波動。改進(jìn)熵權(quán)法能夠克服傳統(tǒng)熵權(quán)法對于微小熵值差異過于敏感的缺點(diǎn),具有平滑權(quán)重值的效果。
根據(jù)加權(quán)后得到的總相似度排名,選取排名前7.5%的用戶,標(biāo)記為相似鄰里。采用文中提出的方法提取用戶1的相似鄰里,其部分分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線和排名靠后的非相似鄰里用戶的部分分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線如圖4所示。
圖4 相似鄰里與非相似鄰里部分分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線
分析圖4,對于負(fù)荷1,相似鄰里標(biāo)準(zhǔn)負(fù)荷曲線形態(tài)基本相同,用電高峰出現(xiàn)在20點(diǎn),而部分非相似鄰里用電高峰出現(xiàn)在8點(diǎn);對于負(fù)荷2,相似鄰里0點(diǎn)到5點(diǎn)用電量相比非相似鄰里較少,而18點(diǎn)的用電高峰則較多;圖中負(fù)荷3為電熱取暖器,相似鄰里均不使用此負(fù)荷(使用燃?xì)馊∨?,而非相似鄰里多數(shù)使用了此負(fù)荷??傮w而言,相似鄰里之間的分項(xiàng)負(fù)荷曲線分布形態(tài)差異較小,用戶具有類似的用電特征;非相似鄰里的分項(xiàng)負(fù)荷時(shí)間分布與相似鄰里之間差異較大。以上分析證明本文提出的方法能夠有效地將具有類似用電特征的居民用戶分類為一組相似鄰里。
本文構(gòu)建了一種基于NILM數(shù)據(jù)的相似鄰里查找模型??紤]異常用電行為的干擾,使用DBSCAN算法剔除異常數(shù)據(jù),提取用戶的分項(xiàng)負(fù)荷標(biāo)準(zhǔn)曲線。針對傳統(tǒng)熵權(quán)法存在的問題,由改進(jìn)熵權(quán)法對各項(xiàng)負(fù)荷余弦相似度加權(quán),根據(jù)相似度排序結(jié)果查找相似鄰里。最后通過仿真分析證明文中方法的有效性?;诒疚奶岢龅南嗨凄徖锊檎曳椒?將居民用戶各負(fù)荷能耗水平與相似鄰里進(jìn)行對比分析,進(jìn)而輔助定位高能耗來源和促進(jìn)居民用戶用電行為改善,將是下一步研究的重點(diǎn)。