王 揚(yáng),吳 凡,姚宗強(qiáng),劉 杰,李 棟
(1.國家電網(wǎng) 天津市電力公司,天津 300010; 2.北京大學(xué) 光華管理學(xué)院,北京 100871;3.南開大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,天津 300350)
(*通信作者電子郵箱younger022@163.com)
基于正則化矩陣分解的用戶用電行為分析
王 揚(yáng)1,2*,吳 凡1,姚宗強(qiáng)1,劉 杰3,李 棟3
(1.國家電網(wǎng) 天津市電力公司,天津 300010; 2.北京大學(xué) 光華管理學(xué)院,北京 100871;3.南開大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,天津 300350)
(*通信作者電子郵箱younger022@163.com)
針對細(xì)粒度、多類別的用戶用電行為分析問題,提出了基于地理信息正則化矩陣分解的居民用戶用電行為分析算法,探索用戶用電的群體特點(diǎn),為個性化的、更優(yōu)的電力調(diào)度提供決策支持依據(jù)。該模型首先基于矩陣分解理論將用戶映射到能表征其用電行為特點(diǎn)的潛在特征空間,然后采用k-means聚類算法在潛在特征空間上實(shí)現(xiàn)用電用戶群的細(xì)分聚類。特別地引入了地理信息作為矩陣分解的正則化因子,使得學(xué)習(xí)到的潛在特征空間不僅滿足用戶群特征的正交,而且使得地理位置相近的用戶在潛在特征空間的映射也相近,與真實(shí)物理空間保持一致。將所提方法應(yīng)用于中新天津生態(tài)城智能電網(wǎng)采集到的真實(shí)居民用電數(shù)據(jù)分析挖掘任務(wù)中。實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)的向量空間模型(VSM)和非負(fù)矩陣分解 (NMF)算法相比,所提方法能夠取得更好的用戶細(xì)分聚類結(jié)果,挖掘出一定的用戶群體用電模式,有助于輔助智能電網(wǎng)提升經(jīng)營和服務(wù)水平。
智能電網(wǎng);非負(fù)矩陣分解;用戶用電信息;用戶細(xì)分;地理信息系統(tǒng)
隨著智能電網(wǎng)的應(yīng)用普及[1-2]和大數(shù)據(jù)技術(shù)快速發(fā)展[3-5],海量用戶用電數(shù)據(jù)被記錄和存儲,帶動了用戶用電行為分析等新方向的實(shí)踐和理論研究[6-7]。
本文關(guān)注智能電網(wǎng)中居民用戶用電行為細(xì)分,采用矩陣分解和聚類智能信息處理手段,將具有相似用電行為的用戶聚簇,自動化地挖掘用戶群體用電的行為模式,幫助電網(wǎng)企業(yè)更精準(zhǔn)地理解用戶需求、快速把握市場需求波動趨勢,從而有針對性地提升服務(wù)品質(zhì)、制定相應(yīng)的市場營銷策略,在滿足市場需求的情況下達(dá)到能源的高效使用。
傳統(tǒng)的智能電網(wǎng)用戶細(xì)分模型主要為啟發(fā)式的聚類算法[8-9]。根據(jù)經(jīng)驗(yàn),預(yù)先定義兩個用戶的行為相似性度量方法,然后采用聚類方法基于該相似度度量對用戶聚類。相似度計(jì)算作用在用戶的用電序列向量上,常用的相似度度量方法有歐氏距離、余弦相似度或者皮爾遜系數(shù)。這樣的理論框架可以聚類用戶,但對于電網(wǎng)企業(yè)而言,由于供電運(yùn)輸是與地理相關(guān)的,對地理相近(比如同市、鄉(xiāng)鎮(zhèn)、社區(qū)等)且用電需求相似的用戶群提供特定供電服務(wù)更為可行。這對傳統(tǒng)聚類方法提出了新的挑戰(zhàn)。
為了解決上述問題,本文提出基于地理信息正則化矩陣分解[10-13]的居民用戶用電行為分析方法,將地理位置接近且具有相似用電量的住宅用戶聚集。算法首先基于地理信息正則化矩陣分解算法,將居民根據(jù)其時間序列用電量的情況投影到潛在特征空間,并約束地理位置相近的用戶在潛在特征空間也相近,然后采用聚類算法在潛在特征空間上對用戶聚類細(xì)分,使得用戶聚類結(jié)果不僅保證用戶的地理位置接近且具有相似用電行為。為了求解基于地理信息正則化矩陣分解的優(yōu)化目標(biāo),本文借助非負(fù)矩陣分解(Nonnegtive Matrix Factorization, NMF)的優(yōu)化思路,設(shè)計(jì)了一種基于非負(fù)梯度更新的求解算法。
在中新天津生態(tài)城智能電網(wǎng)中真實(shí)居民用戶用電數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的基準(zhǔn)算法,本文算法能夠取得更好的用戶細(xì)分性能。
本文的主要工作是:1)首次提出將地理位置信息引入到智能電網(wǎng)用戶細(xì)分研究中,為智能電網(wǎng)更好分析用戶行為提供更貼近實(shí)際的思路;2)提出基于地理信息正則化矩陣分解的居民用戶用電行為分析方法,使得地理位置相近且具有相似用電量的用戶聚集在一起;3)真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,相比基準(zhǔn)的向量空間模型(Vector Space Model, VSM)和非負(fù)矩陣分解 (NMF)算法,本文算法具有更好性能。
與本文相關(guān)的研究領(lǐng)域主要有智能電網(wǎng)技術(shù)數(shù)據(jù)分析研究中的用戶細(xì)分方法。
智能電網(wǎng)上的節(jié)點(diǎn)本質(zhì)上是輸電節(jié)點(diǎn)和用戶,其核心內(nèi)容之一是采集用戶的用電信息。因此,大量研究者開展用戶用電信息采集技術(shù)的研究,期望通過研究更加準(zhǔn)確和有效的采集技術(shù),實(shí)現(xiàn)用電信息的采集、分享和監(jiān)控,進(jìn)一步推動信息的管理和分析,甚至用電信息的預(yù)測[1]。一些研究者在分析國內(nèi)電力用戶用電采集信息系統(tǒng)的基礎(chǔ)上,對采集信息系統(tǒng)在電網(wǎng)中的應(yīng)用進(jìn)行了進(jìn)一步探討[2]。牛春霞[8]對用戶用電信息采集系統(tǒng)從基本概念、系統(tǒng)組成、系統(tǒng)數(shù)據(jù)模型、主要功能、測試方法等方面進(jìn)行了詳細(xì)的討論。除了用電信息采集技術(shù),研究者也開始借助智能信息處理技術(shù),對大規(guī)模收集的用戶用電數(shù)據(jù)進(jìn)行挖掘和分析,期望從數(shù)據(jù)中發(fā)現(xiàn)運(yùn)營規(guī)則以及發(fā)展趨勢[9]。
中新天津生態(tài)城智能電網(wǎng)是我國首個進(jìn)入實(shí)質(zhì)性建設(shè)的智能電網(wǎng)綜合示范工程[6-7],并于2011年9月竣工。國網(wǎng)天津市電力公司依托中新天津生態(tài)城智能電網(wǎng),開展智能配用電園區(qū)技術(shù)集成研究,其核心目標(biāo)是基于地理位置信息,開展住宅用電信息的采集、分析及可視化。
用戶細(xì)分研究是客戶關(guān)系管理最重要的一環(huán),廣泛存在于智能電網(wǎng)、民航售票和信用卡用戶分析等領(lǐng)域。傳統(tǒng)的用戶細(xì)分技術(shù)更多采用RFM模型,即通過對用戶的最近消費(fèi)(Recent)、消費(fèi)頻率(Frequency)與消費(fèi)額(Monetary)進(jìn)行用戶細(xì)分[10-13]。由于RFM模型建立在原始數(shù)據(jù)特征空間上,并沒有考慮原始數(shù)據(jù)特征間的相關(guān)性,這對用戶細(xì)分性能有一定的影響,尤其當(dāng)數(shù)據(jù)維度非常龐大時。為此,有研究者開始著手先將原始數(shù)據(jù)作降維處理,以去除數(shù)據(jù)特征間的相關(guān)性,然后再作用戶細(xì)分。受上述想法的啟發(fā),研究者將非負(fù)矩陣分解應(yīng)用于用戶細(xì)分,通過將原始數(shù)據(jù)樣本-特征的非負(fù)矩陣分解成兩個非負(fù)矩陣(潛在特征表示矩陣和系數(shù)矩陣)的乘積,達(dá)到將用戶映射到潛在特征空間的目的。除了用戶細(xì)分,NMF還被用于文本聚類和圖像復(fù)原[14-18],如:Cai等[12]在非負(fù)矩陣分解中引入圖正則化約束,提升了文本聚類性能;Li等[13]提出一種關(guān)系正則化矩陣分解,并將其應(yīng)用于文本分類問題上。
雖然NMF能夠取得較好的用戶細(xì)分性能,但NMF沒有考慮用戶地理位置的信息,不能完成分析一個特定區(qū)域的總體用電行為和趨勢的任務(wù)。為此,本文提出基于地理信息正則化矩陣分解的智能用戶細(xì)分算法,其主要思路是在傳統(tǒng)NMF基礎(chǔ)上引入用戶地理信息,使得矩陣分解時保證地理位置相近的用戶在潛在特征空間也相近,為后續(xù)使用聚類算法在潛在特征空間對用戶聚類提供了地理相似的描述。
為了更好地對用戶細(xì)分,本文在傳統(tǒng)非負(fù)矩陣分解基礎(chǔ)之上融入用戶地理位置信息,提出基于地理信息正則化矩陣分解的居民用戶用電行為分析,其核心思想是通過對用戶用電信息矩陣分解,挖掘潛在特征空間,在此基礎(chǔ)之上采用k-means聚類算法對用戶聚類。
2.1 符號定義
本文假設(shè)每個用戶有一個配置文件。配置文件包括用戶的歷史用電記錄和地理位置信息,其中用戶用電信息是通過用戶電表采集每天不同時刻的用電量。
(1)
2.2 地理信息正則化矩陣分解
非負(fù)矩陣分解旨在將一個非負(fù)矩陣分解成兩個低維非負(fù)矩陣,這兩個矩陣可分別理解為特征表示矩陣和系數(shù)矩陣,即:
U=VS
(2)
在智能電網(wǎng)用戶細(xì)分研究中,由于非負(fù)矩陣分解(NMF)無法保持用戶地理位置的相似性,為此本文提出一種改進(jìn)的NMF,首先將式(2)改寫為:
Ui=ViS;i=1,2,…,T
(3)
為了能夠?qū)崿F(xiàn)上述矩陣分解,本文首先引入描述分解逼近的損失函數(shù),即:
(4)
其中‖·‖代表矩陣2范式。為了避免分解過度擬合,分別對V和S增加兩個正則化約束,即:
(5)
其中α和β為非負(fù)參數(shù),用于平衡逼近目標(biāo)和正則化約束。
直觀上,地理位置相似的用戶具有相似的用電量,為此需要將用戶之間的位置相似信息引入到約束目標(biāo)中,更精確地說,相似的用戶在新的特征空間具有相似的系數(shù)。綜合上述因素,本文得到基于地理信息正則化矩陣分解的優(yōu)化目標(biāo):
(6)
其中γ是先驗(yàn)參數(shù),用于權(quán)衡地理信息對非負(fù)矩陣分解約束的強(qiáng)度,該值越大,說明地理位置的靠近對于用戶潛在特征表示越重要。
由于損失函數(shù)l是關(guān)于Vi和S的凸函數(shù),為此本文采用梯度下降算法進(jìn)行迭代求解,其中Vi和S的更新規(guī)則如下:
(7)
(8)
通過不斷反復(fù)迭代,Vi和S最終收斂到全局最優(yōu)解。算法流程如算法1。
算法1 基于迭代更新的地理信息正則化矩陣分解。
輸入 用戶住宅用電量矩陣U1,U2,…,UT;用戶地理相似性矩陣E(計(jì)算方法見式(1));數(shù)據(jù)潛在特征維度K;平衡因子α、β、γ。
輸出 特征矩陣V1,V2,…,VT;系數(shù)矩陣S。
隨機(jī)初始化V1,V2,…,VT,S
Repeat
FORi=1:T
根據(jù)式(7)更新Vi
ENDFOR
根據(jù)式(8)更新S
Until Convergence
返回V1,V2,…,VT,S
2.3 用戶細(xì)分算法
在2.2節(jié),本文通過地理信息正則化矩陣分解將用戶映射到潛在特征空間V上。本節(jié)在此基礎(chǔ)之上,在潛在特征空間V上采用k-means算法對用戶聚類,算法流程見算法2。算法首先將T個用戶隨機(jī)劃分成k個簇c1,c2,…,ck,其次迭代計(jì)算聚類中心,其中樣本到聚類中心的相似性采用矩陣跡計(jì)算。
sim(A,B)=tr(AB)/(‖A‖‖B‖)
(9)
其中:A和B分別代表兩個矩陣;tr(·)為矩陣的跡。
與此同時,每個用戶不斷調(diào)整劃分到最近的聚類中心,其計(jì)算方法是:
(10)
其中|c|是聚類c中的樣本數(shù)目。算法反復(fù)迭代,直至算法收斂。
算法2 基于k-means聚類的用戶細(xì)分。
輸入 用戶特征矩陣V={V1,V2,…,VT};聚類數(shù)目k;
輸出 輸出聚類結(jié)果c1,c2,…,ck。
隨機(jī)將N個用戶劃分到k個簇
Repeat
FORj=1:T
根據(jù)式(9)計(jì)算用戶特征矩陣Vj到聚類中心距離
END FOR
FORi=1:k
根據(jù)式(10)計(jì)算新的聚類中心
END FOR
Until Convergence
返回聚類結(jié)果c1,c2,…,ck
為了驗(yàn)證算法的有效性,本文將提出的算法應(yīng)用在中新天津生態(tài)城的真實(shí)用戶用電數(shù)據(jù),并進(jìn)一步與基準(zhǔn)的向量空間模型(VSM)和非負(fù)矩陣分解 (NMF)算法進(jìn)行性能比較。為了與基準(zhǔn)方法區(qū)分,將本文提出的基于地理信息正則化矩陣分解的用戶用電分析算法稱為GMF(Geographic regularized Matrix Factorization)。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文所采用的數(shù)據(jù)集是中新天津生態(tài)城的居民用戶用電數(shù)據(jù)。數(shù)據(jù)集包含來自9個社區(qū)的4 826個用戶。針對每個用戶,本文抽取其2015年8月26日至2015年9月30日內(nèi)的用電數(shù)據(jù),其中每天抽取96個樣本點(diǎn)。對于數(shù)據(jù)中的缺失值,本文采用平均值代替。
3.2 基準(zhǔn)算法
本文在用戶的特征表示方面采用兩種主流表示方法作為基準(zhǔn)算法,分別為:
1)向量空間模型(VSM): 最常用的特征表示模型,即直接使用Ui作為用戶特征表示。
2)非負(fù)矩陣分解(NMF):傳統(tǒng)的未考慮地理約束的非負(fù)矩陣分解方法,將原始輸入矩陣分解成兩個非負(fù)矩陣的乘積,選擇其中的特征表示矩陣作為用戶的特征表示。
在特征表示后,使用k-means對用戶聚類,得到用戶群體。
3.3 評價指標(biāo)
為了評價聚類結(jié)果,本文提出一種考量類內(nèi)距離緊密、類間距離寬松的聚類指標(biāo)H距離值:
(11)
其中:k為聚類數(shù)目;|cp|是聚類cp的樣本數(shù)目。式(11)指標(biāo)的直觀物理含義是聚類相同的樣本對數(shù)目與不同聚類的樣本數(shù)目比值,其取值越大表示聚類結(jié)果越相似。
3.4 實(shí)驗(yàn)結(jié)果與分析
將GMF分解后的潛在特征空間維度分別設(shè)置為10、20、30,將聚類數(shù)目分別設(shè)置為5、6、7、8。表1給出了三種算法聚類性能指標(biāo)H距離值的結(jié)果。
根據(jù)表1可以得到以下結(jié)論:
1)相比VSM,基于矩陣分解的NMF 和 GMF能取得更好的H距離值,這說明采用矩陣分解能得到原始數(shù)據(jù)更好的特征表達(dá)。
2)相比NMF,GMF能取得更好的H距離值,這說明GMF
能發(fā)現(xiàn)更好的潛在特征。
3)雖然NMF 和 GMF在潛在特征維度為30時能取得最好的H距離值,但這并不意味著高維度不能夠取得更好性能,只能說明維度等于30適合原始數(shù)據(jù)集。
4)當(dāng)聚類數(shù)目為不同值時,GMF均能取得更好的H距離值;在聚類數(shù)據(jù)為5、6、8時,潛在特征維度為30時性能均最好。
表1 本文算法與基準(zhǔn)算法的H距離值性能比較Tab. 1 Comparison between proposed approach and baselines on H metric
圖1描述了不同聚類中用戶不同時刻的用電行為,縱坐標(biāo)為H距離值,橫坐標(biāo)為時間點(diǎn)。例如,聚類c3的用電高峰處于早上6:00到晚上6:00,而聚類c4的用電高峰卻是晚上8:00,c5高峰電量要明顯低于其他聚類,c6的峰值用電量最大。從中可以看出,同一聚簇中用戶有類似用電行為,不同聚簇具有不同用電行為,比如用電高峰和基本用電量。
圖2顯示每個聚簇內(nèi)每天平均用電量情況,從中可以看出不同聚類每天平均電量是不同的。例如,聚類6中前幾天平均每天用電量呈明顯下降趨勢,而其他聚類卻沒有明顯變化。
圖1 不同聚簇用電行為對比Fig. 1 Power usage comparison in each cluster
上述實(shí)驗(yàn)結(jié)果及分析表明,相比基準(zhǔn)算法,本文算法能夠取得更好的特征抽取性能,從而更好地支持智能電網(wǎng)中用戶的群體分析和畫像,為進(jìn)一步的決策和服務(wù)提供數(shù)據(jù)支持。
為了能夠更好地分析特定區(qū)域的用戶用電行為,本文提出并實(shí)現(xiàn)了一種基于地理信息正則化矩陣分解的居民用戶用電行為分析,使得地理位置相近且用電行為相似的用戶聚集在一起。地理信息正則化矩陣分解的優(yōu)化目標(biāo)由傳統(tǒng)非負(fù)矩陣分解的優(yōu)化目標(biāo)和地理信息正則化約束組成,其中地理信息正則化約束強(qiáng)調(diào)地理位置接近的用戶在潛在特征空間也相近。為了求解上述優(yōu)化目標(biāo),本文設(shè)計(jì)了基于迭代更新的求解算法。本文通過地理信息正則化矩陣分解方法將用戶映射到潛在特征空間進(jìn)行表示;進(jìn)一步地,本文采用k-means聚類算法對用戶細(xì)分。在中新天津生態(tài)城智能電網(wǎng)中真實(shí)居民用戶用電數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)VSM和NMF算法,本文的算法能夠取得更好的用戶細(xì)分性能。
圖2 每個聚簇中每天平均使用電量Fig. 2 Average power usage per day in each cluster
[1] 余貽鑫,奕文鵬.智能電網(wǎng)[J].電網(wǎng)與清潔能源, 2009, 25(1): 1-7. (YU Y X, YI W P. Smart grids [J]. Power System and Clean Energy, 2009, 25(1): 1-7.)
[2] ZHAO J H, WANG L Y. Information structure of smart distribution network [J]. Power System Technology, 2009, 33(15): 26-29.
[3] STAFF S. Dealing with data. Challenges and opportunities. Introduction [J]. Science, 2011, 331(6018): 692-693.
[4] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657. (LI G J, CHENG X Q. Big data research: major strategic areas for future science and technology and economic and social development — research status and scientific thinking of big data [J]. Journal of Chinese Academy of Sciences, 2012, 27(6): 647-657.)
[5] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報,2013,36(6):1125-1138. (WANG Y Z, JIN X L, CHENG X Q. Web big data: status and prospect [J]. Chinese Journal of Computers, 2013, 36(6): 1125-1138.)
[6] 中國電機(jī)工程學(xué)會信息化專業(yè)委員會.中國電力大數(shù)據(jù)發(fā)展白皮書(2013)[M].北京:中國電力出版社,2013: 1-12. (Information Committee of Chinese Society for Electrical Engineering. China Electric Power Big Data Development White Paper [M]. Beijing: China Electric Power Press, 2013: 1-12.)
[7] 王揚(yáng),于海濤,張旭,等.電力大數(shù)據(jù)基礎(chǔ)平臺建設(shè)與應(yīng)用實(shí)踐[M].北京:中國電力出版社, 2016: 32-36. (WANG Y, YU H T, ZHANG X, et al. Electric Big Data Fundamental Platform Construction and Application [M]. Beijing:China Electric Power Press, 2016: 32-36.)
[8] 牛春霞. 電力用戶用電信息采集[M].中國電力出版社,2012:146-172. (NIU C X. Power User Information Collection [M]. Beijing: China Electric Power Press, 2012: 146-172.)
[9] LAMBERT E, FREMONT J, BOUQUET C. Method and applications of IEC common information model standard for distribution operations: a path towards smart grids development [C]// IET CIRED Seminar 2008: Proceedings of the 2008 Smart Grids for Distribution. Piscataway, NJ: IEEE, 2008: 1-4.
[10] LEE D D, SEUNG H S. Algorithms for non-negative matrix factorization [C]// NIPS 2000: Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2001: 556-562,
[11] LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization [J]. Nature, 1999, 401(6755): 788-791.
[12] CAI D, HE X, HAN J, et al. Graph regularized nonnegative matrix factorization for data representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1548-1560.
[13] LI W-J, YEUNG D-Y. Relation regularized matrix factorization [C]// IJCAI’09: Proceedings of the 21st International Jont Conference on Artifical Intelligence. San Francisco, CA: Morgan Kaufmann Publishers, 2009: 1126-1131.
[14] LUO P, TIAN Y, WANG X, et al. Switchable deep network for pedestrian detection [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 899-906.
[15] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1):221-231.
[16] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos [C]// NIPS 2013: Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 568-576.
[17] BRUNA J, MALLAT S. Invariant scattering convolution networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013: 35(8): 1872-1886.
[18] VITALI M, PERNICI B, O’REILLY U-M. Learning a goal-oriented model for energy efficient adaptive applications in data centers [J]. Information Sciences, 2015, 319(C):152-170.
This work is partially supported by the National High Technology Research and Development Program (863 Program) of China (2011AA05A117), the Major Projects of Tianjin Science and Technology Support Program (17YFZCGX00610), the Science and Technology Project of Tianjin Electric Power Company (KJ15- 1- 35, KJ17- 1- 23).
WANGYang, born in 1983, Ph. D., senior engineer. His research interests include intelligent information processing.
WUFan, born in 1973, senior engineer. His research interests include electric power informatization.
YAOZongqiang, born in 1968, senior engineer. His research interests include electric power informatization.
LIUJie, born in 1979, Ph. D., associate professor. His research interests include machine learning.
LIDong, born in 1980, Ph. D. His research interests include data mining.
Residentialelectricityconsumptionanalysisbasedonregularizedmatrixfactorization
WANG Yang1,2*, WU Fan1, YAO Zongqiang1, LIU Jie3, LI Dong3
(1.TianjinElectricPowerCompany,StateGridCorporationofChina,Tianjin300010,China;2.GuanghuaSchoolofManagement,PekingUniversity,Beijing100871,China;3.CollegeofComputerandControlEngineering,NankaiUniversity,Tianjin300350,China)
Focusing on the electricity user group feature, a residential electricity consumption analysis method based on geographic regularized matrix factorization in smart grid was proposed to explore the characteristics of electricity users and provide decision support for personalized better power dispatching. In the proposed algorithm, customers were firstly mapped into a hidden feature space, which could represent the characteristics of users’ electricity behavior, and thenk-means clustering algorithm was employed to segment customers in the hidden feature space. In particular, geographic information was innovatively introduced as a regularization factor of matrix factorization, which made the hidden feature space not only meet the orthogonal characteristics of user groups, but also make the geographically close users mapping close in hidden feature space, consistent with the real physical space. In order to verify the effectiveness of the proposed algorithm, it was applied to the real residential data analysis and mining task of smart grid application in Sino-Singapore Tianjin Eco-City (SSTEC). The experimental results show that compared to the baseline algorithms including Vector Space Model (VSM) and Nonnegative Matrix Factorization (NMF) algorithm, the proposed algorithm can obtain better clustering results of user segmentation and dig out certain power modes of different user groups, and also help to improve the level of management and service of smart grid.
smart grid; Nonnegtive Matrix Factorization (NMF); energy information of electricity users; customer segmentation; Geographic Information System (GIS)
TP391
A
2016- 12- 09;
2017- 03- 10。
國家863計(jì)劃項(xiàng)目(2011AA05A117);天津市科技支撐計(jì)劃重點(diǎn)項(xiàng)目(17YFZCGX00610);國網(wǎng)天津市電力公司科技項(xiàng)目(KJ15- 1- 35, KJ17- 1- 23)。
王揚(yáng)(1983—),男,天津人,高級工程師,博士,主要研究方向:智能信息處理; 吳凡(1973—),男,上海人,高級工程師,主要研究方向:電力信息化; 姚宗強(qiáng)(1968—),男,天津人,高級工程師,主要研究方向:電力信息化; 劉杰(1979—),男,河北唐山人,副教授,博士,CCF會員,主要研究方向:機(jī)器學(xué)習(xí); 李棟(1980—),男,天津人,博士,主要研究方向:數(shù)據(jù)挖掘。
1001- 9081(2017)08- 2405- 05
10.11772/j.issn.1001- 9081.2017.08.2405