王威、王蘭君
(國網(wǎng)上海市電力公司,上海 200000)
能源與電力發(fā)展事關(guān)國計(jì)民生,與經(jīng)濟(jì)社會存在廣泛緊密的聯(lián)系。推動大數(shù)據(jù)和實(shí)體經(jīng)濟(jì)深度融合,挖掘能源電力大數(shù)據(jù)價(jià)值,對于助力新時(shí)代能源電力事業(yè)數(shù)字化轉(zhuǎn)型,更好服務(wù)經(jīng)濟(jì)社會發(fā)展具有重大意義[1-2]。
售電收入是電力企業(yè)主營業(yè)務(wù)收入,在面臨復(fù)雜外部環(huán)境挑戰(zhàn)下,準(zhǔn)確落實(shí)國家政策要求,確保電價(jià)執(zhí)行正確,保證電費(fèi)應(yīng)收盡收是電力企業(yè)的重點(diǎn)工作之一。考慮到電網(wǎng)企業(yè)日常管理的復(fù)雜性,末端用戶電價(jià)執(zhí)行錯(cuò)誤造成的錯(cuò)收、少收一直都客觀存在[3-4]。以福利機(jī)構(gòu)類用電為例,福利機(jī)構(gòu)用電是指經(jīng)區(qū)(縣)級及以上人民政府民政部門批準(zhǔn),由國家、社會組織或公民個(gè)人舉辦的,為老年人、殘疾人、孤兒、棄嬰提供養(yǎng)護(hù)、康復(fù)、托管等服務(wù)場所的生活用電。然而,實(shí)際用電用戶中,部分應(yīng)執(zhí)行大工業(yè)、一般工商業(yè)電價(jià)的工商業(yè)企業(yè)、培訓(xùn)機(jī)構(gòu)類用戶等,錯(cuò)誤執(zhí)行了福利機(jī)構(gòu)類用電電價(jià)[5]。根據(jù)傳統(tǒng)基于用戶信息檔案比對的方法,以上用戶在電力公司登記信息很可能不存在任何疑點(diǎn)。用戶的用電行為習(xí)慣反映了真實(shí)用電需求,因此運(yùn)用能源電力大數(shù)據(jù)分析的技術(shù)方法分析用戶用電行為習(xí)慣特征識別異常用戶是精準(zhǔn)的切入點(diǎn)[6-8]。
能源電力大數(shù)據(jù)是在新時(shí)期能源生產(chǎn)和消費(fèi)革命的背景下,在能源電力、能源經(jīng)濟(jì)、電力經(jīng)濟(jì)、大數(shù)據(jù)等概念基礎(chǔ)上全面融合而成的新理念。通過融合電網(wǎng)企業(yè)內(nèi)部生產(chǎn)、營銷等數(shù)據(jù),以及外部各類能源、經(jīng)濟(jì)、產(chǎn)業(yè)、氣象、商業(yè)等數(shù)據(jù),利用大數(shù)據(jù)分析手段,對經(jīng)濟(jì)社會發(fā)展的運(yùn)行狀態(tài)、變化特點(diǎn)、關(guān)聯(lián)演進(jìn)等進(jìn)行洞察和分析,提供更好的服務(wù)[9-11]。
本課題應(yīng)用居民檔案信息、電量、負(fù)荷等內(nèi)部數(shù)據(jù),融合氣象、地理位置等外部數(shù)據(jù),分析福利機(jī)構(gòu)用電類用戶用電行為與用能情況,防范異常用電侵占風(fēng)險(xiǎn),助力電力公司進(jìn)行監(jiān)督和管理[12]。
首先,基于用戶用電特征,設(shè)計(jì)核心指標(biāo)體系,導(dǎo)入處理好的數(shù)據(jù)計(jì)算指標(biāo)值;然后,核算用戶指標(biāo)值與行業(yè)總體指標(biāo)值的偏離程度,換算成嫌疑分?jǐn)?shù),通過客觀賦權(quán)法確定各指標(biāo)偏離度權(quán)重,加權(quán)得到用戶綜合嫌疑得分;最后,根據(jù)綜合嫌疑得分高低識別潛在的異常用戶[13-15]。
圖1 用電異常嫌疑用戶識別模型技術(shù)路線Fig.1 Technical route of identification model for suspected users with abnormal electricity usage
模型識別原理是在用電行為習(xí)慣和特征相似的群體里,識別異于總體特征,或與總體特征弱相關(guān)的個(gè)體異常值[16-18]。
熵權(quán)法是一種客觀賦權(quán)法,基本思路是根據(jù)指標(biāo)的變化程度分配權(quán)重[19]。本文通過信息熵計(jì)算各指標(biāo)的權(quán)重:
(1)
注:假設(shè)給定了k個(gè)指標(biāo)X1,X2,……,Xk,其中Xi={x1,x2,……,xn},對各指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后的值為Y1,Y2,……,Yk,Ej表示信息熵。
變異系數(shù)模型是一種較為客觀的方法,能夠反映指標(biāo)數(shù)據(jù)的變化信息[20]。標(biāo)準(zhǔn)差與平均數(shù)的比值稱為變異系數(shù),記為CV,其計(jì)算公式為:
(2)
結(jié)合指標(biāo)變異系數(shù)計(jì)算指標(biāo)權(quán)重W(n),其計(jì)算公式為:
(3)
其中,n表示評價(jià)指標(biāo)個(gè)數(shù)。
指標(biāo)的變異程度來對各指標(biāo)進(jìn)行賦權(quán),當(dāng)指標(biāo)取值差異越大時(shí),也就越能反映因素差異。
為全面反映評價(jià)指標(biāo)的權(quán)重,采用灰色關(guān)聯(lián)模型進(jìn)行組合賦權(quán)[21]。運(yùn)用熵權(quán)法和變異系數(shù)法分別對各指標(biāo)計(jì)算客觀權(quán)重,并將兩組客觀權(quán)重通過一定的方式(如:乘法集成法)進(jìn)行組合,最終確定各指標(biāo)的權(quán)重。
(1)生成權(quán)重矩陣
(2)求每個(gè)指標(biāo)權(quán)重平均值
(4)
(3)不同模型下指標(biāo)權(quán)重的絕對偏差
(5)
(4)計(jì)算指標(biāo)綜合權(quán)重
W(n)為綜合權(quán)重向量,其中:
其中wj表示第j個(gè)指標(biāo)在客觀綜合賦權(quán)法的組合權(quán)重。
通過運(yùn)用實(shí)時(shí)分析,對同一用電類別客戶的橫向比較,或者對同類型、同規(guī)模的用戶之間數(shù)據(jù)進(jìn)行比較,可利用箱形圖發(fā)現(xiàn)用電異常[22-23]。
箱形圖可以通過展現(xiàn)出的大致的數(shù)據(jù)離散程度,作為異常值判斷的信息支撐。與需假定數(shù)據(jù)服從正態(tài)分布的z分?jǐn)?shù)或3σ法則方法不同,箱形圖主要依靠實(shí)際數(shù)據(jù)特征,不需要事先假定數(shù)據(jù)服從特定的分布形式。
箱形圖的基礎(chǔ)是將數(shù)據(jù)劃分為上四分位數(shù)Q1、下四分位數(shù)Q3和四分位距QR。同時(shí)將Q3+1.5QR和Q1-1.5QR兩處異常值截?cái)帱c(diǎn)之間的區(qū)域作為內(nèi)限。箱線圖提供了識別異常值的一個(gè)標(biāo)準(zhǔn):小于Q1-1.5QR或大于Q3+1.5QR的值被定義為異常值。
從營銷業(yè)務(wù)應(yīng)用系統(tǒng)、用電信息采集系統(tǒng)中抽取用戶基礎(chǔ)用電特征數(shù)據(jù)(如:實(shí)時(shí)電流、電壓、日電量等),形成用戶特征原始數(shù)據(jù)表。同時(shí),為保證特征軌跡接近實(shí)際情況,將對原始數(shù)據(jù)表進(jìn)行缺失值填充、去重、歸一化等操作,確保數(shù)據(jù)整齊可靠。
2.1.1 月用電量數(shù)據(jù)字段
抽取用戶月用電量系統(tǒng)數(shù)據(jù)字段:戶號、戶名、供電單位、地址、合同容量、運(yùn)行容量、變壓器容量、用戶電壓、用電類別、行業(yè)類別、客戶類型、變損標(biāo)志、功率因素考核標(biāo)準(zhǔn)、立戶日期、銷戶日期、電源編號、電價(jià)碼、電價(jià)名稱、201901-201912各時(shí)段電量。
2.1.2 日用電量數(shù)據(jù)字段
抽取用戶日用電量系統(tǒng)數(shù)據(jù)字段:計(jì)量點(diǎn)ID、日期、表計(jì)倍率、總讀數(shù)、尖峰讀數(shù)、峰讀數(shù)、平讀數(shù)、谷讀數(shù)。
2.1.3 96點(diǎn)負(fù)荷數(shù)據(jù)字段
抽取用戶96點(diǎn)負(fù)荷系統(tǒng)數(shù)據(jù):戶號、計(jì)量點(diǎn)ID、電價(jià)碼、電價(jià)名稱、日期、A1(00:00-00:15)、A2(00:15-00:30)……A96(23:45-00:00)96個(gè)時(shí)點(diǎn)數(shù)據(jù)。
福利機(jī)構(gòu)用戶1437戶,電量時(shí)間跨度201901-201912。月用電量數(shù)據(jù)58,680條、日用電量數(shù)據(jù)594,950條、96點(diǎn)負(fù)荷數(shù)據(jù)57,115,200條。
2.2.1 月用電量數(shù)據(jù)統(tǒng)計(jì)
部分用戶涉及多個(gè)電表,抽取用戶電表每月峰、平、谷三個(gè)時(shí)段用電量數(shù)據(jù)。
2.2.2 日用電量數(shù)據(jù)統(tǒng)計(jì)
日用電量數(shù)據(jù)表提供的是各時(shí)段示數(shù),需要進(jìn)行計(jì)算轉(zhuǎn)換為電量值,具體計(jì)算邏輯如下:
電量值=(當(dāng)天讀數(shù)-前一日讀數(shù))*表計(jì)倍率
(注:當(dāng)天讀數(shù)是指當(dāng)天0時(shí)-當(dāng)日24時(shí),如:7月17日,當(dāng)天為2019年07月17日 0時(shí),到2019年07月18日 0時(shí))。
2.2.3 96點(diǎn)負(fù)荷數(shù)據(jù)統(tǒng)計(jì)
96點(diǎn)負(fù)荷數(shù)據(jù)表提供電壓、電流、功率因素三相數(shù)據(jù)(到表計(jì)),需要通過計(jì)算得到負(fù)荷并匹配到戶。96點(diǎn)負(fù)荷值計(jì)算具體邏輯如下:
某時(shí)刻負(fù)荷瞬時(shí)值=DL(該時(shí)刻電流)*DY(該時(shí)刻電壓)*YS(該時(shí)刻功率因素)
(注:ABC三相基本均衡,取C相用于后續(xù)數(shù)據(jù)分析)
2.3.1 空值情況
(1)日電量表
日電量表存在日期、表計(jì)倍率為空,以及平時(shí)段讀數(shù)、谷時(shí)段讀數(shù)缺失(為空或0)的情況。
經(jīng)核實(shí),平時(shí)、谷時(shí)讀數(shù)可能未采集到,后續(xù)考慮日用電量數(shù)據(jù)指標(biāo)和應(yīng)用場景,不用各時(shí)段的電量,僅采用總電量來做計(jì)算。
(2)96點(diǎn)負(fù)荷表
96點(diǎn)負(fù)荷數(shù)據(jù)表存在日期、SSLX(示數(shù)類型)、相線(XX)為空或某些時(shí)刻缺失,以及96個(gè)點(diǎn)負(fù)荷均為0的情況[24]。
經(jīng)核實(shí),可能是采集異常等原因?qū)е?,后續(xù)采用前后填充的方式填充缺失值。對于96個(gè)點(diǎn)負(fù)荷均為0的情況,在分析中考慮按計(jì)量點(diǎn)ID分組統(tǒng)計(jì)96個(gè)點(diǎn)時(shí)刻0值的天數(shù),若達(dá)到總天數(shù)80%以上則刪除該用戶,反之暫時(shí)保留。
2.3.2 負(fù)值情況
(1)日電量表
日電量表存在讀數(shù)倒流(讀數(shù)在某天下降的比前一天低)或讀數(shù)每天均相同情況。
經(jīng)核實(shí),讀數(shù)采集可能存在異?;虺砣藛T誤操作等問題導(dǎo)致,后續(xù)考慮將電量為負(fù)數(shù)的記錄進(jìn)行填充(前后填充)。讀數(shù)每天均相同的按METER_ID分組統(tǒng)計(jì)0值的天數(shù),達(dá)到總天數(shù)80%以上則刪除該表計(jì)數(shù)據(jù)。
(2)96點(diǎn)負(fù)荷表
96點(diǎn)負(fù)荷數(shù)據(jù)存在電壓、電流、功率因素等參數(shù)為負(fù)數(shù)的情況。
經(jīng)核實(shí),負(fù)荷瞬時(shí)值為負(fù)數(shù),表示倒走,后續(xù)分析直接填充為0。
2.3.3 數(shù)據(jù)修正
數(shù)據(jù)抽取采集過程中,不同系統(tǒng)或渠道數(shù)據(jù)源,部分存在數(shù)據(jù)異?;驔_突的問題。這是不同系統(tǒng)對于同一個(gè)數(shù)據(jù)對象的統(tǒng)計(jì)邏輯不同而造成的,邏輯的不一致會直接導(dǎo)致結(jié)果的差異性;除了統(tǒng)計(jì)邏輯和口徑的差異,也有因?yàn)樵磾?shù)據(jù)系統(tǒng)基于性能的考慮,放棄了外鍵約束,從而導(dǎo)致數(shù)據(jù)不一致的結(jié)果。
通常由于并發(fā)量和負(fù)載過高、服務(wù)器延遲甚至宕機(jī)等原因?qū)е碌臄?shù)據(jù)采集差異。對于這類的數(shù)據(jù)矛盾,首先明確各個(gè)源系統(tǒng)的邏輯、條件、口徑,然后定義一套符合各個(gè)系統(tǒng)采集邏輯的規(guī)則,并對異常源系統(tǒng)的采集邏輯進(jìn)行修正。
此外,還存在抽數(shù)規(guī)則的錯(cuò)誤導(dǎo)致的數(shù)據(jù)采集的錯(cuò)誤,此時(shí)需要從源頭糾正錯(cuò)誤的采集邏輯,然后再進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換。
抽取2019年上海全部福利機(jī)構(gòu)用電類用戶月用電量、日用電量和96點(diǎn)負(fù)荷數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理后,代入模型運(yùn)算,輸出疑似侵占用戶嫌疑清單。
3.1.1 基于資料調(diào)研的用電特征
(1)福利機(jī)構(gòu)用電活動規(guī)律性明顯,通常日間負(fù)荷較高,中午午休時(shí)間負(fù)荷降低,三餐時(shí)間會出現(xiàn)一個(gè)用電小高峰,夜間負(fù)荷較低,深夜是每天負(fù)荷的最低點(diǎn)[25]。
(2)福利機(jī)構(gòu)工作日用電與周末、節(jié)假日用電等相差不大。
(3)福利機(jī)構(gòu)用電受氣候、季節(jié)影響,陰雨天日間照明負(fù)荷增加,夏季高溫時(shí)空調(diào)、電扇負(fù)荷上升,冬季取暖用電負(fù)荷上升。
(4)福利機(jī)構(gòu)用電與工商業(yè)用電相比,負(fù)荷密度較小,屬于低耗能用戶。
3.1.2 基于大數(shù)據(jù)分析的用電特征
基于基礎(chǔ)數(shù)據(jù)觀測,對比分析福利機(jī)構(gòu)類用電谷電量占比、單位容量年消費(fèi)電量等指標(biāo)值情況:
(1)福利機(jī)構(gòu)類用戶季節(jié)性用電特征
福利機(jī)構(gòu)用電整體上夏季、冬季處于用電高峰,高峰月有1月-2月、8月(其中1月-2月氣溫偏低,8月氣溫最高),春秋季用電相對較低,與調(diào)研資料一致。
圖2 福利機(jī)構(gòu)用戶總體月度用電趨勢圖Fig.2 Overall monthly electricity consumption trend of users in welfare institutions
圖3 上海2019年氣溫變化趨勢Fig.3 Temperature trend of Shanghai in 2019
(2)福利機(jī)構(gòu)用戶峰谷用電強(qiáng)度分析
福利機(jī)構(gòu)用戶峰平谷用電相差不大,谷時(shí)段用電相對較低。為區(qū)分用戶白天夜間用電偏好,將峰時(shí)段與平時(shí)段電量相加作為峰時(shí)段,從峰谷時(shí)段用電趨勢可以看出,兩個(gè)時(shí)段趨勢基本一致,峰(峰+平)谷比約為3。
圖4 福利機(jī)構(gòu)用戶峰谷用電強(qiáng)度分布圖Fig.4 Peak-to-valley electricity intensity distribution of users in welfare institutions
圖5 福利機(jī)構(gòu)用戶總體月度峰谷用電趨勢圖Fig.5 Overall monthly peak-to-valley electricity trend of users in welfare institutions
(3)福利機(jī)構(gòu)用戶節(jié)假日用電強(qiáng)度分析
福利機(jī)構(gòu)工作日用電與周末用電整體差異較小,與全年日均電量比例維持在1∶1。
圖6 福利機(jī)構(gòu)用戶工作日/周末用電強(qiáng)度Fig.6 Power consumption intensity of users of welfare institutions on weekdays/weekends
(4)福利機(jī)構(gòu)用戶96點(diǎn)負(fù)荷曲線分析
福利機(jī)構(gòu)類用戶周末和工作日96點(diǎn)負(fù)荷曲線幾乎一致,無周末用電偏好;從96點(diǎn)負(fù)荷曲線可以看出用電主要集中在白天(早上6點(diǎn)至夜間6點(diǎn)),其他時(shí)段負(fù)荷較低。
圖7 福利機(jī)構(gòu)用戶96點(diǎn)負(fù)荷曲線Fig.7 96-point load curve for users of welfare institutions
3.2.1 特征指標(biāo)設(shè)計(jì)與公式
結(jié)合福利機(jī)構(gòu)類用戶用電數(shù)據(jù),對福利機(jī)構(gòu)用電特征的分析,歸納如下:
福利機(jī)構(gòu)用戶用電高峰集中在夏季和冬季,高峰月份為1月、2月、8月;工作日與周末用電差異不大;白天用電較多,夜間用電較少(夏季、冬季可能略有增高),總體峰谷用電趨勢一致。因此福利機(jī)構(gòu)用電嫌疑用戶挖掘主要參考谷峰電量比、周末與工作日用電強(qiáng)度比等2個(gè)特征指標(biāo),各指標(biāo)計(jì)算公式如下所示:
(1)谷峰電量比=谷時(shí)段電量/峰時(shí)段電量;
(2)周末用電強(qiáng)度=周末日均電量/全年日均電量;
(3)工作日用電強(qiáng)度=工作日日均電量/全年日均電量;
(4)周末與工作日用電強(qiáng)度比=周末用電強(qiáng)度/工作日用電強(qiáng)度。
3.2.2 指標(biāo)異常偏離度計(jì)算
針對單個(gè)指標(biāo),基于指標(biāo)數(shù)據(jù)分布確定指標(biāo)總體水平,定義異常偏離度SCL為單個(gè)用戶與總體水平之間的偏離程度:
(7)
其中SCL表示單個(gè)指標(biāo)的異常偏離度,[Q1,Q2]表示單個(gè)指標(biāo)總體集中區(qū)間,Qi表示單個(gè)指標(biāo)某用戶具體取值[26-27]。以此類推,可計(jì)算谷峰電量比偏離度SCLva、周末與工作日用電強(qiáng)度比偏離度SCLwe。
3.2.3 指標(biāo)偏離度權(quán)重確認(rèn)
Score=t1*SCLva+t2*SCLwe
(8)
其中,Score表示綜合嫌疑得分,SCL為用戶各指標(biāo)與總體水平的偏離度,t1、t2為基于灰色關(guān)聯(lián)分析模型計(jì)算的谷峰電量比偏離度權(quán)重、周末與工作日用電強(qiáng)度比偏離度權(quán)重。灰色關(guān)聯(lián)分析模型融合了熵權(quán)法及變異系數(shù)法兩套客觀賦權(quán)法的結(jié)果,最終可以結(jié)合專家經(jīng)驗(yàn)采用主觀賦權(quán)法進(jìn)行科學(xué)調(diào)整[28]。
表1 t1、t2客觀賦權(quán)法計(jì)算結(jié)果Tab.1 Calculation results of t1 and t2 objective weighting method
3.3.1 福利機(jī)構(gòu)用電類行業(yè)標(biāo)準(zhǔn)
分別計(jì)算福利機(jī)構(gòu)用電客戶總體的谷峰電量比、周末與工作日用電強(qiáng)度比指標(biāo)值集中區(qū)間,作為識別嫌疑用戶的行業(yè)標(biāo)準(zhǔn)。
福利機(jī)構(gòu)類用戶總體的指標(biāo)值計(jì)算結(jié)果如下所示:
(1)總體谷峰電量比集中水平為0.33;
(2)總體周末與工作日用電強(qiáng)度比集中區(qū)間為[0.98,1.00]。
當(dāng)用戶各指標(biāo)值接近總體集中水平或落在總體的集中區(qū)間時(shí)視為正常。
谷峰電量比方面,谷峰用電比例越大,越偏向谷時(shí)用電,峰時(shí)用電較少,即夜間用電多,白天用電少,與用戶實(shí)際用電行為習(xí)慣不符??紤]部分用戶夜間用電少或不用電,當(dāng)谷峰比小于0.33時(shí),亦視為正常;當(dāng)谷峰比大于0.33時(shí),分析用戶與總體谷峰比的偏離度。
周末與工作日用電強(qiáng)度比方面,當(dāng)用戶周末與工作日用電強(qiáng)度比在集中區(qū)間時(shí)視為用戶周末與工作日用電差異較小,無周末用電偏好,與實(shí)際相符;當(dāng)強(qiáng)度比小于0.98時(shí),分析與總體用戶強(qiáng)度比集中區(qū)間下限的偏離度;當(dāng)強(qiáng)度比大于1.00時(shí),分析用戶與總體用戶強(qiáng)度比集中區(qū)間上限的偏離度。
3.3.2 用電異常嫌疑用戶輸出
綜合各指標(biāo)偏離度計(jì)算值與權(quán)重得到各用戶的綜合嫌疑得分,其中綜合嫌疑得分越高,用電異常嫌疑越大。
當(dāng)前,僅展示嫌疑最大的前5位用戶,如下表所示。
表2 福利機(jī)構(gòu)用電類嫌疑用戶top5清單Tab.2 Top 5 list of suspected electricity users in welfare institutions
為進(jìn)一步驗(yàn)證模型的有效性和精確度,根據(jù)用電異常嫌疑用戶清單展開核查,綜合嫌疑得分前二十的福利機(jī)構(gòu)用電類嫌疑用戶中,確認(rèn)侵占的異常用戶14個(gè),占比70%。
通過實(shí)證檢驗(yàn),本課題研究建立的嫌疑用戶智能識別模型有效。
通過本課題創(chuàng)新設(shè)計(jì),基于能源電力大數(shù)據(jù),采用大數(shù)據(jù)算法分析目標(biāo)用戶群體的用電行為特征,搭建多維行業(yè)用戶行為特性特征指標(biāo)體系,建立智能化、自動化嫌疑用戶智能識別模型,全面助力異常用電快速定位,避免電費(fèi)錯(cuò)收、漏收、少收等問題發(fā)生,保障電力企業(yè)經(jīng)濟(jì)利益。嫌疑用戶智能識別模型搭建完成后,可應(yīng)用信息技術(shù)整合用戶基礎(chǔ)檔案和橫向?qū)?biāo)分析功能研制用電異常用戶識別輔助工具,形成常態(tài)化工作模式和機(jī)制,協(xié)助相關(guān)工作人員進(jìn)行用電異常用戶定位與核查,提高工作效率,促進(jìn)數(shù)字化工作新模式的轉(zhuǎn)型升級與落地應(yīng)用。