曾 錚,劉光明
(廣東電網(wǎng)有限責任公司東莞供電局,廣東東莞 523000)
電力資源一直是關(guān)乎國計民生的頭等大事。隨著我國經(jīng)濟體制改革的不斷深入,電力行業(yè)面臨著諸多挑戰(zhàn)[1]。一直以來,電費回收是電力營銷的關(guān)鍵內(nèi)容,同時作為供電企業(yè)營銷的最后一部分起著決定性的作用[2]。但在實際工作中,經(jīng)常會出現(xiàn)用電客戶拖欠電費的情況。導致電費拖欠的原因有很多,比如沒有按時繳納電費的意識或者用電客戶財務困難[3]。為此,電力公司多年來一直致力于通過各種方法提高電費回收率,而這些方法往往側(cè)重于對管理手段的運用,如改善加強電力公司的領(lǐng)導工作[4]以及聚焦重點企業(yè)[5]等。
近年來,針對電力公司所存在的電費回收率不高的問題,各種不同的用戶風險預測方法被提出。例如基于大數(shù)據(jù)的用戶風險預測方法、基于支持向量機算法的風險預警模型[6]、電力客戶欠款風險的評估預測系統(tǒng)[7]以及基于邏輯回歸的風險預測[8]。但是由于以上預測方法對于差異化服務策略和策略應用評價缺乏深入研究,且對于特征工程部分沒有進行詳細地分析[9],所以其預測的準確率并不高。
基于對以上預測方法的分析與了解,本文采用集成學習方法構(gòu)建了一種電費回收風險預測模型。為了檢測其預測效果,首先通過針對數(shù)據(jù)的特征工程處理來得到適合模型訓練的數(shù)據(jù),然后分別采用集成學習方法和傳統(tǒng)的邏輯回歸算法構(gòu)建電費回收風險預測模型,并對用電客戶下月違約的概率進行預測。同時根據(jù)所得概率值將用電客戶分為高風險、中風險和低風險3個不同的風險等級,最后對用電客戶在3個不同的風險級別中是否會拖欠電費進行合理預測。實驗分析發(fā)現(xiàn),與傳統(tǒng)的邏輯回歸算法相比,集成學習方法可以更加有效地對用電客戶的支付行為進行評估以及對用電客戶是否會拖欠電費做出更準確地預測。
在本節(jié)中,將分別對集成學習方法中的梯度學習決策樹、隨機森林、演算法以及邏輯回歸進行簡要介紹。
集成學習方法中的梯度學習決策樹模型是由Jerome Friedman[10]在1999年提出的。當使用決策樹進行信息分類時,實際結(jié)果和預測結(jié)果總會有一定的殘差,而這個殘差便是梯度學習決策樹中下一個決策樹的訓練數(shù)據(jù),以此得到對應的各個決策樹的預測結(jié)果。然后通過對各個決策樹的預測結(jié)果進行匯總,便可以得到模型的最終預測結(jié)果,其相關(guān)公式如下:
隨機森林是一種集成算法,其可以通過結(jié)合多個弱分類器來對最終的預測結(jié)果進行投票,從而使整個模型的結(jié)果具有較高的準確性和泛化性。其分類決策公式為:
式中:H(x)為組合分類模型;hi(x)為單決策樹分類模型;Y為輸出變量;I為相關(guān)的函數(shù)。
當分類結(jié)果集合包含該決策樹模型的分類結(jié)果時,函數(shù)值為1,否則為0。最后以票數(shù)的多少來決定最終的預測結(jié)果。
集成學習方法中的演算法是一種迭代算法。在演算法的訓練中,樣本的初始權(quán)值通常是相同的。首先,需要對一個弱分類器進行訓練,然后計算分類器的錯誤率。在每次模型訓練結(jié)束后,再根據(jù)之前的學習結(jié)果調(diào)整樣本的權(quán)重。也就是說,演算法學習過程的本質(zhì)是不斷變化的重量樣本學習,直到其誤差是0或?qū)W習者的數(shù)量達到預設(shè)值,才可以輸出結(jié)果。
最后,對邏輯回歸進行介紹。邏輯回歸的本質(zhì)是一種基于概率的廣義線性回歸方法,其廣泛應用于健康評估和風險評估中[9]。在本研究中,假設(shè)樣本為{X,y},y用0或1來分別表示無欠費狀態(tài)和欠費狀態(tài),X為n維樣本的特征向量。同時假設(shè)x1,x2,…,xn為n個特征值,且D(x)為模型參數(shù)回歸系數(shù),由此可得拖欠概率的函數(shù)公式為:
由式(2)~(3)可知,如果確定了回歸系數(shù)的值,則邏輯回歸模型的預測值是唯一的。
基于上節(jié)介紹,對電費回收風險預測模型的結(jié)構(gòu)、工程特性以及模型對于風險的評估和預測進行簡單地說明。
首先,對電費回收風險預測模型進行介紹。電費回收風險預測模型結(jié)構(gòu)如圖1 所示,其可以分為4 個部分。(1) 數(shù)據(jù)獲取:從大數(shù)據(jù)平臺讀取原始數(shù)據(jù),并通過數(shù)據(jù)分析提取出風險用戶的基礎(chǔ)數(shù)據(jù)。(2)數(shù)據(jù)準備:通過特征工程對風險用戶數(shù)據(jù)進行處理,并得到相關(guān)的訓練集和測試集,從而為下一步建模做準備。(3)模型訓練:通過對用電客戶全年用電歷史數(shù)據(jù)的訓練來得到相應的訓練模型,然后利用訓練模型預測下個月用戶拖欠電費的概率,并輸出結(jié)果。(4)風險評估與預測:根據(jù)概率值將用戶劃分為高風險、中風險和低風險3種不同的風險級別,然后對處于相同風險級別的用戶是否拖欠電費進行預測,繼而將預測結(jié)果反饋到大數(shù)據(jù)平臺。
圖1 電費回收風險模型結(jié)構(gòu)
其次對電費回收風險預測模型中的工程特性進行介紹。由于數(shù)據(jù)是模型建立的基礎(chǔ),數(shù)據(jù)處理的好壞會在一定程度上對模型的效果造成影響,因此需要對數(shù)據(jù)進行特征工程處理,從而獲得適合模型訓練的數(shù)據(jù)。
由于特征工程處理可以有效提高模型的精確度,因此將特征選擇工作進行了2 次。第一次選擇了50 個特征原始數(shù)據(jù),通過計算特征間的相關(guān)系數(shù)來對冗余特性進行剔除,從而最終選擇了30 個合理特性,部分特性如表1 所示?;诘谝淮蔚奶卣鬟x擇結(jié)果,在第二次特征選擇過程中主要對剩下的30個合理特性進行重要度分析,并逐步去除重要度較低的特性,從而選擇最有效的特征集進行模型訓練。
表1 功能特性列表
同時,由于本文采用集成學習方法來對電費回收風險預測模型進行構(gòu)建,所以其往往通過分階段訓練不同的決策樹來得到多個輸出結(jié)果,然后再通過對特征工程處理后的模型進行訓練來得到最終的模型預測結(jié)果。
最后,對電費回收風險預測模型的風險評估和預測進行簡單的敘述。在電費回收風險預測模型中,根據(jù)違約的概率將用電客戶分為高風險、中風險和低風險3 個不同的風險等級,具體的劃分原則如表2所示。由表可知,將拖欠概率大于或等于60%的用戶定義為高風險用戶;拖欠概率在20%~60%的用戶定義為中風險用戶;拖欠概率小于20%的用戶定義為低風險用戶。然后將風險水平相同的用戶分為有拖欠用戶和無拖欠用戶,從而完成對于電費回收風險的評估和預測。
表2 風險分類原則
由于通過對大量用電客戶的用電信息以及相關(guān)的支付記錄進行仔細分析后發(fā)現(xiàn):在所有的用電客戶中只有0.6%的用電客戶在1個月內(nèi)有欠費記錄,其正階級和負階級的分布極不平衡?;谶@種情況,只需要重點關(guān)注那些有欠款記錄的風險用電客戶即可。
同時基于以上說明,為了對采用算法的電費回收風險預測模型的評估以及預測效果進行驗證,分別采用集成學習方法和傳統(tǒng)邏輯回歸算法進行模型構(gòu)建,然后對用電客戶是否會拖欠電費進行預測,并得出相應的預測結(jié)果,具體如表3 所示。
表3 2個模型的預測結(jié)果
由表3 數(shù)據(jù)可以發(fā)現(xiàn),在中、高風險水平的精確度方面,集成學習模型具有明顯的優(yōu)勢,而且集成學習模型的召回率和檢索率也均高于傳統(tǒng)的邏輯回歸模型。雖然在低風險水平下,邏輯回歸模型的召回率高于集成學習模型,達到了85.92%,但是邏輯回歸模型的檢索率僅為12.38%,約為集成學習模型的1/2。由于在召回率和檢索率不能同時考慮確定的情況下,需要對2個模型的調(diào)和平均精確度進行比較。在低風險水平下,集成學習模型的精確度值為29.86%,而邏輯回歸模型的精確度值僅為22.18%,由此可以認為對于低風險用電客戶而言,集成學習模型仍優(yōu)于傳統(tǒng)的邏輯回歸模型。
此外,由表中數(shù)據(jù)還可以看出無論是提出的集成學習模型,還是傳統(tǒng)的邏輯回歸模型,對于低風險用電客戶皆沒有很好的預測效果?;诖饲闆r,對其進行了抽樣分析,發(fā)現(xiàn)低風險用戶在支付行為上具有較高的不確定性,其欠款時間具有一定的波動性。因此,如果想更準確地預測這些用電客戶是否會拖欠電費,就需要添加更多的外部特性。同時可以根據(jù)低風險用戶數(shù)據(jù)不平衡的特點,考慮借鑒其他算法來進行優(yōu)化調(diào)試。
綜上所述,與傳統(tǒng)的邏輯回歸模型相比,本文提出的集成學習方法更適合于建立電費回收風險預測模型。實驗結(jié)果還表明,集成學習方法模型可以更加有效地對電力客戶的支付行為進行評估,并且可以更加準確地對用戶是否會欠費進行預測。
本文提出了一種集成學習方法,并且利用該方法構(gòu)建了電費回收風險預測模型。電力公司可以通過該電費回收風險預測模型來對用電客戶進行風險評估,從而預測出用電客戶下個月違約的概率。同時,本文將實驗結(jié)果與傳統(tǒng)的邏輯回歸算法相比較,集成學習方法可以更加有效地對電力客戶的支付行為進行評估,并且可以更加準確地對用戶是否會欠費進行預測。