嚴(yán)宇平,吳廣財(cái)
(1.廣東電網(wǎng)有限責(zé)任公司,廣東 廣州 510600;2.廣東電網(wǎng)有限責(zé)任公司 信息中心,廣東 廣州 510600)
基于數(shù)據(jù)挖掘技術(shù)的客戶停電敏感度研究與應(yīng)用
嚴(yán)宇平1,吳廣財(cái)2
(1.廣東電網(wǎng)有限責(zé)任公司,廣東 廣州 510600;2.廣東電網(wǎng)有限責(zé)任公司 信息中心,廣東 廣州 510600)
摘要:隨著用電客戶對(duì)電力可靠性的要求逐漸多樣化,我國(guó)供電企業(yè)停電差異化管理與客戶需求之間不匹配的問(wèn)題日益突出。提出了客戶停電敏感度的研究思路和方法,運(yùn)用邏輯回歸、決策樹(shù)等數(shù)據(jù)挖掘技術(shù),建立了客戶停電敏感度預(yù)測(cè)模型,分析了客戶特征,并設(shè)計(jì)了差異化的服務(wù)措施,為供電企業(yè)加強(qiáng)客戶停電差異化管理,在降本增效的同時(shí)提升客戶滿意度提供了支持。
關(guān)鍵詞:停電管理;停電敏感度;客戶分群;數(shù)據(jù)挖掘;邏輯回歸;決策樹(shù)
通過(guò)多年的供電可靠性提升措施,電網(wǎng)公司已經(jīng)大幅度縮短了客戶停電時(shí)間,減少了停電次數(shù);但通過(guò)分析客戶抱怨的統(tǒng)計(jì)數(shù)據(jù),得知一部分客戶的抱怨主要涉及供電穩(wěn)定相關(guān)的問(wèn)題,停電會(huì)對(duì)電網(wǎng)企業(yè)的客戶滿意度造成一定程度的影響。當(dāng)前電網(wǎng)企業(yè)承擔(dān)了客戶連續(xù)穩(wěn)定用電,以及用電安全管理的重大責(zé)任,一旦發(fā)生停電事件,必須快速恢復(fù)用戶供電,這是電網(wǎng)企業(yè)踐行以客戶為中心的服務(wù)理念,履行社會(huì)責(zé)任的最直接體現(xiàn);因此,快速辨識(shí)客戶對(duì)停電的敏感度是很有必要的。
長(zhǎng)期以來(lái),電網(wǎng)企業(yè)仍然采用“先搶修,再?gòu)?fù)電”方式恢復(fù)供電,忽視了與客戶對(duì)停電需求的考慮。劉平等[1]通過(guò)問(wèn)卷調(diào)研和專(zhuān)家評(píng)價(jià)法,根據(jù)不同時(shí)段各類(lèi)客戶訴求建立了客戶停電敏感度等級(jí)指數(shù),并指導(dǎo)開(kāi)展了應(yīng)急搶修,取得了很好的業(yè)務(wù)應(yīng)用效果;但是,該方法只是針對(duì)不同類(lèi)型的客戶進(jìn)行停電敏感度的劃分,并沒(méi)有對(duì)客戶的行為進(jìn)行預(yù)測(cè)分析。
本文以客戶停電事件為切入點(diǎn),研究不同客戶停電發(fā)生后的行為特征,總結(jié)歸納出影響客戶停電敏感度的重要因素,并建立停電敏感度的預(yù)測(cè)模型,這將有助于電力企業(yè)準(zhǔn)確辨識(shí)停電敏感度高的客戶,提供差異化停電服務(wù),降低客戶停電抱怨的概率,提升客戶滿意度。
1研究思路
停電敏感客戶是指在供電服務(wù)過(guò)程中通過(guò)多種渠道或多種形式對(duì)停電關(guān)注度較高的客戶??蛻敉k娒舾卸妊芯?,是通過(guò)分析不同客戶的行為特征,反映其對(duì)停電的敏感程度的差別,并用數(shù)據(jù)挖掘技術(shù)的量化手段對(duì)停電敏感客戶進(jìn)行刻畫(huà)。
在具體研究過(guò)程中,針對(duì)不同客戶,即對(duì)重要客戶與非重要客戶采用分類(lèi)考慮的方式,如圖1所示。重點(diǎn)針對(duì)非重要客戶進(jìn)行停電敏感度建模分析。
1.1重要客戶停電敏感度
重要客戶主要是在一個(gè)國(guó)家或者一個(gè)地區(qū)(城市)的社會(huì)、政治和經(jīng)濟(jì)生活中占有重要地位,對(duì)其中斷供電將可能造成人身傷亡、較大政治影響、較大環(huán)境污染、較大經(jīng)濟(jì)損失和社會(huì)公共秩序嚴(yán)重混亂的用電單位或?qū)╇娍煽啃杂刑厥庖蟮挠秒妶?chǎng)所。由于重要客戶的身份特殊性,一方面這些客戶對(duì)電力供應(yīng)要求很高,電力企業(yè)通常會(huì)通過(guò)保供電、雙回路或雙電源供電等方式,確保不會(huì)停電;另一方面因?yàn)檩^少被停電,客戶行為無(wú)法反映客戶敏感度,因此可以直接將其納入停電敏感度高的客戶。
圖1 客戶停電敏感度研究思路
1.2非重要客戶停電敏感度
針對(duì)已經(jīng)表現(xiàn)出停電敏感行為的客戶,將其作為樣本客戶分析其主要特征,提取諸多可能與停電敏感相關(guān)的客戶信息字段,運(yùn)用數(shù)據(jù)挖掘算法建立客戶停電敏感概率預(yù)判模型,并應(yīng)用于尚未具備停電敏感行為表現(xiàn)的客戶。通過(guò)模型,模擬出客戶未來(lái)出現(xiàn)這種行為表現(xiàn)的概率,概率越大則表示客戶對(duì)停電越敏感。
1.2.1樣本客戶定義
敏感度是用電客戶的心理指標(biāo),基于社會(huì)學(xué)理論,客戶行為是客戶心理活動(dòng)狀態(tài)在外界的映射。筆者將過(guò)去12個(gè)月內(nèi)在95598呼叫熱線、網(wǎng)上營(yíng)業(yè)廳和掌上營(yíng)業(yè)廳等渠道發(fā)生過(guò)咨詢停電信息、查詢未來(lái)停電計(jì)劃和發(fā)生停電投訴等相關(guān)行為的客戶,定義為停電敏感樣本客戶。同時(shí),居民與非居民在用電需求及行為上存在顯著差異,需要分別分析不同類(lèi)型用戶的屬性特征。
1.2.2數(shù)據(jù)提取與整理
選取可能與停電敏感度相關(guān)的客戶信息字段,如營(yíng)業(yè)區(qū)域、用電類(lèi)別、計(jì)量方式、電源類(lèi)型、電壓等級(jí)、停電次數(shù)及停電時(shí)長(zhǎng)等25個(gè)字段,并對(duì)數(shù)據(jù)進(jìn)行二次計(jì)算、清洗等預(yù)處理,作為建模因素篩選的主要輸入變量。
1.2.3建模因素篩選
通過(guò)計(jì)算上述25個(gè)字段與客戶是否是停電敏感樣本之間的基尼指數(shù)(用來(lái)衡量一個(gè)分布是否均勻,指數(shù)越高,說(shuō)明分布越不均勻,則變量區(qū)分度越高),將基尼指數(shù)>15的字段作為影響客戶停電敏感度的主要因素,最終確定7個(gè)字段用于非居民客戶停電敏感度建模,9個(gè)字段用于居民客戶停電敏感度建模,見(jiàn)表1。
表1 客戶停電敏感度建模字段
1.2.4數(shù)據(jù)分區(qū)、建模與驗(yàn)證
由于本文是對(duì)客戶未來(lái)行為概率的預(yù)測(cè)與分析,因此選用合適的數(shù)據(jù)挖掘算法,如邏輯回歸、決策樹(shù)等,對(duì)建模字段進(jìn)行數(shù)據(jù)建模與驗(yàn)證。其中根據(jù)建模需要,將樣本數(shù)據(jù)隨機(jī)按40%、30%和30% 拆分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用于數(shù)據(jù)建模,驗(yàn)證集用于對(duì)模型進(jìn)行驗(yàn)證與調(diào)整,測(cè)試集用于對(duì)模型的結(jié)果進(jìn)行測(cè)試。
2建模試驗(yàn)分析
本文以某市級(jí)供電局的全體158.3萬(wàn)客戶(其中非居民客戶28.8萬(wàn),居民客戶129.5萬(wàn))為研究對(duì)象,按10%比例從全量客戶中隨機(jī)抽取樣本數(shù)據(jù)變量(即2.9萬(wàn)非居民客戶樣本,12.9萬(wàn)居民樣本)進(jìn)行數(shù)據(jù)建模。
筆者分別采用邏輯回歸與決策樹(shù)兩種算法,應(yīng)用SAS Enterprise Miner Server 軟件進(jìn)行數(shù)據(jù)建模,并對(duì)建模結(jié)果進(jìn)行比較[2]。
2.1運(yùn)用邏輯回歸算法建模
邏輯回歸是研究因變量為二分類(lèi)或多分類(lèi)觀察結(jié)果與影響因素(自變量)之間關(guān)系的一種多變量分析方法,屬概率型非線性回歸。本文采用的是二項(xiàng)分類(lèi)邏輯回歸,因變量P只取0和1這2個(gè)值,即將符合停電敏感客戶定義的目標(biāo)變量設(shè)定為1,其余客戶的目標(biāo)設(shè)定為0,則P=1的總體概率為π(P=1),則m個(gè)自變量分別為X1,X2,…,Xm,所對(duì)應(yīng)的邏輯回歸模型[3-5]為:
(1)
式中,Y=β0+β1X1+β2X2+…+βmXm,β0為常數(shù)項(xiàng),是對(duì)應(yīng)的回歸系數(shù)。將樣本客戶的自變量值(也即選定的建模字段)代入式1。
根據(jù)式1,客戶停電敏感度邏輯回歸算法為:
式中,P是客戶的停電敏感度概率;Y(非居民)=a+b·用電類(lèi)別+c·合同容量+d·行業(yè)類(lèi)別+e ·歷史停電時(shí)間+f ·電壓等級(jí)+g·客戶類(lèi)別+h·95598溝通次數(shù)(非停電類(lèi)咨詢);Y(居民)=a+b·用電類(lèi)別+c·合同容量+d·歷史停電時(shí)間+e·重要客戶標(biāo)識(shí)+f·城鎮(zhèn)/農(nóng)村+g·年齡+ h ·電源類(lèi)型+i·信用等級(jí)+j·95598溝通次數(shù)(非停電類(lèi)咨詢)。
2.2運(yùn)用決策樹(shù)算法建模
決策樹(shù)技術(shù)被廣泛地應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域。決策樹(shù)由3個(gè)基本部分組成:節(jié)點(diǎn)、分支和樹(shù)葉節(jié)點(diǎn)。決策樹(shù)中的節(jié)點(diǎn)是1個(gè)測(cè)試條件,這個(gè)測(cè)試條件將決策樹(shù)分為多個(gè)分支,每個(gè)分支代表了該測(cè)試條件的每個(gè)可能答案,位于決策樹(shù)最頂端的節(jié)點(diǎn)為根節(jié)點(diǎn)。每個(gè)分支會(huì)連接另一個(gè)節(jié)點(diǎn),或者連接決策樹(shù)的末端(即樹(shù)葉節(jié)點(diǎn))。決策樹(shù)建立起來(lái)后,需要預(yù)測(cè)的數(shù)據(jù)對(duì)象從根節(jié)點(diǎn)出發(fā),根據(jù)所經(jīng)過(guò)的節(jié)點(diǎn)的測(cè)試條件選擇要經(jīng)過(guò)的分支,并最終到達(dá)樹(shù)葉節(jié)點(diǎn)。樹(shù)葉節(jié)點(diǎn)的值或類(lèi)別也就是要賦予該數(shù)據(jù)對(duì)象的值或類(lèi)別[6]。
在本文運(yùn)用決策樹(shù)算法的建模過(guò)程中,令因變量Y只取0和1這2個(gè)值,即將符合停電敏感客戶定義的目標(biāo)變量設(shè)定為1,其余客戶的目標(biāo)設(shè)定為0,并對(duì)重要的算法參數(shù)進(jìn)行如下規(guī)則設(shè)定:1)非居民的7個(gè)建模變量、居民的9個(gè)建模變量在拆分過(guò)程中僅使用1次;2)因目標(biāo)變量為二分類(lèi)變量,采用二叉樹(shù)方法設(shè)定最大分支數(shù)為2;3)最大深度為6,即規(guī)則最多到6層;4)最小類(lèi)別大小為5,即每層的記錄數(shù)最小為5;5)各變量的拆分規(guī)則,連續(xù)型數(shù)值變量采用ProbF統(tǒng)計(jì)量、字符型變量采用ProbChisq統(tǒng)計(jì)量。運(yùn)用統(tǒng)計(jì)量的拆分規(guī)則,找出相應(yīng)統(tǒng)計(jì)量最大的變量作為拆分準(zhǔn)則;若判斷結(jié)果的正確率或涵蓋率未滿足條件,則再依最大方差的條件再出拆分。
2.3模型算法比對(duì)
根據(jù)訓(xùn)練集的樣本客戶,分別采用上述邏輯回歸算法和決策樹(shù)算法,建立相應(yīng)的客戶停電敏感度模型。將該模型應(yīng)用到驗(yàn)證集的樣本客戶上,進(jìn)一步調(diào)整優(yōu)化模型的參數(shù),建立起相應(yīng)的預(yù)測(cè)模型。
將邏輯回歸算法建模和決策樹(shù)算法模型運(yùn)用于測(cè)試集客戶上,并對(duì)驗(yàn)證集與測(cè)試集模型結(jié)果的提升度進(jìn)行比對(duì)。具體情況如圖2所示。
圖2 停電敏感度2種算法模型結(jié)果累積提升度比對(duì)
由圖2可以看出,測(cè)試集中敏感客戶的累積提升度曲線與驗(yàn)證集的累積提升度曲線走勢(shì)非常接近,說(shuō)明2種算法模型均具備較好的普適性,不存在“過(guò)擬合”的問(wèn)題(即該模型對(duì)樣本客戶擬合非常好,但對(duì)非選定樣本客戶則擬合效果差)。同時(shí),比對(duì)2種算法的結(jié)果時(shí)發(fā)現(xiàn),邏輯回歸算法所得到的測(cè)試集結(jié)果的最大累積提升度均明顯高于決策樹(shù)算法的建模。為此,需要進(jìn)一步對(duì)模型應(yīng)用于測(cè)試集的結(jié)果進(jìn)行詳細(xì)比對(duì),具體見(jiàn)表2。
表2 測(cè)試集客戶停電敏感度模型驗(yàn)證結(jié)果比對(duì)
注:累積提升度的計(jì)算為對(duì)驗(yàn)證集進(jìn)行評(píng)分排序后,排名前5%的客戶中目標(biāo)客戶的占比。
由表2可知,在樣本客戶中,停電敏感客戶的原始純度分別為居民5.56%,非居民客戶8.63%。通過(guò)模型計(jì)算出的概率從高到低排名后,前5%的居民客戶和非居民客戶中,通過(guò)邏輯回歸算法建模的累積提升度分別達(dá)到2.60倍和3.66倍,而通過(guò)決策樹(shù)算法建模的累積提升度分別達(dá)到2.65倍和2.64倍。
總體上來(lái)說(shuō),邏輯回歸算法和決策樹(shù)算法均有較好的試驗(yàn)結(jié)果,可以發(fā)現(xiàn)對(duì)居民客戶,2種算法提升度比較接近;但對(duì)非居民客戶,邏輯回歸算法提升度顯著高于決策樹(shù)算法。為保持模型的一致性,本文最終選擇邏輯回歸算法進(jìn)行分析建模。
3客戶停電敏感度分析
根據(jù)建模試驗(yàn)分析的結(jié)果,筆者采用邏輯回歸算法,分別完成非居民和居民停電敏感度建模。將該模型應(yīng)用于該局全體非居民與居民客戶,并對(duì)全量客戶的結(jié)果與測(cè)試集結(jié)果進(jìn)行比對(duì),見(jiàn)表3。按照得分排名從高到低,可以發(fā)現(xiàn)各占比分段中,測(cè)試集的停電敏感客戶占比與全量客戶中的停電敏感客戶占比非常接近,說(shuō)明該算法模型不存在“過(guò)擬合”問(wèn)題,能夠很好地適用于全量客戶。
表3 客戶停電敏感度分群結(jié)果 (%)
得分排名靠前人數(shù)百分比非居民客戶中停電敏感客戶占比居民客戶中停電敏感客戶占比測(cè)試集全量客戶測(cè)試集全量客戶406.196.205.716.11456.766.664.394.79506.647.374.825.22557.937.864.564.03608.738.004.023.64656.626.823.853.34708.858.584.133.90758.257.713.613.81805.265.524.433.94854.594.222.802.93903.573.792.422.26952.803.691.471.721003.453.180.340.39
在此基礎(chǔ)上,按照停電敏感度預(yù)測(cè)概率由高到低對(duì)結(jié)果排序,將兩大類(lèi)客戶分別劃分為4個(gè)客戶群體,并對(duì)這4個(gè)群體中實(shí)際打電話咨詢、查詢停電相關(guān)的客戶比例進(jìn)行了識(shí)別,見(jiàn)表4??梢缘弥撃P蛯?duì)全量客戶具有明顯的區(qū)分度,劃分出的4個(gè)不同客戶群體之間實(shí)際停電敏感客戶的比例差異非常明顯,對(duì)業(yè)務(wù)上識(shí)別客戶停電敏感具備一定的指導(dǎo)意義。
4業(yè)務(wù)應(yīng)用
目前,停電管理的差異化服務(wù)目標(biāo)重點(diǎn)關(guān)注潛在高敏感客戶群,因此,本文重點(diǎn)研究該群客戶的特征,并對(duì)應(yīng)設(shè)計(jì)差異化服務(wù)措施,見(jiàn)表5。
停電敏感度細(xì)分結(jié)果及差異化服務(wù)措施的設(shè)計(jì)可以運(yùn)用在許多的業(yè)務(wù)場(chǎng)景中,從而實(shí)現(xiàn)客戶服務(wù)能力和企業(yè)管理能力的雙重提升。根據(jù)業(yè)務(wù)人員的實(shí)際需求,可應(yīng)用的落地場(chǎng)景例舉如下。
表4 客戶停電敏感度分群結(jié)果
注:以上結(jié)果基于某市級(jí)供電局2011年~2013年的客戶數(shù)據(jù)。
表5 高停電敏感客戶群特征及差異化服務(wù)措施
1)應(yīng)用場(chǎng)景一:停電后95598應(yīng)急預(yù)警。某供電區(qū)域突發(fā)大面積的故障停電,或當(dāng)日安排較多線路的計(jì)劃停電,系統(tǒng)中可以分類(lèi)篩查不同敏感度的客戶清單,進(jìn)行有針對(duì)性、及時(shí)準(zhǔn)確地通知,并臨時(shí)調(diào)整坐席人員安排應(yīng)對(duì)話務(wù)高峰。
2)應(yīng)用場(chǎng)景二:停電事件統(tǒng)計(jì)功能優(yōu)化。針對(duì)大范圍停電進(jìn)行事后分析,在系統(tǒng)中新增停電敏感分析維度,分析停電范圍內(nèi)受影響的停電敏感客戶及其相應(yīng)表現(xiàn)。
3)應(yīng)用場(chǎng)景三:停電敏感度客戶分區(qū)域綜合查詢分析??梢酝ㄟ^(guò)分析不同區(qū)域內(nèi)停電敏感客戶的分布及主要特征,制定差異化停電管理策略。
5結(jié)語(yǔ)
本文運(yùn)用邏輯回歸、決策樹(shù)等數(shù)據(jù)挖掘技術(shù),分析并建立客戶停電敏感度預(yù)測(cè)模型,明確客戶停電敏感的細(xì)分群體。通過(guò)分析群體特征并設(shè)計(jì)差異化服務(wù),有針對(duì)性地尋找停電敏感度高的目標(biāo)客戶,開(kāi)展針對(duì)性停電管理服務(wù),降低停電通知成本,提升敏感客戶滿意度,從而促進(jìn)供電企業(yè)在管理、形象和效益三方面的增值。
參考文獻(xiàn)
[1] 劉平,葉濤,李立軍,等.基于快速恢復(fù)供電的應(yīng)急搶修研究[J].電力安全技術(shù),2014,16(4):1-4.
[2] 吳小紅.綜述客戶細(xì)分的方法與技術(shù)[J].科教前沿,2012(1):110-111.
[3] 劉路登.數(shù)據(jù)挖掘技術(shù)在電力同業(yè)對(duì)標(biāo)中的應(yīng)用[D].北京:華北電力大學(xué),2006.
[4] 王雷.基于數(shù)據(jù)挖掘的電力行業(yè)客戶細(xì)分模型研究[D].上海:上海交通大學(xué),2007.
[5] 毛國(guó)君.基于數(shù)據(jù)挖掘的電力行業(yè)客戶細(xì)分模型研究[D].北京:北京工業(yè)大學(xué),2003.
[6] 李明輝.基于決策樹(shù)方法的銀行客戶關(guān)系管理的研究和應(yīng)用[J].軟件,2012,33(7):85-86.
責(zé)任編輯彭光宇
Customer Outage Sensitivity based on the Technology of Data Mining Research and Application
YAN Yuping1,WU Guangcai2
(1.Guangdong Power Grid Co., Ltd., Guangzhou 510000, China;
2.Guangdong Power Grid Co., Ltd., Information Center, Guangzhou 510000, China)
Abstract:With the increasingly changing demand of energy consumer, differentiation management of outage is far behind the consumer’s need. We propose a methodology for consumer outage sensitivity by logistic regression and decision tree algorithm. Based on the prediction model, we analyze the characters of segmented customers and design differentiated services to strengthen outage management, improve customer satisfaction and save cost.
Key words:outage management,outage sensitivity,customer segmentation,data mining,logisticregression,decision tree
收稿日期:2015-01-21
作者簡(jiǎn)介:嚴(yán)宇平(1985-),男,工程師,碩士,主要從事電力信息系統(tǒng)建設(shè)與管理、電力數(shù)據(jù)分析及應(yīng)用等方面的研究。
中圖分類(lèi)號(hào):TM 73
文獻(xiàn)標(biāo)志碼:A