鄭芒英
【摘要】 從湛江電網(wǎng)企業(yè)的實際需求出發(fā),利用SAS軟件通過分析不同客戶的繳交電費的行為以及客戶基本屬性特征,研究并創(chuàng)先性構建了電費回收風險預測模型,預測并明確客戶的電費回收風險等級?;诂F(xiàn)有客戶服務管理資源,有效利用客戶動態(tài)數(shù)據(jù)資源和邏輯回歸預測模型,充分把握客戶需求,按照不同客戶群體的特點開展個性化服務。針對高風險的客戶,提前有針對性地采取個性化服務策略和具體措施,確保電費及時回收,降低企業(yè)經(jīng)營風險,進而加強電費回收風險管控能力的提升,為電網(wǎng)企業(yè)個性化優(yōu)質服務策略的制定奠定了基礎。
【關鍵詞】 邏輯回歸 數(shù)據(jù)挖掘 客戶細分 差異化服務 模型
新電改方案已于2014年底在深圳市試點實施,方案的核心內容是確立電網(wǎng)企業(yè)新的盈利模式,不再以上網(wǎng)及銷售電價差作為收入來源,而是按照政府核定的輸配電價收取過網(wǎng)費[1]。湛江地區(qū)是新電改方案非試點實施區(qū)域,目前湛江電網(wǎng)企業(yè)的主要經(jīng)營利潤仍來自于電費回收。湛江電網(wǎng)企業(yè)為了加強對電費回收的實時監(jiān)控;加強銀企合作,加快電費資金歸集速度;全面推廣客戶信用評價機制,建立基于客戶信用的電費回收策略,防范電費回收風險,希望通過分析不同客戶的繳交電費的行為以及客戶基本屬性特征,進行客戶的電費回收風險預測,對不同客戶提前采取差異化的電費回收策略和預防措施,保障企業(yè)的電費收入,有效控制企業(yè)經(jīng)營風險,進而加強電費回收風險管控能力的提升。
一、用電客戶電費回收風險的現(xiàn)狀分析
在湛江地區(qū)進行需求調研的過程中,在電費回收方面均有一定的需求反饋。
(1)高欠費風險客戶增加了資金風險,但目前缺少針對高欠費風險客戶的差異化的服務措施和辦理業(yè)擴業(yè)務時的防范措施,以降低企業(yè)資金風險;
(2)部分欠費風險高的用戶重新申請業(yè)擴新裝時,缺乏有效手段發(fā)現(xiàn)其欠費風險和欠費情況,并要求其清剿歷史欠費;
(3)在裝表接電環(huán)節(jié),無法根據(jù)客戶拖欠電費的風險程度,有選擇地對部分客戶選用預付費卡表;
(4)無法根據(jù)客戶的欠費風險和獲取繳費信息渠道的偏好采取不同的電費通知方式,使電費信息能夠及時有效的通知到客戶;
(5)無法找出電費回收可能存在風險的客戶或群體。
在這樣的業(yè)務背景下,想要強化電費回收風險的管控,需要明確每個客戶的電費回收風險等級,找到高風險客戶,有針對性地采取差異化的策略和具體措施,確保電費及時回收,降低企業(yè)經(jīng)營風險。
然而,在當前的業(yè)務現(xiàn)狀下,尋找用檢風險高的客戶存在一定的困難,主要體現(xiàn)在以下兩個方面:
(1)電費回收高風險客戶沒有統(tǒng)一的定義。目前,不同業(yè)務人員心目中都有一些電費回收風險高的客戶的特征(也就是通常所謂“壞客戶”的特點)。例如抄核收人員認為多次催繳,甚至上門催繳也不來繳費的客戶是高風險的客戶;電費核算人員認為連續(xù)幾期電費都存在逾期的客戶是高風險的客戶;客戶經(jīng)理認為生產波動性大的企業(yè),由于經(jīng)營狀況不穩(wěn)定,經(jīng)常容易發(fā)生欠費,是高風險客戶等。
(2)電力營銷系統(tǒng)中沒有統(tǒng)一標識每個客戶的電費回收風險等級。目前,電力營銷系統(tǒng)中并沒有“電費回收風險”這樣的客戶標識,同時存在許多和電費風險相關的字段,如欠費金額、欠費次數(shù)、信用等級、是否預存電費等。這些字段較多較散,無法讓業(yè)務人員綜合使用。
為了解決以上業(yè)務人員在實際業(yè)務過程中遇到的問題,需提取電力營銷系統(tǒng)里的與電費回收相關的各字段信息,運用算法模型,預測客戶的電費回收風險,并在系統(tǒng)中為客戶進行標識。
電費回收風險預測,是對用電客戶未來按期繳費行為的提前預測,希望通過差異化提醒和賬單等方式,提高電費回收率指標。根據(jù)湛江地區(qū)的199.9萬非居民用戶和176.9萬居民用戶龐大、異構、多源的基本數(shù)據(jù)和業(yè)務數(shù)據(jù),通過數(shù)據(jù)挖掘[2][3]工具對數(shù)據(jù)進行分析、預測。
二、用電客戶電費回收風險分析的建模
本研究工作采用的主要工具是SAS軟件。SAS(全稱STATISTICAL ANALYSIS SYSTEM,簡稱SAS)是全球最大的軟件公司之一,是由美國NORTH CAROLINA州立大學1966年開發(fā)的統(tǒng)計分析軟件,具有完備的數(shù)據(jù)存取、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)展現(xiàn)功能[4]。在計算機上安裝SAS Enterprise Guide(以下簡稱SAS EG)5.1瘦客戶端和SAS Enterprise Miner(以下簡稱SAS EM)后,根據(jù)SAS方法論流程進行分步實施。根據(jù)湛江地區(qū)用電客戶電費回收風險現(xiàn)狀、調研需求及SAS方法論,制定電費回收風險分析流程。從電費回收的業(yè)務數(shù)據(jù)獲取、整理,數(shù)據(jù)導入,數(shù)據(jù)處理,數(shù)據(jù)建模,模型評估到實際應用,該分析流程是一個PDCA循環(huán)過程。
2.1數(shù)據(jù)獲取、整理
經(jīng)過與電網(wǎng)企業(yè)客服服務中心、市場營銷部、區(qū)(縣)單位的營銷部門交流溝通后,對業(yè)務數(shù)據(jù)和結合實際情況對用電客戶信息進行相關性分析[5]。相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度[5]。初步確定用電客戶的電費回收風險可能與用電客戶的城鎮(zhèn)/農村用戶、出賬周期、當前是否銷戶、地市局編碼、電費計算日期、電費實際金額、電價代碼、罰金金額、負荷類型、供電電壓、行業(yè)類別、合同容量、計算日期、繳費方式、繳費日期、繳費月份、客戶編號、客戶類型、客戶名稱、客戶身份、失敗次數(shù)、違約次數(shù)、用電類別、用電性質、月份和總電量有密切關聯(lián)。
確定時間窗口為2012年1月至2013年12月,從電力營銷系統(tǒng)后臺導出湛江地區(qū)非居民和居民用戶基本數(shù)據(jù)表和業(yè)務數(shù)據(jù)。2013年6月以前為表現(xiàn)期,用于計算客戶的行為屬性;2013年7月至2013年12月為觀察期,用來確定目標客戶。
2.2數(shù)據(jù)處理
根據(jù)與電費回收風險相關基本數(shù)據(jù)表及相關字段,從電力營銷系統(tǒng)后臺導出與電費回收風險具體的數(shù)據(jù)表數(shù)據(jù),在SAS EG進行數(shù)據(jù)導入。對導入SAS EG的數(shù)據(jù)表需進行數(shù)據(jù)篩選[6](刪除無效數(shù)據(jù),篩選有用數(shù)據(jù))、對變量進行二次變量生成等數(shù)據(jù)處理[6][7]步驟。
將欠費客戶根據(jù)客戶編碼分為兩部分:居民欠費客戶和非居民欠費客戶。找出在2013年1月至2013年12月之間有欠費的客戶,根據(jù)欠費客戶數(shù)占總體客戶的比例,以及欠費金額和欠費次數(shù)分布情況,最終根據(jù)平均值或中位數(shù)劃分好與壞客戶,確定一個標準。根據(jù)平均值、中位數(shù)劃分壞客戶,劃分金額都存在偏大或偏小,可能都與湛江地區(qū)實際情況不符,與業(yè)務專家討論收集意見,結合湛江地區(qū)實際需求。最終確認湛江地區(qū)非居民電費回收風險“壞客戶”樣本選取標準:當非居民欠費客戶的累計欠費金額達到1000元,欠費次數(shù)達到2次;居民欠費客戶的累計欠費金額達到20元,欠費次數(shù)達到3次,就認為它是目標客戶。
將原始數(shù)據(jù)表經(jīng)過多次數(shù)據(jù)處理后,將處理完的得到的數(shù)據(jù)表按客戶編號與客戶基本信息進行關聯(lián),得到模型所需寬表合并數(shù)據(jù)表,最后形成居民和非居民電費回收數(shù)據(jù)寬表。
2.3數(shù)據(jù)建模
數(shù)據(jù)處理得到居民和非居民的目標客戶的客戶編碼CUSTOMER_ID,與處前面處理得到的數(shù)據(jù)按照CUSTOMER_ID進行匹配。新建一個目標變量TARGET,匹配成功的客戶取值為1,其它為0。將SAS EG得到的數(shù)據(jù)寬表導入SAS EM進行數(shù)據(jù)建模。導入SAS EM的各個變量的極值、水平值、標準差等進行變量分析[2]。經(jīng)過數(shù)據(jù)處理(計算字段、表合并及異常值處理等)后,在數(shù)據(jù)建模前對各個變量進行頻數(shù)分析。分析發(fā)現(xiàn)有幾種情況:電量為負數(shù),主要是沖銷導致有幾戶為負數(shù);客戶年齡缺失值較多;其他未發(fā)現(xiàn)數(shù)據(jù)不可用情況。使用邏輯回歸[8]或決策樹[8]方法時,缺失值也會進行分類處理。因此對上述異常情況不需要特別剔除。
為了找出與樣本客戶有較強相關關系的屬性字段,采取相關性分析方法。經(jīng)過相關性分析后最終選取高相關字段進行建模,與樣本客戶有較強相關關系的屬性字段:合同容量、城市/農村、繳費時長、繳費金額、繳費次數(shù)。
2.4模型選擇
電費回收風險預測,是對用戶未來按期繳費行為的提前預測,希望通過差異化提醒和賬單等方式,提高電費回收率指標,因此需要采用預測模型(邏輯回歸、決策樹模型)。
(1)邏輯回歸模型
邏輯回歸模型的算法:對概率發(fā)生比率 (odds值) 進行對數(shù)變換,作為目標變量X,然后用各種因素進行線性回歸預測其概率轉換后的目標值Y,假設p為事件發(fā)生概率,設,建立模型[7]。
(2)決策樹模型
決策樹模型的算法:根據(jù)各個變量的區(qū)分度(如信息熵,基尼統(tǒng)計量等),從根節(jié)點對每個節(jié)點進行分裂直到不滿足分裂準則,每個節(jié)點上的好壞占比即為發(fā)生概率[7]。
電費回收風險模型中,選擇居民客戶,一年之內有過3次及以上欠費的,并且累計欠費金額大于20元的;非居民客戶,一年之內有過2次及以上欠費的,并且累計欠費金額大于1000元的。這些客戶為電費回收高風險客戶,將這些客戶的目標變量設定為1,其余客戶設定為0。為了防止樣本客戶的過度訓練,需對數(shù)據(jù)進行分區(qū),按40%, 30%, 30% 拆分成訓練集、驗證集和測試集;如需將區(qū)間型或列名型變量轉換成序數(shù)型變量則需采取交互式分箱轉換方法。
采用邏輯回歸方法,非居民客戶模型對驗證集進行評分排序后,前5%的客戶里壞客戶占比為8.31%,提升度為 15.8 倍;居民客戶模型對驗證集進行評分排序后,前5%的客戶里壞客戶占比為33.1%,提升度為 12.2 倍。
應用邏輯回歸公式對全量客戶打分,之后對每個分群的風險客戶占比進行統(tǒng)計。統(tǒng)計發(fā)現(xiàn),非居民(居民)全量客戶中壞客戶占比與驗證集的比例接近。也就是模型具備較好的普適性,不存在“過擬合”的問題。運用決策樹模型建模,由于純度低,沒有變量滿足決策樹根節(jié)點分裂的條件,因而該建模方法不適用。對比之后,最終采用利用邏輯回歸算法建模得到的非居民和居民電費回收風險模型。
運用SAS EM工具,進行數(shù)據(jù)建模。最終選定的建模流程,如圖1、 2所示。
2.5模型評估
運用邏輯回歸算法,提取全體客戶數(shù)據(jù),對全體客戶打分排名。將電費回收風險分數(shù)從高到低進行排列,按照湛江電網(wǎng)的服務資源,劃分不同等級的客戶風險度,前5%非居民(居民)純度比對發(fā)現(xiàn)高風險客戶群主要集中在前5%。將前5%客戶進一步細分,可以確定前1%的純度非常高。因此建議非居民電費回收風險的分群方法為:前1%為高風險群;2%-5%為次高風險群;后95%為低風險群。
三、模型應用
模型評估后,分別對非居民和居民的電費回收風險進行業(yè)務特征刻畫,從而反映不同客戶群體的特征差別。
(1)非居民電費回收風險特征刻畫
行業(yè)類別:從絕對數(shù)量來看,高回收風險群數(shù)量最多的行業(yè)是其他,其次是無行業(yè)分類和制造業(yè);從相對概率來看,交通運輸倉儲和郵政業(yè)中高回收風險客戶比例最高,其次是商業(yè)住宿及餐飲業(yè)、公共事業(yè)和管理組織。
用電類別:從絕對數(shù)量來看,高回收風險群數(shù)量最多的是普通工業(yè),其次是非工業(yè);從相對概率來看,非工業(yè)中高回收風險客戶比例最高,其次是農業(yè)生產和普通工業(yè)。
合同容量:從絕對數(shù)量來看,高回收風險群數(shù)量最多的是合同容量小于100kVA的客戶,其次是100-315kVA的客戶;從相對概率來看,合同容量100-315kVA的客戶中高回收風險客戶比例最高,其次是315-1000kVA的客戶。
(2)居民電費回收風險特征刻畫
城鎮(zhèn)/農村:居民客戶電費回收高風險客戶主要是城市客戶,其他兩個群的城市農村占比接近。
利用電費回收風險客戶細分[9][10]的結果,可在實際業(yè)務場景進行應用,如下幾點:
(1)在用電客戶電費回收的催費流程中,抄核收人員可根據(jù)用電客戶電費回收風險細分結果設置流程處理的優(yōu)先級,以保證業(yè)務員進行電費催收時重點關注高風險用戶,提高電費回收成效。
(2)對高電費回收風險的客戶,客戶服務人員在電費通知單上增加客戶近12個月繳費時間列表,違約金情況;提醒高風險客戶,及時交費避免產生違約金;對渠道溝通活躍度高的客戶,在電費通知單上增加網(wǎng)上營業(yè)廳網(wǎng)址和掌上營業(yè)廳應用二維碼,引導客戶使用自助服務渠道進行及時交費。
(3)在客戶新報裝時,注意清剿歷史欠費;出賬、帳單生成、打印和遞送,制作差異化賬單;提供上門收款服務,移動式POS機收款等差異化服務等。
四、結論
通過對湛江地區(qū)用電客戶電費回收風險分析,解決營銷系統(tǒng)中原先并沒有統(tǒng)一標識電費回收風險客戶的問題,有助于電網(wǎng)企業(yè)電費回收風險管控能力的提升。得到結論如下:
(1)用電客戶電費回收風險分析模型穩(wěn)定,有利于基于電費回收風險的差異化催收,高電費回收風險客戶的賬單差異化和出賬、帳單生成、打印和遞送差異化服務等,將催費環(huán)節(jié)前移到繳費期截止前,從而促進電費回收;
(2)建立了用電客戶電費回收風險分析模型,適用范圍不局限于湛江地區(qū),同樣適用于其他地區(qū);
(3)根據(jù)用電客戶電費回收風險分析思路,有助于湛江地區(qū)新的用電客戶行為及服務業(yè)務主題的新需求的工作開展。
為了進一步提高湛江地區(qū)用電客戶電費回收風險分析模型精確度和適用度可抽取一個新的時間窗口(2014年)的數(shù)據(jù),通過模型對新數(shù)據(jù)進行打分,然后與實際情況作比較,并根據(jù)模型在訓練集、驗證集上的表現(xiàn)來看模型是否穩(wěn)定,其衰減度是否可接受。
參 考 文 獻
[1] QQ858339881.新電改方案 [DB/OL].百度百科,2014-12-26
[2][美]維克托.邁爾.舍恩伯格(ViktorMayer-Sch?nberger)著.大數(shù)據(jù)時代[M].周濤譯.浙江:浙江人民出版社,2013:26-232
[3]徐子沛.大數(shù)據(jù)[M].廣西:廣西師范大學出版社,2013:25-89
[4]姚志勇.SAS編程與數(shù)據(jù)挖掘商業(yè)案例[M].北京:機械工業(yè)出版社,2010:21-246
[5] p8p9p11.相關性分析 [DB/OL].百度百科,2014-12-12
[6]JiaweiHan,MichelingKamber,JianPei,等著.數(shù)據(jù)挖掘:概念與技術[M].韓家威,譯.北京:機械工業(yè)出版社,2006:62-81
[7]張文霖,劉夏璐,狄松.誰說菜鳥不會數(shù)據(jù)分析[M].北京:電子工業(yè)出版社,2012:8-30
[8](新西蘭)IanH.Witten,EibeFrank著.數(shù)據(jù)挖掘實用機器學習技術[M].董琳,邱泉,于曉峰,等譯.北京:機械工業(yè)出版社,2006:40-133
[9]溫德爾史密斯.客戶細分[DB/OL].百度百科,2014-07-31
[10]林嘉暉.基于數(shù)據(jù)挖掘的電網(wǎng)用戶行為分析系統(tǒng)的設計與實現(xiàn)[D].廣州:中山大學,2013