廣東電網(wǎng)有限責(zé)任公司 錢正浩 吳廣財(cái)
一種基于大數(shù)據(jù)挖掘的電費(fèi)回收風(fēng)險(xiǎn)預(yù)測技術(shù)研究
廣東電網(wǎng)有限責(zé)任公司 錢正浩 吳廣財(cái)
電費(fèi)回收是供電企業(yè)最終效益的體現(xiàn),電費(fèi)回收率也是供電企業(yè)內(nèi)部考核的一項(xiàng)重要經(jīng)濟(jì)指標(biāo)[1]。每年全國電力用戶拖欠電網(wǎng)企業(yè)電費(fèi)現(xiàn)場比較嚴(yán)重,導(dǎo)致企業(yè)資金周轉(zhuǎn)不暢,同時(shí)也使國家資產(chǎn)蒙受巨大損失。隨著國家產(chǎn)業(yè)結(jié)構(gòu)的不斷調(diào)整,部分行業(yè)產(chǎn)能過剩,給電力企業(yè)電費(fèi)回收帶來諸多風(fēng)險(xiǎn),尤其電力大客戶(主要是企業(yè)用戶、商業(yè)用戶等)是電費(fèi)回收工作的主要風(fēng)險(xiǎn),本文通過對大客戶歷史用電數(shù)據(jù)、行業(yè)數(shù)據(jù)、企業(yè)法人征信、宏觀經(jīng)濟(jì)環(huán)境等數(shù)據(jù)的收集,基于大數(shù)據(jù)挖掘技術(shù)對電費(fèi)回收風(fēng)險(xiǎn)進(jìn)行預(yù)測分析,及早發(fā)現(xiàn)電費(fèi)回收風(fēng)險(xiǎn),針對性采取相應(yīng)措施提高電費(fèi)回收率。
電費(fèi)回收;電費(fèi)風(fēng)險(xiǎn);風(fēng)險(xiǎn)預(yù)測;大數(shù)據(jù);數(shù)據(jù)挖掘
“十三五”期間,電網(wǎng)企業(yè)提出要運(yùn)用“大移物云”技術(shù),推動(dòng)公司管理變革和運(yùn)營模式創(chuàng)新,推動(dòng)電網(wǎng)創(chuàng)新發(fā)展高效運(yùn)作。目前大數(shù)據(jù)技術(shù)已在互聯(lián)網(wǎng)、電商、廣告等行業(yè)取得了長足的發(fā)展,在用戶行為分析、銷售策略制定、廣告定點(diǎn)投放等領(lǐng)域已進(jìn)入實(shí)用階段。
目前電力營銷管理系統(tǒng)主要是由人工從營銷管理系統(tǒng)導(dǎo)出電費(fèi)明細(xì)、欠費(fèi)明細(xì)等數(shù)據(jù),根據(jù)催收策略實(shí)施一級、二級、三級催收工作,浪費(fèi)的人力、物力資源大,催收工作效率低下,并且只能被動(dòng)的在事后進(jìn)行電費(fèi)催收工作[2]。運(yùn)用大數(shù)據(jù)技術(shù)對大客戶電費(fèi)回收風(fēng)險(xiǎn)進(jìn)行分析預(yù)測,及時(shí)發(fā)現(xiàn)存在的電費(fèi)回收風(fēng)險(xiǎn)點(diǎn),通過營銷策略調(diào)整降低風(fēng)險(xiǎn),有效提高電費(fèi)回收率,提升電力企業(yè)經(jīng)營效益。
基于大數(shù)據(jù)存儲、計(jì)算、分析能力,結(jié)合電力大客戶的用電行為、企業(yè)發(fā)展、企業(yè)法人征信、國家政策、地區(qū)社會環(huán)境等因素,建立電費(fèi)回收風(fēng)險(xiǎn)預(yù)測數(shù)據(jù)模型,提出大數(shù)據(jù)預(yù)測分析技術(shù)方案以及本技術(shù)方案應(yīng)用場景。
電費(fèi)回收率作為電網(wǎng)公司收益的主要的運(yùn)營指標(biāo)數(shù)據(jù),體現(xiàn)了電網(wǎng)公司經(jīng)營效益的成果。凡事預(yù)則立,不預(yù)則廢,在提升電費(fèi)回收率、有效地降低電費(fèi)回收風(fēng)險(xiǎn)方面同樣適用。深入探討電費(fèi)風(fēng)險(xiǎn)產(chǎn)生的原因,對風(fēng)險(xiǎn)影響因素進(jìn)行分類,主要分為內(nèi)部和外部兩大方面的因素,電費(fèi)風(fēng)險(xiǎn)預(yù)測數(shù)據(jù)主要包括:內(nèi)部因素?cái)?shù)據(jù)(用戶基礎(chǔ)信息、業(yè)擴(kuò)信息、電費(fèi)信息、欠費(fèi)歷史信息、用電檢查信息、營銷稽查信息等)、外部因素?cái)?shù)據(jù)(企業(yè)基本信息、企業(yè)法人個(gè)人征信、納稅證明信息、銀行貸款信息、企業(yè)經(jīng)營狀況、國家宏觀經(jīng)濟(jì)環(huán)境、區(qū)域社會環(huán)境等)。
營銷管理系統(tǒng)中的用戶類型信息包括企業(yè)客戶、個(gè)人客戶、集團(tuán)客戶、事業(yè)單位客戶、社會團(tuán)體、政府機(jī)關(guān)、軍事單位客戶,本文分析范圍只針對電費(fèi)回收風(fēng)險(xiǎn)較大的企業(yè)客戶進(jìn)行分析。個(gè)人客戶由于基數(shù)較大、個(gè)體風(fēng)險(xiǎn)影響較低,同時(shí)事業(yè)單位客戶、社會團(tuán)體、政府機(jī)關(guān)等客戶因負(fù)有社會責(zé)任,受外部因素影響較低。
電費(fèi)信息、業(yè)擴(kuò)信息、稽查信息、用檢信息和欠費(fèi)歷史信息均由營銷管理系統(tǒng)提供,企業(yè)用戶信息、業(yè)擴(kuò)信息以及欠費(fèi)信息均包含企業(yè)行業(yè)類別信息以及企業(yè)基本信息,通過企業(yè)信息可進(jìn)行外部因素關(guān)聯(lián)分析。
企業(yè)基本信息包括企業(yè)名稱、經(jīng)營范圍、法人、注冊資本、稅號等信息,來源于工商管理局系統(tǒng),同時(shí)還需要來源于征信系統(tǒng)的企業(yè)法人征信信息,稅務(wù)局系統(tǒng)的納稅證明信息,銀行系統(tǒng)的貸款信息及還款信息,企業(yè)經(jīng)營狀況、宏觀經(jīng)濟(jì)因素(資訊、視頻、圖片等)以及特定行業(yè)影響因素(比如農(nóng)產(chǎn)品加工企業(yè),需要考慮氣候、產(chǎn)能等因素)主要從網(wǎng)絡(luò)途徑獲取,考慮外部因素的難度主要在于有效數(shù)據(jù)的獲取和篩查。
電費(fèi)回收風(fēng)險(xiǎn)預(yù)測數(shù)據(jù)量大,數(shù)據(jù)類別多,不僅有結(jié)構(gòu)化的用戶、電費(fèi)、征信信息,還有半結(jié)構(gòu)化和非結(jié)構(gòu)化的外部數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),本文引入Hadoop架構(gòu)以解決海量數(shù)據(jù)存儲、數(shù)據(jù)多樣化處理的需求,同時(shí)軟硬件成本較低。Hadoop是由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),典型技術(shù)架構(gòu)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析五層模型,圖1為hadoop平臺技術(shù)架構(gòu)。
圖1 hadoop平臺技術(shù)架構(gòu)
目前電力營銷管理系統(tǒng)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲用電客戶、電費(fèi)、業(yè)擴(kuò)、用檢、稽查等數(shù)據(jù)。
企業(yè)基本信息、企業(yè)法人個(gè)人征信、納稅證明信息、銀行貸款信息等數(shù)據(jù)需從工商管理局、銀行、征信等專業(yè)系統(tǒng)獲取,需考慮各系統(tǒng)的數(shù)據(jù)存儲方式及獲取方式的多樣性。
企業(yè)經(jīng)營狀況、國家宏觀經(jīng)濟(jì)環(huán)境、區(qū)域社會環(huán)境等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)主要是借助網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式獲取數(shù)據(jù)。
大數(shù)據(jù)存儲是指將大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問。數(shù)據(jù)庫存儲管理技術(shù)包括分布式存儲、NoSQL、內(nèi)存存儲技術(shù)[3]。
分布式存儲通過網(wǎng)絡(luò)將分散的存儲資源構(gòu)成一個(gè)虛擬的存儲設(shè)備,實(shí)現(xiàn)數(shù)據(jù)的分散存儲,典型的如Hadoop平臺的分布式文件存儲系統(tǒng)(HDFS),主要優(yōu)勢體現(xiàn)在硬件成本低且節(jié)點(diǎn)可不斷擴(kuò)展、通過冗余備份實(shí)現(xiàn)高容錯(cuò)性。
NoSQL數(shù)據(jù)存儲不需要固定的表結(jié)構(gòu),存取上性能優(yōu)勢明顯,但和關(guān)系型數(shù)據(jù)庫也不存在連接操作;內(nèi)存存儲技術(shù)主要應(yīng)用于對數(shù)據(jù)讀取、處理響應(yīng)高的場景。
電費(fèi)預(yù)測分析主要是通過用戶用電數(shù)據(jù)與用戶征信、企業(yè)經(jīng)營、外部環(huán)境進(jìn)行關(guān)聯(lián)分析,同時(shí)對響應(yīng)要求不高,存儲技術(shù)首選分布式存儲。
大數(shù)據(jù)預(yù)處理可以對采集到的原始數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及檢查一致性等,將那些雜亂無章的數(shù)據(jù)轉(zhuǎn)化為相對單一且便于處理的構(gòu)型,為后期的數(shù)據(jù)分析奠定基礎(chǔ)。數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)規(guī)約等部分。
數(shù)據(jù)清理主要工具有ETL,實(shí)現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載;數(shù)據(jù)集成工具主要有Sqoop, Sqoop是一個(gè)用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,Sqoop專為大數(shù)據(jù)批量傳輸設(shè)計(jì),能夠分割數(shù)據(jù)集并創(chuàng)建Hadoop任務(wù)來處理每個(gè)區(qū)塊。通過數(shù)據(jù)集成工具可將網(wǎng)絡(luò)上非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式統(tǒng)一存儲。
大規(guī)模數(shù)據(jù)的并行運(yùn)算主要使用MapReduce方法,支持自動(dòng)將一個(gè)作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個(gè)數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊對應(yīng)于一個(gè)計(jì)算任務(wù)(Task),并自動(dòng)調(diào)度計(jì)算節(jié)點(diǎn)(Map節(jié)點(diǎn)或Reduce節(jié)點(diǎn))來處理相應(yīng)的數(shù)據(jù)塊,同時(shí)負(fù)責(zé)監(jiān)控這些節(jié)點(diǎn)的執(zhí)行狀態(tài),并負(fù)責(zé)Map節(jié)點(diǎn)執(zhí)行的同步控制。
數(shù)據(jù)挖掘預(yù)測則是通過對歷史數(shù)據(jù)的輸入值和輸出值關(guān)聯(lián)性的學(xué)習(xí),得到預(yù)測模型,再利用該模型對未來的輸入值進(jìn)行輸出值預(yù)測。
一般地,可以通過機(jī)器學(xué)習(xí)方法建立預(yù)測模型。即假定事物的輸入、輸出之間存在一種函數(shù)關(guān)系y=f(x, β),其中β是待定參數(shù),x是輸入變量,則y=f(x, β)稱為學(xué)習(xí)機(jī)器。通過數(shù)據(jù)建模,由歷史數(shù)據(jù)學(xué)習(xí)得到參數(shù)β的取值,就確定了具體表達(dá)式y(tǒng)=f(x, β),這樣就可以對新的x預(yù)測y。
典型的機(jī)器學(xué)習(xí)方法包括:決策樹方法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、正則化方法。其他常見的預(yù)測方法還有近鄰法、樸素貝葉斯等。
電力企業(yè)電費(fèi)風(fēng)險(xiǎn)預(yù)測主要是通過大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對用電客戶信息的收集、風(fēng)險(xiǎn)識別、風(fēng)險(xiǎn)分析、風(fēng)險(xiǎn)預(yù)警,建立電費(fèi)回收風(fēng)險(xiǎn)評價(jià)—風(fēng)險(xiǎn)控制—風(fēng)險(xiǎn)后評價(jià)的閉環(huán)管理體系。
(1)風(fēng)險(xiǎn)評價(jià):通過全面收集客戶電費(fèi)風(fēng)險(xiǎn)相關(guān)數(shù)據(jù),量化風(fēng)險(xiǎn)發(fā)生的可能性,對客戶電費(fèi)回收風(fēng)險(xiǎn)進(jìn)行評級,進(jìn)行電費(fèi)風(fēng)險(xiǎn)評估。
(2)風(fēng)險(xiǎn)控制:根據(jù)用電客戶風(fēng)險(xiǎn)評價(jià)體系的評價(jià)結(jié)果,根據(jù)風(fēng)險(xiǎn)程度高低采取差異化的電費(fèi)回收措施[4]。
(3)風(fēng)險(xiǎn)后評價(jià):對風(fēng)險(xiǎn)管理效果進(jìn)行科學(xué)的評價(jià),并生成相應(yīng)的報(bào)表,同時(shí)對電費(fèi)風(fēng)險(xiǎn)成惡化趨勢的用電客戶按照行業(yè)、區(qū)域、用電類別進(jìn)行分析和評價(jià),對相關(guān)聯(lián)用電客戶群體進(jìn)行電費(fèi)風(fēng)險(xiǎn)趨勢評估,在相關(guān)聯(lián)范圍內(nèi)進(jìn)行相應(yīng)的風(fēng)險(xiǎn)提示。
未來的電費(fèi)風(fēng)險(xiǎn)預(yù)測主要依托于大數(shù)據(jù)技術(shù)實(shí)現(xiàn),通過用戶用電行為、客戶征信、企業(yè)經(jīng)營狀況、區(qū)域及宏觀經(jīng)濟(jì)環(huán)境,挖掘潛在的電費(fèi)回收風(fēng)險(xiǎn),為電網(wǎng)經(jīng)營管理提供實(shí)時(shí)多樣化的數(shù)據(jù),為公司的精益化管理提供支撐,從而提升企業(yè)經(jīng)濟(jì)效益。
[1]董運(yùn),孟飛.供電企業(yè)電費(fèi)風(fēng)險(xiǎn)防范管理[J].中國工業(yè)年鑒,2014(01).
[2]姜力維.電費(fèi)風(fēng)險(xiǎn)防范與清欠[M].中國電力出版社,2012.
[3]賴征田.電力大數(shù)據(jù)-能源互聯(lián)網(wǎng)時(shí)代的電力企業(yè)轉(zhuǎn)型與價(jià)值創(chuàng)造[M].機(jī)械工業(yè)出版社,2016.
[4]余長江,張海榮.探究電費(fèi)大數(shù)據(jù)分析與風(fēng)險(xiǎn)預(yù)警[J].電腦知識與技術(shù),2016,11(33):23-23.
錢正浩(1982-),男,工程師,從事電力企業(yè)信息化建設(shè)工作。
吳廣財(cái)(1985-),男,工程師,從事電力企業(yè)信息化建設(shè)工作。