陸怡菲,王昱杰,孫趙辰,陳安哲,許明敏,姜 維
(國網(wǎng)浙江省電力有限公司嘉興供電公司,浙江 嘉興 314033)
隨著新型電力系統(tǒng)建設(shè)的不斷深入,大量新型終端設(shè)備接入電網(wǎng),電力專用SIM 卡作為新型終端的通信核心,僅在國網(wǎng)浙江省電力有限公司嘉興供電公司(簡稱國網(wǎng)嘉興供電公司),其使用數(shù)量已突破13 萬張,每年的SIM 卡成本費用達(dá)百萬元數(shù)量級。所用SIM 卡涵蓋三大運營商,包括20 余類套餐,流量從15 M 到20 G 不等。SIM 卡業(yè)務(wù)主要涉及移動作業(yè)終端、智能配變終端、I 型集中器、II 型集中器等。
電力專用SIM 卡最初主要用于集抄業(yè)務(wù),該業(yè)務(wù)模式穩(wěn)定,所需套餐單一。但隨著新興業(yè)務(wù)的增長,各類新型智能終端被大量運用于電力生產(chǎn)中,如移動作業(yè)終端、新型融合終端、巡檢機器人、無人機、線路監(jiān)控微拍裝置、布控球等,這些終端均需要大流量的SIM 卡支撐。相較于傳統(tǒng)的小流量集抄及公專變電量采集、狀態(tài)監(jiān)控類數(shù)據(jù)采集,新型業(yè)務(wù)的SIM 卡流量及資費呈指數(shù)級躍升。隨著SIM 卡涉及業(yè)務(wù)的多元化,各業(yè)務(wù)部門對使用場景和終端工況的不確定性,套餐申請完全依賴于個人的經(jīng)驗,從而造成部分SIM 卡實際流量與所申請?zhí)撞土髁坎黄ヅ?,造成資費的浪費。由此可見,原有的業(yè)務(wù)管理模式已難以應(yīng)對新興業(yè)務(wù)SIM 卡的套餐選擇,且由于SIM 卡數(shù)量龐大,依靠人工難以實現(xiàn)科學(xué)高效的管理。因此,亟需一種精準(zhǔn)高效的方法用于推薦新興業(yè)務(wù)的SIM卡最優(yōu)套餐。此外,以往的粗放式管理模式導(dǎo)致SIM 卡存在高配低用、低配高用以及零流量閑置卡等歷史遺留問題,也急需精準(zhǔn)有效的手段用于判斷存量SIM 卡套餐是否合適以及如何調(diào)整。
目前,眾多學(xué)者對電力行業(yè)SIM 卡的管理已開展了大量研究工作,針對SIM 卡臺賬數(shù)據(jù)和管理流程進(jìn)行治理和完善,但沒有對SIM 卡數(shù)據(jù)中的潛在信息進(jìn)行進(jìn)一步分析,并實施套餐優(yōu)化。文獻(xiàn)[1-2]利用深度神經(jīng)網(wǎng)絡(luò)LSTM 預(yù)測潛在的SIM卡異常用戶并做出預(yù)警和管控,但沒有對SIM 卡套餐是否合理以及如何進(jìn)一步優(yōu)化SIM 卡成本進(jìn)行研究。
針對上述現(xiàn)狀,基于SIM 卡流量及資費數(shù)據(jù),構(gòu)建套餐合理區(qū)間模型區(qū)分正常使用SIM 卡與待優(yōu)化SIM 卡,基于Adaboost 算法利用正常SIM卡數(shù)據(jù)訓(xùn)練SIM 卡成本優(yōu)化模型,并使用該模型預(yù)測待優(yōu)化SIM 卡所適用的最優(yōu)套餐,及時調(diào)整不合理套餐。此外,根據(jù)套餐推薦結(jié)果,刻畫各業(yè)務(wù)類型SIM 卡的流量使用特征,在套餐申請階段即可做出推薦,從源頭上節(jié)約成本,實現(xiàn)企業(yè)的提質(zhì)增效。
數(shù)據(jù)主要來源于國網(wǎng)嘉興供電公司所有在運電力專用SIM 卡的賬單,共計有132 435 張SIM卡。其中,中國移動SIM 卡數(shù)量占比最大,約占68.48 %;其次是中國聯(lián)通,約占26.94 %;中國電信數(shù)量占比最少,僅有4.58 %。
算法共分為數(shù)據(jù)預(yù)處理、待優(yōu)化SIM 卡數(shù)據(jù)篩選、成本優(yōu)化模型訓(xùn)練、待優(yōu)化SIM 卡套餐擇優(yōu)推薦四個步驟。
2.1.1 數(shù)據(jù)清洗
1) 去除唯一屬性。唯一屬性通常具有唯一性,這些屬性并不能刻畫樣本自身的分布規(guī)律,比如SIM 卡的IP 號等,去除這類屬性不影響數(shù)據(jù)分布。
2) 去除無用屬性。無用屬性是指該SIM 卡中一些共有且不對樣本分布造成影響的通用屬性,刪除這類屬性對數(shù)據(jù)分析無影響。
3) 異常數(shù)據(jù)識別。如某張SIM 卡有暫未激活等異常情況,則對該數(shù)據(jù)進(jìn)行剔除。
2.1.2 SIM 卡特征提取
將所有SIM 卡的所屬套餐類別由原先文本形式進(jìn)行重新標(biāo)簽化,映射至數(shù)字,以便后續(xù)機器學(xué)習(xí)進(jìn)行模型訓(xùn)練。
最終提取的數(shù)據(jù)特征主要包含:卡號、實際流量1、實際費用1、實際流量2、實際費用2、實際流量3、實際費用3、所屬套餐類別,其中實際費用和實際流量包含連續(xù)三個月的數(shù)據(jù),讓數(shù)據(jù)包含更豐富的隨時間變化的歷史信息,從而讓算法能夠做出更精準(zhǔn)的判斷。
經(jīng)過預(yù)處理后的數(shù)據(jù)中包含了套餐選用合理的SIM 卡,同時也存在著大量套餐待優(yōu)化的SIM 卡,因此準(zhǔn)確篩選出合理的SIM 卡和待優(yōu)化的SIM 卡對后續(xù)套餐推薦至關(guān)重要。一般情況下,合理區(qū)間由人工確定,這種分類形式?jīng)]有充分利用大數(shù)據(jù)所包含的信息,容易造成誤判,從而導(dǎo)致正常數(shù)據(jù)量偏少。因此,通過建立臨界值加波動范圍收斂模型用于判別每個套餐的正常使用區(qū)間。首先,將不同套餐按標(biāo)準(zhǔn)流量排序,根據(jù)流量與資費之間的計算規(guī)則,計算出相鄰套餐之間流量使用的臨界值,流量使用在臨界值之上的選擇高一檔套餐更優(yōu)惠,而在其之下的則相反。在此基礎(chǔ)上,根據(jù)SIM 卡每月使用流量具有波動性的特征,加上一個波動范圍,即將臨界值+波動值定義為合理波動區(qū)間,同時定義連續(xù)三個月的流量都在合理波動區(qū)間內(nèi)的SIM卡為正常SIM 卡,否則為待優(yōu)化SIM 卡,如圖1所示。
圖1 套餐合理區(qū)間判定示意
通過篩選,選擇出21 289 張待優(yōu)化SIM 卡,圖2 展示了不同類型的待優(yōu)化SIM 卡數(shù)量占比,其中實際流量低于臨界值下界的占比77 %,說明大多數(shù)待優(yōu)化SIM 卡都是套餐流量使用率極低的;其次是連續(xù)三個月零流量的SIM 卡,占比為21 %。最后是實際流量高于臨界值的,占比為2 %。
圖2 不同類型的待優(yōu)化SIM 卡數(shù)量占比
篩選出正常SIM 卡后,對所得到的正常SIM卡套餐數(shù)據(jù)進(jìn)行分類模型訓(xùn)練,學(xué)習(xí)SIM 卡特征數(shù)據(jù)與其所屬最優(yōu)套餐類別之間的映射關(guān)系。
常用的分類算法包括支持向量機(support vector machine,SVM)、樸素貝葉斯分類(naive bayes classification,NBC)算法、決策樹(decision tree) 算法、 自適應(yīng)增強(adaptive boosting,Adaboost)算法、隨機森林(random forest)算法、K 最近鄰近(K-nearest neighbor,KNN)算法、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)算法等。在實際使用中,基于決策樹、隨機森林等的分類方法并不是很契合SIM 卡數(shù)據(jù)量大、屬性較多、特征結(jié)構(gòu)非線性等特征;KNN 算法在SIM卡套餐類別不平衡時,預(yù)測偏差比較大,且每一次分類都會重新進(jìn)行一次全局運算,對于樣本容量大的數(shù)據(jù)集計算量比較大;而ANN 算法訓(xùn)練時間過長,且存在陷入局部極小值的情況,從而達(dá)不到學(xué)習(xí)的目的,同時對于輸出結(jié)果難以進(jìn)行合理解釋,影響到結(jié)果的可信度。
經(jīng)過對不同算法的優(yōu)缺點比較以及結(jié)合實際應(yīng)用場景,選用Adaboost 算法進(jìn)行模型訓(xùn)練。Adaboost 算法是一種經(jīng)典的集成學(xué)習(xí)算法,其將多個弱分類器集成起來,以達(dá)到較高的分類準(zhǔn)確率,廣泛應(yīng)用于數(shù)據(jù)分類、人臉檢測等應(yīng)用中。Adaboost 算法的原理為前一個基本分類器分錯的樣本會得到加強,加權(quán)后的全體樣本再次被用來訓(xùn)練下一個基本分類器;同時,在每一輪中加入一個新的弱分類器,直到達(dá)到某個預(yù)定的足夠小的錯誤率或達(dá)到預(yù)先指定的最大迭代次數(shù),原理見圖3。
圖3 Adaboost 算法原理
圖3 中{(X(i),Y(i))}m代表訓(xùn)練樣本點;φ1,…,φb代表b個學(xué)習(xí)器;θ1,…,θb代表b個學(xué)習(xí)器對應(yīng)的權(quán)重;公式f(X)=Σθjφj(X)代表將多個學(xué)習(xí)器乘以權(quán)重后相加。
Adaboost 算法的優(yōu)點主要有:可以靈活將不同的分類算法作為弱分類器;很好地利用了弱分類器進(jìn)行級聯(lián),相對于引導(dǎo)聚集(bootstrap aggregating,Bagging)算法和random forest 算法,Adaboost 充分考慮的每個分類器的權(quán)重,可同時降低模型的偏差和方差;具有很高的分類精度,訓(xùn)練誤差以指數(shù)速率下降等。將Adaboost 算法應(yīng)用于SIM 卡成本優(yōu)化模型的訓(xùn)練,利用提取的正常SIM 卡數(shù)據(jù)特征作為模型的輸入,通過Adaboost算法訓(xùn)練后,最終得到最優(yōu)套餐推薦模型。
得到成本優(yōu)化模型后,將篩選出來的待優(yōu)化SIM 卡數(shù)據(jù)提取特征,然后輸入該模型中,模型最終預(yù)測輸出的套餐作為該待優(yōu)化SIM 卡的最終推薦套餐。
為檢驗提出的算法模型精度,將算法模型對待優(yōu)化SIM 卡進(jìn)行套餐推薦后是否落入定義的合理區(qū)間作為判斷依據(jù),對算法套餐推薦結(jié)果的準(zhǔn)確率進(jìn)行計算,最終得到Adaboost 算法準(zhǔn)確率為98.31 %,均高于其他算法(naive bayes 算法為97.59 %、neural net 算法為97.58 %、SVM 算法為97.56 %、KNN 算法為95.74 %、deesion tree算法為95.74 %、randon forest 算法為90.48 %),其可以精準(zhǔn)判斷出待優(yōu)化SIM 卡所最合適的套餐。
通過對所有SIM 卡推薦套餐結(jié)果的分析,算法刻畫了不同業(yè)務(wù)類型的SIM 卡流量使用特征,可對今后新申請同類型業(yè)務(wù)的SIM 卡套餐進(jìn)行預(yù)申請推薦,在源頭上節(jié)省成本費用。
算法將89.8 %的SIM 卡預(yù)測套餐推薦為2.2元套餐(15 M),由此可見大部分業(yè)務(wù)(如I 型集中器、II 型集中器、新型智能開關(guān)、智能配變終端等)每月消耗流量較低,適用于小流量套餐(15 M或30 M)。而移動作業(yè)終端這類業(yè)務(wù)則更適用于300 M 的大流量套餐。
隨機選取一張屬于4.7 元(標(biāo)準(zhǔn)流量30 M)套餐的待優(yōu)化SIM 卡,其連續(xù)三個月的實際流量和實際費用如表1 所示,每月實際費用和流量均超標(biāo)。
表1 某待優(yōu)化SIM 卡實際流量及實際費用
將SIM 卡各特征數(shù)據(jù)映射至高維特征空間,可以看出其實際屬于5 元套餐,而原套餐為4.7 元套餐。算法成功將其推薦為5 元套餐類別,使其流量不超標(biāo)且每月費用降低。
基于大數(shù)據(jù)分析的SIM 卡成本優(yōu)化模型將各類SIM 卡重新定位至合理套餐區(qū)間,對新申請業(yè)務(wù)卡做出套餐推薦,從源頭上降低成本;根據(jù)歷史存量SIM 卡的使用情況進(jìn)行重新評估,并推薦最優(yōu)套餐,實現(xiàn)了所有SIM 卡套餐的最優(yōu)配置。
在經(jīng)濟(jì)效益方面,算法對21 289 張待優(yōu)化SIM 卡進(jìn)行套餐推薦后,理論上每月可節(jié)約4.85萬元,節(jié)省比例約為50.47 %,每年可累計節(jié)約58.20 萬元,降低了SIM 卡費用成本。
在時間效益方面,通過預(yù)處理、數(shù)據(jù)篩選、特征提取、模型訓(xùn)練和套餐推薦等一系列流程對所有SIM 卡數(shù)據(jù)進(jìn)行處理所需時間只需要1 h。相比于人工篩選并判斷所需的445.3 h,時間大幅縮短,且避免了大量重復(fù)性勞動導(dǎo)致的出錯率。
基于Adaboost 算法構(gòu)建的SIM 卡成本優(yōu)化模型以及SIM 卡套餐優(yōu)化方案具有“三準(zhǔn)”(界定準(zhǔn)、判定準(zhǔn)、推薦準(zhǔn))特征,其創(chuàng)新如下。
1) 首次提出套餐合理區(qū)間智能選擇,相比于人工界定更加科學(xué)。
2) 將Adaboost 算法應(yīng)用于SIM 卡數(shù)據(jù)篩選,得到高效精準(zhǔn)的套餐推薦模型,套餐推薦準(zhǔn)確率達(dá)98.31 %;指導(dǎo)新增業(yè)務(wù)SIM 卡套餐選擇,并及時優(yōu)化調(diào)整現(xiàn)有SIM 卡套餐配置,實現(xiàn)全部SIM 卡的套餐最優(yōu)配置,在滿足電力業(yè)務(wù)需求的同時,降低SIM 卡運營成本,助力企業(yè)提質(zhì)增效。