◆林 濤
(廣東省電信規(guī)劃設計院有限公司 廣東 510630)
電信企業(yè)為穩(wěn)定和提升政企客戶的通訊業(yè)務收入和市場份額,需要有效跟蹤評估企業(yè)通訊活躍度,這通常是從企業(yè)通訊行為數(shù)據(jù)中挖掘。工商局在冊企業(yè)往往缺乏完善的通訊行為數(shù)據(jù),僅依靠企業(yè)經(jīng)營數(shù)據(jù)分析通訊活躍度是一個難題。
本文根據(jù)現(xiàn)有企業(yè)通訊與經(jīng)營數(shù)據(jù),通過統(tǒng)計分析和熵權法進行特征工程[1],構造企業(yè)通訊活躍度指標,結合經(jīng)營數(shù)據(jù)訓練CART 決策樹[2]模型,挖掘企業(yè)經(jīng)營數(shù)據(jù)與通訊活躍度之間的隱含關系。
為充分挖掘企業(yè)經(jīng)營數(shù)據(jù)與通訊活躍度之間的關系,需要設計有效的建模流程,本文采用客觀的熵權法篩選重要通訊特征,并利用能夠獲取判別規(guī)則的CART 決策樹模型進行建模。
本文首先對前后兩年企業(yè)通訊和經(jīng)營數(shù)據(jù)進行數(shù)據(jù)清洗,接著利用統(tǒng)計學方法檢驗兩年通訊數(shù)據(jù)差值變化差異是否具有顯著統(tǒng)計學意義,經(jīng)過特征篩選,構造新特征,然后使用熵權法選擇重要通訊特征,結合業(yè)務邏輯設計通訊活躍度指標,最后結合企業(yè)經(jīng)營數(shù)據(jù)訓練CART 決策樹模型。
熵權法是一種客觀的特征重要性評估方法,其僅依賴于特征數(shù)據(jù)所包含的信息量,利用信息熵對信息的量化,可以計算出每個特征的權重,主要遵循信息熵值越小,信息量越多,特征權重越大;信息熵值越大,信息量越少,特征權重越小的原則。熵權法的計算步驟如下:
設數(shù)據(jù)集包含n個特征和m個樣本。
Step1:對于每個特征j,其中的每個數(shù)據(jù)xij計算其貢獻度pij;
Step2:計算特征j的信息熵Ej,其中k
Step3:計算特征j的權重wj;
CART 決策樹算法是一種二叉樹模型算法,其具有運行效率更高,支持離散型和連續(xù)型數(shù)據(jù),能夠返回可解釋的分類規(guī)則等特點,因此應用范圍非常廣泛。其模型生成是一個遞歸過程,在每一步中首先計算特征中,每個特征值所劃分的兩個數(shù)據(jù)子集的基尼系數(shù),即計算
其中Si表示第i個數(shù)據(jù)子集,Pk代表第k個類別的頻率,然后再計算出特征按該特征值劃分數(shù)據(jù)集的基尼系數(shù),即 其中A表示特征,a表示特征值,ni表示第i個數(shù)據(jù)子集Si
中的樣本數(shù)目,N表示數(shù)據(jù)集S的樣本數(shù)目,接著找出使基尼系數(shù)最小的特征及其特征值作為樹模型的分支節(jié)點,如此遞歸求解,直至滿足算法終止條件。
本文主要針對前后兩年企業(yè)通訊和經(jīng)營數(shù)據(jù)進行分析,分別包括通訊需求、行為、消費、信用等方面通訊特征,以及企業(yè)屬性、經(jīng)營狀態(tài)、經(jīng)營活動等方面企業(yè)經(jīng)營特征。
原始數(shù)據(jù)經(jīng)過極端值、缺失值、業(yè)務異常值等處理,以及統(tǒng)計數(shù)據(jù)分布篩除不可用特征后,得到能夠進一步分析的有效數(shù)據(jù)。
針對前后兩年企業(yè)通訊數(shù)據(jù),利用秩和檢驗方法檢驗每個通訊特征的兩年差值數(shù)據(jù)是否具有統(tǒng)計學意義。經(jīng)分析后得到,大部分通訊特征的差值變化顯著,剔除不顯著特征后,以剩余特征的兩年差值作為新通訊特征,接著利用熵權法計算出每個新通訊特征的權重并排序,最終從數(shù)據(jù)分布特點和業(yè)務規(guī)則兩方面,篩選出企業(yè)固話差值與寬帶差值兩個重要特征,即:
根據(jù)上述兩個重要特征,按如下規(guī)則構造出企業(yè)通訊活躍度指標:
通過上述預處理,將企業(yè)通訊數(shù)據(jù)信息利用企業(yè)通訊活躍度指標來表征。本文以通訊活躍度作為數(shù)據(jù)標簽,結合清洗后的企業(yè)經(jīng)營數(shù)據(jù)形成數(shù)據(jù)集,并劃分為訓練集、驗證集和測試集,其中按前二者占80%、后者占20%進行隨機均勻抽樣,訓練時利用十折交叉驗證尋找最優(yōu)超參數(shù)。
按上述訓練方案,CART 決策樹模型學習了企業(yè)經(jīng)營數(shù)據(jù)與通訊活躍度之間的內(nèi)在關聯(lián)關系。利用所訓練的模型不但能夠僅靠企業(yè)經(jīng)營數(shù)據(jù)判別出企業(yè)通訊活躍度,同時決策樹模型還可以返回明確的判別規(guī)則,突出重要的企業(yè)經(jīng)營特征。
本文將現(xiàn)有全量企業(yè)數(shù)據(jù)按地域劃分為珠三角在冊企業(yè)、非珠三角在冊企業(yè)等2 個數(shù)據(jù)集,分別利用當年企業(yè)經(jīng)營數(shù)據(jù)與相應的通訊活躍度組成的數(shù)據(jù)集訓練模型,并利用召回率、精確率、準確率等評價指標在測試集上對模型進行評估,具體評估結果如表1 所示。
表1 模型評估結果
由評估結果可知,本文提出的企業(yè)通訊活躍度分析模型具備良好的判別能力,并且在召回率上可以達到95%以上,其中模型判別企業(yè)通訊活躍度的準確率基本能達到90%以上,表明模型能夠根據(jù)企業(yè)經(jīng)營數(shù)據(jù)判別出通訊活躍度。
本文通過秩和檢驗和熵權法篩選出重要通訊特征,并以此構造出企業(yè)通訊活躍度指標,結合企業(yè)經(jīng)營數(shù)據(jù)訓練CART 決策樹模型。根據(jù)實際數(shù)據(jù)檢驗模型,本文模型在各項評價指標上都能達到90%以上,表明本文提出的建模方法能夠有效判別企業(yè)通訊活躍度。