秦曉安
(安徽商貿職業(yè)技術學院,安徽蕪湖 241003)
隨著移動通信行業(yè)的飛速發(fā)展,通信企業(yè)之間的競爭日趨激烈,隨著高校招生規(guī)模的不斷擴大,高校逐漸成為各大移動通訊公司搶占的高地。在不斷壓縮成本,降低價格之后,推出何種深受歡迎的校園套餐,成為各運營商思考的問題。
資費套餐是運營商根據(jù)客戶的市場需要,將各種業(yè)務進行整合,以獲得最大經(jīng)濟利益的營銷方式。通過滿足各種消費群體的需要,與此同時以優(yōu)厚的價格使消費者得到了實際的利益,這樣不僅提升了自身業(yè)務的吸引力,也在一定程度上提升了消費者的滿意度和忠誠度,有效避免了消費者的離網(wǎng),增強了企業(yè)客戶的健壯性;同時也使企業(yè)的各項業(yè)務得到應用,提高了企業(yè)的盈利能力[1]。隨著科技的不斷發(fā)展和日新月異的3G技術,高校大學生的消費群體呈現(xiàn)出了多元化的特征,從普通的話音通話和發(fā)送短信轉變?yōu)閷ι暇W(wǎng)、購物、交友等更深層次的需求。當前一些地區(qū)推出的校園資費套餐基本上可以滿足大學生消費者的需求。但是,套餐設計還是存在著一些不合理的因素,一方面沒有做好學生市場的調研,套餐設計簡單,沒有和大學生的實際需要結合起來;另一方面資費套餐細節(jié)內容固定,各套餐價格檔位相差過大,有些超出了學生承受的能力,導致大學生沒有自由組合套餐內容的權利。
本文將以安徽校園套餐為例,通過數(shù)據(jù)挖掘中決策樹ID3算法技術,分析提出合理化建議來改進套餐內容以便于更貼近學生需要。
業(yè)內有很多關于決策樹數(shù)據(jù)的分類方法,通??煞譃?種:貝葉斯分類方法、基于距離的分類方法、決策樹分類方法和規(guī)則歸納方法。其中決策樹分類方法是大部分人經(jīng)常使用的一種方法[2]。當前決策樹的構造方法有很多種,其中最具代表性的是著名學者J.R.Quinlan提出的ID3算法,該算法的優(yōu)點是在進行非葉子結點求值時,能夠得出被測試屬性中誰是具有最大信息增益的那一個。ID3算法操作起來較簡單,容易掌握。
ID3算法的選擇標準主要是關于信息增益,而信息增益理論主要基于熵的概念,ID3算法在實施的過程中通常選那些具有最高信息增益的屬性作為測試屬性的節(jié)點。下面介紹屬性信息增益的計算,通過得出的結果找出規(guī)律并相互比較大小,目的是為了得到一個屬性具有最大信息增益。
假定集合S中包含有s個數(shù)據(jù)樣本,其中類標號屬性包含m個不一樣的值,這樣就能夠定義m個不同類Ci。由此可以設Si是其類Ci中的樣本數(shù),通過式(1)得出給定樣本分類所需要的信息熵或期望信息:
式中pi是任一個樣本屬于Ci的概率,通常可以用Si/S來進行估計。由于計算機中信息數(shù)據(jù)的存儲是二進制編碼,所以用以2為底的對數(shù)函數(shù)。
假定信息屬性A包含有n個不一樣的值{a1,a2,…,an},該屬性就可以把S劃分成為n個不同的子集{S0,S1,… ,Sn},其Sj樣本在信息屬性A上有了一樣的值 aj(j=1,2,…,n)。假定Sij是Sj中類Ci的樣本個數(shù),那么通過A所進一步細分的子集中的期望信息熵可由式(2)得到:
式中:pij=Sij/Sj,是Sj樣本屬于Ci的概率。
同樣,相應信息增益值可由熵值和期望信息得出,由式(4)可以計算出屬性A上分支部分得到的信息增益:
由此可見,ID3算法的首要步驟就是得出各個屬性的信息增益,并找出其中信息增益值最高的作為未來決策樹的根結點,根據(jù)該屬性的其他值創(chuàng)建出其分支節(jié)點,最終完成完整的決策樹[3]。
目前安徽校園套餐主要以19、39元套餐為主(表1),其他檔次套餐不適合學生消費,故不做分析。
表1 19、39元套餐的詳情
學生群體選擇套餐都希望套餐內的服務夠用,以顯實惠,故套餐外不做考慮分析。在套餐內隨機挑選若干學生樣本,主要考慮本地長市主叫、短信、國內Wifi、手機上網(wǎng)這4項數(shù)據(jù)作為分析的屬性依據(jù)。
將4項的屬性值分為3大類,其中國內Wifi和手機上網(wǎng)歸為一類,分別稱之為主叫、短信、上網(wǎng)。接著每類按區(qū)間劃分成幾個部分,比如主叫按0~100、100~200、200以上劃分成少、一般、多 3種類型,以此類推劃分其他幾項屬性數(shù)據(jù),目的是為了便于分析套餐的使用情況。
從數(shù)據(jù)倉庫中選取7個班共326名學生,即326個樣本,其中選擇19元套餐有152個樣本,39元套餐有174個樣本,即 S1=152,S2=174,總計 S=326。
根據(jù)樣本計算每個屬性的信息增益,得出“是否超出套餐”字段所需要的信息熵:
下面計算每一個屬性的信息熵,首先從主叫屬性開始,觀察主叫每個樣本值之間的分布,求出它們的信息熵。
對于主叫為“多”,其中結果“是否超出套餐”為“是”的有104個樣本,為“否”的有36個樣本,即S11=104,S21=36,總計 S=140,由式(3)計算出:
對于主叫為“一般”,其中結果“是否超出套餐”為“是”的有33個樣本,為“否”的有127個樣本,即S12=33,S22=127,總計 S=160,由式(3)計算出:
對于主叫為“少”,其中結果“是否超出套餐”為“是”的有2個樣本,為“否”的有24個樣本,即S13=2,S23=24,總計 S=26,由式(3)計算出:
如果樣本按主叫得出期望信息,可由式(2)計算出:
最后得出這種劃分的信息增益是:
類似可以計算出其他屬性數(shù)據(jù)的信息增益。剪枝后決策樹見圖1。
圖1 剪枝后決策樹
分析可知,由于主叫屬性具備最高的增益信息,接下來將由它作為測試屬性。以主叫屬性作為決策樹的根結點,進一步劃出其他分支結點,每個分支結點以此類推最終得到一棵完整的決策樹。
通過對決策樹的分析,可以看出主叫少,短信用量較少的基本上都沒有超過套餐用量;主叫少,短信多,上網(wǎng)較少的也沒有超過套餐用量;主叫一般,短信、上網(wǎng)較少的同樣沒有超過套餐用量;其余使用均超過了套餐用量。
對于超過套餐用量的,其中有一部分是可以通過改進套餐加以解決,具體解決方案有2種:(1)將19元套餐分為2個版本,分別為語音聊天和短信上網(wǎng),適當增加各自的權重。主要解決主叫多、上網(wǎng)短信少或上網(wǎng)短信多、主叫少而超出套餐的問題。(2)增加29元套餐,適當分配套餐內容,主要解決主叫較多、上網(wǎng)短信較多而超出套餐的問題。
高校手機套餐的制定具體還應根據(jù)公司營銷策略和受眾群體不同而有所不同。
[1]呂志國.基于數(shù)據(jù)挖掘的移動資費套餐設計模型的建立與實現(xiàn)[J].中國管理信息化,2007,10(12):23-27.
[2]胡運發(fā).數(shù)據(jù)與知識工程導論[M].北京:清華大學出版社,2003:128-129.
[3]姜紅艷.決策樹ID3算法在學生成績中的應用[J].鞍山師范學院學報,2008,10(4):55-58.
[4]羅海蛟,劉顯.數(shù)據(jù)挖掘中分類算法的研究及其應用[J].微機發(fā)展,2003(s2):49-50.
[5]桂現(xiàn)才,彭宏,王小華.C4.5算法在保險客戶流失分析中的應用[J].計算機工程與應用,2005(17):197-199.