亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于組合預(yù)測模型的數(shù)據(jù)挖掘技術(shù)研究與探索

        2018-01-29 07:36:06
        實驗室研究與探索 2017年12期
        關(guān)鍵詞:決策樹數(shù)據(jù)挖掘遺傳算法

        閆 賀 新

        (吉林工程職業(yè)學院, 吉林 四平 136000)

        0 引 言

        客戶流失是通信行業(yè)面臨的重要問題,不僅會使企業(yè)市場占有份額縮小,還會出現(xiàn)客戶惡意離網(wǎng)產(chǎn)生欠費行為,從而增加了經(jīng)銷商的運營成本。為使企業(yè)利潤最大化,以獲得更大的生存空間,各運營商都把爭取更多的客戶作為經(jīng)營理念和目標。數(shù)據(jù)顯示:發(fā)展一位新客戶的成本是挽留一個老客戶的4~6倍,而客戶忠誠度下降比例則是企業(yè)利潤下降比例的4倍[1],可見做好客戶關(guān)系管理,防止客戶流失是通信行業(yè)提升企業(yè)核心競爭力的重要途徑。

        針對上述問題,出現(xiàn)了很多有效的數(shù)據(jù)挖掘算法[2]。為了提高電信客戶流失預(yù)測精度, 提出一種基于主成份分析支持向量機的電信客戶流失預(yù)測方法,獲得較為理想的預(yù)測效果[3]。針對決策樹算法測試屬性選取上存在的缺點, 建立基于Weka的知識自動獲取的客戶流失預(yù)測模型,克服了決策樹算法取值偏置的問題[4]。為了避免現(xiàn)實中流失客戶與未流失客戶比例偏斜問題,采用多基決策樹聯(lián)合決策的方法進行建模,與單個分類器相比, 提高了預(yù)測模型的查準率和泛化能力[5]。提出了一種基于慢啟動的頻繁模式挖掘算法,用于電信企業(yè)客戶流失預(yù)警模型[6]??v觀以上文獻,都采用了單一的預(yù)測方法,但每種算法都存在一定的不足,從而使結(jié)果不能達到最佳?;诖耍狙芯恳蕴岣呖蛻袅魇ьA(yù)測命中精度為目標,結(jié)合決策樹、遺傳算法以及單神經(jīng)元3種模型特點,嘗試建立一種多算法組合預(yù)測模型,并對某電信企業(yè)進行客戶流失預(yù)測與評價。

        1 數(shù)據(jù)挖掘算法分析

        數(shù)據(jù)挖掘是指在海量的、雜亂的數(shù)據(jù)中提取隱含在數(shù)據(jù)當中具有潛在利用價值的信息,通過分析能夠為人們提供決策作用的過程[7],廣泛應(yīng)用于地理、電信、銀行等領(lǐng)域?;贑RISP-DM標準的數(shù)據(jù)挖掘過程包括業(yè)務(wù)與數(shù)據(jù)理解、準備、建模、評估和部署等環(huán)節(jié),是一個不斷往復(fù)優(yōu)化過程,其中數(shù)據(jù)準備、建立模型、模型評估是數(shù)據(jù)挖掘重要的組成部分,見圖1。

        圖1 CRISP-DM數(shù)據(jù)挖掘流程

        (1) 數(shù)據(jù)準備。數(shù)據(jù)準備是數(shù)據(jù)挖掘結(jié)果準確與否的前提條件,是利用計算機技術(shù)對數(shù)據(jù)信息的預(yù)先處理,主要功能是將雜亂的、不符合規(guī)則的無效數(shù)據(jù)進行清洗和篩選,再根據(jù)業(yè)務(wù)分析的結(jié)果對數(shù)據(jù)進行整合與轉(zhuǎn)化,為建立模型奠定良好的數(shù)據(jù)基礎(chǔ)。

        (2) 建立模型。模型的建立是數(shù)據(jù)挖掘的核心部分,不同的挖掘算法對數(shù)據(jù)的抽取和處理方式不盡相同,產(chǎn)生的結(jié)果也各有差異,可以根據(jù)不同的數(shù)據(jù)特點及業(yè)務(wù)需求選擇最合適、最有效的挖掘算法。

        (3) 模型評估。為檢測經(jīng)過數(shù)據(jù)挖掘得到的結(jié)果是否達到預(yù)期要求,需要對模型進行評估。如果發(fā)現(xiàn)挖掘結(jié)果不符合業(yè)務(wù)需求,則需要重新選擇數(shù)據(jù)或采用其他挖掘算法。

        隨著研究的不斷深入,各種挖掘算法不斷被完善和優(yōu)化。根據(jù)研究內(nèi)容,現(xiàn)只對決策樹、遺傳算法以及單神經(jīng)元3種典型的分類方法進行分析對比。

        1.1 決策樹算法

        決策樹(DT)是一種類似流程圖的樹形結(jié)構(gòu),由若干分支和結(jié)點組成,節(jié)點表示某個屬性的測試,分支代表每個測試的結(jié)果,根節(jié)點與葉結(jié)點之間的路徑就是一條分類規(guī)則[8]。決策樹算法的預(yù)測過程一般分兩個階段:① 利用訓練集建立并進化一棵決策樹;② 測試各節(jié)點的屬性值,對決策樹進行檢驗、校正,例如圖2是預(yù)測客戶信用風險的流程框圖。

        圖2 決策樹算法舉例

        1.2 遺傳算法

        遺傳算法(GA)是根據(jù)達爾文優(yōu)勝劣汰法則產(chǎn)生的用于模擬生物進化過程的計算模型。遺傳算法具有很強的全局搜尋能力,不受函數(shù)本身連續(xù)性的影響,包括初始化種群、個體評估、執(zhí)行選擇運算、執(zhí)行交叉運算、變異運算等過程[9-10],其流程如圖3所示。

        圖3 遺傳算法流程

        1.3 人工神經(jīng)網(wǎng)絡(luò)算法

        人工神經(jīng)元(ANN)是通過模擬人腦功能而提出來的一種算法,具有很強的逼近功能,用于表示從多輸入到單輸出的映射關(guān)系,如圖4所示。

        若把wji作為輸入量所對應(yīng)的權(quán)重值,神經(jīng)元的閾值為θj,則輸出Rj的表達式為:

        (1)

        神經(jīng)網(wǎng)絡(luò)的訓練學習指按一定的規(guī)則自動調(diào)整神經(jīng)元之間的連接闕值,尋找最佳的目標函數(shù),并可根據(jù)外部條件變化自動調(diào)整的過程[11-13],如圖5所示。

        圖4 人工神經(jīng)元模型

        圖5 神經(jīng)網(wǎng)絡(luò)的訓練過程

        2 基于多算法組合模型的客戶流失預(yù)測

        電信企業(yè)運營過程中的流失客戶可以分成兩種類型:一種是因為企業(yè)之間的競爭、套餐變更以及服務(wù)質(zhì)量等因素引起的主動客戶流失。另一種是由于話費欺詐、惡意停機等因素引起的被動客戶流失,前者的一般形式為主動解除或變更合同,后者的一般形式為欠費停機等形式的賬戶休眠[14]??蛻袅魇шP(guān)系到通信運營企業(yè)的利潤收入以及生活空間,如何建立有效客戶流失預(yù)測模型是判斷客戶是否有流失傾向的關(guān)鍵。

        2.1 預(yù)測模型

        在數(shù)據(jù)挖掘軟件平臺Clementine 中建立基于決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)的預(yù)測模型。構(gòu)造Lagrange函數(shù)[15]:

        α3zn-zn)2+ξ(α1xn+α2yn+α3zn-1)

        (2)

        式中:xn,yn,zn表示3種單一模型的的預(yù)測值(i=1,2,3);α1,α2,α3表示組合模型的權(quán)重系數(shù);λ為Lagrange 算子。

        利用多組合模型進行數(shù)據(jù)挖掘的步驟:

        (1) 預(yù)處理。將原始數(shù)據(jù)集進行分區(qū),數(shù)據(jù)樣本和測試樣本的劃分比例為6∶4;

        (2) 構(gòu)建單一預(yù)測模型。分別用決策樹C5.0、遺傳算法和人工神經(jīng)網(wǎng)絡(luò)對訓練集進行建模;

        (3) 預(yù)測。將測試集中的樣本數(shù)據(jù)帶入單一模型中進行預(yù)測,得到預(yù)測分析結(jié)果;

        (4) 構(gòu)建組合預(yù)測模型。將單一模型的預(yù)測結(jié)果帶入Lagrange函數(shù),得到組合預(yù)測模型的權(quán)重系數(shù),并建立組合預(yù)測模型;

        (5) 計算預(yù)測結(jié)果。對Lagrange函數(shù)求解,得到組合模型預(yù)測結(jié)果。

        基于Lagrange 函數(shù)的組合模型預(yù)測流程見圖6。

        2.2 模型評價

        分別采用單一算法模型與多算法組合模型對10 000個客戶信息進行預(yù)測分析,如表1所示,其中“0”代表客戶沒有流失,“1”代表客戶已流失或有流失傾向。

        為進一步分析不同模型的預(yù)測結(jié)果,對表1結(jié)果進行統(tǒng)計分析,得到各模型算法的預(yù)測命中率。設(shè)每個客戶月均消費為人民幣35元,分別得到不同模型預(yù)測客戶流失的數(shù)量及誤判損失,結(jié)果如表2所示。

        評價結(jié)果表明,本研究所設(shè)計的基于Lagrange的多算法組合預(yù)測模型集合了各單一模型的預(yù)測優(yōu)勢,大大提高了客戶流失的預(yù)測命中率,達到91%左右,比單一模型的預(yù)測命中率有了大幅提升,由組合模型所造成的誤判損失也將大大降低。由此可見,本研究所設(shè)計的多算法組合模型預(yù)測效果好,可有效預(yù)測客戶流失和流失傾向,滿足企業(yè)需求,達到預(yù)期目的。

        表1 不同模型算法的客戶流失預(yù)測結(jié)果

        表2 流失量預(yù)測及誤判率對比結(jié)果

        3 結(jié) 語

        針對電信行業(yè)無法準確預(yù)測客戶流失的問題,把數(shù)據(jù)挖掘技術(shù)應(yīng)用于客戶關(guān)系管理過程,根據(jù)單一預(yù)測模型的特點和缺陷,將決策樹、遺傳算法以及人工神經(jīng)網(wǎng)絡(luò)算法融于一體,建立基于Lagrange 函數(shù)的多算法組合預(yù)測模型。同時,用所建模型對某電信企業(yè)客戶流失情況進行預(yù)測,根據(jù)客戶信息、消費行為等歷史數(shù)據(jù)判斷客戶流失的可能性。結(jié)果表明,與單一預(yù)測模型相比,多算法組合預(yù)測模型對電信客戶流失預(yù)測命中率大幅提高,能有效獲取客戶流失傾向,為運營商采取相應(yīng)措施提供理論依據(jù),從而使電信企業(yè)營銷方案的制定更具針對性,避免因營銷手段的盲目性造成成本浪費。

        [1] 張曉濱,高 峰,黃 慧.基于客戶細分的客戶流失預(yù)測研究[J]. 計算機工程與設(shè)計,2009,30 (24):5755-5758.

        [2] 王夢雪. 數(shù)據(jù)挖掘綜述[J]. 軟件導刊,2013, 12 (10):135-137.

        [3] 王觀玉, 郭 勇.支持向量機在電信客戶流失預(yù)測中的應(yīng)用研究[J]. 計算機仿真,2011, 28 (4):115-118.

        [4] 尹 婷, 覃錫忠, 賈振紅,等. 基于WEKA 的客戶流失預(yù)測研究[J]. 激光雜志,2013,34(5):44-46.

        [5] 郭俊芳, 周生寶. 基于聯(lián)合決策樹的客戶流失預(yù)測模型設(shè)計[J].計算機與現(xiàn)代化,2010 (5): 5-7.

        [6] 劉志超,王 雷,谷 壘,等.基于數(shù)據(jù)挖掘技術(shù)的客戶流失預(yù)警模型[J]. 微計算機信息,2011, 27 (2):176-177.

        [7] 潘大勝,屈遲文. 一種改進ID3型決策樹挖掘算法[J]. 華僑大學學報(自然科學版),2016,37 (1):71-73.

        [8] 蔡中民.PSO 遺傳算法進行數(shù)據(jù)挖掘的策略構(gòu)建和分析[J].科技通報,2013, 29 (3):176-177.

        [9] 余小雙.遺傳算法及其在數(shù)據(jù)挖掘中的應(yīng)用研究[D]. 武漢:武漢紡織大學, 2010.

        [10] 童翔威.RBF神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用研究研究[D].長沙:中南林業(yè)科技大學,2009.

        [11] 儲 兵,吳 陳,楊習貝. 基于RBF 神經(jīng)網(wǎng)絡(luò)與粗糙集的數(shù)據(jù)挖掘算法[J]. 計算機技術(shù)與發(fā)展,2013, 23( 7):87-91.

        [12] 常 凱. 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘分類算法比較和分析研究[D]. 合肥:安徽大學,2014.

        [13] HE Cong, REN Li-hong, DING Yong-sheng. Performance prediction of carbon fiber protofilament based on SAGA-SVR [J]. Journal of Donghua University, 2014,31(2):92-97.

        [14] 王振環(huán).基于數(shù)據(jù)挖掘技術(shù)的電信領(lǐng)域客戶流失預(yù)測系統(tǒng)的研究與實現(xiàn)[D].長春:吉林大學,2006.

        [15] 劉光遠, 苑森淼, 董立巖. 數(shù)據(jù)挖掘方法在用戶流失預(yù)測分析中的應(yīng)用[J]. 計算機工程與應(yīng)用,2007, 43( 9):154-156.

        猜你喜歡
        決策樹數(shù)據(jù)挖掘遺傳算法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于自適應(yīng)遺傳算法的CSAMT一維反演
        一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于遺傳算法和LS-SVM的財務(wù)危機預(yù)測
        基于決策樹的出租車乘客出行目的識別
        基于改進的遺傳算法的模糊聚類算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        日韩女优av一区二区| 久久99国产亚洲高清| 国产成人综合久久精品推荐免费 | 99久久国产精品免费热| 人妻丝袜中文无码av影音先锋专区| 人妻夜夜爽天天爽| 久久天天躁狠狠躁夜夜爽| 日本老年人精品久久中文字幕| 白色白色白色在线观看视频| 国产精品一区二区三区免费视频| 亚洲熟妇自偷自拍另欧美| 大地资源在线播放观看mv| 欧美日本国产亚洲网站免费一区二区 | 人妻夜夜爽天天爽三区麻豆av| 久久人妻少妇嫩草av| 极品粉嫩小泬无遮挡20p| 97中文字幕在线观看| 国产女人高潮的av毛片| 亚洲一区二区三区99| 国产精品亚洲lv粉色| 国产麻无矿码直接观看| 精品黄色av一区二区三区| 在线亚洲日本一区二区| 久久影院午夜理论片无码| 国产精品无码av一区二区三区| 欧美日韩国产成人综合在线影院 | 国产精品后入内射日本在线观看| 久久久久无码中文字幕| 免费人成黄页网站在线一区二区| 亚洲国产精品综合久久网络| 美女又色又爽视频免费| 中文字幕有码一区二区三区| 国产精品一区二区三区成人| 国精产品一区一区三区有限在线| 精品国产一区av天美传媒| 五月婷婷激情六月| 人妖与人妖免费黄色片| 国产极品美女高潮无套| 亚洲av日韩综合一区在线观看| 在线观看av国产自拍| 视频一区二区三区国产|