【摘要】本文闡述了研究數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理(CRM)中所起的核心作用、對(duì)我國企業(yè)成功實(shí)施CRM戰(zhàn)略、提高競爭能力的意義及數(shù)據(jù)挖掘技術(shù)流程、標(biāo)準(zhǔn)化模型。
【關(guān)鍵詞】客戶關(guān)系管理;數(shù)據(jù)挖掘;流程;模型
隨著市場經(jīng)濟(jì)的發(fā)展,企業(yè)將面臨強(qiáng)大的競爭壓力,企業(yè)的產(chǎn)品越來越趨向于同質(zhì)化,僅僅依靠產(chǎn)品本身很難在日趨激烈的競爭中取勝,所以愈來愈多的先進(jìn)企業(yè)將重點(diǎn)從以產(chǎn)品為中心向以客戶為中心的新型商業(yè)模式轉(zhuǎn)移,客戶關(guān)系管理(CRM)也就應(yīng)運(yùn)而生??蛻絷P(guān)系管理(Customer Relationship Management)簡稱CRM,是由美國的Gartner Group me公司于1999年首先提出的。CRM是一種以客戶為中心的經(jīng)營策略,它以信息技術(shù)為手段,并對(duì)工作流程進(jìn)行重組,以賦予企業(yè)更完善的客戶交流能力,最大化客戶的收益率。CRM就是企業(yè)為了保持競爭力,采取的面向客戶、客戶驅(qū)動(dòng)和以客戶為中心的發(fā)展策略。而企業(yè)在與客戶交互過程中積累下來的各種客戶數(shù)據(jù)恰恰是反映客戶特征和需求的最佳載體。當(dāng)今許多企業(yè)的數(shù)據(jù)庫或數(shù)據(jù)倉庫中都搜集和存儲(chǔ)了大量關(guān)于客戶的寶貴數(shù)據(jù),這些數(shù)據(jù)涵蓋了從客戶基本數(shù)據(jù)、購買記錄及客戶反饋的個(gè)個(gè)環(huán)節(jié)。充分利用這些數(shù)據(jù),深入分析、挖掘隱含在這些數(shù)據(jù)中的有用信息,將有助于企業(yè)更好地管理客戶關(guān)系,實(shí)現(xiàn)CRM的功能和目標(biāo)。然而,由于缺乏在大量數(shù)據(jù)中發(fā)現(xiàn)深層次信息的能力,許多企業(yè)對(duì)于這些數(shù)據(jù)的利用還只是停留在基礎(chǔ)層的瀏覽、檢索、查詢和應(yīng)用層的繼承、組合、整理等方面,而無法將這些數(shù)據(jù)轉(zhuǎn)化為更加有用的知識(shí)。因此,如何更加有效地管理企業(yè)數(shù)據(jù)庫中快速增長的海量數(shù)據(jù),將數(shù)據(jù)資源的利用提高到知識(shí)創(chuàng)新的高級(jí)階段,已經(jīng)成為企業(yè)當(dāng)前需要迫切解決的問題,數(shù)據(jù)挖掘(Data Mining簡稱DM)技術(shù)的運(yùn)用就可以幫助企業(yè)很好地解決這個(gè)問題。
一、數(shù)據(jù)挖掘的流程
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識(shí)的過程,它可以按照企業(yè)既定的業(yè)務(wù)目標(biāo)自動(dòng)地從數(shù)據(jù)庫中提取出用以輔助企業(yè)決策的相關(guān)模式。數(shù)據(jù)挖掘的流程圖如下:
圖1中各步驟(1)確定業(yè)務(wù)對(duì)象。清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有一盲目性,是不會(huì)成功的。(2)數(shù)據(jù)準(zhǔn)備。一是數(shù)據(jù)的選擇。搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。二是數(shù)據(jù)的預(yù)處理。研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析做準(zhǔn)備。并確定將要進(jìn)行的挖掘操作的類型。三是數(shù)據(jù)的轉(zhuǎn)換。將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對(duì)挖掘算法建立的。建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。(3)數(shù)據(jù)挖掘。對(duì)所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。(4)結(jié)果分析。解釋并評(píng)估結(jié)果,其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。(5)知識(shí)的同化。將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
二、數(shù)據(jù)挖掘流程的模型
數(shù)據(jù)挖掘業(yè)內(nèi),公認(rèn)的兩大模型是SAS的SEMMA和包括SPSS在內(nèi)的行業(yè)協(xié)會(huì)提出的CRISP-DM。SEMMA強(qiáng)調(diào)的是應(yīng)用的方法;CRISP-DM則從方法學(xué)的角度強(qiáng)調(diào)實(shí)施數(shù)據(jù)挖掘項(xiàng)目的方法和步驟。CRISP-DM是站在高處,在講一個(gè)總體大方向;而SEMMA在說具體應(yīng)該如何著手。
1.SEMMA。(1)Sample──數(shù)據(jù)取樣。當(dāng)進(jìn)行數(shù)據(jù)挖掘時(shí),首先要從企業(yè)大量數(shù)據(jù)中取出一個(gè)與企業(yè)要探索問題相關(guān)的樣板數(shù)據(jù)子集。通過數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān),一定要保證取樣數(shù)據(jù)的代表性、真實(shí)性、完整性和有效性,這樣才能通過此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。根據(jù)具體的需求,可以創(chuàng)建訓(xùn)練集、測試集和效驗(yàn)集。(2)Explore──數(shù)據(jù)特征探索、分析和預(yù)處理。當(dāng)用戶拿到了一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到用戶原來設(shè)想的要求,有沒有什么明顯的規(guī)律和趨勢,有沒有出現(xiàn)用戶所從未設(shè)想過的數(shù)據(jù)狀態(tài),各因素之間有什么相關(guān)性,可區(qū)分成怎樣一些類別,這些都是首先要探索的內(nèi)容。(3)Modify──數(shù)據(jù)調(diào)整和技術(shù)選擇。在問題進(jìn)一步明確化的基礎(chǔ)上,用戶可以按照問題的具體要求來審視數(shù)據(jù)集,看它是否適應(yīng)企業(yè)問題的需要。針對(duì)問題的需要,可能要對(duì)數(shù)據(jù)進(jìn)行增刪,也可能按照用戶對(duì)整個(gè)數(shù)據(jù)挖掘過程的新認(rèn)識(shí),組合或者生成一些新的變量,以體現(xiàn)對(duì)狀態(tài)的有效描述。(4)Model──模型的研發(fā)和知識(shí)的發(fā)現(xiàn)。數(shù)理統(tǒng)計(jì)方法是數(shù)據(jù)挖掘工作中最常用的主流技術(shù)手段。應(yīng)用SAS提供的多種分析工具不僅能揭示企業(yè)已有數(shù)據(jù)間的新關(guān)系、隱藏著的規(guī)律性,而且能預(yù)測事件的發(fā)展趨勢。用戶采用哪一種模型,主要取決于數(shù)據(jù)集的特征和用戶要實(shí)現(xiàn)的目標(biāo)。另一方面,數(shù)據(jù)挖掘是一個(gè)反復(fù)的不斷深化的實(shí)踐過程,用戶可在實(shí)踐中選出最適合的模型。(5)Assess──模型和知識(shí)的綜合解釋和評(píng)價(jià)。經(jīng)過以上五個(gè)步驟,用戶將會(huì)得出一系列的分析結(jié)果、模式或模型,常常是對(duì)目標(biāo)問題多側(cè)面的描述。這時(shí),就要能很好地綜合這些規(guī)律性,為企業(yè)提供合理的決策支持信息。
2.CRISP-DM。(1)業(yè)務(wù)理解(Business Understanding)。最初的階段集中在理解項(xiàng)目目標(biāo)和從業(yè)務(wù)的角度理解需求,同時(shí)將這個(gè)知識(shí)轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義和完成目標(biāo)的初步計(jì)劃。(2)數(shù)據(jù)理解(Data Understanding)。數(shù)據(jù)理解階段從初始的數(shù)據(jù)收集開始,通過一些活動(dòng)的處理,目的是熟悉數(shù)據(jù),識(shí)別數(shù)據(jù)的質(zhì)量問題,首次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測引起興趣的子集去形成隱含信息的假設(shè)。(3)數(shù)據(jù)準(zhǔn)備(Data
Preparation)。數(shù)據(jù)準(zhǔn)備階段包括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動(dòng)。這些數(shù)據(jù)將是模型工具的輸入值。這個(gè)階段的任務(wù)有個(gè)能執(zhí)行多次,沒有任何規(guī)定的順序。任務(wù)包括表、記錄和屬性的選擇,以及為模型工具轉(zhuǎn)換和清洗數(shù)據(jù)。(4)建模(Modeling)。在這個(gè)階段,可以選擇和應(yīng)用不同的模型技術(shù),模型參數(shù)被調(diào)整到最佳的數(shù)值。一般,有些技術(shù)可以解決一類相同的數(shù)據(jù)挖掘問題。有些技術(shù)在數(shù)據(jù)形成上有特殊要求,因此需要經(jīng)常跳回到數(shù)據(jù)準(zhǔn)備階段。(5)評(píng)估(Evaluation)。在開始最后部署模型之前,重要的事情是徹底地評(píng)估模型,檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo)。此階段的關(guān)鍵目的是確定是否有重要業(yè)務(wù)問題沒有被充分的考慮。在這個(gè)階段結(jié)束后,一個(gè)數(shù)據(jù)挖掘結(jié)果使用的決定必須達(dá)成。(6)部署(Deployment)。通常,模型的創(chuàng)建不是項(xiàng)目的結(jié)束。模型的作用是從數(shù)據(jù)中找到知識(shí),獲得的知識(shí)需要便于用戶使用的方式重新組織和展現(xiàn)。根據(jù)需求,這個(gè)階段可以產(chǎn)生簡單的報(bào)告,或?qū)崿F(xiàn)一個(gè)比較復(fù)雜的、可重復(fù)的數(shù)據(jù)挖掘過程。
參考文獻(xiàn)
[1]Margaret H.Dunham.數(shù)據(jù)挖掘教程[M].清華大學(xué)出版社,2005
[2]魏兵.?dāng)?shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用研究[D].南京理工大學(xué)碩士.2005
[3]章兢,張小剛.?dāng)?shù)據(jù)挖掘算法及其工程應(yīng)用[M].機(jī)械工業(yè)出版社,2006(6):56~73
[4]趙閃.?dāng)?shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用研究[D].廣東工業(yè)大學(xué)碩士學(xué)位論文.2007
[5]邵兵家,于同奎.客戶關(guān)系管理一理論與實(shí)踐[M].清華大學(xué)出版社,2004
[6]賈月娥.客戶關(guān)系管理趨勢談[J].管理信息化.2003
[7]馬剛,李洪心,楊興凱.客戶關(guān)系管理[M].東北財(cái)經(jīng)大學(xué)出版社,2005
項(xiàng)目課題:本文系佳木斯大學(xué)大學(xué)生科技創(chuàng)新項(xiàng)目課題,課題編碼:Dz2011-097。