遼寧對(duì)外經(jīng)貿(mào)學(xué)院 欒 陽(yáng)
在當(dāng)今的人工智能領(lǐng)域之中,數(shù)據(jù)挖掘技術(shù)被稱(chēng)為知識(shí)發(fā)現(xiàn)或數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD),也有人把數(shù)據(jù)挖掘技術(shù)視為是從數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)基本步驟。數(shù)據(jù)挖掘技術(shù)是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識(shí)的非平凡過(guò)程,因此它與數(shù)據(jù)倉(cāng)庫(kù)有著密切的聯(lián)系。
圖1 數(shù)據(jù)挖掘系統(tǒng)原型
數(shù)據(jù)挖掘的分析方法大致有兩大種類(lèi)。一類(lèi)是直接數(shù)據(jù)挖掘,其目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)一個(gè)特定的變量(可以理解成數(shù)據(jù)庫(kù)中表的屬性,即列)進(jìn)行描述;另一類(lèi)是間接數(shù)據(jù)挖掘,其目標(biāo)中沒(méi)有選出某一具體的變量來(lái)用模型進(jìn)行描述,而是在所有的變量中建立起某種關(guān)系。上面的分類(lèi)、估值、預(yù)言屬于直接數(shù)據(jù)挖掘,后三種屬于間接數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的分析方法大致可分為以下幾種:
分類(lèi)(Classification)。從數(shù)據(jù)中選出已經(jīng)分好類(lèi)的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類(lèi)的技術(shù),建立分類(lèi)模型,對(duì)于沒(méi)有分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)。
例子:信用卡申請(qǐng)者,分類(lèi)為低、中、高風(fēng)險(xiǎn)。
估值(Estimation)。估值與分類(lèi)十分相似,不同之處在于,分類(lèi)描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類(lèi)的類(lèi)別是確定數(shù)目的,估值的量是不確定的。
例子:
a.根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭孩子個(gè)數(shù)。
b.根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭的收入。
c.估計(jì)real estate的價(jià)值。
預(yù)言(Prediction)。預(yù)言是通過(guò)分類(lèi)或估值起作用的。及先通過(guò)分類(lèi)或估值得出模型,然后再用該模型對(duì)未知變量的預(yù)言。
例子:海南航空引入領(lǐng)先的數(shù)據(jù)挖掘工具馬克威分析系統(tǒng),分析客流、燃油等變化趨勢(shì),以航線(xiàn)收益為主題進(jìn)行數(shù)據(jù)挖掘,制定精細(xì)的銷(xiāo)售策略,有效提高了企業(yè)收益。
相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)。決定哪些事情將一起發(fā)生。
例子:
a.超市中客戶(hù)在購(gòu)買(mǎi)A的同時(shí),經(jīng)常會(huì)購(gòu)買(mǎi)B,即A=>B(關(guān)聯(lián)規(guī)則)。
b.客戶(hù)在購(gòu)買(mǎi)A后,隔一段時(shí)間,會(huì)購(gòu)買(mǎi)B(序列分析)。
聚集(Clustering)。聚集是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。聚集和分類(lèi)的區(qū)別是聚集不依賴(lài)于預(yù)先定義好的類(lèi),不需要訓(xùn)練集。
例子:
a.一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病。
b.租VCD類(lèi)型不相似的客戶(hù)聚集,可能暗示成員屬于不同的亞文化群。
描述和可視化(Description and Visualization)。是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。
在技術(shù)方面,根據(jù)數(shù)據(jù)挖掘的工作過(guò)程可分為數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)。
數(shù)據(jù)的抽?。簲?shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。數(shù)據(jù)的存儲(chǔ)和管理:數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)的展現(xiàn):在數(shù)據(jù)展現(xiàn)方面主要的方式有:
查詢(xún):實(shí)現(xiàn)預(yù)定義查詢(xún)、動(dòng)態(tài)查詢(xún)、OLAP查詢(xún)與決策支持智能查詢(xún)。
報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表。
可視化:用易于理解的點(diǎn)線(xiàn)圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫(huà)技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系。
統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析。
挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。
首先應(yīng)識(shí)別潛在客戶(hù),然后將他們轉(zhuǎn)化為客戶(hù)這時(shí)可以采用DM中的分類(lèi)方法。首先是通過(guò)對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類(lèi)別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類(lèi)別與學(xué)習(xí)所獲模型的預(yù)測(cè)類(lèi)別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來(lái)對(duì)象進(jìn)行分類(lèi)。客戶(hù)保留則是留住老顧客,防止客戶(hù)流失的過(guò)程。對(duì)企業(yè)來(lái)說(shuō),獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶(hù)的過(guò)程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。
客戶(hù)的忠誠(chéng)意味著客戶(hù)不斷地購(gòu)買(mǎi)公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶(hù)忠誠(chéng)度分析中主要是對(duì)客戶(hù)持久性,牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過(guò)會(huì)員的消費(fèi)信息,如最近一次消費(fèi),消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠(chéng)度的變化,據(jù)此對(duì)價(jià)格、商品的種類(lèi)以及銷(xiāo)售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。
數(shù)據(jù)挖掘技術(shù)可以用來(lái)分析和預(yù)測(cè)不同市場(chǎng)活動(dòng)情況下客戶(hù)盈利能力的變化,幫助企業(yè)制定合適的市場(chǎng)策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶(hù)的資料進(jìn)行分析。找出對(duì)提高企業(yè)盈利能力最重要的客戶(hù)。進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營(yíng)銷(xiāo)。
隨著社會(huì)的不斷進(jìn)步,信息技術(shù)的不斷發(fā)展,企業(yè)將面臨越來(lái)越多的挑戰(zhàn),而傳統(tǒng)的訂單管理系統(tǒng)已經(jīng)不能滿(mǎn)足現(xiàn)在飛速發(fā)展的社會(huì)的需要。在這種壓力之下,各個(gè)企業(yè)都希望有一個(gè)更好的系統(tǒng)來(lái)對(duì)企業(yè)的客戶(hù)和訂單進(jìn)行管理,并且盡可能的發(fā)揮出數(shù)據(jù)的有用價(jià)值。從而,我們的基于數(shù)據(jù)挖掘技術(shù)的客戶(hù)訂單管理系統(tǒng)應(yīng)運(yùn)而生。作為一個(gè)客戶(hù)訂單管理系統(tǒng),它首先要有客戶(hù)管理模塊來(lái)對(duì)企業(yè)的客戶(hù)進(jìn)行管理,還需要一個(gè)訂單管理模塊來(lái)對(duì)客戶(hù)下的訂單進(jìn)行管理。在這基礎(chǔ)上,系統(tǒng)中數(shù)據(jù)挖掘模塊,來(lái)對(duì)企業(yè)的客戶(hù)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從未知的數(shù)據(jù)當(dāng)中發(fā)掘出有用的數(shù)據(jù),從而盡可能的提高企業(yè)在當(dāng)今社會(huì)中的生存能力。
在系統(tǒng)中包含了四個(gè)功能模塊,它們分別是:客戶(hù)管理模塊、訂單管理模塊、數(shù)據(jù)挖掘模塊和系統(tǒng)管理模塊,以及密碼修改、軟件鎖定和退出系統(tǒng)三個(gè)快捷按鈕。
其中文件菜單下包括數(shù)據(jù)庫(kù)連接、注銷(xiāo)和退出三個(gè)子菜單;客戶(hù)管理菜單下包括客戶(hù)信息的添加、修改、查詢(xún)和刪除四個(gè)子菜單;訂單管理菜單下包括訂單的查詢(xún)、添加、修改、刪除和維護(hù)五個(gè)子菜單;系統(tǒng)管理菜單下面包括數(shù)據(jù)導(dǎo)出和用戶(hù)管理兩個(gè)子菜單;密碼修改、軟件鎖定和退出系統(tǒng)三個(gè)按鈕分別可以進(jìn)行當(dāng)前用戶(hù)的密碼修改,軟件的臨時(shí)鎖定和退出系統(tǒng)。
系統(tǒng)利用數(shù)據(jù)挖掘進(jìn)行客戶(hù)盈利能力分析和預(yù)測(cè),所采用的工具是著名的SAS Enterprise Miner 9.2,這是一種在我國(guó)的企業(yè)中廣泛使用的數(shù)據(jù)挖掘工具。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照“抽樣—探索—轉(zhuǎn)換—建?!u(píng)估”的方法進(jìn)行數(shù)據(jù)挖掘??梢耘cSAS數(shù)據(jù)倉(cāng)庫(kù)和OLAP集成,實(shí)現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的“端到端”知識(shí)發(fā)現(xiàn)。SAS軟件是模塊式結(jié)構(gòu),最常用的3個(gè)模塊分別是SAS/BASE(基礎(chǔ))、SAS/STAT(統(tǒng)計(jì))和SAS/GRAPH(圖形),還有SAS/ETS(預(yù)測(cè))、SAS/IML(矩陣運(yùn)算)和SAS/QC(質(zhì)量控制)等約20個(gè)模塊。這些模塊可單獨(dú)使用、也可互相配合起來(lái)使用。
數(shù)據(jù)導(dǎo)入:常用的導(dǎo)入和導(dǎo)出數(shù)據(jù)格式包括:文本文件(txt格式)、純數(shù)據(jù)文件(dat格式)、EXCEL文件(xls格式)、ACCESS文件(mdb格式)。
數(shù)據(jù)分析:最簡(jiǎn)單的SAS程序由一個(gè)SAS數(shù)據(jù)步(SAS DATA STEP)和一個(gè)SAS過(guò)程步(SAS PROCEDURESTEP)兩部分組成。數(shù)據(jù)步以DATA語(yǔ)句開(kāi)頭,其作用是建立SAS數(shù)據(jù)集(SAS DATA SET)。具體地說(shuō),就是建立起變量與數(shù)據(jù)之間的聯(lián)系,使數(shù)據(jù)能方便地被SAS過(guò)程所利用;過(guò)程步以PROC語(yǔ)句開(kāi)頭,其作用是激活SAS過(guò)程。
數(shù)據(jù)導(dǎo)出:分析完成后,選擇文件/導(dǎo)出數(shù)據(jù),輸入要導(dǎo)出的文件邏輯名稱(chēng)和數(shù)據(jù)文件名稱(chēng)后選擇導(dǎo)出的格式,下一步輸入導(dǎo)出的路徑和文件的名稱(chēng)。最后進(jìn)入SAS Wizard界面,對(duì)輸出的table命名,點(diǎn)擊finish完成。通過(guò)“客戶(hù)分析”把SAS的分析結(jié)果導(dǎo)入到該系統(tǒng)中,客戶(hù)分析界面如圖2所示。
圖2 客戶(hù)分析圖
近年來(lái),以互聯(lián)網(wǎng)為代表的計(jì)算機(jī)信息技術(shù)的迅速普及,使人們的生活條件和社會(huì)環(huán)境發(fā)生了巨大的變化。大量的數(shù)據(jù)庫(kù)被廣泛的應(yīng)用于企業(yè)管理,科學(xué)研究,電子商務(wù),金融預(yù)測(cè),商品零售,醫(yī)藥化工,政府辦公以及工程開(kāi)發(fā)等社會(huì)生活的各個(gè)領(lǐng)域,并且這一趨勢(shì)仍將繼續(xù)。
運(yùn)用數(shù)據(jù)挖掘技術(shù)和基于客戶(hù)訂單管理的相關(guān)理論,建立基于數(shù)據(jù)挖掘技術(shù)的客戶(hù)訂單管理框架,在客戶(hù)訂單管理系統(tǒng)的實(shí)現(xiàn)中融入數(shù)據(jù)挖掘技術(shù),使得系統(tǒng)在對(duì)數(shù)據(jù)訪(fǎng)問(wèn)、數(shù)據(jù)分析和制定決策方面為用戶(hù)提供更強(qiáng)大的服務(wù),提高系統(tǒng)的可用性。鑒于客戶(hù)訂單系統(tǒng)解決方案建立在企業(yè)原有數(shù)據(jù)庫(kù)系統(tǒng)之上,通過(guò)分析各種數(shù)據(jù)之間的關(guān)聯(lián),針對(duì)不同的客戶(hù)建立不同的聯(lián)系,最大化挖掘訂單價(jià)值,為企業(yè)管理層提供正確的決策支持,提升企業(yè)的競(jìng)爭(zhēng)能力和盈利能力。因此,客戶(hù)訂單管理系統(tǒng)的建設(shè)對(duì)于企業(yè)的發(fā)展有重大意義。充分利用企業(yè)的訂單數(shù)據(jù)資源,與數(shù)據(jù)挖掘技術(shù)相結(jié)合,從大量的數(shù)據(jù)中抽取有用的商業(yè)信息,實(shí)現(xiàn)經(jīng)營(yíng)管理中的決策支持,從而提高客戶(hù)訂單管理系統(tǒng)的時(shí)效性。
[1]金周銀.服裝企業(yè)度身定制的客戶(hù)訂單管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].工業(yè)控制計(jì)算機(jī),2010(3):15-18.
[2]段曉華.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)客戶(hù)關(guān)系管理中的應(yīng)用研究[J].湖南文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2010(2):35-38.
[3]戴宏欽.基于CRM的訂單管理系統(tǒng)[J].電腦開(kāi)發(fā)與應(yīng)用,2008(11):46-48.
[4]季明.客戶(hù)訂單項(xiàng)目的工作結(jié)構(gòu)及企業(yè)組織結(jié)構(gòu)[J].工業(yè)工程與管理.2007(增刊):34-37.
[5]DaimlerChrysler Corporation.Cross Industry Standard Process for Data Mining,2007(7):18-22.