[摘 要] 文章在給出數(shù)據(jù)挖掘概念的基礎(chǔ)上,指出數(shù)據(jù)挖掘的三個(gè)主要階段,提出了數(shù)據(jù)挖掘的典型統(tǒng)計(jì)分析方法與常用的技術(shù),并指出其在商業(yè)領(lǐng)域中的應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘;過程;分析方法;商業(yè)應(yīng)用
[中圖分類號(hào)] F270.7[文獻(xiàn)標(biāo)識(shí)碼] A[文章編號(hào)] 1673-0194(2006)01-0008-02
1引言
目前,數(shù)據(jù)挖掘是國際上數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一。越來越多的企業(yè)開始利用數(shù)據(jù)挖掘技術(shù)來分析公司的數(shù)據(jù),以輔助決策。數(shù)據(jù)挖掘正逐漸成為他們在市場競爭中立于不敗之地的法寶。
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出有效的、新穎的和潛在有用的知識(shí)的過程。其目的是提高市場決策能力、檢測異常模式、在過去的經(jīng)驗(yàn)基礎(chǔ)上預(yù)言未來趨勢等。在傳統(tǒng)的決策支持系統(tǒng)中,知識(shí)庫中的知識(shí)和規(guī)則是由專家或程序人員建立的,是由外部輸入的,而數(shù)據(jù)挖掘的任務(wù)是從大量數(shù)據(jù)中發(fā)現(xiàn)尚未被發(fā)現(xiàn)的知識(shí),是從系統(tǒng)內(nèi)部自動(dòng)獲取知識(shí)的過程。對于那些決策者明確了解的信息,可以用查詢、聯(lián)機(jī)分析處理或其他工具直接獲取。而另外一些隱藏在大量數(shù)據(jù)中的關(guān)系、趨勢等信息,就需要數(shù)據(jù)挖掘技術(shù)來完成。
2數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘過程一般由三個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋。知識(shí)的發(fā)現(xiàn)可以描述為這三個(gè)階段的反復(fù)過程。
2.1數(shù)據(jù)準(zhǔn)備
這個(gè)階段又可進(jìn)一步分成三個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。
2.2數(shù)據(jù)挖掘
這個(gè)階段進(jìn)行實(shí)際的挖掘操作。主要包括:(1)決定如何產(chǎn)生假設(shè),是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產(chǎn)生假設(shè),還是用戶自己對于數(shù)據(jù)庫中可能包含的知識(shí)提出假設(shè)。前一種稱為發(fā)現(xiàn)型的數(shù)據(jù)挖掘;后一種稱為驗(yàn)證型的數(shù)據(jù)挖掘。(2)選擇合適的工具。(3)挖掘知識(shí)的操作。(4)證實(shí)發(fā)現(xiàn)的知識(shí)。
2.3結(jié)果表述和解釋
根據(jù)最終用戶的決策目的對提取的信息進(jìn)行分析,把最有價(jià)值的信息區(qū)分出來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來,還要對信息進(jìn)行過濾處理,如果不能令決策者滿意,需要重復(fù)以上數(shù)
據(jù)挖掘的過程。
3數(shù)據(jù)挖掘典型的分析方法
在實(shí)際應(yīng)用中,數(shù)據(jù)挖掘利用的方法和技術(shù)越多,得出的結(jié)果精確性就越高。因?yàn)?,對于某一種方法或者技術(shù)不適用的問題,其他方法很可能奏效,這主要取決于問題的類型及數(shù)據(jù)的類型和規(guī)模。數(shù)據(jù)挖掘方法有很多種,其中比較典型的有關(guān)聯(lián)分析、序列分析、分類分析和聚類分析四種。
3.1關(guān)聯(lián)分析
關(guān)聯(lián)分析是尋找在同一事件中出現(xiàn)的不同項(xiàng)的關(guān)聯(lián)性。比如,超市中70%的客戶在購買商品A的同時(shí),有90%會(huì)購買B,即關(guān)聯(lián)規(guī)則是A>=B。若超市將商品A和B放在一起銷售,將會(huì)提高它們的銷售量。
在大型數(shù)據(jù)庫中,這種關(guān)聯(lián)規(guī)則是很多的,需要進(jìn)行篩選,一般用“支持度”和“可信度”兩個(gè)閾值來淘汰那些無用的關(guān)聯(lián)規(guī)則。
在本例中,設(shè)關(guān)聯(lián)規(guī)則A>=B的可信度為C,支持度為S,則
C=同時(shí)購買商品A和B的交易數(shù)/購買了商品A的交易數(shù)
S=同時(shí)購買商品A和B的交易數(shù)/總交易數(shù)
本例的關(guān)聯(lián)規(guī)則A=>B的可信度為C=90%,支持度S=70%。
3.2序列分析
序列分析與關(guān)聯(lián)規(guī)則類似,但它尋找的是事件之間時(shí)間上的關(guān)聯(lián)性。比如,超市中60%的客戶在購買商品A后,隔一段時(shí)間,其中有80%會(huì)再購買B,即序列模式是A>=B。顯然,通過序列模式分析,超市可以發(fā)現(xiàn)客戶潛在的購買模式。
在序列模式分析中,同樣需要用“支持度”和“可信度”兩個(gè)閾值來淘汰那些無用的序列模式。
在本例中,設(shè)序列A>=B的可信度為C,支持度為S,則
C=先購買商品A再購買商品B的客戶數(shù)/先購買了商品A的客戶數(shù)
S=先購買商品A再購買商品B的客戶數(shù)/總客戶數(shù)
本例的序列模式A=>B的可信度為C=80%,支持度S=60%。
3.3分類分析
設(shè)有一個(gè)數(shù)據(jù)庫和一組具有不同特征的類別(標(biāo)記),且該數(shù)據(jù)庫中的每一個(gè)記錄都已經(jīng)分好類,即數(shù)據(jù)庫中的每一個(gè)記錄都賦予一個(gè)類別的標(biāo)記,我們把這樣的數(shù)據(jù)庫稱為訓(xùn)練集。分類分析就是通過分析訓(xùn)練集中的數(shù)據(jù)而求得分類規(guī)則,然后用這個(gè)分類規(guī)則對其他數(shù)據(jù)庫中的記錄進(jìn)行分類。
例如,信用卡公司的數(shù)據(jù)庫中保存著各持卡人的記錄,公司根據(jù)信譽(yù)程度,已將持卡人記錄分成三類:良好、一般、較差,并且類別標(biāo)記已賦予了各個(gè)記錄。分類分析就是該數(shù)據(jù)庫的這些記錄,對每個(gè)信譽(yù)等級(jí)做出準(zhǔn)確描述,如“信譽(yù)良好的客戶是指那些年收入在5萬元以上,年齡在40~50歲之間的人士”,然后根據(jù)分類規(guī)則對其他相同屬性的數(shù)據(jù)庫記錄進(jìn)行分類。目前主要的分類算法有決策樹分類方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和粗集方法等。
3.4聚類分析
與分類分析不同,聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道。聚類分析就是通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理劃分記錄集合,確定每個(gè)記錄所在的類別。它所采用的分類規(guī)則是由聚類分析工具決定的,采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果。聚類分析的算法很多,其中包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模糊聚類方法等。
4數(shù)據(jù)挖掘中的智能技術(shù)
數(shù)據(jù)挖掘并不是一項(xiàng)全新的技術(shù)。實(shí)際上,數(shù)據(jù)挖掘的技術(shù)是以人工智能為基礎(chǔ),并利用其他技術(shù),如多元統(tǒng)計(jì)分析方法等而形成的。因?yàn)閿?shù)據(jù)挖掘把數(shù)據(jù)庫作為主要研究對象,因此,隨著數(shù)據(jù)挖掘研究逐步走向深入,數(shù)據(jù)挖掘的研究已經(jīng)形成了三個(gè)強(qiáng)大的技術(shù)支柱:數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計(jì)。最常用的數(shù)據(jù)挖掘技術(shù)是:
4.1人工神經(jīng)網(wǎng)絡(luò)
它從結(jié)構(gòu)上模仿生物神經(jīng)網(wǎng)絡(luò),具有對非線性數(shù)據(jù)的快速擬合能力,是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型??梢酝瓿煞诸悺⒕垲?、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。
4.2決策樹
這是一種將一個(gè)訓(xùn)練集劃分成一組規(guī)則的技術(shù)。它由節(jié)點(diǎn)分枝組成,起始點(diǎn)稱為根節(jié)點(diǎn)。訓(xùn)練集被分成兩個(gè)或更多的子集,這取決于試驗(yàn)的結(jié)果。最終結(jié)果是一組包括所有可能的規(guī)則。由于它是以樹狀結(jié)構(gòu)的圖形來表示規(guī)則的。因此容易理解,已成為常用的工具。決策樹的主要算法有CHAID、CART、ID3、C4.5等。這些算法都適合于分類問題,但當(dāng)決策樹在信息缺乏完整的情況下使用時(shí),這就意味著在訓(xùn)練集中未把大量主要潛在的規(guī)則考慮在內(nèi),因而這種方法可能遺漏未發(fā)現(xiàn)的有價(jià)值的規(guī)則。
4.3遺傳算法
這是一種新的優(yōu)化技術(shù),基于生物進(jìn)化的概念設(shè)計(jì)了一系列的過程來達(dá)到優(yōu)化的目的。這些過程有基因組合、交叉、變異和自然選擇。為了應(yīng)用遺傳算法,需要把數(shù)據(jù)挖掘任務(wù)表達(dá)為一種搜索問題而發(fā)揮遺傳算法的優(yōu)化搜索能力。
4.4簡單貝葉斯
這是一種對無條件數(shù)據(jù)限制其輸入的技術(shù)。它僅適用于分類問題(這里的“簡單”是假定變量是獨(dú)立的)。該技術(shù)是基于這樣一個(gè)概念:把在訓(xùn)練數(shù)據(jù)中觀測到的頻率作為條件概率。
4.4模糊和粗集方法
應(yīng)用模糊和粗集理論進(jìn)行數(shù)據(jù)查詢排序和分類也是數(shù)據(jù)挖掘的重要的方法。
5數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)的潛在應(yīng)用是十分廣泛的,從政府管理決策、商業(yè)經(jīng)營、科學(xué)研究和工業(yè)企業(yè)決策支持等各個(gè)領(lǐng)域都可以找到數(shù)據(jù)挖掘技術(shù)的用武之地。下面我們舉出數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用。
例如,在銷售領(lǐng)域中,零售商常常想通過建立數(shù)據(jù)挖掘模型,來回答與下列問題類似的一系列問題:(1)在一個(gè)較長的時(shí)期內(nèi)客戶可能花費(fèi)多少錢?(2)客戶某種購買行為發(fā)生的頻度是多少?(3)贏得某些客戶群體的最佳廣告類型是什么?(4)贏得客戶的最有效的廣告媒體是什么?(5)發(fā)送郵件的最佳時(shí)間是什么?
商家已開始關(guān)注這樣一些問題:(1)購買特定商品的是哪些類型的客戶?(2)是什么因素決定銷往某一地區(qū)的產(chǎn)品是最佳搭配?(3)最新的商品趨勢是什么?(4)什么時(shí)候會(huì)出現(xiàn)商品飽和?(5)客戶最可能的購買時(shí)機(jī)是什么?(6)哪些類型的產(chǎn)品可進(jìn)行捆綁銷售?
在討論客戶收益時(shí),客戶希望建立模型來回答這樣一些問題:(1)零售商是如何留住有利可圖的客戶的?(2)購買商品的重要客戶群體是什么?
現(xiàn)在許多商家已意識(shí)到,客戶的有效識(shí)別,對成功的零售商來說,有著至關(guān)重要的作用,而且越來越重要。數(shù)據(jù)挖掘可以輔助建立模型并識(shí)別出對企業(yè)最有價(jià)值的客戶所具有的特征,以揭示標(biāo)準(zhǔn)查詢方法所不能發(fā)現(xiàn)的隱含知識(shí)。
主要參考文獻(xiàn)
[1] 王珊.數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理[M].北京:科學(xué)出版社,1998.
[2] 陳文偉.決策支持系統(tǒng)及其開發(fā)[M].北京:清華大學(xué)出版社,2000.
[3] 格羅思,侯迪譯.數(shù)據(jù)挖掘——構(gòu)筑企業(yè)的競爭優(yōu)勢[M].西安:西安交通大學(xué)出版社,2001.