[摘要] 數(shù)據(jù)挖掘技術(shù)逐漸成為研究熱點,應(yīng)用也越來越廣泛。本文結(jié)合零售業(yè)中各種應(yīng)用需求,較詳細地分析了針對不同挖掘任務(wù)的數(shù)據(jù)挖掘技術(shù),并對實施中出現(xiàn)的問題進行了闡述,表明了改進挖掘算法和提高計算效率的必要性。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 零售業(yè) 算法
一、引言
當(dāng)美國學(xué)者奈斯伯特驚呼“人類正被大量數(shù)據(jù)所淹沒,而知識則極度匱乏”時,出現(xiàn)于20世紀80年代末的數(shù)據(jù)挖掘技術(shù)讓人們看到了發(fā)現(xiàn)知識的希望。
零售行業(yè)使最早利用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域之一,隨著時代的發(fā)展,傳統(tǒng)報表系統(tǒng)已經(jīng)不能滿足日益增長的業(yè)務(wù)需求了,企業(yè)期待著更好地利用數(shù)據(jù)分析和數(shù)據(jù)挖掘這種新的技術(shù)來獲得知識或洞察力,促使企業(yè)做出更有利的決策,帶來更大的商業(yè)價值。這也成為企業(yè)生存發(fā)展的關(guān)鍵。
二、數(shù)據(jù)挖掘概念
1.什么是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘(DM)是指從大量數(shù)據(jù)中抽取隱含的、不為人知的、有用的信息。有時也把數(shù)據(jù)挖掘等同于數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。
從商業(yè)角度出發(fā),數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
2.數(shù)據(jù)挖掘及知識發(fā)現(xiàn)處理數(shù)據(jù)的一般過程。數(shù)據(jù)清理→數(shù)據(jù)集成→數(shù)據(jù)選擇→數(shù)據(jù)變換→匯總、聚集→數(shù)據(jù)挖掘→模式評估→知識表示
三、零售業(yè)數(shù)據(jù)挖掘的主要技術(shù)分析
數(shù)據(jù)挖掘采用的方法綜合了數(shù)據(jù)庫、人工智能、統(tǒng)計學(xué)、模式識別、機器學(xué)習(xí)、數(shù)據(jù)分析等領(lǐng)域的研究成果。
1.概念/類描述:特征化和區(qū)分。對含有大量數(shù)據(jù)的數(shù)據(jù)集合進行概述性的總結(jié)并獲得簡明、準確的描述。
定性概念描述即數(shù)據(jù)特征化,是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總。
對比概念描述即數(shù)據(jù)區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。目標(biāo)類和對比類由用戶指定,而對應(yīng)的數(shù)據(jù)通過數(shù)據(jù)庫查詢檢索。例如:用戶可能希望將上一年銷售增加10%的A產(chǎn)品與同一時期銷售至少下降20%的B產(chǎn)品進行比較。再如:比較定期購買某種產(chǎn)品的顧客和偶爾購買這種產(chǎn)品的顧客。結(jié)果描述提供顧客比較的一般輪廓,如比較兩類顧客的年齡,受教育程度,職業(yè)等等,還可以就某項深入比較,發(fā)現(xiàn)兩類間更多的區(qū)分特性。
兩種描述使用的一些有:基于統(tǒng)計度量、圖的簡單數(shù)據(jù)匯總、數(shù)據(jù)立方體、面向?qū)傩缘臍w納等。
2.挖掘頻繁模式、關(guān)聯(lián)。頻繁模式是在數(shù)據(jù)中頻繁出現(xiàn)的模式。包括項集、子序列和子結(jié)構(gòu)。
項集是指頻繁地在事務(wù)數(shù)據(jù)集中一起出現(xiàn)的項的集合,如牛奶和面包。如顧客先購買PC再購買數(shù)碼相機然后再購買內(nèi)存卡這樣的模式是一個(頻繁)序列模式。
子結(jié)構(gòu)涉及不同的結(jié)構(gòu)形式,如圖、樹或格,與項集或子序列結(jié)合在一起。如果一個子結(jié)構(gòu)頻繁地出現(xiàn),則稱它為(頻繁)結(jié)構(gòu)模式。
挖掘頻繁模式導(dǎo)致發(fā)現(xiàn)數(shù)據(jù)中有趣的關(guān)聯(lián)。著名的“尿布與啤酒”的故事就是關(guān)聯(lián)規(guī)則具體應(yīng)用。著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法如:R.Agrawal提出的Apriori算法等。
3.分類知識發(fā)現(xiàn)。所謂分類,是把給定的數(shù)據(jù)劃分到一定的類別中。分類的關(guān)鍵是對數(shù)據(jù)按照什么標(biāo)準或什么規(guī)則進行分類。
對于分類規(guī)則的挖掘通常有以下幾種方法:決策樹、樸素貝葉斯、k最近鄰分類、人工神經(jīng)網(wǎng)絡(luò)、粗糙集方法和遺傳算法。不同的算法適用于不同特點的數(shù)據(jù)集合。最為典型的分類方法是基于決策樹的分類方法。
4.預(yù)測型知識發(fā)現(xiàn)。預(yù)測型知識是根據(jù)事件序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。比如,在零售業(yè)中根據(jù)先前的銷售數(shù)據(jù),預(yù)測未來銷售中每種商品的收益,這是一個(數(shù)值)預(yù)測的例子。
目前,回歸分析是一種最常使用的數(shù)值預(yù)測的統(tǒng)計學(xué)方法,此外還有神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)等多種方法。
5.聚類分析。聚類分析處理的數(shù)據(jù)是無事先確定的類別歸屬,是把整個數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。
在零售業(yè)中利用聚類可以幫助市場分析人員從客戶的基本庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同客戶群的特征。此外,聚類分析可以作為其他算法(如特征和分類等)的預(yù)處理步驟。聚類方法主要有兩大類,包括統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)方法。
6.離群點分析。數(shù)據(jù)集中那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對象被稱為異類或離群點。
大部分數(shù)據(jù)挖掘方法很容易將離群點視為噪聲或異常而丟棄。然而在某些特定應(yīng)用場合(如商業(yè)欺詐行為的自動檢測),小概率發(fā)生的事件(數(shù)據(jù))比經(jīng)常發(fā)生的事件(數(shù)據(jù))更有挖掘價值。
常使用異常探測方法來發(fā)現(xiàn)離群點,實現(xiàn)異常探測可以用基于統(tǒng)計、基于距離、)基于偏離的方法。
四、結(jié)束語
通過研究和實際應(yīng)用了解到,數(shù)據(jù)挖掘并不是萬能的,在通過數(shù)據(jù)挖掘得到一些有意思的結(jié)果之后,還要進行相應(yīng)的市場分析,用戶行為分析和用戶訪談,了解數(shù)據(jù)背后消費者的心理。
雖然數(shù)據(jù)挖掘在零售業(yè)中的應(yīng)用有許多成功的案例(多數(shù)都在國外),然而在具體實施中還有一些的問題:挖掘算法的改進和計算效率提高,模型的合理性和易懂性,與其他系統(tǒng)的集成問題;網(wǎng)絡(luò)與分布式環(huán)境下的KDD問題;個人隱私問題;數(shù)據(jù)規(guī)模超大或太?。涣硗膺€可能有觀念意識問題,基礎(chǔ)條件不成熟問題,這些都有待于進一步研究。
參考文獻:
[01]Shortland R,Scarfe R.Digging for Gold.IEE Review.1995(5).41:213~217
[2]范明孟小峰(譯):anjiawei,etal.數(shù)據(jù)挖掘:概念與技術(shù).北京:機械工業(yè)出版社,2007