沃爾瑪?shù)摹捌【坪湍虿肌钡慕?jīng)典案例不少媒體都曾報道過:就是沃爾瑪通過建立的數(shù)據(jù)倉庫,按周期統(tǒng)計產(chǎn)品的銷售信息,經(jīng)過科學(xué)建模后提煉決策層數(shù)據(jù)。結(jié)果發(fā)現(xiàn),每逢周末,位于某地區(qū)的沃爾瑪連鎖超市啤酒和尿布的銷量很大。進一步調(diào)查表明,在美國有孩子的家庭中,太太經(jīng)常囑咐他們的丈夫下班以后要為孩子買尿布,而丈夫們在買完尿布以后又順手帶回了自己愛喝的啤酒,因此啤酒和尿布一起購買的機會是最多的。之后該店打破常規(guī),將啤酒和尿布的貨架放在了一起,使得啤酒和尿布的銷量進一步增長。
“買啤酒時也會買尿布”,這一規(guī)律的抽象表示就成了數(shù)據(jù)挖掘里的關(guān)聯(lián)分析法,我們可以簡單地表示成如下形式:
If someone buys diaper then he buys bear.
即:
diaper=>bear
這是一條關(guān)聯(lián)規(guī)則,當然在實際應(yīng)用中,這里面有“他有多大可能性同時買啤酒和尿布”和“他在買尿布后有多大可能性買啤酒”等問題需要考慮。
從海量的原始數(shù)據(jù)中,找出隱含在其中的、我們事先不知道的、但又是潛在的有意義的知識和信息,從而利用這些知識來指導(dǎo)我們的活動,這便是數(shù)據(jù)挖掘的初衷。數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫研究中最活躍的分支之一,它綜合利用了人工智能、數(shù)據(jù)庫、機器學(xué)習等多個領(lǐng)域的理論和技術(shù)。目前,數(shù)據(jù)挖掘已經(jīng)被廣泛地運用于各種金融分析、市場分析等多個領(lǐng)域。比如在零售商日常的經(jīng)營中,每天又會產(chǎn)生大量看似龐雜的信息,而在這些信息背后蘊藏了豐富的經(jīng)營技巧和市場規(guī)律。通過數(shù)據(jù)挖掘的手段找出這些規(guī)律和知識,來直接指導(dǎo)我們的經(jīng)營活動,給顧客提供最直接最周到的服務(wù),以及通過分析顧客消費和忠誠度的變化,據(jù)此對價格和商品的花樣進行調(diào)整,一邊留住老客戶,吸引新客戶。
近年來傳統(tǒng)的數(shù)據(jù)挖掘的思想在Web知識發(fā)現(xiàn)中也有了廣泛的應(yīng)用,即通過分析Web使用者訪問網(wǎng)頁的路徑和在不同頁面停留時間等原始資料的分析,提取出我們需要的模式,來規(guī)劃網(wǎng)站的拓撲結(jié)構(gòu),給不同的用戶群定制個性化的服務(wù),這給電子商務(wù)的發(fā)展增加了不可低估的活力。