[摘要] 數(shù)據(jù)挖掘作為一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具,能有效地幫助商業(yè)企業(yè)從不斷積累與更新的數(shù)據(jù)中提取有價值的信息。因此,數(shù)據(jù)挖掘被引入到商業(yè)市場研究領域,并日益受到重視。本文從數(shù)據(jù)挖掘技術入手,分析了數(shù)據(jù)挖掘在商業(yè)活動中的應用。提出了數(shù)據(jù)挖掘的典型統(tǒng)計分析方法與常用的技術,并指出其在商業(yè)領域中的典型應用。
[關鍵詞] 數(shù)據(jù)挖掘 關聯(lián) 分類
一、概述
隨著全球經濟的日益發(fā)展,市場競爭也越來越激烈,商業(yè)環(huán)境中的信息越來越密集,企業(yè)必須能從大量的業(yè)務數(shù)據(jù)中經過深入的分析,獲得有利于商業(yè)運作的信息,提高企業(yè)的決策能力,20世紀70年代所出現(xiàn)的數(shù)據(jù)庫技術已經被廣泛地應用于企業(yè)管理、產品銷售等領域,并獲得巨大成功,但是對于管理人員的決策分析要求卻無法滿足。所以急需的計算技術和工具,能夠智能化地從大量的數(shù)據(jù)中提取出有用的信息和知識,為企業(yè)提供決策支持,于是數(shù)據(jù)挖掘技術應運而生了。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取隱含、潛在、有用的信息的方法和過程,最終目的是發(fā)現(xiàn)和推導出有價值的知識,包括概念、規(guī)則、模式和模型等,為管理和決策提供參考和支持。數(shù)據(jù)挖掘是一種從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱藏的預測性信息的技術。將其應用到商品銷售領域的主要作用是對商業(yè)數(shù)據(jù)中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助商品銷售決策的關鍵性數(shù)據(jù),為科學的商業(yè)決策提供幫助。
二、數(shù)據(jù)挖掘所采用的主要技術
數(shù)據(jù)挖掘是一種很好的知識提取方法。數(shù)據(jù)挖掘能通過預先設定的算法自動處理數(shù)據(jù)庫中大量的原始數(shù)據(jù),應用各種方法和手段從大量數(shù)據(jù)中抽取出具有必然性、富有意義的模式,挖掘出對象間的特定關系,找出人們對所需問題的解答,為決策服務。數(shù)據(jù)挖掘過程所形成的知識主要有概念、規(guī)則、規(guī)律、模式和約束等。取得這些結果采用的主要方法和技術包括統(tǒng)計學、聚類分析和模式識別、決策樹分類、人工神經網絡和遺傳算法、規(guī)則歸納,以及可視化技術等。
三、數(shù)據(jù)挖掘在商業(yè)領域中的典型分析方法
在實際的商業(yè)應用中,數(shù)據(jù)挖掘的方法和技術越多,得出的結果精確性就越高。因為,對于某一種方法或者技術不適用的問題,其他方法很可能奏效,這主要取決于問題的類型及數(shù)據(jù)的類型和規(guī)模。數(shù)據(jù)挖掘方法有很多種,其中比較典型的有關聯(lián)分析、序列分析等。
1.關聯(lián)分析
在數(shù)據(jù)挖掘領域,采用關聯(lián)規(guī)則在大型數(shù)據(jù)庫中進行數(shù)據(jù)挖掘是一個重要的研究內容。關聯(lián)規(guī)則挖掘的一般對象是事務數(shù)據(jù)庫,這種數(shù)據(jù)庫的主要應用在零售業(yè),比如超級市場的銷售管理。關聯(lián)規(guī)則就是發(fā)現(xiàn)事務數(shù)據(jù)庫中不同商品(比如面包、牛奶等都是項目)之間是否存在某種關聯(lián)關系。通過這些規(guī)則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發(fā)現(xiàn)這樣的規(guī)則可以應用于商品貨架設計、貨存安排,以及根據(jù)購買模式對用戶進行分類。譬如在商場中,許多決策只停留在管理人員的經驗判斷層次上,缺乏深層次的分析,也往往跟不上客觀環(huán)境的變化,所以就需要對客觀實時數(shù)據(jù)進行分析,找到它們的內在聯(lián)系,從而獲得有關 指導商家進貨,方便顧客購物等一些有價值的知識。關聯(lián)規(guī)則的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分 析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯(lián)的發(fā)現(xiàn)可以幫助超市經營者制定營銷策略。
關聯(lián)分析是為了尋找在同一事件中出現(xiàn)的不同項的關聯(lián)性。比如,超市中70%的客戶在購買商品A的同時,有90%會購買B,即關聯(lián)規(guī)則是A>:B。若超市將商品A和B放在一起銷售,將會提高它們的銷售量。
在大型數(shù)據(jù)庫中,這種關聯(lián)規(guī)則是很多的,需要進行篩選,一般用“支持度”和“可信度”兩個閾值來淘汰那些無用的關聯(lián)規(guī)則。
在本例中,設關聯(lián)規(guī)則A>=B的可信度為C,支持度 為S。則:
C:同時購買商品A和B的交易數(shù)/購買了商品A的交易數(shù)S:同時購買商品A和B的交易數(shù)/總交易數(shù)本例的關聯(lián)規(guī)則A=>B的可信度為C=90%,支持度S=70%。
因此,找出這樣的數(shù)據(jù)信息對于確定市場策略是很有價值的。尋找這種信息的過程即是挖掘關聯(lián)規(guī)則的過程。關聯(lián)規(guī)則還可以應用到附加郵遞、目錄設計、追加銷售、倉儲規(guī)劃,以及基于購買模式對顧客進行劃分等方面。
2.序列分析
序列分析與關聯(lián)規(guī)則類似,但它尋找的是事件之間時間上的關聯(lián)性。比如,超市中60%的客戶在購買商品A后隔一段時間,其中有80%會再購買B,即序列模式是A>=B。顯然,通過序列模式分析,超市可以發(fā)現(xiàn)客戶潛在的購買模式。
在序列模式分析中,同樣需要用“支持度”和“可信度”兩個閾值來淘汰那些無用的序列模式。在本例中.設序列A>=B的可信度為C,支持度為S,則C=先購買商品A再購買商品B的客戶數(shù)/先購買了商品A的客戶數(shù)S=先購買商品A再購買商品B的客戶數(shù)/總客戶數(shù)本例的序列模式A=>B的可信度為C=80%,支持度S=60%。
四、結束語
在信息經濟時代,數(shù)據(jù)挖掘技術的應用正在不可思議的改變著我們的生活。但數(shù)據(jù)挖掘永遠都不會替代有經驗的商業(yè)分析師或管理人員的作用,它只是提供了一個強大的工具,它所起到的作用是幫助企、業(yè)更容易地得到一些重要的,能產生高回報的模型。而企業(yè)根據(jù)這些模型可以更好的提高商業(yè)運行、商業(yè)效率。目前,數(shù)據(jù)挖掘工具正以前所未有的速度發(fā)展,在信息技術應用最為廣泛的商業(yè)活動中,它更是推動了整個行業(yè)的發(fā)展。在未來越加激烈的市場競爭中,擁有數(shù)據(jù)挖掘技術必將比別人獲得更快速的反應,贏得更多的商業(yè)機會。
參考文獻:
[1]王珊:數(shù)據(jù)倉庫技術與聯(lián)機分析處理[M].北京科學出版社,1998
[2]邵峰晶:數(shù)據(jù)挖掘一原理與算法[M].北京:中國水利水電出版社,2003
[3]崔云龍:商場現(xiàn)代化[J],數(shù)據(jù)挖掘在商業(yè)經營中的應用,2006(10)