萬曉燕 陳姍 劉汝元 畢軍濤
摘要:大數(shù)據(jù)時代,企業(yè)能夠進行精準決策、營銷,關鍵還是數(shù)據(jù)分析,而其中最為重要的就是數(shù)據(jù)挖掘。本文對數(shù)據(jù)挖掘技術進行了簡單分析,同時結合相關案例分析了數(shù)據(jù)挖掘技術在企業(yè)當中的應用步驟和成效,僅供參考。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;企業(yè)
自進入大數(shù)據(jù)時代以來,各個領域的大數(shù)據(jù)呈現(xiàn)飛速發(fā)展態(tài)勢,數(shù)據(jù)采集、樣本分析、圖像識別、智能可穿戴設備等等紛紛面向大眾。對于企業(yè)來說數(shù)據(jù)已經成為重要的資產,越來越多的企業(yè)開始重視對大數(shù)據(jù)的分析與利用,根據(jù)貝恩咨詢公司的調研報告,其所調研的企業(yè)當中有超過400家年營業(yè)額5億美元以上的企業(yè),其中約60%的企業(yè)正在布局大數(shù)據(jù),表明大數(shù)據(jù)已經走下神壇,逐步成為企業(yè)常規(guī)化的決策工具,其中的核心要點就是數(shù)據(jù)挖掘技術,這是實現(xiàn)大數(shù)據(jù)分析的前提。
一、數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的核心部分,要科學表現(xiàn)大數(shù)據(jù)的特點就需要針對這些數(shù)據(jù)的類型及格式制定相應的算法。這些算法可以說是基于統(tǒng)計學的統(tǒng)計方法,也只有這樣,挖掘出來的數(shù)據(jù)才具有公認的價值。同時數(shù)據(jù)挖掘算法是快速處理數(shù)據(jù)的關鍵,若一個算法需要很長時間才能獲得結論,那么大數(shù)據(jù)的價值也就無從談起。數(shù)據(jù)挖掘的主體沒有限制,主要是將現(xiàn)有數(shù)據(jù)通過數(shù)據(jù)挖掘算法進行預測性分析,進行一些高級別的數(shù)據(jù)分析,可利用Mahout工具實現(xiàn),比較典型的算法有SVM、Kmeans等。
從世界范圍來看,數(shù)據(jù)挖掘技術已經十分成熟,對于一個企業(yè),如果云平臺架構能力強,能夠將獲取的數(shù)據(jù)實時傳遞到云端,再從云端向用戶群體推送,這可以說是大數(shù)據(jù)時代下企業(yè)的新一種核心競爭力。事實上當前擺在企業(yè)面前的是一座數(shù)據(jù)金山,數(shù)據(jù)挖掘能力就成為企業(yè)另一個重要競爭力,并且挖掘能力是衡量企業(yè)業(yè)務水平高低的重要指標,通過數(shù)據(jù)挖掘以及數(shù)據(jù)分析抓住用戶重點,只有這樣才能實現(xiàn)大數(shù)據(jù)的真正價值,下文列舉一些比較常用的數(shù)據(jù)挖掘方法。
MBR(Memory-Based Reasoning)這種方法就是利用已知case(案例)來預測未來case的一些attribute(屬性),并一般尋找最為相似的案例來比較。主要的核心就是記憶基礎推理法,涵蓋距離函數(shù)和結合函數(shù),前者旨在找到最相似案例,后者則將相似案例屬性結合起來,以便預測分析時使用。該方法的優(yōu)點在于能夠容許各種型態(tài)的數(shù)據(jù),且不需要服從某些假設,而且具備自學習能力,能夠憑借舊案例的學習來獲取關于新案例的知識,當然需要大量歷史數(shù)據(jù)的支撐。處理速率上比較費時,效率不是很高,在欺騙行為偵測、預測客戶反應、醫(yī)學診療等方面應用有較強應用前景。
Decision Tree(決策樹),這在解決歸類與預測上能力極強,通過一系列的問題組成法則并表達出來,然后經過不斷詢問問題導出所需的結果。典型的決策樹頂端是一個樹根,底部擁有許多樹葉,記錄分解成不同的子集,每個子集可能包含一個簡單法則。
Cluster Detection(聚類分析),該技術擁有相當廣泛的范圍,涵蓋基因算法、類神經網絡、統(tǒng)計學中的群集分析,主要是找出數(shù)據(jù)當中以前未知的相似群體,剛開始均在群集偵測技術但中運用,作為研究的開端。
除上述方法外還有遺傳算法、OLAP分析、神經網絡、判別分析、購物籃分析等等,在此不做一一介紹。
二、數(shù)據(jù)挖掘實踐
數(shù)據(jù)挖掘最主要的作用就是為決策提供支撐,某企業(yè)ERP系統(tǒng)積累一定業(yè)務數(shù)據(jù),具備了實施大數(shù)據(jù)決策的前提條件,對于領導或是管理層來說,關鍵還是要從業(yè)務數(shù)據(jù)當中挖掘、分析數(shù)據(jù),提取信息進而支撐決策。所以在運營過程當中構建起統(tǒng)一的數(shù)據(jù)平臺,實現(xiàn)數(shù)據(jù)的集成和共享,為企業(yè)決策提供技術支撐。
該企業(yè)基于市場風險、信用風險以及內部控制,建立起風險管理系統(tǒng),整合現(xiàn)有風險控制,形成風控戰(zhàn)略能力,建立起KRI(關鍵風險管理指標)、風險分析、風險組合管理、風險保管等,極大提升了企業(yè)風險管理水平。并在統(tǒng)一平臺下實現(xiàn)業(yè)務中心、各部門不同層次的風控要求,滿足不同的業(yè)務需求。對該企業(yè)市場、信用以及倉儲三個方面的風險控制提供了極大助力,同時強大的開放性便于后續(xù)的擴展深化。具體而言就是建立風控計量模型,基于歷史數(shù)據(jù)以及數(shù)據(jù)挖掘算法,針對模型進行調整優(yōu)化,實現(xiàn)量化監(jiān)控、預測分析以及自動預警。
一般來說企業(yè)進行數(shù)據(jù)挖掘主要遵循以下流程——準備數(shù)據(jù),即收集數(shù)據(jù)并進行積累,此時企業(yè)就需要知道其所需要的是什么樣的數(shù)據(jù),并通過分類、編輯、清洗、預處理得到客觀明確的目標數(shù)據(jù)。數(shù)據(jù)挖掘這是最為關鍵的步驟,主要是針對預處理后的數(shù)據(jù)進行進一步的挖掘,取得更加客觀準確的數(shù)據(jù),方能引入決策之中,不同的企業(yè)可能采取的數(shù)據(jù)挖掘技術不同,但在當前來看暫時脫離不了上述的挖掘方法。當然隨著技術的進步,大數(shù)據(jù)必定會進一步成為企業(yè)的立身之本,在當前已經在很多領域得以應用。如市場營銷,這是數(shù)據(jù)挖掘應用最早的領域,旨在挖掘用戶消費習慣,分析用戶消費特征進而進行精準營銷。就以令人深惡痛絕的彈窗廣告來說,當消費者有網購習慣并在網絡上搜索喜愛的產品,當再一次進行搜索時,就會彈出很多針對消費者消費習慣的商品。
三、結束語
大數(shù)據(jù)時代下,數(shù)據(jù)已經成為企業(yè)重要的資產,而企業(yè)要真正發(fā)揮出大數(shù)據(jù)的價值,關鍵還是要靠數(shù)據(jù)挖掘技術,找到最精確的信息數(shù)據(jù),幫助企業(yè)進行決策或是進行精準的市場營銷。當然對于企業(yè)來說,要真正實現(xiàn)大數(shù)據(jù)還需要走很長的一段路,但不可否認的是運用大數(shù)據(jù)還是要依靠數(shù)據(jù)挖掘技術。
(作者單位:青島酒店管理職業(yè)技術學院)endprint