楊宗寶
萬(wàn)物皆可云的大數(shù)據(jù)時(shí)代,商業(yè)智能技術(shù)應(yīng)用非常廣泛,涵蓋的行業(yè)更是不計(jì)其數(shù)。為了有助于各企業(yè)業(yè)務(wù)開(kāi)展過(guò)程中數(shù)據(jù)有效轉(zhuǎn)化為信息,研究商業(yè)智能的數(shù)據(jù)挖掘與元數(shù)據(jù)管理的發(fā)展情況和應(yīng)用于各行業(yè)中的走向,以及數(shù)據(jù)挖掘和元數(shù)據(jù)管理之間的關(guān)聯(lián)具有十分重要的現(xiàn)實(shí)意義。
本文研究的對(duì)象均屬商業(yè)智能中的核心技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)。研究的目的是確定數(shù)據(jù)挖掘與元數(shù)據(jù)管理的關(guān)聯(lián)與特征。在廣泛收集和查詢了國(guó)內(nèi)外相關(guān)文獻(xiàn)的基礎(chǔ)上,為課題研究提供理論框架與方法論,并將數(shù)據(jù)挖掘和元數(shù)據(jù)管理的現(xiàn)狀及優(yōu)勢(shì)展現(xiàn)給大眾。
伴隨著以電子商務(wù)為特征的新經(jīng)濟(jì)逐步走向成熟,商業(yè)智能已成為企業(yè)核心競(jìng)爭(zhēng)力的重要部分。商業(yè)智能將數(shù)據(jù)挖掘和元數(shù)據(jù)管理等技術(shù)與數(shù)據(jù)倉(cāng)庫(kù)結(jié)合起來(lái)應(yīng)用到實(shí)際的商業(yè)活動(dòng),實(shí)現(xiàn)了萬(wàn)物皆可云時(shí)代技術(shù)服務(wù)與決策的目的。
商業(yè)智能被認(rèn)為是信息技術(shù)發(fā)展到一定階段的結(jié)果,也是企業(yè)對(duì)海量數(shù)據(jù)進(jìn)行分析的必然方式,充分利用商業(yè)智能技術(shù)可以改善企業(yè)管理、在更大空間提高企業(yè)的競(jìng)爭(zhēng)力。
一、商業(yè)智能發(fā)展趨勢(shì)
商業(yè)智能用于有效整理并整合企業(yè)現(xiàn)有的數(shù)據(jù),在最短的時(shí)間內(nèi)快速準(zhǔn)確地提供報(bào)表、給出決策依據(jù),幫助企業(yè)做出正確且收益最大化的業(yè)務(wù)經(jīng)營(yíng)決策方案。商業(yè)智能的作用有三種:分析客戶的分類和特點(diǎn)、分析市場(chǎng)營(yíng)銷策略以及分析經(jīng)營(yíng)成本和收入。
商業(yè)智能處理過(guò)程是:收集信息并進(jìn)行篩選-分析-輸出。在互聯(lián)網(wǎng)普及、科技發(fā)達(dá)的今天,商業(yè)智能發(fā)展已成為一種勢(shì)不可擋的潮流。企業(yè)可以通過(guò)互聯(lián)網(wǎng)信息的收集,獲取更多的客戶信息和交易信息,再通過(guò)商業(yè)智能技術(shù)的應(yīng)用,將這些數(shù)據(jù)轉(zhuǎn)化成更有價(jià)值的信息,幫助企業(yè)高層做出準(zhǔn)確的分析與決策。
商業(yè)智能除了幫助企業(yè)管理人員做出準(zhǔn)確的分析和決策,還可以為客戶提供各種個(gè)性化的服務(wù)。這不僅可以給企業(yè)帶來(lái)直接的經(jīng)濟(jì)利益,同時(shí)也可以幫助客戶在最短的時(shí)間內(nèi)購(gòu)買到最需要的商品。商業(yè)智能的發(fā)展也必然通過(guò)Web和局域網(wǎng)的交互,實(shí)現(xiàn)信息與知識(shí)的共享。
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,商業(yè)智能對(duì)包括用戶交易數(shù)據(jù)和行為數(shù)據(jù)在內(nèi)的金融數(shù)據(jù)的采集能力大大增強(qiáng)。金融服務(wù)的多樣化和市場(chǎng)規(guī)模的不斷擴(kuò)大,需要對(duì)這些數(shù)據(jù)進(jìn)行深度挖掘和分析,從而匹配金融產(chǎn)品的交易需求,發(fā)現(xiàn)隱藏的趨勢(shì)信息,幫助金融機(jī)構(gòu)發(fā)現(xiàn)商機(jī)。
二、數(shù)據(jù)挖掘和分析理論及其實(shí)際應(yīng)用
(一)商業(yè)智能的三大層次
1.初級(jí)層次:數(shù)據(jù)報(bào)表
數(shù)據(jù)報(bào)表是商業(yè)智能的基本功能之一,也是三大層次中的初級(jí)層次,是企業(yè)日常經(jīng)營(yíng)的基本措施和途徑。這是企業(yè)商業(yè)智能的基本業(yè)務(wù)要求,也是實(shí)現(xiàn)BI戰(zhàn)略的基礎(chǔ)。數(shù)據(jù)報(bào)表可以幫助企業(yè)收集、處理、分析數(shù)據(jù),將數(shù)據(jù)進(jìn)行整合,以更可靠、更安全的方式呈現(xiàn)給決策者。與傳統(tǒng)報(bào)表相比,商業(yè)智能的數(shù)據(jù)報(bào)表功能能夠處理更大的數(shù)據(jù)量,處理的速度、安全性都更高。其能防止傳統(tǒng)數(shù)據(jù)的有限性形成的數(shù)據(jù)孤島,從而發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的信息與規(guī)律。
2.中級(jí)層次:多維數(shù)據(jù)分析
數(shù)據(jù)分析,就是選擇適合的統(tǒng)計(jì)分析方法將收集到并處理過(guò)的數(shù)據(jù)進(jìn)行分析,提取其中有價(jià)值的信息,最后形成結(jié)論。多維,是一個(gè)抽象的詞語(yǔ),比如描述2021年12月份橙子在南部地區(qū)的銷售額為20萬(wàn)時(shí),就涉及到時(shí)間、產(chǎn)品、成本、區(qū)域、利潤(rùn)等維度。如果說(shuō)初級(jí)層次能夠讓決策者直觀地看到企業(yè)運(yùn)營(yíng)情況蘊(yùn)藏在數(shù)據(jù)背后的信息與規(guī)律。那么,中級(jí)層次的多維數(shù)據(jù)分析就是對(duì)數(shù)據(jù)進(jìn)行有目的的分析,通過(guò)多維度的分析、鉆透探索出可能存在的原因。簡(jiǎn)單來(lái)形容,就是帶著問(wèn)題找問(wèn)題。
3.高級(jí)層次:數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從海量數(shù)據(jù)庫(kù)中挖掘新的有用知識(shí)的一種新興技術(shù),以滿足日益增長(zhǎng)的數(shù)據(jù)所帶來(lái)的知識(shí)發(fā)現(xiàn)要求。所以數(shù)據(jù)挖掘又稱知識(shí)發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘把一些高效的分析算法從平淡的數(shù)據(jù)里挖掘出有用的模式,它是將海量數(shù)據(jù)庫(kù)和有用的知識(shí)緊密結(jié)合起來(lái),搭建出橋梁結(jié)合成體系網(wǎng)。企業(yè)利用數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的過(guò)程通常包括六個(gè)步驟:(1)確定商業(yè)問(wèn)題;(2)確定并研究資料來(lái)源;(3)對(duì)數(shù)據(jù)進(jìn)行抽取與處理;(4)數(shù)據(jù)挖掘,如:找出關(guān)聯(lián)規(guī)則或生成預(yù)測(cè)模型;(5)對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行驗(yàn)證;(6)將該挖掘模型運(yùn)用于商業(yè)實(shí)際。
(二)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘之間的關(guān)系
數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)為了支持決策分析的數(shù)據(jù)集合。隨著時(shí)間的變化,其面向的主題、集成、穩(wěn)定都會(huì)發(fā)生改變。數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)包括數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換、加載以及維護(hù)技術(shù)。數(shù)據(jù)挖掘能夠從數(shù)據(jù)倉(cāng)庫(kù)中提取和發(fā)掘歷史數(shù)據(jù),并使其轉(zhuǎn)化為信息、知識(shí)等。借助于歷史數(shù)據(jù)分析可找出數(shù)據(jù)內(nèi)部的寶貴規(guī)律。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)又是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是完整的、集成的,它為數(shù)據(jù)挖掘提供了扎實(shí)的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)可以為數(shù)據(jù)挖掘提供需要的歷史數(shù)據(jù)和全面的數(shù)據(jù)處理、分析等基礎(chǔ)設(shè)施。
(三)數(shù)據(jù)挖掘技術(shù)的實(shí)際應(yīng)用
1. 數(shù)據(jù)挖掘技術(shù)在零售行業(yè)的應(yīng)用
數(shù)據(jù)挖掘源于商業(yè)中的直接需求,并在眾多的領(lǐng)域中擁有廣泛的使用價(jià)值,同時(shí)零售行業(yè)也是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域之一。
零售行業(yè)一般采用廣告、優(yōu)惠券等形式和其他系列讓利方式促銷,以實(shí)現(xiàn)促銷產(chǎn)品、招攬客戶的目的,最終刺激消費(fèi)。因此,只有對(duì)客戶的要求有一個(gè)全面的認(rèn)識(shí),才能精確定位促銷對(duì)象,提高針對(duì)點(diǎn)和減少活動(dòng)費(fèi)用。運(yùn)用數(shù)據(jù)挖掘技術(shù),能夠精確地分析時(shí)間、位置、方式和所面對(duì)的消費(fèi)群體等,從而達(dá)到促銷的目的,避免企業(yè)資源利益造成浪費(fèi)。數(shù)據(jù)挖掘既能推動(dòng)對(duì)活動(dòng)有效性的分析,同時(shí),還能利用以往有關(guān)促銷數(shù)據(jù),找到將來(lái)投資時(shí)收益最高的用戶群。
按照經(jīng)濟(jì)學(xué)二八定律,企業(yè)需要準(zhǔn)確區(qū)別20%和80%客戶。只有進(jìn)行深層次數(shù)據(jù)挖掘,才能夠幫助企業(yè)在眾多客戶中進(jìn)行分類,找到哪些是20%客戶。這點(diǎn)恰恰說(shuō)明了客戶也可以利用數(shù)據(jù)挖掘達(dá)到細(xì)分的程度,客戶細(xì)分化將一個(gè)巨大的消費(fèi)群體逐個(gè)細(xì)化為無(wú)數(shù)個(gè)小群體,將屬于同一小群體的客戶相似的消費(fèi)喜好、消費(fèi)特征清晰地呈現(xiàn)出來(lái)。
零售行業(yè)大多采用辦會(huì)員卡、設(shè)立客戶會(huì)員制度等手段采集客戶的消費(fèi)行為。通過(guò)挖掘客戶會(huì)員卡信息,通常會(huì)記錄客戶消費(fèi)時(shí)的購(gòu)買順序,并把每個(gè)客戶不同時(shí)期購(gòu)買的物品分組成序。在序列中進(jìn)行模式挖掘,可以應(yīng)用于客戶購(gòu)買傾向、喜歡商品程度改變等方面。按照這種方法來(lái)調(diào)整完善商品和價(jià)格上的創(chuàng)新花樣,并不斷地進(jìn)行優(yōu)化和提升,這樣不僅能保留會(huì)員老客戶,還能吸引更多新客戶。
2.數(shù)據(jù)挖掘技術(shù)應(yīng)用增強(qiáng)各產(chǎn)業(yè)的競(jìng)爭(zhēng)力
(1)將數(shù)據(jù)挖掘技術(shù)應(yīng)用到互聯(lián)網(wǎng)
互聯(lián)網(wǎng)包含了大量信息,文本、圖表、聲音等,都是人們所熟知的傳媒信息。其次還有鏈接信息和記錄信息。網(wǎng)絡(luò)檢索、網(wǎng)絡(luò)教育、電子商務(wù)等都是在這樣一個(gè)大信息網(wǎng)上,獲得所需的知識(shí)與信息?;ヂ?lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)向世人充分展示了其優(yōu)勢(shì),在很短的時(shí)間里迅速地獲得有效信息,提升用戶訪問(wèn)效率、集中新用戶。
(2)將數(shù)據(jù)挖掘技術(shù)應(yīng)用到農(nóng)業(yè)
國(guó)民經(jīng)濟(jì)的基礎(chǔ)離不開(kāi)農(nóng)業(yè)的發(fā)展,在農(nóng)業(yè)市場(chǎng)信息中,數(shù)據(jù)收集多采用進(jìn)出口貿(mào)易倉(cāng)庫(kù)數(shù)據(jù)作為數(shù)據(jù)源,市場(chǎng)監(jiān)控信息作為數(shù)據(jù)庫(kù),這樣就可以給農(nóng)業(yè)部門提供較為具體的數(shù)據(jù)信息來(lái)指導(dǎo)農(nóng)業(yè)市場(chǎng)開(kāi)發(fā)管理,因此數(shù)據(jù)挖掘應(yīng)用于農(nóng)業(yè)也就顯得尤為重要且范圍較廣。
(3)將數(shù)據(jù)挖掘技術(shù)應(yīng)用到金融業(yè)
經(jīng)濟(jì)飛速發(fā)展的年代,金融領(lǐng)域每一時(shí)間都有大量現(xiàn)金流水及數(shù)據(jù)量產(chǎn)生,因此數(shù)據(jù)挖掘技術(shù)應(yīng)用于金融業(yè)就尤為緊迫。因?yàn)樵谌狈?shù)據(jù)分析的情況下,不可能衡量與評(píng)價(jià)投資風(fēng)險(xiǎn),也不可能精準(zhǔn)明確金融投資走向。而數(shù)據(jù)挖掘可以處理已知的數(shù)據(jù),方便找到某種事物之間的聯(lián)系,預(yù)測(cè)并且避免無(wú)謂損失。所以便于在金融領(lǐng)域控制金融投資,監(jiān)視金融犯罪。
(4)將數(shù)據(jù)挖掘技術(shù)應(yīng)用到工業(yè)生產(chǎn)
眾多工廠積累了大量生產(chǎn)數(shù)據(jù),而這些數(shù)據(jù)收納成數(shù)據(jù)文件,這其中生產(chǎn)記錄等占據(jù)了絕大部分,多數(shù)文件有可能被閑置起來(lái)。數(shù)據(jù)挖掘技術(shù)應(yīng)用于工業(yè)生產(chǎn)領(lǐng)域內(nèi)部,正好利用這些閑置數(shù)據(jù)輔助工業(yè)生產(chǎn)。
三、元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用管理
(一)元數(shù)據(jù)的概念
元數(shù)據(jù),即所謂“有關(guān)資料”,是組織與處理數(shù)字信息的基本手段,它為各種形式的數(shù)字化信息單元與資源集合提供了規(guī)范而通用的描述基準(zhǔn)與方法。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建立、維護(hù)、管理和使用過(guò)程中,用以描述實(shí)際數(shù)據(jù)的信息。
(1)技術(shù)元數(shù)據(jù)
技術(shù)元數(shù)據(jù)面向數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理員及系統(tǒng)應(yīng)用開(kāi)發(fā)人員。旨在讓數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)開(kāi)發(fā)與維護(hù)人員更好地完成各種作業(yè)。它在管理系統(tǒng)環(huán)境下,為系統(tǒng)開(kāi)發(fā)、維護(hù)提供支持,也為所有分析、設(shè)計(jì)、開(kāi)發(fā)及管理人員提供服務(wù),是開(kāi)發(fā)工具、應(yīng)用程序與系統(tǒng)之間的技術(shù)紐帶。其主要內(nèi)容包括數(shù)據(jù)源元數(shù)據(jù)和預(yù)處理后的數(shù)據(jù)元數(shù)據(jù)。
(2)數(shù)據(jù)源元數(shù)據(jù)
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)源通常并不屬于數(shù)據(jù)系統(tǒng),所以有必要在不同數(shù)據(jù)源中統(tǒng)一定義元數(shù)據(jù),以實(shí)現(xiàn)從數(shù)據(jù)源中提取整體數(shù)據(jù)。數(shù)據(jù)源元數(shù)據(jù)一般可以分為數(shù)據(jù)源的數(shù)據(jù)格式、數(shù)據(jù)源的所有者、數(shù)據(jù)源的訪問(wèn)方式和使用限制、數(shù)據(jù)源的儲(chǔ)存平臺(tái)、數(shù)據(jù)源的內(nèi)容說(shuō)明以及更新頻率等等。
(3)預(yù)處理數(shù)據(jù)為元數(shù)據(jù)
所謂預(yù)處理數(shù)據(jù)是介于數(shù)據(jù)源與主體數(shù)據(jù)中間層次的一種數(shù)據(jù),對(duì)預(yù)處理后的數(shù)據(jù)處理是在數(shù)據(jù)倉(cāng)庫(kù)后臺(tái)完成的,并且處理量大。例如,保存所有經(jīng)過(guò)純化的數(shù)據(jù)、保存海量細(xì)節(jié)性的業(yè)務(wù)加工數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)備份等。所以相關(guān)元數(shù)據(jù)的處理也更加復(fù)雜,包括在數(shù)據(jù)抽取、轉(zhuǎn)換和加載時(shí)所使用的各類文件定義;從數(shù)據(jù)源到不同層次中間視圖和主題數(shù)據(jù)實(shí)視圖的數(shù)據(jù)對(duì)應(yīng);定義數(shù)據(jù)集;利用統(tǒng)計(jì)和更新維護(hù)記錄來(lái)完成數(shù)據(jù)轉(zhuǎn)換等手段;預(yù)處理數(shù)據(jù)的備份方法;實(shí)際數(shù)據(jù)轉(zhuǎn)換與裝載記錄。
(二)大數(shù)據(jù)時(shí)代下自動(dòng)化企業(yè)的元數(shù)據(jù)管理
元數(shù)據(jù)涉及的商業(yè)智能領(lǐng)域很廣。在商業(yè)智能中的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘等多方面,元數(shù)據(jù)貫徹于其中各項(xiàng)目始終。
元數(shù)據(jù)管理,通俗地說(shuō)就是管理數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的元數(shù)據(jù),參與數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的每一個(gè)環(huán)節(jié),并實(shí)現(xiàn)系統(tǒng)的各處理單元由元數(shù)據(jù)驅(qū)動(dòng)等。
元數(shù)據(jù)平臺(tái)的功能框架大致可分為元數(shù)據(jù)源層、元數(shù)據(jù)獲取層、元數(shù)據(jù)存儲(chǔ)層、元數(shù)據(jù)管理層和元數(shù)據(jù)訪問(wèn)層。其中元數(shù)據(jù)源層又可以分為各個(gè)不同的源系統(tǒng);元數(shù)據(jù)抽取層的適配器可以幫助元數(shù)據(jù)源層實(shí)現(xiàn)元數(shù)據(jù)的抽取,所抽取出來(lái)的元數(shù)據(jù)存儲(chǔ)在元數(shù)據(jù)存儲(chǔ)層中的元數(shù)據(jù)庫(kù)中;元數(shù)據(jù)管理層為元數(shù)據(jù)提供訪問(wèn)、分析、導(dǎo)入、導(dǎo)出等重要功能需求,以便于元數(shù)據(jù)管理工具前端、二級(jí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)和中央元數(shù)據(jù)抽取服務(wù)器使用。
元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中處于一個(gè)核心地位,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、開(kāi)發(fā)、維護(hù)和管理具有非常重要的作用。多策略的數(shù)據(jù)挖掘形成平臺(tái),將元數(shù)據(jù)的使用范圍從數(shù)據(jù)倉(cāng)庫(kù)拓展到包含數(shù)據(jù)挖掘任務(wù)等整個(gè)系統(tǒng)中,使之成為系統(tǒng)的核心和各個(gè)子系統(tǒng)之間連接的紐帶。將數(shù)據(jù)挖掘與元數(shù)據(jù)管理相結(jié)合,保證了元數(shù)據(jù)的完整性和一致性,更加完善開(kāi)發(fā)元數(shù)據(jù)維護(hù)與分析功能的細(xì)致程度。運(yùn)用數(shù)據(jù)挖掘等建立更全面的元數(shù)據(jù)模型,添加更多的元數(shù)據(jù)分析功能,從而提高系統(tǒng)執(zhí)行效率。隨著元數(shù)據(jù)管理系統(tǒng)所管理的元數(shù)據(jù)不斷增多,元數(shù)據(jù)的分析算法與可視化就需要考慮更多的元數(shù)據(jù)和處理概率增加。
(作者單位:天津理工大學(xué)中環(huán)信息學(xué)院)