金宗澤 馮亞麗 文必龍 楊正男 張希東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院
大數(shù)據(jù)分析流程框架的研究
金宗澤 馮亞麗 文必龍 楊正男 張希
東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院
隨著信息技術(shù)的不斷創(chuàng)新,信息量的不斷擴(kuò)大,大數(shù)據(jù)已經(jīng)成為了與日常生活息息相關(guān)的話題。挖掘大數(shù)據(jù)的價(jià)值已經(jīng)炙手可熱,如何能夠更高效、更快速地分析大數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)發(fā)展的重要挑戰(zhàn)之一。近年來,學(xué)術(shù)界與工業(yè)界就大數(shù)據(jù)的分析進(jìn)行了研究,取得了一些研究成果,但針對大數(shù)據(jù)分析的研究還是非常有限。文中首先從傳統(tǒng)數(shù)據(jù)倉庫與大數(shù)據(jù)時(shí)代數(shù)據(jù)倉庫作了對比,引入了大數(shù)據(jù)的分析流程框架,對分析流程框架的各個(gè)部分做了一一闡述,并通過實(shí)驗(yàn)驗(yàn)證分析了流程框架的可行性。
大數(shù)據(jù) 分析 數(shù)據(jù)倉庫
當(dāng)今時(shí)代不僅是一個(gè)數(shù)據(jù)爆炸的時(shí)代,更是一個(gè)大數(shù)據(jù)爆發(fā)的時(shí)代。面對大數(shù)據(jù)的激流,多元化數(shù)據(jù)的大量涌現(xiàn),大數(shù)據(jù)已經(jīng)影響了社會生活的各個(gè)角落。大數(shù)據(jù)的“大”并不僅僅指容量,同傳統(tǒng)數(shù)據(jù)源比較,大數(shù)據(jù)的速度(數(shù)據(jù)傳輸和接收的速度)、復(fù)雜度以及多樣性都有明顯的增加。文獻(xiàn)提出了大數(shù)據(jù)的主要4V 特性:數(shù)據(jù)量( Volume) 、多樣性( Variety) 、處理速度( Velocity)及數(shù)據(jù)價(jià)值(Value)。由于數(shù)據(jù)量從TB級向PB級躍遷,對于數(shù)據(jù)的分析要從常規(guī)的分析轉(zhuǎn)入深入的分析,同時(shí)要實(shí)現(xiàn)對于從高成本的硬件平臺向低成本的硬件平臺進(jìn)行過渡,這一系列變化都為大數(shù)據(jù)的分析帶來了挑戰(zhàn)。
傳統(tǒng)的數(shù)據(jù)倉庫將整個(gè)數(shù)據(jù)分析的層次劃分為4層。傳統(tǒng)的數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過ETL工具對其進(jìn)行相應(yīng)的抽取,并將其在數(shù)據(jù)倉庫中進(jìn)行集中存儲和管理。再通過經(jīng)典模型(如星型模型)組織數(shù)據(jù),之后使用OLAP工具從數(shù)據(jù)倉庫中對其進(jìn)行讀取,生成數(shù)據(jù)立方體(MOLAP)或者是直接訪問數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析(R OLAP)。
相較于傳統(tǒng)的數(shù)據(jù)倉庫,為大數(shù)據(jù)的變化帶來了諸多問題:
3.1 數(shù)據(jù)的成本問題
數(shù)據(jù)在通過復(fù)雜的ETL過程后,存儲到數(shù)據(jù)倉庫中,在OLAP服務(wù)器中轉(zhuǎn)換為經(jīng)典模型。并且在執(zhí)行分析時(shí),在連接數(shù)據(jù)庫將其數(shù)據(jù)取出,這些代價(jià)在TB級時(shí)尚可接受,當(dāng)面對呈指數(shù)級別增長的大數(shù)據(jù)時(shí),會帶來很高的移動數(shù)據(jù)的成本。因此傳統(tǒng)的方式不可取。
3.2 數(shù)據(jù)的變化性
傳統(tǒng)的數(shù)據(jù)倉庫主題是變化較少,在傳統(tǒng)數(shù)據(jù)庫中解決變化的方式對數(shù)據(jù)源到前端展現(xiàn)的整個(gè)流程中的每個(gè)部分進(jìn)行更改,然后再重新加載數(shù)據(jù)。甚至有可能重新計(jì)算數(shù)據(jù),導(dǎo)致其適應(yīng)變化的周期較長。此模式適應(yīng)的場合,是數(shù)據(jù)質(zhì)量較高、查詢性能高及不是十分計(jì)較預(yù)處理代價(jià)。而在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)富于變化和多樣,因此這種模式不適應(yīng)新的需求。
3.3 數(shù)據(jù)集的處理
傳統(tǒng)的數(shù)據(jù)集都是在數(shù)據(jù)庫外進(jìn)行創(chuàng)建,每個(gè)分析專家都會獨(dú)立創(chuàng)建自己的分析數(shù)據(jù)集,并且,每個(gè)分析工作都是由這些專家獨(dú)立完成的,這表明了可能會有更多的人同時(shí)在創(chuàng)建不同的企業(yè)數(shù)據(jù)視圖。一個(gè)ADS(Analytic Data Sets)通常只會服務(wù)一個(gè)項(xiàng)目,每個(gè)專家都會擁有自己的生產(chǎn)數(shù)據(jù)樣本。這些獨(dú)立的數(shù)據(jù)集都會導(dǎo)致每個(gè)項(xiàng)目最終產(chǎn)生大量的數(shù)據(jù),而在大數(shù)據(jù)的環(huán)境下,首先數(shù)據(jù)量就很大,數(shù)據(jù)本身占用空間。其次是對于數(shù)據(jù)的價(jià)值的重復(fù)利用,微小差別而不同的結(jié)果集的取舍。再次是對資源和精力的節(jié)約,以降低成本。
在文獻(xiàn)中提到了采用Map R educe及并行式數(shù)據(jù)庫的混合架構(gòu)型的解決方案同時(shí)與Map R educe主導(dǎo)型和并行式數(shù)據(jù)庫主導(dǎo)型作了對比分析,文中在采用Map R educe及并行式數(shù)據(jù)庫集成型的數(shù)據(jù)庫的基礎(chǔ)上提出一個(gè)大數(shù)據(jù)分析的流程框架。系統(tǒng)地闡述了大數(shù)據(jù)分析的整個(gè)過程。其流程分為6個(gè)重要的階段。在現(xiàn)代的庫內(nèi)分析框架下,通過對于大數(shù)據(jù)的使用和研究,做出了一個(gè)大數(shù)據(jù)分析的初步流程:大數(shù)據(jù)的預(yù)處理階段、大數(shù)據(jù)的輸入接口、分析沙箱、大數(shù)據(jù)的輸出接口、大數(shù)據(jù)的展示以及大數(shù)據(jù)的價(jià)值評價(jià)。
3.3.1 大數(shù)據(jù)的預(yù)處理階段
大數(shù)據(jù)的預(yù)處理過程即一個(gè)數(shù)據(jù)的清洗過程,從字面上理解是將以存儲好的數(shù)據(jù)進(jìn)行一個(gè)去“臟”的過程。更確切的說法是將存儲數(shù)據(jù)中可識別的錯誤去除。在數(shù)據(jù)倉庫中和數(shù)據(jù)挖掘過程中,數(shù)據(jù)清洗是使得數(shù)據(jù)在一致性(Consistency)、正確性(Correctness)、完整性(Completeness)和最小性(Minimality)四個(gè)指標(biāo)滿足上達(dá)到最優(yōu)。
數(shù)據(jù)的預(yù)處理過程是對大數(shù)據(jù)進(jìn)行正式使用和分析的最后一道門檻,在大數(shù)據(jù)的背景之下,在來源不一的海量數(shù)據(jù)中,存儲了冗余、復(fù)雜及錯誤的數(shù)據(jù),之后的“去粗存精”、“去偽存真”的過程交給了數(shù)據(jù)的預(yù)處理階段,能夠在極短的時(shí)間內(nèi),抽取出高質(zhì)量的數(shù)據(jù),形成統(tǒng)一的規(guī)范,滿足接下來的數(shù)據(jù)的接口,將是大數(shù)據(jù)研究的熱點(diǎn)。
在Map R educe中,一次性的分析操作居多。對于多維數(shù)據(jù)的預(yù)計(jì)算,大數(shù)據(jù)上的分析操作雖然難以預(yù)測,但傳統(tǒng)的分析,如基于報(bào)表和多維數(shù)據(jù)的分析仍占多數(shù)。因此,在Map R educe與并行數(shù)據(jù)庫框架下的大數(shù)據(jù)分析平臺應(yīng)該利用預(yù)計(jì)算等手段加快數(shù)據(jù)分析的速度。出于對運(yùn)算的存儲空間的考慮,MOLAP顯然不可取,試想在數(shù)據(jù)量爆棚的時(shí)候計(jì)算數(shù)據(jù)立方體是多么可怕的事情,因此優(yōu)先考慮HOLAP的實(shí)現(xiàn)方案。在此階段,采用Map R educe的分布式預(yù)處理的策略,能一定程度上減少大數(shù)據(jù)移動所帶來的成本消耗。
3.3.2 大數(shù)據(jù)的輸入接口
在大數(shù)據(jù)的預(yù)處理階段完成后,對其滿足輸入規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一管理,并將輸入數(shù)據(jù)進(jìn)行一定的特征提取和數(shù)據(jù)的關(guān)聯(lián)分析。在通過使用輸入接口的同時(shí),開放算法接口模塊卡,接收來自不同的算法,而對數(shù)據(jù)集進(jìn)行分析和整理。
在整個(gè)大數(shù)據(jù)的輸入接口部分應(yīng)該要實(shí)現(xiàn)對數(shù)據(jù)分析的展示,特別是對復(fù)雜分析的解釋關(guān)聯(lián)展示,努力做到模塊接口的可視化。在形成可分析的數(shù)據(jù)集后,輸入接口與輸出接口應(yīng)同時(shí)具有按照主題或語義分類的存儲,這樣能夠解決主題變化,做到當(dāng)數(shù)據(jù)在輸入時(shí)就可以隨主題變化而改變。
3.3.3 分析沙箱
顧名思義,“沙箱”,一種孩子們常見的玩具,孩子們可以根據(jù)個(gè)人意愿在沙箱里把沙子堆砌成各種形狀。同樣,分析沙箱就研究而言,相當(dāng)于一個(gè)資源組,在這個(gè)資源組里,分析專家們能夠根據(jù)個(gè)人的意愿對數(shù)據(jù)進(jìn)行各種探索。在分析的整個(gè)流程中,沙箱為使用分析平臺的專家們提供更為專業(yè)的模塊接口和參數(shù)選擇,方便分析人員提取更為有效的數(shù)據(jù)參數(shù),來更加精確地展示分析結(jié)果。
3.3.4 大數(shù)據(jù)的輸出接口
作為大數(shù)據(jù)分析的出口,為大數(shù)據(jù)的輸出提供了統(tǒng)一的規(guī)范和標(biāo)準(zhǔn)。作為大數(shù)據(jù)展示的最后一道工序,大數(shù)據(jù)的輸出接口應(yīng)具備如下特點(diǎn):
①規(guī)范性:通過大數(shù)據(jù)輸出接口的數(shù)據(jù)應(yīng)具有一定的規(guī)范性,規(guī)范性為大數(shù)據(jù)的結(jié)果展示做了良好的保證。
②可復(fù)用性及剩余資料保存性:作為輸出結(jié)果集,大數(shù)據(jù)的所有參數(shù)或者是專家選擇參數(shù),在一次的分析過程中,其潛在的價(jià)值有可能被隱藏,需要有特定的、專門的數(shù)據(jù)倉庫來暫時(shí)保存這些具有潛在價(jià)值的結(jié)果集,對于使用專用算法的,其輸出結(jié)果集必然是其專用的數(shù)據(jù)參數(shù)集,而對于其未被專家選擇的參數(shù),輸出結(jié)果集應(yīng)對剩余參數(shù)進(jìn)行適當(dāng)保留,直到不再挖掘其價(jià)值為止。
③模型化:在大數(shù)據(jù)的輸出階段,應(yīng)盡可能將其模型化,以便在價(jià)值評估階段有利于數(shù)據(jù)的利用和評分,更有利于將其應(yīng)用在新的數(shù)據(jù)中,實(shí)現(xiàn)模型的復(fù)用。
④查詢共享性:Map R educe采用步步物化的處理方式,導(dǎo)致其I/O代價(jià)及網(wǎng)絡(luò)傳輸代價(jià)較高。在多個(gè)查詢間共享物化的中間結(jié)果(甚至原始數(shù)據(jù)),用以分?jǐn)偞鷥r(jià)并避免重復(fù)計(jì)算,這樣可以有效地降低Map R educe在物化過程中產(chǎn)生的代價(jià)。由此可見,如何在數(shù)據(jù)結(jié)果集之間建立多查詢的共享中間結(jié)果將是一項(xiàng)非常有實(shí)際應(yīng)用價(jià)值的研究。
⑤索引性:輸出結(jié)果集應(yīng)該具有一定的索引性,其輸入數(shù)據(jù)是多維度的,其結(jié)果也是多維度的,在其具有一定的規(guī)范性,應(yīng)該在Map R educe的背景框架下能夠完成多維索引,并且實(shí)現(xiàn)對于多維索引的查詢速度的提高。
3.3.5 大數(shù)據(jù)的展示
可視化工具發(fā)展得如此迅速,同時(shí)也被越來越多地應(yīng)用在各個(gè)領(lǐng)域,在大數(shù)據(jù)的結(jié)果展示中,采用數(shù)據(jù)可視化技術(shù)將更加高效形象地展示大數(shù)據(jù)的價(jià)值和鮮明的對比性。
應(yīng)用可視化技術(shù)具有以下特點(diǎn):
①關(guān)聯(lián)性??梢詫⒈硎緦ο蠡蚴录臄?shù)據(jù)的單個(gè)或者多個(gè)屬性和變量進(jìn)行關(guān)聯(lián),而數(shù)據(jù)可以按其所在的不同維度,將其分類、排序、組合、關(guān)聯(lián)和顯示。在一定程度上體現(xiàn)出了數(shù)據(jù)之間的關(guān)聯(lián)性,簡單說可以將財(cái)務(wù)報(bào)表與銷售報(bào)表進(jìn)行關(guān)聯(lián),就復(fù)雜關(guān)聯(lián)來講,讓尿布與啤酒的銷售量關(guān)聯(lián)也成為了可能。
②互動性。使用者可以方便地使用交互的方式管理和開發(fā)數(shù)據(jù)。
③可視性。通過數(shù)據(jù)接口的數(shù)據(jù)可以用圖像、曲線、三維立體及動畫等多種方式來展示,通過展示后,專家可以對其模式、關(guān)系和趨勢進(jìn)行進(jìn)一步明了的分析。
3.3.6 大數(shù)據(jù)的價(jià)值評估
隨著分析流程的擴(kuò)展性不斷提高,新的分析流程如何利用分析后的價(jià)值把企業(yè)帶到一個(gè)更高的層次,文中引入對于大數(shù)據(jù)的價(jià)值評估方案。分析流程最終會產(chǎn)生新的信息,比如,在市場營銷方面,客戶購買某一種產(chǎn)品的概率,某個(gè)產(chǎn)品的最優(yōu)價(jià)格或者是在促銷活動中能帶來銷量提升的區(qū)域。將大數(shù)據(jù)輸出接口中的分析模型應(yīng)用于最新數(shù)據(jù),就是評分。在大數(shù)據(jù)的價(jià)值評估階段,應(yīng)具備兩種要素:
①嵌入式評分。嵌入式評分能在數(shù)據(jù)庫內(nèi)定期地執(zhí)行評分過程,令使用者可以更加高效地、更加方便地使用結(jié)果集所輸出的模型。應(yīng)該盡可能包含部署每一個(gè)獨(dú)立的評分過程和建立一個(gè)健全的機(jī)制來管理和監(jiān)控這個(gè)評分過程。
②校驗(yàn)評估。校驗(yàn)評估是在檢驗(yàn)對于專業(yè)數(shù)據(jù)處理分析的準(zhǔn)確性,同人工神經(jīng)網(wǎng)絡(luò)和決策樹判定一樣,大數(shù)據(jù)的應(yīng)用管理同時(shí)需要檢驗(yàn),檢驗(yàn)它在某一個(gè)專業(yè)領(lǐng)域的可行性,是否可以根據(jù)該分析方法和分析模型來判定這種方式的可行性,其準(zhǔn)確的校驗(yàn)識別率決定這種分析模型的可行性。例如,就石油勘探開發(fā)領(lǐng)域應(yīng)用,在使用大數(shù)據(jù)進(jìn)行儲層參數(shù)預(yù)測時(shí),可以根據(jù)大數(shù)據(jù)對儲層參數(shù)進(jìn)行識別和匹配,尋找相似的儲層參數(shù),從而進(jìn)行評估。而在最初投放生產(chǎn)中,需要對其使用進(jìn)行有效地評估,確定這個(gè)模型的建立與使用是否有效和可行,可以同經(jīng)典的算法準(zhǔn)確率作對比,計(jì)算校驗(yàn)誤差值,來判定模型是否可行。
通過對大數(shù)據(jù)分析流程框架的制定,通過實(shí)驗(yàn)對其進(jìn)行驗(yàn)證。大數(shù)據(jù)分析流程框架在油氣勘探開發(fā)中的應(yīng)用,通過對修井記錄和以往的分析數(shù)據(jù)的抽取和對樣本數(shù)據(jù)的預(yù)處理,通過對分析方法目錄的算法調(diào)用,通過樣本數(shù)據(jù)對整個(gè)大數(shù)據(jù)分析系統(tǒng)進(jìn)行訓(xùn)練,使用輸入接口輸入帶診斷數(shù)據(jù)實(shí)現(xiàn)對分析數(shù)據(jù)的參數(shù)識別,最終生成診斷結(jié)果,并由大數(shù)據(jù)分析平臺系統(tǒng)對其識別進(jìn)行相應(yīng)的評估,生成評估結(jié)果。通過該應(yīng)用實(shí)現(xiàn)對大數(shù)據(jù)分析流程框架驗(yàn)證。
文中通過對傳統(tǒng)的數(shù)據(jù)分析流程的闡述,并對大數(shù)據(jù)形勢下的數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)倉庫進(jìn)行了對比。在此基礎(chǔ)上,提出了新形勢下的大數(shù)據(jù)分析流程框架,并詳細(xì)地闡述了大數(shù)據(jù)分析流程每一部分所要完成的工作。將其理論模型應(yīng)用到油氣勘探開發(fā)的抽油機(jī)故障診斷中,能夠?qū)⒋髷?shù)據(jù)的分析投入使用并推廣,將具有更廣闊的發(fā)展空間與前景。