亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)分析流程框架的研究

        2016-12-31 23:40:22金宗澤馮亞麗文必龍楊正男張希東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院
        數(shù)碼世界 2016年2期
        關(guān)鍵詞:數(shù)據(jù)倉庫預(yù)處理框架

        金宗澤 馮亞麗 文必龍 楊正男 張希東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院

        大數(shù)據(jù)分析流程框架的研究

        金宗澤 馮亞麗 文必龍 楊正男 張希
        東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院

        隨著信息技術(shù)的不斷創(chuàng)新,信息量的不斷擴(kuò)大,大數(shù)據(jù)已經(jīng)成為了與日常生活息息相關(guān)的話題。挖掘大數(shù)據(jù)的價(jià)值已經(jīng)炙手可熱,如何能夠更高效、更快速地分析大數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)發(fā)展的重要挑戰(zhàn)之一。近年來,學(xué)術(shù)界與工業(yè)界就大數(shù)據(jù)的分析進(jìn)行了研究,取得了一些研究成果,但針對大數(shù)據(jù)分析的研究還是非常有限。文中首先從傳統(tǒng)數(shù)據(jù)倉庫與大數(shù)據(jù)時(shí)代數(shù)據(jù)倉庫作了對比,引入了大數(shù)據(jù)的分析流程框架,對分析流程框架的各個(gè)部分做了一一闡述,并通過實(shí)驗(yàn)驗(yàn)證分析了流程框架的可行性。

        大數(shù)據(jù) 分析 數(shù)據(jù)倉庫

        1 引言

        當(dāng)今時(shí)代不僅是一個(gè)數(shù)據(jù)爆炸的時(shí)代,更是一個(gè)大數(shù)據(jù)爆發(fā)的時(shí)代。面對大數(shù)據(jù)的激流,多元化數(shù)據(jù)的大量涌現(xiàn),大數(shù)據(jù)已經(jīng)影響了社會生活的各個(gè)角落。大數(shù)據(jù)的“大”并不僅僅指容量,同傳統(tǒng)數(shù)據(jù)源比較,大數(shù)據(jù)的速度(數(shù)據(jù)傳輸和接收的速度)、復(fù)雜度以及多樣性都有明顯的增加。文獻(xiàn)提出了大數(shù)據(jù)的主要4V 特性:數(shù)據(jù)量( Volume) 、多樣性( Variety) 、處理速度( Velocity)及數(shù)據(jù)價(jià)值(Value)。由于數(shù)據(jù)量從TB級向PB級躍遷,對于數(shù)據(jù)的分析要從常規(guī)的分析轉(zhuǎn)入深入的分析,同時(shí)要實(shí)現(xiàn)對于從高成本的硬件平臺向低成本的硬件平臺進(jìn)行過渡,這一系列變化都為大數(shù)據(jù)的分析帶來了挑戰(zhàn)。

        2 傳統(tǒng)的數(shù)據(jù)倉庫架構(gòu)

        傳統(tǒng)的數(shù)據(jù)倉庫將整個(gè)數(shù)據(jù)分析的層次劃分為4層。傳統(tǒng)的數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過ETL工具對其進(jìn)行相應(yīng)的抽取,并將其在數(shù)據(jù)倉庫中進(jìn)行集中存儲和管理。再通過經(jīng)典模型(如星型模型)組織數(shù)據(jù),之后使用OLAP工具從數(shù)據(jù)倉庫中對其進(jìn)行讀取,生成數(shù)據(jù)立方體(MOLAP)或者是直接訪問數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析(R OLAP)。

        3 大數(shù)據(jù)分析流程框架

        相較于傳統(tǒng)的數(shù)據(jù)倉庫,為大數(shù)據(jù)的變化帶來了諸多問題:

        3.1 數(shù)據(jù)的成本問題

        數(shù)據(jù)在通過復(fù)雜的ETL過程后,存儲到數(shù)據(jù)倉庫中,在OLAP服務(wù)器中轉(zhuǎn)換為經(jīng)典模型。并且在執(zhí)行分析時(shí),在連接數(shù)據(jù)庫將其數(shù)據(jù)取出,這些代價(jià)在TB級時(shí)尚可接受,當(dāng)面對呈指數(shù)級別增長的大數(shù)據(jù)時(shí),會帶來很高的移動數(shù)據(jù)的成本。因此傳統(tǒng)的方式不可取。

        3.2 數(shù)據(jù)的變化性

        傳統(tǒng)的數(shù)據(jù)倉庫主題是變化較少,在傳統(tǒng)數(shù)據(jù)庫中解決變化的方式對數(shù)據(jù)源到前端展現(xiàn)的整個(gè)流程中的每個(gè)部分進(jìn)行更改,然后再重新加載數(shù)據(jù)。甚至有可能重新計(jì)算數(shù)據(jù),導(dǎo)致其適應(yīng)變化的周期較長。此模式適應(yīng)的場合,是數(shù)據(jù)質(zhì)量較高、查詢性能高及不是十分計(jì)較預(yù)處理代價(jià)。而在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)富于變化和多樣,因此這種模式不適應(yīng)新的需求。

        3.3 數(shù)據(jù)集的處理

        傳統(tǒng)的數(shù)據(jù)集都是在數(shù)據(jù)庫外進(jìn)行創(chuàng)建,每個(gè)分析專家都會獨(dú)立創(chuàng)建自己的分析數(shù)據(jù)集,并且,每個(gè)分析工作都是由這些專家獨(dú)立完成的,這表明了可能會有更多的人同時(shí)在創(chuàng)建不同的企業(yè)數(shù)據(jù)視圖。一個(gè)ADS(Analytic Data Sets)通常只會服務(wù)一個(gè)項(xiàng)目,每個(gè)專家都會擁有自己的生產(chǎn)數(shù)據(jù)樣本。這些獨(dú)立的數(shù)據(jù)集都會導(dǎo)致每個(gè)項(xiàng)目最終產(chǎn)生大量的數(shù)據(jù),而在大數(shù)據(jù)的環(huán)境下,首先數(shù)據(jù)量就很大,數(shù)據(jù)本身占用空間。其次是對于數(shù)據(jù)的價(jià)值的重復(fù)利用,微小差別而不同的結(jié)果集的取舍。再次是對資源和精力的節(jié)約,以降低成本。

        在文獻(xiàn)中提到了采用Map R educe及并行式數(shù)據(jù)庫的混合架構(gòu)型的解決方案同時(shí)與Map R educe主導(dǎo)型和并行式數(shù)據(jù)庫主導(dǎo)型作了對比分析,文中在采用Map R educe及并行式數(shù)據(jù)庫集成型的數(shù)據(jù)庫的基礎(chǔ)上提出一個(gè)大數(shù)據(jù)分析的流程框架。系統(tǒng)地闡述了大數(shù)據(jù)分析的整個(gè)過程。其流程分為6個(gè)重要的階段。在現(xiàn)代的庫內(nèi)分析框架下,通過對于大數(shù)據(jù)的使用和研究,做出了一個(gè)大數(shù)據(jù)分析的初步流程:大數(shù)據(jù)的預(yù)處理階段、大數(shù)據(jù)的輸入接口、分析沙箱、大數(shù)據(jù)的輸出接口、大數(shù)據(jù)的展示以及大數(shù)據(jù)的價(jià)值評價(jià)。

        3.3.1 大數(shù)據(jù)的預(yù)處理階段

        大數(shù)據(jù)的預(yù)處理過程即一個(gè)數(shù)據(jù)的清洗過程,從字面上理解是將以存儲好的數(shù)據(jù)進(jìn)行一個(gè)去“臟”的過程。更確切的說法是將存儲數(shù)據(jù)中可識別的錯誤去除。在數(shù)據(jù)倉庫中和數(shù)據(jù)挖掘過程中,數(shù)據(jù)清洗是使得數(shù)據(jù)在一致性(Consistency)、正確性(Correctness)、完整性(Completeness)和最小性(Minimality)四個(gè)指標(biāo)滿足上達(dá)到最優(yōu)。

        數(shù)據(jù)的預(yù)處理過程是對大數(shù)據(jù)進(jìn)行正式使用和分析的最后一道門檻,在大數(shù)據(jù)的背景之下,在來源不一的海量數(shù)據(jù)中,存儲了冗余、復(fù)雜及錯誤的數(shù)據(jù),之后的“去粗存精”、“去偽存真”的過程交給了數(shù)據(jù)的預(yù)處理階段,能夠在極短的時(shí)間內(nèi),抽取出高質(zhì)量的數(shù)據(jù),形成統(tǒng)一的規(guī)范,滿足接下來的數(shù)據(jù)的接口,將是大數(shù)據(jù)研究的熱點(diǎn)。

        在Map R educe中,一次性的分析操作居多。對于多維數(shù)據(jù)的預(yù)計(jì)算,大數(shù)據(jù)上的分析操作雖然難以預(yù)測,但傳統(tǒng)的分析,如基于報(bào)表和多維數(shù)據(jù)的分析仍占多數(shù)。因此,在Map R educe與并行數(shù)據(jù)庫框架下的大數(shù)據(jù)分析平臺應(yīng)該利用預(yù)計(jì)算等手段加快數(shù)據(jù)分析的速度。出于對運(yùn)算的存儲空間的考慮,MOLAP顯然不可取,試想在數(shù)據(jù)量爆棚的時(shí)候計(jì)算數(shù)據(jù)立方體是多么可怕的事情,因此優(yōu)先考慮HOLAP的實(shí)現(xiàn)方案。在此階段,采用Map R educe的分布式預(yù)處理的策略,能一定程度上減少大數(shù)據(jù)移動所帶來的成本消耗。

        3.3.2 大數(shù)據(jù)的輸入接口

        在大數(shù)據(jù)的預(yù)處理階段完成后,對其滿足輸入規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一管理,并將輸入數(shù)據(jù)進(jìn)行一定的特征提取和數(shù)據(jù)的關(guān)聯(lián)分析。在通過使用輸入接口的同時(shí),開放算法接口模塊卡,接收來自不同的算法,而對數(shù)據(jù)集進(jìn)行分析和整理。

        在整個(gè)大數(shù)據(jù)的輸入接口部分應(yīng)該要實(shí)現(xiàn)對數(shù)據(jù)分析的展示,特別是對復(fù)雜分析的解釋關(guān)聯(lián)展示,努力做到模塊接口的可視化。在形成可分析的數(shù)據(jù)集后,輸入接口與輸出接口應(yīng)同時(shí)具有按照主題或語義分類的存儲,這樣能夠解決主題變化,做到當(dāng)數(shù)據(jù)在輸入時(shí)就可以隨主題變化而改變。

        3.3.3 分析沙箱

        顧名思義,“沙箱”,一種孩子們常見的玩具,孩子們可以根據(jù)個(gè)人意愿在沙箱里把沙子堆砌成各種形狀。同樣,分析沙箱就研究而言,相當(dāng)于一個(gè)資源組,在這個(gè)資源組里,分析專家們能夠根據(jù)個(gè)人的意愿對數(shù)據(jù)進(jìn)行各種探索。在分析的整個(gè)流程中,沙箱為使用分析平臺的專家們提供更為專業(yè)的模塊接口和參數(shù)選擇,方便分析人員提取更為有效的數(shù)據(jù)參數(shù),來更加精確地展示分析結(jié)果。

        3.3.4 大數(shù)據(jù)的輸出接口

        作為大數(shù)據(jù)分析的出口,為大數(shù)據(jù)的輸出提供了統(tǒng)一的規(guī)范和標(biāo)準(zhǔn)。作為大數(shù)據(jù)展示的最后一道工序,大數(shù)據(jù)的輸出接口應(yīng)具備如下特點(diǎn):

        ①規(guī)范性:通過大數(shù)據(jù)輸出接口的數(shù)據(jù)應(yīng)具有一定的規(guī)范性,規(guī)范性為大數(shù)據(jù)的結(jié)果展示做了良好的保證。

        ②可復(fù)用性及剩余資料保存性:作為輸出結(jié)果集,大數(shù)據(jù)的所有參數(shù)或者是專家選擇參數(shù),在一次的分析過程中,其潛在的價(jià)值有可能被隱藏,需要有特定的、專門的數(shù)據(jù)倉庫來暫時(shí)保存這些具有潛在價(jià)值的結(jié)果集,對于使用專用算法的,其輸出結(jié)果集必然是其專用的數(shù)據(jù)參數(shù)集,而對于其未被專家選擇的參數(shù),輸出結(jié)果集應(yīng)對剩余參數(shù)進(jìn)行適當(dāng)保留,直到不再挖掘其價(jià)值為止。

        ③模型化:在大數(shù)據(jù)的輸出階段,應(yīng)盡可能將其模型化,以便在價(jià)值評估階段有利于數(shù)據(jù)的利用和評分,更有利于將其應(yīng)用在新的數(shù)據(jù)中,實(shí)現(xiàn)模型的復(fù)用。

        ④查詢共享性:Map R educe采用步步物化的處理方式,導(dǎo)致其I/O代價(jià)及網(wǎng)絡(luò)傳輸代價(jià)較高。在多個(gè)查詢間共享物化的中間結(jié)果(甚至原始數(shù)據(jù)),用以分?jǐn)偞鷥r(jià)并避免重復(fù)計(jì)算,這樣可以有效地降低Map R educe在物化過程中產(chǎn)生的代價(jià)。由此可見,如何在數(shù)據(jù)結(jié)果集之間建立多查詢的共享中間結(jié)果將是一項(xiàng)非常有實(shí)際應(yīng)用價(jià)值的研究。

        ⑤索引性:輸出結(jié)果集應(yīng)該具有一定的索引性,其輸入數(shù)據(jù)是多維度的,其結(jié)果也是多維度的,在其具有一定的規(guī)范性,應(yīng)該在Map R educe的背景框架下能夠完成多維索引,并且實(shí)現(xiàn)對于多維索引的查詢速度的提高。

        3.3.5 大數(shù)據(jù)的展示

        可視化工具發(fā)展得如此迅速,同時(shí)也被越來越多地應(yīng)用在各個(gè)領(lǐng)域,在大數(shù)據(jù)的結(jié)果展示中,采用數(shù)據(jù)可視化技術(shù)將更加高效形象地展示大數(shù)據(jù)的價(jià)值和鮮明的對比性。

        應(yīng)用可視化技術(shù)具有以下特點(diǎn):

        ①關(guān)聯(lián)性??梢詫⒈硎緦ο蠡蚴录臄?shù)據(jù)的單個(gè)或者多個(gè)屬性和變量進(jìn)行關(guān)聯(lián),而數(shù)據(jù)可以按其所在的不同維度,將其分類、排序、組合、關(guān)聯(lián)和顯示。在一定程度上體現(xiàn)出了數(shù)據(jù)之間的關(guān)聯(lián)性,簡單說可以將財(cái)務(wù)報(bào)表與銷售報(bào)表進(jìn)行關(guān)聯(lián),就復(fù)雜關(guān)聯(lián)來講,讓尿布與啤酒的銷售量關(guān)聯(lián)也成為了可能。

        ②互動性。使用者可以方便地使用交互的方式管理和開發(fā)數(shù)據(jù)。

        ③可視性。通過數(shù)據(jù)接口的數(shù)據(jù)可以用圖像、曲線、三維立體及動畫等多種方式來展示,通過展示后,專家可以對其模式、關(guān)系和趨勢進(jìn)行進(jìn)一步明了的分析。

        3.3.6 大數(shù)據(jù)的價(jià)值評估

        隨著分析流程的擴(kuò)展性不斷提高,新的分析流程如何利用分析后的價(jià)值把企業(yè)帶到一個(gè)更高的層次,文中引入對于大數(shù)據(jù)的價(jià)值評估方案。分析流程最終會產(chǎn)生新的信息,比如,在市場營銷方面,客戶購買某一種產(chǎn)品的概率,某個(gè)產(chǎn)品的最優(yōu)價(jià)格或者是在促銷活動中能帶來銷量提升的區(qū)域。將大數(shù)據(jù)輸出接口中的分析模型應(yīng)用于最新數(shù)據(jù),就是評分。在大數(shù)據(jù)的價(jià)值評估階段,應(yīng)具備兩種要素:

        ①嵌入式評分。嵌入式評分能在數(shù)據(jù)庫內(nèi)定期地執(zhí)行評分過程,令使用者可以更加高效地、更加方便地使用結(jié)果集所輸出的模型。應(yīng)該盡可能包含部署每一個(gè)獨(dú)立的評分過程和建立一個(gè)健全的機(jī)制來管理和監(jiān)控這個(gè)評分過程。

        ②校驗(yàn)評估。校驗(yàn)評估是在檢驗(yàn)對于專業(yè)數(shù)據(jù)處理分析的準(zhǔn)確性,同人工神經(jīng)網(wǎng)絡(luò)和決策樹判定一樣,大數(shù)據(jù)的應(yīng)用管理同時(shí)需要檢驗(yàn),檢驗(yàn)它在某一個(gè)專業(yè)領(lǐng)域的可行性,是否可以根據(jù)該分析方法和分析模型來判定這種方式的可行性,其準(zhǔn)確的校驗(yàn)識別率決定這種分析模型的可行性。例如,就石油勘探開發(fā)領(lǐng)域應(yīng)用,在使用大數(shù)據(jù)進(jìn)行儲層參數(shù)預(yù)測時(shí),可以根據(jù)大數(shù)據(jù)對儲層參數(shù)進(jìn)行識別和匹配,尋找相似的儲層參數(shù),從而進(jìn)行評估。而在最初投放生產(chǎn)中,需要對其使用進(jìn)行有效地評估,確定這個(gè)模型的建立與使用是否有效和可行,可以同經(jīng)典的算法準(zhǔn)確率作對比,計(jì)算校驗(yàn)誤差值,來判定模型是否可行。

        4 實(shí)驗(yàn)與應(yīng)用

        通過對大數(shù)據(jù)分析流程框架的制定,通過實(shí)驗(yàn)對其進(jìn)行驗(yàn)證。大數(shù)據(jù)分析流程框架在油氣勘探開發(fā)中的應(yīng)用,通過對修井記錄和以往的分析數(shù)據(jù)的抽取和對樣本數(shù)據(jù)的預(yù)處理,通過對分析方法目錄的算法調(diào)用,通過樣本數(shù)據(jù)對整個(gè)大數(shù)據(jù)分析系統(tǒng)進(jìn)行訓(xùn)練,使用輸入接口輸入帶診斷數(shù)據(jù)實(shí)現(xiàn)對分析數(shù)據(jù)的參數(shù)識別,最終生成診斷結(jié)果,并由大數(shù)據(jù)分析平臺系統(tǒng)對其識別進(jìn)行相應(yīng)的評估,生成評估結(jié)果。通過該應(yīng)用實(shí)現(xiàn)對大數(shù)據(jù)分析流程框架驗(yàn)證。

        5 結(jié)束語

        文中通過對傳統(tǒng)的數(shù)據(jù)分析流程的闡述,并對大數(shù)據(jù)形勢下的數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)倉庫進(jìn)行了對比。在此基礎(chǔ)上,提出了新形勢下的大數(shù)據(jù)分析流程框架,并詳細(xì)地闡述了大數(shù)據(jù)分析流程每一部分所要完成的工作。將其理論模型應(yīng)用到油氣勘探開發(fā)的抽油機(jī)故障診斷中,能夠?qū)⒋髷?shù)據(jù)的分析投入使用并推廣,將具有更廣闊的發(fā)展空間與前景。

        猜你喜歡
        數(shù)據(jù)倉庫預(yù)處理框架
        框架
        廣義框架的不相交性
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        一種基于OpenStack的云應(yīng)用開發(fā)框架
        亚洲av在线播放观看| 加勒比色老久久爱综合网| 免费无码又爽又刺激网站直播| 曰韩人妻无码一区二区三区综合部 | 国产精品免费看久久久无码| 亚洲av永久精品爱情岛论坛 | 久久国产成人午夜av影院| av网站可以直接看的| 美女露出奶头扒开内裤的视频| 无码 人妻 在线 视频| 久久国产劲暴∨内射| 国产精品无码久久久一区蜜臀 | 久久精品国产亚洲av夜夜| 伊人久久精品亚洲午夜| 色哟哟精品视频在线观看| 国产乱人伦偷精品视频| 国产伦码精品一区二区| 日本高清在线播放一区二区| 精品人妻码一区二区三区剧情| 色偷偷偷久久伊人大杳蕉| 亚洲国产一区二区三区亚瑟| 久久视频在线视频精品| 日韩精品视频免费在线观看网站| 中文字幕人妻在线中字| 精品欧洲av无码一区二区三区 | 一亚洲一区二区中文字幕| 日本一区二区不卡在线| 国产无遮挡又黄又爽高潮| 黄色视频免费在线观看| 日本韩国三级aⅴ在线观看| 亚洲精品一区二区三区四区| 久久99精品久久久久久清纯| 老熟女重囗味hdxx70星空| 中文字幕天天躁日日躁狠狠| 三个黑人插一个女的视频| 久久精品第九区免费观看| av在线亚洲欧洲日产一区二区| 国产精品一区二区三区精品| 国产一区二区在线中文字幕| 国产狂喷水潮免费网站www| 国产精品久久久久久影视|