亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的數(shù)據(jù)處理方法研究

        2014-07-13 12:07:16許超超
        電腦知識(shí)與技術(shù) 2014年5期
        關(guān)鍵詞:預(yù)處理大數(shù)據(jù)

        基于大數(shù)據(jù)的數(shù)據(jù)處理方法研究

        許超超

        (浙江煙草公司 臺(tái)州市公司,浙江 臺(tái)州 318000)

        摘要:針對(duì)大數(shù)據(jù)處理效率低問(wèn)題,該文提出了新的處理辦法。其基本思想是利用預(yù)處理方法和歷史查詢結(jié)果作為中間結(jié)果集,通過(guò)對(duì)中間集的匹配減少重復(fù)處理時(shí)間,提高處理效率。最后通過(guò)仿真實(shí)驗(yàn)對(duì)比分析,表明新方法能夠一定程度上提高數(shù)據(jù)處理效率。

        關(guān)鍵詞:大數(shù)據(jù);預(yù)處理;歷史查詢

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)05-0894-03

        Data Processing Method Based on Large Date

        XU Chao-chao

        (Taizhou Company of Zhejiang Tobacco Company, Taizhou 318000,China)

        Abstract: Due to the low efficiency in large data processing, this paper proposes a new approach, that basic idea is using preprocessing methods and historical query results as an intermediate result set, matching by the middle set, to reduce the time on duplication processing and improve processing efficiency. Finally, simulation experiments comparative analysis shows that the new method can improve the efficiency of data processing.

        Key words: big data; preprocessing; history query

        1 概述

        隨著無(wú)紙化電腦辦公的不斷普及,越來(lái)越多的數(shù)據(jù)被個(gè)人、企業(yè)和機(jī)器所產(chǎn)生,以TB或PB級(jí)別保存于存儲(chǔ)中,數(shù)據(jù)量直線上升。傳統(tǒng)的數(shù)據(jù)處理主要是對(duì)數(shù)據(jù)庫(kù)的直接操作,隨著數(shù)據(jù)量的急劇增加,處理效率將急劇下降。與此同時(shí),有效的數(shù)據(jù),正確的數(shù)據(jù)結(jié)果已成為企業(yè)競(jìng)爭(zhēng)的核心因素之一。因此,所有這些對(duì)大數(shù)據(jù)的處理能力和效率提出了更高的要求。

        為了更好的處理這些大數(shù)據(jù),許多機(jī)構(gòu)與公司開(kāi)發(fā)了相應(yīng)的新技術(shù)和新架構(gòu),主流思想是基于并行編程框架,以并行處理來(lái)提高數(shù)據(jù)處理效率,如MapReduce[1]通過(guò)機(jī)器線性擴(kuò)張線性增加并行計(jì)算能力,MapReduce-Merge在MapReduce基礎(chǔ)上增加數(shù)據(jù)合并,YARN解決并行共享槽瓶頸。此外也產(chǎn)生了其他的編程模型,如提高迭代計(jì)算能力的Twister[3]和Haloop[2],提高對(duì)圖計(jì)算的Pregel,但這些編程模型也是基于對(duì)MapReduce的改進(jìn),基礎(chǔ)依然是并行處理。

        雖然針對(duì)大數(shù)據(jù)的并行處理,但處理TB級(jí)的大數(shù)據(jù),如統(tǒng)計(jì)分析,依然需要花費(fèi)很長(zhǎng)時(shí)間,消耗很大的機(jī)器性能,這對(duì)企業(yè)交互式數(shù)據(jù)操作,依舊很難滿足即時(shí)需求。針對(duì)這種情況,該文設(shè)計(jì)了一種基于大數(shù)據(jù)的數(shù)據(jù)處理方法,通過(guò)歷史處理結(jié)果和預(yù)處理結(jié)果為中間結(jié)果集,減少數(shù)據(jù)重復(fù)處理,提高數(shù)據(jù)處理效率,為大數(shù)據(jù)的即時(shí)處理提供一種新思路和方法。

        2 基于大數(shù)據(jù)的數(shù)據(jù)處理框架

        圖1是基于大數(shù)據(jù)的數(shù)據(jù)處理框架。該框架主要依據(jù)用戶的查詢請(qǐng)求,依據(jù)查詢條件首先在歷史查詢集中匹配是否有相同或部分相同的查詢,若有,確認(rèn)歷史查詢集中的數(shù)據(jù)處理集是否都來(lái)自結(jié)果集,若是,直接返回結(jié)果,通過(guò)減少對(duì)數(shù)據(jù)的重復(fù)處理,從而減少時(shí)間消耗。

        其中,歷史查詢集是對(duì)歷史上用戶某段時(shí)間數(shù)據(jù)查詢時(shí)數(shù)據(jù)預(yù)處理結(jié)果,其結(jié)果包含兩份分別存于預(yù)結(jié)果集和結(jié)果集。預(yù)結(jié)果集和結(jié)果集時(shí)間單位里的數(shù)據(jù)預(yù)處理結(jié)果,不過(guò),預(yù)結(jié)果集表示有可能存在更新的最小時(shí)間單位數(shù)據(jù)預(yù)處理集合,而結(jié)果集表示不再變更的數(shù)據(jù)預(yù)處理集合,預(yù)處理結(jié)果粒度大小不一。工作流程如下所示:

        1)用戶提交新的查詢請(qǐng)求S;

        2)對(duì)查詢請(qǐng)求條件與歷史查詢集進(jìn)行匹配,匹配結(jié)果有三種:

        ① 匹配,歷史曾經(jīng)有相同的查詢,直接返回?cái)?shù)據(jù)預(yù)處理結(jié)果集合;

        ② 包含匹配,調(diào)用歷史結(jié)果集中的數(shù)據(jù)預(yù)處理結(jié)果集合,對(duì)超出的部分從預(yù)結(jié)果集和結(jié)果集中進(jìn)行重新匹配;

        ③ 不匹配,直接在結(jié)果集和預(yù)結(jié)果集中進(jìn)行匹配查詢,若是依然沒(méi)有匹配的結(jié)果,執(zhí)行新的查詢操作,結(jié)果放入預(yù)結(jié)果集或結(jié)果集。

        3)若數(shù)據(jù)處理集有來(lái)自預(yù)結(jié)果集,對(duì)來(lái)自預(yù)結(jié)果集的數(shù)據(jù)處理進(jìn)行更新,若預(yù)處理的結(jié)果變?yōu)椴辉僮兏D(zhuǎn)入結(jié)果集中。

        4)對(duì)數(shù)據(jù)處理集合并處理,形成結(jié)果R,依據(jù)具體請(qǐng)求進(jìn)行相關(guān)處理,將結(jié)果返回給用戶。

        5)若是結(jié)果R不是完全匹配得出的結(jié)果,將結(jié)果R更新到歷史查詢集中。

        3 基于大數(shù)據(jù)的數(shù)據(jù)處理框架關(guān)鍵技術(shù)

        基于大數(shù)據(jù)的數(shù)據(jù)處理框架的關(guān)鍵技術(shù)有查詢請(qǐng)求與歷史查詢匹配方法、預(yù)結(jié)果集更新、轉(zhuǎn)入結(jié)果集方法。

        3.1 查詢請(qǐng)求與歷史查詢匹配方法

        數(shù)據(jù)預(yù)處理結(jié)果主要要素有時(shí)間、數(shù)據(jù)源,是基于時(shí)間單位的粒度式數(shù)據(jù)處理結(jié)果,如圖2所示,它為企業(yè)的數(shù)據(jù)統(tǒng)計(jì)分析奠定快速反應(yīng)的基礎(chǔ)。

        圖2 數(shù)據(jù)預(yù)處理結(jié)構(gòu)

        因此查詢請(qǐng)求與歷史查詢匹配以兩者為匹配要點(diǎn)。匹配算法為:

        輸入:查詢請(qǐng)求Requst={Ts,Ds},歷史查詢集

        輸出:預(yù)處理結(jié)果集合Result

        算法基本思想:

        1)找到與查詢請(qǐng)求數(shù)據(jù)源相同的數(shù)據(jù)庫(kù)表集合T,T=Ts;

        2)查找該表集合T下包含處理時(shí)間或是相同時(shí)間的歷史查詢記錄,D={D=Ds or Ds ∈ D};

        3)若是Ds不包含D,跳轉(zhuǎn)結(jié)果集R匹配算法;

        4)若是D=Ds,從結(jié)果集S和預(yù)結(jié)果集U中得到相應(yīng)的預(yù)處理結(jié)果Result={r1,u1|r1∈R,u1∈U},結(jié)束算法;

        5)若是Ds ∈ D,重復(fù)步驟4);

        6)同時(shí),D=Ds-D,重復(fù)步驟3)。

        3.2 預(yù)結(jié)果集更新、轉(zhuǎn)入結(jié)果集方法

        數(shù)據(jù)預(yù)處理主要分為兩大類,一是不再變更,客觀存在的數(shù)據(jù)預(yù)處理,如幾年前的銷(xiāo)售數(shù)據(jù),其保存在結(jié)果集中,二是存在變更的數(shù)據(jù)預(yù)處理,如近期的銷(xiāo)售數(shù)據(jù),可能會(huì)存在更新等情況,此類數(shù)據(jù)預(yù)處理以最小時(shí)間單位形式放入預(yù)結(jié)果集中,但在一定的規(guī)則下,如時(shí)間限制、產(chǎn)品停用等可轉(zhuǎn)變?yōu)椴豢勺兏臄?shù)據(jù)預(yù)處理,轉(zhuǎn)入結(jié)果集。

        假設(shè)是對(duì)當(dāng)月的淘寶銷(xiāo)售數(shù)據(jù)預(yù)統(tǒng)計(jì),因?yàn)楫?dāng)月的數(shù)據(jù)將會(huì)因?yàn)橥素?、貨源不足等原因影響銷(xiāo)售數(shù)據(jù),故對(duì)當(dāng)月的銷(xiāo)售數(shù)據(jù)預(yù)處理結(jié)果將會(huì)存于預(yù)結(jié)果集中,但淘寶的當(dāng)月訂單狀態(tài)結(jié)束狀態(tài)時(shí),更新包含該訂單銷(xiāo)售數(shù)據(jù)預(yù)處理集合,那么在對(duì)當(dāng)月數(shù)據(jù)預(yù)處理后,其處理結(jié)果是不在變更的,將其轉(zhuǎn)入到結(jié)果集中,減少不必要的數(shù)據(jù)處理,并在一定程度上保證數(shù)據(jù)的準(zhǔn)確性。

        4 仿真實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)環(huán)境

        以Windows Server 2003為實(shí)驗(yàn)環(huán)境,Oracle 11g 為數(shù)據(jù)庫(kù),以現(xiàn)有營(yíng)銷(xiāo)系統(tǒng)的銷(xiāo)售數(shù)據(jù)為數(shù)據(jù)源,采用本文提出的方法對(duì)銷(xiāo)售數(shù)據(jù)按最小周期(5天)、月、季度、年的方式進(jìn)行預(yù)處理。以月為預(yù)結(jié)果集轉(zhuǎn)入結(jié)果集的規(guī)則。

        4.2 對(duì)比方法

        本實(shí)驗(yàn)將用現(xiàn)有的營(yíng)銷(xiāo)系統(tǒng)和新的統(tǒng)計(jì)系統(tǒng)對(duì)比統(tǒng)計(jì)銷(xiāo)售數(shù)據(jù)所花費(fèi)的時(shí)間和數(shù)據(jù)的準(zhǔn)確性。具體設(shè)計(jì)以下比較方法。

        1)最近一個(gè)周期某產(chǎn)品的銷(xiāo)售量統(tǒng)計(jì)對(duì)比。在一周期內(nèi)每日進(jìn)行數(shù)據(jù)查詢,對(duì)比每次花費(fèi)的時(shí)間和數(shù)據(jù)的準(zhǔn)確性。

        2)時(shí)間段某產(chǎn)品銷(xiāo)售量統(tǒng)計(jì)對(duì)比。進(jìn)行多個(gè)時(shí)間段(周期,月,季度)數(shù)據(jù)查詢,對(duì)比每次花費(fèi)的時(shí)間和數(shù)據(jù)的準(zhǔn)確性。

        4.3實(shí)驗(yàn)結(jié)果分析

        1) 最近一個(gè)周期某產(chǎn)品的銷(xiāo)售量統(tǒng)計(jì)對(duì)比

        圖3 周期查詢消耗時(shí)間 圖4 周期查詢數(shù)據(jù)準(zhǔn)確率

        圖3和圖4表明兩個(gè)系統(tǒng)查詢消耗時(shí)間差不多,新系統(tǒng)只是略少于原系統(tǒng),但準(zhǔn)確率一樣,都為100%。這是因?yàn)椴樵兊臄?shù)據(jù)源是查詢當(dāng)天產(chǎn)生的數(shù)據(jù),前幾天的數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)果存于預(yù)結(jié)果集中,每次都查詢都會(huì)進(jìn)行前幾天的數(shù)據(jù)更新,消耗大部分查詢時(shí)間.但是因?yàn)閿?shù)據(jù)實(shí)時(shí)更新,故兩個(gè)系統(tǒng)數(shù)據(jù)準(zhǔn)確率是相同的。

        2)時(shí)間段某產(chǎn)品銷(xiāo)售量統(tǒng)計(jì)對(duì)比

        圖5 時(shí)間段查詢消耗時(shí)間 圖6 時(shí)間段查詢準(zhǔn)確率

        圖5和圖6表明兩系統(tǒng)在時(shí)間段產(chǎn)品銷(xiāo)售量查詢時(shí)間新系統(tǒng)遠(yuǎn)小于原系統(tǒng),但在準(zhǔn)確率上有一定的降低.這是因?yàn)樾孪到y(tǒng)對(duì)一個(gè)月以前的數(shù)據(jù)進(jìn)行了預(yù)處理,并保存在結(jié)果集中。查詢?cè)乱陨现芷诘匿N(xiāo)售量時(shí),不用重新到數(shù)據(jù)庫(kù)中查詢,故時(shí)間大幅度減少.但因?yàn)楝F(xiàn)有數(shù)據(jù)庫(kù)操作是更新操作,若是訂單的更新是超過(guò)一個(gè)月后更新的話,變更數(shù)據(jù)會(huì)被忽略,屬異常個(gè)別情況。若采用銷(xiāo)售數(shù)據(jù)變更采用云數(shù)據(jù)庫(kù)等追加方式,則準(zhǔn)確率上可得到解決。

        5 總結(jié)

        本文針對(duì)大數(shù)據(jù)處理效率低問(wèn)題,提出了新的處理辦法。該方法的主要思想是利用預(yù)處理方法和歷史查詢結(jié)果作為中間結(jié)果集,通過(guò)對(duì)中間集的匹配減少重復(fù)處理時(shí)間,提高處理效率。仿真實(shí)驗(yàn)對(duì)比分析表明新方法能夠一定程度上提高數(shù)據(jù)處理效率。為進(jìn)一步提高數(shù)據(jù)處理能力,未來(lái)的工作還需改善數(shù)據(jù)準(zhǔn)確率以及數(shù)據(jù)更新計(jì)算。

        參考文獻(xiàn):

        [1] Dean J,Ghemawat S.MapReduce : Simplified data processing on large cluster[C]// Brewer E,Chen P, eds. Proc. Of the OSDI. California:USENIX Associasion,2004:137-150.

        [2] Bu Y Y,Howe B.Balazinskska M,et al.HaLoop: Efficient iterative data processing on large clusters [J].PVLDB2010,2010,3(1/2):285-296.

        [3] Ekanayake J,Li Hui,Zhang Bing-jing, et al. Twister: A Runtime for Iterative MapReduce[C] //The First International Workshop on MapReduce and its applications(MAPREDUCE10),2010:110-119.

        [3] 楊藝,周元.基于用戶查詢意圖識(shí)別的Web搜索優(yōu)化模型[J].計(jì)算機(jī)科學(xué),2012,39(1):264-267.

        [4] 尤川川,張桂剛.一種基于大數(shù)據(jù)的有效搜索方法[J].計(jì)算機(jī)科學(xué),2013,40(6):183-186.

        [5] 郭建波.海量結(jié)構(gòu)化大數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)探討[J]. SOFTWARE,2013.34(2):95-96.

        [6] 程學(xué)旗,王元卓.大數(shù)據(jù)計(jì)算的技術(shù)體系域引擎系統(tǒng)[J].高科技與產(chǎn)業(yè)化,2013(5).204:62-65.

        [7] 李超.大數(shù)據(jù)存儲(chǔ)檢索分析與應(yīng)用[J].云計(jì)算數(shù)據(jù)中心,2010(9).

        猜你喜歡
        預(yù)處理大數(shù)據(jù)
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        PMU數(shù)據(jù)預(yù)處理及壓縮算法
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        以轉(zhuǎn)爐為預(yù)處理爐冶煉不銹鋼的特點(diǎn)
        上海金屬(2013年4期)2013-12-20 07:57:14
        女人色毛片女人色毛片18| 中文字幕av永久免费在线| 色婷婷一区二区三区四区成人网| 日本公与熄乱理在线播放 | 亚洲国产精品天堂久久久| 美腿丝袜诱惑一区二区| 人妻中文无码久热丝袜| 在线观看网址你懂的| 亚洲一区二区三区av无| 精品无码av一区二区三区不卡| 欧美黑人又粗又硬xxxxx喷水| 久久免费国产精品一区二区| 能看不卡视频网站在线| 无码人妻精品一区二区三区东京热| 毛茸茸的中国女bbw| 无码专区亚洲avl| 亚洲国产综合精品中久| 国产成人无码精品久久二区三区 | 久久久久成人片免费观看蜜芽| 精品国产香蕉伊思人在线又爽又黄| 小草手机视频在线观看| 欧美日韩在线视频| 黑人巨大白妞出浆| 无码AⅤ最新av无码专区| 中文字幕色偷偷人妻久久一区 | 轻点好疼好大好爽视频| 欧美精品区| 蜜臀久久久精品国产亚洲av| 久久99精品久久久大学生| 天美传媒精品1区2区3区| 亚洲AV无码成人精品区H| 亚洲国产精品久久婷婷| 亚洲中文字幕久久精品无码喷水| 天天草夜夜草| 国产精品日韩亚洲一区二区| 极品白嫩的小少妇| 伊人一道本| 国产一区二区三区白浆肉丝| 国精品人妻无码一区二区三区性色| 成人区人妻精品一区二区不卡网站 | 99热视热频这里只有精品|