亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于并行數(shù)據(jù)庫的海量數(shù)據(jù)分析處理方法的研究

        2017-07-24 15:45:32萌,管
        電子設(shè)計(jì)工程 2017年10期
        關(guān)鍵詞:海量數(shù)據(jù)處理數(shù)據(jù)庫

        梁 萌,管 陽

        (陜西國防工業(yè)職業(yè)技術(shù)學(xué)院 陜西 西安710300)

        基于并行數(shù)據(jù)庫的海量數(shù)據(jù)分析處理方法的研究

        梁 萌,管 陽

        (陜西國防工業(yè)職業(yè)技術(shù)學(xué)院 陜西 西安710300)

        隨著計(jì)算機(jī)信息處理系統(tǒng)的迅速發(fā)展,傳統(tǒng)的計(jì)算機(jī)數(shù)據(jù)處理能力已不能為如今海量的數(shù)據(jù)處理提供快速,簡捷,高效的數(shù)據(jù)分析處理。針對(duì)這一問題,文中提出了并行數(shù)據(jù)庫的海量數(shù)據(jù)分析處理方法,該方法詳細(xì)對(duì)比了MapReduce和并行數(shù)據(jù)庫技術(shù),然后確定選用并行數(shù)據(jù)庫的方法來處理海量數(shù)據(jù)。最后在該方法的基礎(chǔ)之上,提出了從數(shù)據(jù)讀取到數(shù)據(jù)處理的整個(gè)算法流程,該算法大幅縮短了海量數(shù)據(jù)處理的時(shí)間,使得數(shù)據(jù)處理更加高效,在未來的發(fā)展中有較強(qiáng)的實(shí)用價(jià)值。

        海量數(shù)據(jù);并行數(shù)據(jù)庫;處理時(shí)間

        隨著時(shí)代的不斷進(jìn)步,信息化的氣息也遍布在當(dāng)今各個(gè)領(lǐng)域,尤其在計(jì)算機(jī)行業(yè)。隨著系統(tǒng)硬件地不斷精確化,系統(tǒng)軟件更要不斷的更新。近年來,研究者面臨著接收、處理、分析爆炸式的數(shù)據(jù)信息的問題,如何使這些數(shù)據(jù)更加高效的運(yùn)轉(zhuǎn)成為了當(dāng)今研究者普遍關(guān)心的問題。海量數(shù)據(jù)既為大量數(shù)據(jù)[1],在人們?nèi)粘I钪校缢块T測量的大量數(shù)據(jù),氣象局不時(shí)獲得的氣象信息等,這些數(shù)據(jù)均極其龐大,同時(shí)這些數(shù)據(jù)的格式也是千變?nèi)f化,有聲音、文字、圖像等。對(duì)于一個(gè)企業(yè)而言,這些數(shù)據(jù)至關(guān)重要,大量的數(shù)據(jù)統(tǒng)計(jì)不僅可發(fā)現(xiàn)客戶潛在的需求,同時(shí)還能夠開發(fā)出更多滿足客服需求的應(yīng)用。然而,任何事情均有兩面性,數(shù)據(jù)量的增大必然會(huì)導(dǎo)致大量數(shù)據(jù)存儲(chǔ)及處理速度的難題[2],為了解決以上難題就必須要求研究者不斷提出更高效的算法,本文提出的算法就是在該問題的前提下研究更加高效的數(shù)據(jù)處理及分析方法。

        目前,硬件系統(tǒng)的性能改善已提高到了有限度的境界。此外,文中可從軟件上改善數(shù)據(jù)處理的方式,目前最流行的技術(shù)就是多核技術(shù)[3],該技術(shù)的核心為并行技術(shù),即分而治之,本文所要討論的并行技術(shù)為MapReduce技術(shù)和并行數(shù)據(jù)庫技術(shù)[4]這兩種主流技術(shù)。

        1 海量數(shù)據(jù)的存儲(chǔ)

        對(duì)于一個(gè)企業(yè)而言,數(shù)據(jù)既是財(cái)富,隨著信息化時(shí)代的飛速發(fā)展,數(shù)據(jù)量的增加突飛猛進(jìn),這就要求企業(yè)必須解決對(duì)海量數(shù)據(jù)存儲(chǔ)的難題。在此階段,各大企業(yè)也均提出了各自的解決方案,成功地完成了大數(shù)據(jù)的存儲(chǔ)難題,目前大多數(shù)企業(yè)采用文件服務(wù)器的方式進(jìn)行數(shù)據(jù)的存儲(chǔ),一小部分企業(yè)采用服務(wù)器內(nèi)置存儲(chǔ)空間的方法來存儲(chǔ)文件數(shù)據(jù),還有少部分企業(yè)采用NAS網(wǎng)關(guān)共享SAN網(wǎng)絡(luò)的方式來存儲(chǔ)數(shù)據(jù)[5]。此外,還有較少的一部分采用NAS網(wǎng)絡(luò)、集群式NAS、分布式文件系統(tǒng)及多協(xié)議支持的統(tǒng)一存儲(chǔ)系統(tǒng)解決數(shù)據(jù)存儲(chǔ)問題[6]。隨著信息化時(shí)代的不斷進(jìn)步,這些方法也會(huì)不斷的被更新或取代。

        2 海量數(shù)據(jù)的處理

        2.1 MapReduce技術(shù)

        由于Google搜索引擎每天要處理巨大的數(shù)據(jù)信息,因此該公司在2004年時(shí)提出了MapReduce技術(shù),該技術(shù)可分為Reduce和 Map兩個(gè)概念[7]?,F(xiàn)實(shí)中的諸多東西均可通過Reduce操作表達(dá)出來,而表達(dá)出的數(shù)據(jù)通過Map操作進(jìn)行處理,如圖1所示為Map/Reduce執(zhí)行流程圖,從input到output經(jīng)歷了Map/Reduce操作。為了能在不同的機(jī)器上運(yùn)行,Map操作首先將數(shù)據(jù)進(jìn)行了分區(qū)處理,完成分區(qū)處理后,Map操作又將數(shù)據(jù)進(jìn)行了分塊的處理。在圖1中Reduce操作通常根據(jù)用戶的指定完成數(shù)據(jù)分區(qū)數(shù)量和分區(qū)函數(shù)的劃分。

        圖1 Map/Reduce執(zhí)行流程

        2.2 并行數(shù)據(jù)庫技術(shù)

        并行數(shù)據(jù)庫技術(shù)即將并行計(jì)算和數(shù)據(jù)庫技術(shù)相融合的產(chǎn)物。為了提高對(duì)數(shù)據(jù)處理的效率,人們不斷意識(shí)到通過在空間和時(shí)間上的并行化處理能大幅改善效率,任務(wù)并行和數(shù)據(jù)并行共同組成了并行計(jì)算,兩者作用也大相徑庭。對(duì)于事物的管理和協(xié)調(diào),任務(wù)并行處理會(huì)使其更加復(fù)雜化,相反并行數(shù)據(jù)的功能就是將復(fù)雜的,龐大的大任務(wù)分解成諸多的子模塊,便于處理。吞吐量和響應(yīng)時(shí)間[8]是衡量一個(gè)數(shù)據(jù)庫優(yōu)劣的性能指標(biāo),對(duì)于并行數(shù)據(jù)庫的設(shè)計(jì),研究者要以提高這兩者性能為前提。并行數(shù)據(jù)庫的體系架構(gòu)圖如圖2所示,該架構(gòu)的設(shè)計(jì)是以共享內(nèi)存為前提設(shè)計(jì)的[9]。圖2所示為共享磁盤及無共享體系設(shè)計(jì)的體系架構(gòu),該體系架構(gòu)使得所有處理器共同享用一個(gè)內(nèi)存,從而使通信效率極高,訪問內(nèi)存的速度也較快,在對(duì)數(shù)據(jù)進(jìn)行存取或處理時(shí)占較大的優(yōu)勢(shì),故通常情況下選用該體系架構(gòu)。

        圖2 并行數(shù)據(jù)庫的體系架構(gòu)

        通過對(duì)MapReduce技術(shù)和并行數(shù)據(jù)庫技術(shù)的對(duì)比,文中選用并行數(shù)據(jù)庫來對(duì)數(shù)據(jù)進(jìn)行分析和處理,因本算法旨在提高數(shù)據(jù)庫的效率,而索引則是提高數(shù)據(jù)庫效率的一種方式,由于MapReduce技術(shù)是不支持索引的,當(dāng)必須要用到索引時(shí)其需要根據(jù)應(yīng)用編寫具體的索引程序,而并行數(shù)據(jù)則將具有共性的索引程序按照標(biāo)準(zhǔn)的格式進(jìn)行固化,從而大幅度提高了數(shù)據(jù)庫的效率。

        2.3 海量數(shù)據(jù)處理語言選擇

        對(duì)于一般數(shù)據(jù)而言,通常只需數(shù)據(jù)庫便可完成數(shù)據(jù)的處理,但對(duì)于海量數(shù)據(jù)庫的處理,其還需要程序的幫助才能完成。程序操作文本是處理程序數(shù)據(jù)庫和文本之間快速有效的方法,該方法對(duì)于文本的處理出錯(cuò)率低。文本格式能以任何方式存儲(chǔ),通常常見的日志均是以文本格式存儲(chǔ)的,對(duì)于這些日志數(shù)據(jù)的清除處理,可選用導(dǎo)入數(shù)據(jù)庫的方法[10]來完成。但通常情況下,對(duì)于大量數(shù)據(jù)的清除會(huì)選用編程處理,因而程序?qū)τ谔幚韽?fù)雜數(shù)據(jù)起著至關(guān)重要的作用,程序的優(yōu)劣直接決定著數(shù)據(jù)的準(zhǔn)確性和高效率性。

        當(dāng)處理龐大的數(shù)據(jù)時(shí),編程語言的選擇極其重要,因每一種語言針對(duì)的方面不同,在處理不同類問題時(shí)效率會(huì)出現(xiàn)差異,這就需要編程者在編程之前深思熟慮,仔細(xì)權(quán)衡編程時(shí)間和運(yùn)行時(shí)間的優(yōu)先性。腳本語言由于運(yùn)行時(shí)間長,因而在大數(shù)據(jù)的遍歷問題上不被人們接受。此外,其無法控制內(nèi)存的使用及文件的讀寫程序,且在大數(shù)據(jù)的處理中大多情況下要為文件進(jìn)行優(yōu)化,統(tǒng)籌兼顧,C/C++是處理海量數(shù)據(jù)的最佳選擇[11]。

        3 處理海量數(shù)據(jù)的算法實(shí)現(xiàn)

        在并行數(shù)據(jù)庫的基礎(chǔ)下,對(duì)于海量數(shù)據(jù)庫算法實(shí)現(xiàn)分成兩部分,分別為海量數(shù)據(jù)庫的讀取算法和海量數(shù)據(jù)庫的分析算法。前者對(duì)于任何文本文件類型的數(shù)據(jù),均能夠以字符的形式讀取出來,后者則需根據(jù)海量數(shù)據(jù)的類型格式進(jìn)行不同的處理。如圖3所示,該文件以.csv格式存儲(chǔ),文件在25 M左右,有152 049行,81列,其存儲(chǔ)形式如圖3所示,理論上該算法的執(zhí)行時(shí)間約為7 s[12]。

        圖3 文件內(nèi)容形式

        3.1 海量數(shù)據(jù)的讀取算法

        如圖4所示為海量數(shù)據(jù)讀取的流程圖,該讀取算法既是根據(jù)該流程編寫而成,首先需要為文件創(chuàng)建映射對(duì)象[13],完成映射對(duì)象的創(chuàng)建之后即可獲得系統(tǒng)分配粒度,然后將文件映射對(duì)象找到其在應(yīng)用程序中的地址,查看文件大小,最后文件以字符的形式被讀取處理出來。當(dāng)完成讀取之后,撤銷文件的映射[14-15],結(jié)束整個(gè)算法流程。

        3.2 海量數(shù)據(jù)的分析算法流程

        該階段對(duì)海量數(shù)據(jù)分析處理的過程,如圖5所示。首先建立信息存儲(chǔ)文件庫,以csv格式進(jìn)行存儲(chǔ),數(shù)據(jù)以逗號(hào)作為分隔符是該存儲(chǔ)文件的特點(diǎn),圖5所示流程圖旨在將圖3文件中的各個(gè)時(shí)間點(diǎn)的有效數(shù)據(jù),以及行列值提取出來,算法實(shí)現(xiàn)嚴(yán)格按照?qǐng)D5流程圖進(jìn)行編寫。圖6,7為海量算法執(zhí)行海量數(shù)據(jù)的結(jié)果圖,從圖6中可發(fā)現(xiàn),對(duì)于海量數(shù)據(jù)的訪問時(shí)間達(dá)到了7 s的理論值,在圖7中也能清析的看到提取的有效數(shù)據(jù)結(jié)果,該算法的驗(yàn)證,對(duì)未來大數(shù)據(jù)的處理,起到了至關(guān)重要的作用。

        圖4 讀取海量數(shù)據(jù)

        圖5 海量數(shù)據(jù)處理

        圖6 顯示執(zhí)行時(shí)間

        圖7 提取有效數(shù)據(jù)結(jié)果

        4 結(jié)束語

        文中提出了一種基于并行數(shù)據(jù)庫的海量數(shù)據(jù)處理算法,該算法旨在解決當(dāng)前大數(shù)據(jù)時(shí)代下龐大數(shù)據(jù)存儲(chǔ)及處理的難題,通過流程圖設(shè)計(jì)再到算法驗(yàn)證,證實(shí)了該算法的可行性及高效性,在未來具有良好的發(fā)展前景。

        [1]陳康,鄭緯民.云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5):1337-1348.

        [2]Dean J,Ghemawat S.MapReduce:Simplified data processing on largeclusters[M].In Proc.OSDI,2004.

        [3]David J,DeWitt,Jim Gray.Parallel database systems [M].The Future of High Performance Database Processing,1992.

        [4]Ben Lorica.HadoopDB[M].An Open Source Parallel Database,2009.

        [5]盛昀瑤,夏惠芬.云計(jì)算系統(tǒng)架構(gòu)與實(shí)例研究[J].軟件導(dǎo)刊,2012,11(12):3-5.

        [6]馮朝一.云理論在數(shù)據(jù)挖掘中的應(yīng)用研究 [D].南寧:廣西大學(xué),2007.

        [7]陳丹偉,黃秀麗,任勛益.云計(jì)算及安全分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(2):99-102.

        [8]Kostenetskii P S,Lepikhov A V,Sokolinskii L V. Technologies of Parallel Database Systems for Hierarchical Multiprocessor Environments.December,2006.

        [9]曹媛媛.云計(jì)算關(guān)鍵技術(shù)應(yīng)用及發(fā)展[J].電子科技,2011,24(11):141-143.

        [10]李凱,常征.基于云計(jì)算的并行數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].微計(jì)算機(jī)信息,2011,27(6):121-123.

        [11]劉鵬.云計(jì)算[M].2版.北京:電子工業(yè)出版社,2011.

        [12]Armbrust M,F(xiàn)ox A,Griffith R,et al.Above the Clouds:ABerkeley View of Cloud Computing[EB/ OL].[2011-01-10].http://www.EECS.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf.

        [13]李成華,張新訪,金海,等.MapReduce:新型的分布式并行計(jì)算編程模型[J].計(jì)算機(jī)工程與科學(xué),2011,33(3):129-135.

        [14]拓守恒.云計(jì)算與云數(shù)據(jù)存儲(chǔ)技術(shù)研究[J].電腦開發(fā)與應(yīng)用,2010,23(9):1-3.

        [15]楊麗婷.基于云計(jì)算數(shù)據(jù)存儲(chǔ)技術(shù)的研究[D].太原:中北大學(xué),2011.

        Research on the analysis and processing method of massive data based on parallel database

        LIANG Meng,GUAN Yang
        (Shaanxi National Defense College of Industrial Technology,Xi'an 710300,China)

        According to the rapid development of computer information processing system, data processing ability of traditional computer has not been able to now for the massive data processing provides fast,simple,efficient data analysis and processing,resulting in the massive data parallel database processing method.The methods were compared with MapReduce and parallel database technology,and then determine the selection method of parallel database processing of massive data based on this method,put forward from the read data to the data processing of the whole algorithm,the proposed algorithm can greatly shorten the data processing time,makes the data processing more efficient,there is strong practical value in the future.

        massive data;parallel database;processing time

        TN99

        A

        1674-6236(2017)10-0132-04

        2016-10-09稿件編號(hào):201610018

        國家自然科學(xué)基金(60902079)

        梁 萌(1981—),女,陜西戶縣人,碩士,講師。研究方向:計(jì)算機(jī)數(shù)學(xué)教學(xué),數(shù)據(jù)分析與處理。

        猜你喜歡
        海量數(shù)據(jù)處理數(shù)據(jù)庫
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
        數(shù)據(jù)庫
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
        少妇被粗大的猛进69视频| 中文乱码字字幕在线国语| 人人妻人人澡人人爽欧美一区双| 99精品免费久久久久久久久日本 | 国产精品一区二区在线观看完整版| 亚洲又黄又大又爽毛片| 日韩中文字幕素人水野一区| 正在播放国产多p交换视频| 亚洲最新偷拍网站| 亚洲国产av剧一区二区三区| 24小时在线免费av| 国产精品久久久久9999赢消| 国产在线手机视频| av免费在线手机观看| 成人日韩精品人妻久久一区| a级大胆欧美人体大胆666| 韩国精品一区二区三区| 亚洲综合国产精品一区二区 | 欧美人与动牲交a精品| 久久99精品免费一区二区| 国产精品黄页免费高清在线观看| 欧美牲交a欧美牲交| 97精品人妻一区二区三区香蕉| 韩日无码不卡| 中文字幕一区二区三区日日骚 | 97精品依人久久久大香线蕉97| 久久久99久久久国产自输拍| 国产在线91精品观看| 麻豆影视视频高清在线观看| 98在线视频噜噜噜国产| 国产精品午夜福利亚洲综合网 | 国产精品无码成人午夜电影| 亚洲日韩欧美一区二区三区| 精品久久中文字幕一区 | 强迫人妻hd中文字幕| 把女的下面扒开添视频| 久草视频国产| 视频在线播放观看免费| 高潮毛片无遮挡高清视频播放| 国产激情з∠视频一区二区| 亚洲区福利视频免费看|