亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        海量數(shù)據(jù)實時處理算法設(shè)計與分析

        2016-05-14 14:38:09李敏
        儷人·教師版 2016年7期
        關(guān)鍵詞:海量數(shù)據(jù)

        李敏

        【摘要】本論文針對海量數(shù)據(jù)的處理分析設(shè)計了相應(yīng)的算法,主要是通過預(yù)處理、分布緩存和復(fù)用中間結(jié)果三種方法對MapReduce算法進(jìn)行優(yōu)化處理。本文的實驗部分會對房價方面的數(shù)據(jù)用hash算法進(jìn)行分析和處理。通過實驗得出結(jié)論,該算法可以處理海量數(shù)據(jù)。

        【關(guān)鍵詞】海量數(shù)據(jù) MapReduce算法 hash

        一、背景以及現(xiàn)狀

        隨著互聯(lián)網(wǎng)的發(fā)展,在許多科學(xué)領(lǐng)域,信息數(shù)量呈指數(shù)型增長。截止到2011年全球信息總量為1.8ZB[1]。海量數(shù)據(jù)的時代已經(jīng)來臨,然而面對海量數(shù)據(jù)該如何存儲,如何有效的處理,及時有效的處理了這些數(shù)據(jù)對于各行各業(yè)乃至整個社會的發(fā)展有著重要的意義。過去的幾年里單機(jī)的性能得到發(fā)展,硬件也得到發(fā)展。但在理論上這些硬件技術(shù)的發(fā)展是有限的。現(xiàn)今的多核技術(shù)就是并行技術(shù)發(fā)展的一個實例[2]。

        二、MapReduce的技術(shù)特征

        1)橫向擴(kuò)展與縱向擴(kuò)展。對于MapReduce集群的構(gòu)建采用低廉且容易擴(kuò)展的低端商用服務(wù)器,考慮到大量數(shù)據(jù)存儲的需要,基于低端服務(wù)器的集群遠(yuǎn)比基于高端服務(wù)器的集群優(yōu)越,所以基于低端服務(wù)器實現(xiàn)都會使用MapReduce并行計算集群。

        2)失效與常態(tài)。相對低端的服務(wù)器適用于MapReduce集群,無論哪個節(jié)點失效,其他的節(jié)點要無縫接管著失效節(jié)點的計算任務(wù);當(dāng)該節(jié)點恢復(fù)以后將不需要人工配置而是能自動無縫加入集群。

        3)處理向數(shù)據(jù)遷移。MapReduce采取數(shù)據(jù)與代碼互定位的技術(shù)時,計算節(jié)點首先計算其本地存儲的數(shù)據(jù)并對其負(fù)責(zé)使數(shù)據(jù)發(fā)揮本地化的特點。

        三、對MapReduce改進(jìn)

        (一)預(yù)處理算法

        大量事實證明,在數(shù)據(jù)挖掘中整個工作量的60%到80%都是數(shù)據(jù)預(yù)處理[3]。通過數(shù)據(jù)預(yù)處理工作可以使殘缺的數(shù)據(jù)變得完整,能達(dá)到數(shù)據(jù)類型相同化、數(shù)據(jù)格式的一致化、數(shù)據(jù)存儲集中化和數(shù)據(jù)信息精練化[4]。采用Hash算法,間接取余法。公式:f(x):= x mod maxM ; maxM一般是不太接近 2^t 的一個質(zhì)數(shù)。得余數(shù)x,根據(jù)x對源數(shù)據(jù)進(jìn)行預(yù)處理分配,采用Hash取模進(jìn)行等價映射。

        (二)分布緩存

        對由N臺緩存服務(wù)器組成的集群緩存把集群依次編號為0 - (N-1)。

        1)hash機(jī)器節(jié)點。首先求出機(jī)器節(jié)點處的hash值,然后把它分布到0~2^32的一個圓環(huán)上(順時針分布)。如圖3-1,集群中有ABCDE五臺機(jī)器,通過hash算法把它們分布到如圖3-1所示的環(huán)上。

        2)訪問方式。寫入緩存的請求,Key值為K計算器hash值為hash(K),Hash(K)對應(yīng)著圖3-1環(huán)中的某一個點。若該點沒有對應(yīng)映射到具體的某個機(jī)器節(jié)點上,就進(jìn)行順時針查找直到找到確定的目標(biāo)節(jié)點,也就是首次有映射機(jī)器的節(jié)點。Hash(K)的值介于A~B之間時,那么它命中的機(jī)器節(jié)點應(yīng)當(dāng)就是圖3-1中的B節(jié)點。

        3)增加節(jié)點的處理。如圖3-1中如果在原有集群的基礎(chǔ)上想再增加一臺機(jī)器F,過程如下,首先要計算機(jī)器節(jié)點的Hash值,找到環(huán)中的一個節(jié)點,把機(jī)器映射上,如圖3-2所示。在增加機(jī)器節(jié)點F以后訪問策略不發(fā)生改變,按2)中的方式繼續(xù)訪問,那么此時仍然是不可避免的是緩存不命中的情況,hash(K)在增加節(jié)點之前不能命中的數(shù)據(jù)是落在C~F之間的數(shù)據(jù)。hash它使用了虛擬節(jié)點的思想,在圓上分配了100~200個點為其中的每一個物理節(jié)點,這樣就能較好的抑制了分布的不均勻的情況,還能最大限度減小當(dāng)服務(wù)器增減時緩存的重新分布。

        {三}復(fù)用中間結(jié)果

        在對海量數(shù)據(jù)進(jìn)行了預(yù)處理和分布式緩存之后,采用簡單隨機(jī)取樣[5]的方法對緩存好的數(shù)據(jù)進(jìn)行隨機(jī)取樣具體實現(xiàn)該方法。

        四、實驗

        本論文的實驗可以對是某地區(qū)房價數(shù)據(jù)進(jìn)行處理,簡要的過程如下:

        第一數(shù)據(jù)預(yù)處理階段,首先讓每一組數(shù)據(jù)分別自動編號,然后采用取余的方法。第二根據(jù)分組情況,分別把各組數(shù)據(jù)放置到不同的服務(wù)器上。第三采用簡單隨機(jī)取樣的方法對緩存好的數(shù)據(jù)進(jìn)行隨機(jī)取樣,選擇出最適合的房產(chǎn)。

        五、結(jié)束語

        本文在算法方面也還有一些不足之處,有待深入的分析。目前海量數(shù)據(jù)的處理還有很多值得深入研究和挖掘的地方,還將會是熱門的話題以及更多專家學(xué)者熱衷研究的方向。

        【參考文獻(xiàn)】

        [1] John Gantz, David Reinsel .The 2011 Digital Universe study: Extracting Value from Chaos [J]. International Data Corporation (IDC), 2011

        [2]陳康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學(xué)報,2009,20(5) :1337 -1348.

        [3]D. Romano, Data Mining Leading Edge: Insurance&Banking, InProceedings of Knowledge Discovery and Data Mining, Unicorn, BrunelUniversity, 1997.

        [4]劉軍強(qiáng),高建民,李言等.基于逆向工程的點云數(shù)據(jù)預(yù)處理技術(shù)研究.現(xiàn)代制造工程.2005.7: 73-75.

        [5]Jiawei Han, Micheline Kambe;著,范明,孟小峰,數(shù)據(jù)挖掘概念與技術(shù)機(jī)械工業(yè)出版社,2001.

        猜你喜歡
        海量數(shù)據(jù)
        云存儲服務(wù)端海量數(shù)據(jù)安全存儲的加密解決方案
        基于HADOOP集群的數(shù)據(jù)采集和清洗
        軟件工程(2016年11期)2017-01-17 17:05:51
        商業(yè)銀行海量金融數(shù)據(jù)分析中數(shù)據(jù)分析技術(shù)的實踐探究
        海量數(shù)據(jù)庫的設(shè)計與優(yōu)化
        基于hadoop平臺海量數(shù)據(jù)的快速查詢與實現(xiàn)
        基于Hadoop的海量電信數(shù)據(jù)云計算平臺研究
        MongoDB在氣象傳感器數(shù)據(jù)處理中的應(yīng)用
        軟件(2015年11期)2016-01-12 07:59:59
        一種基于HBase的交通旅行時間計算方法
        基于MapReduce的海量數(shù)據(jù)動態(tài)裝箱算法研究
        基于遺傳算法的多中心海量數(shù)據(jù)布局研究
        国精产品推荐视频| 亚洲精品女人天堂av麻| 黄色国产一区二区99| 乱色精品无码一区二区国产盗 | 国产喷白浆精品一区二区| 亚洲一区二区三区av资源| 国产无套粉嫩白浆在线观看| 久久久久久成人毛片免费看 | 成年人视频在线播放麻豆| 久久精品国产亚洲av精东| 国产高清在线精品一区二区三区| 久久成人免费电影| 精品人妻夜夜爽一区二区| 一二三四五区av蜜桃| 亚洲乱码中文字幕综合| 欧美色图50p| 女主播啪啪大秀免费观看 | 日韩美女av一区二区| 亚洲性无码一区二区三区| 精品高潮呻吟99av无码视频| 人妻少妇喷水意淫诱惑| 成人国产激情自拍视频| 最近在线更新8中文字幕免费| 国产丝袜在线精品丝袜不卡| 一区二区黄色素人黄色 | 成人av资源在线观看| 少妇高潮无套内谢麻豆传| 免费一级特黄欧美大片久久网| 久久爱91精品国产一区| 午夜被窝精品国产亚洲av香蕉 | 久久久久久av无码免费网站下载| 国产成人久久精品77777综合| 蜜臀aⅴ永久无码一区二区| 国语对白在线观看免费| 精品人妻中文无码av在线| 亚洲日韩AV秘 无码一区二区| 在线亚洲精品中文字幕美乳色| 亚洲性久久久影院| 伊人婷婷在线| 91桃色在线播放国产| 加勒比hezyo黑人专区|