亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云計(jì)算環(huán)境下基于數(shù)據(jù)關(guān)聯(lián)度的海洋監(jiān)測大數(shù)據(jù)布局策略*

        2015-03-19 00:36:14黃冬梅隨宏運(yùn)趙丹楓杜艷玲
        關(guān)鍵詞:關(guān)聯(lián)矩陣計(jì)算環(huán)境監(jiān)測數(shù)據(jù)

        黃冬梅,隨宏運(yùn),賀 琪,趙丹楓,杜艷玲,蘇 誠

        (1.上海海洋大學(xué)信息學(xué)院,上海201306;2.國家海洋局東海信息中心,上海200136)

        1 引言

        “空天地底”海洋立體觀測技術(shù)的飛速發(fā)展,使得高精度、高頻度、大覆蓋的多模態(tài)海洋數(shù)據(jù)[1]呈幾何級(jí)數(shù)爆炸式增長。此外,海洋監(jiān)測數(shù)據(jù)具有多學(xué)科交叉性、海洋數(shù)據(jù)獲取手段和數(shù)據(jù)格式復(fù)雜化、數(shù)據(jù)種類多樣化等特性,是典型的大數(shù)據(jù)。對(duì)于獲得的海洋監(jiān)測大數(shù)據(jù),如何有效地進(jìn)行存儲(chǔ)和布局是日后研究人員合理使用和分析海洋大數(shù)據(jù)的基礎(chǔ)。

        數(shù)據(jù)布局策略主要解決如何合理地將海量數(shù)據(jù)布局到合適的數(shù)據(jù)中心的問題。隨著大規(guī)模數(shù)據(jù)存儲(chǔ)系統(tǒng)體系結(jié)構(gòu)的發(fā)展,數(shù)據(jù)布局策略從設(shè)計(jì)目標(biāo)到應(yīng)用環(huán)境發(fā)生了很大的改變,并應(yīng)用于多種存儲(chǔ)系統(tǒng)中。如在傳統(tǒng)的RAID 機(jī)制中,運(yùn)用分條技術(shù)將數(shù)據(jù)分成多個(gè)條帶單元,以每個(gè)條帶單元為單位將數(shù)據(jù)分布在多個(gè)磁盤上以提高讀/寫速度[2]。在P2P系統(tǒng)中,通過分析數(shù)據(jù)的可用性,將文件作為數(shù)據(jù)存儲(chǔ)[3]的基本單位對(duì)數(shù)據(jù)進(jìn)行布局。然而,由于海洋監(jiān)測大數(shù)據(jù)[4]自身具有特殊的性質(zhì),使得傳統(tǒng)的布局策略在對(duì)海洋監(jiān)測大數(shù)據(jù)布局時(shí)缺乏實(shí)用性。例如,在對(duì)海洋大數(shù)據(jù)進(jìn)行監(jiān)測時(shí),監(jiān)測點(diǎn)數(shù)據(jù)的分布呈分散性,不同監(jiān)測點(diǎn)對(duì)應(yīng)不同的領(lǐng)域。同時(shí),一些用戶在執(zhí)行某特定監(jiān)測任務(wù)時(shí),將集中應(yīng)用某些監(jiān)測點(diǎn),從而產(chǎn)生監(jiān)測點(diǎn)之間的關(guān)聯(lián)。因此,在對(duì)海洋監(jiān)測大數(shù)據(jù)布局時(shí)應(yīng)適當(dāng)考慮監(jiān)測點(diǎn)間的關(guān)聯(lián)度。此外,監(jiān)測點(diǎn)內(nèi)海洋數(shù)據(jù)的屬性繁多,在這些屬性之間也存在著潛在的聯(lián)系,故需進(jìn)一步考慮監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度。

        隨著科學(xué)技術(shù)與海洋監(jiān)測設(shè)備技術(shù)的不斷發(fā)展,海洋的數(shù)據(jù)量已發(fā)展到PB、EB 級(jí)甚至更大級(jí)別,成為名副其實(shí)的大數(shù)據(jù)。此外,海洋監(jiān)測過程中,每個(gè)數(shù)據(jù)都呈分散性,傳統(tǒng)的集中式數(shù)據(jù)布局策略對(duì)海洋監(jiān)測大數(shù)據(jù)具有一定的局限性,這使得如何將關(guān)聯(lián)緊密的海洋監(jiān)測大數(shù)據(jù)合理地布局在同一數(shù)據(jù)中心,有效地減少響應(yīng)時(shí)間顯得十分重要。因此,本文采用云環(huán)境下的分布式存儲(chǔ)模式對(duì)海洋監(jiān)測大數(shù)據(jù)進(jìn)行布局,提出云計(jì)算環(huán)境下基于數(shù)據(jù)關(guān)聯(lián)度的海洋監(jiān)測大數(shù)據(jù)布局策略。通過分析云環(huán)境下的數(shù)據(jù)中心容量以及海洋監(jiān)測數(shù)據(jù)、監(jiān)測點(diǎn)和監(jiān)測任務(wù)之間的關(guān)聯(lián),利用具備超大規(guī)模、高可擴(kuò)展性等特點(diǎn)的云計(jì)算環(huán)境來實(shí)現(xiàn)海洋監(jiān)測大數(shù)據(jù)的存儲(chǔ)。

        2 相關(guān)工作

        本節(jié)首先闡述了現(xiàn)有的數(shù)據(jù)布局策略[5~9],分析各個(gè)策略的布局效果;然后介紹了目前關(guān)于云計(jì)算環(huán)境下的數(shù)據(jù)管理方法[10~18];最后介紹當(dāng)前針對(duì)云計(jì)算環(huán)境下的海洋數(shù)據(jù)布局問題的相關(guān)研究,指出其局限性。

        數(shù)據(jù)布局主要解決如何合理地存放數(shù)據(jù)的問題。在分布式計(jì)算中,針對(duì)數(shù)據(jù)布局的問題進(jìn)行了很多研究。文獻(xiàn)[6]從數(shù)據(jù)密集型計(jì)算中負(fù)載均衡性方面,提出了在特定環(huán)境下實(shí)現(xiàn)負(fù)載均衡的數(shù)據(jù)布局方法,有效地提高了并行性。文獻(xiàn)[7]提出一種基于釋放和重構(gòu)的數(shù)據(jù)布局策略,使得在超大規(guī)模的解空間中盡快找到更加接近全局最優(yōu)的數(shù)據(jù)布局方案,有效地減少了數(shù)據(jù)的傳輸代價(jià)。文獻(xiàn)[8]采取將一致Hash方法和聚類算法相結(jié)合的方法,按照設(shè)備的權(quán)重大小進(jìn)行聚類,同時(shí)按照類別分配區(qū)間對(duì)數(shù)據(jù)進(jìn)行布局,減少了對(duì)存儲(chǔ)空間的消耗。文獻(xiàn)[9]從節(jié)能方面介紹了一種適于連續(xù)數(shù)據(jù)存儲(chǔ)的節(jié)能數(shù)據(jù)布局方案,通過關(guān)閉部分處于空閑狀態(tài)的磁盤達(dá)到數(shù)據(jù)布局過程中節(jié)能的效果。上述工作分別從負(fù)載均衡性、數(shù)據(jù)傳輸代價(jià)、存儲(chǔ)空間和節(jié)能不同的角度對(duì)數(shù)據(jù)進(jìn)行布局。然而,在當(dāng)前大數(shù)據(jù)時(shí)代,上述研究把更多的注意力放在提高存儲(chǔ)設(shè)備性能上,忽略了海洋監(jiān)測大數(shù)據(jù)之間的關(guān)聯(lián)性,尤其是對(duì)于如何根據(jù)海洋數(shù)據(jù)關(guān)聯(lián)性進(jìn)行數(shù)據(jù)布局的研究較少。

        近年來,大數(shù)據(jù)技術(shù)的發(fā)展為海洋信息化開辟了新的研究途徑與產(chǎn)業(yè)化的新思路。隨著面向海洋的大數(shù)據(jù)管理與布局技術(shù)不斷地發(fā)展,云計(jì)算受到了眾多國內(nèi)外研究者的關(guān)注。文獻(xiàn)[15]認(rèn)為云計(jì)算環(huán)境由多個(gè)分布的數(shù)據(jù)中心組成,并利用云計(jì)算環(huán)境,從跨數(shù)據(jù)中心數(shù)據(jù)傳輸、數(shù)據(jù)依賴關(guān)聯(lián)和全局負(fù)載均衡三個(gè)方面,提出一種三階段的面向數(shù)據(jù)密集型流程應(yīng)用的數(shù)據(jù)布局策略,有效地降低了跨數(shù)據(jù)中心數(shù)據(jù)傳輸?shù)臅r(shí)間開銷。文獻(xiàn)[16]模擬混合云計(jì)算模式,針對(duì)科學(xué)工作流數(shù)據(jù),從跨數(shù)據(jù)中心時(shí)數(shù)據(jù)移動(dòng)的時(shí)間開銷和產(chǎn)生的傳輸費(fèi)用方面對(duì)數(shù)據(jù)進(jìn)行布局,提出了一種優(yōu)化的數(shù)據(jù)布局方法。文獻(xiàn)[17]以紅十字會(huì)組織物資采購的例子,提出了在云計(jì)算環(huán)境下對(duì)隱私數(shù)據(jù)和非隱私數(shù)據(jù)的布局方法。這些學(xué)者針對(duì)一般數(shù)據(jù)進(jìn)行了高效的布局,但是海洋監(jiān)測大數(shù)據(jù)不同于一般數(shù)據(jù),有其自身的特點(diǎn)[18],在監(jiān)測任務(wù)、監(jiān)測點(diǎn)和監(jiān)測數(shù)據(jù)間存在著一定的關(guān)聯(lián)。因此,面對(duì)具有特殊性質(zhì)的海洋監(jiān)測大數(shù)據(jù),在進(jìn)行布局時(shí)還需要考慮數(shù)據(jù)本身存在的特性。

        綜上所述,文獻(xiàn)[19~24]從多角度研究了數(shù)據(jù)布局方法以及云計(jì)算環(huán)境下數(shù)據(jù)管理策略,在通用數(shù)據(jù)上具有顯著的效果,但是對(duì)于海洋監(jiān)測大數(shù)據(jù)間潛在關(guān)聯(lián)性分析的研究較少,數(shù)據(jù)布局的同時(shí)易丟失海洋監(jiān)測大數(shù)據(jù)原有的特色。針對(duì)此問題,本文將在考慮海洋監(jiān)測大數(shù)據(jù)自身特點(diǎn)的基礎(chǔ)上,綜合考慮監(jiān)測任務(wù)、監(jiān)測點(diǎn)和監(jiān)測數(shù)據(jù)三者之間的關(guān)聯(lián)度,研究云計(jì)算環(huán)境下更加適合于海洋監(jiān)測大數(shù)據(jù)的布局策略。

        3 基本定義

        本文主要研究云計(jì)算環(huán)境下的海洋監(jiān)測大數(shù)據(jù)布局問題。云計(jì)算環(huán)境由多個(gè)分布式數(shù)據(jù)中心組成,每一個(gè)數(shù)據(jù)按照合理的數(shù)據(jù)布局策略[25~28]存儲(chǔ)在數(shù)據(jù)中心內(nèi),每一個(gè)監(jiān)測任務(wù)按照用戶需求調(diào)用所需的數(shù)據(jù)。云計(jì)算環(huán)境下的數(shù)據(jù)存儲(chǔ)、海洋監(jiān)測數(shù)據(jù)和監(jiān)測任務(wù)之間的關(guān)聯(lián)如圖1所示。

        Figure 1 Dependency map of data storage,marine monitoring data and applications圖1 數(shù)據(jù)存儲(chǔ)、海洋監(jiān)測數(shù)據(jù)和監(jiān)測任務(wù)之間的關(guān)聯(lián)圖

        定義1(云計(jì)算環(huán)境) 云計(jì)算環(huán)境由多個(gè)分布式數(shù)據(jù)中心組成,數(shù)據(jù)中心集表示為DC,每個(gè)數(shù)據(jù)中心dci∈DC,可表示為一個(gè)三元組〈IDdc,λ,f〉。其中,IDdc是數(shù)據(jù)中心的標(biāo)識(shí)符;λ是存儲(chǔ)數(shù)據(jù)時(shí)數(shù)據(jù)中心的使用百分比,它是數(shù)據(jù)中心負(fù)載的一個(gè)閾值,用于保證各個(gè)數(shù)據(jù)中心負(fù)載均衡;f是數(shù)據(jù)中心的個(gè)數(shù)。

        定義2(海洋監(jiān)測數(shù)據(jù)集) 海洋監(jiān)測數(shù)據(jù)集表示為D,每個(gè)數(shù)據(jù)di∈D,可表示為一個(gè)四元組〈IDd,si,pi,ui〉。其中,IDd表 示 海 洋 監(jiān) 測 數(shù) 據(jù) 的標(biāo)識(shí)符,si表示海洋監(jiān)測數(shù)據(jù)的大小,pi表示海洋監(jiān)測數(shù)據(jù)di所屬的監(jiān)測點(diǎn),ui表示海洋監(jiān)測數(shù)據(jù)的屬性。

        定義3(監(jiān)測任務(wù)集) 監(jiān)測任務(wù)集表示為T,每個(gè)監(jiān)測任務(wù)ti∈T,可表示為一個(gè)三元組〈IDt,pi,A〉。其中,A表示監(jiān)測任務(wù)ti在監(jiān)測點(diǎn)pi處所監(jiān)測的屬性集。

        4 基于關(guān)聯(lián)度分析的數(shù)據(jù)布局策略

        為了實(shí)現(xiàn)同一數(shù)據(jù)中心內(nèi)的每個(gè)數(shù)據(jù)之間具有較高的關(guān)聯(lián)度,不僅需要考慮數(shù)據(jù)中心存儲(chǔ)容量λ的值,還需要考慮監(jiān)測點(diǎn)間和監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度。對(duì)于這兩個(gè)標(biāo)準(zhǔn),本文優(yōu)先考慮海洋監(jiān)測點(diǎn)間和監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度。首先,通過分析云計(jì)算環(huán)境下海洋監(jiān)測過程中監(jiān)測任務(wù)、監(jiān)測點(diǎn)和監(jiān)測數(shù)據(jù)之間的關(guān)聯(lián),得出監(jiān)測點(diǎn)間的關(guān)聯(lián)矩陣、監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)矩陣、監(jiān)測數(shù)據(jù)全局關(guān)聯(lián)矩陣;然后,運(yùn)用鍵能算法BEA(Bond Energy Algorithm)[29]將關(guān)聯(lián)矩陣轉(zhuǎn)換為聚類矩陣;最后,通過非重疊劃分算法[30]對(duì)聚類后的矩陣進(jìn)行劃分,形成N類子數(shù)據(jù)集,使得每類子數(shù)據(jù)集中各個(gè)數(shù)據(jù)間具有較高的關(guān)聯(lián)度,并根據(jù)數(shù)據(jù)中心的存儲(chǔ)容量進(jìn)行布局。

        4.1 關(guān)聯(lián)度定義

        4.1.1 監(jiān)測點(diǎn)間的關(guān)聯(lián)度

        研究人員在執(zhí)行海洋數(shù)據(jù)監(jiān)測任務(wù)前,首先需要確定監(jiān)測點(diǎn)的信息,然后對(duì)監(jiān)測點(diǎn)進(jìn)行數(shù)據(jù)采集。在對(duì)數(shù)據(jù)布局時(shí),如果僅以單一監(jiān)測點(diǎn)數(shù)據(jù)為基準(zhǔn)進(jìn)行布局,將會(huì)忽略監(jiān)測點(diǎn)之間存在的潛在相關(guān)性,使得有關(guān)聯(lián)的幾個(gè)監(jiān)測點(diǎn)本應(yīng)存儲(chǔ)在同一數(shù)據(jù)中心,卻被存儲(chǔ)到不同的數(shù)據(jù)中心內(nèi),導(dǎo)致用戶在執(zhí)行某項(xiàng)監(jiān)測任務(wù)時(shí)需要訪問多個(gè)數(shù)據(jù)中心,造成不必要的時(shí)間消耗。因此,本文通過分析監(jiān)測任務(wù)與監(jiān)測點(diǎn)間的關(guān)聯(lián)度,計(jì)算同時(shí)應(yīng)用兩個(gè)監(jiān)測點(diǎn)的監(jiān)測任務(wù)個(gè)數(shù),構(gòu)建兩監(jiān)測點(diǎn)之間的關(guān)聯(lián)矩陣。當(dāng)某些監(jiān)測點(diǎn)常常被多個(gè)監(jiān)測任務(wù)同時(shí)應(yīng)用時(shí),便把他們歸為一類。

        被歸為一類的監(jiān)測點(diǎn)可以同屬某單一領(lǐng)域,也可屬于不同領(lǐng)域,例如監(jiān)測區(qū)1內(nèi)的監(jiān)測點(diǎn)都屬于物理海洋領(lǐng)域,而監(jiān)測區(qū)2內(nèi)的監(jiān)測點(diǎn)既有屬于物理海洋領(lǐng)域的監(jiān)測點(diǎn),又有屬于生物生態(tài)領(lǐng)域的監(jiān)測點(diǎn),雖然含有不同領(lǐng)域的監(jiān)測點(diǎn),但是他們之間有著潛在的、隱藏的內(nèi)在聯(lián)系。

        定義4(監(jiān)測點(diǎn)間的關(guān)聯(lián)度) 設(shè)Tpi表示對(duì)監(jiān)測點(diǎn)pi進(jìn)行監(jiān)測的監(jiān)測任務(wù);Tpj表示對(duì)監(jiān)測點(diǎn)pj進(jìn)行監(jiān)測的監(jiān)測任務(wù);i,j=1,2,…,n;n表示監(jiān)測點(diǎn)的個(gè)數(shù)。兩點(diǎn)間的關(guān)聯(lián)度由同時(shí)在監(jiān)測點(diǎn)pi和pj進(jìn)行監(jiān)測的任務(wù)個(gè)數(shù)總和得出,則監(jiān)測點(diǎn)pi和pj之間的關(guān)聯(lián)度Iij為:

        4.1.2 監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度

        各監(jiān)測點(diǎn)的海洋數(shù)據(jù)屬值繁多,包括經(jīng)度、緯度、溫度、濕度、鹽度、大氣壓、螢光度等,在這些監(jiān)測數(shù)據(jù)的屬性之間也存在著一定的聯(lián)系,如由物理知識(shí)可知大氣壓值與溫度值有密切的關(guān)聯(lián)。因此,在對(duì)海洋監(jiān)測大數(shù)據(jù)進(jìn)行布局時(shí),除了考慮監(jiān)測點(diǎn)間的關(guān)聯(lián)度,還需要考慮監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度。但是,由于不同監(jiān)測點(diǎn)擁有不同的屬性集,如在p1點(diǎn)監(jiān)測的數(shù)據(jù)屬性包括u0、u1、u3、u4,而在p2點(diǎn)監(jiān)測的數(shù)據(jù)屬性包括u1、u3、u5、u6、u7,這使得在以數(shù)據(jù)屬性關(guān)聯(lián)度為基準(zhǔn)進(jìn)行布局時(shí)難以分辨數(shù)據(jù)來源。因此,在數(shù)據(jù)布局時(shí)將屬性值和監(jiān)測點(diǎn)進(jìn)行對(duì)應(yīng),構(gòu)建形如的對(duì)應(yīng)監(jiān)測數(shù)據(jù)(注,簡稱為監(jiān)測數(shù)據(jù)),表示監(jiān)測點(diǎn)pi處的第k個(gè)數(shù)據(jù),其中,k=1,2,…,N;N為監(jiān)測點(diǎn)pi處的數(shù)據(jù)個(gè)數(shù)。對(duì)于每個(gè)監(jiān)測數(shù)據(jù),通過計(jì)算同時(shí)應(yīng)用兩個(gè)數(shù)據(jù)的監(jiān)測任務(wù)個(gè)數(shù)構(gòu)建兩監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)矩陣。

        4.1.3 監(jiān)測數(shù)據(jù)全局關(guān)聯(lián)度

        Iij反映了監(jiān)測點(diǎn)間的關(guān)聯(lián)度,Sij反映了監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度,但是單獨(dú)考慮某一關(guān)聯(lián)度,較難很好地從整體角度反映數(shù)據(jù)之間的緊密程度。例如,在監(jiān)測過程中應(yīng)用pr處數(shù)據(jù)di的頻數(shù)為5,應(yīng)用ps處的數(shù)據(jù)dj的頻數(shù)為20,從數(shù)值上可看出dj比di的使用量高,但是對(duì)于監(jiān)測點(diǎn)pr的任務(wù)個(gè)數(shù)為15,監(jiān)測點(diǎn)ps的任務(wù)個(gè)數(shù)為100,則在平均頻率上數(shù)據(jù)di較高。因此,需綜合分析數(shù)據(jù)布局中監(jiān)測點(diǎn)間的關(guān)聯(lián)度和監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度。

        定義6(監(jiān)測數(shù)據(jù)全局關(guān)聯(lián)度) 全局關(guān)聯(lián)度反映了監(jiān)測數(shù)據(jù)間的整體緊密程度,可由監(jiān)測數(shù)據(jù)關(guān)聯(lián)度與監(jiān)測點(diǎn)間關(guān)聯(lián)度的比值得出。此處,由于比值較小不利于計(jì)算,為了便于數(shù)據(jù)處理以及保證程序運(yùn)行時(shí)收斂加快,利用f(·)函數(shù)將其歸一化處理[31],并取不大于其值的最大整數(shù)作為監(jiān)測數(shù)據(jù)的全局關(guān)聯(lián)度,即:

        其中,r對(duì)應(yīng)數(shù)據(jù)di所在的監(jiān)測點(diǎn),s對(duì)應(yīng)數(shù)據(jù)dj所在的監(jiān)測點(diǎn)。

        4.2 海洋監(jiān)測大數(shù)據(jù)的聚類

        4.2.1 關(guān)聯(lián)矩陣的建立

        通過分析監(jiān)測點(diǎn)、監(jiān)測任務(wù)和監(jiān)測數(shù)據(jù)之間的關(guān)聯(lián)(見表1),利用公式(1)~公式(3)得到監(jiān)測點(diǎn)間的關(guān)聯(lián)矩陣I圖、監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)矩陣S圖和全局關(guān)聯(lián)矩陣IS圖(見圖2)。

        Table1 Dependency table of monitoring points,monitoring applications and part of the monitoring data表1 監(jiān)測點(diǎn)、監(jiān)測任務(wù)和部分監(jiān)測數(shù)據(jù)之間的關(guān)聯(lián)表

        Figure 2 Correlation matrixes圖2 關(guān)聯(lián)矩陣

        4.2.2 聚類矩陣的建立

        將關(guān)聯(lián)矩陣轉(zhuǎn)換為聚類矩陣旨在使矩陣中相似的元素聚集在一起,本文利用BEA 算法將關(guān)聯(lián)矩陣轉(zhuǎn)換為聚類矩陣。BEA 算法[29]是應(yīng)用于分布式數(shù)據(jù)庫系統(tǒng)中表的垂直劃分算法,它通過對(duì)矩陣中的行和列不斷改變和排列,使聚集在一起的元素具有較高的相似性。通過BEA 算法將得到的三個(gè)矩陣I、S、SI分別做行列變換運(yùn)算,轉(zhuǎn)換后的聚類矩陣I′、S′、和SI′如圖3所示。

        Figure 3 Converted clustering matrixes圖3 轉(zhuǎn)換后的聚類矩陣

        4.2.3 海洋監(jiān)測大數(shù)據(jù)的劃分

        為了使劃分后的每類子數(shù)據(jù)集中各個(gè)數(shù)據(jù)之間具有較高的關(guān)聯(lián)度,而與其余數(shù)據(jù)集內(nèi)數(shù)據(jù)具有較低的關(guān)聯(lián)度,需對(duì)聚類矩陣中的數(shù)據(jù)進(jìn)行劃分。本文利用非重疊劃分算法[30],計(jì)算dp值,如公式(4)所示。當(dāng)dp取最大值時(shí),記錄此時(shí)對(duì)應(yīng)的劃分點(diǎn)h的值,這時(shí)的劃分點(diǎn)h將聚類矩陣劃分為兩個(gè)不重疊的數(shù)據(jù)子塊,依次遞歸地劃分直到滿足數(shù)據(jù)中心的存儲(chǔ)容量λ為止。

        由圖3可以發(fā)現(xiàn),根據(jù)非重疊劃分算法,聚類矩陣被劃分為三個(gè)數(shù)據(jù)塊,數(shù)據(jù)塊1由監(jiān)測點(diǎn)p1組成,數(shù)據(jù)塊2由監(jiān)測點(diǎn)p3和p6組成,數(shù)據(jù)塊3由監(jiān)測點(diǎn)p2、p4、p5和p7組成。

        4.3 海洋監(jiān)測大數(shù)據(jù)的布局

        云計(jì)算環(huán)境下基于監(jiān)測數(shù)據(jù)關(guān)聯(lián)度的海洋大數(shù)據(jù)布局過程描述如下:

        輸入:監(jiān)測任務(wù)、監(jiān)測點(diǎn)、海洋監(jiān)測大數(shù)據(jù);

        輸出:海洋監(jiān)測大數(shù)據(jù)的布局方案。

        主要步驟:

        步驟1 初始化云計(jì)算環(huán)境下的數(shù)據(jù)中心個(gè)數(shù)f、存儲(chǔ)容量λ;

        步驟2 根據(jù)公式(1)~公式(3)計(jì)算數(shù)據(jù)集內(nèi)各監(jiān)測點(diǎn)間的關(guān)聯(lián)度、監(jiān)測數(shù)據(jù)的關(guān)聯(lián)度和監(jiān)測數(shù)據(jù)全局關(guān)聯(lián)度;

        步驟3 構(gòu)建關(guān)聯(lián)矩陣I、S和監(jiān)測數(shù)據(jù)全局關(guān)聯(lián)矩陣SI;

        步驟4 通過BEA 算法使得矩陣中的相似項(xiàng)聚集在一起,形成聚類矩陣I′、S′和SI′;

        步驟5 以各類數(shù)據(jù)中心間關(guān)聯(lián)度低、數(shù)據(jù)中心內(nèi)數(shù)據(jù)關(guān)聯(lián)度高為標(biāo)準(zhǔn),利用非重疊劃分算法劃分聚類矩陣,將具有較高關(guān)聯(lián)度的數(shù)據(jù)劃分為一類子數(shù)據(jù)集;

        步驟6 判斷劃分后各子數(shù)據(jù)集合的容量是否滿足數(shù)據(jù)中心的存儲(chǔ)容量λ。如果滿足,則將該子數(shù)據(jù)集分配到相應(yīng)的數(shù)據(jù)中心,否則,轉(zhuǎn)到步驟5。

        步驟7 根據(jù)步驟6,輸出海洋監(jiān)測大數(shù)據(jù)的布局方案。

        5 實(shí)驗(yàn)與分析

        仿真實(shí)驗(yàn)平臺(tái)配置為酷睿四核處理器,2.8GHz,6GB內(nèi)存,采用開源的Openstack云計(jì)算管理平臺(tái),在云計(jì)算環(huán)境下對(duì)海洋監(jiān)測大數(shù)據(jù)布局。經(jīng)過調(diào)研得知,某國家海洋局某監(jiān)測中心有監(jiān)測點(diǎn)8個(gè),每個(gè)監(jiān)測點(diǎn)有7~10個(gè)監(jiān)測數(shù)據(jù)屬性,選用相關(guān)的600個(gè)監(jiān)測任務(wù)作為實(shí)驗(yàn)數(shù)據(jù)集,如表2所示。實(shí)驗(yàn)選用五折交叉驗(yàn)證法,隨機(jī)選擇80%的數(shù)據(jù)集作為訓(xùn)練集,剩余作為測試集,通過數(shù)據(jù)傳輸速度、用戶訪問數(shù)據(jù)的響應(yīng)時(shí)間和算法運(yùn)行時(shí)間來評(píng)估算法的執(zhí)行效率。

        Table 2 Part of the monitoring missions supplied by a monitoring center表2 監(jiān)測中心提供的部分監(jiān)測任務(wù)列表

        為了說明本文提出的策略能有效地減少數(shù)據(jù)傳輸次數(shù),實(shí)驗(yàn)將其與數(shù)據(jù)隨機(jī)布局策略(簡稱Random 策略)進(jìn)行比較。其中,IRM 表示以監(jiān)測點(diǎn)間關(guān)聯(lián)度為標(biāo)準(zhǔn)時(shí)的布局策略,DRM 表示以監(jiān)測點(diǎn)數(shù)據(jù)間關(guān)聯(lián)度為標(biāo)準(zhǔn)時(shí)的布局方策略,MRM表示以監(jiān)測數(shù)據(jù)全局關(guān)聯(lián)度為標(biāo)準(zhǔn)時(shí)的布局策略。

        如圖4所示,隨著數(shù)據(jù)集數(shù)量的增加,對(duì)應(yīng)的跨數(shù)據(jù)中心數(shù)據(jù)傳輸次數(shù)呈明顯上升趨勢,然而,由于本文提出的IRM、DRM 和MRM 策略根據(jù)監(jiān)測點(diǎn)和監(jiān)測數(shù)據(jù)間的關(guān)系將相關(guān)度大的數(shù)據(jù)集放置到同一數(shù)據(jù)中心,在一定程度上降低了數(shù)據(jù)傳輸次數(shù),因此IRM、DRM 和MRM 在數(shù)據(jù)傳輸次數(shù)上明顯少于Random 策略,且具有一定穩(wěn)定性。

        圖5反映了每50個(gè)監(jiān)測任務(wù)的響應(yīng)時(shí)間對(duì)比圖。從圖5中可看出,MRM 策略在響應(yīng)時(shí)間方面優(yōu)于其他方法。其中,Random 方法的響應(yīng)時(shí)間最長,原因在于對(duì)數(shù)據(jù)布局是該方法忽略了海洋數(shù)據(jù)的特點(diǎn),降低了響應(yīng)效率。IRM 和DRM 的響應(yīng)時(shí)間相近,而MRM 具有明顯的優(yōu)勢,較IRM 和DRM,MRM 布局策略能夠較快速地響應(yīng)監(jiān)測任務(wù),具備高效數(shù)據(jù)布局的特點(diǎn)。當(dāng)監(jiān)測任務(wù)量提升時(shí),效果尤為顯著。

        Figure 4 Comparison chart of data’s transfer numbers圖4 數(shù)據(jù)傳輸次數(shù)對(duì)比圖

        Figure 5 Comparison chart of data’s response time圖5 數(shù)據(jù)響應(yīng)時(shí)間對(duì)比圖

        雖然MRM 在圖5中響應(yīng)時(shí)間最短,但由圖6可以明顯看出,隨著數(shù)據(jù)集個(gè)數(shù)的增加,四種算法的運(yùn)行時(shí)間有明顯的變化,本文提出的三種策略在運(yùn)行時(shí)間方面明顯優(yōu)于Random 策略。其中,IRM的計(jì)算量相對(duì)較少,尤其是當(dāng)數(shù)據(jù)集超過50的時(shí)候,IRM 算法運(yùn)行時(shí)間最短,具有快速數(shù)據(jù)布局的特點(diǎn),雖然DRM 的計(jì)算量較大,但算法的運(yùn)行時(shí)間與其他策略相差不大,仍可接受。

        為了進(jìn)一步分析本文提出的方法在各類型海洋數(shù)據(jù)上的布局效果,將數(shù)據(jù)集分為六個(gè)類別進(jìn)行數(shù)據(jù)響應(yīng)時(shí)間對(duì)比,分別是:大氣化學(xué)、海洋氣象、走航皮溫、海表溫鹽、海洋營養(yǎng)鹽和海水葉綠素。從圖7中可以發(fā)現(xiàn),對(duì)于大氣化學(xué)類別,響應(yīng)時(shí)間相差不大,基本保持一致。但是,對(duì)于海洋氣象、走航皮溫、海表溫鹽、海洋營養(yǎng)鹽和海水葉綠素,Random 方 法 的 響 應(yīng) 時(shí) 間 最 長,IRM 和DRM 的 響應(yīng)時(shí)間相近,而MRM 具有明顯的優(yōu)勢,較IRM 和DRM,MRM 布局策略能夠較快速地響應(yīng)監(jiān)測任務(wù),具備高效數(shù)據(jù)布局的特點(diǎn)。原因在于:海洋監(jiān)測數(shù)據(jù)不同于一般數(shù)據(jù),有其自身的特點(diǎn),Random方法忽略了數(shù)據(jù)之間的關(guān)聯(lián)性。由此可見,面對(duì)真實(shí)的海洋大數(shù)據(jù),本文方法在布局時(shí)具備較強(qiáng)的泛化能力和高可擴(kuò)展性。

        Figure 6 Comparison chart of running time圖6 運(yùn)行時(shí)間對(duì)比圖

        Figure 7 Comparison chart of data’s response time for different categories of marine data圖7 不同類型的海洋數(shù)據(jù)響應(yīng)時(shí)間對(duì)比圖

        因此,對(duì)于海洋監(jiān)測大數(shù)據(jù)的布局,當(dāng)用戶需要快速運(yùn)行算法時(shí),可采用快速布局策略IRM;當(dāng)數(shù)據(jù)存儲(chǔ)容量充足時(shí),可考慮快速布局策略IRM和高效布局策略MRM。而數(shù)據(jù)容量有限時(shí),由于IRM 得到的子數(shù)據(jù)集容量較大,無法很好地滿足數(shù)據(jù)中心的容量限制,可使用高效布局策略MRM。

        6 結(jié)束語

        大數(shù)據(jù)技術(shù)的發(fā)展為海洋信息化開辟了新的研究途徑與產(chǎn)業(yè)化的新思路。本文提出了一種云計(jì)算環(huán)境下基于監(jiān)測數(shù)據(jù)關(guān)聯(lián)度的海洋大數(shù)據(jù)布局策略,取得了較滿意的實(shí)驗(yàn)結(jié)果。本文主要貢獻(xiàn)有:

        (1)針對(duì)海洋監(jiān)測大數(shù)據(jù)具有海量、異構(gòu)、強(qiáng)數(shù)據(jù)關(guān)聯(lián)的特點(diǎn),以及在監(jiān)測過程中,監(jiān)測數(shù)據(jù)呈分散性的情況,采用云環(huán)境下的分布式存儲(chǔ)模式對(duì)海洋監(jiān)測大數(shù)據(jù)進(jìn)行布局,充分利用云計(jì)算超大規(guī)模、高可擴(kuò)展性等特點(diǎn)滿足海洋監(jiān)測大數(shù)據(jù)的存儲(chǔ)管理要求。

        (2)綜合考慮了監(jiān)測任務(wù)、監(jiān)測點(diǎn)和監(jiān)測數(shù)據(jù)之間的關(guān)聯(lián)度,從海洋監(jiān)測點(diǎn)間的關(guān)聯(lián)度、監(jiān)測數(shù)據(jù)間的關(guān)聯(lián)度和監(jiān)測數(shù)據(jù)全局關(guān)聯(lián)度三個(gè)角度對(duì)海洋監(jiān)測大數(shù)據(jù)進(jìn)行布局,在數(shù)據(jù)中心存儲(chǔ)均衡的情況下,很大程度上降低了用戶訪問海洋監(jiān)測大數(shù)據(jù)的響應(yīng)時(shí)間。

        然而,在布局過程中數(shù)據(jù)副本的延時(shí)響應(yīng)問題呈現(xiàn)逐步上升的趨勢,下一步工作將進(jìn)一步探索云計(jì)算環(huán)境下布局海洋監(jiān)測大數(shù)據(jù)時(shí)的數(shù)據(jù)副本布局技術(shù)。

        [1] Petes L,Diamond J,F(xiàn)isher B,et al.Ocean management challenges,adaptation approaches,and opportunities in a changing climate[M]∥Oceans and Marine Resources in a Changing Climate.Washington:Island Press/Center for Resource Economics,2013:140-155.

        [2] Park K,Lee D H,Woo Y,et al.Reliability and performance enhancement technique for SSD array storage system using RAID mechanism[C]∥Proc of the 9th International Symposium on Communications and Information Technology,2009:140-145.

        [3] Caron S,Giroire F,Mazauric D,et al.P2Pstorage systems:Study of different placement policies[J].Peer-to-Peer Networking and Applications,2014,7(4):427-443.

        [4] Herlihy D R,Matula S P,Andreasen C.Swath mapping data management within the national iceanic and atmospheric administration[J].The International Hydrographic Review,2015,65(2):1.

        [5] Kameda H,Li J,Kim C,et al.Optimal load balancing in distributed computer systems[M].Incorporated:Springer Publishing Company,2011.

        [6] Song Jie,Li Tian-tian,Yan Zhen-xing,et al.Load-balanced data layout approach in data-intensive computing[J].Journal of Beijing University of Posts and Telecommunications,2013,36(4):76-80.(in Chinese)

        [7] Zhang Tian-tian,Cui Li-zhen.A data placement strategy based on relaxation and reconstruction for scientific workflow applications[J].Journal of Computer Research and Development,2013,50(suppl):71-76.(in Chinese)

        [8] Chen Tao,Xiao Nong,Liu Fang,et al.Clustering-based and consistent Hashing-aware data placement algorithm [J].Journal of Software,2010,21(12):3175-3185.(in Chinese)

        [9] Liu Jing-yu,Zheng Jun,Li Yuan-zhang,et al.Hybrid SRAID:An energy-efficient data layout for sequential data storage[J].Journal of Computer Research and Development,2013,50(1):37-48.(in Chinese)

        [10] Yao W,Lu L.A selection algorithm of service providers for optimized data placement in multi-cloud storage environment[M]∥Intelligent Computation in Big Data Era.Berlin:Springer Berlin Heidelberg,2015:81-92.

        [11] Calder B,Wang J,Ogus A,et al.Windows azure storage:A highly available cloud storage service with strong consistency[C]∥Proc of the 23rd ACM Symposium on Operating Systems Principles,2011:143-157.

        [12] Maia G,Guidoni D L,Viana A C,et al.A distributed data storage protocol for heterogeneous wireless sensor networks with mobile sinks[J].Ad Hoc Networks,2013,11(5):1588-1602.

        [13] Yan Lin,Xing Jing,Huo Zhi-gang,et al.A survey on storage architectures and core algorithms for big data management on new storages[J].Computer Engineering & Science,2013,35(5):20-27.(in Chinese)

        [14] Wang Yi-jie,Sun Wei-dong,Zhong Song,et al.Key technologies of distributed storage for cloud computing[J].Journal of Software,2012,23(4):962-986.(in Chinese)

        [15] Zheng Pai,Cui Li-zhen,Wang Hai-yang,et al.A data placement strategy for data-intensive applications in cloud[J].Chinese Journal of Computers,2010,33(8):1472-1480.(in Chinese)

        [16] Ma Fei.Data placement strategy research for scientific workflow in hybrid cloud computing[D].Hefei:Anhui University,2014.(in Chinese)

        [17] Zhang Peng,Wang Gui-ling,Xu Xue-h(huán)ui.A data placement approach for workflow in cloud[J].Journal of Computer Research and Development,2013,50(3):636-647.(in Chinese)

        [18] Xie Peng-fei,Sui Wei-na,Tao Guan-feng,et al.Cloud computing in the marine environment monitoring[J].Marine Environmental Science,2013,32(4):576-580.(in Chinese)

        [19] Majeti D,Barik R,Zhao J,et al.Compiler-driven data layout transformation for heterogeneous platforms[C]∥Proc of Euro-Par 2013:Parallel Processing Workshops,2014:188-197.

        [20] Wildani A,Miller E L,Adams I F,et al.PERSES:Data layout for low impact failures[C]∥Proc of 2014IEEE 22nd International Symposium on Modelling,Analysis &Simulation of Computer and Telecommunication Systems (MASCOTS),2014:71-80.

        [21] Zhao Wei,Zhuo Wei,Li Zhan-bo,et al.A novel data exchange architecture based on cloud computing[J].Computer Engineering &Science,2013,35(8):15-19.(in Chinese)

        [22] Wei L,Zhu H,Cao Z,et al.Security and privacy for storage and computation in cloud computing[J].Information Sciences,2014,258(10):371-386.

        [23] Heath M A,Coker K T,Viraraghavan P.Data storage device overlapping host data transfer for a write command with inter-command delay:U.S.Patent 8,631,188[P].2014-01-14.

        [24] Liu C,Chen J,Yang L T,et al.Authorized public auditing of dynamic big data storage on cloud with efficient verifiable fine-grained updates[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(9):2234-2244.

        [25] Jenkins J,Zou X,Tang H,et al.RADAR:Runtime asymmetric data-access driven scientific data replication[C]∥Proc of the 28th International Supercomputing Conference,ISG’14,2014:296-313.

        [26] Yang K,Jia X.An efficient and secure dynamic auditing protocol for data storage in cloud computing[J].IEEE Transactions on Parallel and Distributed Systems,2013,24(9):1717-1726.

        [27] Barsoum A F,Hasan A.Enabling dynamic data and indirect mutual trust for cloud computing storage systems[J].IEEE Transactions on Parallel and Distributed Systems,2013,24(12):2375-2385.

        [28] Anjos J C S,Carrera I,Kolberg W,et al.MRA++:Scheduling and data placement on MapReduce for heterogeneous environments[J].Future Generation Computer Systems,2015,42:22-35.

        [29] McCormick Jr W T,Schweitzer P J,White T W.Problem decomposition and data reorganization by a clustering technique[J].Operations Research,1972,20(5):993-1009.

        [30] Song H,Yin Y,Sun X H,et al.A segment-level adaptive data layout scheme for improved load balance in parallel file systems[C]∥Proc of the 2011 11th IEEE/ACM International Symposium on Cluster,Cloud and Grid Computing,2011:414-423.

        [31] Sun X,Shi L,Luo Y,et al.Histogram-based normalization technique on human brain magnetic resonance images from different acquisitions[J].Biomedical Engineering Online,2015,14(1):73.

        附中文參考文獻(xiàn):

        [6] 宋杰,李甜甜,閆振興,等.數(shù)據(jù)密集型計(jì)算中負(fù)載均衡的數(shù)據(jù)布局方法[J].北京郵電大學(xué)學(xué)報(bào),2013,36(4):76-80.

        [7] 張?zhí)鹛?,崔立?基于釋放和重構(gòu)的科學(xué)工作流數(shù)據(jù)布局策略[J].計(jì)算機(jī)研究與發(fā)展,2013,50(suppl):71-76.

        [8] 陳濤,肖儂,劉芳,等.基于聚類和一致Hash 的數(shù)據(jù)布局算法[J].軟件學(xué)報(bào),2010,21(12):3175-3185.

        [9] 劉靖宇,鄭軍,李元章,等.混合S-RAID:一種適于連續(xù)數(shù)據(jù)存儲(chǔ)的節(jié)能數(shù)據(jù)布局[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):37-48.

        [13] 嚴(yán)林,邢晶,霍志剛,等.面向海量數(shù)據(jù)存儲(chǔ)的Erasure-Code分布式文件系統(tǒng)I/O 優(yōu)化方法[J].計(jì)算機(jī)工程與科學(xué),2013,35(5):20-27.

        [14] 王意潔,孫偉東,周松,等.云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012,23(4):962-986.

        [15] 鄭湃,崔立真,王海洋,等.云計(jì)算環(huán)境下面向數(shù)據(jù)密集型應(yīng)用的數(shù)據(jù)布局策略與方法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1472-1480.

        [16] 馬飛.混合云環(huán)境下科學(xué)工作流數(shù)據(jù)布局研究[D].合肥:安徽大學(xué),2014.

        [17] 張鵬,王桂玲,徐學(xué)輝.云計(jì)算環(huán)境下適于工作流的數(shù)據(jù)布局方法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(3):636-647.

        [18] 解鵬飛,隋偉娜,陶冠峰,等.云計(jì)算與海洋環(huán)境監(jiān)測[J].海洋環(huán)境科學(xué),2013,32(4):576-580.

        [21] 趙偉,卓偉,李占波,等 基于云計(jì)算的一種新的數(shù)據(jù)交換架構(gòu)[J].計(jì)算機(jī)工程與科學(xué),2013,35(8):15-19.

        猜你喜歡
        關(guān)聯(lián)矩陣計(jì)算環(huán)境監(jiān)測數(shù)據(jù)
        n階圈圖關(guān)聯(lián)矩陣的特征值
        云計(jì)算環(huán)境下網(wǎng)絡(luò)安全等級(jí)保護(hù)的實(shí)現(xiàn)途徑
        單圈圖關(guān)聯(lián)矩陣的特征值
        GSM-R接口監(jiān)測數(shù)據(jù)精確地理化方法及應(yīng)用
        基于關(guān)聯(lián)矩陣主對(duì)角線譜理論的歐拉圖研究
        大數(shù)據(jù)云計(jì)算環(huán)境下的數(shù)據(jù)安全
        電子制作(2017年20期)2017-04-26 06:57:48
        n階圈圖的一些代數(shù)性質(zhì)
        云計(jì)算環(huán)境中任務(wù)調(diào)度策略
        GPS異常監(jiān)測數(shù)據(jù)的關(guān)聯(lián)負(fù)選擇分步識(shí)別算法
        基于小波函數(shù)對(duì)GNSS監(jiān)測數(shù)據(jù)降噪的應(yīng)用研究
        国产亚洲三级在线视频| 熟女人妻在线视频| 在线免费黄网| 国产一区二区丁香婷婷| 日日高潮夜夜爽高清视频| 午夜不卡无码中文字幕影院| 久久精品无码免费不卡| 国产精品白浆无码流出| 熟女高潮av一区二区| 97色伦图片97综合影院| 日本丰满熟妇bbxbbxhd| 福利视频一二区| 在线视频免费自拍亚洲| 亚洲国产精品无码aaa片| 国产精品白浆在线观看无码专区| 国产精品国产三级国产专播| 国产av一区二区制服丝袜美腿| 国产一二三四2021精字窝| 国产三级在线观看播放视频| 成人综合亚洲欧美一区h| 蕾丝女同一区二区三区| 亚洲精品乱码久久久久久中文字幕 | 深夜福利国产| 亚洲在线精品一区二区三区| 人妻夜夜爽天天爽三区麻豆av网站| 国产精品深田咏美一区二区| 男女羞羞的视频免费网站| 国产一区二区三区三区四区精品| 亚洲色在线v中文字幕| 国产亚洲精品自在久久77| 国产人妖av在线观看| 亚洲中文字幕无码不卡电影| 亚洲 都市 校园 激情 另类| 国产三级伦理视频在线| 麻豆资源在线观看视频| 人人妻人人澡人人爽久久av| 国产成人精品免费视频大全| 国产精品国产自产拍高清| 在线 | 一区二区三区四区| 91短视频在线观看免费| 国产伦理一区二区久久精品|