武警北京市總隊第二醫(yī)院 劉 斌
基于云環(huán)境下的海量大數(shù)據(jù)存儲系統(tǒng)設(shè)計
武警北京市總隊第二醫(yī)院 劉 斌
云環(huán)境下的大數(shù)據(jù)處理是未來數(shù)據(jù)存儲、處理的主流技術(shù)。對此,本文通過對云環(huán)境下大數(shù)據(jù)的存儲、管理研究,分別對系統(tǒng)存儲文件夾、文件卡、數(shù)據(jù)處理算法進(jìn)行設(shè)計,搭建成一個云環(huán)境下的大數(shù)據(jù)存儲平臺。最后,通過平臺的實際應(yīng)用,結(jié)果表明:云環(huán)境下存儲技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)快速存儲、數(shù)據(jù)處理,提高了數(shù)據(jù)的存儲、管理效率與質(zhì)量。
云環(huán)境;大數(shù)據(jù);數(shù)據(jù)存儲系統(tǒng);系統(tǒng)設(shè)計;算法
近年來,隨著計算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)的信息量呈現(xiàn)大量增長的現(xiàn)象,對大量的數(shù)據(jù)進(jìn)行存儲、處理是一件較為困難的事情,傳統(tǒng)的數(shù)據(jù)存儲、處理技術(shù)已經(jīng)不能滿足當(dāng)下人們對數(shù)據(jù)處理、存儲的需求。針對此問題,本文通過對云環(huán)境下大數(shù)據(jù)的存儲管理研究,設(shè)計一個云環(huán)境下大數(shù)據(jù)存儲軟件,分別對系統(tǒng)的存儲文件夾、文件卡、數(shù)據(jù)處理算法進(jìn)行設(shè)計,構(gòu)建了一個云環(huán)境下的大數(shù)據(jù)處理平臺,平臺的應(yīng)用結(jié)果表明:云存儲技術(shù)能夠?qū)崿F(xiàn)快速存儲、數(shù)據(jù)處理,提高了對數(shù)據(jù)的存儲、管理效率與質(zhì)量。
云計算是將數(shù)據(jù)信息的處理方式從個人電腦PC與互聯(lián)網(wǎng)轉(zhuǎn)移到數(shù)據(jù)中心的一種模式。云計算不僅涉及到軟件,還涉及到硬件等設(shè)施。數(shù)據(jù)的存儲與管理對任何企業(yè)都是非常重要的,而數(shù)據(jù)的安全性是數(shù)據(jù)存儲的關(guān)鍵。在云計算環(huán)境下,數(shù)據(jù)的可用性與持久性對存儲服務(wù)也是非常重要的。一般來說,一個大型的元計算服務(wù)有專屬的數(shù)據(jù)中心,大量的數(shù)據(jù)存在于各個不同的地方,數(shù)據(jù)以副本的形式存在于每個不同的地方,建立較好的容錯機(jī)制,提高大數(shù)據(jù)的存儲、利用質(zhì)量。
大數(shù)據(jù)一般是指在規(guī)模上和復(fù)雜度上都是難以用現(xiàn)有的數(shù)據(jù)庫管理工具或傳統(tǒng)的計算方法完成對數(shù)據(jù)信息分析處理的數(shù)據(jù)。大數(shù)據(jù)是當(dāng)今世界流行的數(shù)據(jù)分析方法之一,需要從信息時代生活中,分析大量的信息數(shù)據(jù),從中得到各種各樣的有用數(shù)據(jù)信息。大數(shù)據(jù)具備五個特點:數(shù)據(jù)量較大、種類多、速度快、時效高、價值密度低。目前,大數(shù)據(jù)主要存在以下幾個方面的挑戰(zhàn):
(1)數(shù)據(jù)采集存儲和生命周期的管理。由于現(xiàn)代互聯(lián)網(wǎng)絡(luò)的大力發(fā)展,數(shù)據(jù)信息的類型、結(jié)構(gòu)、模式變得更加復(fù)雜;
(2)數(shù)據(jù)包的處理。數(shù)據(jù)包的價值密度是較低的,需要快速地提取有用信息,具備數(shù)據(jù)處理高效、可信及可視化等特點。對于同一個數(shù)據(jù)信息,采用不同的處理方法與分析模型,最后得到的數(shù)據(jù)結(jié)果相差較大。大數(shù)據(jù)的處理結(jié)果還需滿足數(shù)據(jù)的可視化呈現(xiàn)、可追溯、可判斷等相關(guān)需求。
(3)數(shù)據(jù)的安全與隱私問題。在存儲、處理、傳輸大量數(shù)據(jù)信息的過程中,都需要處理安全方面的問題。大數(shù)據(jù)時代,往往生產(chǎn)數(shù)據(jù)的人也同時是使用、管理數(shù)據(jù)的人,所以原有的技術(shù)手段已經(jīng)顯示出不足,無法滿足現(xiàn)在大數(shù)據(jù)的安全要求。
大數(shù)據(jù)的存儲原理為:在數(shù)據(jù)存儲的過程中,根據(jù)相關(guān)的存儲節(jié)點,建立一個大型的云環(huán)境數(shù)據(jù)存儲系統(tǒng),通過該系統(tǒng)將大量的數(shù)據(jù)處理任務(wù)分解為各個小的任務(wù),將數(shù)據(jù)的大集合區(qū)域分解為各小區(qū)域,然后并行進(jìn)行數(shù)據(jù)處理。以下為處理的詳細(xì)步驟:
根據(jù)上述原理中的數(shù)據(jù)處理過程,在并行處理數(shù)據(jù)時,假設(shè)R為需存儲的大量的數(shù)據(jù),有k元屬性,A1,A2,Ai,Ak,代表大量數(shù)據(jù)的各屬性,其中Ai是大量數(shù)據(jù)被存儲在第m個節(jié)點上,
在大數(shù)據(jù)平臺數(shù)據(jù)處理過程中,大量的數(shù)據(jù)R為:
根據(jù)上述的步驟可完成與數(shù)據(jù)平臺的數(shù)據(jù)存儲優(yōu)化與并行處理。
云存儲系統(tǒng)文件存儲系統(tǒng)的把節(jié)點主要有兩部分:數(shù)據(jù)節(jié)點、非數(shù)據(jù)節(jié)點。系統(tǒng)中的主要成分是數(shù)據(jù)節(jié)點(圖中DateNode節(jié)點),管理節(jié)點與監(jiān)控節(jié)點為非數(shù)據(jù)節(jié)點(圖中Master節(jié)點)。Client節(jié)點即為訪問的客戶。Node節(jié)點為系統(tǒng)主要部分,主要包括數(shù)據(jù)存儲、數(shù)據(jù)查詢、事務(wù)處理,主要完成確保系統(tǒng)大部分任務(wù)的正常運行。Master節(jié)點主要實現(xiàn)對系統(tǒng)整體狀態(tài)的監(jiān)控,包括系統(tǒng)節(jié)點狀態(tài)、局部數(shù)據(jù)節(jié)點的查詢、保持文件塊地址信息等。
圖1 云存儲系統(tǒng)結(jié)構(gòu)示意圖
在存儲系統(tǒng)存儲文件時,規(guī)定每個文件塊都用一個主副本,每次事務(wù)處理文件塊時主本控制所有副本的信息更新。文件塊還有以下控制信息塊:(1)主副本所在節(jié)點編號:系統(tǒng)中各節(jié)點都在Master節(jié)點獲得屬于本節(jié)點的編號,且與本節(jié)點的地址組成一個節(jié)點編號。(2)副本個數(shù):包括主副本和其他副本,一般情況下,值為1時,代表無其他副本,值為0則代表此文件塊不存在。(3)副本所在節(jié)點編號:保存所有節(jié)點編號,可實現(xiàn)根據(jù)節(jié)點編號尋找副本節(jié)點地址信息與系統(tǒng)編號的功能。
本數(shù)存儲系統(tǒng)采用谷歌公司的Chubby服務(wù)機(jī)制,Chubby算法主要通過5臺機(jī)器組成一體實現(xiàn)該算法的功能,這樣就可支撐萬臺機(jī)器鎖,5臺機(jī)器本身則采用完全冗余策略,Chubby內(nèi)部采用Conscnsusprotocol協(xié)議保證系統(tǒng)的一致性,在系統(tǒng)內(nèi)部的5臺機(jī)器中設(shè)定一個Master,隨著時間的推移而自動更新。Client和Chubby之間采用event方式通信。
現(xiàn)階段,云存儲越來越受到關(guān)注,應(yīng)用范圍也越來越廣,各個領(lǐng)域都有較好的應(yīng)用范例。 隨著城市化的快速發(fā)展,城市監(jiān)控的網(wǎng)絡(luò)變得越來越重要,以下為云存儲平臺在視頻監(jiān)控領(lǐng)域的應(yīng)用情況。
隨著各互聯(lián)網(wǎng)公司的加入,云存儲研究相關(guān)人員將互聯(lián)網(wǎng)相關(guān)產(chǎn)品中的信息與云存儲應(yīng)用綁定,增加用戶的便捷性。在互聯(lián)網(wǎng)云存儲技術(shù)的支持下,互聯(lián)網(wǎng)上消費電子產(chǎn)品的信息快速流通得以實現(xiàn),有圖片、文字、音樂、視頻的信息,實現(xiàn)產(chǎn)品信息的自由流通,為用戶提供了產(chǎn)品的交流元素。在該系統(tǒng)中需要提供存儲容量大于10PB的存儲系統(tǒng)。互聯(lián)網(wǎng)云存儲對訪問要求較低,需要實現(xiàn)對數(shù)據(jù)的保護(hù)、壓縮、刪除等操作,公司根據(jù)用戶對平臺的存儲服務(wù)空間、訪問流量等進(jìn)行相關(guān)的費用收取。
云環(huán)境下的海量數(shù)據(jù)存儲技術(shù)是未來發(fā)展的趨勢,云平臺是實現(xiàn)該技術(shù)的載體。針對傳統(tǒng)的數(shù)據(jù)存儲、處理方式的各種不足,本系統(tǒng)采用云環(huán)境下的存儲技術(shù),實現(xiàn)對數(shù)據(jù)的安全、快速存儲、處理操作。通過對實際工程的應(yīng)用,結(jié)果表明云存儲技術(shù)的應(yīng)用提高了對海量大數(shù)據(jù)的存儲、處理操作的效率與質(zhì)量。
[1]邵彧.大數(shù)據(jù)云存儲中的并行優(yōu)化處理方法仿真[J].計算機(jī)仿真,2016,33(4):395-398.
[2]費賢舉,王樹鋒.基于云環(huán)境下的海量大數(shù)據(jù)存儲系統(tǒng)設(shè)計[J].計算機(jī)測量與控制,2014,22(7):2259-2262.