蒲芳,盛榮春,沈煜
?
基于ATMOS的校園云存儲(chǔ)平臺(tái)的構(gòu)建與應(yīng)用
蒲芳,盛榮春,沈煜
摘要:為了解決在高校中跨校區(qū)使用海量非結(jié)構(gòu)數(shù)據(jù)的應(yīng)用中所面臨的數(shù)據(jù)安全性、移動(dòng)性的問題。介紹了傳統(tǒng)存儲(chǔ)方式與面向?qū)ο蟠鎯?chǔ)方式的特點(diǎn)及典型應(yīng)用;從校園信息化建設(shè)中的實(shí)際應(yīng)用和需求出發(fā),提出了校園網(wǎng)中基于面向?qū)ο蟠鎯?chǔ)方式的ATMOS云存儲(chǔ)平臺(tái)的系統(tǒng)結(jié)構(gòu),詳細(xì)分析了云存儲(chǔ)平臺(tái)的數(shù)據(jù)讀寫流程。實(shí)踐表明:基于ATMOS云存儲(chǔ)平臺(tái)有效地保障非結(jié)構(gòu)數(shù)據(jù)的異地災(zāi)備和實(shí)時(shí)高效的存取,提高了數(shù)據(jù)安全性;保障了移動(dòng)辦公的可靠性。
關(guān)鍵詞:非結(jié)構(gòu)數(shù)據(jù);面向?qū)ο蟠鎯?chǔ);云存儲(chǔ)
盛榮春(1989-),男,東華大學(xué),碩士研究生,研究方向:數(shù)據(jù)分析,數(shù)據(jù)加密,上海,201620
沈煜(1980-),東華大學(xué),助理研究員,碩士,研究方向:數(shù)據(jù)分析,信息系統(tǒng),上海,201620
隨著網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的迅速發(fā)展,信息爆炸性的增長(zhǎng),而且形式與內(nèi)容也呈現(xiàn)出越來越廣泛的多樣性,互聯(lián)網(wǎng)已成為一個(gè)巨大的海量信息空間。人們創(chuàng)建、使用和存儲(chǔ)信息的方式也繼續(xù)以空前的速度和規(guī)模發(fā)展,規(guī)模已達(dá)ZB級(jí)的數(shù)字世界,預(yù)計(jì)每年都會(huì)翻倍,預(yù)計(jì)到2020年將達(dá)到35.2 ZettaBytes。IT部門正在管理比以往更多的數(shù)據(jù),這些數(shù)據(jù)具有越來越高的業(yè)務(wù)價(jià)值,必須進(jìn)行長(zhǎng)期保存和保護(hù)。而其中80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。非結(jié)構(gòu)化數(shù)據(jù),是存儲(chǔ)在文件系統(tǒng)的信息,而不是數(shù)據(jù)庫(kù)。如何應(yīng)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng),尋找更高效的方式,在更長(zhǎng)的時(shí)間跨度內(nèi),管理非結(jié)構(gòu)化數(shù)據(jù)(例如圖像、電子郵件、視頻和文本),成為存儲(chǔ)發(fā)展的方向。
云存儲(chǔ)由多個(gè)分布式資源組成,但作為一個(gè)整體提供服務(wù),也稱為聯(lián)邦存儲(chǔ)云[1]。它是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng),將儲(chǔ)存資源放到云上供人存取,使用者可以在任何時(shí)間、任何地方,通過任何可連網(wǎng)的裝置連接到云
上方便地存取數(shù)據(jù)。云存儲(chǔ)平臺(tái)能夠面對(duì)以下3方面的挑戰(zhàn):(1)海量非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)及管理;(2)分布式數(shù)據(jù)中心,通過多站點(diǎn)服務(wù)對(duì)地域分散的數(shù)據(jù)進(jìn)行統(tǒng)一管理:通過數(shù)據(jù)的冗余及分布式,具有高的容錯(cuò)性;通過不同版本的副本的創(chuàng)建,具有高的耐用性;(3)為消費(fèi)者提供靈活的訪問方式,消費(fèi)者隨時(shí)隨地,從任何設(shè)備訪問存儲(chǔ)。
目前存儲(chǔ)技術(shù)的發(fā)展非常迅速,所涉及的范圍也十分的廣泛,從存儲(chǔ)的發(fā)展歷程來看,可以歸納為四種類型:傳統(tǒng)的直接連接存儲(chǔ)(Direct Access Storage,簡(jiǎn)稱DAS),基于傳統(tǒng)文件的存儲(chǔ)(Network Attached Storage,簡(jiǎn)稱NAS),基于傳統(tǒng)數(shù)據(jù)塊的存儲(chǔ)(Storage Area Network,簡(jiǎn)稱SAN)、以及基于對(duì)象存儲(chǔ)(Object-based Storage)。
1.1傳統(tǒng)存儲(chǔ)及典型應(yīng)用
(1)直接連接存儲(chǔ) DAS
DAS是一種傳統(tǒng)的存儲(chǔ)方式,DAS通過標(biāo)準(zhǔn)的接口(像IDE、SCSI等)然后,直接掛載在各種服務(wù)器或者是客戶端的擴(kuò)展接口下,服務(wù)器通過I/O通道直接訪問DAS中的數(shù)據(jù)。
(2)網(wǎng)絡(luò)連接存儲(chǔ) NAS
NAS是直接連接到網(wǎng)絡(luò)的一種存儲(chǔ)器。NAS容許用戶在網(wǎng)絡(luò)上存取數(shù)據(jù),NAS集中管理和處理網(wǎng)絡(luò)上的所有數(shù)據(jù),將負(fù)載從應(yīng)用或企業(yè)服務(wù)器上卸載下來,主要是文件應(yīng)用。
(3)存儲(chǔ)局域網(wǎng)SAN
SAN是一個(gè)集中式管理的高速存儲(chǔ)網(wǎng)絡(luò),存儲(chǔ)區(qū)域網(wǎng)是獨(dú)立于服務(wù)器網(wǎng)絡(luò)系統(tǒng)之外的高速光纖存儲(chǔ)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)采用高速光纖通道作為傳輸體,以SCSI-3協(xié)議作為存儲(chǔ)訪問協(xié)議,將存儲(chǔ)系統(tǒng)網(wǎng)絡(luò)化,實(shí)現(xiàn)真正的高速共享存儲(chǔ)。SAN的一項(xiàng)典型應(yīng)用是需要高速塊級(jí)別訪問的數(shù)據(jù)操作服務(wù)器,比如電子郵件服務(wù)器、數(shù)據(jù)庫(kù)和高利用率的文件服務(wù)器等。1.2 對(duì)象存儲(chǔ)及典型應(yīng)用
在信息系統(tǒng)中,結(jié)構(gòu)化數(shù)據(jù)通常就是指能在關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中存儲(chǔ)的數(shù)據(jù),即可以用二維表的結(jié)構(gòu)來邏輯表達(dá)的數(shù)據(jù)。反之,非結(jié)構(gòu)化數(shù)據(jù)是指那些沒有特定的數(shù)據(jù)結(jié)構(gòu)和模式來決定它如何存儲(chǔ)的數(shù)據(jù),這些數(shù)據(jù)并不適合直接用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)來存儲(chǔ)。例如文本文檔、圖片、音樂、視頻文件、博客文檔等。對(duì)象存儲(chǔ)技術(shù)出現(xiàn)的主要目的就是用來優(yōu)化非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。對(duì)象存儲(chǔ)的概念是由SNIA在1999年提出的,然后再2002年左右出現(xiàn)一些商用產(chǎn)品,Centera是EMC的一個(gè)對(duì)象存儲(chǔ)產(chǎn)品作為一個(gè)內(nèi)容尋址存儲(chǔ)(Content Addressed Storage,簡(jiǎn)稱CAS)歸檔系統(tǒng)也是其中之一。
基于對(duì)象和基于傳統(tǒng)文件的存儲(chǔ)方式的最大的區(qū)別是,在對(duì)象中,可以存儲(chǔ)更多的元數(shù)據(jù),雖然有些文件系統(tǒng)也支持?jǐn)U展元數(shù)據(jù),但是這些數(shù)據(jù)通常很少會(huì)被應(yīng)用程序用到[2]。而作為對(duì)象存儲(chǔ)系統(tǒng),這種元數(shù)據(jù)的存儲(chǔ)會(huì)被放置在一個(gè)特定的區(qū)域,而不是文件中,從而可以被更好訪問和搜索。對(duì)象存儲(chǔ)已經(jīng)走到每個(gè)人的身邊,當(dāng)你打開淘寶網(wǎng)上一個(gè)店鋪的商品頁(yè)面時(shí)就使用了淘寶對(duì)象存儲(chǔ)(TFS),查看Facebook上的一張照片就用到了Facebook Haystack對(duì)象存儲(chǔ)等。
1.3EMC ATMOS云存儲(chǔ)
2009年EMC公司發(fā)布了基于云存儲(chǔ)的平臺(tái)ATMOS,ATMOS提供針對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)、歸檔服務(wù)、數(shù)據(jù)采用跨地區(qū)和對(duì)象存儲(chǔ)的方式。EMC ATMOS結(jié)合CAS和NAS的特點(diǎn),添加更加豐富的基于云端優(yōu)化的對(duì)象分類支持以及分布式的內(nèi)容尋址,ATMOS也可以說是基于云端優(yōu)化的對(duì)象存儲(chǔ)系統(tǒng)。
校園云存儲(chǔ)建設(shè)在教育信息化建設(shè)中已逐漸顯示出它的重要性和必要性[3]。校園中很多應(yīng)用諸如:新聞系統(tǒng)、數(shù)字圖書館系統(tǒng)、資源庫(kù)系統(tǒng)、電子檔案系統(tǒng)[4]等多個(gè)系統(tǒng)涉及文本、圖像、視頻、音頻等非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)。這些數(shù)據(jù)的存儲(chǔ)面臨著存儲(chǔ)資源利用率低、管理復(fù)雜、安全與可靠性低等問題。為了解決此類問題,我們采用了基于ATMOS的面向?qū)ο蟮脑拼鎯?chǔ)方法來滿足數(shù)據(jù)存儲(chǔ)的容災(zāi)、異地備份、非結(jié)構(gòu)化存儲(chǔ)、移動(dòng)辦公等要求。
2.1系統(tǒng)架構(gòu)與實(shí)現(xiàn)
ATMOS的部署方式分為硬件部署和軟件部署。硬件集成的部署方式:ATMOS系統(tǒng)中包含運(yùn)算節(jié)點(diǎn),連接網(wǎng)絡(luò)的交換機(jī)和存儲(chǔ)數(shù)據(jù)的磁盤柜。軟件的方式部署:ATMOS軟件安裝在運(yùn)行vSphere的VMware的ESX服務(wù)器上,后端連接傳統(tǒng)的存儲(chǔ)系統(tǒng)。這種部署的好處可以利用現(xiàn)有的硬件實(shí)現(xiàn)。此次基于ATMOS的校園云存儲(chǔ)平臺(tái)采用的是基于軟件部署的方式。ATMOS軟件安裝在運(yùn)行vSphere的VMware的ESXi服務(wù)器上,通過虛擬器虛擬出了交換器、存儲(chǔ)網(wǎng)絡(luò)和路由器等設(shè)備實(shí)現(xiàn)了ATMOS所需要的應(yīng)用環(huán)境。整體的校園系統(tǒng)架構(gòu)如圖1所示:
圖1 基于ATMOS的校園系統(tǒng)架構(gòu)圖
學(xué)??赡軙?huì)有若干個(gè)校區(qū),每個(gè)校區(qū)會(huì)有若干個(gè)裝有ATMOS前端計(jì)算節(jié)點(diǎn)和磁盤存儲(chǔ)設(shè)備的服務(wù)器。數(shù)據(jù)可以存儲(chǔ)在一個(gè)校區(qū)內(nèi)的若干個(gè)服務(wù)器的磁盤存儲(chǔ)設(shè)備上,通過ATMOS節(jié)點(diǎn)中的元數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)訪問與管理。校區(qū)與校園之間以TCP/IP協(xié)議連接,通過副本機(jī)制進(jìn)行異步備份。多數(shù)據(jù)中心雙活,通過統(tǒng)一目錄空間,使用對(duì)象ID訪問跨站點(diǎn)數(shù)據(jù)。元數(shù)據(jù)驅(qū)動(dòng)的策略,根據(jù)數(shù)據(jù)的特性可以決定:存多少份,存在哪里,存多久。多個(gè)部門的不同應(yīng)用可以分別作為不同的租戶使用同一個(gè)存儲(chǔ),租戶之間安全隔離數(shù)據(jù)互不可見,多租戶安全共享。每個(gè)租戶可以施加獨(dú)立的策略,所以,對(duì)每個(gè)應(yīng)用或組分別采用最優(yōu)的策略,來提升存儲(chǔ)利用率。
校園的終端用戶通過不同的訪問方式以不同的訪問接口方式,通過ATMOS本地客戶端訪問應(yīng)用程序接口(ATMOS Native Client Access API)訪問最近校區(qū)內(nèi)服務(wù)器的數(shù)據(jù)。如web訪問可通過REST或SOAP接口訪問API,文件系統(tǒng)可以通過IFS、NFS/CIFS的方式以及針對(duì)內(nèi)容尋址CAS的API方式訪問。現(xiàn)有系統(tǒng)集成了數(shù)字檔案系統(tǒng)和個(gè)人空間應(yīng)用。
2.2存儲(chǔ)訪問過程分析
(1)ATMOS本地客戶端訪問API存在于ATMOS前端節(jié)點(diǎn)中,通過此接口可以對(duì)數(shù)據(jù)進(jìn)行創(chuàng)建和訪問,主要組件如下所示:
MDS(MetaData Service):元數(shù)據(jù)服務(wù)器,記錄存儲(chǔ)用戶、系統(tǒng)和布局的相關(guān)信息。
MDLS(MetaData Location Service):元數(shù)據(jù)所在位置服務(wù)器,主要記錄對(duì)象元數(shù)據(jù)所在的MDS,并且只能配置在每個(gè)資源管理組前兩個(gè)節(jié)點(diǎn)中。
RM(Resource Management):管理本地存儲(chǔ)資源,包括監(jiān)視數(shù)據(jù)服務(wù)狀態(tài),MDLS信息和分配文件所在的MDS等。
PM(Policy Management):策略管理器,提供策略管理、查詢、決定對(duì)象寫服務(wù)的處理策略。
JS(Job Service):提供執(zhí)行副本的任務(wù)。策略用來對(duì)數(shù)據(jù)分類,在數(shù)據(jù)變化或被訪問時(shí),不同類型的數(shù)據(jù)觸發(fā)不同的動(dòng)作。
(2)文件存儲(chǔ)到ATMOS云存儲(chǔ)平臺(tái)過程分析(FS客戶端),如圖2所示:
圖2 文件在ATMOS的存儲(chǔ)過程分析圖
①校園用戶在linux操作系統(tǒng)上把文件傳遞到maui掛載點(diǎn)。
②客戶端通過RM來查詢相應(yīng)的MDLS。
③通過MDLS的查詢找到擁有父目錄的MDS。
④創(chuàng)建請(qǐng)求發(fā)送給MDS。
⑤此時(shí)MDS詢問PM獲取文件的布局方式,PM返回XML形式的策略包含位置、副本數(shù)、副本方式 和觸發(fā)條件。MDS會(huì)填寫用戶信息和文件屬性并查詢RM決定在本地資源的存儲(chǔ)方式。
⑥同時(shí)把相關(guān)布局(LSO)和對(duì)象ID(OID)返回給客戶端。
⑦客戶端根據(jù)相關(guān)協(xié)議將數(shù)據(jù)寫入到選定的資源存儲(chǔ)服務(wù)器。
(3)Web服務(wù)對(duì)象的創(chuàng)建過程分析,如圖3所示:
圖3 web服務(wù)對(duì)象的創(chuàng)建過程分析圖
(4)Web服務(wù)對(duì)象的讀取過程分析,如圖4所示:
圖4 web服務(wù)對(duì)象的讀取過程分析圖
①客戶端發(fā)出請(qǐng)求到應(yīng)用程序。
②應(yīng)用程序通過REST請(qǐng)求傳遞。
③ATMOS的WS客戶端查詢RM獲得相應(yīng)MDLS。
④WS客戶端查詢MDLS得到讀取對(duì)象的MDS。
⑤ MDS把對(duì)象的布局(LSO)等信息返回給WS客戶端。
⑥ WS客戶端找到最佳副本并讀取數(shù)據(jù)。
⑦并把數(shù)據(jù)和元數(shù)據(jù)返回給應(yīng)用程序。
⑧數(shù)據(jù)傳輸?shù)娇蛻舳恕?/p>
2.3集成應(yīng)用分析
(1)檔案系統(tǒng)
校園的檔案系統(tǒng)是管理學(xué)校檔案的部門,采用了電子歸檔,存儲(chǔ)數(shù)據(jù)的屬性大多像pdf、圖片等非結(jié)構(gòu)化數(shù)據(jù)。由于對(duì)數(shù)據(jù)的安全性要求比較高,存儲(chǔ)的方式應(yīng)該具有容災(zāi)和異地備份等特點(diǎn)。基于ATMOS平臺(tái)的云存儲(chǔ)方式很好的滿足了檔案系統(tǒng)數(shù)據(jù)的存儲(chǔ)與管理的需求,基于ATMOS,設(shè)置一個(gè)邏輯磁盤驅(qū)動(dòng)器GeoDrive,數(shù)字檔案系統(tǒng)通過GeoDrive的虛擬盤符在訪問ATMOS的存儲(chǔ)空間,從一個(gè)校區(qū)的節(jié)點(diǎn)上傳,會(huì)自動(dòng)同步到別的校區(qū)的存儲(chǔ)。
(2)個(gè)人工作空間
個(gè)人工作空間,主要是針對(duì)移動(dòng)辦公,用戶可以在任何地點(diǎn)、任何時(shí)間通過移動(dòng)終端基于云存儲(chǔ)平臺(tái)來對(duì)存儲(chǔ)的文檔、文件等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行瀏覽、編輯、下載、上傳等處理。在校園網(wǎng)中采用VMware Horizon Workspace以NFS方式掛接ATMOS云存儲(chǔ)平臺(tái)的盤符。同一賬號(hào)使用多個(gè)終端智能設(shè)備隨時(shí)隨地訪問云存儲(chǔ),內(nèi)容實(shí)時(shí)同步更新,安全性高,滿足隨時(shí)隨地移動(dòng)辦公需求。
云存儲(chǔ)將大量不同類型的存儲(chǔ)設(shè)備通過軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)服務(wù)。云存儲(chǔ)服務(wù)相對(duì)于傳統(tǒng)存儲(chǔ)技術(shù)在數(shù)據(jù)安全性、可靠性、易管理性等方面有了很大的進(jìn)步。本研究提出了基于EMC ATMOS的校園云存儲(chǔ)平臺(tái),有效的存儲(chǔ)了校園信息系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù),集成了數(shù)字檔案系統(tǒng)和個(gè)人工作空間的應(yīng)用,提高了校園辦公效率。同時(shí),如何有效地將ATMOS云存儲(chǔ)平臺(tái)應(yīng)用在校園信息化建設(shè)中還有很多值得深入探索的工作,例如云存儲(chǔ)平臺(tái)安全性的深入研究與應(yīng)用[5],與現(xiàn)有的統(tǒng)一用戶身份認(rèn)證平臺(tái)的集成工作、在云存儲(chǔ)平臺(tái)與其他接口應(yīng)用的集成工作等。只有把這些工作扎實(shí)的做好,才能使云存儲(chǔ)在校園信息化建設(shè)中發(fā)揮越來越重要的作用。
參考文獻(xiàn)
[1] Gil Vernik, Alexandra Shulman-Peleg, Sebastian Dippl, et al. Data On-boarding in Federated Storage Clouds: proceedings of the 2013 IEEE Sixth International Conference on Cloud Computing. Santa Clara, CA, USA, June 28 - July 3, 2013[C]. IEEE 2013.
[2] 王永魁,朱蘭娟.對(duì)象存儲(chǔ)系統(tǒng)的研究[J].計(jì)算機(jī)工程, 2007(12):266-267,270.
[3] 吳明珠,陳瑛.基于云存儲(chǔ)技術(shù)的教育資源構(gòu)建與共享[J].計(jì)算機(jī)教育, 2014(7): 40-44.
[4] 孫凌燕,潘世敏.檔案信息資源存儲(chǔ)的發(fā)展方向-對(duì)象存儲(chǔ)[J].檔案學(xué)研究,2011(1):71-74.
[5] 傅穎勛,羅圣美,舒繼武.安全云存儲(chǔ)系統(tǒng)與關(guān)鍵技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展.2013,50(1):136-145.
收稿日期:(2015.04.13)
作者簡(jiǎn)介:蒲芳(1978-),女,東華大學(xué),副研究員,博士,研究方向:數(shù)據(jù)分析、應(yīng)用集成、云計(jì)算,上海,201620
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助(2232013D3-38;2232013E3-14)
文章編號(hào):1007-757X(2015)12-0003-02
中圖分類號(hào):TP393
文獻(xiàn)標(biāo)志碼:A