云數(shù)據(jù)管理研究綜述*

2010-06-27 02:29:34吳吉義傅建慶張明西平玲娣

電信科學 2010年5期

吳吉義,傅建慶,張明西,平玲娣

(1.杭州師范大學杭州市電子商務(wù)與信息安全重點實驗室杭州310036；2.浙江大學計算機科學與技術(shù)學院杭州 310027；3.東華大學計算機科學與技術(shù)學院上海 201620)

1 引言

在過去的近10年中,學術(shù)界與企業(yè)界以充分利用網(wǎng)絡(luò)計算與存儲資源、實現(xiàn)大范圍的協(xié)作與資源共享、達成高效率低成本的計算為目標,相繼提出了如 “網(wǎng)格計算(grid computing)”、“按需計算”、“效能計算（utility computing）”、“互聯(lián)網(wǎng)計算 (Internet computing)”、“軟件即服務(wù)（software as a service）”、“平臺即服務(wù)”（platform as a service）等類似“云計算”的概念和模式?！霸朴嬎恪备拍畹恼教岢鍪亲罱鼉赡?，“云計算”因其更清晰的商業(yè)模式而受到廣泛關(guān)注,并得到工業(yè)和學術(shù)界的普遍認可,成為2009年最受關(guān)注的十大IT技術(shù)之一。

亞馬遜 (Amazon)推出的 “簡單存儲服務(wù)”S3(simple storage service)和“彈性計算云”EC2(elastic compute cloud)標志著“云計算”發(fā)展的新階段:即基礎(chǔ)架構(gòu)的網(wǎng)絡(luò)服務(wù)作為提供給客戶的新“商品化”的資源,EC2已成為亞馬遜當前“增長最快的業(yè)務(wù)”。谷歌(Google)一直致力于推廣以GFS(Google file system)[1]、MapReduce[2，3]、BigTable[4]技術(shù) 為基礎(chǔ)的應(yīng)用引擎(app engine),為用戶進行海量數(shù)據(jù)處理提供了手段。IBM于2007年推出的“藍云”(blue cloud)計算平臺[5],采用了 Xen[6]、PowerVM[7]虛擬技術(shù)和 Hadoop技術(shù),以期幫助客戶構(gòu)建云計算環(huán)境。HDFS[8，9]與其他分布式文件系統(tǒng)有很多相似,但由于其設(shè)計基于硬件失效(hardware failure)、流式數(shù)據(jù)訪問(streaming data access)、大數(shù)據(jù)集支持(large data sets)、簡單的一致性模型(simple coherency model)、移動計算比移動數(shù)據(jù)更廉價 (moving computation is cheaper than moving data)、跨異構(gòu)軟硬件平臺的移植性(portability across heterogeneous hardware and software platforms)等目標和假設(shè)[8],特色也是非常明顯的。HDFS雖然運行在廉價的硬件設(shè)施(commodity hardware),但能夠滿足高可靠性、大吞吐量、大數(shù)據(jù)集的數(shù)據(jù)訪問需求。微軟也在宣布了Windows Azure云計算操作系統(tǒng)計劃之后,立即著手從Live Service打開市場。vMware的首個云計算操作系統(tǒng)vSphere 4直指到企業(yè)數(shù)據(jù)中心的前沿,它利用虛擬化將企業(yè)數(shù)據(jù)中心整合為云架構(gòu),從而幫忙企業(yè)的數(shù)據(jù)中心達到節(jié)能30%～50%的效用。作為云計算服務(wù)的4類形式之一,SaaS的成功案例包括Salesforce的客戶關(guān)系管理(customer relationship management，CRM)平臺,國內(nèi)阿里軟件 (Alisoft)中小企業(yè)管理軟件平臺也產(chǎn)生了很大的影響。此外,還包括EMC推出的云存儲架構(gòu),蘋果(Apple)推出的基于移動信息服務(wù)的“Mobile Me”云服務(wù)。

國內(nèi)外學術(shù)界也紛紛就云計算進行深層次的研究。例如Google啟動了云計算學術(shù)合作計劃 (academic cloud computing initiative),并先后與麻省理工學院(Massachusetts Institute of Technology)、華盛頓大學 (University of Washington)、斯坦福大學(Stanford University)、卡耐基梅隆大學 (Carnegie Mellon University)、加利福尼亞大學伯克利分校 (University of California,Berkeley)、馬里蘭大學(University of Maryland)、清華大學等高校建立合作關(guān)系,推動云計算的普及，加緊對云計算的研究。卡耐基梅隆大學開展的有關(guān) “數(shù)據(jù)密集型超級計算”DISC(data-intensive supercComputing)[10]研究,國內(nèi)華東師范大學周傲英教授的研究團隊在“數(shù)據(jù)密集型計算”領(lǐng)域的研究,本質(zhì)上也是對云計算技術(shù)的研究。清華大學的張堯?qū)W[11，12]院士的研究團隊于1998年提出的“透明計算”,體現(xiàn)了云計算資源池動態(tài)構(gòu)建、虛擬化、用戶透明等特征[13]。華中科技大學金海教授[6，14]的研究團隊,復旦大學臧斌宇教授[15，16]的研究團隊則在云計算的關(guān)鍵技術(shù)──虛擬化技術(shù)研究領(lǐng)域進行了大量高價值研究。浙江大學也在2008年啟動了“云計算”研究項目,建立了云計算中心和平臺環(huán)境。

當前,Web數(shù)據(jù)管理正逐步向云數(shù)據(jù)管理階段發(fā)展,一個新的云數(shù)據(jù)管理研究領(lǐng)域正逐漸形成。本文在簡單介紹了云計算技術(shù)的基礎(chǔ)上,提出了云數(shù)據(jù)管理系統(tǒng)(cloud data management system,CDMS)的概念,剖析了 BigTable、Hbase、Sector/Sphere等當前互聯(lián)網(wǎng)主流CDMS的基本原理,最后指出了云數(shù)據(jù)管理領(lǐng)域的主要研究方向。

2 云計算技術(shù)

云計算是以虛擬化技術(shù)為基礎(chǔ),以互聯(lián)網(wǎng)為載體提供基礎(chǔ)架構(gòu)、平臺、軟件等服務(wù)為形式，整合大規(guī)?？蓴U展的計算、存儲、數(shù)據(jù)、應(yīng)用等分布式計算資源進行協(xié)同工作的超級計算模式[17]。在云計算模式下,用戶不再需要購買復雜的硬件和軟件,而只需要支付相應(yīng)的費用給“云計算”服務(wù)提供商,通過網(wǎng)絡(luò)就可以方便地獲取所需要的計算、存儲等資源。對于該定義需要特別說明的是,云計算的一個重要價值是軟硬件需求的按需擴展能力[18],完全脫離“本地”計算、數(shù)據(jù)資源的云計算只是一種比較理想的狀態(tài)，考慮到私有云、遺留系統(tǒng)、可靠性、安全性等因素，云計算具有整合資源按需擴展方面的特殊意義。

雖然對云進行定義、分類是很有意義的事情,但理解云計算的價值則顯得更為重要。云計算最關(guān)鍵的特點是計算資源能夠被動態(tài)地有效分配,消費者(最終用戶、組織或者IT部門)能夠最大限度地使用計算資源但又無需管理底層復雜的技術(shù)。云架構(gòu)本身包括私有云和公有云,提供了按需擴展 (scalability on demand)、精簡數(shù)據(jù)中心(streamlining the data center)、改善業(yè)務(wù)流程 (improving business processes),降低啟動成本(minimizing startup costs)等一系列核心價值[18]。

云計算是虛擬化 (virtualization)、效用計算(utility computing)、IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺即服務(wù))、SaaS(軟件即服務(wù))等概念混合演進并躍升的結(jié)果,也是分布式計算、網(wǎng)格計算和并行計算的最新發(fā)展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)。區(qū)分相關(guān)計算形式間的差異性,將有助于我們對云計算本質(zhì)的理解和把握。

云計算屬于分布式計算的范疇,是以提供對外服務(wù)為導向的分布式計算形式[19]。云計算把應(yīng)用和系統(tǒng)建立在大規(guī)模的廉價服務(wù)器集群上,通過基礎(chǔ)設(shè)施與上層應(yīng)用程序的協(xié)同構(gòu)建以達到最大效率利用硬件資源的目的,以及通過軟件的方法容忍多個節(jié)點的錯誤,達到了分布式計算系統(tǒng)可擴展性和可靠性兩個方面的目標[13]。網(wǎng)格計算強調(diào)的是一個由多機構(gòu)組成的虛擬組織,多個機構(gòu)的不同服務(wù)器構(gòu)成一個虛擬組織為用戶提供一個強大的計算資源,而云計算主要運用虛擬機(虛擬服務(wù)器)進行聚合而形成的同質(zhì)服務(wù),更強調(diào)在某個機構(gòu)內(nèi)部的分布式計算資源的共享,在商業(yè)模式[19]、作業(yè)調(diào)度、資源分配方式、是否提供服務(wù)及其形式等方面,兩者差異還是比較明顯的。

云計算是并行計算的一種形式,也屬于高性能計算、超級計算的形式之一，是并行計算的最新發(fā)展計算模式[20]。云計算與效用計算的區(qū)別不在于這些思想背后的目標,而在于組合到一起、使這些思想成為現(xiàn)實的現(xiàn)有技術(shù)[21]。效用計算通常需要類似云計算基礎(chǔ)設(shè)施的支持,但并不是一定需要。同樣,在云計算之上可以提供效用計算,也可以不采用效用計算?；谝陨侠斫?參考文獻[22]把效用計算作為云計算的7種服務(wù)形式之一。

關(guān)于云計算的具體系統(tǒng)和應(yīng)用實例,云體系結(jié)構(gòu)部分和參考文獻[10,13,22，23,25～28]已有比較多的介紹,本文不再重復列舉?？傮w來講,云計算領(lǐng)域的研究還處于起步階段,尚缺乏統(tǒng)一明確的研究框架體系,還存在大量未明晰和有待解決的問題,研究機會、意義和價值非常明顯?，F(xiàn)有的研究大多集中于云體系結(jié)構(gòu)[27,29～31]、云存儲[1，8,9,32]、云安全[18,33～37]、虛擬化[6,14,15,26,38,39]、編程模型[2,3,40,41]等技術(shù),但云數(shù)據(jù)管理領(lǐng)域尚存在大量的開放性問題有待進一步研究和探索。

3 云數(shù)據(jù)管理系統(tǒng)(CDMS)基本原理

雖然GFS、HDFS、S3等分布式文件系統(tǒng)較好地解決了云計算中海量數(shù)據(jù)的組織問題,能夠高效讀寫“云端”海量數(shù)據(jù),但對于結(jié)構(gòu)化數(shù)據(jù)的管理仍需要借助專門的數(shù)據(jù)管理系統(tǒng)。兩者之間的關(guān)系或分工,類似于操作系統(tǒng)中負責文件組織的文件系統(tǒng)和負責結(jié)構(gòu)化數(shù)據(jù)管理的數(shù)據(jù)庫管理系統(tǒng)(DBMS)。云數(shù)據(jù)管理[42]必須有效地解決云計算中大數(shù)據(jù)集的高效管理、海量數(shù)據(jù)中特定數(shù)據(jù)的快速定位等問題。Google 的 BigTable[4]、Hadoop 的 HBase[9]、Sector/Sphere[43,44都是目前相對比較成熟的云數(shù)據(jù)管理系統(tǒng)。

BigTable是Google為有效管理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的分布式存儲系統(tǒng)[4],例如數(shù)千臺服務(wù)器的上PB(petabytes)級規(guī)模的數(shù)據(jù)。參考文獻[13]把BigTable界定為弱一致性的大規(guī)模數(shù)據(jù)庫系統(tǒng),也有學者認為BigTable是由稀疏多維表組成的面向列存儲的數(shù)據(jù)管理系統(tǒng)。本文則從云計算中數(shù)據(jù)管理“大規(guī)模”、“結(jié)構(gòu)化”、“分布式”等特點出發(fā),把BigTable[4]、HBase[8]等一類海量結(jié)構(gòu)化(半結(jié)構(gòu)化)分布式數(shù)據(jù)管理系統(tǒng)或其演化系統(tǒng)界定為云數(shù)據(jù)管理系統(tǒng)。云數(shù)據(jù)管理系統(tǒng)將成為文件與數(shù)據(jù)管理領(lǐng)域繼文件系統(tǒng)(file system)、數(shù)據(jù)庫管理系統(tǒng) (DBMS)、Web數(shù)據(jù)管理系統(tǒng)(WDMS)后的下一個重要發(fā)展階段。]

3.1 BigTable原理

BigTable在很多地方與數(shù)據(jù)庫很類似,使用了很多數(shù)據(jù)庫的實現(xiàn)策略。但不支持完全的關(guān)系數(shù)據(jù)模型,而是為客戶提供了簡單的數(shù)據(jù)模型。BigTable對數(shù)據(jù)讀操作進行優(yōu)化,采用列存儲的方式,提高數(shù)據(jù)讀取效率。BigTable的基本元素包括行 (row)、列族 (column families)和時間戳(Timestamps)[4]等。其中，行關(guān)鍵字可以是任意字符串(目前支持最多64 KB,多數(shù)情況下10～100字節(jié)足夠),在一個行關(guān)鍵字下的每一個讀寫操作都是原子操作(不管讀寫這一行里有多少個不同列),這樣在對同一行進行并發(fā)操作時,用戶對于系統(tǒng)行為更容易理解和掌控。列族由一組同一類型的列關(guān)鍵字組成,是訪問控制的基本單位。列族必須先創(chuàng)建,然后能在其中的列關(guān)鍵字下存放數(shù)據(jù)；列族創(chuàng)建后,族中任何一個列關(guān)鍵字均可使用。一張表中的不同列族不能太多(最多幾百個),并且在運作中絕少改變。表中每一個表項都可以包含同一數(shù)據(jù)的多個版本,由64位整型的時間戳來標識。時間戳可以由BigTable來賦值,表示準確到毫秒的“實時”或者由用戶應(yīng)用程序來賦值。不同版本的表項內(nèi)容按時間戳倒序排列,即最新的排在前面。為了簡化對于不同數(shù)據(jù)版本的數(shù)據(jù)的管理,對每一個列族支持兩個設(shè)定,以便于BigTable對表項的版本自動進行垃圾清除。用戶可以指明只保留表項的最后n個版本,或者只保留足夠新的版本(比如只保留最近7天的內(nèi)容)。

在圖1所示的Web網(wǎng)頁存儲范例[4]中,行名是一個反向 URL(即 com.cnn.www),列族“contents”用于存放網(wǎng)頁內(nèi)容,列族“anchor”則用于存放引用該網(wǎng)頁的錨鏈接文本。這里 CNN的主頁被 “Sports Illustrater”(CNN的體育節(jié)目)和“MY-look”的主頁引用,因此該行包含了名為“anchor:cnnsi.com”和“anchhor:my.look.ca”的列。每個錨鏈接只有一個版本,分別由時間戳t9和t8標識,而contents列則包括分別由時間戳t3、t5和t6標識的3個版本。

大表(BigTable)的內(nèi)容按照行來劃分,由多個行組成一個小表(Tablet),保存到某個小表服務(wù)器(Tablet server)節(jié)點中。在物理層,數(shù)據(jù)存儲的格式為SSTable,每個SSTable包含一系列大小為64 KB(可以配置)的數(shù)據(jù)塊(block)。圖2所示為BigTable的體系結(jié)構(gòu)。

如果說BigTable是一塊布,Tablets就好像是從這塊布上扯下的布條。每個Tablet所需要的存儲空間為100～200 MB,而每臺服務(wù)器(廉價PC)大約存儲100個左右的Tablets,同一臺機器上的所有Tablets共享一個日志。SSTable提供一個從關(guān)鍵字到值持續(xù)有序的映射,關(guān)鍵字和值都可以是任意字符串。塊索引(block index)存儲在SSTable的最后,用來定位數(shù)據(jù)塊。Chubby[45]是BigTable采用的一個高度可用的持續(xù)分布式數(shù)據(jù)鎖服務(wù)。每個Chubby服務(wù)由5個活的備份構(gòu)成,其中一個為主備份并響應(yīng)服務(wù)請求。只有當大多數(shù)備份都保持運行并保持互相通信時,相應(yīng)的服務(wù)才是活動的。當有備份失效時,Chubby使用Paxos[46]算法來保證備份的一致性。Chubby提供了一個由目錄和小文件組成的名字空間 (namespace),每個目錄或者文件可以當成一個鎖來用,讀寫文件操作都是原子化的。

BigTable于2004年開始研發(fā)并投入應(yīng)用,至今已運行了5年,基本上能夠滿足Google數(shù)據(jù)管理的需求,處理海量數(shù)據(jù),實現(xiàn)高速存儲與查找。目前,基于BigTable的應(yīng)用包括Google Analytics、Google Finance、Orkut、Personalized Search、Writely、Google Earth等60多個項目。

3.2 HBase原理

HBase[9]是Hadoop[8]的子項目,是目前比較成熟的云數(shù)據(jù)管理開源解決方案之一。HBase采用與Bigtable非常相似的數(shù)據(jù)模型。用戶存儲數(shù)據(jù)行(data row)在一個標識表(labelled table)中,一個數(shù)據(jù)行有一個可排序的主鍵或分類鍵 (sortable key)和任意數(shù)量的列 (column)。表是疏松(sparsely)存儲的,因此用戶可以根據(jù)需要給同一表中的不同行定義各種不同的列。每張HBase表的索引是行關(guān)鍵字(row key)、列關(guān)鍵字(column key)和時間戳(timestamp)。如圖 3所示,每個值是一個很難解釋的字符數(shù)組,數(shù)據(jù)都是字符串,不區(qū)分類型。

列名字的格式是“:”,都是由字符串組成,每一張表有一個族(family)集合,這個集合是固定不變的,相當于表的結(jié)構(gòu),只能通過改變表結(jié)構(gòu)來改變。標識(label)值相對于每一行來說都是可以改變的。Hbase把同族里面的數(shù)據(jù)存儲在同一個目錄下,而Hbase的寫操作是鎖行的,每一行都是一個原子元素,都可以加鎖。所有數(shù)據(jù)庫的更新都有一個時間戳標記,每個更新都是一個新的版本,系統(tǒng)會保留一定數(shù)量的版本,這個值是可以設(shè)定的。用戶可以選擇獲取距離某個時間最近的版本,或者一次獲取所有版本。

Hbase遵從如圖4所示的簡單主從服務(wù)器架構(gòu),每個Hbase集群通常由單個主服務(wù)器(master server)、數(shù)百個或更多區(qū)域服務(wù)器(region server)構(gòu)成。每個Region由某個表的連續(xù)數(shù)據(jù)行組成,從開始主鍵到結(jié)束主鍵,而某張表的所有行保存在一組Region中。通過用表名和開始/結(jié)束主鍵,來區(qū)分不同的Region。區(qū)域服務(wù)器主要通過3種方式保存數(shù)據(jù):Hmemcache高速緩存,保留的是最新寫入的數(shù)據(jù)；Hlog記錄文件,保留的是提交成功了,但未被寫入文件的數(shù)據(jù)；Hstores文件,數(shù)據(jù)的物理存放形式。

主服務(wù)器的主要任務(wù)是分配每個區(qū)域服務(wù)器需要維護的Region,因此每個區(qū)域服務(wù)器都需要與主服務(wù)器通信。主服務(wù)器會和每個區(qū)域服務(wù)器保持一個長連接,如果該連接超時或者斷開,會導致區(qū)域服務(wù)器自動重啟,同時主服務(wù)器認為該區(qū)域服務(wù)器已死機而把其負責的Region分配給其他區(qū)域服務(wù)器。

[47]以 PostgreSQL[48]和Hbase為代表從軟件架構(gòu)、硬件、OS、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理、擴展性等方面對某電信行業(yè)信息系統(tǒng)從傳統(tǒng)關(guān)系數(shù)據(jù)庫管理系統(tǒng) (RDBMS)到云數(shù)據(jù)管理系統(tǒng)(CDMS)的移植過程進行了比較分析,具體差異見表1。

表1 比較分析要素

3.3 Sector/Sphere原理

參考文獻[43]還從通信協(xié)議、數(shù)據(jù)傳輸協(xié)議、程序設(shè)計模式、安全模型等方面對 GFS/BigTable、HDFS/Hbase、Sector/Sphere進行了比較。Robert L Grossman等在設(shè)計并實現(xiàn)Sector/Sphere[43，44]的基礎(chǔ)上,利用數(shù)據(jù)發(fā)掘應(yīng)用進行了性能方面的實驗[49]。

如圖5所示,服務(wù)器 (sphere server)響應(yīng)用戶(sphere client)的請求而啟動 SPE(sphere processing elements)服務(wù)。其中，SPE是基于用戶定義函數(shù)的運算器(operator),能根據(jù)輸入的Sphere流(stream)產(chǎn)生相應(yīng)的輸出流。Sphere運算器是一個動態(tài)的庫,存儲在服務(wù)器的本地磁盤上,由Sector服務(wù)器(sector server)負責管理。具體SPE的處理過程可以參考文獻[49]。Sphere中的數(shù)據(jù)段(data segment)可以是一個或一組數(shù)據(jù)記錄,也可以是一個文件。

3.4 其他CDMS相關(guān)研究

與 Oracle、DB2、SQL Serverand Sybase[50]等傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,Bigtable、Hbase、Sector/Sphere等基于列模式的分布式數(shù)據(jù)庫,靈活的分布式架構(gòu)可以基于廉價的硬件設(shè)備組建動態(tài)擴展的高性能數(shù)據(jù)倉庫,從而更能適應(yīng)海量存儲和互聯(lián)網(wǎng)應(yīng)用的實際需求。

此外,Hypertable[51]也是基于C++實現(xiàn)的類Bigtable開源系統(tǒng)。其他與云數(shù)據(jù)管理相關(guān)的研究工作主要集中于“數(shù)據(jù)密集型計算(data intensive computing)”,“數(shù)據(jù)密集型超級計算(data-intensive superComputing)[10]”方面的研究。Brandon Rich等[52]提出了一種用于支持動態(tài)存儲云(active storage cloud)中的事務(wù)數(shù)據(jù)平行計算原型系統(tǒng)架構(gòu)DataLab。參考文獻[53]提出了抽象數(shù)據(jù)密集型云計算問題的實例All-Pairs。Huan Liu等[54]則提出了一種大規(guī)模數(shù)據(jù)密集型應(yīng)用系統(tǒng)GridBatch,并在Amazon的EC2平臺驗證了系統(tǒng)的高性能。GrayWulf[55]也是作為一種可擴展的數(shù)據(jù)密集型計算集群體系結(jié)構(gòu)而提出。加州大學的Dionysios Logothetis[56]等還開展了云自組數(shù)據(jù)(Ad-hoc data)處理方面的研究。

4 結(jié)束語

云計算通過對大規(guī)?？蓴U展的計算、存儲、數(shù)據(jù)、應(yīng)用等分布式計算資源進行整合,通過互聯(lián)網(wǎng)技術(shù)以按需使用的方式為用戶提供計算、存儲和數(shù)據(jù)服務(wù)。云計算的出現(xiàn)并快速發(fā)展,一方面是虛擬化技術(shù)、數(shù)據(jù)密集型計算等技術(shù)發(fā)展的結(jié)果,另一方面也是互聯(lián)網(wǎng)發(fā)展需要不斷豐富其應(yīng)用必然趨勢的體現(xiàn)。目前,云計算還沒有一個統(tǒng)一的標準,雖然 Amazon、Google、IBM、Microsoft等云計算平臺已經(jīng)為很多用戶所使用,但是云計算在行業(yè)標準、數(shù)據(jù)安全、服務(wù)質(zhì)量、應(yīng)用軟件等方面也面臨著各種問題,這些問題的解決需要技術(shù)的進一步發(fā)展。

云數(shù)據(jù)管理領(lǐng)域迫待解決的問題包括:云數(shù)據(jù)管理或云數(shù)據(jù)管理系統(tǒng)(CDMS)基礎(chǔ)理論的建立與完善；云計算平臺共享存儲空間中用戶間數(shù)據(jù)的隔離問題[22]；當用戶數(shù)據(jù)發(fā)生意外丟失時,高效數(shù)據(jù)恢復技術(shù)與機制的研究；云數(shù)據(jù)的安全性、一致性如何支持外部審計和安全認證；傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(DBMS),Web數(shù)據(jù)管理系統(tǒng)(WDMS)對云計算的支持,向云數(shù)據(jù)管理方式的改造與遷移研究；能否在云數(shù)據(jù)管理系統(tǒng)中,實現(xiàn)原有數(shù)據(jù)庫系統(tǒng)中豐富的查詢功能、高效復雜的索引以及強大的事務(wù)處理功能；云數(shù)據(jù)挖掘[20]與服務(wù)智能等,都是非常具有挑戰(zhàn)性的課題。

我們相信,隨著工業(yè)界、學術(shù)界越來越多的關(guān)注、參與和支持,云數(shù)據(jù)管理領(lǐng)域?qū)⒊霈F(xiàn)一些新的結(jié)構(gòu)模式、管理平臺和應(yīng)用實例,并推動云數(shù)據(jù)管理及其應(yīng)用日益走向成熟。希望本文能對有興趣于云計算特別是云數(shù)據(jù)管理領(lǐng)域研究的學者、工程師研究工作起到推動和促進作用。

參考文獻

1 Sanjay Ghemawat,Howard Gobioff,Shun-Tak Leung.The Google file system.In:Proc of the 19th ACM SOSP，New York,2003

2 Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters.In:Proc of the 6th SOSDI，Berkeley Calif,2004

3 Ralf Lammel.Google’s MapReduce programming model Revisited.http://www.cs.vu.nl/～ralf/MapReduce/paper.pdf,2007

4 Fay Chang,Jeffrey Dean,Sanjay Ghemawat,et al.Bigtable:a distributed storage system for structured data.In:Proc of the 7th USENIX Symp on OSDI，Berkeley,2006

5 Kelly Sims.IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing.http://www-03.ibm.com/press/us/en/pressrelease/22613.wss,2009

6 石磊,鄒德清,金海.Xen虛擬化技術(shù).北京：華中科技大學出版社,2009

7 IBM.IBM virtualization.http://www-03.ibm.com/systems/virtualization/,2009

8 Dhruba Borthaku.The hadoop distributed file system:architecture and design.http://hadoop.apache.org/common/docs/r0.16.0/hdfs_design.pdf,2009

9 Hbase DevelopmentTeam.Hbase:bigtable-like structured storage for hadoop hdfs.http://wiki.apache.org/hadoop/Hbase,2009

10 Randal E B.Data-intensive supercomputing:the case for DISC.http://www.cs.cmu.edu/～bryant/pubdir/cmu-cs-07-128.pdf,2009

11 Zhang Y X,Zhou Y Z.4VP+:a novel meta OS approach for streaming programs in ubiquitous computing.In:Proc of IEEE the 21st Int’l Conf on Advanced Information Networking and Applications(AINA 2007)，Los Alamitos,2007

12 Zhang Y X,Zhou Y Z.Transparent computing:a new paradigm for pervasive computing.In:Proc of the 3rd Int’l Conf on Ubiquitous Intelligence and Computing (UIC 2006)，Berlin,2006

13 陳康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀.軟件學報，2009,20(5):1337～1348

14 金海.計算系統(tǒng)虛擬化:原理與應(yīng)用.北京：清華大學出版社,2008

15 英特爾開源軟件技術(shù)中心,復旦大學并行處理研究所.系統(tǒng)虛擬化:原理與實現(xiàn).北京：清華大學出版社,2009

16 陳海波.云計算平臺可信性增強技術(shù)的研究.復旦大學博士學位論文,2009

17 吳吉義,平玲娣,潘雪增等.云計算：從概念到平臺.電信科學,2009(12)

18 Open cloud manifesto.http://www.opencloudmanifesto.org,2009

19 Ian Foster,Zhao Yong,Ioan Raicu,et al.Cloud computing and grid computing 360-degree compared.In:Grid Computing Environments Workshop,GCE 2008

20 陳國良,孫廣中,徐云等.并行計算的一體化研究現(xiàn)狀與發(fā)展趨勢.科學通報,2009,54(8):1043～1049

21 Tim Jones M.Cloud computing with Linux.http://download.boulder.ibm.com/ibmdl/pub/software/dw/linux/l -cloud -computing/l-cloud-computing-pdf.pdf,2009

22 范昊,余婷.一種新型的網(wǎng)絡(luò)分布式計算──云計算.2008年全國高性能計算學術(shù)年會論文集,2008

23 Buyya Rajkumar,Chee Shin Yeo,Srikumar Venugopal.Marketoriented cloud computing:vision,hype,and reality for delivering IT services as computing utilities.In:Proc of the 10th IEEE International Conference on High Performance Computing and Communications,2008

24 司品超,董超群,吳利等.云計算:概念,現(xiàn)狀及關(guān)鍵技術(shù).2008年全國高性能計算學術(shù)年會論文集,2008

25 IBM. “藍云”解決方案.http://www-900.ibm.com/ibm/ideasfromibm/cn/cloud/solutions/index.shtml,2009

26 IBM.“智慧的地球”─IBM動態(tài)架構(gòu)之系統(tǒng)虛擬化.http://www.ibm.com/cn/express/migratetoibm/dynamicinfrastructure/download/dynamicinfrastructure_whitepaper_0903.pdf,2009

27 SUN.云計算架構(gòu)介紹白皮書 (第1版).http://developers.sun.com.cn/blog/functionalca/resource/sun_353cloudcomputing_chinese.pdf,2009

28 潘春燕.云計算實戰(zhàn)把數(shù)據(jù)中心遷移到云環(huán)境.信息系統(tǒng)工程,2009(2):30～31

29 Luis M V,Luis Rodero-Merino,Juan Caceres,Maik Lindner.A break in the clouds:toward a cloud definition.ACM SIGCOMM Computer Communication Review,2009,39(1):50～55

30 Buyya Rajkumar,Chee Shin Yeo,Srikumar Venugopal.Marketoriented cloud computing:vision,hype,and reality for delivering IT services as computing utilities.In:Proc of the 10th IEEE International Conference on High Performance Computing and Communications,2008

31 Luiz Andre Barroso,Jeffrey Dean,Urs Holzle.Web search for a planet:the google cluster architecture.IEEE Micro,2003,23(2):22～28

32 Amazon.Amazon simplestorageservice (S3).http://www.amazon.com/s3,2009

33 Above the clouds:a berkeley view of cloud computing.http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.html

34 2009中國云計算發(fā)展狀況白皮書.http://www.tsinghuausa.org/W0509web/id0509/yun.pdf,2009

35 Patrick Goldsack等.Cells-as-a-Service──一項云計算基礎(chǔ)設(shè)施服務(wù).中國計算機學會通訊(CCFC),2009,5(6):26～31

36 Gartner.Teleworking in the cloud:security risks and remedies.http://www.gartner.com/resources/167600/167661/teleworking_in_the_cloud_sec_167661.pdf,2009

37 Cloud security alliance.http://www.cloudsecurityalliance.org/guidance/csaguide.pdf,2009

38 VMware.虛擬化技術(shù)作為云計算的平臺.http://www.yocsef.org.cn/mcti/image/200903301516261.pdf,2009

39 Center for Internet Security.Virtual machine security guidelines.http://www.cisecurity.org/tools2/vm/CIS_VM_Benchmark_v1.0.pdf,2009

40 Yang HC,Dasdan A,Hsiao RL,Parker DS.Map-reduce-merge:simplified relational data processing on large clusters.In:Proc of the 2007 ACM SIGMOD Int’l Conf on Management of Data，New York,2007

41 Ranger C,Raghuraman R,Penmetsa A,et al.Evaluating mapReduce for multi-core and multiprocessor systems.In:Proc of the 13th Int’l Symp on High-performance Computer Architecture,Los Alamitos,2007

42 Daniel J A.Data management in the cloud:limitations and opportunities.Bulletin of the IEEE Computer Society Technical Committee on Data Engineering,2009,32(1):3～12

43 Gu Yunhong,Robert L G.Sector and sphere:the design and implementation of a high-performance data cloud.Philosophical Transactions of the Royal Society,2009(367):2429～2445

44 Robert L G,Gu Yunhong,Michael S,et al.Compute and storage clouds using wide area high performance networks.Future Generation Computer Systems,2009,25(2):179～183

45 Mike Burrows.The chubby lock service forlooselycoupled distributed systems.In:Proc of the 7th Symposium on Operating Systems Design and Implementation(OSDI),2006

46 Tushar Chandra,Robert Griesemer,Joshua Redstone.Paxos made live-an engineering perspective.In:Proc of the 26th annual ACM symposium on Principles of Distributed Computing,2007

47 Jean D C,Alain April,Alain Abran.Criteria to compare cloud computing with current database technology.LNCS 5338,2008,114～126

48 The postgreSQL global development group.Retrieved from http://docs.postgresql.fr/8.4/,2009

49 Robert L G,Gu Yunhong.Data mining using high performance data clouds:experimental studies using sector and sphere.In:Proc of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2008

50 Olofson C.Worldwide RDBMS 2005 vendor shares.Technical Report 201692,IDC,May 2006

51 Overview of hypertable architecture.http://code.google.com/p/hypertable/wiki/ArchitecturalOverview,2009

52 Brandon Rich,Douglas Thain.DataLab:transactional dataparallel computing on an active storage cloud.In:Proc of the 17th International Symposium on High Performance Distributed Computing,2008

53 ChristopherMoretti,Jared Bulosan,DouglasThain,etal.All-pairs:an abstraction for data-intensive cloud computing.In:Proc of the 22nd IEEE International Parallel and Distributed Processing Symposium,Program and CD-ROM,2008

54 Huan Liu,Dan Orban.GridBatch:cloud computing for large-scale data-intensive batch applications.In:Proc of the 8th IEEE International Symposium on Cluster Computing and the Grid,2008

55 Alexander S S,Gordon Bell,Jan Vandenberg,et al.GrayWulf:scalable clustered architecture for data intensive computing.In:Proc of the 42st Hawaii International Conference on Systems Science,2009

56 Dionysios Logothetis,Kenneth Yocum.Ad-hoc data processing in the cloud.In:Proc of the VLDB'08,2008

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放