翁建華
(浙江海洋學(xué)院圖書館,浙江 舟山 316004)
現(xiàn)代信息技術(shù)的高速發(fā)展,高校圖書館已從傳統(tǒng)的圖書館轉(zhuǎn)向了數(shù)字化圖書館,圖書館數(shù)據(jù)存儲正面臨著諸如空間、安全、訪問速度和管理等問題,數(shù)據(jù)存儲模式的更新是現(xiàn)代數(shù)字圖書館的必然趨勢。隨著Amazon、Google和IBM公司相繼推出云計算的概念,意味著IT業(yè)正式邁進(jìn)了“云時代”,“云”概念已迅速滲透到了各個商業(yè)領(lǐng)域,并給企業(yè)帶來了良好的經(jīng)濟(jì)效益。在這樣的環(huán)境下,作為信息資源中心的高校圖書館,利用云技術(shù)來解決數(shù)字資源存儲問題,不失為一種嶄新的、較為理想的方法。
浙江海洋學(xué)院圖書館[1]近年來在數(shù)字化建設(shè)方面做了很大的努力,目前已擁有CNKI中國期刊全文數(shù)據(jù)庫、CNKI優(yōu)秀博碩士論文、中文科技期刊數(shù)據(jù)庫、萬方數(shù)字資源、人大全文數(shù)據(jù)庫、國研網(wǎng)、讀秀學(xué)術(shù)搜索、超星電子圖書、Scopus文摘庫、EBSCOhost、SpringerLLink 電子刊、Springer電子書、World Scientific 電子書、NowPublishers、ProQuest學(xué)位論文庫、Encyclopedia of Ocean Sciences等30余種中外文數(shù)據(jù)庫鏡像。除了以上這些數(shù)字資源外,還有自建的海洋、水產(chǎn)特色數(shù)據(jù)庫。2005年,圖書館投入使用匯文文獻(xiàn)信息服務(wù)系統(tǒng),使傳統(tǒng)的業(yè)務(wù)數(shù)據(jù)數(shù)字化,同時隨書光盤的數(shù)量也在逐年遞增。目前,總存儲容量約達(dá)20個TB,每年以約3TB的速度擴(kuò)容,見表1。隨著學(xué)校的發(fā)展,圖書館數(shù)字資源的種類越來越多,數(shù)據(jù)量也越來越龐大,數(shù)據(jù)的介質(zhì)故障、病毒感染、黑客入侵、自然災(zāi)害以及人為過失等安全性問題日益突顯,每年存儲設(shè)備的擴(kuò)容,也給圖書館造成了較大的經(jīng)濟(jì)壓力。因此,可靠有效的存儲環(huán)境才是高校圖書館數(shù)字資源長期保存的基礎(chǔ)保障。
表1 浙江海洋學(xué)院圖書館數(shù)據(jù)存儲概況
圖書館數(shù)據(jù)存儲模式經(jīng)歷了幾代更新,從上世紀(jì)70年代初期的單一硬盤存儲和磁帶備份,80年代C/S模式的出現(xiàn)使得數(shù)據(jù)存儲分布化,到90年代后期的RIAD存儲技術(shù),20世紀(jì)末存儲技術(shù)的發(fā)展進(jìn)入“存儲網(wǎng)絡(luò)(Storage Network)”時代。目前主流存儲技術(shù)主要是外掛式存儲(如圖1所示),即DAS、NAS和 SAN。
圖1 主流網(wǎng)絡(luò)存儲
直連式存儲,也可以稱作服務(wù)器附加存儲,存儲介質(zhì)與服務(wù)器直接相連,其I/O請求直接發(fā)送到存儲設(shè)備,并且不帶有任何存儲操作系統(tǒng),具有低延遲、高帶寬和低成本的特點。但是DAS的優(yōu)點也成為其發(fā)展最大的瓶頸,數(shù)據(jù)的I/O讀寫和存儲維護(hù)管理都需要依賴服務(wù)器上的操作系統(tǒng)才能進(jìn)行,諸如數(shù)據(jù)備份和恢復(fù)均要占用服務(wù)器一定的資源,因此用戶的日常數(shù)據(jù)備份需選擇業(yè)務(wù)系統(tǒng)不繁忙時進(jìn)行。顯然,對于7×24小時圖書館數(shù)字資源服務(wù)是不合適的。
網(wǎng)絡(luò)接入存儲,采用TCP/IP、ATM及FDDI等網(wǎng)絡(luò)技術(shù),通過網(wǎng)絡(luò)交換機(jī)連接到服務(wù)器,作用類似于文件服務(wù)器,其系統(tǒng)結(jié)構(gòu)見圖2。NAS在LAN環(huán)境下,可以實現(xiàn)異構(gòu)平臺下的數(shù)據(jù)共享,如NT和UNIX平臺的數(shù)據(jù)共享,同時具有較好的可擴(kuò)展性。雖然NAS在存儲性能上比DAS有了很大的提高,但是NAS本身受限于網(wǎng)絡(luò)的帶寬,隨著數(shù)據(jù)存儲容量的增大,容易給網(wǎng)絡(luò)帶來數(shù)據(jù)服務(wù)和數(shù)據(jù)管理的雙重負(fù)擔(dān),并且NAS后期的擴(kuò)容成本較高。
圖2 NAS系統(tǒng)結(jié)構(gòu)
存儲區(qū)域網(wǎng)絡(luò)是一種高速專用網(wǎng)絡(luò),通過專用網(wǎng)絡(luò)設(shè)備(如光纖)提供服務(wù)器和數(shù)據(jù)存儲設(shè)備之間的連接。SAN經(jīng)過多年的發(fā)展,存儲帶寬已經(jīng)達(dá)到4Gbps,其系統(tǒng)結(jié)構(gòu)如圖3所示。SAN具有海量數(shù)據(jù)易共享性、配置的靈活性、設(shè)備互聯(lián)的高速可靠性等優(yōu)點,但同樣存在著實施和管理成本過高的局限性。
圖3 SAN系統(tǒng)結(jié)構(gòu)
中國電子學(xué)會云計算專家委員會給云計算(Cloud Computing)作出了如下的定義:云計算是一種基于互聯(lián)網(wǎng)的、大眾參與的計算模式,其計算資源(計算能力、存儲能力、交互能力)是動態(tài)、可伸縮且被虛擬化的,以服務(wù)的方式提供[2]。這種新型的計算資源組織、分配和使用模式有利于合理配置計算資源并提高其利用率,促進(jìn)節(jié)能減排,實現(xiàn)綠色計算。而云存儲是云計算概念延伸的產(chǎn)物,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng),其結(jié)構(gòu)模型見圖4[3]。EMC中國研發(fā)中心總經(jīng)理范承工博士認(rèn)為,應(yīng)該把云存儲看成一種服務(wù),云的概念就是通過服務(wù)的形式來滿足客戶需求[4]。
圖4 云存儲系統(tǒng)的結(jié)構(gòu)模型
綜觀國內(nèi)外云存儲的應(yīng)用情況,可謂“祥云一片”:2011年3月29日美國亞馬遜公司宣布推出數(shù)字內(nèi)容云存儲服務(wù);蘋果公司緊鑼密鼓地準(zhǔn)備推出同類服務(wù);2010年5月,Google發(fā)布了 Google Storage for Developers,2011年 5月,Google宣布完全開放Storage存儲;2010年7月,阿里巴巴集團(tuán)董事會主席馬云在“小網(wǎng)商大夢想”網(wǎng)貨交易會論壇發(fā)表主題演講上透露,公司未來將加大在云計算、云存儲上的投入。顯然,云存儲給高校圖書館開啟了存儲新紀(jì)元,從而讓圖書館在云時代中獲益。
4.2.1 數(shù)據(jù)存儲海量化
數(shù)字圖書館的數(shù)據(jù)每年以驚人的速度增長,特別各類學(xué)術(shù)數(shù)據(jù)庫需要不斷更新以供學(xué)校師生查閱和研究,傳統(tǒng)的存儲架構(gòu)因其擴(kuò)容性差已不能適應(yīng)海量數(shù)據(jù)的存儲,圖書館有限的設(shè)備經(jīng)費(fèi)更不能去追求高端的存儲設(shè)備。云存儲采取并行擴(kuò)容的架構(gòu),可以實現(xiàn)存儲完全虛擬化,支持?jǐn)?shù)十PB級的容量及強(qiáng)大靈活的擴(kuò)展性,從而緩解了圖書館持續(xù)增長的數(shù)據(jù)存儲壓力。
4.2.2 核心數(shù)據(jù)安全化
經(jīng)權(quán)威機(jī)構(gòu)分析,硬件問題、系統(tǒng)問題、人為錯誤是引起數(shù)據(jù)丟失的3個主要原因。目前館內(nèi)的數(shù)據(jù)都放在本地服務(wù)器上,服務(wù)器的種類、型號、規(guī)則不一且分散存儲,常有負(fù)載不均衡的現(xiàn)象,導(dǎo)致整體存儲效能和備份效率的瓶頸。如果說商業(yè)的數(shù)字資源(比如CNKI鏡像數(shù)據(jù))因各種原因一旦丟失時還可以向數(shù)據(jù)商購買的話,那么圖書館的原始業(yè)務(wù)數(shù)據(jù)一旦丟失,將無法再生,圖書館也就意味著從此“癱瘓”,后果不堪設(shè)想。因此圖書館核心數(shù)據(jù)的安全備份和遠(yuǎn)程容災(zāi)是刻不容緩的問題。在云存儲模式下,通過集群應(yīng)用、網(wǎng)格計算或分布式文件系統(tǒng)等功能,將云中各種不同類型的存儲設(shè)備集中協(xié)同工作,有效確保海量數(shù)據(jù)的安全性。
4.2.3 設(shè)備耗能低碳化
云存儲模式被稱為“綠色的商業(yè)模式”,微軟一項新研究表明,擁有約100個用戶的小型商務(wù),如果將商務(wù)應(yīng)用從實地服務(wù)轉(zhuǎn)向云計算,將節(jié)約超過90%的凈能量和碳消耗[5]。圖書館每年要投入大量的資金來購買存儲設(shè)備,是學(xué)校能耗量最大的部門之一。云存儲的虛擬化技術(shù)提高了硬件利用率,不僅在節(jié)能方面績效顯著,而且在管理上也極大為方便靈活,節(jié)省了圖書館的人力資源。
4.2.4 資源共享擴(kuò)大化
高校圖書館的數(shù)字資源的共享起步較晚,2010年底,浙江省高校數(shù)字圖書館(ZADL)正式開通,標(biāo)志著在學(xué)術(shù)資源區(qū)域性共建共享方面邁向了第一步,但是館藏的雷同、數(shù)字資源的重復(fù)購買和建設(shè)問題依然嚴(yán)重。吉林醫(yī)藥學(xué)院圖書館的于秀芬教授在《基于云存儲架構(gòu)的隨書光盤鏡像服務(wù)器構(gòu)建探討》[6]一文中,首次對利用云存儲將現(xiàn)有的圖書館隨書光盤資源有機(jī)整合作了探討。云存儲將各種資源放入一個“云池”中,用集群存儲架構(gòu)對數(shù)據(jù)進(jìn)行集中存儲與調(diào)用,不同終端之間可以無障礙共享。顯然,這給圖書館資源共享范圍的進(jìn)一步擴(kuò)大提供了可能。
云存儲作為一種嶄新的技術(shù),已經(jīng)成為國內(nèi)外業(yè)界的新貴。《中國云存儲服務(wù)報告,China Cloud Storage Services Report》顯示,在未來的5年,中國云存儲服務(wù)市場的年復(fù)合增長率將達(dá)到103%[7]。在Web2.0的驅(qū)動下,圖書館的存儲模式也將面臨全新的變革,云存儲顯然是一種理想選擇。當(dāng)然,任何事物都是機(jī)遇和挑戰(zhàn)并存,圖書館應(yīng)根據(jù)自身存儲的特點和需求,量身定制,選擇合適的“云”。
[1] 浙江海洋學(xué)院圖書館門戶網(wǎng)站 [EB/OL].2011-02-05.[2010-09-11].http://61.153.216.111/tsg/html/tsggk/15.html.
[2] 中國電子學(xué)會云計算專家委員會網(wǎng)站[EB/OL].2011-02-05.[2010-05-28].http://www.ciecloud.org/.
[3] 看圖識云全面解析云存儲的網(wǎng)格架構(gòu).[EB/OL].2011-02-05.[2010-03-17].http://storage.it168.com/a2010/0316/861/000000861567_2.shtml.
[4] EMC范承工:“五大支柱”為云計算保駕護(hù)航.[EB/OL].2010-12-25.[2009-05-11].http://www.cnsoftnews.com/show_news.asp?newsid=5452.
[5] 硅谷動力網(wǎng)站.[EB/OL].2010-12-25.[2010-11-06].http://www.enet.com.cn/cio/.
[6] 于秀芬,張曾昱.基于云存儲架構(gòu)的隨書光盤鏡像服務(wù)器構(gòu)建探討.2001(2):72-75.
[7] Springboard:未來五年中國云存儲服務(wù)年均增長103%.[EB/OL].2010-12-25.[2010-07-30].http://www.cbismb.com/articlehtml/20148700.htm.
[8] 陶蕾.“云”下的圖書館網(wǎng)絡(luò)存儲探討.圖書館學(xué)研究,2010(7):66-69.