李可風(fēng),李晚照
數(shù)字圖書館的海量信息存儲策略
李可風(fēng),李晚照
針對數(shù)字圖書館在海量信息存儲方面存在數(shù)據(jù)來源各異、數(shù)據(jù)存儲方式多樣化、數(shù)據(jù)非結(jié)構(gòu)化問題,文章設(shè)計了在數(shù)據(jù)中心架構(gòu)下的數(shù)字圖書館海量信息存儲模型,討論利用三層存儲模型解決數(shù)字圖書資源存儲問題。
海量數(shù)據(jù) 數(shù)字圖書館 信息存儲
數(shù)字圖書館存儲著海量數(shù)據(jù),而數(shù)據(jù)來自不同的數(shù)據(jù)源。面對海量和非結(jié)構(gòu)性的數(shù)字資源,數(shù)字圖書館在信息存儲方面有特別的需求。第一,高存儲速率。海量的數(shù)字資源面臨著海量的讀者查詢請求和存儲請求[1-2]。為滿足讀者的使用體驗,須加快資源的存儲速率。第二,多元化存儲。數(shù)字圖書館包含大量的音頻和視頻資源[3-5],需采取合理的存儲策略,比如根據(jù)不同的數(shù)字信息存儲形式,動態(tài)地調(diào)整存儲方法,以實現(xiàn)信息資源的高效配置。第三,高抗毀性。在突發(fā)性的不可抗力影響下,如突然斷電、設(shè)備突然損毀,如果缺乏合理的備份措施,會造成數(shù)據(jù)丟失,損失無法估量。因此,數(shù)字資源在數(shù)據(jù)備份和數(shù)據(jù)修復(fù)方面需要重點考慮[6]。
面臨著上述存儲需求,當(dāng)前數(shù)字圖書館的信息存儲存在三大挑戰(zhàn):一是數(shù)據(jù)來源各異,數(shù)量巨大,現(xiàn)有的數(shù)據(jù)存儲方式不適應(yīng)非結(jié)構(gòu)化數(shù)據(jù)的存儲,無法提供較高的存儲速率。二是數(shù)據(jù)呈現(xiàn)多元化,現(xiàn)有的文件管理方式不能適應(yīng)數(shù)據(jù)的多樣性和海量性,難以實現(xiàn)高效率的查找和定位。三是現(xiàn)有的存儲方式在數(shù)據(jù)安全性和抗毀性方面存在缺陷。針對上述存儲需求和存儲挑戰(zhàn),需要相應(yīng)的數(shù)字存儲技術(shù)支持。
面對海量的數(shù)字資源,除原有存儲技術(shù)和方法,如磁盤陣列RAID、直連存儲、網(wǎng)絡(luò)附加存儲、網(wǎng)絡(luò)局域存儲外,還有滿足高速存儲的光纖通道存儲、基于對象的存儲以及內(nèi)容尋址存儲。
(1)光纖通道(Fiber Channel,F(xiàn)C)存儲。光纖信道是越來越普遍的高速網(wǎng)絡(luò)技術(shù),高速局域網(wǎng)最早使用FC技術(shù)。由于光纖通道具有傳輸距離長、傳輸速度快、延遲低和故障率低等特點,如果數(shù)字圖書館采用光纖通道存儲,能提升資源共享范圍和質(zhì)量。光纖通道存儲一般采用3種拓撲結(jié)構(gòu):點對點拓撲、限定環(huán)路拓撲和光纖拓撲。在光纖拓撲中,存儲設(shè)備需要多個光纖交換機連接。如果數(shù)字圖書館采用光纖通道存儲,需要購置特殊的具有FC接口的存儲設(shè)備,既使數(shù)字圖書館的管理成本增加,也會增加管理難度。隨著以太網(wǎng)Ethernet發(fā)展,存儲網(wǎng)絡(luò)和傳輸網(wǎng)絡(luò)不斷融合,以太光纖通道網(wǎng)絡(luò)FCoE(Fibre Channel over Ethernet)進入海量存儲管理者的視野,并占據(jù)主要地位。FCoE與光纖通道網(wǎng)絡(luò)相比,最大的優(yōu)勢是無需具有FC接口的存儲設(shè)備,簡化存儲管理的復(fù)雜度,降低設(shè)備帶來的損耗。數(shù)字圖書館的海量信息資源需要高傳輸速率,須采用多樣化的靈活的存儲策略,可以考慮使用以太網(wǎng)光纖通道存儲策略。
(2)基于對象的存儲,主要采用基于對象的存儲設(shè)備Object-based Storage Device(OSD)。其與傳統(tǒng)的磁盤存儲類似,不同之處是:基于對象的存儲方式工作在比磁盤存儲更高的層次上。磁盤存儲是以數(shù)據(jù)塊為單位進行數(shù)據(jù)的組織和存取,數(shù)據(jù)塊的大小固定;OSD則將數(shù)據(jù)以對象的方式進行存儲,對象的大小可變。OSD具有較高的靈活度,能很好地滿足數(shù)字圖書館存儲的多元化需求。對象不僅包含屬性說明,而且包含普通的文本數(shù)據(jù)。同時,OSD可以提供命令接口,不局限于新建和擦除數(shù)據(jù),也包含向?qū)ο髮懭胱止?jié)、讀取字節(jié),以及設(shè)置和讀取對象的屬性。OSD不僅承擔(dān)管理數(shù)字對象的工作,還針對每一管理對象和命令建立安全機制來實現(xiàn)訪問控制?;趯ο蟮拇鎯δ軐崿F(xiàn)數(shù)字圖書館面向文本、音頻和視頻資料的多元化存儲,是數(shù)字圖書館信息存儲的新趨勢。
(3)基于內(nèi)容尋址的存儲,是針對部分固定內(nèi)容的存儲方式。固定內(nèi)容主要指生成后不輕易變動或不再發(fā)生變動的內(nèi)容。這些數(shù)據(jù)一般的存取模式為寫入一次、讀取多次。一般來說,法律文書、電子規(guī)范文檔、電子郵件歸檔、衛(wèi)星圖像等可以考慮使用基于內(nèi)容尋址的存儲方式。顧名思義,基于內(nèi)容尋址的存儲指數(shù)據(jù)的存取是基于數(shù)據(jù)內(nèi)容,而不是根據(jù)數(shù)據(jù)存放位置和存放名稱來檢索數(shù)據(jù)?;趦?nèi)容尋址的存儲數(shù)據(jù)的存取主要依靠數(shù)字指紋,系統(tǒng)會根據(jù)文本內(nèi)容計算哈希值,將哈希值作為數(shù)字指紋,然后根據(jù)數(shù)字指紋決定數(shù)據(jù)的存放。此外,基于內(nèi)容尋址的存儲方法還有豐富的標(biāo)簽,能對信息資源的軌跡進行追溯,具有較強的搜索能力。
數(shù)字圖書館信息資源存儲可以考慮綜合運用上述三種技術(shù)。筆者結(jié)合數(shù)字圖書館數(shù)字資源現(xiàn)狀,建立存儲模型,見圖1。
圖1 數(shù)字圖書館資源存儲模型
(1)存儲物理層。主要為數(shù)字資源提供最基本的網(wǎng)絡(luò)環(huán)境和物理存儲環(huán)境。原有的磁盤陣列RAID、光盤庫、集群、直連存儲、網(wǎng)絡(luò)附加存儲、網(wǎng)絡(luò)局域存儲等存儲技術(shù)和存儲設(shè)備可沿用。數(shù)字圖書館可以使用的云存儲設(shè)備和存儲網(wǎng)絡(luò),大多先使用現(xiàn)有的存儲設(shè)備進行網(wǎng)絡(luò)連接,然后增加新的技術(shù)元素。FC光纖通道存儲可以在原有的存儲局域網(wǎng)中進行改造升級。這些技術(shù)的提升依賴統(tǒng)一的存儲設(shè)備管理軟件。通過該軟件,能整合底層的存儲硬件,并在上層提供虛擬化存儲管理,能實時監(jiān)測存儲硬件設(shè)備狀態(tài),以及進行硬件維修。
(2)存儲邏輯層。所有存儲核心管理在該層實現(xiàn),分布式文件系統(tǒng)技術(shù)是主角。通過分布式文件系統(tǒng)和分布式數(shù)據(jù)庫系統(tǒng)等平臺,數(shù)字圖書館的多元化數(shù)字資源可以協(xié)同存儲,實現(xiàn)海量的數(shù)字資源調(diào)度、監(jiān)控和備份。該層同樣需要存儲管理系統(tǒng)。通過存儲管理系統(tǒng),采用基于對象的存儲和基于內(nèi)容尋址的存儲技術(shù)策略來適應(yīng)數(shù)字圖書館不同的數(shù)字資源存儲需求。該層的存儲強調(diào)使用存儲管理軟件實現(xiàn)物理層上的虛擬化存儲管理。隨著時間推移,數(shù)字圖書館會面對不同廠家、不同型號、遵循不同通信協(xié)議的存儲設(shè)備,如何將這些設(shè)備鏈接起來,以及整合這些異構(gòu)的物流存儲設(shè)備和存儲資源,是數(shù)字圖書館建設(shè)必須考慮的問題。虛擬化存儲設(shè)計可以使存儲架構(gòu)具有較大的可擴展性,能充分利用新舊設(shè)備,提高管理效率,降低管理成本。
(3)應(yīng)用邏輯層。在該層向用戶提供可以直接操作的管理平臺。管理平臺不僅提供普通的web頁面服務(wù),也向用戶提供數(shù)字信息收集、匯總、分析、綜合管理等實用性功能。這里的用戶包括讀者用戶和管理員用戶。管理員用戶可以方便地在應(yīng)用層使用云端的借還書系統(tǒng)、書目管理系統(tǒng)等。應(yīng)用層的使用方式靈活,移動終端、PC機、筆記本電腦,只要能接入數(shù)字圖書館局域網(wǎng),就能在應(yīng)用邏輯層使用數(shù)字圖書館的大數(shù)據(jù)存儲平臺,滿足信息收集和分析需求。
通過設(shè)置包括存儲物流層、存儲邏輯層和應(yīng)用邏輯層,組成存儲模型,進行信息資源的數(shù)字化存儲,能有效解決數(shù)據(jù)多元化、數(shù)據(jù)源異構(gòu)和數(shù)據(jù)存儲安全性問題。采用這樣的架構(gòu),能在應(yīng)用邏輯層上為多種可聯(lián)網(wǎng)設(shè)備提供數(shù)據(jù)服務(wù)。
本文探討了在海量數(shù)據(jù)影響下,數(shù)字圖書館實現(xiàn)海量信息的存儲策略;在分析新技術(shù)的基礎(chǔ)上,構(gòu)建數(shù)字圖書館存儲模型,描述存儲模型中不同的存儲層次的角色和作用,分析每一層提供的具體功能,并給出每一層的對應(yīng)管理系統(tǒng)的功能設(shè)計。今后的研究重點是以該存儲策略為基礎(chǔ)的存儲應(yīng)用程序?qū)崿F(xiàn),通過架設(shè)云平臺,將文中探討的關(guān)鍵存儲技術(shù)以應(yīng)用程序的方式運用于存儲管理系統(tǒng)中,增強數(shù)字圖書館用戶的使用體驗。
[1]李愛勤,鮑凌云,馮曉娜.數(shù)字圖書館資源云存儲模型研究[J].現(xiàn)代情報,2012,32(2):48-50.
[2]魏曉萍.數(shù)字圖書館網(wǎng)格存儲模型及關(guān)鍵技術(shù)分析[J].現(xiàn)代情報,2009,29(11):85-86.
[3]Borthakur D.The hadoop distributed file system:Architecture and design[J].Hadoop Project Website,2007,11:21.
[4]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[5]Ihaka R,Gentleman R.R:a language for data analysis and graphics[J].Journal of computational and graphical statistics,1996,5(3):299-314.
[6]金志敏.基于云存儲技術(shù)的數(shù)字圖書館信息資源存儲架構(gòu)模型探討[J].辦公自動化,2015(16):26-30,52.
Massive Information Storage Strategy of Digital Library
LI Ke-feng,LI Wan-zhao
In view of the issues concerning different data sources,diverse data storage and unstructured data existing in massive information storage of digital library,this paper designs a massive information storage model for digital library based on data center architecture,and discusses how to effectively use the three-storage model to solve data storage problems in digital libraries.
massive data;digital library;information storage
格式 李可風(fēng),李晚照.數(shù)字圖書館的海量信息存儲策略[J].圖書館論壇,2015(12):100-102.
李可風(fēng),南昌大學(xué)管理學(xué)院信息管理系副研究員;李晚照,南昌大學(xué)管理學(xué)院研究生。
2015-09-10