王繼娜
(河南省圖書館,河南 鄭州 450052)
數(shù)字長期保存是指在未來很長的一段時間,無論數(shù)字資源的生產(chǎn)者、目標(biāo)用戶和科技發(fā)生什么樣的變化,系統(tǒng)都能保證其存儲數(shù)字資源的正常訪問、存取及維護(hù),并能提供與資源相關(guān)的元數(shù)據(jù)、背景信息。隨著計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù)不斷的發(fā)展、進(jìn)步,大數(shù)據(jù)時代正式到來,越來越多的單位和機(jī)構(gòu)需要對大體量數(shù)字資源進(jìn)行長期保存,比如電子郵件、電子醫(yī)療檔案、財(cái)務(wù)數(shù)據(jù)、油田開采數(shù)據(jù)等[1]。而影響數(shù)字信息長期保存的因素主要涉及標(biāo)準(zhǔn)、載體、安全、技術(shù)、經(jīng)濟(jì)等多方面原因,其中,數(shù)字長期保存面臨的主要挑戰(zhàn)是技術(shù)落后。
云存儲技術(shù)的出現(xiàn)為數(shù)字長期保存項(xiàng)目建設(shè)更大型、更復(fù)雜的系統(tǒng)提供了技術(shù)保證。與傳統(tǒng)的數(shù)字保存系統(tǒng)相比,云存儲系統(tǒng)利用其分布式、跨系統(tǒng)、跨設(shè)備的存儲和計(jì)算能力,在大大降低存儲成本的同時,使系統(tǒng)的可擴(kuò)展性、靈活性和可用性也得到了極大的提升。用戶可以在任何地點(diǎn)、任何地方,使用任何可連網(wǎng)的設(shè)備和操作系統(tǒng)連接到云上方便地訪問數(shù)字資源。另外,云存儲技術(shù)也催生了新的數(shù)據(jù)模型,把用戶和系統(tǒng)定義的元數(shù)據(jù)集成在一個數(shù)據(jù)單元中,為用戶未來使用數(shù)字資源提供更加豐富的背景信息。
云存儲是通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)[2]。云存儲由多個存儲設(shè)備構(gòu)成,通過存儲虛擬化、分布式技術(shù)、智能配置等多種云存儲技術(shù)的支持和融合,使多個存儲設(shè)備可以對外提供同一種服務(wù),從而實(shí)現(xiàn)用戶在云端隨時隨地地訪問和管理。因此,可以說云存儲不僅是存儲技術(shù)或設(shè)備,更是一種服務(wù)[3]。
隨著云存儲和云計(jì)算技術(shù)的不斷進(jìn)步,云存儲系統(tǒng)應(yīng)該具備更強(qiáng)的可拓展性和兼容性,其存儲的數(shù)據(jù)應(yīng)可以方便地遷移到不同的云存儲系統(tǒng)中,并能提供新的數(shù)據(jù)服務(wù)。而這些變化應(yīng)該對終端用戶透明,用戶不用更換設(shè)備或軟件就可以一如既往地檢索、下載和使用系統(tǒng)中的數(shù)字資源。很多企業(yè)和機(jī)構(gòu)擁有不同類型的數(shù)字資源,一般會根據(jù)數(shù)字資源的特點(diǎn)、價值和存儲成本等因素制定多種有針對性的數(shù)字長期保存標(biāo)準(zhǔn)和策略。隨著技術(shù)的發(fā)展和機(jī)構(gòu)信息需求的不斷變化,這些標(biāo)準(zhǔn)和策略都需要不斷地進(jìn)行調(diào)整和完善。其主要目標(biāo)包括:
①為用戶提供不同云存儲、云計(jì)算平臺訪問服務(wù),支持不同云存儲系統(tǒng)之間的數(shù)字遷移,并支持?jǐn)?shù)字資源在不同云存儲平臺之間的協(xié)同存儲。
②為采用多種云存儲系統(tǒng)的用戶提供更加靈活的數(shù)據(jù)模型,以及更強(qiáng)的數(shù)據(jù)管理能力,滿足不同數(shù)字保存系統(tǒng)的存儲標(biāo)準(zhǔn)及不同數(shù)字訪問請求。
③基于虛擬應(yīng)用,為用戶提供虛擬計(jì)算機(jī)和虛擬軟件來訪問云存儲系統(tǒng),以便更好地理解系統(tǒng)存儲數(shù)字資源的內(nèi)容信息。
④為云存儲系統(tǒng)提供數(shù)據(jù)完整性、真實(shí)性驗(yàn)證服務(wù),對不同云存儲系統(tǒng)保存的相關(guān)數(shù)據(jù)及數(shù)據(jù)關(guān)系進(jìn)行有效管理、維護(hù),保證數(shù)據(jù)的一致性。
數(shù)字長期保存面臨的問題主要分為兩個方面:物理存儲和邏輯存儲。物理存儲面臨的威脅包括存儲設(shè)備的老化、過時,人為操作失誤造成的數(shù)據(jù)丟失、損壞,黑客攻擊,甚至是由于自然災(zāi)害(如水災(zāi)、火災(zāi)、地震等)造成的數(shù)據(jù)損失等。邏輯存儲面臨的問題包括服務(wù)器、操作系統(tǒng)、數(shù)據(jù)管理軟件,或者是用戶的變化造成的數(shù)據(jù)無法使用和理解等。另外,由于數(shù)字長期保存系統(tǒng)中存儲的數(shù)據(jù)大部分一經(jīng)保存就很少使用,其完整性和真實(shí)性驗(yàn)證也存在很大的問題。
云存儲系統(tǒng)由于支持廠家眾多,開放式接口以及分布式存儲和分布式計(jì)算能力,為數(shù)字資源長期保存提供了更大的靈活性、可拓展性和更強(qiáng)的冗余性能。從長遠(yuǎn)來看,采用云儲存技術(shù)可以讓數(shù)字保存系統(tǒng)從容地更換服務(wù)提供商,而不會對數(shù)字資源造成任何影響,極大地提高了系統(tǒng)財(cái)務(wù)支持的可持續(xù)性。另外,云存儲系統(tǒng)采用分布式、協(xié)同保存,在進(jìn)行系統(tǒng)數(shù)據(jù)備份和保存數(shù)據(jù)時大大提高了工作效率。
數(shù)字長期保存的一條核心要求是在不確定時間期限的未來保證數(shù)字資源的可用性和可理解性。因此,數(shù)字資源的原始狀態(tài)并不是最重要的信息,數(shù)字資源包含的內(nèi)容信息才是長期保存的核心關(guān)鍵,也就是說數(shù)字資源的數(shù)據(jù)格式隨著技術(shù)的發(fā)展可能會不斷進(jìn)行數(shù)字遷移而發(fā)生改變。云技術(shù)采用虛擬應(yīng)用可以更好地為數(shù)字保存系統(tǒng)提供服務(wù),讓用戶可以不用改變硬件設(shè)備、操作系統(tǒng)和應(yīng)用軟件就能方便地訪問、下載和使用數(shù)字資源。
雖然云存儲技術(shù)具備諸多優(yōu)勢,但數(shù)字資源長期保存系統(tǒng)涉及面很廣,包括軟件、硬件、機(jī)構(gòu)管理和人員等,因此云存儲在數(shù)字長期保存方面還存在缺陷和不足,主要體現(xiàn)在以下幾點(diǎn):
3.2.1 數(shù)據(jù)驗(yàn)證
云存儲平臺通常只對保存的數(shù)字資源進(jìn)行一次驗(yàn)證,但不提供固定期限的數(shù)據(jù)核驗(yàn),這對數(shù)字長期保存系統(tǒng)來說是遠(yuǎn)遠(yuǎn)不夠的。另外,在驗(yàn)證算法方面,云存儲平臺一般只支持一種算法,而數(shù)字長期保存系統(tǒng)要求采用多種算法進(jìn)行數(shù)據(jù)檢驗(yàn)。
3.2.2 數(shù)據(jù)鎖定
不同的云存儲服務(wù)提供商都對自己存儲的數(shù)字資源進(jìn)行數(shù)據(jù)鎖定,從系統(tǒng)外部很難獲取完整、可靠的數(shù)字資源,如果在未來云存儲服務(wù)提供商破產(chǎn)或無法提供服務(wù),會造成很大的數(shù)字資源丟失風(fēng)險(xiǎn)。
3.2.3 數(shù)據(jù)認(rèn)證
數(shù)字保存系統(tǒng)通常都要求對其保存的數(shù)字資源及訪問請求進(jìn)行認(rèn)證、審核和驗(yàn)證,從而保證數(shù)字資源的完整性、真實(shí)性和可靠性,但云存儲系統(tǒng)大都無法提供相關(guān)的管理標(biāo)準(zhǔn)和技術(shù)支持。
3.2.4 元數(shù)據(jù)擴(kuò)展
數(shù)字保存系統(tǒng)對元數(shù)據(jù)的可擴(kuò)展性要求很高,因?yàn)殡S著時間的推移,元數(shù)據(jù)的內(nèi)容可能會越來越大,變得更加復(fù)雜,這樣才能保證數(shù)據(jù)的內(nèi)容信息被更容易地理解和使用。但現(xiàn)在的云存儲系統(tǒng)對元數(shù)據(jù)的支持非常有限,提供的元數(shù)據(jù)存儲空間也很小,很難滿足數(shù)字長期保存的需要。另外,云存儲系統(tǒng)對元數(shù)據(jù)檢索和更新等方面的技術(shù)支持也非常不足。
3.2.5 事務(wù)跟蹤
數(shù)字長期保存標(biāo)準(zhǔn)要求系統(tǒng)應(yīng)對數(shù)據(jù)訪問、軟硬件設(shè)備升級、數(shù)據(jù)遷移等操作進(jìn)行跟蹤記錄,以確保數(shù)據(jù)來源的真實(shí)性、可靠性能得到長期驗(yàn)證。雖然云存儲系統(tǒng)提供服務(wù)的用戶群更為廣泛,但卻不對這些信息進(jìn)行記錄,這樣就無法保證數(shù)據(jù)的連續(xù)性和一致性得到驗(yàn)證。
3.2.6 邏輯存儲
數(shù)字資源長期保存并不是只對數(shù)據(jù)進(jìn)行物理存儲就萬事大吉,在未來數(shù)據(jù)信息的理解和使用才是長期保存最根本的目的。而現(xiàn)有的云存儲系統(tǒng)大都沒有集成數(shù)字資源的邏輯存儲系統(tǒng),無法達(dá)到數(shù)字長期保存的標(biāo)準(zhǔn)要求。
雖然云存儲系統(tǒng)還不成熟,但其靈活性、可拓展性、經(jīng)濟(jì)性等優(yōu)勢對數(shù)字長期保存至關(guān)重要。
從云存儲系統(tǒng)的對比分析發(fā)現(xiàn),僅使用現(xiàn)有的云存儲平臺簡單地把數(shù)字資源進(jìn)行保存,并不符合數(shù)字資源長期保存的要求。因此,建設(shè)一個符合數(shù)字資源長期保存標(biāo)準(zhǔn)的云存儲平臺環(huán)境對數(shù)據(jù)的長期訪問、存儲、驗(yàn)證和使用至關(guān)重要。目前,國際上已經(jīng)有一些數(shù)字資源保存機(jī)構(gòu)開展了相關(guān)的研究。筆者以PDSCloud為例做進(jìn)一步介紹。
PDS(Preservation DataStores)Cloud是歐盟 FP7(歐盟第七框架計(jì)劃)的一部分[4],是一個基于OAIS參考模型[5]的復(fù)合云存儲服務(wù)平臺環(huán)境,支持邏輯存儲并能把邏輯對象轉(zhuǎn)換為適合云存儲的物理對象。同時,它通過中間件來連接不同的云存儲服務(wù)提供商與數(shù)字保存系統(tǒng),并對云存儲的元數(shù)據(jù)格式進(jìn)行重新定義和擴(kuò)展,以期優(yōu)化數(shù)字資源的自動存儲。另外,PDS云存儲系統(tǒng)也對自動存儲數(shù)字資源提供了更好的支持。PDS云存儲平臺框架和組件如圖1所示。
圖1 PDS云存儲平臺框架和組件
PDS云被設(shè)計(jì)成用戶和不同云存儲系統(tǒng)之間的中間層,提供訪問、存儲、轉(zhuǎn)換和下載服務(wù)。PDS云通過中間件連接OAIS實(shí)體和不同的云存儲系統(tǒng),在前端為用戶提供攝取、訪問、刪除和保存服務(wù),在后端對不同云服務(wù)提供商的云存儲和云計(jì)算能力進(jìn)行協(xié)調(diào)和平衡,保證其同步工作。
PDS云主要分為兩部分:多重云服務(wù)和存儲引擎。多重云服務(wù)主要處理和協(xié)調(diào)不同云存儲和云計(jì)算平臺的訪問請求;存儲引擎為系統(tǒng)存儲數(shù)字資源提供各種功能模塊,接收不同訪問請求并利用下層的云存儲平臺為用戶提供服務(wù)。
4.1.1 多重云服務(wù)
PDS云的系統(tǒng)架構(gòu)支持不同云服務(wù)提供商的平臺,同時更注重云存儲和云計(jì)算的協(xié)同工作能力。為了讓用戶在未來能長期地使用不同的存儲技術(shù),保證不同系統(tǒng)間的互操作性,PDS云把云存儲服務(wù)從存儲引擎中獨(dú)立出來提供服務(wù)。
PDS云使用jclouds(開源的Java類庫)[6]進(jìn)行云存儲和云計(jì)算開發(fā),通過統(tǒng)一接口組件和驅(qū)動與下層的云存儲、計(jì)算平臺進(jìn)行交互。PDS云支持公共云和私有云,并提供在多重云存儲平臺保存高價值數(shù)據(jù)信息的能力。目前支持的云存儲平臺包括Amazon EC2和S3的云基礎(chǔ)架構(gòu)服務(wù)[7]、OpenStack云平臺Nova和Swift,前者是NASA開發(fā)的虛擬服務(wù)器部署和業(yè)務(wù)計(jì)算模塊;后者是Rackspace開發(fā)的分布式云存儲模塊[8]。
4.1.2 存儲引擎
存儲引擎包括了所有數(shù)字長期保存的功能模塊,最頂端是服務(wù)請求處理接口,通過服務(wù)器端的Http協(xié)議與PDS云用戶進(jìn)行交互,對Http訪問請求進(jìn)行解析和驗(yàn)證,最后提交給下層PDS云服務(wù)模塊進(jìn)行處理。存儲引擎底端云映像處理器負(fù)責(zé)把AIPs(存儲信息包,包括內(nèi)容信息和相關(guān)元數(shù)據(jù))信息進(jìn)行轉(zhuǎn)換,再通過存儲處理器和虛擬應(yīng)用處理器對數(shù)據(jù)進(jìn)行云存儲。
存儲引擎包括4個核心服務(wù)。AIPs服務(wù)負(fù)責(zé)處理攝取、訪問和刪除各類AIPs數(shù)據(jù)請求,協(xié)調(diào)AIPs相關(guān)元數(shù)據(jù)的管理,生成AIP唯一標(biāo)識符等。在未來,存儲引擎還可以利用SIRF處理器在云平臺中支持SIRF容器。SIRF(Self-contained Information Retention Format)自包含信息保留格式是一種標(biāo)準(zhǔn)的存儲容器格式,它包含多個數(shù)字保存對象,不同數(shù)字保存對象之間的關(guān)系和一個完整的元數(shù)據(jù)目錄,通過標(biāo)準(zhǔn)化的設(shè)計(jì),以期在未來以更低的成本、更快捷的速度和更容易理解的內(nèi)容保證數(shù)字資源的長期保存[9]。
管理服務(wù)利用注冊處理器維護(hù)存儲系統(tǒng)用戶的定義、特征信息,以及相關(guān)的系統(tǒng)管理政策等。
遷移服務(wù)支持AIPs的邏輯存儲,它通過不斷對AIPs數(shù)據(jù)的格式轉(zhuǎn)換保證在未來不論軟硬件怎樣升級都可以正常使用數(shù)字資源。
完整性驗(yàn)證服務(wù)采用多重驗(yàn)證算法對系統(tǒng)存儲的數(shù)字資源進(jìn)行不定期的檢查,確保其完整性和真實(shí)性。普通的云存儲平臺對數(shù)據(jù)完整性檢測的標(biāo)準(zhǔn)和機(jī)制通常都不太健全,無法滿足數(shù)字資源長期保存的要求。
AIPs服務(wù)、遷移服務(wù)和完整性驗(yàn)證服務(wù)有時需要進(jìn)行大數(shù)據(jù)量的計(jì)算,例如數(shù)據(jù)驗(yàn)證、格式轉(zhuǎn)換、完整性檢測、數(shù)據(jù)加密等。與傳統(tǒng)的把數(shù)據(jù)復(fù)制到相關(guān)設(shè)備進(jìn)行操作相比,在服務(wù)器端進(jìn)行上述處理更加方便、可靠,成本也更低。存儲引擎中的計(jì)算模塊storlet處理器負(fù)責(zé)執(zhí)行對數(shù)據(jù)驗(yàn)證、格式轉(zhuǎn)換等操作。
PDS云設(shè)計(jì)數(shù)據(jù)模型的目標(biāo)是在多重云和多用戶的環(huán)境下,提供透明的數(shù)據(jù)管理服務(wù)和數(shù)據(jù)訪問服務(wù),并能自動進(jìn)行數(shù)據(jù)管理。最終用戶無需了解云存儲系統(tǒng)的服務(wù)商、操作系統(tǒng)等細(xì)節(jié),也不用改變自己的軟硬件系統(tǒng)配置就能方便地使用自己需要的數(shù)字資源。
云存儲系統(tǒng)中存儲的數(shù)據(jù)訪問通常都采用分層的命名路徑,數(shù)據(jù)模型包括數(shù)據(jù)容器和數(shù)據(jù)對象兩個部分。PDS云存儲系統(tǒng)使用邏輯數(shù)據(jù)模型和統(tǒng)一分層命名路徑對數(shù)據(jù)進(jìn)行管理,可以適用于多種不同云存儲服務(wù)提供商的平臺。
PDS云數(shù)據(jù)結(jié)構(gòu)包括租戶、聚合體、事件表和數(shù)據(jù)對象。
圖2 PDS云數(shù)據(jù)模型
租戶是一個參與云存儲的企業(yè)或機(jī)構(gòu)。每個租戶都有自己特定的數(shù)字資源內(nèi)容、數(shù)字保存政策和用戶群體。雖然云存儲平臺可能在同一硬件設(shè)備上為多個租戶提供數(shù)據(jù)存儲服務(wù),但不同租戶的數(shù)據(jù)信息在邏輯上隔離,彼此沒有任何關(guān)聯(lián)。
聚合體是云存儲系統(tǒng)定義數(shù)字資源長期保存標(biāo)準(zhǔn)、策略,數(shù)據(jù)管理方法的配置文件,對云平臺系統(tǒng)以及數(shù)據(jù)驗(yàn)證流程等數(shù)據(jù)訪問和維護(hù)策略進(jìn)行詳細(xì)的定義和說明。每個聚合體只歸屬于一個租戶,其配置文件也根據(jù)租戶的要求進(jìn)行定制。聚合體包含的數(shù)據(jù)對象可以看作是具有同一屬性的數(shù)據(jù)集合,并以同樣的方式進(jìn)行管理和維護(hù)。
與云平臺的物理容器不同,事件表是一個邏輯實(shí)體,是類似于文件系統(tǒng)目錄的對象組。事件表的名稱并不唯一,在不同的聚合體中可以重復(fù)使用,不需要與云平臺的容器一一對應(yīng)。另外,根據(jù)不同云平臺的要求,事件表可以只適用于特定的云存儲系統(tǒng),不一定具有通用性。
數(shù)據(jù)對象是最基礎(chǔ)的存儲單元,在基于OAIS標(biāo)準(zhǔn)的數(shù)字保存系統(tǒng)中對應(yīng)的是系統(tǒng)的AIP信息,一個數(shù)據(jù)對象屬于一個聚合體和事件表。通常情況下,一個數(shù)據(jù)對象有一個名稱和一個邏輯標(biāo)識符,每一個邏輯標(biāo)識符像網(wǎng)卡的物理地址一樣全球唯一。當(dāng)數(shù)據(jù)對象遷移到不同的事件表和聚合體中時,邏輯標(biāo)識符保持不變,從而保證系統(tǒng)能追溯數(shù)據(jù)來源和對數(shù)據(jù)完整性進(jìn)行驗(yàn)證。PDS云存儲系統(tǒng)會在不同的云存儲平臺(比如公共云、私有云)對數(shù)據(jù)對象進(jìn)行存儲,以確保數(shù)據(jù)的安全性。
用戶在訪問數(shù)據(jù)時,不需要了解聚合體對系統(tǒng)和數(shù)字資源的各種規(guī)定和要求,PDS云負(fù)責(zé)對用戶要求進(jìn)行解析,通過存儲引擎和多重云服務(wù)系統(tǒng),設(shè)定數(shù)據(jù)訪問策略和通道,為用戶提供數(shù)據(jù)檢索、下載、修改和刪除等服務(wù)。另外,云存儲系統(tǒng)中相關(guān)配置的修改、更新和刪除等也由PDS云系統(tǒng)完成,對用戶不可見。
隨著大數(shù)據(jù)時代的來臨,數(shù)字資源長期保存需求越來越迫切,技術(shù)難度也與日俱增。云存儲和云計(jì)算技術(shù)的出現(xiàn)在很大程度上為數(shù)字資源長期保存提供了便利。PDS云存儲系統(tǒng)通過多重云服務(wù)、存儲引擎系統(tǒng)和邏輯數(shù)據(jù)模型,為傳統(tǒng)的數(shù)字保存系統(tǒng)和云存儲服務(wù)提供商之間架起一座橋梁,不但避免了云存儲存在的缺陷,同時保證了隨著技術(shù)發(fā)展、信息需求的變化,系統(tǒng)中存儲的數(shù)字資源能長期被檢索、下載、理解和利用。
我國數(shù)字資源長期保存系統(tǒng)建設(shè)研究實(shí)踐正處于起步階段,提供商業(yè)云存儲的服務(wù)商也非常有限,借鑒國外云存儲服務(wù)平臺的先進(jìn)經(jīng)驗(yàn)和教訓(xùn),并立足實(shí)際情況進(jìn)行數(shù)字長期保存云存儲實(shí)踐,對我國云存儲、云計(jì)算服務(wù)水平的提高,云平臺的優(yōu)化和完善都有非常大的促進(jìn)作用,這也是未來數(shù)字資源長期保存系統(tǒng)研究工作的重點(diǎn)之一。