薛四新 朝樂門 田雷
摘要:云計(jì)算的出現(xiàn)改變了電子文件管理的技術(shù)架構(gòu)和實(shí)現(xiàn)方法。本文在構(gòu)建云端電子文件管理的技術(shù)框架基礎(chǔ)上,探討了云端電子文件管理需要解決的五項(xiàng)關(guān)鍵技術(shù),即電子文件的對(duì)象建模技術(shù)、海量異構(gòu)電子文件的分布式存取技術(shù)和電子文件及其元數(shù)據(jù)的溯源技術(shù)。在此基礎(chǔ)上,提出了云端電子文件管理系統(tǒng)架構(gòu)的四項(xiàng)基本原則和實(shí)現(xiàn)方案。
關(guān)鍵詞:電子文件云計(jì)算關(guān)鍵技術(shù)
云計(jì)算的應(yīng)用將導(dǎo)致支撐電子文件管理實(shí)現(xiàn)的技術(shù)框架發(fā)生本質(zhì)上的轉(zhuǎn)變。目前,國內(nèi)外學(xué)者在云計(jì)算對(duì)電子文件管理的影響和所帶來的新問題等方面進(jìn)行了一定研究①,但缺少對(duì)云環(huán)境下電子文件管理關(guān)鍵技術(shù)的系統(tǒng)研究。本文重點(diǎn)探討整合應(yīng)用這些技術(shù)的通用框架、關(guān)鍵技術(shù)、實(shí)現(xiàn)原則和建議方案,為云環(huán)境下電子文件管理系統(tǒng)的構(gòu)建提供技術(shù)基礎(chǔ)和實(shí)施依據(jù)。
1 云端電子文件管理系統(tǒng)的技術(shù)框架
云環(huán)境下的電子文件管理系統(tǒng)不僅需要實(shí)現(xiàn)SaaS層次上的資源虛擬化,而且還應(yīng)根據(jù)電子文件的特殊性,對(duì)其他云服務(wù)提供商提供的平臺(tái)層和設(shè)施層的云服務(wù)進(jìn)行選擇、配置和優(yōu)化使用。私有云的成功實(shí)踐和成熟推廣會(huì)進(jìn)一步推動(dòng)云環(huán)境下的電子文件管理的研究、應(yīng)用與發(fā)展,并進(jìn)一步帶動(dòng)相關(guān)管理部門和人員認(rèn)識(shí)水平的提升,最終將逐漸會(huì)被混合云或公共云替代。
基于云計(jì)算的技術(shù)框架和電子文件管理的系統(tǒng)建設(shè)和應(yīng)用需求,采用分層方法設(shè)計(jì)云環(huán)境下電子文件管理系統(tǒng)的技術(shù)框架是實(shí)現(xiàn)電子文件管理的首要任務(wù),圖1呈現(xiàn)了電子文件管理系統(tǒng)的技術(shù)框架
1.1固件/硬件層主要包含硬件服務(wù)器和交換機(jī)等物理基礎(chǔ)設(shè)施,為軟件內(nèi)核層提供硬件的操作、管理和更新服務(wù);軟件內(nèi)核層負(fù)責(zé)管理固件/硬件層的物理硬件設(shè)備,通常由操作系統(tǒng)內(nèi)核、虛擬機(jī)監(jiān)控器、集群中間件等工具和技術(shù)來實(shí)現(xiàn)。
1.2非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)。電子文件通常是以非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)方式存在,云計(jì)算環(huán)境中非結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)通常采用分布式文件管理技術(shù)如Google的GFS、Hadoop的HDFS等。非結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)過程中,一般按照實(shí)現(xiàn)配置好的大?。J(rèn)為64MB)進(jìn)行分塊,并對(duì)每個(gè)分塊進(jìn)行唯一索引后存儲(chǔ)在不同的數(shù)據(jù)塊服務(wù)器上,所有數(shù)據(jù)塊服務(wù)器由主服務(wù)器統(tǒng)一管理,力求控制流和數(shù)據(jù)流的分離。在云環(huán)境下,電子文件特別是大數(shù)據(jù)對(duì)象的文件將被存放到分布式的非結(jié)構(gòu)化文件系統(tǒng)中,由文件系統(tǒng)統(tǒng)一管理。
1.3結(jié)構(gòu)化數(shù)據(jù)對(duì)象的分布式存儲(chǔ)。云環(huán)境下結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)技術(shù)有Google的Bigtable、Amazon的RDS、Hadoop的HBase等技術(shù),與傳統(tǒng)關(guān)系數(shù)據(jù)庫不同的是,云環(huán)境下的結(jié)構(gòu)化數(shù)據(jù)模型一般由一個(gè)行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳進(jìn)行索引,其數(shù)據(jù)訪問需要數(shù)據(jù)鎖服務(wù)。云環(huán)境下的結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)一般采用主服務(wù)器和子表服務(wù)器進(jìn)行分工管理,其中主服務(wù)器負(fù)責(zé)新子表的分配、子表服務(wù)器的監(jiān)控和負(fù)載均衡等問題。在云環(huán)境下,電子文件的元數(shù)據(jù)一般存儲(chǔ)在分布式結(jié)構(gòu)化表中,由分布式結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)統(tǒng)一管理。
1.4分布式數(shù)據(jù)處理。與傳統(tǒng)電子文件管理系統(tǒng)不同的是,云環(huán)境下的電子文件管理系統(tǒng)中將會(huì)采用以MapReduce為代表的分布式數(shù)據(jù)處理技術(shù)來處理電子文件,需要對(duì)目前的電子文件管理系統(tǒng)中普遍采用的數(shù)據(jù)處理算法和技術(shù)實(shí)現(xiàn)工具進(jìn)行改進(jìn)或重新設(shè)計(jì)。
1.5電子文件管理基礎(chǔ)服務(wù)。該層為電子文件管理業(yè)務(wù)層提供一些共性的基礎(chǔ)性服務(wù)和核心功能,包括電子文件封裝、電子憑證管理、完整性校驗(yàn)、分布式存取、電子文件監(jiān)控和電子文件的溯源。
1.6電子文件管理業(yè)務(wù)服務(wù)。電子文件管理業(yè)務(wù)服務(wù)主要包括信息捕獲、安全與監(jiān)控、保管與處置、檢索與再現(xiàn)、系統(tǒng)管理、非電子文件管理,負(fù)責(zé)實(shí)現(xiàn)電子文件管理業(yè)務(wù)服務(wù)的虛擬化,形成電子文件管理的工具資源池。電子文件管理用戶可以通過系統(tǒng)提供的接口,包括人機(jī)交互界面(如Web界面)和程序編程接口(如Web服務(wù)、API等),以租用的方式享用電子文件管理基礎(chǔ)服務(wù)的各項(xiàng)功能。
除了上述組成部分之外,云環(huán)境下電子文件管理還需要系統(tǒng)管理、安全保障、容錯(cuò)機(jī)制和服務(wù)質(zhì)量等技術(shù),它們貫穿于云環(huán)境下的電子文件管理系統(tǒng)的所有層次,需要統(tǒng)一設(shè)計(jì)和研發(fā)。
2 云端電子文件管理的關(guān)鍵技術(shù)
圖1所示的云環(huán)境下的電子文件管理的通用技術(shù)框架的應(yīng)用需要如下關(guān)鍵技術(shù)的突破:
2.1電子文件的對(duì)象建模技術(shù)
電子文件的對(duì)象建模是電子文件管理系統(tǒng)的關(guān)鍵步驟之一。在不同的電子文件管理標(biāo)準(zhǔn)中,對(duì)電子文件的封裝要求有所不同。如何構(gòu)建SIP ( Submission Information Package,提交信息包)、AIP ( Archival Information Package,存檔信息包)、DIP (Dissemination InformationPackage,發(fā)布信息包)的信息模型以及如何實(shí)現(xiàn)這些不同信息包之間的相互轉(zhuǎn)換是云端電子文件管理中需要解決的技術(shù)問題。此外,電子文件對(duì)象建模技術(shù)還需要考慮云計(jì)算環(huán)境本身的技術(shù)特殊性,如多副本管理、大文件分塊管理、分布式處理等特征。因此,電子文件對(duì)象的建模與封裝是云環(huán)境下的電子文件管理系統(tǒng)實(shí)現(xiàn)過程中需要解決的關(guān)鍵技術(shù)之一。
2.2海量異構(gòu)電子文件的分布式存取技術(shù)
海量異構(gòu)電子文件的分布式存取是云端電子文件管理系統(tǒng)與傳統(tǒng)電子文件管理系統(tǒng)的區(qū)別之一。以Google文件系統(tǒng)為例,主要技術(shù)特點(diǎn)是采用中心服務(wù)器模式,不緩存數(shù)據(jù),在用戶態(tài)下實(shí)現(xiàn)和只提供專用接口。目前的電子文件管理中采用的數(shù)據(jù)處理技術(shù)不能直接應(yīng)用于云環(huán)境下的分布式數(shù)據(jù)處理任務(wù)中。云環(huán)境下的電子文件管理需要進(jìn)行大文件的分塊、MapReduce、多副本管理、結(jié)點(diǎn)動(dòng)態(tài)加入、用戶態(tài)下實(shí)現(xiàn)等特殊操作。因此,面向海量異構(gòu)電子文件的分布式存取技術(shù)是云端電子文件管理的重要課題之一。
2.3電子文件及其元數(shù)據(jù)的溯源技術(shù)
云計(jì)算技術(shù)本身的特殊性為電子文件及其元數(shù)據(jù)的溯源提供了良好的技術(shù)保障。云環(huán)境下電子文件回溯可分為兩類:結(jié)構(gòu)化數(shù)據(jù)表的溯源和非結(jié)構(gòu)化數(shù)據(jù)的溯源。以Bigtable為例,其數(shù)據(jù)模型由行、列、時(shí)間戳組成。與傳統(tǒng)數(shù)據(jù)庫不同的是,Bigtable中采用了關(guān)鍵字排序、列簇(ColumnFamily)存儲(chǔ)和時(shí)間戳,可以很容易在不同版本之間回溯。此外,云計(jì)算環(huán)境中的非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)中采用了多副本技術(shù),也較好地支持文件實(shí)體對(duì)象的溯源。但是,云計(jì)算中的這些技術(shù)并不能完全支持電子文件及其元數(shù)據(jù)的回溯操作,如證據(jù)保留和憑證生成等。因此,憑證性回溯技術(shù)是云端電子文件管理中需要突破的重要技術(shù)。
3 云端電子文件管理的實(shí)現(xiàn)方案
圖1所示的云環(huán)境下的電子文件管理通用技術(shù)框架和上述關(guān)鍵技術(shù)的實(shí)現(xiàn)需要以下基本原則和實(shí)現(xiàn)方法。
3.1實(shí)現(xiàn)原則
基于以上分析,可以歸納出,云環(huán)境下電子文件管理系統(tǒng)的構(gòu)建需要遵從以下基本原則:
3.1.1底層技術(shù)的簡單性與上層應(yīng)用的復(fù)雜性之間的平衡原則。簡單實(shí)用性是云計(jì)算服務(wù)模式的重要特征。其簡單實(shí)用性主要體現(xiàn)在兩個(gè)層面,一是在云計(jì)算的設(shè)計(jì)思想中,云計(jì)算的實(shí)現(xiàn)并不追求新技術(shù)的創(chuàng)造,而更加重視現(xiàn)有技術(shù)的重組;另一個(gè)是云計(jì)算的實(shí)現(xiàn)技術(shù)上,云計(jì)算一般采用簡單實(shí)用的實(shí)現(xiàn)技術(shù),不主張實(shí)現(xiàn)技術(shù)的復(fù)雜化。以Amazon提出的SDB(SimpleDB)為例,這種技術(shù)不需要實(shí)現(xiàn)定義模式信息,其屬性的修改添加以追加形式實(shí)現(xiàn),操作類型簡單(不支持像連接、排序等復(fù)雜操作)。然而,底層的簡單實(shí)用往往會(huì)增加上層應(yīng)用的復(fù)雜度。因此,在云環(huán)境下的電子文件管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)中,不僅要考慮底層技術(shù)的簡單實(shí)用原則,而且還注重避免上層應(yīng)用的復(fù)雜性,力求在二者之間達(dá)到平衡。
3.1.2經(jīng)濟(jì)性與穩(wěn)定性之間的平衡。經(jīng)濟(jì)性也是云技術(shù)的重要特征之一,云計(jì)算的經(jīng)濟(jì)性體現(xiàn)云端和終端的經(jīng)濟(jì)性。云端的經(jīng)濟(jì)性體現(xiàn)在云端部署在成本相對(duì)較低的服務(wù)器硬件之上,不追求服務(wù)器集機(jī)群的實(shí)時(shí)更新?lián)Q代。在計(jì)算能力和存儲(chǔ)能力相等的情況下,搭建一個(gè)云端服務(wù)器集群的成本要低于購買一臺(tái)超級(jí)計(jì)算機(jī)作為服務(wù)器的成本;終端的經(jīng)濟(jì)性體現(xiàn)在云計(jì)算對(duì)終端的要求較低,用戶可以使用瘦終端就可以調(diào)用功能強(qiáng)大的云服務(wù),不需要購買昂貴的軟硬件設(shè)備和進(jìn)行繁瑣的軟硬件管理與維護(hù)工作②。因此,云環(huán)境下的電子文件管理系統(tǒng)的設(shè)計(jì)應(yīng)遵循經(jīng)濟(jì)性原則,可直接部署在配置較低的普通服務(wù)器硬件上,而且應(yīng)支持多種類型的終端設(shè)備。但是,經(jīng)濟(jì)性原則往往帶來穩(wěn)定性問題,尤其是容錯(cuò)處理問題。經(jīng)濟(jì)性帶來的容錯(cuò)處理是云計(jì)算的重要難題之一,涉及云計(jì)算中的Master服務(wù)器、Sever服務(wù)器、數(shù)據(jù)管理服務(wù)器等每個(gè)組成部分。因此,在經(jīng)濟(jì)性和穩(wěn)定性之間的平衡是云環(huán)境下電子文件管理的重要指導(dǎo)原則之一。
3.1.3靈活性與安全性的統(tǒng)一。靈活性(或彈性)作為云計(jì)算的重要特征,涉及節(jié)點(diǎn)動(dòng)態(tài)管理、故障動(dòng)態(tài)監(jiān)測(cè)、動(dòng)態(tài)故障恢復(fù)、多副本管理、動(dòng)態(tài)租約管理和彈性服務(wù)組合。顯然,靈活性給電子文件管理系統(tǒng)的技術(shù)實(shí)現(xiàn)帶來了較大程度的方便性。但是,靈活性也給電子文件的一致性、可靠性和保密性提出了更復(fù)雜的管理要求。因此,保證靈活性與安全性之間的平衡是云環(huán)境下的電子文件管理系統(tǒng)的IT實(shí)現(xiàn)的重要指導(dǎo)原則之一。
3.1.4針對(duì)性和可持續(xù)性的統(tǒng)一。針對(duì)性強(qiáng)調(diào)的是電子文件管理系統(tǒng)與其他業(yè)務(wù)應(yīng)用系統(tǒng)的區(qū)別性,主要強(qiáng)調(diào)電子文件管理系統(tǒng)遵循相關(guān)的功能要求標(biāo)準(zhǔn)的符合程度。當(dāng)前國內(nèi)外關(guān)于與電子文件管理系統(tǒng)的功能要求標(biāo)準(zhǔn)有ISO15489、DoD5015.02、Moreq2、ICA、《電子文件歸檔與管理規(guī)范GB/T18894-2002》、《電子文件管理系統(tǒng)通用功能要求》等。因此,云環(huán)境下的電子文件管理系統(tǒng)的實(shí)現(xiàn)中必須遵循這些原則和要求,具備較強(qiáng)的針對(duì)性或?qū)I(yè)性。同時(shí),針對(duì)性的實(shí)現(xiàn)也要支持和遵循可持續(xù)性。云環(huán)境下的電子文件管理系統(tǒng)的實(shí)現(xiàn)并不要求一步到位,應(yīng)統(tǒng)一規(guī)劃,分步驟實(shí)現(xiàn),重視部門協(xié)同和資源共享。因此,針對(duì)性和可持續(xù)性的統(tǒng)一是云環(huán)境下的電子文件管理系統(tǒng)的研發(fā)中必須遵循的原則之一。
3.2實(shí)現(xiàn)方法
云計(jì)算環(huán)境中的電子文件管理系統(tǒng)的實(shí)現(xiàn)技術(shù)方案有多種,可以分為兩大類,即商業(yè)解決方案和開源解決方案??紤]到電子文件管理需求的特殊性及未來應(yīng)用的可擴(kuò)展性,建議采用開源解決方案。目前,主流的開源方案有Hadoop、Eucalyptus、Nimbus和Sectorand Sphere。其中,Hadoop和Eucalyptus分別模仿了兩個(gè)主流的商業(yè)解決方案,即Google和Amazon的云技術(shù)。綜合考慮實(shí)現(xiàn)技術(shù)的成熟度、普及程度、內(nèi)部技術(shù)的公開性和未來發(fā)展趨勢(shì),建議在云環(huán)境下的電子文件管理中采用基于Hadoop的開源解決方案。
在云環(huán)境下的電子文件管理系統(tǒng)的開發(fā)中應(yīng)采用基于Hadoop的編程模式或類似于Hadoop的編程模式。Hadoop是Apache開源組織提供的一種具有高可靠性、高可擴(kuò)展性的分布式計(jì)算機(jī)框架,包括Hadoop Common、Avro、Vhukwa、HBase、HDFS、Hive、MapReduce、Pig和ZooKeeper等編程技術(shù)③。其中,Hadoop HDFS、MapReduce、HBase、ZooKeeper、Pig分別對(duì)應(yīng)Google的GFS、MapReduce、Bigtable、Chubby和Sawzall。因此,在圖1所示的通用技術(shù)框架中,可以分別使用Hadoop HDFS、HBase、MapReduce和ZooKeeper技術(shù)實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、分布式處理和鎖服務(wù)。
4 結(jié)語
以云計(jì)算為中心的新型信息生態(tài)環(huán)境為電子文件管理提供了新的計(jì)算模式和技術(shù)實(shí)現(xiàn)方案。在這種生態(tài)環(huán)境下,云端電子文件管理系統(tǒng)的初期建設(shè)往往定位于SaaS層的私有云。隨著關(guān)鍵技術(shù)和典型應(yīng)用的成熟與發(fā)展,電子文件管理將逐漸采用混合云或公共云技術(shù),并將滲透至云計(jì)算的不同層次。為此,本文將云端電子文件管理系統(tǒng)的通用技術(shù)劃分為七個(gè)層次,探討所需的四項(xiàng)關(guān)鍵技術(shù),并提出了研發(fā)電子文件管理系統(tǒng)的基本原則和實(shí)現(xiàn)方案。因此,本文研究對(duì)于云環(huán)境下的電子文件管理系統(tǒng)的研發(fā)活動(dòng)具有重要的指導(dǎo)意義。在未來的工作中,我們將重點(diǎn)進(jìn)行實(shí)證分析,并進(jìn)一步完善本文研究成果。
本文是北京市科技計(jì)劃課題《基于異構(gòu)系統(tǒng)的電子檔案憑證性保障核心技術(shù)開發(fā)與應(yīng)用》(項(xiàng)目編號(hào)Z111100075011001)、國家自然科學(xué)基金項(xiàng)目“語義Web環(huán)境下的大規(guī)模協(xié)同知識(shí)處理模型研究”(項(xiàng)目編號(hào)71103020)和國家社科基金重大項(xiàng)目《云計(jì)算環(huán)境下的信息資源集成與服務(wù)研究》(項(xiàng)目編號(hào):12&ZD220;)的成果之一。
參考文獻(xiàn):
薛四新,黃萃.云計(jì)算環(huán)境下電子文件管理研究綜述[J].北京檔案,2011(09):25-27.
朝樂門,張勇,邢春曉.云端信息資源管理研究[J].情報(bào)資料工作,2010(4):44-49.
The Apache Software Foundation.What Is Apache Hadoop[EB/OL]. [2012- 4- 6]. http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F.
作者單位:清華大學(xué)檔案館中國人民大學(xué)數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室北京市檔案局