云雅+黃東霞+張泉海
摘要:本文針對現(xiàn)有資源平臺的不足,結(jié)合信息技術(shù)的最新發(fā)展,引入分布式技術(shù),設(shè)計了基于Hadoop系統(tǒng)的數(shù)字檔案資源整合集成平臺模式,并對該模式進行研究。
關(guān)鍵詞:集成平臺服務(wù)模式分布式技術(shù)
目前,國家正在大力推進檔案資源網(wǎng)絡(luò)化,要求充分利用已有的信息傳輸網(wǎng)絡(luò),實現(xiàn)資源共享。[1]傳統(tǒng)的數(shù)據(jù)管理方式易導(dǎo)致信息分散保存、重復(fù)保存、收集困難、檢索困難、移交困難和協(xié)作脫節(jié)等問題,不利于檔案資源多領(lǐng)域的共享與利用,在這種情況下,亟需改變落后的數(shù)據(jù)管理方式,提升效率,實現(xiàn)數(shù)據(jù)的現(xiàn)代化管理。
一、我國數(shù)字檔案資源整合集成模式的現(xiàn)狀
所謂數(shù)字檔案資源指的是國家數(shù)字信息資源的核心資源,包括電子檔案、傳統(tǒng)載體檔案數(shù)字化副本、元數(shù)據(jù)、系統(tǒng)數(shù)據(jù)以及其他需要長期保存的數(shù)字信息等,其具有憑證、記憶、身份認(rèn)同、社區(qū)能力構(gòu)建等多元價值屬性。通過對海量數(shù)字檔案數(shù)據(jù)的收集、分析、處理和利用,能夠更好地應(yīng)對社會的發(fā)展。既有的檔案數(shù)字資源如果能夠通過某一平臺得到整合與集中,那么數(shù)字檔案資源利用將得到極大的發(fā)揮,檔案服務(wù)民生的作用也將得到進一步體現(xiàn)??梢哉f,對數(shù)字檔案資源整合集成模式的研究,就是提升檔案資源服務(wù)能力的有效手段。
目前,我國有多種數(shù)字檔案資源整合集成模式。例如,基于檔案網(wǎng)站的數(shù)字檔案資源整合模式、電子政務(wù)環(huán)境下的檔案資源整合與共享模式。此外,還有交互式數(shù)字檔案服務(wù)模式[1]和云計算環(huán)境下的檔案信息資源整合與服務(wù)模式等。[2]代表性案例是湖北省宜都市檔案局的檔案資源建設(shè)與服務(wù)聯(lián)動模式。[3]近年來,湖北省宜都市檔案局以“檔案服務(wù)民生”為聯(lián)結(jié)點,[4]依托檔案館平臺及政府門戶網(wǎng)站、檔案信息網(wǎng)站和農(nóng)村黨員遠程教育網(wǎng)站等平臺提供民生檔案服務(wù),形成檔案資源建設(shè)與服務(wù)聯(lián)動模式。在檔案管理整合層面上,提出基礎(chǔ)設(shè)施層、數(shù)據(jù)整合處理層、業(yè)務(wù)應(yīng)用層和公共服務(wù)層等四層檔案信息資源管理模式,從不同層面上對數(shù)字檔案管理方式進行整合。在檔案資源內(nèi)容整合層面,通過“支撐云”“業(yè)務(wù)云”“公共云”三大平臺,為云計算平臺提供不同層級的檔案資源服務(wù)。這些模式雖然減少或避免了數(shù)字檔案資源建設(shè)與服務(wù)中孤立化、片面化的現(xiàn)象,但是對于海量數(shù)據(jù)而言,這些模式仍受到一定的制約。
二、基于Hadoop系統(tǒng)的數(shù)字檔案資源集成平臺的構(gòu)建及實現(xiàn)
Hadoop是一種對大規(guī)模數(shù)據(jù)進行分布式處理的系統(tǒng),該系統(tǒng)建立在網(wǎng)絡(luò)空間上,能夠即時了解用戶對檔案資源利用的反饋信息,使用戶在一個標(biāo)準(zhǔn)的分布式環(huán)境里隨時使用所有資源和系統(tǒng),形成良好的雙向互動模式。Hadoop系統(tǒng)作為一個適合大數(shù)據(jù)的分布式存儲和計算的平臺,不僅能夠?qū)⒉煌瑏碓春透袷降姆植际疆悩?gòu)數(shù)據(jù)集成在一個平臺上,而且能夠準(zhǔn)確地存儲檔案數(shù)據(jù),避免了檢索困難、重復(fù)存檔和無用存檔的現(xiàn)象。特別是該系統(tǒng)極大地彌補了數(shù)字檔案資源整合集成模式的缺陷。在Hadoop出現(xiàn)之前,高性能計算和網(wǎng)格計算一直是處理大數(shù)據(jù)問題的主要工具,當(dāng)它需要訪問PB級別的數(shù)據(jù)時,由于儲存設(shè)備網(wǎng)絡(luò)寬帶的限制,很多集群計算節(jié)點處于閑置狀態(tài)。針對這種數(shù)字檔案資源整合與服務(wù)過程中存在的不足,Hadoop系統(tǒng)能夠?qū)⒃搼?yīng)用分解成許多小的部分,分配給多臺計算機進行處理。通過分布式計算,能夠使其在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡。同時,采用并行執(zhí)行機制,將一個應(yīng)用程序分解為許多并行計算指令,極大地提高了數(shù)字檔案資源的訪問速度。
近年來,Hadoop系統(tǒng)已經(jīng)應(yīng)用在科研、教育、天氣預(yù)報分析、數(shù)據(jù)庫搜索、生物技術(shù)、智能交通、水火電力、大地測量、數(shù)據(jù)資源管理與服務(wù)等諸多領(lǐng)域。美國加州大學(xué)伯克利分校建立的開放式網(wǎng)絡(luò)計算平臺,就能夠?qū)⒉煌姆植际接嬎沩椖窟B接起來,對參與這些項目的計算資源進行統(tǒng)一合理分配,擴展了相關(guān)科研、教學(xué)、綜合檔案管理等綜合數(shù)字資源的有效整合。綜上,Hadoop系統(tǒng)在理論和實踐領(lǐng)域都已經(jīng)有相當(dāng)成熟的應(yīng)用,完全可以為數(shù)字檔案資源整合集成提供新的思路。
(一)基于Hadoop系統(tǒng)的數(shù)字檔案資源集成平臺的構(gòu)建
本文利用Hadoop系統(tǒng)[5][6][7]的方法原理,設(shè)計出分布式數(shù)據(jù)庫模型,并將部分成果用于筆者所在單位,以便實現(xiàn)數(shù)字檔案資源的共享。筆者所在單位各職能部門均有不同的數(shù)字資源平臺,這些獨立平臺的數(shù)字資源各自為政的現(xiàn)象較為嚴(yán)重,嚴(yán)重限制了資源的共享。例如,檔案館的“瓊蘭系統(tǒng)”平臺,雖然能夠較為精確地查詢到館內(nèi)所有紙質(zhì)文件和實體檔案,但是無法滿足海量數(shù)據(jù)的搜索。黨政部門的“電子政務(wù)”平臺雖然方便了校內(nèi)局域網(wǎng)電子文檔的接收,但是由于沒有關(guān)鍵詞搜索功能而無法即時同步輸送文件。教務(wù)部門的“青果系統(tǒng)”平臺雖然能夠安排課程、統(tǒng)算教師學(xué)時數(shù)以及報送、分析成績,但是存儲授課和成績方面的數(shù)據(jù)資源卻非常有限。醫(yī)學(xué)教育研究所的“高校研究項目全程管理”平臺,也僅僅能夠遠程申報網(wǎng)絡(luò)教學(xué)科研課題立項,無法與其他數(shù)據(jù)互通。針對上述情況,筆者利用Hadoop系統(tǒng)的優(yōu)勢,整合集成所在單位不同的數(shù)字檔案資源,構(gòu)建一種基于Hadoop系統(tǒng)的集成平臺模式,并對其構(gòu)建與應(yīng)用進行探索。
根據(jù)Hadoop系統(tǒng)能夠存儲海量檔案數(shù)據(jù)的特點,依據(jù)分布式計算技術(shù),我們采用并行執(zhí)行機制,設(shè)計“垂直分布+水平分布”的分布式檔案數(shù)據(jù)庫模型,模擬構(gòu)建“垂直分布+水平分布”的分布式數(shù)據(jù)庫系統(tǒng)。同時,使用鏈接服務(wù)器和存儲過程相結(jié)合的方法,將用戶提交的全局操作轉(zhuǎn)變?yōu)閷Χ鄠€場地的垂直分片表的局部操作。體現(xiàn)在實際操作層面就是筆者所在單位將現(xiàn)有的“青果系統(tǒng)”、電子政務(wù)系統(tǒng)、高校研究項目管理平臺及“瓊蘭檔案”等獨立平臺,整合到一個集成平臺上。該平臺采用傳統(tǒng)的客戶端-服務(wù)端構(gòu)架,服務(wù)端部署于計算項目方的服務(wù)器上,客戶端部署于用戶的計算機中,兩者之間通過標(biāo)準(zhǔn)的互聯(lián)網(wǎng)協(xié)議進行通訊。也就是說,該平臺并不對各系統(tǒng)的計算項目提供服務(wù)器硬件及數(shù)據(jù)資源更改,具體計算項目的服務(wù)器仍是項目方自行提供的。為在實際操作中能夠較好地保證數(shù)據(jù)的一致性,形成統(tǒng)一的存儲和服務(wù)系統(tǒng),該平臺還將預(yù)編譯好的SQL語句集存儲在服務(wù)器上,使用存儲過程中將多個場地的垂直分片表的操作放在一個分布事務(wù)內(nèi)。如圖1所示。
(二)基于Hadoop系統(tǒng)的數(shù)字檔案資源集成平臺的實現(xiàn)
在集成平臺初步搭建的基礎(chǔ)上,我們對原平臺進行優(yōu)化設(shè)計,形成了高校檔案數(shù)據(jù)庫平臺模型。如圖2所示。
利用筆者所在單位現(xiàn)有各異構(gòu)平臺的數(shù)據(jù)資源,通過獲取、提煉、集成,進行統(tǒng)一的數(shù)據(jù)采集,完成基本數(shù)據(jù)源的建設(shè)。例如,獲取“青果系統(tǒng)”“教師管理信息系統(tǒng)”等各獨立平臺中有用的基礎(chǔ)檔案數(shù)據(jù)。同時,對各類數(shù)字化檔案、師生檔案、科研成果檔案進行整合,形成框架式集成平臺。然后,通過融合各異構(gòu)平臺的資源數(shù)據(jù),利用Hadoop系統(tǒng)對數(shù)據(jù)進行整合、分析并提供便捷的應(yīng)用服務(wù)。例如,“青果系統(tǒng)”中含有成績系統(tǒng)、課表編排系統(tǒng)、學(xué)生管理系統(tǒng)多個系統(tǒng)的數(shù)據(jù)參數(shù),通過對數(shù)據(jù)的生產(chǎn)分析處理,將分散的數(shù)據(jù)進行信息化和知識化加工,去除冗余數(shù)據(jù),保留“青果系統(tǒng)”平臺的有用資源。由于集成平臺上收集有“教師管理信息系統(tǒng)”,故在使用平臺上“青果系統(tǒng)”數(shù)據(jù)資源的同時,還可以調(diào)用和查看“教師管理信息系統(tǒng)”中授課教師的所有相關(guān)信息。
該系統(tǒng)對存儲的數(shù)據(jù)進行整合,形成相互鏈接關(guān)系,并輸出到服務(wù)應(yīng)用平臺上。分散數(shù)據(jù)經(jīng)加工處理整合后輸入關(guān)鍵詞,系統(tǒng)會自動搜索各異構(gòu)平臺中相關(guān)數(shù)據(jù),對數(shù)字化檔案、在線文件、特色檔案、師生檔案、編研成果經(jīng)過分布式計算、識別數(shù)據(jù)、在線報送、接收、儲存、查詢、利用、統(tǒng)計等步驟,按照時間、類目自動生成圖像文件,數(shù)據(jù)互通后形成,同時將結(jié)果輸出到集成平臺上,即高校檔案公共平臺和高校檔案移動APP,最終實現(xiàn)服務(wù)整合,滿足用戶共享需求。
*本文為2016年海南省哲學(xué)社會科學(xué)規(guī)劃課題“基于分布式系統(tǒng)的檔案資源集成平臺模式研究”[項目編號:HNSK(ZC)16-47]的成果之一。
注釋及參考文獻:
[1]梁孟華.Web2.0形態(tài)下面向用戶的交互式數(shù)字檔案服務(wù)研究[J].檔案學(xué)通訊,2013(6):65-69.
[2]牛力,韓小汀.云計算環(huán)境下的檔案信息資源整合與服務(wù)模式研究[J].檔案學(xué)研究,2013(5):26-29.
[3]周耀林,趙躍.檔案資源建設(shè)與服務(wù)聯(lián)動模式探析[J].檔案學(xué)通訊,2015(5):51-57.
[4]袁作軍.宜都現(xiàn)象——湖北省宜都市檔案服務(wù)民生調(diào)查[J].中國檔案,2014(3):36-37.
[5]王平,安亞翔.大數(shù)據(jù)時代的檔案信息平臺建設(shè)[J].檔案與建設(shè),2015(10):8-13.
[6]Tom Wbite. Hadoop權(quán)威指南(第2版)[M].北京:清華大學(xué)出版社,2011:1-156.
[7]蔡斌,陳湘萍.Hadoop技術(shù)內(nèi)幕:深入解析Ha? doop Common和HDFS架構(gòu)設(shè)計與實現(xiàn)原理[M].北京:機械工業(yè)出版社,2013:34-121.