裴童
【摘要】本文簡要梳理國內(nèi)外的相關(guān)研究現(xiàn)狀,探索基于云存儲的黨政重要網(wǎng)頁文件云存儲模式構(gòu)建的原則和方法,致力于解決黨政重要網(wǎng)頁電子文件的現(xiàn)代化采集方式和保存方式,為基于云存儲環(huán)境下黨政重要網(wǎng)頁檔案的收集、管理、保存及利用提供理論基礎(chǔ)和經(jīng)驗(yàn)借鑒。
【關(guān)鍵詞】黨政;網(wǎng)頁電子文件;云存儲
隨著新時代現(xiàn)代化水平的快速發(fā)展,如今全球網(wǎng)絡(luò)上擁有大量的在線雜志,公共頁面及鏈接文檔超過億個,每天有許多新的網(wǎng)頁出現(xiàn),網(wǎng)絡(luò)已經(jīng)成為眾多民眾獲取信息的首選。然而網(wǎng)頁的平均壽命較短,如果重要的黨政網(wǎng)頁檔案信息資源不能及時采集、歸檔或管理不善,其將“自生自滅”。因而,如何利用現(xiàn)代化信息手段存儲“原生性”網(wǎng)絡(luò)資源具有重要的時代意義。2016年國務(wù)院辦公廳發(fā)布《關(guān)于印發(fā)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”技術(shù)體系建設(shè)指南的通知》,明確要求進(jìn)一步加強(qiáng)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”技術(shù)體系建設(shè)。近幾年,隨著黨政機(jī)關(guān)、事業(yè)單位“互聯(lián)網(wǎng)+政務(wù)服務(wù)”能力的不斷提升,黨政及政務(wù)網(wǎng)頁發(fā)布的信息呈指數(shù)型增長,及時存儲并高效利用黨政重要網(wǎng)頁電子文件具有重要的憑證價值和歸檔保存價值。
一、國外相關(guān)的研究背景
1996年國際開始研究網(wǎng)絡(luò)資源保存問題,加拿大、澳大利亞、瑞典國家圖書館和互聯(lián)網(wǎng)檔案館(Internet Archive)是首批建立網(wǎng)頁歸檔項(xiàng)目的國家。美國Philip C.Bantin對黨政重要網(wǎng)頁文件管理提出模式生命周期和文件連續(xù)體這兩種模式。這兩種模式是現(xiàn)代管理研究和發(fā)展的理論來源之一。美國和澳大利亞等國外黨政機(jī)關(guān)部門開始轉(zhuǎn)向云服務(wù),積極探索在“云”中生成、存儲和利用黨政重要網(wǎng)頁檔案,據(jù)調(diào)查,宏觀層面上,美國、英國、澳大利亞等國家先后出臺相關(guān)“云”政策,微觀層面上也發(fā)布黨政重要網(wǎng)頁檔案云存儲指南。
二、目前我國黨政重要網(wǎng)頁歸檔的主要功能及現(xiàn)狀
石華的《檔案館保存黨政重要網(wǎng)頁策略研究》一文著重闡述鄭州市檔案局黨政重要網(wǎng)頁文件歸檔的情況。2018年7月,由國家檔案局牽頭啟動我國網(wǎng)站網(wǎng)頁資源歸檔試點(diǎn)。近年,各省市檔案館也紛紛開展網(wǎng)頁電子文件采集、歸檔、管理存儲項(xiàng)目研究,但大多數(shù)并不是針對黨政重要網(wǎng)頁文件開展的,針對性較弱。目前國內(nèi)大多黨政重要網(wǎng)頁電子文件存在歸檔的范圍和保管期限不明確、歸檔的技術(shù)和標(biāo)準(zhǔn)不完備、歸檔的保管和利用體系不完善、未形成完整的管理體系等方面問題。
三、黨政重要網(wǎng)頁檔案采集、管理及利用
網(wǎng)頁形成的電子文件本身就是數(shù)字化的文件,不必像傳統(tǒng)紙質(zhì)檔案逐頁掃描、識別采集后存儲利用。采集、歸檔與管理三個主要的功能模塊構(gòu)成網(wǎng)頁電子文件歸檔系統(tǒng)。云計(jì)算的運(yùn)行原理是指:用戶使用的應(yīng)用程序,通過互聯(lián)網(wǎng)這個媒介,運(yùn)行在互聯(lián)網(wǎng)的服務(wù)器集群中。用戶查詢信息時無需打開自己的電腦、手機(jī)的應(yīng)用程序,可以便捷地進(jìn)行信息訪問,除此之外,用戶使用的數(shù)據(jù)也通過互聯(lián)網(wǎng)集群中心進(jìn)行存儲。
(一)數(shù)據(jù)采集功能是采集模塊的主要功能。自動增量采集是指云環(huán)境下的數(shù)據(jù)采集通過網(wǎng)頁爬蟲工具對指定網(wǎng)頁進(jìn)行規(guī)劃,按標(biāo)準(zhǔn)規(guī)范將采集到的網(wǎng)頁進(jìn)行元數(shù)據(jù)整理、原始信息的封裝與保存、可視化封裝與保存。解決了現(xiàn)有數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)采集效率低、實(shí)時性差的技術(shù)問題。通過云端服務(wù)器強(qiáng)大的數(shù)據(jù)運(yùn)算能力,該數(shù)據(jù)采集能快速分析所采集數(shù)據(jù)的分析結(jié)果,保證了數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)采集實(shí)時性,提高了數(shù)據(jù)采集系統(tǒng)的效率。
(二)對元數(shù)據(jù)摘錄、自動分類歸檔、數(shù)據(jù)入庫等初步封裝是歸檔過程。云計(jì)算空間,根據(jù)用戶不同的信息需求和等級層次,檔案館自行設(shè)置檔案信息資源的權(quán)限管理。檔案館授予管理權(quán)一般是通過PMI(特權(quán)管理基礎(chǔ)設(shè)施)進(jìn)行,首先,用戶輸入身份驗(yàn)證登錄“云”端,然后按照之前確定的角色進(jìn)行網(wǎng)頁查詢、瀏覽。其次,承擔(dān)檔案館數(shù)據(jù)維護(hù)人員登錄“云”系統(tǒng)后,可以按照其管理員身份和權(quán)限,進(jìn)行網(wǎng)頁數(shù)據(jù)的維護(hù)、數(shù)據(jù)的更新、升級和備份等。
(三)云平臺以云計(jì)算為代表。電子網(wǎng)頁的保存技術(shù)在充分運(yùn)用這一平臺的基礎(chǔ)上,可以為檔案數(shù)據(jù)的儲存空間提供足夠的保障。電子網(wǎng)頁的保存技術(shù)可以分為以下兩種:分布式保存技術(shù)和保存虛擬化技術(shù)。為了備份重要的電子網(wǎng)頁,在運(yùn)用以上兩種技術(shù)進(jìn)行儲存時,需要采取加密等技術(shù)措施來保證數(shù)據(jù)的安全。因?yàn)闄n案數(shù)據(jù)的類別是多種多樣的,所以運(yùn)用多種模式的數(shù)據(jù)庫是行之有效的。一方面,可以運(yùn)用關(guān)系型的數(shù)據(jù)庫來儲存結(jié)構(gòu)性的檔案數(shù)據(jù);另一方面,可以運(yùn)用并行處理系統(tǒng)(MapReduce)來處理半結(jié)構(gòu)或者非結(jié)構(gòu)形式的數(shù)據(jù)。同時,我們可以把多種模式的數(shù)據(jù)庫融入云平臺,這樣各種形式的電子網(wǎng)頁都可以得到妥善的存儲。
(四)網(wǎng)頁電子文件管理。對網(wǎng)頁電子文件進(jìn)行管理是指簽名驗(yàn)證、授權(quán)管理、網(wǎng)頁數(shù)據(jù)的導(dǎo)入和導(dǎo)出、生成電子網(wǎng)頁數(shù)據(jù)包等功能?!霸茩n案館”是由各個成員館構(gòu)建而成,各個成員館同時享用云檔案館的信息資源,實(shí)現(xiàn)了雙方的互惠互利。各個成員館通過互聯(lián)網(wǎng)相互聯(lián)系,在各自的分館上傳可用的信息資源,這些資源最后集結(jié)在云端,云端成為一個大型的資源存儲庫,用戶在成員館使用資源時,不用區(qū)分資源是否為本館資源,這就實(shí)現(xiàn)了各個成員館資源的共享。同時云檔案館可以識別用戶檢索的各種信息,對這些信息進(jìn)行過濾和篩選,根據(jù)用戶的不同需求提供信息檢索和信息傳遞服務(wù)。用戶在查詢信息過程中無需使用繁雜的步驟,為用戶節(jié)省了大量的時間。
(五)網(wǎng)頁歸檔。網(wǎng)頁歸檔也同其它檔案信息資源一樣,涉及網(wǎng)頁的復(fù)制權(quán)、編輯與保存權(quán)和發(fā)布權(quán)等問題,為了確保云環(huán)境下網(wǎng)頁電子文件的真實(shí)性,提高云環(huán)境下網(wǎng)頁電子文件的安全性,需要建立一個身份認(rèn)證功能,對訪問用戶的身份等信息進(jìn)行核實(shí)和認(rèn)證。比如,只有當(dāng)檔案用戶輸入真實(shí)姓名和密碼時才能進(jìn)行登錄,當(dāng)下一次需要查詢檔案時,還需要再次進(jìn)行手機(jī)認(rèn)證,才能享用被授權(quán)的檔案信息資源。一人一賬戶,這樣的話,即能避免云系統(tǒng)權(quán)限的混淆和混亂,同時,又能避免云中的各個用戶在不同系統(tǒng)登錄產(chǎn)生很多賬號的情況。另外,重要電子網(wǎng)頁的歸檔還存在著資金、法律、人才等問題,因此相關(guān)部門應(yīng)加大對資金的投入,在尊重隱私權(quán)和知識產(chǎn)權(quán)的同時,制定相關(guān)的法律法規(guī),同時要打造一批復(fù)合型的檔案人才隊(duì)伍。電子網(wǎng)頁歸檔是一個長期而系統(tǒng)的工程,任重而道遠(yuǎn),相關(guān)問題還有待于進(jìn)一步商榷。
四、結(jié)語
網(wǎng)頁仿佛一座橋梁貫穿歷史、今天與未來,把網(wǎng)頁像書頁一樣保存起來,我們希望做到的是讓后人能夠清晰看到今天乃至過去互聯(lián)網(wǎng)上報道過什么重大歷史事件,感受網(wǎng)站的歷史變遷、感受時代的進(jìn)步與發(fā)展,留住今天的記憶,展示昔日的風(fēng)采。
【本文系遼寧省檔案局科技項(xiàng)目高校重要網(wǎng)頁電子文件的采集、歸檔與利用研究(2019-R-14)階段性研究成果】
【參考文獻(xiàn)】
[1]王靜.中美網(wǎng)頁歸檔項(xiàng)目的對比研究[J].檔案與建設(shè), 2016(7).
[2]王爍.法國國家圖書館網(wǎng)頁歸檔項(xiàng)目發(fā)展?fàn)顩r研究[J].山西檔案,2012(3).
[3]畢云平,謝海洋.檔案學(xué)視角下網(wǎng)頁歸檔與保存研究綜述[J].檔案學(xué)研究,2015(4).
[4]付光宇.國外網(wǎng)絡(luò)信息資源采集研究及其啟示[J].圖書情報論壇,2008(4).