摘要:將云計算應(yīng)用到政府網(wǎng)站網(wǎng)頁的長期保存中,發(fā)揮其技術(shù)與管理優(yōu)勢,能夠高效率、低成本地實現(xiàn)海量政府網(wǎng)頁的在線歸檔和集成管理。文章依據(jù)文件生命周期理論、OAIS參考模型等理論,設(shè)計了政府網(wǎng)站網(wǎng)頁在線歸檔的業(yè)務(wù)流程。在此基礎(chǔ)上,文章結(jié)合云計算服務(wù)體系結(jié)構(gòu),界定了云環(huán)境下政府網(wǎng)站網(wǎng)頁歸檔的邏輯體系,并依此構(gòu)建基于云計算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺,平臺具有云上在線采集、云下數(shù)據(jù)管理、云中資源保存、云端訪問利用等重要功能。
關(guān)鍵詞:云計算政府網(wǎng)站網(wǎng)頁存檔長期保存
Abstract: Applying cloud computing to the longterm preservation of government website pages, le? veraging its technical and management advantages, it can realize massive government web pages online archiving and integrated management with high effi? ciency and low cost. According to the theory of docu? ment life cycle and OAIS reference model, this paper designs the business process of government web? site pages online archiving. On this basis, combined with the architecture of cloud computing services, de? fines the logical system of government website pag? es archiving in cloud environment, and builds a cloud- based online archiving management platform for government website pages, which has important functions such as online cloud collection, data man? agement under cloud, resource preservation in cloud, and cloud access utilization.
Key words: Cloud computing; Government web? site; Web archive; Long-term preservation
近年來,隨著我國政府信息公開工作的不斷推進,政府部門主動公開信息的范圍和深度日益擴大,越來越多的政務(wù)信息通過政府門戶網(wǎng)站以網(wǎng)頁的形式創(chuàng)建、發(fā)布、傳播和利用。這些網(wǎng)頁作為互聯(lián)網(wǎng)時代政府行政過程的真實記錄,具有重要的追溯憑證、決策參考與科學研究價值。然而,由于網(wǎng)絡(luò)資源的易消失性、動態(tài)不穩(wěn)定性,大量以“孤本”形式存在的政府網(wǎng)頁會因網(wǎng)站的整合遷移、改版更新等操作面臨“丟失”“無法顯示”的風險。2017年國務(wù)院辦公廳印發(fā)了《政府網(wǎng)站發(fā)展指引》的通知,要求各級政府網(wǎng)站做好網(wǎng)頁歸檔工作。[1]如何有效實現(xiàn)具有保存價值的政府網(wǎng)站網(wǎng)頁的長期可存取已成為當前政府面臨的新挑戰(zhàn)和學界探索的新課題。
云計算作為一種新型的IT服務(wù)資源,應(yīng)用日益廣泛,它所采用的集約化、虛擬化、分布式計算等綠色節(jié)能技術(shù),以及即插即用、動態(tài)架構(gòu)、智能運作的服務(wù)方式,能高效、低成本地實現(xiàn)政府網(wǎng)站網(wǎng)頁的在線歸檔和集成管理。[2]本文將“云計算”創(chuàng)新性地應(yīng)用到政府網(wǎng)站網(wǎng)頁的長期保存中,發(fā)揮其技術(shù)、管理與成本優(yōu)勢,突破原有的網(wǎng)絡(luò)資源歸檔管理平臺建設(shè)模式,構(gòu)建基于云計算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺,為大數(shù)據(jù)環(huán)境下政府網(wǎng)站網(wǎng)頁長期可存取問題的解決提供新思路和新方案。
政府網(wǎng)站網(wǎng)頁是政府部門在履行行政職能和處理行政事務(wù)過程中,利用其門戶網(wǎng)站創(chuàng)作或接收的具有特定內(nèi)容、結(jié)構(gòu)和背景信息的原始記錄,它符合文件的基本特征,是政府電子文件的重要組成部分。[3]因此,指導電子文件歸檔管理的文件生命周期理論、開放檔案信息系統(tǒng)(OAIS)模型等同樣適用于政府網(wǎng)站網(wǎng)頁的歸檔管理。根據(jù)文件生命周期理論,可以將政府網(wǎng)頁的創(chuàng)建、發(fā)布、獲取、存檔、利用等視為一個完整的生命過程。OAIS模型是當前國際上公認的實現(xiàn)電子文件等數(shù)字資源長期可存取的標準參考模型和基本概念框架,其功能結(jié)構(gòu)包含信息采集、數(shù)據(jù)管理、資源存儲、系統(tǒng)管控、保存規(guī)劃、訪問利用等模塊,不同功能模塊之間以信息包的形式對資源內(nèi)容信息和保存描述信息等信息對象進行傳遞,從而實現(xiàn)歸檔資源的長久保存與利用。[4]基于以上分析,參照政府網(wǎng)站網(wǎng)頁的生命運動規(guī)律,以及OAIS模型的標準業(yè)務(wù)與功能邏輯,可將其歸檔流程劃分為采集、分類、著錄、鑒定、保存、利用等主要階段,每個階段的任務(wù)各不相同。
(一)網(wǎng)頁采集
網(wǎng)頁采集作為政府網(wǎng)站網(wǎng)頁在線歸檔的首要環(huán)節(jié),就是利用相關(guān)工具,以既定的頻率和方式,及時選擇值得保存的政府網(wǎng)頁內(nèi)容。網(wǎng)頁采集的第一步是要確定采集對象,政府網(wǎng)頁歸檔保存的信息采集對象是域名中含有“gov.cn”的政府網(wǎng)站,為確保政府網(wǎng)頁的采集質(zhì)量,需要對目標網(wǎng)站進行評價,將那些信息規(guī)模大、原生性信息多、更新頻繁的政府網(wǎng)站選定為采集對象。[5]在確定要采集的目標政府網(wǎng)站之后,還應(yīng)根據(jù)實際需求選擇相應(yīng)的采集方式。完整性采集和選擇性采集是目前比較常用的網(wǎng)絡(luò)資源采集方式,它們各有優(yōu)缺點,為了彌補其各自的不足,可以實現(xiàn)兩種采集方式的優(yōu)勢互補,采用融合二者優(yōu)點的混合型采集方式,在對選定的政府網(wǎng)站中所有網(wǎng)頁進行完整性采集的同時,通過人工干預的方式對網(wǎng)頁內(nèi)容進行甄別,對其中有證據(jù)價值、歷史價值、研究價值的重要網(wǎng)頁,有選擇性地進行深層次的頻繁采集,這樣既考慮到了政府網(wǎng)頁采集面的廣度,同時又照顧到了重要網(wǎng)頁采集的深度。而網(wǎng)頁的采集與捕獲最終還需要依靠相應(yīng)的網(wǎng)絡(luò)爬蟲工具來實現(xiàn),目前面向網(wǎng)頁存檔的爬蟲工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來有針對性地完成對目標政府網(wǎng)站網(wǎng)頁的自動批量在線采集。
(二)數(shù)據(jù)管理
利用網(wǎng)絡(luò)爬蟲工具從不同目標政府網(wǎng)站中采集獲取的網(wǎng)頁是海量且無序的,還應(yīng)對其實施整理、分類、著錄、編目、鑒定等數(shù)據(jù)管理操作,實現(xiàn)信息的規(guī)則排序,使其具備增值的潛能,為后續(xù)的資源存儲和訪問利用奠定基礎(chǔ)。[6]首先,資源分類。根據(jù)采集網(wǎng)頁資源的特點,可以按照來源機構(gòu)、資源主題、格式類型等分類標準,將其中具有某種共同屬性特征的網(wǎng)頁資源進行歸類和整合,建立規(guī)范統(tǒng)一的政府網(wǎng)站網(wǎng)頁資源分類體系,通過不同類別的屬性特征來對海量的政府網(wǎng)頁內(nèi)容進行區(qū)分。其次,編目著錄。對分類后的網(wǎng)頁資源還應(yīng)基于統(tǒng)一的元數(shù)據(jù)標準對其內(nèi)容及結(jié)構(gòu)、來源、背景等特征進行揭示和描述,并在相關(guān)元數(shù)據(jù)之間建立聯(lián)系,形成政府網(wǎng)站網(wǎng)頁資源目錄體系,實現(xiàn)對海量無序網(wǎng)頁信息的序化組織。最后,鑒定整理。政府網(wǎng)頁的鑒定整理主要包括內(nèi)容的識別以及內(nèi)容的可用性判斷,其中內(nèi)容的識別就是確保實現(xiàn)政府網(wǎng)頁長期可存取的元數(shù)據(jù)、保存策略等信息要素齊全。內(nèi)容的可用性判斷即是通過人工干預來對政府網(wǎng)頁的形成背景、內(nèi)容質(zhì)量、重要程度等屬性特征進行全面分析,并根據(jù)保管期限表對要歸檔的政府網(wǎng)頁標記相應(yīng)的鑒定標識。
(三)資源保存
資源保存是實現(xiàn)政府網(wǎng)站網(wǎng)頁在線歸檔的核心,與靜態(tài)的數(shù)字資源存儲不同,政府網(wǎng)頁資源結(jié)構(gòu)復雜且動態(tài)增長,其復雜性、動態(tài)性、技術(shù)依賴性強等特點對存儲管理提出了挑戰(zhàn),它更依賴能夠滿足海量歸檔網(wǎng)頁資源的動態(tài)存儲需求及長期可訪問要求的長久保存策略和相應(yīng)的存儲架構(gòu)。[7]在長久保存策略的設(shè)計上,通??筛鶕?jù)歸檔網(wǎng)頁資源的類型和結(jié)構(gòu),有針對性地選擇數(shù)據(jù)加密、檢測、備份、遷移、仿真、封裝等相結(jié)合的長期保存技術(shù)策略,確保歸檔網(wǎng)頁資源的安全、完整、可靠及長期可用。在存儲架構(gòu)的選擇上,可以在當前數(shù)字資源長期保存采用的直接連接存儲、網(wǎng)絡(luò)連接存儲等傳統(tǒng)存儲架構(gòu)的基礎(chǔ)上,引入云存儲技術(shù),將分布在網(wǎng)絡(luò)中的數(shù)據(jù)倉庫、數(shù)據(jù)庫、文件存儲系統(tǒng)等不同類型的存儲設(shè)備“聯(lián)合”在一起,利用云存儲的分布式存取和存儲節(jié)點可動態(tài)擴展的技術(shù)優(yōu)勢,以及云存儲服務(wù)端提供的數(shù)據(jù)備份、容災(zāi)處理、數(shù)據(jù)加密等安全保障機制,實現(xiàn)對海量歸檔政府網(wǎng)頁資源的實時動態(tài)存儲和長期安全保存。
(四)訪問利用
訪問利用是政府網(wǎng)站網(wǎng)頁在線歸檔要完成的最后一個環(huán)節(jié),這既是歸檔的最終目的,也是歸檔的價值所在。通??梢蕴峁┮韵聨追N服務(wù)方式,來將歸檔的政府網(wǎng)頁提供給用戶使用。一是檢索查詢。瀏覽檢索是用戶訪問和獲取存儲資源的基本服務(wù),為了方便用戶快速、準確地找到所需的資源,需要提供功能完善的檢索系統(tǒng)。二是網(wǎng)頁還原??衫镁W(wǎng)頁重現(xiàn)技術(shù)將歸檔存儲的網(wǎng)頁內(nèi)容以其原有的樣貌呈現(xiàn)給用戶,即當用戶訪問政府網(wǎng)站遇到網(wǎng)頁無法鏈接或無法顯示等錯誤信息時,將被自動定向到對應(yīng)的歸檔網(wǎng)頁鏈接地址,以還原歸檔網(wǎng)頁的原始內(nèi)容。三是決策參考。利用大數(shù)據(jù)分析、Web挖掘等技術(shù)對歸檔的海量政府網(wǎng)頁進行深度的數(shù)據(jù)挖掘,獲取隱含其中的有用知識,為用戶決策提供參考。四是可視化分析。利用數(shù)據(jù)可視化組件、工具和技術(shù),將歸檔存儲的海量政府網(wǎng)頁數(shù)據(jù)分析結(jié)果以可視化圖形或圖像的形式呈現(xiàn)。
云計算是在網(wǎng)格計算、分布式計算、并行計算的基礎(chǔ)上發(fā)展形成的一種新的計算模式,其核心思想是遵循數(shù)據(jù)資源即服務(wù)(DaaS)、軟件即服務(wù)(SaaS)、基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)、創(chuàng)新管理即服務(wù)(MaaS)、渠道即服務(wù)(CaaS)等新生的服務(wù)理念,利用先進的網(wǎng)絡(luò)技術(shù)整合大量計算、存儲等IT資源,通過對IT資源的集成共享與便捷利用,使終端用戶擺脫煩瑣的資源管理和系統(tǒng)建設(shè),只需專注于業(yè)務(wù)。[8]基于云計算的思想,政府網(wǎng)站網(wǎng)頁歸檔的邏輯體系可以分為云技術(shù)、云業(yè)務(wù)、云服務(wù)三個層次,如圖1所示。
(一)云技術(shù)
利用虛擬化技術(shù)和分布式資源調(diào)度程序?qū)⒎?wù)器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備、安全防護設(shè)備等硬件資源連接起來,并進行邏輯分割,形成可以動態(tài)管理、統(tǒng)一調(diào)度的“資源池”,通過物理資源的集成共享,為政府網(wǎng)站網(wǎng)頁歸檔業(yè)務(wù)流程的實現(xiàn)提供所需的計算、存儲、服務(wù)等IT資源;進而通過整合政府網(wǎng)頁歸檔所需的基礎(chǔ)設(shè)施、平臺及軟硬件資源,使歸檔工作專注于網(wǎng)頁采集、數(shù)據(jù)管理、資源存儲、訪問利用等業(yè)務(wù)操作和管理,而非歸檔系統(tǒng)的構(gòu)建和維護,實現(xiàn)政府網(wǎng)站網(wǎng)頁歸檔系統(tǒng)的云端部署與自由訪問。
(二)云業(yè)務(wù)
參照電子文件歸檔的相關(guān)標準規(guī)范,對政府網(wǎng)站網(wǎng)頁歸檔的業(yè)務(wù)流程進行拆分和封裝,使業(yè)務(wù)流程具備可復制、可重組和可遷移的特性。在此基礎(chǔ)上,采用基于彈性部署的云計算業(yè)務(wù)處理中間件及其提供的API接口,通過數(shù)據(jù)交互、資源共享、動態(tài)拓展、智能運作等方式實現(xiàn)政府網(wǎng)站網(wǎng)頁歸檔相關(guān)應(yīng)用程序的整合,并對云技術(shù)支撐的網(wǎng)頁采集管理、元數(shù)據(jù)管理、保存策略管理、數(shù)據(jù)安全管理、訪問利用管理等業(yè)務(wù)邏輯實施協(xié)同管理,從而實現(xiàn)政府網(wǎng)頁歸檔流程的業(yè)務(wù)協(xié)同與云端處理。
(三)云服務(wù)
對政府網(wǎng)站網(wǎng)頁歸檔的體系結(jié)構(gòu)與業(yè)務(wù)流程進行解構(gòu)、標準化,在云技術(shù)與云業(yè)務(wù)支持下,重塑政府網(wǎng)頁歸檔的資源組織、流程部署和管理方式,使其可以實現(xiàn)按需彈性調(diào)度和分配。同時通過構(gòu)建面向終端服務(wù)的瀏覽器/服務(wù)器模式,解決“云端”用戶獲取系統(tǒng)提供的各項業(yè)務(wù)功能服務(wù)問題?;谠撃J娇蓪⑾到y(tǒng)應(yīng)用程序的流程管理、資源分配、業(yè)務(wù)處理、數(shù)據(jù)存取等操作集中在云業(yè)務(wù)層進行處理。用戶利用各種終端設(shè)備,通過瀏覽器即可獲得相應(yīng)的網(wǎng)頁采集、管理、保存、利用等業(yè)務(wù)服務(wù)。
(一)平臺構(gòu)建的思路
目前學術(shù)界關(guān)于云環(huán)境下數(shù)字資源歸檔系統(tǒng)的構(gòu)建主要借鑒OAIS模型的分層思想對系統(tǒng)進行設(shè)計,[9][10][11]這種思路是按照OAIS模型的功能實體與云計算服務(wù)體系結(jié)構(gòu)之間的邏輯映射關(guān)系來設(shè)計的。該思路的層級維度比較清晰,可較為系統(tǒng)地反映數(shù)字資源歸檔過程中各個環(huán)節(jié)的功能要素與業(yè)務(wù)流程。在實踐層面,國外已經(jīng)有存儲機構(gòu)將云計算應(yīng)用到網(wǎng)絡(luò)資源的長期保存中,并構(gòu)建了相應(yīng)的網(wǎng)絡(luò)服務(wù)平臺,F(xiàn)edorazon、DuraCloud是其中兩個有代表性的項目,這些平臺利用云環(huán)境下的各種服務(wù)資源實現(xiàn)了歸檔網(wǎng)絡(luò)資源的實時歸檔、全程控制、長期存取及創(chuàng)新服務(wù)功能,主要包括采集、保存、訪問、再利用和云分享等。以上這些理論研究與實踐探索成果為平臺的構(gòu)建提供了重要參考與指導。
(二)平臺的體系架構(gòu)
在以上研究內(nèi)容的基礎(chǔ)上,筆者根據(jù)云計算服務(wù)體系結(jié)構(gòu),參照國內(nèi)外相關(guān)的行業(yè)標準規(guī)范,結(jié)合上述政府網(wǎng)站網(wǎng)頁在線歸檔的業(yè)務(wù)流程,以及云環(huán)境下政府網(wǎng)站網(wǎng)頁歸檔的邏輯體系,設(shè)計如圖2所示的基于云計算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺的體系架構(gòu)。
1.基礎(chǔ)設(shè)施層。作為平臺建構(gòu)的基礎(chǔ),基礎(chǔ)設(shè)施層主要提供政府網(wǎng)站網(wǎng)頁在線歸檔各業(yè)務(wù)流程所需的網(wǎng)絡(luò)、計算、存儲等IT資源。該層利用虛擬化技術(shù)對現(xiàn)有的物理設(shè)備資源進行邏輯分割,形成可管理、可調(diào)度的虛擬IT資源,從而將一臺服務(wù)器上的資源,合理分配給多個虛擬服務(wù)器,通過物理資源的共享提高平臺的整體運作效率,保障平臺應(yīng)用層各類應(yīng)用程序的最佳運行狀態(tài)。同時由于操作系統(tǒng)與硬件環(huán)境相互獨立,使得隸屬于不同操作系統(tǒng)的虛擬機,可以在相同的物理環(huán)境下獨立運行,從而方便各節(jié)點資源的全面互聯(lián)與統(tǒng)一調(diào)度管理,以實現(xiàn)較高的計算性能,滿足政府網(wǎng)頁在線歸檔不斷增長的計算與存儲需要。
2.平臺層。該層作為整個平臺的核心部分,包含數(shù)據(jù)庫與業(yè)務(wù)邏輯兩個部分。為了有效應(yīng)對政府網(wǎng)頁存檔面臨的海量存儲及存檔數(shù)據(jù)的高效存取問題,該層基于分布式數(shù)據(jù)存儲管理系統(tǒng),應(yīng)用數(shù)據(jù)訪問組件,為政府網(wǎng)站網(wǎng)頁采集、管理、保存、利用等業(yè)務(wù)功能的實現(xiàn)提供相應(yīng)數(shù)據(jù)庫的數(shù)據(jù)存取服務(wù)。平臺層還提供應(yīng)用程序運行、監(jiān)管與維護等相關(guān)的服務(wù),包括中間件管理、元數(shù)據(jù)管理、格式轉(zhuǎn)換、數(shù)據(jù)封裝、策略管理、數(shù)據(jù)檢查、備份恢復、遷移管理、安全控制和歸檔管理等。此外,該層所提供的API接口能夠?qū)崿F(xiàn)現(xiàn)有應(yīng)用程序的整合以及新應(yīng)用程序的加載,進而可支撐整個平臺應(yīng)用功能的擴展。
3.應(yīng)用層。該層以人機交互接口的形式為用戶提供政府網(wǎng)站網(wǎng)頁歸檔涉及的信息采集、數(shù)據(jù)管理、資源保存、訪問利用等各項業(yè)務(wù)相關(guān)的服務(wù)內(nèi)容。應(yīng)用層的主要作用就是將平臺層中的各種業(yè)務(wù)功能和各類數(shù)據(jù)庫中存儲的政府網(wǎng)頁數(shù)據(jù)以統(tǒng)一的人機交互方式呈現(xiàn)給用戶,通過為用戶提供簡單便捷的操作界面,方便用戶獲取所需的服務(wù)信息。同時,該層還提供可擴展的應(yīng)用服務(wù)接口以及用戶管理、權(quán)限管理等通用的管理服務(wù),并根據(jù)需要為不同類型用戶提供相應(yīng)的應(yīng)用接口,實現(xiàn)平臺的差異化功能服務(wù)。
4.表現(xiàn)層。表現(xiàn)層是平臺的最后一層,也被稱作門戶平臺,它直接面向用戶提供各類Web服務(wù),用戶可以利用各種聯(lián)網(wǎng)的終端設(shè)備登錄平臺門戶網(wǎng)站,通過瀏覽器即可在權(quán)限允許的范圍內(nèi)直接訪問平臺應(yīng)用層提供的各種服務(wù),獲取平臺層數(shù)據(jù)庫中存儲的信息。而且與傳統(tǒng)的網(wǎng)絡(luò)平臺不同,該平臺的表現(xiàn)層可以利用云計算高效的數(shù)據(jù)處理能力,將復雜的計算交由云端處理,極大降低了平臺對終端設(shè)備的要求。這樣用戶所使用的訪問設(shè)備只需具備簡單的交互功能即可獲得快速的平臺服務(wù)響應(yīng),從而能夠擁有良好的訪問體驗。
(三)平臺的功能模塊
與傳統(tǒng)的數(shù)字資源長期保存系統(tǒng)一樣,基于云計算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺也同樣具備采集、管理、保存、利用等基本業(yè)務(wù)功能。
1.云上在線采集功能模塊。該模塊利用能夠兼容多種數(shù)據(jù)格式的云端數(shù)據(jù)采集接口,基于一站式云服務(wù)模式,在線完成對政府網(wǎng)站上的文本、圖像、音頻、視頻等不同類型網(wǎng)頁資源的采集任務(wù),對采集獲取的網(wǎng)頁資源進行統(tǒng)一格式轉(zhuǎn)換處理,將其批量保存到采集數(shù)據(jù)庫中。該模塊通過新增監(jiān)控與變動監(jiān)控實時更新獲取目標政府網(wǎng)站的最新數(shù)據(jù),確保網(wǎng)頁采集的質(zhì)量。同時采用數(shù)據(jù)加密、安全傳輸協(xié)議等方法保證網(wǎng)頁傳輸安全,確保網(wǎng)頁數(shù)據(jù)真實、完整、可信和可用。
2.云下數(shù)據(jù)管理功能模塊。該模塊主要包括內(nèi)容管理與元數(shù)據(jù)管理兩大功能。其中內(nèi)容管理的功能是對云端在線采集獲取的各類政府網(wǎng)頁進行線下的分類、著錄、標引、編目、鑒定整理,即按照設(shè)定的分類方案,對采集獲取的海量政府網(wǎng)頁進行自動分類,然后將添加元數(shù)據(jù)描述信息的政府網(wǎng)頁保存到相應(yīng)的管理數(shù)據(jù)庫。元數(shù)據(jù)管理的功能則是通過確定元數(shù)據(jù)元素以及元數(shù)據(jù)的格式,明確政府網(wǎng)頁內(nèi)容、結(jié)構(gòu)、背景和管理過程等信息與元數(shù)據(jù)之間的關(guān)系,在相關(guān)元數(shù)據(jù)之間建立聯(lián)系,實現(xiàn)元數(shù)據(jù)信息的序化組織,確保政府網(wǎng)頁信息能夠長期可利用。
3.云中資源保存功能模塊。該模塊基于云存儲動態(tài)易擴展的技術(shù)特性,通過調(diào)用云存儲服務(wù)端的應(yīng)用程序,對其存儲集群中相應(yīng)數(shù)據(jù)庫進行數(shù)據(jù)的插入、刪除、修改等操作,實現(xiàn)對海量政府網(wǎng)頁資源的實時動態(tài)歸檔保存。此外,該模塊還具備存儲數(shù)據(jù)的云備份、云遷移等功能,能夠根據(jù)存儲數(shù)據(jù)的更新情況,利用云存儲數(shù)據(jù)加密、云端數(shù)據(jù)隔離訪問、完整性驗證及可用性保護等方法,定期進行存儲數(shù)據(jù)的在線備份和遷移等處理,確保云環(huán)境下歸檔政府網(wǎng)頁數(shù)據(jù)的長期安全保存。
4.云端訪問利用功能模塊。該模塊以瀏覽器/服務(wù)器方式為用戶提供歸檔政府網(wǎng)站網(wǎng)頁的云端利用服務(wù)。通過該模塊,用戶可以通過瀏覽器直接訪問云平臺,在權(quán)限許可的范圍內(nèi),查詢、瀏覽、批量下載所需的歸檔政府網(wǎng)頁數(shù)據(jù),并能夠利用輔助決策的數(shù)據(jù)挖掘、數(shù)據(jù)分析等功能,實現(xiàn)對歸檔網(wǎng)頁信息的在線統(tǒng)計分析與深度挖掘。同時為了實現(xiàn)歸檔政府網(wǎng)頁資源的開放共享和高效利用,該模塊為用戶之間及用戶與管理員之間提供了在線交流的機制,進而實現(xiàn)資源共享、參考咨詢等多種服務(wù)方式。
*本文為國家社會科學青年基金項目“基于云計算的政府網(wǎng)站網(wǎng)頁在線歸檔與開發(fā)利用研究”(項目編號:18CTQ040)研究成果之一。
注釋及參考文獻:
[1]國務(wù)院辦公廳.國務(wù)院辦公廳印發(fā)《政府網(wǎng)站發(fā)展指引》[EB/OL].[2019- 07- 23].http://www.gov.cn/ zhengce/content/2017-06/08/content_5200760.htm.
[2]王萍,黃新平,陳為東,等.政府網(wǎng)站原生數(shù)字政務(wù)信息云歸檔模型及策略研究[J].情報理論與實踐,2016,39(4):60-65.
[3]王熹.網(wǎng)站文件歸檔問題的若干思考[J].中國檔案, 2017(10):68-69.
[4] The Consultative Committee for Space Data Sys? tems. OAIS Reference Model [EB/OL].[2019- 07- 28]. https://public.ccsds.org/pubs/650x0m2.pdf.
[5]李宗富,黃新平.基于5W2H視角的政府網(wǎng)站信息存檔研究[J].檔案學通訊,2016(2):68-72.
[6]何歡歡.政府網(wǎng)站信息資源保存體系研究[D].武漢:武漢大學,2010.
[7]黃新平.基于集體智慧的政府社交媒體文件檔案化管理研究[J].北京檔案,2016(11):12-15.
[8]牛力,韓小汀.云計算環(huán)境下的檔案信息資源整合與服務(wù)模式研究[J].檔案學研究,2013(5):26-29.
[9]劉準.政府網(wǎng)絡(luò)信息存檔策略研究及系統(tǒng)實現(xiàn)[J].中國檔案,2017(12):60-61.
[10]Yan Han. Cloud storage for digital preservation: optimal uses of Amazon S3 and Glacier[J].Library Hi Tech, 2015, 33(2): 261-271.
[11]Mcleod J, Gormly B. Using the cloud for records storage: issues of trust[J]. Archival Science, 2017, 17(2):1-22.
作者單位:清華大學公共管理學院