石華
摘 要:本文介紹了政府網(wǎng)站歸檔的背景,指出網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實(shí)現(xiàn)電子政府的唯一真實(shí)的方法,網(wǎng)站歸檔應(yīng)該盡量歸檔網(wǎng)站上的所有內(nèi)容。介紹了鄭州市檔案局館對(duì)于政府網(wǎng)站歸檔工作進(jìn)行試點(diǎn)的實(shí)踐,包括選擇歸檔范圍、確定歸檔時(shí)間,介紹了兩種歸檔技術(shù):直接轉(zhuǎn)移和遠(yuǎn)程采集,并介紹了網(wǎng)站存檔格式WARC文件格式。
關(guān)鍵詞:網(wǎng)站歸檔;政府網(wǎng)站;WARC
1 網(wǎng)站歸檔的背景
互聯(lián)網(wǎng)給檔案工作者帶來了許多理論和實(shí)踐問題。例如,政府網(wǎng)站本身就是電子文件,還是政府網(wǎng)站包含著電子文件?政府網(wǎng)站只是發(fā)布信息的平臺(tái)嗎?換句話說,政府網(wǎng)站本身僅僅是另一種出版物嗎?隨著網(wǎng)絡(luò)、設(shè)備、應(yīng)用的不斷變化,許多政府網(wǎng)站已經(jīng)變成了政府和公眾信息交流的平臺(tái)。由此,政府網(wǎng)站已經(jīng)具備了出版物和文件的雙重屬性。
在2014年以前,國(guó)內(nèi)很少有檔案部門考慮將網(wǎng)站內(nèi)容納入歸檔范圍。2014年,楊冬權(quán)局長(zhǎng)表示要啟動(dòng)為各級(jí)國(guó)家政府網(wǎng)站網(wǎng)頁存檔工作,那就對(duì)檔案部門提出了一個(gè)問題:是將政府網(wǎng)站本身作為一個(gè)文件歸檔,還是將其中的某些網(wǎng)頁作為文件歸檔呢?過去檔案人員一般認(rèn)為網(wǎng)站并不是文件,而是包含有文件。根據(jù)《電子檔案術(shù)語》中對(duì)電子文件的定義:“電子文件是國(guó)家機(jī)構(gòu)、社會(huì)組織或個(gè)人在履行其法定職責(zé)或處理事務(wù)過程中,通過計(jì)算機(jī)等電子設(shè)備形成、辦理、傳輸和存儲(chǔ)的各種形式的信息記錄。”如果政府部門通過網(wǎng)站處理事務(wù),如果用戶在做決策時(shí)參考了它們,或者如果網(wǎng)站有動(dòng)態(tài)的信息交流,或者如果網(wǎng)站的內(nèi)容、功能和用戶記錄具有文件保存價(jià)值,那么,網(wǎng)站就包含著電子文件。
英國(guó)國(guó)家檔案館對(duì)網(wǎng)站文件最初管理方法是運(yùn)用風(fēng)險(xiǎn)管理方法識(shí)別網(wǎng)站中哪些內(nèi)容屬于機(jī)構(gòu)文件,然后確定保管方法,制定管理策略及程序。這種方法僅僅保存網(wǎng)站數(shù)據(jù),而不是整個(gè)網(wǎng)站,存在信息資源丟失的風(fēng)險(xiǎn)。近年來檔案界開始改變對(duì)網(wǎng)站的看法,不再將網(wǎng)站僅僅看做文件保存的地方,而將網(wǎng)站本身看做文件,認(rèn)為網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實(shí)現(xiàn)電子政府的唯一真實(shí)方法,網(wǎng)站歸檔應(yīng)該歸檔網(wǎng)站上所有內(nèi)容。
2 鄭州市檔案局館對(duì)政府網(wǎng)站歸檔備份工作的實(shí)踐
2015年,河南省鄭州市檔案局館決定對(duì)政府網(wǎng)站歸檔工作進(jìn)行試點(diǎn)。
2.1 確定網(wǎng)站歸檔范圍。在決定收集政府網(wǎng)站之后,我們必須弄清要收集哪些網(wǎng)站。和建立紙質(zhì)文件歸檔范圍一樣,鄭州市檔案局館制定了一個(gè)收集標(biāo)準(zhǔn)來規(guī)定哪些網(wǎng)站需要永久保存。我們決定歸檔以gov.cn結(jié)尾的鄭州市所有政府部門、機(jī)關(guān)單位的網(wǎng)站。許多政府網(wǎng)站更新相對(duì)緩慢,對(duì)這些網(wǎng)站我們每6個(gè)月收集一次,對(duì)有些更新較快的網(wǎng)站我們可定為每周收集一次,在網(wǎng)站升級(jí)改版的時(shí)候必須收集。我們還可根據(jù)公眾要求收集某些網(wǎng)站,根據(jù)重大事件的發(fā)生靈活調(diào)整網(wǎng)站收集范圍。
2.2 網(wǎng)站歸檔保存方案。目前,政府所面臨的大部分問題都涉及多個(gè)部門。未來的人們?nèi)绻肓私猬F(xiàn)在的一些事情,僅僅參考某一個(gè)政府部門網(wǎng)站是遠(yuǎn)遠(yuǎn)不夠的,需要利用多個(gè)相關(guān)的政府部門、非政府組織和個(gè)人的網(wǎng)站資源。顯然,保存網(wǎng)站是一個(gè)跨部門的綜合課題,需要集思廣益。方案之一便是互聯(lián)網(wǎng)檔案館(www.archive.org)現(xiàn)在使用的模式,由某一個(gè)檔案館負(fù)責(zé)保存所有的網(wǎng)站。另一種方案是由不同的檔案館分級(jí)收集各自管理范圍內(nèi)的網(wǎng)站。最后一種方案就是按需收集。組織一些檔案館就某個(gè)專題、某重大事件進(jìn)行網(wǎng)站收集,如世博會(huì)或天津大爆炸事件。總之,保存網(wǎng)站的最終方案也許是上述幾種方案的結(jié)合。
2.3 網(wǎng)站歸檔保存技術(shù)。收集網(wǎng)站所需使用的技術(shù)也是多種多樣的。這些技術(shù)可以粗略地分為兩大類:直接轉(zhuǎn)移和遠(yuǎn)程采集。從概念上來講,收集網(wǎng)站資源最簡(jiǎn)單的方法就是直接拷貝原數(shù)據(jù)。這種方法需要網(wǎng)站所有者的合作,允許我們直接訪問網(wǎng)站服務(wù)器,從服務(wù)器上拷貝整個(gè)網(wǎng)站的所有文件,并將這些文件轉(zhuǎn)移到網(wǎng)站保存機(jī)構(gòu)。我們可以使用可移動(dòng)存儲(chǔ)介質(zhì)轉(zhuǎn)移數(shù)據(jù),也可以在線收集。
這種方法相當(dāng)于在檔案館網(wǎng)站服務(wù)器上重新搭建并復(fù)制了一個(gè)網(wǎng)站,只是網(wǎng)站內(nèi)容被定格在某一天。這種方法最大的優(yōu)點(diǎn)是通過精確復(fù)制原網(wǎng)站的內(nèi)容保證了對(duì)原有網(wǎng)站最真實(shí)的拷貝??蛇@種方法仍然存在潛在的弊端。首先,這種方法非常耗費(fèi)時(shí)間,并且技術(shù)十分復(fù)雜,需要再次安裝一個(gè)完整的資源管理系統(tǒng),同時(shí)還要關(guān)閉某些網(wǎng)站內(nèi)容,如日期顯示和計(jì)數(shù)器等。顯然這種方法并不適合大規(guī)模保存網(wǎng)站。其次,還必須保持原有的技術(shù)架構(gòu)來支持網(wǎng)站,而這種技術(shù)架構(gòu)可能已經(jīng)與現(xiàn)在網(wǎng)站的架構(gòu)不同了。我們希望歸檔的目標(biāo)網(wǎng)站應(yīng)用了各種不同的網(wǎng)站服務(wù)器軟件、搜索引擎、數(shù)據(jù)庫(kù)技術(shù)和內(nèi)容管理系統(tǒng),由某一家機(jī)構(gòu)來實(shí)現(xiàn)這些技術(shù)的整合是行不通的。因此,這種方法適用于收集比較簡(jiǎn)單、數(shù)據(jù)性的網(wǎng)站,并且是能夠跨平臺(tái)運(yùn)行的網(wǎng)站。檔案館目前僅針對(duì)這類特殊的網(wǎng)站利用這種直接轉(zhuǎn)移的方法進(jìn)行收集,尤其是對(duì)那些生命周期較短的網(wǎng)站進(jìn)行一次性復(fù)制。
當(dāng)我們要收集大量網(wǎng)站的時(shí)候,我們就會(huì)使用遠(yuǎn)程采集技術(shù)。使用網(wǎng)頁爬蟲軟件來模擬網(wǎng)絡(luò)瀏覽器,從而實(shí)現(xiàn)對(duì)網(wǎng)站的遠(yuǎn)程采集。頁面采集列表向網(wǎng)頁爬蟲傳達(dá)采集指令。首先,網(wǎng)頁爬蟲向網(wǎng)站服務(wù)器發(fā)出訪問請(qǐng)求,訪問列表上的第一個(gè)頁面并進(jìn)行復(fù)制保存。網(wǎng)頁爬蟲會(huì)識(shí)別該頁面所有的超鏈接并將這些鏈接加入到采集列表。網(wǎng)頁爬蟲通過循環(huán)記錄每個(gè)頁面的超鏈接,實(shí)現(xiàn)對(duì)整個(gè)網(wǎng)站所有頁面的采集。這個(gè)采集程序通常是由一些參數(shù)控制的,如網(wǎng)頁爬蟲所跟蹤超鏈接級(jí)數(shù),這個(gè)參數(shù)可以對(duì)采集的范圍進(jìn)行界定。檔案部門在操作篩選政策時(shí),可以注明要收集哪些網(wǎng)站,以多長(zhǎng)時(shí)間為周期對(duì)網(wǎng)站進(jìn)行采集。網(wǎng)站回溯器提供了一個(gè)便捷且新穎的訪問方式,即重寫目標(biāo)網(wǎng)站所有的超文本鏈接,而非直接指向原始網(wǎng)站。通過這些重寫的鏈接地址,用戶可以在檔案館的系統(tǒng)中瀏覽當(dāng)時(shí)的網(wǎng)站內(nèi)容。
遠(yuǎn)程采集技術(shù)主要優(yōu)勢(shì)在于能夠高效率和低成本地采集大量網(wǎng)站,各網(wǎng)站數(shù)據(jù)進(jìn)入一個(gè)總后臺(tái),可以跨網(wǎng)站檢索。但也有一些缺點(diǎn)。該技術(shù)明顯局限在于網(wǎng)頁爬蟲只能采集那些被鏈接內(nèi)容,而數(shù)據(jù)庫(kù)深層數(shù)據(jù)和那些只能通過搜索才能訪問的內(nèi)容卻不能被采集。該技術(shù)不能采集微博、微信等需登錄網(wǎng)站,不能采集音、視頻。該技術(shù)不是備份,不能恢復(fù)原網(wǎng)站。
2.4 網(wǎng)站歸檔的速度和文件大小。鄭州市檔案局采用遠(yuǎn)程采集技術(shù)采集政府網(wǎng)站,數(shù)據(jù)量增長(zhǎng)很快。因?yàn)榫W(wǎng)頁鏈接全部重寫,系統(tǒng)很難找到增量的點(diǎn),所以每次均全部采集,無法使用增量采集。舉例來說,采集鄭州市人民政府、鄭州檔案信息網(wǎng)等7家單位,耗時(shí)28小時(shí),采集網(wǎng)頁52萬頁,采集的文件大小共1.5G。鄭州市共約上百家政府網(wǎng)站,都采集下來,其存儲(chǔ)容量是驚人的。鄭州市檔案館存儲(chǔ)共60T左右,就算都存成政府網(wǎng)站,也存不了多長(zhǎng)時(shí)間??雌饋硎褂迷拼鎯?chǔ)是必需的方案了。
3 網(wǎng)站保存文件格式WARC介紹
鄭州市檔案局館保存的網(wǎng)站采用的存檔格式是WARC文件格式,但一般會(huì)壓縮成gz文件,分卷壓縮。WARC (Web Archiving File Format) 網(wǎng)絡(luò)存檔文件格式,2009年5月成為正式國(guó)際標(biāo)準(zhǔn),標(biāo)準(zhǔn)號(hào)為ISO 28500:2900。此格式是唯一面向網(wǎng)絡(luò)資源長(zhǎng)期保存的資源保存格式,WARC 格式具有軟件生態(tài)環(huán)境完善、內(nèi)容豐富、便于管理、易于擴(kuò)展、支持大容量文件保存等特點(diǎn),同時(shí)適合網(wǎng)絡(luò)資源和數(shù)字資源的長(zhǎng)期保存使用[1]。
WARC 文件可以使用的軟件:
(1)抓取軟件:目前最常用的兩種采集軟件是Heritrix 和GNUWget,面向用戶桌面的工具中常用的是WarcCreate 軟件。
(2)文件處理軟件:指以保存、交換等應(yīng)用為目的,對(duì)WARC文件進(jìn)行處理的軟件,包括格式驗(yàn)證、切割、組合、元數(shù)據(jù)抽取等。
(3)索引、檢索與訪問軟件:可對(duì)WARC文件進(jìn)行索引,用于檢索,并提供檢索界面,響應(yīng)用戶的檢索請(qǐng)求,將檢索結(jié)果在瀏覽器中呈現(xiàn)給用戶。常用Nutchwax、Wayback Machine、Solr 和Momento。
(4)綜合管理軟件:集成了采集、管理、索引和發(fā)布等流程,便于保存機(jī)構(gòu)快速開展網(wǎng)絡(luò)存檔活動(dòng)。其中較知名的是新西蘭和英國(guó)圖書館開發(fā)的Web Curator Tools和荷蘭圖書館開發(fā)的NetArchiveSuite。
截至2014 年7 月,英國(guó)圖書館互聯(lián)網(wǎng)存檔項(xiàng)目已經(jīng)保存了24TB 的網(wǎng)絡(luò)資源,法國(guó)國(guó)家圖書館保存了450TB的網(wǎng)絡(luò)資源,澳大利亞圖書館的Pandora項(xiàng)目數(shù)據(jù)量也達(dá)到了12. 22TB。這些資源都以WARC格式保存。美國(guó)國(guó)家檔案館發(fā)布的文件進(jìn)館格式指南,也將WARC文件格式列為可接受格式[2]。鄭州市檔案局館進(jìn)行政府網(wǎng)站存檔工作,也采用這一格式,這是符合國(guó)際潮流的。
參考文獻(xiàn):
[1]曲云鵬.網(wǎng)絡(luò)存檔文件格式WARC研究[J].圖書館學(xué)研究,2014(24):20~28.
[2]http://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords
(作者單位:鄭州市檔案局 來稿日期:2015-10-20)