趙屹
摘 要 對(duì)政府網(wǎng)頁(yè)進(jìn)行歸檔是英、美、加三國(guó)國(guó)家檔案館工作的重要內(nèi)容。網(wǎng)頁(yè)歸檔是一個(gè)過(guò)程,所歸的網(wǎng)頁(yè)具有檔案性質(zhì)并保存在存檔系統(tǒng)中。三個(gè)國(guó)家檔案館都發(fā)布了網(wǎng)頁(yè)歸檔的法規(guī),都進(jìn)行了主體的拓展與合作。其歸檔范圍不僅包括從內(nèi)容上鑒定歸檔的廣度,還包括從技術(shù)上鑒定歸檔的深度。社交媒體上政府網(wǎng)頁(yè)的歸檔是歸檔范圍之一。三個(gè)國(guó)家檔案館政府網(wǎng)頁(yè)歸檔的時(shí)間有所不同,但歸檔程序大致相同,利用的主要途徑是關(guān)鍵詞檢索、機(jī)構(gòu)列表與URL列表。
關(guān)鍵詞 國(guó)家檔案館 政府 網(wǎng)頁(yè)歸檔 比較 英國(guó) 美國(guó) 加拿大
Abstract Government web page archiving is an important part of the work of the National Archives in UK, USA and Canada. Web page archiving is a process in which the web pages are archived and stored in an archiving system. All three national archives have issued regulations for web page archiving, and all of them have expanded and cooperated. The scope of web page archiving includes not only the breadth of archiving in terms of content, but also the depth of the archiving in terms of technologies. The government web pages on social media are within the scope of archiving. The time of the government web page archiving of the three national archives varies, but the archiving process is roughly the same. The main ways are keyword search, organization list and URL list.
Keyword national archives; government; web page archiving; comparison; UK; USA; Canada
網(wǎng)絡(luò)即世界。隨著電子化、信息化的深入發(fā)展,人類社會(huì)的信息傳播與信息獲取大量轉(zhuǎn)向網(wǎng)絡(luò),記載人類社會(huì)真實(shí)面貌的信息載體也日漸從紙張轉(zhuǎn)向網(wǎng)絡(luò)信息載體。此時(shí),“一些新型的電子文件已經(jīng)一浪接一浪地涌現(xiàn)并且?guī)?lái)了新的歸檔需求,產(chǎn)生新型的歸檔對(duì)象”[1]。網(wǎng)頁(yè)就是新型歸檔對(duì)象之一。1996年,美國(guó)的IA(Internet Archive)率先對(duì)網(wǎng)頁(yè)進(jìn)行保存,被譽(yù)為世界范圍內(nèi)“第一個(gè)Web Archive實(shí)踐項(xiàng)目”。IA是由布魯斯特·卡利創(chuàng)立的公益網(wǎng)站。其功能是用卡利開發(fā)的收集工具定期收錄(harvest,又譯為“收割”)全球網(wǎng)站的信息并進(jìn)行保存。目標(biāo)是“實(shí)現(xiàn)全世界Web資源的收集、保存和永久獲取”[2]。此后,Web Archive項(xiàng)目風(fēng)起云涌,在世界各地如雨后春筍般出現(xiàn)。Web Archive項(xiàng)目主體多元,許多是以圖書館為主導(dǎo),包括國(guó)家圖書館及大學(xué)圖書館。此外,還有高校、研究所、企業(yè)、非盈利組織、學(xué)術(shù)團(tuán)體、網(wǎng)站制作者等。許多Web Archive(后文均譯為“網(wǎng)頁(yè)歸檔”)項(xiàng)目雖然記錄了網(wǎng)絡(luò)世界早期的樣貌,記錄了人類的文化文本,但其保存的內(nèi)容魚龍混雜,真正具有檔案價(jià)值的比例并不高。它們雖以“歸檔(Archive)”命名,但卻是對(duì)“歸檔”一詞的泛化,很多網(wǎng)絡(luò)信息并不值得保存。
那么,究竟什么樣的網(wǎng)絡(luò)信息更“值得”保存?答案也許很多,政府網(wǎng)頁(yè)必是其中之一。隨著社會(huì)的進(jìn)步,網(wǎng)絡(luò)成為政府信息發(fā)布的重要渠道、政務(wù)事項(xiàng)辦理的重要窗口、政民交流的重要平臺(tái)。許多政府網(wǎng)頁(yè)具備檔案的基本屬性和保存價(jià)值,是網(wǎng)絡(luò)時(shí)代的新型歸檔對(duì)象,也應(yīng)該是網(wǎng)頁(yè)歸檔的主要客體。針對(duì)政府網(wǎng)頁(yè)這個(gè)客體,歸檔主體由誰(shuí)承擔(dān)?有研究者指出,圖書館并非政府網(wǎng)頁(yè)保存的最佳責(zé)任主體,“信息形成者是政府網(wǎng)頁(yè)短期保存的責(zé)任者”,“研究機(jī)構(gòu)將是未來(lái)政府網(wǎng)頁(yè)保存的重要補(bǔ)充”,“國(guó)家檔案館在政府網(wǎng)頁(yè)保存上具有天然優(yōu)勢(shì),是政府網(wǎng)頁(yè)保存義不容辭的責(zé)任主體”[3]。
本文選擇英、美、加三國(guó)的國(guó)家檔案館,對(duì)其開展的政府網(wǎng)頁(yè)歸檔項(xiàng)目進(jìn)行比較研究。
一、國(guó)家檔案館政府網(wǎng)頁(yè)歸檔項(xiàng)目基本情況
英國(guó)政府的互聯(lián)網(wǎng)網(wǎng)站始建于1996年。英國(guó)國(guó)家檔案館(TNA)對(duì)政府網(wǎng)頁(yè)歸檔問題關(guān)注起步也比較早。1997年,英國(guó)國(guó)家檔案館與倫敦大學(xué)計(jì)算機(jī)中心數(shù)字檔案館(ULCC Digital Archives)合作建設(shè)國(guó)家數(shù)字檔案數(shù)據(jù)集(National Digital Archive of Datasets,簡(jiǎn)稱NDAD),將包括網(wǎng)頁(yè)在內(nèi)的政府部門數(shù)字信息作為數(shù)據(jù)歸檔保存并向社會(huì)開放利用。該項(xiàng)目一直持續(xù)至2010年[4]。2003年9月,英國(guó)國(guó)家檔案館又專門開展英國(guó)政府網(wǎng)頁(yè)歸檔(UK Government Web Archive,簡(jiǎn)稱UKGWA)項(xiàng)目,將英國(guó)中央政府網(wǎng)站歸檔保存。當(dāng)前,UKGWA是世界上最大、使用最頻繁的網(wǎng)頁(yè)歸檔項(xiàng)目之一[5]。
美國(guó)國(guó)家檔案局(館)(NARA)通過(guò)建設(shè)國(guó)會(huì)與聯(lián)邦政府網(wǎng)頁(yè)收錄(CONGRESSIONAL & FEDERAL Government Web Harvests,本文簡(jiǎn)稱其為CFGWH)項(xiàng)目對(duì)國(guó)會(huì)和聯(lián)邦政府的網(wǎng)頁(yè)進(jìn)行歸檔。NARA對(duì)聯(lián)邦政府的網(wǎng)頁(yè)歸檔始于2004年,對(duì)國(guó)會(huì)的網(wǎng)頁(yè)歸檔始于2006年[6]。
加拿大國(guó)家圖書檔案館(LAC)自2005年12月開始建設(shè)加拿大政府網(wǎng)頁(yè)歸檔(the Government of Canada Web Archive,簡(jiǎn)稱GCWA)項(xiàng)目,對(duì)加拿大聯(lián)邦政府的網(wǎng)頁(yè)進(jìn)行歸檔保存[7]。
二、國(guó)家檔案館對(duì)網(wǎng)頁(yè)歸檔的理解
英國(guó)國(guó)家檔案館認(rèn)為網(wǎng)頁(yè)歸檔與紙質(zhì)檔案、羊皮紙檔案等傳統(tǒng)檔案歸檔一樣是一個(gè)過(guò)程。它是從互聯(lián)網(wǎng)上收集含有有效信息資源的網(wǎng)頁(yè),以檔案形式保存的過(guò)程。它對(duì)網(wǎng)絡(luò)信息資源進(jìn)行選擇、存儲(chǔ)和保管,并使之可以被永久地獲取和利用[8]。
美國(guó)國(guó)家檔案局(館)將網(wǎng)頁(yè)歸檔命名為網(wǎng)頁(yè)收錄,也稱為網(wǎng)頁(yè)挖掘、網(wǎng)頁(yè)抓取和網(wǎng)頁(yè)爬取,認(rèn)為它是從萬(wàn)維網(wǎng)頁(yè)面和數(shù)據(jù)中自動(dòng)地復(fù)制和組織非結(jié)構(gòu)化信息的過(guò)程。在這個(gè)過(guò)程中,那些預(yù)收錄的網(wǎng)頁(yè)地址以URL“種子列表”的形式被標(biāo)識(shí)。由此,這些網(wǎng)頁(yè)地址所存或所鏈接的內(nèi)容就被通過(guò)標(biāo)識(shí)網(wǎng)址得以被捕獲和復(fù)制[9]。
加拿大國(guó)家圖書檔案館認(rèn)為網(wǎng)頁(yè)歸檔是對(duì)萬(wàn)維網(wǎng)上發(fā)布的數(shù)據(jù)進(jìn)行獲取、存儲(chǔ),在存檔系統(tǒng)中保存,并使收集的數(shù)據(jù)對(duì)未來(lái)研究可用的過(guò)程。記憶機(jī)構(gòu)和私人組織在國(guó)際范圍內(nèi)均可實(shí)踐該過(guò)程,以安全保管出自萬(wàn)維網(wǎng)的文獻(xiàn)遺產(chǎn)[10]。
三、國(guó)家檔案館政府網(wǎng)頁(yè)歸檔的法規(guī)依據(jù)
三國(guó)國(guó)家檔案館執(zhí)行網(wǎng)頁(yè)歸檔都有明確法規(guī)依據(jù)。
英國(guó)國(guó)家檔案館執(zhí)行網(wǎng)頁(yè)歸檔的依據(jù)主要是該館2012年l1月發(fā)布的《檔案收集政策》(Records Collection Policy)和2014年4月發(fā)布的《操作可選政策第27則:英國(guó)中央政府網(wǎng)頁(yè)資產(chǎn)》(簡(jiǎn)稱OSP27)?!稒n案收集政策》明確了保存在英國(guó)國(guó)家檔案館中的永久檔案的歸檔范圍、歸檔時(shí)間和保存地點(diǎn)。英國(guó)國(guó)家檔案館有一系列操作可選政策用于公共檔案的收集。其中,OSP27正式對(duì)政府機(jī)構(gòu)網(wǎng)頁(yè)歸檔項(xiàng)目的范圍和內(nèi)容做出規(guī)范和說(shuō)明。
美國(guó)國(guó)家檔案局(館)執(zhí)行網(wǎng)頁(yè)歸檔的依據(jù)主要是2005年1月該局(館)發(fā)布的《NARA網(wǎng)頁(yè)檔案管理指南》。指南包括一般背景、職責(zé)和要求,管理網(wǎng)頁(yè)檔案,網(wǎng)頁(yè)檔案保管期限表,附件四個(gè)部分。它將歸檔后的政府網(wǎng)頁(yè)稱為網(wǎng)頁(yè)檔案,并且明確了聯(lián)邦機(jī)構(gòu)使用網(wǎng)頁(yè)的各種途徑,機(jī)構(gòu)成員在網(wǎng)頁(yè)操作中的角色,管理網(wǎng)頁(yè)地址基本的法定要求,機(jī)構(gòu)成員如何管理其網(wǎng)頁(yè)檔案,網(wǎng)頁(yè)檔案保管期限表的制定,負(fù)責(zé)網(wǎng)頁(yè)內(nèi)容的計(jì)劃官員等,并強(qiáng)調(diào)了聯(lián)邦機(jī)構(gòu)必須確認(rèn)網(wǎng)頁(yè)檔案可靠性的步驟以及降低對(duì)網(wǎng)頁(yè)進(jìn)行操作風(fēng)險(xiǎn)的步驟。
加拿大國(guó)家圖書檔案館執(zhí)行網(wǎng)頁(yè)歸檔的依據(jù)主要是2004年4月該館提出并獲得英國(guó)皇室許可的《加拿大圖書館與檔案法》。該法將檔案與出版物并稱為“文獻(xiàn)遺產(chǎn)”,允許LAC收集和保存加拿大具有代表性的文獻(xiàn)遺產(chǎn)網(wǎng)頁(yè),并賦予檔案館、圖書館使用文獻(xiàn)遺產(chǎn)的權(quán)利。
四、國(guó)家檔案館政府網(wǎng)頁(yè)歸檔的主體拓展與合作
英、美、加三國(guó)國(guó)家檔案館作為主體,執(zhí)行政府網(wǎng)頁(yè)歸檔,但其歸檔過(guò)程均進(jìn)行了主體的拓展與合作,以便充分利用各方的職能、技術(shù)、標(biāo)準(zhǔn)優(yōu)勢(shì),確保檔案來(lái)源、實(shí)現(xiàn)知識(shí)與技能的碰撞、疊加各種主體的影響力,全方位地實(shí)現(xiàn)政府網(wǎng)頁(yè)歸檔。
UKGWA的主體向政府機(jī)構(gòu)拓展。它要求作為歸檔網(wǎng)頁(yè)所有者的政府機(jī)構(gòu)關(guān)注本部門網(wǎng)頁(yè)被收集的情況,與該館保持聯(lián)系。英國(guó)國(guó)家檔案館面向網(wǎng)頁(yè)所有者發(fā)布了《網(wǎng)頁(yè)歸檔與網(wǎng)頁(yè)連續(xù)性指南》,介紹UKGWA網(wǎng)頁(yè)歸檔的相關(guān)知識(shí),要求政府機(jī)構(gòu)確保列入館藏范圍的網(wǎng)頁(yè)能夠被順利獲取,告知政府機(jī)構(gòu)如何獲得UKGWA的網(wǎng)頁(yè)連續(xù)性服務(wù)。將歸檔主體向政府機(jī)構(gòu)拓展從源頭上保證了歸檔網(wǎng)頁(yè)的質(zhì)量。UKGWA還展開了多方合作。項(xiàng)目在2003年建設(shè)之初最先與IA進(jìn)行合作,共同完成所選擇的約50個(gè)政府網(wǎng)站的網(wǎng)頁(yè)歸檔工作。IA保存的一些1997年以前英國(guó)中央政府的網(wǎng)頁(yè)得以通過(guò)UKGWA提供利用[11]。UKGWA最新的合作商是檔案云存儲(chǔ)方面的專業(yè)公司Mirrorweb,UKGWA的存儲(chǔ)向云端遷移。
CFGWH同樣是將主體向政府機(jī)構(gòu)拓展。前文所述其發(fā)布的《NARA網(wǎng)頁(yè)檔案管理指南》明確了政府機(jī)構(gòu)的網(wǎng)頁(yè)歸檔責(zé)任,每個(gè)機(jī)構(gòu)都需與美國(guó)國(guó)家檔案局(館)合作,確定該機(jī)構(gòu)的網(wǎng)頁(yè)檔案的歸檔范圍和管理要求。CFGWH主要與IA進(jìn)行深度合作。CFGWH對(duì)聯(lián)邦政府機(jī)構(gòu)和國(guó)會(huì)網(wǎng)頁(yè)的歸檔主要由IA實(shí)施。IA使用Heritrix搜索器代表美國(guó)國(guó)家檔案局(館)收錄政府網(wǎng)頁(yè)。
加拿大國(guó)家圖書檔案館于2004年6月21日由該國(guó)原國(guó)家圖書館與原國(guó)家檔案館合并而成。在GCWA的建設(shè)中,該館發(fā)揮了圖書館與檔案館強(qiáng)強(qiáng)聯(lián)合的優(yōu)勢(shì)。加拿大國(guó)家圖書檔案館是國(guó)際網(wǎng)絡(luò)信息保存聯(lián)盟(International Internet Preservation Consortium,簡(jiǎn)稱IIPC)的成員,通過(guò)IIPC與多機(jī)構(gòu)展開合作。IIPC成立于2003年6月,由法國(guó)國(guó)家圖書館牽頭,成員包括11個(gè)國(guó)家圖書館和IA。其目標(biāo)是研究網(wǎng)絡(luò)信息保存的主要障礙,研發(fā)能夠按既定策略定期自動(dòng)收錄網(wǎng)頁(yè)的開放式工具。
五、國(guó)家檔案館政府網(wǎng)頁(yè)歸檔的歸檔范圍
1.從內(nèi)容角度鑒定廣度。信息越豐富,檔案鑒定越困難,政府網(wǎng)頁(yè)歸檔就是如此。國(guó)家檔案館對(duì)于政府網(wǎng)頁(yè)歸檔,首先需要從內(nèi)容角度鑒定廣度。
英國(guó)UKGWA項(xiàng)目的政府網(wǎng)頁(yè)形成者主要是英國(guó)中央政府機(jī)構(gòu)、公共檔案法認(rèn)定的公共檔案產(chǎn)生機(jī)構(gòu)、重要的國(guó)家醫(yī)療服務(wù)機(jī)構(gòu)以及區(qū)域發(fā)展機(jī)構(gòu)。這些機(jī)構(gòu)形成的網(wǎng)頁(yè)歸檔范圍經(jīng)歷了一個(gè)變化過(guò)程。在UKGWA建設(shè)之初,從2500多個(gè)政府機(jī)構(gòu)網(wǎng)站中選擇了80余個(gè)進(jìn)行網(wǎng)頁(yè)歸檔。而今發(fā)展到幾乎所有網(wǎng)站都進(jìn)行網(wǎng)頁(yè)歸檔。UKGWA為這些網(wǎng)站制定了一個(gè)詳細(xì)的網(wǎng)頁(yè)來(lái)源清單。2013年12月,英國(guó)中央政府機(jī)構(gòu)的網(wǎng)站開始由各自獨(dú)立轉(zhuǎn)向經(jīng)由gov.uk集成。此時(shí),UKGWA的歸檔范圍是對(duì)“data.gov.uk清單上的數(shù)據(jù)集及data.gov.uk網(wǎng)站本身進(jìn)行全面捕獲和抓取”[12]。
美國(guó)CFGWH對(duì)于聯(lián)邦政府網(wǎng)頁(yè)歸檔的范圍定義了一個(gè)“聯(lián)邦網(wǎng)站相關(guān)檔案”的概念。它包括兩方面含義:一是網(wǎng)頁(yè)內(nèi)容檔案,指在網(wǎng)站上顯示的信息;二是網(wǎng)站管理檔案,是有關(guān)網(wǎng)站管理和操作的證據(jù)。這些網(wǎng)站相關(guān)檔案源自政府機(jī)構(gòu)的網(wǎng)頁(yè)操作,包括確保每個(gè)網(wǎng)站可信的操作以及用于記錄機(jī)構(gòu)職責(zé)履行的過(guò)程的操作[13]。CFGWH國(guó)會(huì)網(wǎng)頁(yè)歸檔的范圍非常明確:自第109屆國(guó)會(huì)開始,每屆國(guó)會(huì)閉幕時(shí)對(duì)其網(wǎng)頁(yè)進(jìn)行歸檔保存。現(xiàn)已存有第109屆至115屆國(guó)會(huì)的網(wǎng)頁(yè)檔案。
加拿大GCWA的歸檔范圍是應(yīng)用IIPC的“區(qū)域域名(Regional Domain)”策略,在加拿大域名范圍內(nèi)選擇性地收集政府網(wǎng)站的網(wǎng)頁(yè)。其收集的網(wǎng)頁(yè)包括最初在網(wǎng)絡(luò)上發(fā)布的聯(lián)邦政府信息以及不再對(duì)公眾開放的聯(lián)邦政府網(wǎng)頁(yè)。此外,2016年,大多數(shù)聯(lián)邦網(wǎng)站也集中到了中心域canada.ca。GCWA將集中之前各聯(lián)邦網(wǎng)站的網(wǎng)頁(yè)全部列入了歸檔范圍予以收集[14]。
2.從技術(shù)角度鑒定深度。網(wǎng)頁(yè)檔案不同于以往的傳統(tǒng)檔案,具有內(nèi)容碎片化、檔案關(guān)聯(lián)復(fù)雜的特點(diǎn)。因此,政府網(wǎng)頁(yè)歸檔還需要從技術(shù)角度鑒定深度,即結(jié)合內(nèi)容鑒定歸檔信息的類型和邊界。有些種類的網(wǎng)頁(yè)信息,從技術(shù)上看歸檔難度大或是無(wú)法歸檔,則不能列入歸檔范圍。
英國(guó)UKGWA項(xiàng)目早期只能捕獲政府網(wǎng)站首頁(yè)上的基本內(nèi)容、導(dǎo)航與界面,由于技術(shù)實(shí)現(xiàn)難度大,圖像不列入歸檔范圍。但是,技術(shù)發(fā)展到今天,UKGWA“對(duì)許多網(wǎng)站的信息資源已基本實(shí)現(xiàn)100%的獲取”[15]。在網(wǎng)頁(yè)全部歸檔的情況下,英國(guó)國(guó)家檔案館制定了移除與封閉政策[16]。如果有機(jī)構(gòu)或個(gè)人申請(qǐng)將歸檔的網(wǎng)頁(yè)刪除或使之不開放,英國(guó)國(guó)家檔案館會(huì)根據(jù)該政策進(jìn)行評(píng)議。評(píng)議通過(guò)后刪除相關(guān)內(nèi)容或?qū)⒃竟_的信息封閉,必要時(shí)將與內(nèi)容相關(guān)的機(jī)構(gòu)從前文所說(shuō)的來(lái)源清單中移除。
美國(guó)CFGWH明確提出,由于技術(shù)限制,互動(dòng)過(guò)程中的輸入信息、表格、流媒體視頻或復(fù)雜的java script不屬于歸檔范圍,動(dòng)態(tài)數(shù)據(jù)庫(kù)在歸檔時(shí)只能是靜態(tài)信息[17]。另外,受URL來(lái)源清單完整性、URL是否成功解析、所使用的爬蟲程序的功能、所爬網(wǎng)站的服務(wù)器環(huán)境等因素影響,歸檔范圍內(nèi)的信息未必全能歸檔到位[18]。
加拿大GCWA與CFGWH類似,明確提出交互信息和交互式技術(shù)、合并流媒體、數(shù)據(jù)庫(kù)程序驅(qū)動(dòng)和數(shù)據(jù)、依賴專有技術(shù)的信息、動(dòng)態(tài)生成的內(nèi)容及不同來(lái)源的內(nèi)容,由于技術(shù)限制未能準(zhǔn)確、齊全地歸檔。某些內(nèi)部和外部鏈接、表單、搜索框和交互式元素(包括視頻)歸檔后可能無(wú)法運(yùn)行[19]。
3.社交媒體上政府網(wǎng)頁(yè)的歸檔。
英國(guó)國(guó)家檔案館將社交媒體上的政府網(wǎng)頁(yè)納入歸檔范圍。2014年5月,該館啟動(dòng)在線社交媒體歸檔(Online Social Media Archive,簡(jiǎn)稱OSMA)項(xiàng)目,對(duì)內(nèi)閣辦公室、國(guó)防部等中央政府核心機(jī)構(gòu)在Twitter和Youtube上的網(wǎng)頁(yè)以賬戶為單位統(tǒng)一進(jìn)行歸檔。賬戶轉(zhuǎn)發(fā)的推文、對(duì)其他賬戶的回復(fù)、互動(dòng)對(duì)話不歸檔。OSMA是UKGWA的重要組成部分。
美國(guó)國(guó)家檔案局(館)同樣將社交媒體上的政府網(wǎng)頁(yè)納入歸檔范圍。該局(館)2013年發(fā)布《社交媒體捕獲最佳買踐》,2014年發(fā)布《社交媒體檔案管理指南》,明確將社交媒體上的政府網(wǎng)頁(yè)信息納入到聯(lián)邦政府的檔案管理體系當(dāng)中。其社交媒體上政府網(wǎng)頁(yè)歸檔的重點(diǎn)范圍包括總統(tǒng)網(wǎng)頁(yè)。
加拿大國(guó)家圖書檔案館認(rèn)為社交媒體上的網(wǎng)頁(yè)是國(guó)家文獻(xiàn)遺產(chǎn)的重要組成部分。該館在2015年開展相關(guān)試驗(yàn)收集社交媒體信息歸檔保存[20]。這些試驗(yàn)持續(xù)至今。加拿大國(guó)家圖書檔案館尚未開展社交媒體上政府網(wǎng)頁(yè)歸檔實(shí)踐。在加拿大政府《2020社交媒體戰(zhàn)略》中,歸檔政府社交媒體文件并為社會(huì)提供真實(shí)可信的社交媒體數(shù)據(jù),是其中一個(gè)重要內(nèi)容[21]。
六、國(guó)家檔案館政府網(wǎng)頁(yè)歸檔的歸檔時(shí)間
英國(guó)UKGWA的歸檔時(shí)間是針對(duì)網(wǎng)頁(yè)歸檔來(lái)源清單中的網(wǎng)站,排名前十位的每月一次,其他的每四個(gè)月一次,公共機(jī)構(gòu)的網(wǎng)站每六個(gè)月一次,部分社交媒體網(wǎng)站每八個(gè)月一次。平均每個(gè)月會(huì)有100個(gè)左右網(wǎng)站的網(wǎng)頁(yè)被歸檔保存。選舉期間等關(guān)鍵時(shí)期會(huì)隨時(shí)歸檔。若有政府網(wǎng)站準(zhǔn)備關(guān)閉或有重大變動(dòng),需提前八周告知國(guó)家檔案館,讓其擁有充足的時(shí)間實(shí)行網(wǎng)頁(yè)歸檔。
美國(guó)CFGWH中聯(lián)邦政府機(jī)構(gòu)在特定時(shí)間生成網(wǎng)站上所有網(wǎng)頁(yè)的獨(dú)立副本或快照進(jìn)行歸檔??煺湛梢愿骄W(wǎng)站地圖顯示頁(yè)面間關(guān)系。至于特定時(shí)間具體是什么時(shí)候,由網(wǎng)站形成機(jī)構(gòu)根據(jù)對(duì)網(wǎng)站運(yùn)營(yíng)進(jìn)行的風(fēng)險(xiǎn)評(píng)估自行確定。國(guó)會(huì)網(wǎng)頁(yè)的歸檔時(shí)間是一屆會(huì)議結(jié)束時(shí)。
加拿大GCWA的歸檔時(shí)間是每半年一次。
七、國(guó)家檔案館政府網(wǎng)頁(yè)歸檔的歸檔程序
歸檔程序主要包括歸檔策略的制定和歸檔操作的實(shí)施。歸檔策略用于明確歸檔的對(duì)象和方式。歸檔操作是一整套步驟,主要包括收集、保存,廣義上還包括歸檔后的管理、利用操作,即索引、檢索、顯示。歸檔操作可以是人工操作或是軟件自動(dòng)操作。
英國(guó)UKGWA的歸檔對(duì)象是靜態(tài)網(wǎng)頁(yè),歸檔方式是網(wǎng)站快照。歸檔操作是從客戶端啟動(dòng)網(wǎng)絡(luò)爬蟲程序Heritrix遠(yuǎn)程主動(dòng)收集網(wǎng)頁(yè)。收集來(lái)的網(wǎng)頁(yè)加密存于內(nèi)部硬盤驅(qū)動(dòng)器,并運(yùn)送給亞馬遜網(wǎng)絡(luò)服務(wù)數(shù)據(jù)中心,該中心將其傳輸?shù)皆贫?,使用pywb顯示存檔網(wǎng)頁(yè)。
美國(guó)CFGWH的歸檔對(duì)象是靜態(tài)網(wǎng)頁(yè),歸檔方式是網(wǎng)站快照。美國(guó)國(guó)家檔案局(館)與IA簽約由IA代為完成歸檔操作。IA使用Heritrix收集網(wǎng)頁(yè),Wayback Machine顯示存檔網(wǎng)頁(yè)。
加拿大GCWA的歸檔操作是使用Heritrix收集網(wǎng)頁(yè)。收集來(lái)的網(wǎng)頁(yè)保存在GCWA的網(wǎng)站服務(wù)器上。用自行研發(fā)的索引工具IQ App對(duì)保存的網(wǎng)頁(yè)做索引。使用NUTCHWAX檢索存檔網(wǎng)頁(yè),Wayback Machine顯示存檔網(wǎng)頁(yè)。
三國(guó)國(guó)家檔案館的歸檔程序有共同之處,也各有特色。共同之處在于三者都與IA進(jìn)行了合作,收集軟件無(wú)一例外采用Heritrix爬蟲程序。它是由IA及IIPC其他成員共同研發(fā)的開源軟件,按照來(lái)源清單遍歷其URL列表。
UKGWA和CFGWH都是對(duì)靜態(tài)網(wǎng)頁(yè)采用網(wǎng)站快照形式進(jìn)行歸檔。網(wǎng)站快照技術(shù)相對(duì)簡(jiǎn)單,但必須同時(shí)捕獲快照創(chuàng)建者、快照日期時(shí)間、網(wǎng)頁(yè)URL等元數(shù)據(jù)予以保存。以靜態(tài)網(wǎng)頁(yè)為歸檔對(duì)象并不是不歸檔音視頻,主要還是由于技術(shù)限制。UKGWA有一些視頻可以利用。CFGWH在利用界面也顯示有錄像欄目,不過(guò)尚無(wú)內(nèi)容。后臺(tái)數(shù)據(jù)庫(kù)動(dòng)態(tài)生成的頁(yè)面,因用戶申請(qǐng)而生成的動(dòng)態(tài)頁(yè)面的歸檔問題目前處在研究進(jìn)程中。
網(wǎng)頁(yè)被收集后存檔的格式有多種,例如ARC、WARC、CDX等。UKGWA早期是以ARC格式存儲(chǔ)?,F(xiàn)在使用Heritrix收集程序均以WARC格式保存網(wǎng)頁(yè),即英、美、加三國(guó)國(guó)家檔案館收集的政府網(wǎng)頁(yè)均存為WARC格式。網(wǎng)頁(yè)作為檔案保存必須支持長(zhǎng)期存儲(chǔ),目前網(wǎng)頁(yè)歸檔的存儲(chǔ)正在向云存儲(chǔ)發(fā)展。UKGWA已經(jīng)向云端遷移了。
相較于傳統(tǒng)檔案管理,網(wǎng)頁(yè)檔案的管理和利用相對(duì)簡(jiǎn)單,但對(duì)技術(shù)依賴較大。在制定歸檔策略時(shí)對(duì)技術(shù)的選擇非常重要。UKGWA使用pywb顯示存檔網(wǎng)頁(yè)。Pywb是以Python包的形式運(yùn)行的一款最簡(jiǎn)單的顯示軟件。CFGWH和GCWA以Wayback Machine顯示存檔網(wǎng)頁(yè)。Wayback Machine是由IIPC主導(dǎo)的采用Java語(yǔ)言專門開發(fā)的WARC格式文檔的顯示軟件。
八、國(guó)家檔案館歸檔政府網(wǎng)頁(yè)的檢索利用
三國(guó)國(guó)家檔案館的政府網(wǎng)頁(yè)歸檔都取得了較大成果。UKGWA保存了包括5000多個(gè)網(wǎng)站以及來(lái)自政府社交媒體賬戶的推文和視頻。截至2018年,檔案數(shù)據(jù)的保有量超過(guò)120TB[22]。當(dāng)前,CFGWH僅國(guó)會(huì)的網(wǎng)頁(yè)保有量就達(dá)到121TB[23]。截至2012年,GCWA所收藏的資源有1億7千萬(wàn)個(gè)文件,占用空間7TB[24]。三國(guó)國(guó)家檔案館的網(wǎng)頁(yè)檔案都可以在互聯(lián)網(wǎng)上公開檢索、免費(fèi)利用。
UKGWA對(duì)其網(wǎng)頁(yè)檔案提供了較為全面的檢索途徑。一是原URL復(fù)引。利用者要訪問政府網(wǎng)頁(yè),可以直接在瀏覽器中輸入網(wǎng)頁(yè)的URL。如果該網(wǎng)頁(yè)已經(jīng)不存在但在UKGWA中歸檔保存,那么利用者會(huì)被復(fù)引至UKGWA中的該頁(yè)面。只是此時(shí)頁(yè)面頂端會(huì)附有英國(guó)國(guó)家檔案館的標(biāo)識(shí)以示區(qū)別。二是通過(guò)國(guó)家檔案館網(wǎng)站訪問??梢酝ㄟ^(guò)關(guān)鍵詞、網(wǎng)站域名、URL檢索網(wǎng)頁(yè);可以通過(guò)關(guān)鍵詞檢索推特、Flickr和其他社交媒體網(wǎng)頁(yè)檔案;可以通過(guò)政府社交媒體賬戶訪問相關(guān)錄像;還可以訪問已存檔網(wǎng)站的域名列表,按A—Z的字母順序排列。三是設(shè)定特定時(shí)間訪問特定網(wǎng)頁(yè)。UKGWA使用了一種名為備忘錄(Memento)的軟件工具。該工具在網(wǎng)站中添加一個(gè)時(shí)間維度,用戶通過(guò)拖動(dòng)滾動(dòng)條或直接選擇某個(gè)特定時(shí)間來(lái)訪問某一特定網(wǎng)頁(yè)、特定文檔或特定數(shù)據(jù)。
CFGWH的主要訪問途徑是關(guān)鍵詞搜索。搜索可以專門針對(duì)特定范圍如眾議院或參議院,也可以不限定范圍。另外,可以按照機(jī)構(gòu)成員、領(lǐng)導(dǎo)、下屬組織、下屬委員會(huì)的字母順序?yàn)g覽相關(guān)網(wǎng)站的網(wǎng)頁(yè)。
GCWA的主要訪問途徑同樣是關(guān)鍵詞搜索。此外可以按機(jī)構(gòu)瀏覽或按URL瀏覽相關(guān)網(wǎng)站的網(wǎng)頁(yè)。
通過(guò)以上對(duì)比研究,可以發(fā)現(xiàn),對(duì)政府網(wǎng)頁(yè)進(jìn)行歸檔已經(jīng)是英、美、加三國(guó)國(guó)家檔案館工作中的重要內(nèi)容。三個(gè)國(guó)家檔案館對(duì)網(wǎng)頁(yè)歸檔的理解幾乎完全相同,即網(wǎng)頁(yè)歸檔是一個(gè)過(guò)程,所歸的網(wǎng)頁(yè)具有檔案性質(zhì)并保存在存檔系統(tǒng)中。三個(gè)國(guó)家檔案館都發(fā)布了網(wǎng)頁(yè)歸檔的法規(guī)為該項(xiàng)工作提供了依據(jù),都進(jìn)行了主體的拓展與合作。其歸檔范圍不僅包括從內(nèi)容上鑒定歸檔的廣度,還包括從技術(shù)上鑒定歸檔的深度。社交媒體上政府網(wǎng)頁(yè)的歸檔是歸檔范圍之一。三個(gè)國(guó)家檔案館根據(jù)各自考量確定的政府網(wǎng)頁(yè)的歸檔時(shí)間有所不同,但歸檔程序大致相同。三者全都選用Heritrix爬蟲程序遠(yuǎn)程收集網(wǎng)頁(yè),但也通過(guò)主體拓展給政府機(jī)構(gòu)提要求,要求作為歸檔網(wǎng)頁(yè)所有者的政府機(jī)構(gòu)關(guān)注本機(jī)構(gòu)網(wǎng)頁(yè)被國(guó) 家檔案館收集的情況。三個(gè)國(guó)家檔案館都對(duì)政府網(wǎng)頁(yè)提供了檢索利用。利用的主要途徑是關(guān)鍵詞檢索、機(jī)構(gòu)列表與URL列表。這些內(nèi)容可以給予我國(guó)檔案機(jī)構(gòu)以啟示,在現(xiàn)有經(jīng)驗(yàn)基礎(chǔ)上做好我國(guó)的政府網(wǎng)頁(yè)歸檔,做好網(wǎng)絡(luò)時(shí)代的檔案館藏建設(shè)。