夏立新 楊元 郭致怡
(華中師范大學(xué)信息管理學(xué)院,武漢 430079)
文獻信息資源作為一種社會智力資源,是人類活動與知識的載體。隨著互聯(lián)網(wǎng)的發(fā)展與普及,網(wǎng)頁已經(jīng)逐漸成為人們?nèi)粘+@取、記錄信息的重要平臺,網(wǎng)頁所載文字、圖片、音像等成為記錄和反映當(dāng)代社會人類活動與知識的重要信息資源。從文獻信息資源保障的視角看,以一定采集策略篩選獲得的網(wǎng)絡(luò)信息資源是當(dāng)代社會新興的一類文獻信息資源。與傳統(tǒng)文獻信息資源相比,網(wǎng)絡(luò)信息資源的內(nèi)容與形式更加豐富、體量龐大。然而,網(wǎng)絡(luò)信息資源的易變性、不穩(wěn)定性、流動性、不可再生性以及對軟硬件環(huán)境的強依賴性,也為網(wǎng)絡(luò)信息資源的長期保存與開發(fā)利用帶來較大挑戰(zhàn)[1]。如何確保網(wǎng)絡(luò)信息資源的可靠使用和永續(xù)利用是互聯(lián)網(wǎng)時代文獻信息資源保障工作亟需解決的問題。
我國網(wǎng)頁歸檔實踐尚處于起步階段,對網(wǎng)絡(luò)信息資源的自動化處理與長期保存的理論研究和實踐經(jīng)驗十分有限,當(dāng)前僅有中國國家圖書館和北京大學(xué)較系統(tǒng)地開展了相關(guān)實踐。本文面向擁有大量活躍互聯(lián)網(wǎng)用戶和豐富內(nèi)容與形式的高校網(wǎng)絡(luò)信息資源,通過分析國外高校網(wǎng)絡(luò)信息資源自動化處理與長期保存的優(yōu)秀案例,總結(jié)其網(wǎng)絡(luò)信息資源管理策略,為我國網(wǎng)絡(luò)信息資源建檔、歸檔工作提供方法與路徑。
本文回顧已有研究成果,發(fā)現(xiàn)當(dāng)前高校網(wǎng)絡(luò)信息資源自動化處理與長期保存策略相關(guān)研究主要圍繞網(wǎng)絡(luò)信息資源自動化處理與長期保存現(xiàn)狀和高校文獻資源保障兩方面展開。
國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)將網(wǎng)頁歸檔定義為采集萬維網(wǎng)的一部分內(nèi)容并且以檔案形式保存,并支持檔案的后續(xù)訪問和使用[2]。其中,網(wǎng)絡(luò)信息資源的自動化處理與長期保存的技術(shù)與策略是網(wǎng)頁檔案建設(shè)的主要內(nèi)容,經(jīng)過自動化處理并進行長期保存的網(wǎng)絡(luò)信息資源集合稱為網(wǎng)頁檔案資源。在實踐方面,美國互聯(lián)網(wǎng)檔案館于1996年率先開展網(wǎng)頁歸檔相關(guān)實踐。同年,澳大利亞、瑞典、法國也相繼于20世紀(jì)末展開網(wǎng)頁歸檔實踐[3]。目前,歐美國家的網(wǎng)絡(luò)信息資源歸檔主題已不斷細(xì)分,涵蓋國家歷史文化、社會生活、突發(fā)事件、政府信息等。隨著項目的推廣和深入,國外學(xué)者在利用網(wǎng)頁檔案的過程中產(chǎn)生了多學(xué)科、多主題的研究成果,同時不斷提出網(wǎng)絡(luò)信息資源的新需求與相應(yīng)的保障策略[4-7]。我國的網(wǎng)頁歸檔實踐開始于21世紀(jì)初,2001年北京大學(xué)計算機系網(wǎng)絡(luò)與分布式系統(tǒng)實驗室發(fā)起了“中國Web信息博物館”項目,該項目能夠采集我國絕大多數(shù)的靜態(tài)網(wǎng)頁并提供網(wǎng)頁搜索和數(shù)據(jù)分享功能[8]。中國國家圖書館于2003年發(fā)起了“中國國家圖書館的網(wǎng)絡(luò)信息資源保存試驗項目”(Web Information Collection and Preservation,WICP)對中國境內(nèi)的網(wǎng)絡(luò)資源進行采集與保存實驗,并于2019年啟動“互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”,建設(shè)覆蓋全國的分級分布式中文互聯(lián)網(wǎng)信息資源采集與保存體系[9]。然而國家圖書館的互聯(lián)網(wǎng)資源尚處于建設(shè)階段,還未開展相關(guān)服務(wù)。在網(wǎng)頁歸檔的理論研究方面,我國網(wǎng)頁歸檔的有限實踐導(dǎo)致我國網(wǎng)絡(luò)信息資源保障工作的相關(guān)研究大多集中于理論研究,學(xué)者對網(wǎng)絡(luò)信息資源的采集、保存相關(guān)的技術(shù)與策略進行研究,而利用網(wǎng)頁檔案開展的研究成果較少,我國歷史網(wǎng)絡(luò)信息資源尚未得到有效地開發(fā)與利用。我國網(wǎng)頁歸檔實踐尚處于起步階段,且現(xiàn)行網(wǎng)頁歸檔項目較少且尚未面向社會進行網(wǎng)頁檔案資源保障工作。
肖希明[10]提出,文獻信息資源保障工作的總目標(biāo)是最大限度地滿足用戶對文獻信息最廣泛的需求。劉敏等[11]提出高校圖書館應(yīng)為高校教學(xué)、科研提供“紙質(zhì)文獻信息—電子文獻信息—共享文獻信息”的全方位服務(wù)。蔣巖波等[12]以江西省昌北高校圖書館聯(lián)盟為例,認(rèn)為圖書館聯(lián)盟中各高校應(yīng)當(dāng)注重資源采購計劃的針對性,凸顯本校學(xué)科特色;完善重點學(xué)科三級文獻資源保障體系建設(shè)?,F(xiàn)有研究多以保障高校內(nèi)部用戶的文獻信息需求為目標(biāo)展開,忽略了高校圖書館在我國文獻信息資源保障工作開展中承擔(dān)的使命與責(zé)任,導(dǎo)致高校文獻信息資源建設(shè)模式相對封閉,主要側(cè)重通過常規(guī)采集方式獲得的各種文獻信息資源,滿足高校用戶教學(xué)、科研的文獻信息需求,忽略了記錄以及反映高校知識和歷史的網(wǎng)絡(luò)信息資源的采集保存工作,從而嚴(yán)重制約了此類重要資源的開發(fā)利用。
綜上所述,網(wǎng)絡(luò)信息資源已成為互聯(lián)網(wǎng)時代記錄和反映人類生產(chǎn)生活的重要文獻資源之一,然而我國的網(wǎng)絡(luò)信息資源的自動化處理和長期保存工作尚處于起步階段。一方面,我國開展網(wǎng)頁歸檔實踐的組織與機構(gòu)較少,且尚未正式對公眾開展網(wǎng)頁檔案資源服務(wù);另一方面,作為我國文獻信息資源保障工作的重要基礎(chǔ)性機構(gòu)的高校圖書館對于網(wǎng)絡(luò)信息資源的長期保存意識較為淡薄,忽略了網(wǎng)絡(luò)信息資源的文獻價值?;谝陨蠁栴},本文借鑒國外優(yōu)秀高校網(wǎng)絡(luò)信息資源歸檔項目——美國密歇根大學(xué)本特利歷史圖書館(以下簡稱“本特利歷史圖書館”)的網(wǎng)頁歸檔實踐,深度剖析該項目的實踐情況,在總結(jié)其歸檔資源特征、自動化處理和長期保存具體工作流程的基礎(chǔ)上,研究適合我國高校網(wǎng)絡(luò)信息資源自動化處理與長期保存的策略。
互聯(lián)網(wǎng)記錄和傳輸信息的便捷性,使得人類越來越多地將信息記錄和分享在各類網(wǎng)站以及互聯(lián)網(wǎng)平臺上。從文獻信息資源保障的角度看,高校網(wǎng)絡(luò)信息資源已然成為能夠廣泛、多形式記錄和反映高校知識成果和歷史發(fā)展的重要文獻信息資源之一,然而,網(wǎng)絡(luò)信息資源易丟失、難保存的特點又為其可靠使用和永續(xù)利用帶來嚴(yán)峻挑戰(zhàn)[8]。此外,高校作為我國文獻信息資源保障工作開展所依托的重要機構(gòu),其網(wǎng)頁歸檔實踐對我國網(wǎng)頁歸檔事業(yè)發(fā)展具有重要參考價值。因此,高校網(wǎng)頁歸檔實踐是當(dāng)前文獻信息資源保障工作所面臨的重大挑戰(zhàn),又是互聯(lián)網(wǎng)時代文獻信息資源保障的必要工作。
互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)信息資源是記錄人類活動和知識的重要文獻信息資源之一,實現(xiàn)對網(wǎng)絡(luò)信息資源的長期保存是文獻信息資源保障工作的重要內(nèi)容之一[8]。高校網(wǎng)絡(luò)信息資源的內(nèi)容和形式豐富多樣,是記錄和反映高校發(fā)展歷程、管理制度、科研成果、學(xué)術(shù)活動、學(xué)生生活、校園文化等多方面歷史信息的第一手資料,是互聯(lián)網(wǎng)時代記錄高校管理制度和發(fā)展歷史的重要原始文獻。因此,探索網(wǎng)頁信息的自動化處理與長期保存策略對保留高校歷史資料和知識產(chǎn)出具有重要意義[12]。
文獻信息資源保障工作的目標(biāo)是最大限度地滿足用戶的文獻信息需求。網(wǎng)絡(luò)信息資源作為互聯(lián)網(wǎng)時代新興的文獻信息資源類型,既是人類數(shù)字記憶的重要組成部分,又是教育學(xué)家、歷史學(xué)家等研究者的重要參考文獻[12]。一方面,隨著Web2.0時代的到來,網(wǎng)絡(luò)信息資源相比傳統(tǒng)文獻信息資源以文檔、圖片、視頻等多種形式,更加全面翔實地記載了人類的知識與活動,彌補了傳統(tǒng)文獻信息資源的記錄空白;另一方面,網(wǎng)絡(luò)信息資源高度依賴于其所在的軟硬件環(huán)境,易丟失且難恢復(fù)。因此,網(wǎng)絡(luò)信息資源作為一種新時代我國文獻信息資源采訪與自建工作的重要對象,只有通過有效的自動化處理與長期保存工作及時識別重要、具有長期保存價值的網(wǎng)絡(luò)信息資源并對其進行分類、歸檔和存儲,才能保障網(wǎng)絡(luò)信息資源的可靠使用和永續(xù)利用,促進立體化、多樣態(tài)文獻信息資源體系的形成。
高校網(wǎng)絡(luò)信息資源歸檔實踐較易開展且能夠獲得較豐富的實踐經(jīng)驗。一方面,高校是一個管理體制較完善且擁有本校網(wǎng)絡(luò)信息資源知識產(chǎn)權(quán)的組織,其網(wǎng)絡(luò)信息資源歸檔實踐面臨的外界阻礙較??;另一方面,高校網(wǎng)絡(luò)信息資源內(nèi)容與形式豐富,擁有其不同部門及附屬單位,甚至由教職工和學(xué)生創(chuàng)建、管理,服務(wù)于學(xué)校各項業(yè)務(wù)或高校成員業(yè)余生活的各類網(wǎng)站,其網(wǎng)絡(luò)信息資源歸檔實踐能夠為不同主題、不同信息資源類型、不同更新頻率、不同運營機構(gòu)特征的網(wǎng)絡(luò)信息資源的自動化處理與長期保存工作提供經(jīng)驗和參考。因此,研究和開展高校網(wǎng)絡(luò)信息資源歸檔工作能夠推進我國網(wǎng)絡(luò)信息資源保障事業(yè)發(fā)展。
美國國家數(shù)字化管理聯(lián)盟(National Digital Stewardship Alliance,NDSA)2016年和2017年的網(wǎng)頁歸檔項目調(diào)查報告顯示,近年來美國高校開展網(wǎng)頁歸檔項目的機構(gòu)數(shù)量明顯增長,美國高校圖書檔案機構(gòu)成為網(wǎng)頁歸檔的重要實踐單位[13]。本文以高校網(wǎng)頁歸檔最佳實踐案例本特利歷史圖書館的網(wǎng)頁歸檔項目為例,進行深入分析其網(wǎng)頁歸檔實踐中自動化處理與長期保存策略。
密歇根大學(xué)所屬本特利歷史圖書館成立于1935年,其主要職能是收集并管理密歇根大學(xué)相關(guān)歷史的第一手證據(jù)和數(shù)據(jù)并促進對它們的歷史研究,以確保運營的連續(xù)性和有效的管理,履行法律、監(jiān)管和財政責(zé)任,并優(yōu)化其對空間和時間的利用。自2010年以來,本特利歷史圖書館一直在通過網(wǎng)頁歸檔實踐來識別、評估和選擇能夠反映大學(xué)運營管理和具有檔案收藏價值的網(wǎng)站并定期進行對這些網(wǎng)站進行自動化處理與保存。截至2021年6月1日,本特利歷史圖書館已建立了9個網(wǎng)頁檔案,共歸檔2 803個網(wǎng)站[12]。這些網(wǎng)頁檔案向公眾開放,用戶可通過Archive-It官網(wǎng)、U-M Library(密歇根大學(xué)圖書館的在線公共訪問目錄庫)或BHL Finding Aid 3個網(wǎng)站對其網(wǎng)頁檔案信息進行訪問。同時,本特利歷史圖書館還積極地與其他檔案機構(gòu)合作分享它的檢索工具,以便公眾和遠程研究人員能夠了解本特利的館藏并加以利用[14]。
本特利歷史圖書館于2019年修訂的《檔案政策與程序手冊》中明確了其篩選歸檔網(wǎng)站所必須滿足的5項條件:①網(wǎng)站由大學(xué)所有且用于開展大學(xué)相關(guān)業(yè)務(wù);②網(wǎng)站反映與大學(xué)相關(guān)的基本功能或活動;③網(wǎng)站是對現(xiàn)有檔案和手稿收藏的補充;④網(wǎng)站填補了收藏中的空白;⑤網(wǎng)站包含定期更新的獨特且有意義的內(nèi)容[12]。
目前,本特利歷史圖書館已建立檔案的內(nèi)容包括密歇根州的歷史收藏以及密歇根大學(xué)管理、校友和粉絲、體育、衛(wèi)生系統(tǒng)、新聞與活動、附屬單位(學(xué)校、學(xué)院、研究、中心和研究所、學(xué)生組織)、mBLog(移動博客)。從數(shù)量上看,密歇根大學(xué)附屬單位的網(wǎng)絡(luò)檔案所包含的網(wǎng)站數(shù)量最多(1 283個),而密歇根大學(xué)校友和粉絲網(wǎng)絡(luò)檔案所包含網(wǎng)站數(shù)目最少(19個)。從內(nèi)容上看,本特利歷史圖書館進行歸檔的網(wǎng)頁包含八大主題,分別為大學(xué)與圖書館、社會與文化、藝術(shù)與人文、博客和社交媒體、科學(xué)與健康、自發(fā)事件、計算機與技術(shù)和政府-美國各州。此外,本特利歷史圖書館所收藏網(wǎng)站既包含密歇根大學(xué)附屬的學(xué)院、研究機構(gòu)和學(xué)生組織,也包含學(xué)校的教職工和學(xué)生合作或獨立創(chuàng)建的網(wǎng)站[15]。通過對歸檔網(wǎng)站的篩選原則和密歇根大學(xué)已歸檔網(wǎng)絡(luò)信息資源的調(diào)研分析,本文發(fā)現(xiàn)密歇根大學(xué)的網(wǎng)頁歸檔資源具有以下特點。
(1)網(wǎng)站為密歇根大學(xué)所有。本特利歷史圖書館所歸檔網(wǎng)站均由密歇根大學(xué)附屬單位、教職員工或?qū)W生創(chuàng)建、擁有或使用。此類網(wǎng)站所記錄的信息資源,不僅在內(nèi)容上與密歇根大學(xué)密切相關(guān),具有一定保存價值,而且其知識產(chǎn)權(quán)歸密歇根大學(xué)所有,合理規(guī)避了潛在知識產(chǎn)權(quán)糾紛。
(2)網(wǎng)站服務(wù)于該校的各項工作與活動且能夠反映其開展情況。本特利歷史圖書館要求網(wǎng)站用于大學(xué)且能夠反映有關(guān)的業(yè)務(wù)、功能或活動。此類網(wǎng)站能夠從不同視角廣泛、形象地記錄和反映密歇根大學(xué)的管理事務(wù)、校園活動和發(fā)展歷程,是密歇根大學(xué)的重要歷史遺產(chǎn),可以幫助解釋事件發(fā)生的方式或原因,為歷史學(xué)家、教育學(xué)家、新聞工作者等提供優(yōu)質(zhì)信息源。
(3)網(wǎng)站中網(wǎng)頁信息具有永久且持續(xù)記錄價值的內(nèi)容。本特利歷史圖書館要求所歸檔網(wǎng)頁信息能夠填補已有收藏的空白并會定期進行更新。考慮到長期保存的成本問題,本特利歷史圖書館館員在進行網(wǎng)頁歸檔前會對網(wǎng)站的信息資源內(nèi)容進行評估,刪除明顯重復(fù)和歷史價值不足的網(wǎng)站。
網(wǎng)頁歸檔涉及網(wǎng)絡(luò)信息資源的采集、歸檔、編目、存儲4個關(guān)鍵步驟。本特利歷史圖書館負(fù)責(zé)確認(rèn)采集對象、規(guī)范網(wǎng)站建設(shè)、提供訪問接口和管理知識產(chǎn)權(quán)等問題,同時通過Internet Archive推出的Archive-It程序,進行網(wǎng)絡(luò)信息資源的收集、歸檔和保存工作。
本特利歷史圖書館網(wǎng)頁歸檔的具體工作流程如圖1所示,依托Archive-It程序并制定輔助Archive-It順利開展網(wǎng)站識別、網(wǎng)絡(luò)信息資源爬取和編目工作的相關(guān)制度與規(guī)范,實現(xiàn)網(wǎng)絡(luò)信息資源的自動化處理與長期保存。
圖1 本特利歷史圖書館網(wǎng)頁歸檔工作流程
本特利歷史圖書館網(wǎng)頁歸檔過程中的工作分為三個階段:一是在采集網(wǎng)絡(luò)信息資源前,制定便于Archive-It程序進行自動化處理的網(wǎng)站建設(shè)規(guī)范,并提供便于網(wǎng)站預(yù)歸檔名單、網(wǎng)站信息資源采集方案,如對各網(wǎng)站信息資源采集的時間和頻率;二是在采集網(wǎng)絡(luò)信息資源過程中,選用Archive-It程序?qū)W(wǎng)絡(luò)信息資源定期進行自動化識別和采集,與Archive-It相關(guān)負(fù)責(zé)人員及時溝通,根據(jù)實際情況調(diào)整網(wǎng)頁歸檔計劃;三是在完成網(wǎng)絡(luò)信息資源采集工作之后,繼續(xù)利用Archive-It程序?qū)W(wǎng)絡(luò)信息資源進行編目、歸檔和存儲。
Archive-It在密歇根大學(xué)網(wǎng)頁歸檔實踐中主要負(fù)責(zé)在特定的時間點獲取所需歸檔網(wǎng)站的快照并創(chuàng)建網(wǎng)站的存檔副本,將副本文件規(guī)范化存儲于Internet Archive的互聯(lián)網(wǎng)數(shù)據(jù)庫和密歇根大學(xué)的機構(gòu)資料庫Deep Blue中,實現(xiàn)多服務(wù)器網(wǎng)絡(luò)信息資源存儲與服務(wù)。具體而言,Archive-It的工作分為網(wǎng)絡(luò)信息資源采集和網(wǎng)絡(luò)信息資源編目與存儲兩個階段:在網(wǎng)絡(luò)信息資源采集過程中,Archive-It在不干擾網(wǎng)站訪問的情況下通過爬蟲軟件進行網(wǎng)絡(luò)信息資源的爬取。大多數(shù)網(wǎng)絡(luò)信息資源的爬取工作每年僅運行幾次并持續(xù)幾天,在網(wǎng)絡(luò)信息資源采集工作完成后,爬蟲軟件將停止與服務(wù)器進行交互。此外,Archive-It會對密歇根大學(xué)預(yù)歸檔名單中的網(wǎng)站進行持續(xù)性跟蹤和監(jiān)測,提供網(wǎng)站最佳采集時間的建議,當(dāng)網(wǎng)站發(fā)生重大變更時,提醒檔案管理員增加臨時采集計劃。在完成網(wǎng)絡(luò)信息資源采集工作后,Archive-It采用柏林核心元數(shù)據(jù)和網(wǎng)絡(luò)資源存檔國際標(biāo)準(zhǔn)WARC格式對網(wǎng)絡(luò)信息資源進行規(guī)范化著錄和保存。
通過對密歇根大學(xué)網(wǎng)絡(luò)歸檔工作流程的梳理,可以總結(jié)出本特利歷史圖書館網(wǎng)頁歸檔工作各環(huán)節(jié)采取的關(guān)鍵策略如下。
(1)選擇性網(wǎng)絡(luò)信息資源采集。本特利歷史圖書館根據(jù)網(wǎng)頁歸檔資源的篩選原則,預(yù)先確定需要采集的網(wǎng)站,忽略保存價值低的網(wǎng)絡(luò)信息資源。對于高校網(wǎng)頁歸檔工作而言,受到成本、法律等多方面外界因素限制,采取選擇性采集策略有以下優(yōu)勢:一是通過人工的預(yù)先篩選能夠保證所采集網(wǎng)絡(luò)信息資源的內(nèi)容質(zhì)量;二是大大縮小網(wǎng)絡(luò)信息資源采集的范圍,能夠降低網(wǎng)絡(luò)信息資源采集的技術(shù)、設(shè)備成本,也有利于網(wǎng)絡(luò)信息資源的知識產(chǎn)權(quán)合規(guī)管理,有效規(guī)避高校網(wǎng)頁檔案資源開放的法律風(fēng)險。
(2)規(guī)范化的網(wǎng)站建設(shè)。為提升本校網(wǎng)站的可訪問性,方便網(wǎng)絡(luò)信息資源的自動化識別和歸檔,本特利歷史圖書館發(fā)布了《網(wǎng)站可訪問性指南》對密歇根大學(xué)的各網(wǎng)站創(chuàng)建出規(guī)范化要求,具體包括:①所有大學(xué)網(wǎng)站和印刷材料上均應(yīng)包含版權(quán)行;②要確保網(wǎng)頁有效且符合HTML規(guī)范;③在網(wǎng)站站點的robots.txt文件開頭添加規(guī)定代碼,明確允許Archive-It對站點進行歸檔;④要求網(wǎng)站在HTML標(biāo)頭中使用描述性元數(shù)據(jù)元素來提供有關(guān)網(wǎng)站的文檔。
(3)定期捕獲和及時捕獲相結(jié)合的網(wǎng)絡(luò)信息資源采集。本特利歷史圖書館在利用Archive-It程序進行網(wǎng)頁歸檔的自動化處理過程中,本特利歷史圖書館根據(jù)需要歸檔網(wǎng)站內(nèi)容的一般變化情況,確定各網(wǎng)站的采集時間和頻率,將網(wǎng)站地址及其捕獲頻率提供給Archive-It。Archive-It按照本特利歷史圖書館設(shè)定好的捕獲頻率,定期對本特利選定的網(wǎng)站進行數(shù)據(jù)爬取,創(chuàng)建網(wǎng)頁存檔副本并進行存儲。此外,當(dāng)密歇根大學(xué)對其網(wǎng)站進行臨時性重大更改時,本特利歷史圖書館可以在Archive-It人工添加新的捕獲計劃。
(4)國際標(biāo)準(zhǔn)化的網(wǎng)絡(luò)信息資源編目與存儲。本特利歷史圖書館網(wǎng)頁歸檔資源的編目和存儲也在Archive-It程序的輔助下進行,在網(wǎng)絡(luò)信息資源的存儲上,采用WARC格式(網(wǎng)絡(luò)資源存檔國際標(biāo)準(zhǔn)ISO 28500:2009)進行網(wǎng)頁數(shù)據(jù)的存儲。在對所采集網(wǎng)絡(luò)信息資源的描述上,采用國際上廣泛使用的柏林核心元數(shù)據(jù)集對網(wǎng)絡(luò)信息資源的文件類型、標(biāo)題、內(nèi)容、URL、主題及發(fā)布者等進行描述與著錄。此外,Internet Archive還開發(fā)了一種能夠從WARC文件中抽取結(jié)構(gòu)化數(shù)據(jù)的方法WAT(Web Archive Transformation),便于對大規(guī)模數(shù)據(jù)集進行數(shù)據(jù)分析。采用國際通用的數(shù)據(jù)描述標(biāo)準(zhǔn)和存儲范式,有助于所收集網(wǎng)絡(luò)信息資源的整合共享、高效使用、二次開發(fā)和永續(xù)保存。
(5)多副本多服務(wù)器的網(wǎng)絡(luò)信息資源存儲。本特利歷史圖書館的網(wǎng)頁檔案不僅保存在Internet Archive的互聯(lián)網(wǎng)數(shù)據(jù)庫中,還備份存儲在密歇根大學(xué)的機構(gòu)資料庫Deep Blue中,支持通過Archive-It官網(wǎng)或密歇根大學(xué)的數(shù)字圖書館擴展服務(wù)訪問其網(wǎng)頁檔案。這種保存策略不僅能夠增強網(wǎng)絡(luò)信息資源存儲的安全性,而且能夠支持該校網(wǎng)頁檔案的多途徑訪問和利用,更好地滿足校內(nèi)和社會用戶的相關(guān)文獻信息需求。
本特利歷史圖書館提供多渠道網(wǎng)頁檔案資源檢索服務(wù)、網(wǎng)頁檔案資源索引與指南服務(wù)。一方面,用戶利用Archive-It的時光機項目(Wayback Machine)、本特利歷史圖書館檢索工具BHL Finding Aid和密歇根大學(xué)圖書館的數(shù)字圖書館擴展服務(wù)進行網(wǎng)頁檔案的檢索和訪問,便利本校用戶和公眾對本特利歷史圖書館網(wǎng)頁檔案的訪問和利用。另一方面,本特利歷史圖書館的檔案管理員整理并提供了網(wǎng)頁檔案的描述性指南與索引,列出了網(wǎng)頁存檔信息資源和網(wǎng)頁檔案的名稱、主題、摘要、創(chuàng)建者、采集日期等內(nèi)容,方便用戶確認(rèn)自己所需的網(wǎng)絡(luò)信息資源或按某一分類標(biāo)準(zhǔn)進行獲取具有特定特征的網(wǎng)頁存檔信息資源和網(wǎng)頁檔案。
本特利歷史圖書館的網(wǎng)頁歸檔實踐已初具規(guī)模,然而,其自動化處理和長期保存工作中依舊面臨網(wǎng)站存檔版本不完整的問題。具體而言,本特利歷史圖書館的網(wǎng)頁歸檔策略是針對html格式的靜態(tài)網(wǎng)頁,在對其他類型的網(wǎng)絡(luò)信息資源進行采集和存儲時,難以保留其完整形式、功能和內(nèi)容,主要包括:①存儲在不同域或子域上的鏈接內(nèi)容;②動態(tài)腳本或應(yīng)用程序,如JavaScript或Adobe Flash;③具有視頻或音頻內(nèi)容的流媒體播放器;④受密碼保護的材料;⑤需要與網(wǎng)站進行交互的表單或數(shù)據(jù)庫驅(qū)動的內(nèi)容[12]。
網(wǎng)絡(luò)信息資源是互聯(lián)網(wǎng)時代記錄和反映人類生產(chǎn)生活的重要文獻信息資源,是新時代我國文獻信息資源保障體系建設(shè)中關(guān)鍵的組成部分。然而,我國網(wǎng)頁歸檔工作尚處于起步階段,尚未形成系統(tǒng)性的網(wǎng)絡(luò)信息資源自動化處理和長期保存機制,學(xué)界、業(yè)界對歷史網(wǎng)絡(luò)信息資源潛在價值的二次開發(fā)與利用十分有限。由此,以習(xí)近平總書記“融合發(fā)展思想、開放發(fā)展理念”為指導(dǎo),將網(wǎng)絡(luò)信息資源納入我國文獻信息資源保障體系,建設(shè)便于社會各界獲取與利用的網(wǎng)頁檔案尤為必要。鑒于我國在網(wǎng)頁歸檔實踐中存在的問題,本文提出優(yōu)先進行高校網(wǎng)頁歸檔實踐,及時保留高校網(wǎng)站所記錄和反映的高校知識與歷史的網(wǎng)絡(luò)信息資源,為我國網(wǎng)頁歸檔事業(yè)提供經(jīng)驗和參考方案。
在借鑒國外最佳實踐的基礎(chǔ)上,要實現(xiàn)我國高校網(wǎng)絡(luò)信息資源的自動化處理與長期保存,完善高校文獻信息資源體系,確保高校重要網(wǎng)絡(luò)信息資源的可靠使用和永續(xù)利用,就要建立適合我國高校發(fā)展特點的網(wǎng)絡(luò)信息資源歸檔與保障模式。本文從文獻信息資源保障工作的核心內(nèi)容文獻信息資源的建設(shè)和服務(wù)兩方面出發(fā),結(jié)合本特利歷史圖書館的最佳實踐經(jīng)驗,構(gòu)建我國高校網(wǎng)絡(luò)信息資源歸檔與保障模式,如圖2所示。
圖2 高校網(wǎng)絡(luò)信息資源歸檔與保障模式
(1)網(wǎng)絡(luò)資源層。該層是服務(wù)于高校成員辦公和日?;顒拥母黝愔R產(chǎn)權(quán)歸本校所有的網(wǎng)站中所承載各類數(shù)據(jù)及資源的集合。高校官方網(wǎng)站、高校網(wǎng)頁論壇和高校成員用于高校各類活動自建的網(wǎng)站所承載的高校辦公、圖像、音頻、視頻的文件及高校數(shù)據(jù)庫、相關(guān)新聞報道、高校地圖等數(shù)字資源共同構(gòu)成高校的數(shù)字記憶[16]。網(wǎng)絡(luò)資源層的涵蓋范圍廣泛,資源內(nèi)容豐富,資源類型復(fù)雜且資源質(zhì)量不一,需要高校圖書館員對網(wǎng)絡(luò)資源層的海量資源進行篩選,保留具有長期保存價值的網(wǎng)絡(luò)信息資源。
(2)建設(shè)開發(fā)層。該層主要包含高校網(wǎng)絡(luò)信息資源的采集、組織、保存三方面的工作。本文從高校圖書館在建設(shè)開發(fā)中所需要采取的管理模式和網(wǎng)頁歸檔所需的相關(guān)技術(shù)兩方面出發(fā),梳理高校網(wǎng)絡(luò)信息資源建設(shè)開發(fā)過程各階段的組織和技術(shù)保障需求。在網(wǎng)絡(luò)信息資源的采集方面,需要圖書館為本校網(wǎng)站建設(shè)制定統(tǒng)一標(biāo)準(zhǔn),便于網(wǎng)絡(luò)信息資源的爬取和著錄。同時,在此階段,需要高校圖書館根據(jù)所需歸檔的網(wǎng)絡(luò)信息資源特點,選取成本合適、能夠可靠爬取網(wǎng)絡(luò)信息資源的爬蟲軟件。網(wǎng)絡(luò)信息資源的組織過程中,需要根據(jù)網(wǎng)絡(luò)信息資源的內(nèi)容特征進行歸檔,自動化處理軟件應(yīng)該按照統(tǒng)一標(biāo)準(zhǔn)進行編目。在網(wǎng)頁檔案資源保存階段,圖書館需要確保網(wǎng)頁檔案資源保存的安全性,采取多副本分布式存儲策略,網(wǎng)頁檔案資源的存儲格式應(yīng)與WARC相一致。
(3)應(yīng)用服務(wù)層。該層主要包含實現(xiàn)高校網(wǎng)頁檔案資源有效可靠保障的各類服務(wù)。通過多服務(wù)器存儲拓寬高校網(wǎng)頁檔案資源的服務(wù)對象范圍,便于高校用戶和社會用戶對高校網(wǎng)頁檔案資源的開發(fā)利用。一方面,提供全文搜索和瀏覽列表等多種檢索方式,將托管的網(wǎng)頁檔案集合直接鏈接到機構(gòu)本地的搜索頁面。同時,推出便于網(wǎng)頁檔案資源開發(fā)利用的相關(guān)知識服務(wù),提供數(shù)據(jù)驅(qū)動研究方法,如網(wǎng)絡(luò)分析、文本與數(shù)據(jù)挖掘、縱向內(nèi)容分析等擴展用戶訪問和分析歸檔網(wǎng)頁資源的方式[13],確保高校網(wǎng)頁檔案資源的保障效果。
我國高校網(wǎng)絡(luò)信息資源的自動化處理與長期保存工作,不僅要探索適應(yīng)我國高校當(dāng)前發(fā)展水平和特點的網(wǎng)絡(luò)信息資源歸檔與保障模式,更要構(gòu)建能夠長期有效指導(dǎo)的我國高校網(wǎng)絡(luò)信息資源自動化處理與長期保存的策略框架,從而保證高校網(wǎng)絡(luò)信息資源建設(shè)與服務(wù)能夠適應(yīng)時代發(fā)展,不斷提升高校文獻信息資源的保障水平。本文從文獻信息資源保障的視角出發(fā),通過分析本特利歷史圖書館在高校網(wǎng)絡(luò)信息資源的自動化處理與長期保存中運用的技術(shù)和管理策略,發(fā)現(xiàn)網(wǎng)頁歸檔中的策略制定主要包括三方面內(nèi)容,分別是網(wǎng)頁歸檔的對象網(wǎng)絡(luò)信息資源,網(wǎng)頁歸檔所用的自動化處理與長期保存相關(guān)技術(shù),以及網(wǎng)頁歸檔所需要的組織管理。因此,本文從資源、技術(shù)和管理三個維度構(gòu)建我國高校網(wǎng)頁檔案資源的自動化處理與長期保存策略框架(見圖3)。
圖3 高校網(wǎng)絡(luò)檔案信息自動化處理與長期保存策略框架
(1)基于開放聯(lián)合的高校網(wǎng)絡(luò)信息資源規(guī)劃與采集。當(dāng)前高校文獻信息資源建設(shè)的邊界仍需拓展,不僅要建設(shè)傳統(tǒng)文獻信息資源和數(shù)字出版物,還要關(guān)注網(wǎng)絡(luò)信息資源的文獻價值,將高校有關(guān)網(wǎng)站及各互聯(lián)網(wǎng)平臺上與高校相關(guān)的文獻信息資源納入高校文獻信息資源建設(shè)的整體規(guī)劃,進行網(wǎng)絡(luò)信息資源采集與建設(shè)的探索和實踐。具體而言,高校應(yīng)主動承擔(dān)起本校重要網(wǎng)網(wǎng)絡(luò)信息資源的歸檔工作,對外主動聯(lián)合先進的網(wǎng)絡(luò)信息資源管理機構(gòu),吸收先進的網(wǎng)頁歸檔自動化處理技術(shù)與方案;對內(nèi)規(guī)范網(wǎng)站建設(shè),篩選出具有長期保存價值的網(wǎng)站,主導(dǎo)各類網(wǎng)絡(luò)信息資源的采集、網(wǎng)頁檔案自建工作,豐富高校文獻信息資源保障類型,形成立體化、多樣態(tài)高校文獻信息資源體系。
(2)基于多元協(xié)同的高校網(wǎng)頁檔案資源組織與長期保存。在開放環(huán)境下,高校應(yīng)積極開展高校間及社會各文獻資源保障機構(gòu)間的合作交流,促進各主體網(wǎng)頁檔案資源的共建共享,探索多主體協(xié)同合作的文獻信息資源長期保存模式。具體而言,高校在進行網(wǎng)頁歸檔實踐時應(yīng)該充分吸收社會各界的技術(shù)、經(jīng)驗,吸收先進的網(wǎng)絡(luò)信息資源自動化處理和長期保存技術(shù),確定統(tǒng)一的網(wǎng)頁檔案資源編目標(biāo)準(zhǔn)和存儲格式,一方面方便網(wǎng)絡(luò)信息資源的整合、更新和共享;另一方面,便于網(wǎng)頁檔案資源的多副本分布式存儲,增強網(wǎng)頁檔案資源的容災(zāi)性和安全性[17],保證網(wǎng)頁檔案資源的可靠使用和永續(xù)利用。
(3)基于跨界融合的高校網(wǎng)頁檔案資源開放與共享。高校作為知識、發(fā)現(xiàn)和教育的中心以及公共資助的機構(gòu),應(yīng)該積極承擔(dān)文獻信息資源建設(shè)、服務(wù)與創(chuàng)新性實踐的使命與職責(zé)。在我國網(wǎng)頁歸檔事業(yè)的發(fā)展進程中,率先開展實踐,探索高校網(wǎng)絡(luò)信息資源的自動化處理與長期保存方案,對內(nèi)完善網(wǎng)站建設(shè)規(guī)范,采集、組織和保存有歷史價值的網(wǎng)絡(luò)信息資源,形成更加立體化、多樣態(tài)的高校文獻信息資源保障體系;對外提供開放接口,向社會研究人員與機構(gòu)提供優(yōu)質(zhì)的信息源,促進高校網(wǎng)絡(luò)信息資源的社會化開發(fā)。
網(wǎng)絡(luò)信息資源是互聯(lián)網(wǎng)時代我國文獻信息資源體系的重要組成部分,高校網(wǎng)頁歸檔實踐不僅完善了高校文獻信息資源體系,為挖掘高校歷史和開展相關(guān)研究提供了優(yōu)質(zhì)文獻信息源;同時,還能夠為我國網(wǎng)頁歸檔事業(yè)提供參考。本文通過本特利歷史圖書館的網(wǎng)頁歸檔實踐,總結(jié)其對網(wǎng)絡(luò)信息資源自動化處理和長期保存的策略,從網(wǎng)絡(luò)信息資源的規(guī)劃采集、組織保存、開放共享三方面構(gòu)建了我國高校網(wǎng)絡(luò)信息資源自動化處理與長期保存策略的系統(tǒng)框架。