張耀蕾
(武漢大學(xué)圖書館 湖北 武漢 430072)
哈佛大學(xué)圖書館網(wǎng)絡(luò)資源保存服務(wù)項(xiàng)目的研究和啟示
張耀蕾
(武漢大學(xué)圖書館 湖北 武漢 430072)
哈佛大學(xué)圖書館于2006年開(kāi)始啟動(dòng)網(wǎng)絡(luò)資源保存服務(wù)項(xiàng)目,旨在長(zhǎng)期保存有學(xué)術(shù)價(jià)值的網(wǎng)絡(luò)資源。該項(xiàng)目的目標(biāo)、流程、技術(shù)支持、知識(shí)產(chǎn)權(quán)、成果及服務(wù)的研究表明,目前網(wǎng)絡(luò)資源保存項(xiàng)目的技術(shù)門檻已經(jīng)降低、項(xiàng)目運(yùn)作成熟化。我國(guó)高校圖書館可以借鑒哈佛大學(xué)圖書館,開(kāi)展網(wǎng)絡(luò)資源保存項(xiàng)目,保存中文學(xué)術(shù)性網(wǎng)絡(luò)資源。
哈佛大學(xué)圖書館 網(wǎng)絡(luò)資源保存 網(wǎng)絡(luò)資源保存服務(wù)項(xiàng)目
網(wǎng)絡(luò)資源保存(Web Archive,簡(jiǎn)稱WA)始于20世紀(jì)90年代末[1]。在數(shù)字時(shí)代,網(wǎng)絡(luò)資源已經(jīng)超越傳統(tǒng)的印本資源,成為世界上規(guī)模最大、增長(zhǎng)最快、管理最難的信息資源。根據(jù)統(tǒng)計(jì),截至2013年12月,我國(guó)網(wǎng)頁(yè)總數(shù)為1 500億個(gè),相比2012年同期增長(zhǎng)了22.2%[2];而網(wǎng)頁(yè)的平均壽命則只有44天[3]。也就是說(shuō),在指數(shù)級(jí)別的增長(zhǎng)過(guò)程中,很多重要的網(wǎng)絡(luò)資源尤其是學(xué)術(shù)性資源,被大量淹沒(méi)在網(wǎng)絡(luò)世界中,或者由于地址變更而消失。因此,網(wǎng)絡(luò)資源保存迫在眉睫。
1996年,美國(guó)非營(yíng)利性組織Internet Archive的成立標(biāo)志著WA研究的興起[4]。迄今為止歐美WA的發(fā)展已經(jīng)初具規(guī)模,已完成或正在推進(jìn)的項(xiàng)目有近百項(xiàng),如澳大利亞國(guó)家圖書館的PANDORA(Preserving and Accessing Networked Documentary Resources of Australia,保存和獲取澳大利亞網(wǎng)絡(luò)文獻(xiàn)資源)項(xiàng)目,美國(guó)國(guó)會(huì)圖書館的Minerva項(xiàng)目等[4]。我國(guó)的網(wǎng)絡(luò)信息資源保存尚處于試驗(yàn)和論證研究階段,啟動(dòng)和開(kāi)展的兩個(gè)主要項(xiàng)目是2002年北京大學(xué)的Web信息博物館(Web Infomall)項(xiàng)目[5]和2003年中國(guó)國(guó)家圖書館的“網(wǎng)絡(luò)信息采集與保存”(Web Information Collection and Preservation,簡(jiǎn)稱WICP)與“網(wǎng)絡(luò)數(shù)據(jù)庫(kù)導(dǎo)航”(Online Database Navigation,簡(jiǎn)稱ODBN)項(xiàng)目[6]。
研究表明,目前的WA項(xiàng)目主要由國(guó)家級(jí)圖書館、聯(lián)盟組織,如IA(Internet Archive,網(wǎng)絡(luò)檔案)、IIPC(International Internet Preservation Consortium,國(guó)際網(wǎng)絡(luò)保存聯(lián)盟),以及專業(yè)研究機(jī)構(gòu),如SDSC(San Diego Supercomputer Center,圣地亞哥超型計(jì)算機(jī)中心)負(fù)責(zé)運(yùn)作。其中,國(guó)家級(jí)圖書館是WA項(xiàng)目的主體[4]。這是由于WA項(xiàng)目自身資源的海量性、復(fù)雜性及技術(shù)依賴性強(qiáng)等特點(diǎn),使得初期WA項(xiàng)目的開(kāi)展面臨巨大的困難和挑戰(zhàn),決定了當(dāng)時(shí)WA項(xiàng)目無(wú)法單靠某一個(gè)機(jī)構(gòu)完成,而是由國(guó)家級(jí)圖書館、聯(lián)盟組織、研究機(jī)構(gòu)等跨國(guó)家、跨行業(yè)、跨語(yǔ)種合作,來(lái)有效分擔(dān)責(zé)任、降低風(fēng)險(xiǎn)、使獲益最大化。國(guó)家級(jí)圖書館在WA項(xiàng)目發(fā)展初期的領(lǐng)導(dǎo)者身份,比較容易爭(zhēng)取政府的法律、政策、基金支持,在尋求合作、構(gòu)建規(guī)范和體系等方面具有更強(qiáng)的優(yōu)勢(shì)。
而現(xiàn)在,網(wǎng)絡(luò)資源的爆炸式增長(zhǎng)對(duì)超大保存項(xiàng)目的存儲(chǔ)容量和技術(shù)維護(hù)提出了巨大的挑戰(zhàn)。例如,作為我國(guó)最大、最完整的互聯(lián)網(wǎng)信息收集與倉(cāng)儲(chǔ)中心,北大的Web Infomall目前收藏有2001年以來(lái)約75億個(gè)中文網(wǎng)頁(yè),并以平均每分鐘1 500 篇的網(wǎng)頁(yè)抓取速度擴(kuò)張[5]。同時(shí),WA項(xiàng)目發(fā)展更加成熟,技術(shù)門檻逐漸降低,模塊化體系結(jié)構(gòu)得到完善,為更多機(jī)構(gòu)參與WA項(xiàng)目提供了機(jī)會(huì)。
高校圖書館參與WA項(xiàng)目,在保存特色化、學(xué)術(shù)性的網(wǎng)絡(luò)資源方面有其天然的人才和資源優(yōu)勢(shì),一方面可以分擔(dān)國(guó)家級(jí)網(wǎng)絡(luò)資源保存的壓力,另一方面可以提高網(wǎng)絡(luò)資源采集和保存的質(zhì)量、優(yōu)化館藏結(jié)構(gòu)。在這方面,哈佛大學(xué)圖書館作出了榜樣。
下文通過(guò)對(duì)哈佛大學(xué)圖書館網(wǎng)絡(luò)資源保存服務(wù)(Web Archive Collection Service,簡(jiǎn)稱WAX)項(xiàng)目的研究,討論我國(guó)高校圖書館參與WA項(xiàng)目的啟示。
WAX項(xiàng)目是哈佛大學(xué)圖書館開(kāi)發(fā)的網(wǎng)絡(luò)資源保存服務(wù),用于有選擇性地收集并保存有價(jià)值的學(xué)術(shù)性網(wǎng)絡(luò)資源,為將來(lái)長(zhǎng)期利用網(wǎng)絡(luò)資源的研究提供支持[7]。其項(xiàng)目成果是基于網(wǎng)絡(luò)的數(shù)字資源系統(tǒng),采用網(wǎng)絡(luò)界面為使用者提供資源存儲(chǔ)和檢索服務(wù)。
2006年7月,哈佛大學(xué)圖書館數(shù)字先導(dǎo)部(Library Digital Initiative,簡(jiǎn)稱LDI)出資啟動(dòng)了WAX項(xiàng)目,旨在處理長(zhǎng)期保存的網(wǎng)站資源[8]。起初WAX項(xiàng)目?jī)H是一個(gè)專門保存原生數(shù)字資源的LDI項(xiàng)目?,F(xiàn)在它已經(jīng)切換為哈佛大學(xué)圖書館的核心網(wǎng)絡(luò)資源提供系統(tǒng)。2009年2月,WAX系統(tǒng)正式上線,付諸使用[8]。
2.1 保存目標(biāo)和對(duì)象
高校圖書館要像管理印本資源一樣,對(duì)有學(xué)術(shù)價(jià)值的網(wǎng)絡(luò)資源進(jìn)行管理,如學(xué)術(shù)博客、個(gè)人網(wǎng)站、機(jī)構(gòu)網(wǎng)站等。但是海量網(wǎng)絡(luò)資源的管理和利用是圖書館面臨的一項(xiàng)挑戰(zhàn)。哈佛大學(xué)圖書館WAX項(xiàng)目的開(kāi)發(fā)就是基于這樣的挑戰(zhàn)。
WAX項(xiàng)目所保存的必須達(dá)到以下要求:不限學(xué)科和主題領(lǐng)域;必須具有圖書館式的資源質(zhì)量,即資源學(xué)術(shù)性強(qiáng)、有長(zhǎng)期保存的價(jià)值、旨在支持研究或教學(xué)[9]。
目前,哈佛大學(xué)圖書館發(fā)布的第一版WAX系統(tǒng)支持保存可公開(kāi)獲取的網(wǎng)站資源,即可被搜索引擎發(fā)現(xiàn)的表層網(wǎng)的內(nèi)容,而那些隱藏在數(shù)據(jù)庫(kù)中、或者被密碼限制或登錄保護(hù)的深層網(wǎng)內(nèi)容,鑒于技術(shù)等原因暫時(shí)無(wú)法獲取;但是哈佛大學(xué)圖書館宣稱在將來(lái)的版本中,可以為哈佛社區(qū)讀者提供受限的網(wǎng)絡(luò)資源[9]。
2.2 管理和開(kāi)發(fā)團(tuán)隊(duì)
WAX項(xiàng)目由哈佛大學(xué)圖書館的信息系統(tǒng)辦公室(Office for Information Systems ,簡(jiǎn)稱OIS)聯(lián)合其他三個(gè)校內(nèi)合作者共同開(kāi)發(fā),即哈佛大學(xué)檔案館(隸屬于哈佛大學(xué)圖書館)、亞瑟與伊麗莎白·施萊辛格圖書館美洲女性歷史項(xiàng)目組(隸屬于拉德克利夫高等研究學(xué)院)、愛(ài)德溫·歐·賴肖爾日本研究機(jī)構(gòu)(隸屬于藝術(shù)與科學(xué)系,哈佛學(xué)院圖書館贊助)[8],每個(gè)合作者專注于一個(gè)特殊的學(xué)術(shù)領(lǐng)域。
哈佛大學(xué)圖書館的數(shù)字內(nèi)容系統(tǒng)工作組(Digital Content Systems Working Group) 是WAX項(xiàng)目的監(jiān)管委員會(huì),它向OIS提出關(guān)于數(shù)字資產(chǎn)的建立、保存和維護(hù)等各方面的技術(shù)或政策建議,OIS則通過(guò)下設(shè)的支持小組向WAX項(xiàng)目提供系統(tǒng)支持[10]。
所有管理者通過(guò)基于網(wǎng)絡(luò)的WAXI(Web Archive Collection Service Maintenance Interface,網(wǎng)絡(luò)資源保存服務(wù)項(xiàng)目維護(hù)界面)來(lái)選擇、收割、管理和描述網(wǎng)絡(luò)資源[11]。
表1 哈佛大學(xué)圖書館WAX項(xiàng)目采用的開(kāi)源工具[9]
2.3 技術(shù)支持
WAX系統(tǒng)的采集和管理采用了IA和IIPC成員開(kāi)發(fā)的幾項(xiàng)開(kāi)源工具,具體如表1所示。收割來(lái)的網(wǎng)絡(luò)資源保存在哈佛大學(xué)圖書館的數(shù)字倉(cāng)儲(chǔ)服務(wù)系統(tǒng)(Digital Repository Service,簡(jiǎn)稱DRS),并可通過(guò)WAX系統(tǒng)的公共界面進(jìn)行瀏覽和檢索。
2.4 工作流程
2.4.1 立項(xiàng)
能夠申請(qǐng)WAX子項(xiàng)目的機(jī)構(gòu)或個(gè)人,首先必須是哈佛的圖書館、博物館或者檔案館的成員,有能力規(guī)劃、建設(shè)和管理WAX項(xiàng)目。申請(qǐng)者向OIS提交申請(qǐng)表格,內(nèi)容包括WAX項(xiàng)目的目標(biāo)和內(nèi)容、預(yù)期時(shí)間表、擬保存網(wǎng)站的網(wǎng)址或模板、所用語(yǔ)種等信息[12]。在項(xiàng)目評(píng)估階段,管理者將和申請(qǐng)者討論項(xiàng)目的可行性,并評(píng)估項(xiàng)目的規(guī)模。一旦項(xiàng)目通過(guò)了評(píng)估,OIS將反饋一個(gè)項(xiàng)目建議書,包含任務(wù)的初始輪廓、項(xiàng)目時(shí)間表及相關(guān)費(fèi)用,同時(shí)指派一個(gè)數(shù)字項(xiàng)目聯(lián)絡(luò)員給予幫助。這一過(guò)程通常需要3個(gè)月的時(shí)間[9]。
2.4.2 收割并保存網(wǎng)絡(luò)資源
項(xiàng)目啟動(dòng)后,管理者會(huì)確定目標(biāo)網(wǎng)站,將網(wǎng)址URL和網(wǎng)站管理者聯(lián)系方式(主要是電子郵件)發(fā)送給數(shù)字館員(Digital Librarian/Archivist),數(shù)字館員隨后會(huì)和網(wǎng)站管理者聯(lián)系,告知WAX項(xiàng)目將收割其網(wǎng)站內(nèi)容,并與其簽訂一份同意收割的協(xié)議書;網(wǎng)站內(nèi)容被收割以后,數(shù)字館員為其賦予特定的統(tǒng)一資源名稱(Uniform Resource Name,簡(jiǎn)稱URN),并在相應(yīng)的檢索工具(Finding Aids)中加上超鏈接;根據(jù)法律的規(guī)定,通常首次收割后必須延遲3個(gè)月的時(shí)間,保存的內(nèi)容才能夠通過(guò)WAX系統(tǒng)的公共界面供公共讀者使用;最后,數(shù)字館員會(huì)討論決定網(wǎng)站收割的范圍(全域收割或局域收割)和頻率(每月/每年等)[13]。
哈佛使用的網(wǎng)絡(luò)爬蟲(chóng)名為hul-wax,它的行為遵循“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”,即通用的Robots協(xié)議[14]。網(wǎng)站所有者也可以用規(guī)定的語(yǔ)句修改本網(wǎng)站的robots.txt文件,以決定是否允許hul-wax收割自己的網(wǎng)站資源[15]。
2.4.3 知識(shí)產(chǎn)權(quán)
哈佛大學(xué)圖書館WAX項(xiàng)目的使用條款[16]規(guī)定:(1)使用范圍:網(wǎng)站和內(nèi)容僅用于個(gè)人學(xué)術(shù)研究,受版權(quán)法、商標(biāo)法等法律保護(hù);(2)使用許可:使用者的任何傳播行為必須遵守相關(guān)法律,必要時(shí)必須獲得利益所有者的許可。哈佛擁有其設(shè)計(jì)和管理的WAX網(wǎng)站,個(gè)人科研之外的使用必須獲得哈佛的許可。
2.4.4 費(fèi)用
根據(jù)哈佛2014關(guān)于技術(shù)服務(wù)費(fèi)用的財(cái)政年度報(bào)告,WAX項(xiàng)目的參與者要承擔(dān)以下費(fèi)用:一次性的啟動(dòng)費(fèi)用$12 000,包含分析、培訓(xùn)、支持費(fèi)用,以及啟動(dòng)年的操作成本等[9];年度維護(hù)費(fèi)用$7 800,包含數(shù)據(jù)庫(kù)維護(hù)和管理的直接增量成本,如硬件維護(hù)、服務(wù)器維護(hù)、設(shè)備和監(jiān)控、數(shù)據(jù)處理和存儲(chǔ)等費(fèi)用[17];以及DRS數(shù)據(jù)庫(kù)保存數(shù)據(jù)的常規(guī)存儲(chǔ)費(fèi)用,$1.80/十億字節(jié)/年[17]。
2.5 成果和服務(wù)
目前,WAX項(xiàng)目已經(jīng)保存了5個(gè)主題的網(wǎng)絡(luò)資源集合,其服務(wù)僅限于哈佛大學(xué)圖書館、博物館、檔案館及其所贊助的其他哈佛社區(qū)機(jī)構(gòu)[9]。
2.5.1 成果:五個(gè)主題的網(wǎng)絡(luò)資源保存集合
哈佛大學(xué)圖書館WAX項(xiàng)目的3個(gè)主要參與機(jī)構(gòu)已經(jīng)保存了5個(gè)主題的網(wǎng)絡(luò)資源子集。
哈佛大學(xué)檔案館(Harvard University Archives)保存了兩個(gè)子集:其一是橫跨幾個(gè)世紀(jì)、數(shù)以千記的個(gè)人檔案和哈佛附屬機(jī)構(gòu)的記錄集;其二是哈佛文理學(xué)院學(xué)位授予機(jī)構(gòu)和委員會(huì)的網(wǎng)站信息集,重點(diǎn)收集和保存學(xué)校的相關(guān)記錄。檔案館計(jì)劃進(jìn)一步關(guān)注目前在哈佛生活、工作、學(xué)習(xí)的教職工和學(xué)生,并將部分收集哈佛訪問(wèn)學(xué)者的知識(shí)和社會(huì)成果。
亞瑟與伊麗莎白·施萊辛格美洲婦女歷史圖書館(Arthur and Elizabeth Schlesinger Library on the History of Women in America)保存了兩個(gè)子集:其一是館藏收藏在施萊辛格圖書館的機(jī)構(gòu)和個(gè)人所創(chuàng)建的網(wǎng)站集,這些網(wǎng)站是這些機(jī)構(gòu)和個(gè)人重要活動(dòng)和貢獻(xiàn)的印本文獻(xiàn)之外的重要補(bǔ)充和擴(kuò)展;其二是20個(gè)樣本博客的內(nèi)容集,這些博客描繪了非洲裔和拉丁裔女性、女同性戀的生活,以及女性在健康和生殖方面的問(wèn)題,同時(shí)也具有代表性地反映了她們的政治參與、個(gè)人生活及工作生活等方面的情況。
埃德溫·歐·賴肖爾日本研究所(Edwin O. Reischauer Institute of Japanese Studies)保存的是與日本憲法修訂相關(guān)的網(wǎng)站信息,其同時(shí)定期保存了其他近80個(gè)相關(guān)網(wǎng)站的內(nèi)容以供相關(guān)學(xué)者使用。
2.5.2 檢索服務(wù)[18]
(1)檢索方式
WAX項(xiàng)目目前有5個(gè)子集,使用者可以單獨(dú)檢索某一個(gè)子集,或者跨庫(kù)檢索多個(gè)子集。在某一集合頁(yè)面,使用者可以檢索整個(gè)集合,或者選擇檢索某個(gè)單獨(dú)網(wǎng)站。WAX項(xiàng)目對(duì)所保存的網(wǎng)站資源可提供全文關(guān)鍵詞檢索,包括網(wǎng)頁(yè)內(nèi)的文字、鏈接和PDF文件;但目前不提供除加號(hào)、減號(hào)、引號(hào)以外的其他通配符檢索。高級(jí)檢索方面,目前WAX項(xiàng)目?jī)H提供少量高級(jí)選項(xiàng)幫助檢索特定文件類型或URLs的網(wǎng)絡(luò)資源,如用“type:application/pdf”限定檢索PDF文檔。
(2)檢索結(jié)果
WAX系統(tǒng)的檢索結(jié)果默認(rèn)按相關(guān)性展示,最相關(guān)的排在最前。WAX系統(tǒng)通常提供同一網(wǎng)絡(luò)資源不同時(shí)期的多保存版本,版本多少取決于WAX項(xiàng)目管理者為不同網(wǎng)站設(shè)置的收割頻率。值得注意的是,在收割網(wǎng)站和提供檢索之間有最少3個(gè)月延期。在檢索結(jié)果中有3種選擇:“最近保存版”提供最新保存的網(wǎng)頁(yè)版本,“全部保存版”按時(shí)間順序提供所有保存網(wǎng)頁(yè)的版本列表,“更多”提供特定網(wǎng)站的更多檢索結(jié)果。
(3)讀者界面
WAX系統(tǒng)的公共界面適合多數(shù)支持JavaScript的瀏覽器,語(yǔ)種支持英語(yǔ)和日語(yǔ),字符集采用UTF-8。目前,可供讀者使用的元素有博客內(nèi)容、博客評(píng)論、超鏈接、圖像、展開(kāi)/折疊菜單、下拉菜單、非拉丁文字及音視頻資源(以外部鏈接方式提供的音視頻資源目前仍無(wú)法正確收割)。鑒于技術(shù)原因,網(wǎng)頁(yè)中的部分內(nèi)容(如檢索框、下拉菜單、申請(qǐng)表格等)無(wú)法正常顯示;另外網(wǎng)頁(yè)中的某些個(gè)別部分可能不會(huì)收割(如廣告、圖像等),因?yàn)檫@些內(nèi)容被Robots協(xié)議所排除。這些丟失內(nèi)容的位置上會(huì)用“Section not archived”填充。在查看項(xiàng)目中保存的網(wǎng)絡(luò)資源時(shí),要注意:等待WAX系統(tǒng)下載網(wǎng)頁(yè)完畢后再點(diǎn)擊網(wǎng)頁(yè)中的鏈接,否則很可能將你帶到正式網(wǎng)站上去。
2.5.3 反饋服務(wù)
為了更好地提供服務(wù),WAX系統(tǒng)還在首頁(yè)下方提供了一個(gè)Questions and Comments服務(wù)[19],用戶可以提交表單以反饋意見(jiàn)和建議,這便于WAX的完善和改進(jìn)。如果網(wǎng)站所有者愿意與WAX項(xiàng)目共享自己受版權(quán)保護(hù)的內(nèi)容,也可以向哈佛提供WAX反饋表,內(nèi)容包括網(wǎng)頁(yè)URL、保存日期和時(shí)間、版權(quán)保護(hù)的特定內(nèi)容等。
3.1 技術(shù)門檻降低
WA項(xiàng)目起初最大的難點(diǎn)之一在于技術(shù)性要求高,需要有專門的采集、存儲(chǔ)、索引、訪問(wèn)等工具和系統(tǒng)。高校圖書館技術(shù)力量有限,沒(méi)有人力、物力、財(cái)力負(fù)擔(dān)技術(shù)開(kāi)發(fā)。而目前經(jīng)過(guò)多年的發(fā)展,國(guó)際上WA已經(jīng)形成了較好的模塊化體系架構(gòu),各環(huán)節(jié)都提供了較成熟的開(kāi)源模塊和工具;同時(shí),一些遵循開(kāi)放檔案信息系統(tǒng)(Open Archival Information System,簡(jiǎn)稱OAIS)模式的長(zhǎng)期保存系統(tǒng)也投入實(shí)際服務(wù)。
例如,澳大利亞國(guó)家圖書館的PANDORA項(xiàng)目研發(fā)了數(shù)字檔案管理系統(tǒng)(Pandora Digital Archiving System,簡(jiǎn)稱PANDAS),供給成員使用并提供技術(shù)支持。2004年英國(guó)網(wǎng)絡(luò)信息保存計(jì)劃(UK Web Archiving Consortium project,簡(jiǎn)稱UKWAC)就采用了PANDAS,并與IIPC、IA等機(jī)構(gòu)合作開(kāi)發(fā)WA保存工具[4]。
2003年成立的IIPC則在WA系統(tǒng)架構(gòu)、標(biāo)準(zhǔn)規(guī)范、元數(shù)據(jù)等方面建立了一系列技術(shù)規(guī)范,并資助其成員開(kāi)發(fā)了從網(wǎng)絡(luò)資源采集到提供訪問(wèn)服務(wù)的一系列高質(zhì)量、易于使用的開(kāi)源軟件工具,包括網(wǎng)絡(luò)數(shù)字打撈工具(Web Curator Tool,簡(jiǎn)稱WCT)、互聯(lián)網(wǎng)采集高性能爬蟲(chóng)Heritrix、網(wǎng)絡(luò)爬蟲(chóng)工具Smart Crawler、網(wǎng)頁(yè)遷移工具DeepArc等采集工具,NutchWAX (Nutch Web Archive eXtensions)、可擴(kuò)展文本框架(eXtensible Text Framework,簡(jiǎn)稱XTF)等索引工具,以及Xing(XML INQuire)等訪問(wèn)工具[4]。
另外,美國(guó)SDSC開(kāi)發(fā)的Chronopolis項(xiàng)目,建立了基于網(wǎng)格的概念性長(zhǎng)期保存框架;葡萄牙里斯本大學(xué)開(kāi)發(fā)的Tumba搜索引擎關(guān)注大規(guī)模網(wǎng)絡(luò)資源不同時(shí)間點(diǎn)、不同版本的“原貌”呈現(xiàn);德國(guó)馬普學(xué)會(huì)計(jì)算機(jī)研究院開(kāi)發(fā)的YAGO搜索引擎實(shí)現(xiàn)了網(wǎng)絡(luò)環(huán)境下大規(guī)模網(wǎng)絡(luò)資源給予本體的語(yǔ)義搜索[4]。
從哈佛大學(xué)圖書館WAX項(xiàng)目來(lái)看,其采用了IA、IIPC等開(kāi)發(fā)的、現(xiàn)成的開(kāi)源工具,于2006年啟動(dòng)、2009年上線,數(shù)年間已經(jīng)初具規(guī)模。該項(xiàng)目的快速發(fā)展,建立在近十年來(lái)WA領(lǐng)域各國(guó)家級(jí)機(jī)構(gòu)和研究組織所積累的豐富的技術(shù)經(jīng)驗(yàn)的基礎(chǔ)上。這也說(shuō)明目前高校圖書館參與WA項(xiàng)目有了豐富的技術(shù)和平臺(tái)支持。
3.2 項(xiàng)目運(yùn)作成熟化
盡管WA項(xiàng)目在標(biāo)準(zhǔn)化、知識(shí)產(chǎn)權(quán)以及系統(tǒng)研發(fā)、國(guó)際合作等方面仍有許多待完善的地方,但是歐美在這方面已經(jīng)逐步進(jìn)入成熟化的運(yùn)作階段。在項(xiàng)目模式方面,澳大利亞PANDORA建立了基于采集的合作模式;IIPC構(gòu)建了基于工具開(kāi)發(fā)的國(guó)際合作框架;SDSC建立了基于網(wǎng)格存儲(chǔ)的合作框架[3]。
從WAX項(xiàng)目的運(yùn)作可以看出,哈佛完全有能力在校內(nèi)的圖書館系統(tǒng)內(nèi)擔(dān)負(fù)起整個(gè)項(xiàng)目的管理和運(yùn)作。WAX項(xiàng)目通過(guò)圖書館的數(shù)字內(nèi)容系統(tǒng)工作組和信息系統(tǒng)辦公室進(jìn)行管理,設(shè)立專門的支持小組提供技術(shù)服務(wù),并形成了一系列工作規(guī)范和指導(dǎo)文件[20],如工作流程指南、資源收割質(zhì)量評(píng)估指南、常用問(wèn)題集錦、資源列表等;同時(shí)將收割來(lái)的網(wǎng)站數(shù)據(jù)作為哈佛的正式數(shù)字資源在DRS系統(tǒng)中長(zhǎng)期保存和使用,這樣就和現(xiàn)有圖書館系統(tǒng)無(wú)縫鏈接,方便本校研究者使用。
我國(guó)技術(shù)能力強(qiáng)、項(xiàng)目管理經(jīng)驗(yàn)豐富的高校圖書館完全可以借用哈佛大學(xué)圖書館的自主模式打造WA項(xiàng)目;而技術(shù)能力較弱的高校圖書館,則可以考慮申請(qǐng)與已經(jīng)有豐富經(jīng)驗(yàn)的國(guó)家圖書館或北大圖書館合作,或者區(qū)域性多館合作,以獲取技術(shù)支持和資金支持、共享保存成果、擴(kuò)大資源效益。
3.3 精選學(xué)術(shù)性保存對(duì)象
從哈佛大學(xué)圖書館WAX項(xiàng)目來(lái)看,其3個(gè)參與機(jī)構(gòu)都有各自的學(xué)術(shù)重點(diǎn),哈佛大學(xué)檔案館專注于收藏哈佛本校院系師生的網(wǎng)絡(luò)資源;亞瑟與伊麗莎白·施萊辛格與美洲婦女歷史圖書館一方面收藏本機(jī)構(gòu)自建的網(wǎng)絡(luò)資源,一方面收藏與美洲女性史相關(guān)的樣本博客資源;愛(ài)德溫·歐·賴肖爾日本研究所則專門收藏與日本憲法修訂有關(guān)的網(wǎng)絡(luò)資源。三個(gè)參與機(jī)構(gòu)的共同特點(diǎn)是針對(duì)研究者的科研項(xiàng)目進(jìn)行收藏,收藏的對(duì)象網(wǎng)站經(jīng)過(guò)專家學(xué)者的精選,目標(biāo)明確,操作性強(qiáng),實(shí)用性高,保證了長(zhǎng)期收藏的價(jià)值。
高校圖書館保存網(wǎng)絡(luò)資源不能追求大和全,而應(yīng)追求專和精。針對(duì)亟待保存的網(wǎng)絡(luò)資源,國(guó)家級(jí)圖書館往往采用全面收集、聯(lián)合收集以及與出版商協(xié)作合作收集的策略。其弱點(diǎn)顯而易見(jiàn),系統(tǒng)壓力大、質(zhì)量難以控制、資金要求高、規(guī)模龐大而難以獲取深層網(wǎng)絡(luò)信息。而且,即使是國(guó)家級(jí)圖書館也難以完全實(shí)現(xiàn)全面收集,而是針對(duì)重大專題進(jìn)行保存,目前只有挪威的網(wǎng)絡(luò)信息選擇策略是全部搜索[21]。況且高校圖書館在選擇性收集和專題收集上有天然的優(yōu)勢(shì),其可以針對(duì)各個(gè)高校的學(xué)科重點(diǎn)和文獻(xiàn)采集策略集中收集單一學(xué)科的學(xué)術(shù)性網(wǎng)絡(luò)資源,并提供給學(xué)者研究使用。
3.4 細(xì)化資金預(yù)算
從哈佛2014年的WAX項(xiàng)目經(jīng)費(fèi)方案[18]來(lái)看,經(jīng)費(fèi)包括一次性的項(xiàng)目啟動(dòng)資金為12 000美元,每年的維護(hù)費(fèi)用為7 800美元,以及網(wǎng)站每年按保存資源的容量向項(xiàng)目參與者收取的保存費(fèi)用。也就是說(shuō),啟動(dòng)資金約7萬(wàn)人民幣,每年維護(hù)費(fèi)用約5萬(wàn)人民幣。資金預(yù)算因系統(tǒng)選擇、技術(shù)基礎(chǔ)、人力基礎(chǔ)、設(shè)備設(shè)施的不同而異。
3.5 重視保護(hù)知識(shí)產(chǎn)權(quán)
學(xué)術(shù)性網(wǎng)絡(luò)資源保存涉及到利益相關(guān)者的知識(shí)產(chǎn)權(quán)問(wèn)題,因此其開(kāi)放的范圍和深度都有一定的限制。澳大利亞PANDORA項(xiàng)目的做法是根據(jù)版權(quán)的不同對(duì)資源的利用設(shè)置嚴(yán)格的用戶檢索等級(jí)表[1]。美國(guó)國(guó)會(huì)圖書館公開(kāi)其存檔網(wǎng)站的書目記錄,但存檔網(wǎng)站只有已獲取制作者許可的才允許公開(kāi)訪問(wèn)。芬蘭、挪威、瑞士和奧地利等國(guó)家級(jí)的存檔網(wǎng)站不提供使用或者只能在特定地點(diǎn)訪問(wèn)[23]。
哈佛大學(xué)圖書館WAX項(xiàng)目從以下幾個(gè)方面保護(hù)知識(shí)產(chǎn)權(quán):(1)授權(quán)抓取:抓取網(wǎng)站內(nèi)容之前,取得網(wǎng)站所有者的授權(quán)。授權(quán)有兩種方式,其一是網(wǎng)站所有者主動(dòng)授權(quán),有意與哈佛分享自己網(wǎng)站內(nèi)容,可以從技術(shù)上在自己的網(wǎng)站添加授權(quán),允許哈佛的WAX爬蟲(chóng)收割網(wǎng)站內(nèi)容,或者主動(dòng)聯(lián)系WAX項(xiàng)目負(fù)責(zé)人,提交申請(qǐng),共享網(wǎng)絡(luò)資源。其二是WAX項(xiàng)目負(fù)責(zé)人選定網(wǎng)站后,聯(lián)系網(wǎng)站所有者,提供標(biāo)準(zhǔn)格式的授權(quán)書,邀請(qǐng)網(wǎng)站授權(quán)參與WAX項(xiàng)目。(2)延時(shí)公開(kāi):抓取網(wǎng)站內(nèi)容后,經(jīng)過(guò)3個(gè)月的延時(shí)期再對(duì)讀者開(kāi)放,減少對(duì)正式網(wǎng)站的影響和競(jìng)爭(zhēng)(IA的延時(shí)期是6~12個(gè)月[22])。(3)限制使用:WAX項(xiàng)目保存的網(wǎng)站資源目前只限哈佛本校師生使用。同時(shí)其規(guī)定了免責(zé)條款,要求使用者必須用于私人學(xué)術(shù)科研目的,必須取得網(wǎng)站所有者或者WAX項(xiàng)目組的許可。
總體來(lái)看,WA項(xiàng)目的運(yùn)作包含很多復(fù)雜的因素。學(xué)術(shù)性網(wǎng)絡(luò)資源更新快、保存難、利用更難,但是一旦高校圖書館管理得當(dāng),其將成為館藏資源中極具特色的一大寶藏。
綜觀哈佛大學(xué)圖書館WAX項(xiàng)目的運(yùn)作和成果,其分散建設(shè)、集中管理、小規(guī)模展開(kāi)、大范圍獲益的模式值得我國(guó)高校圖書館借鑒。哈佛大學(xué)圖書館這種主動(dòng)承擔(dān)網(wǎng)絡(luò)資源保存責(zé)任的行為,也啟示我國(guó)高校圖書館對(duì)自身做出更高的定位。
總之,我國(guó)高校圖書館參與WA項(xiàng)目,不僅在技術(shù)上具有很高的可行性,同時(shí)有利于保存學(xué)術(shù)性網(wǎng)絡(luò)資源、充實(shí)文獻(xiàn)建設(shè)框架、提供全面資源服務(wù)。
[1]文振興. 東亞重要Web Archive項(xiàng)目建設(shè)比較研究[J]. 浙江檔案, 2013(12):22-25.
[2]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心. 第 33 次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL]. [2014-04-25]. https://www.cnnic.net.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201403/P020140305346585959798.pdf.
[3]安興茹. 歐美國(guó)家圖書館網(wǎng)絡(luò)信息保存的收集策略研究及啟示 [J]. 圖書館雜志, 2007(9):52-55.
[4]向 菁, 吳振新, 司鐵英, 等. 國(guó)際主要Web Archive項(xiàng)目介紹與評(píng)析[J]. 國(guó)家圖書館學(xué)刊, 2010(1):64-68.
[5]中國(guó)Web信息博物館 [EB/OL]. [2014-04-25]. http://www. infomall.cn/ .
[6]陳 力, 郝守真, 王志庚. 網(wǎng)絡(luò)信息資源的采集與保存:國(guó)家圖書館的WICP和ODBN項(xiàng)目介紹 [J]. 國(guó)家圖書館學(xué)刊, 2004(1): 2-6.
[7]Harvard's Web Archive Collection Service [EB/OL]. [2014-04-25]. http://wax.lib.harvard.edu.
[8]WAX History [EB/OL]. [2014-04-25]. http://hul.harvard.edu/ois/ systems/wax/history.html .
[9]Overview: Web Archive Collection Service (WAX) [EB/OL]. [2014-04-25].http://hul.harvard.edu/ois/systems/wax/.
[10]WAX Help & Community [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/community.html .
[11]WAXI Maintenance System [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/waximaint.html.
[12]WAX Project Inquiry Form [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/f-waxinquiry.html.
[13]Harvard wiki: Manuscript Processing (Web Sites) [EB/OL]. [2014-04-25]. https://wiki.harvard.edu/confluence/display/ Proceed/Web+sites.
[14]About /robots.txt [EB/OL]. [2014-04-25]. http://www.robotstxt. org/robotstxt.html.
[15]About WAX [EB/OL]. [2014-04-25]. http://wax.lib.harvard.edu/ collections/about.do;jsessionid=1DE8801D86E433D51283 B9B7B145F0F9?kind=about&lang=eng.
[16]Term of Use [EB/OL]. [2014-04-25]. http://wax.lib.harvard.edu/ collections/tou.do?kind=tou&lang=eng.
[17]Library Systems Fees FY2014 [EB/OL]. [2014-04-25]. http:// hul.harvard.edu/ois/about/assessment.html.
[18]WAX Public Interface Help [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/wax-public-help/.
[19]Web Archiving Feedback [EB/OL]. [2014-04-25]. http:// feedback.lib.harvard.edu/feedback/feedbackEmail? refU=JSBH&pageTitle= Web%20Archiving%20Feedba ck&repProb=FOOTPRINTS &repComm=FOOTPRINTS& PROJECTN AME=WAX&from User=true&FPUSECUSTFROM =true&PROJECTNUM=27.
[20]Web Archiving (WAX) Documentation [EB/OL]. [2014-04-25]. http://hul.harvard.edu/ois/support/docs-wax.html.
[21]趙麗琴. 我國(guó)網(wǎng)絡(luò)信息保存研究述評(píng)[J]. 圖書館學(xué)研究, 2011 (2):5-7.
[22]王 芳, 史海燕. 國(guó)外Web Archive 研究與實(shí)踐進(jìn)展[J]. 中國(guó)圖書館學(xué)報(bào), 2013(1):36-45.
Study on the Web Archive Collection Service Project of Harvard University Library and Its Enlightenments
Harvard University Library has started Web Archive Collection Service (WAX) project in order to archive network resources with the academic value for long time since 2006.The study on the target, the process, the technical support, the intellectual property, the result and the service of the project shows that the technical requirement of Web Archive (WA) project has become lower and the operation of WA project has become mature. The university library in China could develop WA project and archive the Chinese academic network resources by learning from Harvard University Library.
Harvard University Library; Web Archive; Web Archive Collection Service (WAX) project
G250.73
B
張耀蕾 女,1981年生,現(xiàn)工作于武漢大學(xué)圖書館。
2014-09-02 ]