周秀霞 馬 寧 楊雨師 ( 東北師范大學(xué)圖書館 吉林 長春 130024 )
信息化、智能化時代的到來,使得越來越多的資源以數(shù)字化的形式存在和存儲。隨之而來的是,如何實現(xiàn)海量數(shù)字資源的長期保存、組織、管理和便捷獲取。事實上,早在21世紀初,各個國家就開始了數(shù)字資源長期保存的有關(guān)研究,并以聯(lián)盟、項目等形式相繼開展了數(shù)字資源長期保存的實踐。其中,HathiTrust是比較典型的一個長期保存聯(lián)盟,成員機構(gòu)主要是研究機構(gòu)和圖書館,通過成員機構(gòu)的共同努力和對公益事業(yè)的堅定承諾,共同致力于支持院校教師、學(xué)生或研究人員的教學(xué)活動,廣大公眾的數(shù)字學(xué)術(shù)資源需求以及數(shù)字資源的長期保存和持續(xù)可用,可以稱之為研究數(shù)字圖書館的國際社區(qū)[1]。
HathiTrust始建于2008年,由美國中西部大學(xué)聯(lián)盟的13所大學(xué)、加利福尼亞大學(xué)系統(tǒng)和弗吉尼亞大學(xué)聯(lián)合發(fā)起,初始目的在于保存和分享成員機構(gòu)的紙質(zhì)資源數(shù)字化資源[2]。其后,隨著HathiTrust成員逐漸擴大120余個,其將自己的宗旨重新定義為:通過合作收集、組織、保存、溝通和分享人類的知識記錄,為學(xué)術(shù)研究、交流和人類共同利益做貢獻。更具體地說,是要做到以下幾個方面:(1)建立可靠的、日益全面的成員機構(gòu)紙質(zhì)資源的數(shù)字化檔案,供成員機構(gòu)共享;(2)首要改進數(shù)字化資源的獲取途徑,以滿足成員機構(gòu)尤其是閱讀障礙者的需求;(3)致力于開發(fā)低成本、高質(zhì)量的基礎(chǔ)設(shè)施,保障學(xué)術(shù)研究人員的數(shù)字資源需要,包括各種格式的資源和原生數(shù)字資源;(4)發(fā)展合作伙伴關(guān)系和服務(wù),以確保HathiTrust中紙質(zhì)資源和數(shù)字學(xué)術(shù)資源的長期保存;(5)通過加倍努力協(xié)調(diào)圖書館間的共享存儲策略,以減少長期保存和紙質(zhì)資源存儲的成本;(6)建設(shè)基礎(chǔ)設(shè)施,提高成員機構(gòu)成本效益和合作效率,降低獲取校園知識資產(chǎn)的成本;(7)提供一系列服務(wù)支持使用HathiTrust語料庫進行研究;(8)創(chuàng)建一個技術(shù)框架,支持各類工具和服務(wù)的集中或分布式創(chuàng)建;(9)維持HathiTrust的“公益性”,同時提供一系列有益于成員機構(gòu)的服務(wù)[3]。
截至2018年5月,HathiTrust共收錄了各類資源16 369 955件,其中圖書7 977 135種,期刊439 659種;共計有5 729 484 250頁,734TB字節(jié),194英里長,13 301噸重(按平均每冊圖書350頁、厚0.75英寸、包含47 MB信息、重26盎司計算)。在這些資源中,有6 174 889件(約占資源總量的38%)屬于公共領(lǐng)域資源,可以為全球公眾免費獲取[4]。
HathiTrust整合的資源涵蓋了所有學(xué)科,共計有464種語言文字。其中,英文資源占總資源的50.6%,德文資源占8.7%,法文資源占7%,西班牙文資源占6.6%,俄文資源占3.2%,中文資源排在第六位,占資源總量的3.1%[5],其余還有日文、意大利文、阿拉伯文、荷蘭文等資源[5]。在這些數(shù)字資源中,1850前出版的資源占到了5%,1851年至1899年出版的資源占到了11.3%,1900年至1999年出版的資源占到了74.4%,2000年以后出版的資源占到了9.3%[6]。HathiTrust在努力實現(xiàn)對世界范圍內(nèi)數(shù)字資源的保存與長久服務(wù)。
為了全面反映HathiTrust的情況,筆者將從其管理的科學(xué)性、服務(wù)的全面性、數(shù)據(jù)的開放性、平臺的安全性4個方面對HathiTrust進行探究。
2011年,HathiTrust推出了聯(lián)盟的《章程》,依據(jù)《章程》,2012年4月選舉產(chǎn)生了理事會,自此,遵循誠信、開放和負責(zé)任的管理原則,HathiTrust采用了理事會管理制。理事會管理制是國際圖書館界比較追捧的一種管理制度,這不僅是因為其有支撐圖書館法人治理結(jié)構(gòu)成長的理論基礎(chǔ),更因為它解決了圖書館發(fā)展中存在的現(xiàn)實問題,尤其是對籌集資金有特殊功效。據(jù)統(tǒng)計,美國95%的圖書館都實行了理事會制[7]。
HathiTrust的理事會由12名成員組成,其中6個席位保留給HathiTrust創(chuàng)始機構(gòu),其余6個席位由成員機構(gòu)投票選舉產(chǎn)生。理事會的首席執(zhí)行官沒有投票權(quán),理事會中有5位成員會被選舉為執(zhí)行委員會委員,1名成員成為規(guī)劃指導(dǎo)委員會的主席。HathiTrust的中心管理辦公室設(shè)在密歇根大學(xué)[8]。
理事會對HathiTrust的活動、職能和運營以及數(shù)字資源長期保存的完整性和可訪問性承擔最終責(zé)任。具體包括:(1)定義HathiTrust的使命、目標并幫助指導(dǎo)履行,確定HathiTrust的戰(zhàn)略發(fā)展方向;(2)審查規(guī)劃指導(dǎo)委員會的建議,并就政策、知識庫開發(fā)和計劃舉措等做出最終決定;(3)管理HathiTrust的預(yù)算和財務(wù),選舉執(zhí)行委員會委員,授權(quán)他們按照規(guī)定代表理事會行事;(4)選擇首席執(zhí)行官來監(jiān)督HathiTrust的運營;(5)評估首席執(zhí)行官的表現(xiàn);(6)與首席執(zhí)行官協(xié)調(diào),設(shè)立委員會和工作組來執(zhí)行HathiTrust的工作,推進發(fā)展戰(zhàn)略和優(yōu)先事項;(7)維護章程,監(jiān)督HathiTrust研究中心和其他附屬項目的開發(fā)、實施和持續(xù)管理等[9]。
理事會下還有執(zhí)行委員會、提名委員會和規(guī)劃指導(dǎo)委員會。執(zhí)行委員會由5位成員組成,其有權(quán)在理事會會議之間的過渡期間內(nèi)獲得理事會的授權(quán),代表理事會行事。提名委員會也由5位成員組成,主要是為理事會和規(guī)劃指導(dǎo)委員會征集委員候選人。規(guī)劃指導(dǎo)委員會由不少于8位但不超過12位被任命者組成,其主要負責(zé)為:審核HathiTrust的發(fā)展議程;向理事會提交報告,建議根據(jù)審查結(jié)果改變發(fā)展議程;根據(jù)審查結(jié)果,鼓勵成員機構(gòu)就特定問題進行辯論;制定理事會討論和決策的舉措和策略,并考慮這些舉措對未來的影響;設(shè)立工作組,協(xié)助其工作;與理事會合作為HathiTrust及其成員制定政策等[9]。
根據(jù)需要,HathiTrust還設(shè)立了一些委員會和工作組,其中一些是常設(shè)職位,而另一些則可能隨著任務(wù)的完成解散。一般而言,工作組由執(zhí)行委員會或規(guī)劃指導(dǎo)委員會設(shè)立。已經(jīng)設(shè)立的委員會和工作組有:(1)執(zhí)行委員會下設(shè)的用戶支持工作組(2011年3月)和Zephir咨詢小組(負責(zé)推薦與元數(shù)據(jù)管理相關(guān)的政策和程序,并建議實施新功能,增強服務(wù)功能等);(2)規(guī)劃指導(dǎo)委員會下設(shè)的資源委員會(2016年7月),聯(lián)邦文件咨詢委員會(2016年8月),共享打印咨詢委員會(2016年7月),元數(shù)據(jù)政策、戰(zhàn)略、使用和分享咨詢小組,質(zhì)量保證和標準工作組,權(quán)利和獲取工作組[10]。
HathiTrust的預(yù)算目前是單獨維護的預(yù)算,在密歇根大學(xué)預(yù)算系統(tǒng)中,由執(zhí)行委員會管理,但須經(jīng)密歇根大學(xué)審計辦公室審計。理事會有權(quán)對成員機構(gòu)通過的經(jīng)費預(yù)算進行細節(jié)調(diào)整;但未經(jīng)成員機構(gòu)同意,理事會不得更改成員機構(gòu)的會費、服務(wù)費或其他費用。
HathiTrust的資源和服務(wù)由HathiTrust成員機構(gòu)提供,基礎(chǔ)設(shè)施由密歇根大學(xué)支持。成員機構(gòu)可以永久性、非排他性地將數(shù)字資源存入HathiTrust中,所有權(quán)仍歸自己所有。密歇根大學(xué)為HathiTrust購買的硬件、軟件、服務(wù)以及由密歇根大學(xué)創(chuàng)建的數(shù)字資源由成員機構(gòu)共同擁有,并承諾持續(xù)保持分享。如果密歇根大學(xué)圖書館的資金或組織發(fā)生變化,HathiTrus將制定繼任計劃,資助、支持向另一個機構(gòu)過渡[8]。
HathiTrust是一個數(shù)字資源的整合社區(qū),不僅面向成員機構(gòu)、合作伙伴提供服務(wù),也開放為社會公眾服務(wù),其將服務(wù)框架如表1所示。
從表1可以看出,HathiTrust綜合考慮了聯(lián)盟的發(fā)展需要、成員機構(gòu)的發(fā)展需要、合作伙伴的發(fā)展需要、用戶的需要等,對聯(lián)盟的服務(wù)進行了整體設(shè)計。并且,其還根據(jù)聯(lián)盟的宗旨和發(fā)展規(guī)劃,具體將聯(lián)盟的服務(wù)職能分為短期和長期兩種,其中,短期服務(wù)功能包括:(1)翻頁機制:一種支持用戶在HathiTrust中讀取、下載數(shù)字資源以及與數(shù)字資源交互(例如縮放和旋轉(zhuǎn))的應(yīng)用程序。它類似于權(quán)限數(shù)據(jù)庫、Shibboleth(一種機構(gòu)間認證機制),為用戶適當訪問數(shù)字資源提供了接口。(2)品牌推廣:包括整個HathiTrust的品牌推廣和對成員機構(gòu)的品牌推廣。(3)格式驗證、遷移和錯誤檢查,HathiTrust將各種技術(shù)、數(shù)字資源保存元數(shù)據(jù)與每個數(shù)字資源對象一起存儲,以便在需要時進行遷移。(4)API的開發(fā)應(yīng)用。(5)閱讀障礙用戶的訪問機制制定,包括對屏幕閱讀器的優(yōu)化、允許被認證為閱讀障礙的用戶訪問HathiTrust公有領(lǐng)域數(shù)字資源的全文和版權(quán)卷等。(6)實現(xiàn)了一站式發(fā)現(xiàn)服務(wù),能對HathiTrust中和成員機構(gòu)的館藏資源進行統(tǒng)一檢索和一站式發(fā)現(xiàn)。(7)發(fā)布虛擬館藏的能力:允許用戶創(chuàng)建或共享個人館藏。(8)非Google數(shù)字內(nèi)容的直接采集機制。長期服務(wù)功能包括:(1)遵守可靠存儲庫審計和認證(TRAC)標準以及清單中的要求。(2)強大的發(fā)現(xiàn)機制,如全文本跨庫檢索等。(3)創(chuàng)建數(shù)量眾多的API,為合作伙伴提供一個協(xié)作的開放環(huán)境,便于合作伙伴開發(fā)其他的安全訪問機制和發(fā)現(xiàn)工具。(4)支持圖書和期刊以外所有數(shù)字資源格式的存儲和獲取服務(wù)。(5)建立HathiTrust的研究中心(HTRC),進行先進軟件工具和技術(shù)的開發(fā),并廣泛采用其他來源的分析工具,以為學(xué)者提供一個安全的計算和數(shù)據(jù)環(huán)境[12]。
表1 HathiTrust服務(wù)功能框架[11]
通過這兩種維度的功能設(shè)計,兼顧考慮了各方的利益,不僅滿足了各方的需求,而且促進了聯(lián)盟的長期可持續(xù)發(fā)展。
HathiTrust是一個開放的數(shù)字資源存儲、服務(wù)中心,其基于云平臺提供服務(wù)的模式,方便了成員機構(gòu)通過互聯(lián)網(wǎng)托管、部署或接入聯(lián)盟系統(tǒng),在保證成員機構(gòu)海量數(shù)字資源安全存儲的同時,還支持成員機構(gòu)貢獻應(yīng)用程序、分析工具等,并允許成員機構(gòu)根據(jù)各自的需求進行一些平臺的功能開發(fā),進而為用戶提供個性化的服務(wù),如密歇根大學(xué)開發(fā)了一個新的全文檢索模型;加州大學(xué)負責(zé)全文檢索的拼寫檢查,以克服希伯來文無法識別的問題等[13]。
HathiTrust開放屬于公共領(lǐng)域資源的數(shù)據(jù)集以支持學(xué)術(shù)研究。當前,公共領(lǐng)域的資源基本上分為非google數(shù)字化卷和google數(shù)字化卷兩種,其中非google數(shù)字化卷資源,用戶可以直接免費獲?。欢鴊oogle數(shù)字化卷則必須由機構(gòu)(用戶所屬機構(gòu))與google達成協(xié)議后方可獲取使用。此外,機構(gòu)或者是用戶個人還可以自定義想獲取的數(shù)字化資源,HathiTrust提供相關(guān)的技術(shù)支持[14]。
HathiTrust還提供了數(shù)據(jù)API和書目API,拓展了HathiTrust存儲資源和元數(shù)據(jù)資源的應(yīng)用范圍,提高了對HathiTrust資源的高效、安全訪問。HathiTrust的數(shù)據(jù)API可以檢索圖像、OCR文本、關(guān)聯(lián)的元數(shù)據(jù)、權(quán)限信息以及有關(guān)存儲庫中數(shù)字對象的各種其他數(shù)據(jù)等,訪問數(shù)據(jù)API的方式有兩種:通過Web客戶端訪問,需要身份驗證;編程方式。對于書目API,當用戶使用各種標準標識符(如ISBN、LCCN、OCLC等)檢索時,書目API會返回書目、版權(quán)和卷等信息(包括永久性URL),并且書目API能控制是返回簡短書目元數(shù)據(jù)還是完整書目元數(shù)據(jù)[15]。
HathiTrust基本上采用了SaaS云服務(wù)模式,以數(shù)字資源知識庫為中心,圍繞數(shù)據(jù)包構(gòu)建了一個云框架,其平臺的功能如圖1所示。
圖1 HathiTrust云平臺功能圖[16]
用戶通過復(fù)雜隱藏界面訪問HathiTrust,獲得數(shù)字資源,而這一簡單的過程,可能需要HathiTrust應(yīng)用文本挖掘工具對知識庫中的資源進行分析,或根據(jù)用戶的檢索特征提取其他來源(BLUE WATERS)的數(shù)字資源,以滿足用戶的需求,這是一個高度互動的過程[16]。在這個過程中,可能涉及很多算法,所以平臺引入了Mahout開源項目,以幫助程序人員更加便捷、高效地開發(fā)智能應(yīng)用程序。
Hathitrust注意到不同的數(shù)字資源對象(數(shù)字文本、圖像、視頻、音頻、多媒體、模擬等)在保存過程中是有明顯差異的,為了保證這些數(shù)字資源對象在長期保存過程中的一致性和完整性,HathiTrust定義和保存了區(qū)分不同數(shù)字資源對象的特征信息,具體包括數(shù)字資源對象的內(nèi)容、固定性、標識參考、信息來源和前后關(guān)聯(lián)[17]。同時,HathiTrust平臺的核心——知識庫依據(jù)OAIS(Open Archival Information System,開放檔案信息系統(tǒng))框架構(gòu)建,并且,HathiTrust遵守了可信數(shù)字倉儲審核和認證(TRAC)標準以及審核表中的要求且通過了相關(guān)認證,等等,這些都保證了HathiTrust中數(shù)據(jù)的長期一致性和完整性。
為了保證數(shù)字資源的持久可用性,HathiTrust專為長期資源保存設(shè)計了存儲架構(gòu)。存儲架構(gòu)的核心是同步在密歇根州安娜堡和印第安納波兩個數(shù)據(jù)中心進行數(shù)據(jù)存儲,并在第三個數(shù)據(jù)中心以加密磁帶的方式備份了數(shù)字資源6個月前的數(shù)據(jù)版本。所有數(shù)據(jù)中心均符合國際權(quán)威機房認證機構(gòu)Uptime Institute建立的機房建置等級Tier II要求,只有授權(quán)的IT人員才能進入。每3個月工作人員會對所有存檔數(shù)字資源進行完整性檢查,在存儲內(nèi)部執(zhí)行數(shù)據(jù)完整性檢查以及所有靜態(tài)數(shù)據(jù)的定期完整性檢查,并使用奇偶校驗和冗余檢驗來修復(fù)遇到的任何錯誤,以保證數(shù)字資源與存檔時相同,從而確保資源存儲的可靠性。
在存儲系統(tǒng)外部,HathiTrust完全遵循OAIS框架要求和可信度標準攝取數(shù)據(jù),并定期驗證數(shù)據(jù),以確保數(shù)據(jù)被正確攝取并保持不變。同時,HathiTrust還將存儲設(shè)備的使用壽命設(shè)定為3~4年,每年對已達到壽命的設(shè)備進行更換[18]。HathiTrust保存了完整齊備的日志文件,并以唯一的ID進行標識,以便于后期進行事件追溯或其他用途。
數(shù)據(jù)質(zhì)量作為數(shù)據(jù)安全的一個方面也受到了HathiTrust的重視,考慮數(shù)據(jù)質(zhì)量可能因多個數(shù)字化合作伙伴以及自動抓取內(nèi)容的方法不同而有所不同等因素[19],HathiTrust專注于解決多層次、宏觀上的數(shù)字對象及其元數(shù)據(jù)的質(zhì)量問題,并直接與合作伙伴、規(guī)劃指導(dǎo)委員會和相關(guān)團隊合作,推出了一系列評估方法,持續(xù)地推進數(shù)據(jù)質(zhì)量的提升[20]。
HathiTrust不僅是一個數(shù)字資源的長期保存聯(lián)盟,它也是一個可以解決圖書館聯(lián)盟中許多常見問題的典型組織,是其他圖書館聯(lián)盟發(fā)展可以借鑒的實踐案例。作為一個全球性的數(shù)字資源長期保存聯(lián)盟組織,可以說,HathiTrust已經(jīng)取得了階段性的成功。但是它仍存在一些服務(wù)與應(yīng)用程序不能很好地拓展,一些數(shù)字資源內(nèi)容無法獲取,原生數(shù)字資源收藏較少等缺陷,這些都需要HathiTrust在未來的發(fā)展中重點關(guān)注并予以解決,以實現(xiàn)更廣范圍、更大規(guī)模數(shù)字的長期保存和獲取。