亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        密歇根大學(xué)網(wǎng)頁資源歸檔實踐研究及啟示

        2020-12-10 00:41:04吳曉茹陳丹
        檔案管理 2020年6期

        吳曉茹 陳丹

        摘? 要:本文以密歇根大學(xué)網(wǎng)頁歸檔項目為研究切入點,探究該大學(xué)網(wǎng)頁歸檔項目的建設(shè)策略及服務(wù)機制,力求為我國高校網(wǎng)頁歸檔實踐提供一定的參考和借鑒。

        關(guān)鍵詞:網(wǎng)頁歸檔項目;密歇根大學(xué);本特利歷史圖書館;Archive-It項目

        Abstract: This article takes the University of Michigan Web Archive Project as the object, explores its construction strategy and service mechanism, provides reference for the practice of Web archiving in Chinese colleges.

        Keywords: Web archive project; University of Michigan; Bentley historical library; Archive-It

        美國國家數(shù)字化管理聯(lián)盟(National Digital Stewardship Alliance, NDSA)2016和2017年的網(wǎng)頁歸檔項目調(diào)查報告顯示,相較于政府部門和公共圖書館,近年來美國高校開展網(wǎng)頁歸檔項目的機構(gòu)數(shù)量明顯增長,已超過全部調(diào)查對象的60%,網(wǎng)頁歸檔成為美國高校圖書檔案機構(gòu)資源建設(shè)的重要途徑。[1]

        本文以密歇根大學(xué)本特利歷史圖書館(Bentley Historical Library,以下簡稱本特利)的網(wǎng)頁歸檔項目為研究切入點,從中窺探密歇根大學(xué)網(wǎng)頁歸檔項目發(fā)展現(xiàn)狀、建設(shè)策略及服務(wù)機制,力求為我國高校網(wǎng)頁歸檔實踐提供一定的參考和借鑒。

        1 本特利歷史圖書館及其網(wǎng)頁歸檔項目發(fā)展現(xiàn)狀

        本特利歷史圖書館始建于1935年,它不僅是密歇根大學(xué)的官方檔案館,還是除位于蘭辛的密歇根州政府檔案館之外保存密歇根州史料最多的檔案館。

        該館館藏檔案不僅包括學(xué)校自1817年建校至今200多年來在行政管理、科學(xué)研究、教學(xué)管理、學(xué)生活動、體育運動等方面的各種歷史記錄(如19世紀40年代的校友檔案、50年代的底特律天文臺建筑檔案、60年代的體育運動檔案以及21世紀的電子檔案等),還包括諸如密歇根歷任州長文件、騎兵服役信件、采礦伐木史料、百年密歇根旅游畫冊等反映密歇根州政治、經(jīng)濟、文化、景觀及民生等史料。[2]

        截至 2019年,該館已保存7萬英尺的原始史料、119.25TB的數(shù)字檔案、150萬張照片和底片、1萬張地圖、5.5萬本書籍、2.2萬條音頻以及近1.17萬件捐贈材料。[3]

        這些種類豐富、形式多樣、數(shù)量龐大的館藏資源不僅服務(wù)于在校師生,而且面向世界各地人員開放,至今研究成果包括1700多部公開出版的書籍、上千篇研究論文、榮譽學(xué)位論文以及個人家族史等。

        本特利網(wǎng)頁歸檔項目始于2010年,截至2020年5月,本特利已對近2500個網(wǎng)頁進行了歸檔,存檔數(shù)據(jù)高達7.5TB。[4]

        根據(jù)網(wǎng)頁的內(nèi)容、性質(zhì)和來源等特點,本特利將存檔網(wǎng)頁劃分為大學(xué)與圖書館(Universities & Libraries)、社會與文化(Society & Culture)、藝術(shù)與人文(Arts & Humanities)、博客與社交媒體(Blogs & Social Media)、科學(xué)與健康(Science & Health)、自發(fā)事件(Spontaneous Events)、計算機與技術(shù)(Computers & Technology)、政府-美國各州(Government - US States)八大主題,形成了密歇根大學(xué)行政管理、校友粉絲、體育運動、衛(wèi)生健康、新聞動態(tài)、教學(xué)研究、學(xué)生組織、MBLog以及密歇根州歷史九大網(wǎng)頁檔案資源庫。[5]

        每個主題包含1個或多個資源庫,每個資源庫又由若干個網(wǎng)頁組成。例如,密歇根大學(xué)行政管理網(wǎng)頁檔案資源庫中有存檔網(wǎng)頁245個,涵蓋大學(xué)年度報告、審計、就業(yè)、校園資源、心理咨詢、餐飲服務(wù)、監(jiān)督檢查及殘疾管理等內(nèi)容。體育運動網(wǎng)頁檔案資源庫存檔網(wǎng)頁64個,涉及大學(xué)體育系、運動隊、教練博客及體育比賽等(統(tǒng)計時間截至2020年5月1日)。

        這些網(wǎng)頁檔案不僅豐富了本特利的館藏資源,填補了學(xué)校歷史記憶的空白,更為開展網(wǎng)站分析、數(shù)據(jù)挖掘、自然語言處理等科學(xué)研究提供了原始材料。

        2 本特利網(wǎng)頁歸檔項目建設(shè)策略與服務(wù)模式

        2.1 明確項目主體,開展多方合作。為了做好網(wǎng)頁歸檔工作,本特利于2010年7月訂閱了加州大學(xué)數(shù)字圖書館的網(wǎng)絡(luò)存檔服務(wù)(Web Archiving Service, WAS),[6]2011年4月成立了專門負責數(shù)字檔案復(fù)用、共享和增值業(yè)務(wù)的數(shù)字策展部(Digital Curation Division , DCD)。[7]隨著項目的發(fā)展要求,2015年3月,本特利與美國互聯(lián)網(wǎng)檔案館合作,利用Archive-It方案開展網(wǎng)頁歸檔工作。[8]

        本特利主要負責網(wǎng)頁的采集范圍、描述數(shù)據(jù)、訪問接口以及知識產(chǎn)權(quán)等問題;Archive-It負責網(wǎng)絡(luò)爬蟲程序、網(wǎng)頁數(shù)據(jù)存儲等技術(shù)問題;網(wǎng)站創(chuàng)建單位負責提供預(yù)歸檔的網(wǎng)站名單、網(wǎng)站開發(fā)人員聯(lián)系方式、網(wǎng)站最佳捕獲時間以及網(wǎng)站更新、改版前的特殊捕獲請求等信息。由此,形成本特利統(tǒng)一領(lǐng)導(dǎo),校內(nèi)部門、社會企業(yè)等多方合作的網(wǎng)頁歸檔工作機制,通過明確責任、協(xié)調(diào)配合的方式促進學(xué)校網(wǎng)頁歸檔項目的共建共享。

        2.2 靈活、先進的網(wǎng)頁采集策略

        2.2.1 確定網(wǎng)頁采集范圍。本特利遵循檔案管理思想,以大學(xué)檔案的價值、使命以及檔案館的收集興趣作為網(wǎng)頁采集的判斷標準。2019年,本特利修訂的《檔案政策與程序手冊》(Records Policy and Procedures Manual)中明確指出,凡是符合以下條件的網(wǎng)頁皆是本特利的采集對象。包括用于開展大學(xué)業(yè)務(wù)或活動的網(wǎng)頁、反映職能活動的網(wǎng)頁、可補充現(xiàn)有檔案內(nèi)容或填補館藏空白的網(wǎng)頁、包含獨特內(nèi)容且定期更新的網(wǎng)頁等。[9]

        可以看出,本特利采用相對靈活且多樣化的網(wǎng)頁采集策略,采集對象多元,采集范圍廣泛,采集內(nèi)容豐富。這些網(wǎng)頁檔案不僅超出傳統(tǒng)檔案的采集范圍,而且突破高校基本職能,是密歇根大學(xué)和密歇根州“數(shù)字記憶”的構(gòu)建者和傳承者。

        2.2.2 利用先進的網(wǎng)頁采集工具。本特利采用以廣泛式采集為主、選擇性采集為輔的聯(lián)合性網(wǎng)頁采集方式。根據(jù)網(wǎng)頁的價值和特點,不同網(wǎng)站設(shè)置不同的捕獲頻率。

        如以月、季、半年、一年的頻率進行捕獲。Archive-It的網(wǎng)絡(luò)爬蟲程序會根據(jù)事先設(shè)定好的捕獲頻率自動運行,每次運行會持續(xù)幾天完成。若遇到網(wǎng)站遷移、改版、下線等重大變動或?qū)W校舉辦重大活動,本特利會在Archive-It中人工添加新的捕獲計劃。

        Archive-It方案中采用的網(wǎng)絡(luò)爬蟲程序主要有Heritrix、Umbra和Brozzler三種。Heritrix和Umbra被稱為“標準”爬蟲程序?!皹藴省迸老x程序在不影響網(wǎng)站正常訪問的情況下,于特定時間點以拍攝網(wǎng)頁快照的方式創(chuàng)建網(wǎng)頁的存檔副本。

        Brozzler是Archive-It新開發(fā)的一種基于瀏覽器的分布式網(wǎng)絡(luò)爬蟲程序。與“標準”爬蟲的捕獲機制不同,Brozzler并不跟蹤網(wǎng)頁超鏈接,也不下載網(wǎng)頁數(shù)據(jù),而是依賴于Web瀏覽器實現(xiàn)與網(wǎng)頁數(shù)據(jù)的交互,將交互的網(wǎng)頁數(shù)據(jù)編入索引并進行存儲,這種方式類似于用戶體驗Web的方式。同時,Brozzler還使用youtube-dl工具增強社交媒體的捕獲功能。[10]

        2.2.3 采用國際標準的網(wǎng)頁編目規(guī)則。Archive-It方案采用都柏林核心元數(shù)據(jù)集對網(wǎng)頁的標題、內(nèi)容、URL、發(fā)布者、所屬主題及數(shù)據(jù)類型等數(shù)據(jù)進行著錄描述,[11]并將數(shù)據(jù)存儲在WARC(網(wǎng)絡(luò)資源存檔國際標準ISO 28500:2009)文件中,[12]以供合作伙伴下載、保存、管理和分析。

        本特利的網(wǎng)頁存檔數(shù)據(jù)除保存在Archive-It服務(wù)器外,也同時保存在大學(xué)圖書館名為“深藍”(Deep Blue)的本地服務(wù)器中,并通過數(shù)字圖書館擴展服務(wù)(Digital Library Extension Service, DLXS)為用戶提供訪問利用。[13]這種多服務(wù)器存儲方式,不僅滿足數(shù)據(jù)安全備份的要求,而且可為更多的社會群體提供多途徑服務(wù)。同時,采用國際標準的元數(shù)據(jù)方案和網(wǎng)頁數(shù)據(jù)存儲格式,也有利于網(wǎng)頁數(shù)據(jù)的長期保存、可靠讀出、更新遷移和整合共享。

        2.3 高效、智能的網(wǎng)頁訪問利用機制。與其他檔案一樣,網(wǎng)頁檔案經(jīng)過存儲、編目、審核、發(fā)布后,便可對外提供服務(wù)利用。為了滿足用戶便捷化、多樣化、智能化的網(wǎng)頁檔案檢索需求,本特利不斷完善其信息檢索服務(wù)。一是為用戶提供多種網(wǎng)頁檔案檢索工具。用戶可通過Archive-It官網(wǎng)(https://archive-it.org/)、U-M Library(密歇根大學(xué)圖書館的在線公共訪問目錄庫)和BHL Finding Aid(本特利查找工具)三個網(wǎng)站查找所需的網(wǎng)頁內(nèi)容。[14]三個網(wǎng)站分別介紹了網(wǎng)站的基本概況并提供了使用指南,幫助用戶快速、全面地了解和使用網(wǎng)站檢索功能。此外,本特利還積極地與其他檔案機構(gòu)合作分享它的檢索工具,以便公眾和遠程研究人員能夠了解本特利的館藏并加以利用。二是為用戶提供多途徑的網(wǎng)頁檔案檢索方式:①直接檢索,用戶通過輸入關(guān)鍵詞、集合名稱、組織機構(gòu)、URL或者元數(shù)據(jù)等直接檢索所需內(nèi)容,也可通過輸入網(wǎng)頁文本內(nèi)容進行全文檢索。②以字母A-Z的索引檢索,用戶可按照查詢內(nèi)容的首字母與索引進行比對,更加直觀和快速地找到所需內(nèi)容。[15]③高級檢索,用戶可通過集合限定、文件類型、捕獲日期、文檔顯示數(shù)量或布爾邏輯運算對全文檢索結(jié)果進行更細粒度、更優(yōu)化的檢索。④為了進一步縮小檢索范圍,提高檢索效率。用戶可通過網(wǎng)頁的組別、主題、創(chuàng)建者、發(fā)布年代、使用語言、覆蓋時間范圍等特征對檢索結(jié)果進行篩選。所有檢索結(jié)果都將以Wayback日歷頁面的形式進行展示,用戶可從中選擇網(wǎng)頁的存檔日期進行查看。

        2.4 法規(guī)與政策支持。本特利網(wǎng)頁資源歸檔項目之所以順利開展,與相關(guān)法規(guī)、政策的支持密不可分。一方面,《大學(xué)標準實踐指南》(Universitys Standard Practice Guide)第601.08節(jié)和第601.08-1節(jié)對大學(xué)檔案以及本特利的職責和權(quán)利作出了相關(guān)規(guī)定,充分賦予了本特利對大學(xué)檔案(包括網(wǎng)頁檔案)“收、管、用”的權(quán)利。另一方面,《檔案政策和程序手冊》第2.1.7條對網(wǎng)頁歸檔的采集范圍、存在的挑戰(zhàn)以及網(wǎng)頁歸檔單位的職責作出了相關(guān)規(guī)定,要求網(wǎng)頁歸檔單位對網(wǎng)頁的許可、版權(quán)、訪問點作出聲明,以便本特利對其內(nèi)容進行采集和使用。[16]

        3 對我國高校網(wǎng)頁歸檔工作的啟示

        3.1 加強組織領(lǐng)導(dǎo),制定規(guī)范標準,扎實開展高校網(wǎng)頁歸檔項目。本特利將網(wǎng)頁歸檔納入學(xué)校檔案管理制度中,賦予本特利合法開展網(wǎng)頁采集、保存和利用的權(quán)利,明確檔案館、網(wǎng)站管理部門、Archive-It各方的職責分工,為項目的順利開展奠定了良好基礎(chǔ)。國內(nèi)高校在網(wǎng)頁歸檔方面以理論研究為主,建設(shè)實踐的還相對較少。因此,國內(nèi)高??山梃b本特利的做法,首先從政策和制度上明確網(wǎng)頁歸檔的重要性,將網(wǎng)頁、社交媒體、電子郵件等新型電子文件納入高校檔案的歸檔范圍中;其次明確高校網(wǎng)頁歸檔的責任主體和職責分工。高校可建立由檔案館統(tǒng)一領(lǐng)導(dǎo),網(wǎng)站管理部門、網(wǎng)絡(luò)中心及技術(shù)服務(wù)商分工協(xié)作的網(wǎng)頁歸檔工作機制;最后加快出臺高校網(wǎng)頁歸檔規(guī)范標準。一方面,國家層面上要加強檔案部門與信息部門等的合作,兼顧與國際標準和通用規(guī)范的銜接,注重前瞻性、操作性和導(dǎo)向性,從管理、業(yè)務(wù)和技術(shù)等層面上形成一個科學(xué)、配套、適用的網(wǎng)頁歸檔標準體系。[17]另一方面,高校應(yīng)結(jié)合實際,制定高校網(wǎng)頁檔案歸檔指南,對網(wǎng)頁歸檔的工作流程、采集范圍、采集方法、數(shù)據(jù)存儲、“四性”保障、軟件功能、服務(wù)利用等內(nèi)容作出明確要求,為高校網(wǎng)頁歸檔工作的有序開展提供政策依據(jù)和指導(dǎo)。

        3.2 擴大網(wǎng)頁采集范圍,加強網(wǎng)頁資源的整合與利用。本特利網(wǎng)頁采集范圍寬而廣,不僅包括反映密歇根州個人、機構(gòu)及志愿組織網(wǎng)絡(luò)社會活動的各類網(wǎng)站,例如:利用自身資源幫助非裔美國人的百名美國男子協(xié)會底特律分會(100BMOGD)網(wǎng)站、展示世界級藝術(shù)娛樂慶典的安娜堡夏季藝術(shù)節(jié)網(wǎng)站、宣傳中國教會文化的安娜堡中國基督教會網(wǎng)站等,還包括密歇根大學(xué)管理部門、教師、學(xué)生、校友、粉絲等創(chuàng)建、使用的各類網(wǎng)站,例如:幫助校友繼續(xù)教育學(xué)習(xí)、職業(yè)發(fā)展的校友會教育網(wǎng)站、探討健康課題和醫(yī)學(xué)院新聞的健康實驗室博客、介紹密歇根體育比賽、體育歷史文化的各類體育博客等。同時,為了便于利用者有針對性地快速查找網(wǎng)頁資源,本特利不僅根據(jù)網(wǎng)頁的內(nèi)容和特點對眾多分散、雜亂的網(wǎng)頁進行了資源整合,建立了九個專題數(shù)據(jù)庫,內(nèi)容涉及學(xué)校行政管理、教學(xué)、科研、新聞宣傳、體育運動、衛(wèi)生健康、師生活動等,而且為用戶提供了多平臺、多途徑的檢索服務(wù)。國內(nèi)高校在進行網(wǎng)頁采集時,應(yīng)進一步開拓視角,從服務(wù)社會公眾的角度擴大網(wǎng)頁的采集范圍,不僅采集學(xué)校各部門、師生、校友創(chuàng)建、使用的網(wǎng)頁,還要廣泛采集社會上宣傳、報道學(xué)校、與學(xué)校相關(guān)的網(wǎng)頁,甚至學(xué)校感興趣的社會網(wǎng)頁。在保存形式上,不僅要保存文本、圖片等靜態(tài)數(shù)據(jù),還應(yīng)收集FLASH、音頻、視頻等動態(tài)數(shù)據(jù)以及嵌入式的用戶交互數(shù)據(jù)等,盡可能多地為后人留存學(xué)校乃至社會發(fā)展過程中的寶貴遺產(chǎn)。同時,高校要以用戶需求為導(dǎo)向,及時對采集的網(wǎng)頁資源進行過濾篩選、分類標識、編目存儲和整合開發(fā),建立一系列專題數(shù)據(jù)庫,并通過網(wǎng)絡(luò)利用平臺,為用戶提供多層級、全方位的檢索服務(wù)。

        3.3 建立合作聯(lián)盟,實現(xiàn)網(wǎng)頁資源的共建共享。本特利的網(wǎng)頁歸檔項目經(jīng)驗告訴我們,高校在開展網(wǎng)頁歸檔項目時,可以根據(jù)學(xué)校不同時期的業(yè)務(wù)需求,與社會各界廣泛開展合作。在缺乏技術(shù)經(jīng)驗的情況下可直接與國內(nèi)外的技術(shù)服務(wù)商合作,引進專業(yè)、成熟的網(wǎng)頁歸檔軟件,對之調(diào)整改造,使之成為高校適用的網(wǎng)頁歸檔工具。除此之外,高校還應(yīng)打破“孤軍奮戰(zhàn)”的局面,積極倡議成立國際、國內(nèi)或地區(qū)的網(wǎng)頁歸檔高校聯(lián)盟,或加入國家網(wǎng)頁歸檔相關(guān)組織團體,在聯(lián)盟、團體的統(tǒng)籌和管理下,通過參加國際交流、舉辦學(xué)術(shù)論壇、編制研究成果、解決歸檔難題、開展教育培訓(xùn)的方式促進成員單位進行有效的信息交流、合作研究和宣傳傳播。在此基礎(chǔ)上,選取一些起步早、經(jīng)驗足、有代表性的高校啟動網(wǎng)頁資源歸檔試點示范工作,按照“以點帶面、重點突破、示范帶動、整體推動”的思路,實現(xiàn)覆蓋全國、共建共享、生態(tài)發(fā)展、協(xié)同服務(wù)的國家“大網(wǎng)絡(luò)檔案”。

        *本文系2020年度陜西省檔案局科技項目“高校網(wǎng)頁資源歸檔與管理研究”(項目編號:SX-2020-X-06)的階段性研究成果。

        參考文獻:

        [1]張莉,顏祥林.美國網(wǎng)頁歸檔項目發(fā)展的新動向——基于NDSA2016年和2017年調(diào)查報告的分析[J].檔案與建設(shè),2019(10):? 39-42.

        [2]蘇玉徽,王根發(fā).國外高校檔案館資源建設(shè)實踐及啟示——以美國密歇根大學(xué)本特利歷史圖書館為例[J].浙江檔案,2017(02):? 20-22.

        [3][14]Bentley Historical Library. Preservation-friendly Websites(Best Practices and Records Management Strategies for Web Preservation.ppt)[EB/OL].[2020-03-22].https://bentley.umich.edu/records-management/guidance-for-preservation-friendly-websites/.

        [4][9][13][16]Bentley Historical Library. Records Policy and Procedures Manual(Updated October 2019)[EB/OL].[2020-03-22].https://bentley.umich.edu/records-management/manual/.

        [5][8]Bentley Historical Library. Web Archives[EB/OL].[2020-03-22].https://archive-it.org/organizations/934.

        [6]Bentley Historical Library. Guidelines for the Bentley Historical Library Web Archives[EB/OL].[2020-03-22].https://wayback.archive-it.org/org-934/20141031140511/http://bentley.umich.edu/dchome/webArchives/guidelines.php.

        [7]Bentley Historical Library. Digital Curation[EB/OL].[2020-03-22].https://wayback.archive-it.org/org-934/20141031132017/http://bentley.umich.edu/dchome/index.php.

        [10]Archive-It User Guide. What is Brozzler[EB/OL].[2020-04-16]. https://support. archive-it.org/hc/en-us/articles/360000343186-What-is-Brozzler-.

        [11]Archive-It User Guide. Add, edit, and manage your metadata[EB/OL].[2020-04-16]. https://support.archive-it.org/hc/en-us/articles/208332603-Add-edit-and-manage-your-metadata.

        [12]Archive-It User Guide. Storage and preservation[EB/OL].[2020-04-16].https://support.archive-it.org/hc/en-us/sections/201875126-Storage-and-preservation.

        [15]何玉顏.英國政府網(wǎng)頁歸檔與開發(fā)的新實踐及其啟示[J].檔案與建設(shè),2018(09):22-25.

        [17]孫兆偉.檔案信息資源整合策略初探[EB/OL].[2020-06-16]. http://www.Archives.sh.cn/dalt/daxjcl/201203/t20120313_9658.html.

        (作者單位:西安建筑科技大學(xué)檔案館? ? 來稿日期:2020-08-13)

        少妇又色又爽又刺激的视频| 成在人线av无码免费| 久久青草免费视频| 日韩av在线不卡观看| 精品在线观看一区二区视频| 国产成人无码av| 人人妻人人澡av天堂香蕉| 精品日韩欧美一区二区三区在线播放| 亚洲一区中文字幕视频| 中文无码人妻有码人妻中文字幕| 天天鲁一鲁摸一摸爽一爽| 在线观看无码一区二区台湾| 激情在线视频一区二区三区| 国产一区二区三区视频网| 鲁鲁鲁爽爽爽在线视频观看| 无码片久久久天堂中文字幕 | 亚洲成人av一区免费看| 亚洲av无码电影在线播放| 久久精品国产亚洲av麻| 国产成人aa在线观看视频| 国产av精选一区二区| 免费国产a国产片高清网站| 国产精品视频一区二区三区四| 中文无码免费在线| 国产传媒精品成人自拍| 女人被弄到高潮的免费视频| 五月婷婷六月激情| 一区二区三区观看在线视频| 九九综合va免费看| 精品无码中文视频在线观看| 精品国产91久久久久久久a| 亚洲女厕偷拍一区二区| 国产av无码专区亚洲av蜜芽| 最新亚洲人成网站在线| 三级日本午夜在线观看| 亚洲人成人无码www| 亚洲精品成人网站在线观看| 激情文学人妻中文字幕| 日韩av在线播放人妻| 韩国无码av片在线观看网站| 亚洲中文无码精品久久不卡|