亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)站時(shí)光機(jī):美國網(wǎng)頁存檔模式探索
        ——以Internet Archive為例*

        2021-07-21 12:00:22王運(yùn)彬
        圖書館 2021年7期
        關(guān)鍵詞:網(wǎng)頁檔案館資源

        吳 倩 王運(yùn)彬

        (福建師范大學(xué)社會(huì)歷史學(xué)院 福州 350117)

        1 引言

        隨著信息化時(shí)代的到來,網(wǎng)絡(luò)的高速發(fā)展為網(wǎng)頁資源提供了利用平臺(tái),承載了大量具有時(shí)代價(jià)值的網(wǎng)絡(luò)信息。然而網(wǎng)站更新快、互動(dòng)性強(qiáng)等服務(wù)特點(diǎn)使得網(wǎng)站信息逐漸碎片化與易逝化,這些消逝的信息成為了文化資源存檔的一大阻礙。作為為社會(huì)提供綜合性服務(wù)、記錄與保存社會(huì)原始記憶的檔案機(jī)構(gòu),更應(yīng)及時(shí)捕捉網(wǎng)站的每一個(gè)“鏡頭”,為網(wǎng)站的前世今生留下寶貴的記憶,網(wǎng)站檔案館應(yīng)運(yùn)而生。網(wǎng)站檔案館是指有關(guān)主體有選擇性地對具有長遠(yuǎn)保存價(jià)值的網(wǎng)絡(luò)信息進(jìn)行捕獲、歸檔、存儲(chǔ)等檔案化管理的機(jī)構(gòu)[1]。

        2 研究背景

        2.1 研究述評

        我國對網(wǎng)站檔案的研究始于2002年北京大學(xué)開設(shè)的Infomall項(xiàng)目[3],已有的研究成果主要聚集于以下幾個(gè)方面:①網(wǎng)頁歸檔現(xiàn)狀研究。畢云平等分析當(dāng)前我國對網(wǎng)頁檔案的主要研究內(nèi)容,簡要介紹美英中的四大網(wǎng)頁檔案項(xiàng)目[2]74-78;王芳等調(diào)查研究了國外網(wǎng)頁歸檔在采集、內(nèi)容、保存、訪問與使用方面的現(xiàn)狀[4],對我國的網(wǎng)頁歸檔具有借鑒意義。②網(wǎng)頁歸檔項(xiàng)目研究。李子林等采用網(wǎng)絡(luò)調(diào)查和內(nèi)容分析法對歐洲代表性國家的網(wǎng)絡(luò)存檔案例進(jìn)行探索性分析[5];曹玲與顏祥林從建設(shè)模式、資源建設(shè)、開發(fā)利用三個(gè)方面對美國國會(huì)圖書館網(wǎng)頁歸檔項(xiàng)目的發(fā)展變化進(jìn)行了系統(tǒng)研究,提出值得我國網(wǎng)頁歸檔項(xiàng)目借鑒之處[6];此外還有一些學(xué)者對美英法澳等相關(guān)經(jīng)驗(yàn)較為豐富的國家進(jìn)行網(wǎng)頁歸檔項(xiàng)目研究,為國內(nèi)外網(wǎng)頁歸檔建設(shè)提供經(jīng)驗(yàn)借鑒。③網(wǎng)頁歸檔工作流程研究。吳碩娜等提出Web歸檔生命周期模型在運(yùn)用中的不足及改進(jìn)措施[7],為網(wǎng)頁歸檔提供理論支持;黃新平分析當(dāng)前國內(nèi)外在網(wǎng)頁歸檔的采集與保存等方面的技術(shù)運(yùn)用情況[8],王萍等對國外網(wǎng)頁檔案資源利用途徑與發(fā)展趨勢進(jìn)行分析[9]等,分別從網(wǎng)頁歸檔工作過程中的采集、技術(shù)、保存、利用方面開展了研究,為我國網(wǎng)頁歸檔指明了努力的方向。

        2.2 實(shí)踐梳理

        1996年,Internet Archive網(wǎng)頁歸檔項(xiàng)目在美國誕生,它的成功運(yùn)行拉開了全球網(wǎng)頁歸檔的序幕。自此之后,國內(nèi)外紛紛掀起了網(wǎng)頁歸檔的研究與實(shí)踐熱潮,詳見表1。

        表1 國內(nèi)外網(wǎng)站檔案研究項(xiàng)目表

        我國對網(wǎng)站檔案館的理論研究與開發(fā)實(shí)踐的深度與廣度與國外仍存在一定的差距。IA作為世界上保存網(wǎng)站最多最廣的檔案館,在體系構(gòu)建、技術(shù)開發(fā)、服務(wù)創(chuàng)新等方面都具有值得借鑒之處。

        3 Internet Archive的實(shí)踐分析

        Internet Archive自1996年問世以來,在法律建設(shè)、技術(shù)應(yīng)用、服務(wù)創(chuàng)新等領(lǐng)域都取得了顯著的成績,其所歸檔的網(wǎng)站也在追溯網(wǎng)站前世、法律憑證與學(xué)術(shù)研究方面實(shí)現(xiàn)了顯著的實(shí)踐效用。

        3.1 追溯網(wǎng)站前世

        網(wǎng)站信息作為人類實(shí)踐的產(chǎn)物,反映了社會(huì)及個(gè)人真實(shí)的實(shí)踐活動(dòng),具有一定的原始性與真實(shí)性。1996年,Internet Archive開發(fā)了網(wǎng)頁回放器(Wayback Machine),允許用戶查看過去時(shí)間點(diǎn)的網(wǎng)站,包括已失效的網(wǎng)頁信息。大多數(shù)人到Wayback Machine是為了從中找到丟失的頁面,所訪問的網(wǎng)頁中約65%的網(wǎng)站已在萬維網(wǎng)上消逝[10]。人們只需在IA網(wǎng)站上輸入所需的網(wǎng)站域名,在時(shí)間條上選擇某個(gè)時(shí)間節(jié)點(diǎn),便可得到該網(wǎng)站在該時(shí)間節(jié)點(diǎn)的快照信息。如在檢索框中輸入“www.google.com”,便會(huì)出現(xiàn)谷歌網(wǎng)站的時(shí)間條,選擇2015年2月28日,即可得到當(dāng)天不同時(shí)間點(diǎn)捕捉到的谷歌網(wǎng)站。IA的網(wǎng)站回溯功能得到了廣泛的應(yīng)用,如2004年7月14日,杰弗里·塔克使用IA來說明Mises.org網(wǎng)站八年來一直存在;人們可通過IA查詢已經(jīng)消失在萬維網(wǎng)上的FreeMarketNews.com網(wǎng)站所記載的哈里·布朗、蒂博爾·馬漢和托馬斯·克納普等所作出的貢獻(xiàn)[11]。

        3.2 法律憑證價(jià)值

        網(wǎng)站信息記錄了社會(huì)與人類的實(shí)踐活動(dòng),具有一定的原始記錄性,這與檔案的基本屬性相一致,也能作為重要的法律憑證之一。自問世以來,IA被廣泛應(yīng)用于各種法律訴訟,已然成為法律訴訟中證據(jù)的重要一環(huán)。如2004年10月,訴訟方美國回聲星通信公司(EchoStar)使用Wayback Machine的快照作為Telewizja Polska網(wǎng)站過去內(nèi)容的證據(jù),這可能是第一次用IA收集的網(wǎng)頁數(shù)據(jù)作為證據(jù)[12]。除此之外,我國頒布的《最高人民法院關(guān)于互聯(lián)網(wǎng)法院審理案件若干問題的規(guī)定》(2018)、《最高人民法院關(guān)于修改〈關(guān)于民事訴訟證據(jù)若干規(guī)定〉的決定》(2019)等法律規(guī)定也為網(wǎng)頁等電子存證平臺(tái)的法律效力提供了法律背書。

        3.3 學(xué)術(shù)研究價(jià)值

        網(wǎng)站承載著眾多時(shí)代的網(wǎng)絡(luò)信息,如新聞、文章報(bào)道、博客數(shù)據(jù)等分布于各領(lǐng)域的數(shù)據(jù)資源,是學(xué)術(shù)研究的重要資料來源。一旦網(wǎng)站崩潰或在萬維網(wǎng)上下線,這些重要的資料就可能會(huì)隨著網(wǎng)站一起消失,而網(wǎng)站檔案館的出現(xiàn)拯救了這些資源,為學(xué)術(shù)研究領(lǐng)域保留了財(cái)富。2006年3月17日,杰西· 沃克使用了Wayback Machine使他唯一的作品得以問世,這是一篇當(dāng)時(shí)已不再在網(wǎng)上提供的文章;2015年12月,喬納森·費(fèi)恩戈?duì)柕率褂肳ayback Machine找回他寫的一篇被黑客入侵的舊文章[13]。除作為學(xué)術(shù)研究的資料來源以外,網(wǎng)站檔案也可作為網(wǎng)站自身發(fā)展與創(chuàng)新的研究素材,促進(jìn)網(wǎng)站的服務(wù)優(yōu)化與技術(shù)創(chuàng)新。

        通過采用裝飾者模式對采集模塊進(jìn)行設(shè)計(jì)之后,可以較靈活地對采集到的數(shù)據(jù)進(jìn)行必要的處理;同時(shí),在不改變原有代碼結(jié)構(gòu)體系的情況下,允許今后對數(shù)據(jù)進(jìn)行進(jìn)一步的運(yùn)算處理和改變數(shù)據(jù)處理方法的調(diào)用順序,符合了面向?qū)ο蟮摹伴_閉原則”。

        4 Internet Archive的開發(fā)亮點(diǎn)

        IA在追溯網(wǎng)站前世、法律憑證與學(xué)術(shù)研究等方面都發(fā)揮著重要的作用,充分表明美國已具備成熟的網(wǎng)頁歸檔經(jīng)驗(yàn),主要體現(xiàn)在豐富的館藏資源、新型的技術(shù)軟件、以用戶為主的服務(wù)理念與多元的協(xié)同合作等方面。

        4.1 豐富的館藏資源為基礎(chǔ)

        為深入了解IA的網(wǎng)頁館藏資源,筆者統(tǒng)計(jì)了IA近五年的網(wǎng)頁歸檔數(shù)量,詳見圖1。2016—2020年,IA的網(wǎng)頁歸檔數(shù)量呈直線上升的趨勢。截至2021年2月21日,IA已采集超過5 380億的網(wǎng)頁,提供超過60pb的免費(fèi)書籍、電影、軟件、音樂等資源以滿足用戶的多元化需求。其中IA的互聯(lián)網(wǎng)檔案軟件收藏是世界上最大的老式和歷史軟件庫,提供對數(shù)百萬程序、光盤圖像、文檔和多媒體的即時(shí)訪問。除此之外,IA具有極高的數(shù)據(jù)存儲(chǔ)能力,擁有超過2 790億個(gè)網(wǎng)頁的Internet Archive也僅保存了15pb的數(shù)據(jù)[14]。由此可見,Internet Archive所存儲(chǔ)的龐大網(wǎng)頁數(shù)據(jù)庫為用戶查找與利用過時(shí)或已逝的網(wǎng)頁信息提供了豐富的館藏檔案資源。

        圖1 2016—2020年IA歸檔的網(wǎng)頁數(shù)量圖

        IA的豐富館藏資源自然離不開它的資源采集策略。所謂網(wǎng)頁采集就是及時(shí)獲取網(wǎng)絡(luò)上值得保存的檔案信息資源,并通過各種軟件與技術(shù)方法將其進(jìn)行收集與歸檔,從而提供給社會(huì)利用。IA是當(dāng)今世界網(wǎng)頁采集量最大的項(xiàng)目,主要采用的是多種采集策略相互結(jié)合的復(fù)合式網(wǎng)頁采集方式,包括廣泛式采集與專題采集。IA同IIPC 的圖書館成員共同負(fù)責(zé)開發(fā)了Heritrix爬蟲軟件,實(shí)現(xiàn)對國家域名范圍內(nèi)或整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁等其他在線資源的自動(dòng)化采集。此種采集方式直接對網(wǎng)頁進(jìn)行收集而不修改,對同一網(wǎng)頁的不同時(shí)間節(jié)點(diǎn)多次抓取,不遺漏任何信息,在最大程度上保證網(wǎng)頁信息的精確度與完整度。除此之外,IA還對突發(fā)事件及重要專題進(jìn)行采集,如民間音樂項(xiàng)目、社區(qū)精神與宗教、故事片、電視檔案、美國專利和商標(biāo)局文件等專題。IA收錄了豐富的館藏資源,為滿足用戶的網(wǎng)站檔案利用需求提供了資源保障。

        4.2 新型的技術(shù)軟件為手段

        IA的技術(shù)優(yōu)勢主要體現(xiàn)在其具備的網(wǎng)站搜集與檢索軟件方面。在網(wǎng)站搜集方面,IA主要運(yùn)用的是其與芬蘭、瑞典等國家圖書館聯(lián)合開發(fā)的Heritrix爬蟲軟件。Heritrix采取抓取網(wǎng)頁而不修改的方式,精確地捕捉每一個(gè)完整的網(wǎng)頁內(nèi)容,實(shí)現(xiàn)大規(guī)模的網(wǎng)頁信息采集。在檢索方面,IA主要采用的是Alexa搜索引擎與Archive-It檢索軟件。Alexa是互聯(lián)網(wǎng)檔案館的創(chuàng)建者布魯斯特·卡勒的著名作品之一,它通過將自己安裝為瀏覽器工具欄并收集信息,提供了網(wǎng)絡(luò)爬蟲與其他網(wǎng)站的流量信息,可索引數(shù)十億個(gè)網(wǎng)頁[15]。被廣泛使用的Archive-It不僅允許機(jī)構(gòu)收集和保存數(shù)字內(nèi)容的集合,而且會(huì)提供每一個(gè)集合中所有URI的列表、每個(gè)站點(diǎn)存檔的次數(shù)和日期以及存檔站點(diǎn)的全文檢索,允許用戶快速搜索其感興趣的主題集合,并直接將網(wǎng)頁主題集合鏈接到機(jī)構(gòu)網(wǎng)站[16],為用戶的網(wǎng)頁查詢提供了重要技術(shù)保障??傊琁A開發(fā)與采用了多種網(wǎng)頁爬蟲與檢索軟件作為網(wǎng)頁資源保存與檢索利用的核心技術(shù),為網(wǎng)頁資源進(jìn)一步的開發(fā)與利用提供了可行性。

        4.3 以用戶為主的服務(wù)為核心

        IA一直秉承著“以用戶為核心”的服務(wù)理念,主要體現(xiàn)在網(wǎng)頁收集、網(wǎng)頁設(shè)計(jì)與民眾參與三個(gè)方面。

        網(wǎng)頁收集尊重網(wǎng)站擁有者的意愿。IA在利用網(wǎng)站上提供了申訴途徑,當(dāng)IA所采集的網(wǎng)站信息涉及個(gè)人隱私或是其他不便公開的范圍,用戶或網(wǎng)站管理者不希望這些網(wǎng)頁被存檔時(shí),便可申請退出收集,此時(shí)網(wǎng)頁爬蟲軟件便會(huì)繞過這些網(wǎng)站。這充分顯示IA在網(wǎng)頁收集過程中“以用戶為主”的原則,充分尊重網(wǎng)站擁有者的歸檔意愿。

        網(wǎng)頁設(shè)計(jì)以服務(wù)用戶為原則。IA從最初的只是存儲(chǔ)數(shù)據(jù)來支持線下利用的服務(wù)方式逐漸轉(zhuǎn)為注重用戶的多樣化需求、提供原始頁面在線訪問的服務(wù)模式。IA所歸檔的網(wǎng)頁資源是向全世界開放的,用戶只需要連接上網(wǎng)絡(luò),通過瀏覽工具在搜索框內(nèi)輸入網(wǎng)址,系統(tǒng)就會(huì)自動(dòng)呈現(xiàn)該網(wǎng)站的歷年歸檔結(jié)果與歸檔日歷,用戶點(diǎn)擊任何一個(gè)時(shí)間點(diǎn)便可獲得該網(wǎng)站此時(shí)的狀態(tài)。IA提供了iOS與Android兩種系統(tǒng)的手機(jī)App在線服務(wù)方式,用戶通過網(wǎng)站上開設(shè)的App下載窗口便可獲得“指尖上的網(wǎng)站檔案館”。除此之外,IA還提供多種語言檢索與標(biāo)題導(dǎo)航,將歸檔資源按照文件類型、網(wǎng)站與主題進(jìn)行分類,以滿足全世界不同國家的用戶要求。

        帶動(dòng)民眾參與IA建設(shè)。IA的優(yōu)勢之一就是來自許多民眾上傳他們或他們社區(qū)創(chuàng)建的項(xiàng)目。民眾作為檔案館的一員,只需要注冊便可獲得一張?zhí)摂M卡,通過該卡可以建立收藏列表,為項(xiàng)目提出意見,發(fā)表評論,還可以上傳自己的項(xiàng)目到檔案館的收藏之中。民眾作為檔案館的一員也可將文件上傳到IA的書庫、文本、圖像、電影、音頻等資源庫,充分實(shí)現(xiàn)了“檔案眾包”的開發(fā)模式與“民館合作”的服務(wù)理念。

        4.4 多元的協(xié)同合作為發(fā)展

        Internet Archive作為全球第一個(gè)互聯(lián)網(wǎng)檔案館,自1996年建成以來就一直致力于多元協(xié)同合作的發(fā)展模式,主要體現(xiàn)在資源、項(xiàng)目、技術(shù)方面的合作交流,詳見表2。IA通過與其他圖書館、博物館、企業(yè)等機(jī)構(gòu)合作,共同開發(fā)資源采集與存儲(chǔ)的新型技術(shù),也獲得了一定的資金支持。值得一提的是,IA于2003年7月與澳大利亞、加拿大、丹麥等國的國家圖書館及美國國會(huì)圖書館共12個(gè)機(jī)構(gòu)聯(lián)合組成國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC),它采用責(zé)任平等的合作機(jī)制,鼓勵(lì)世界范圍內(nèi)的文化遺產(chǎn)保護(hù)機(jī)構(gòu)一起參與網(wǎng)絡(luò)信息資源保存的工作,目前IIPC已吸納40多個(gè)機(jī)構(gòu)成員[17]。IA與其他成員的合作往往采取一對一的模式,合作之間沒有明確的權(quán)責(zé)。這種合作模式雖具有一定的松散性,但也在一定程度上增強(qiáng)了合作的自主性。機(jī)構(gòu)成員的多元化不僅促進(jìn)了國際上網(wǎng)站歸檔的技術(shù)交流與經(jīng)驗(yàn)共享,對資源采集、永久保存、元數(shù)據(jù)等方面的規(guī)范標(biāo)準(zhǔn)及技術(shù)的形成與發(fā)展也起到了一定的推動(dòng)作用。

        表2 IA部分合作項(xiàng)目表

        5 我國網(wǎng)頁歸檔的建設(shè)方向

        美國IA的網(wǎng)頁歸檔項(xiàng)目起步較早,其豐富的館藏資源、新型的技術(shù)軟件、以用戶為核心的服務(wù)理念與多元的協(xié)同合作等方面的開發(fā)亮點(diǎn),在體系、合作、技術(shù)、人員、開發(fā)與危機(jī)防范等方面為我國網(wǎng)頁歸檔的建設(shè)與優(yōu)化指明了方向。

        5.1 體系層面:加強(qiáng)頂層設(shè)計(jì),形成以檔案館為核心的分布式網(wǎng)頁歸檔體系

        2016年4 月,國家檔案局印發(fā)的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》提出要將“研究制定重要網(wǎng)頁資源的采集和社交媒體文件的歸檔管理辦法”作為提升電子檔案管理水平的任務(wù)之一。但我國仍缺乏對網(wǎng)頁歸檔的統(tǒng)一體系建設(shè),使得各網(wǎng)頁歸檔項(xiàng)目在實(shí)踐時(shí)無章可循。國內(nèi)網(wǎng)站檔案館可遵循“統(tǒng)一領(lǐng)導(dǎo),分級(jí)管理”的原則對我國網(wǎng)頁進(jìn)行歸檔。國家層面應(yīng)建設(shè)國家網(wǎng)站檔案館,負(fù)責(zé)統(tǒng)籌規(guī)劃和統(tǒng)一管理。各省市級(jí)的網(wǎng)站歸檔工作將依托于各省的市區(qū)縣級(jí)數(shù)字檔案館,利用現(xiàn)有的人力、技術(shù)、館藏等進(jìn)一步發(fā)展網(wǎng)站檔案的收集與開發(fā)利用工作,從而形成以國家檔案館為核心的分布式網(wǎng)站收集模式。

        在以檔案館為核心的分布式網(wǎng)站歸檔體系建設(shè)下,我國應(yīng)實(shí)行多種上交制度相結(jié)合的綜合歸檔模式。按照網(wǎng)站歸檔的要求,可將歸檔制度分為呈繳本制度、自愿歸檔制度與自動(dòng)捕捉制度。呈繳本制度是指國家以法律或法令形式規(guī)定全國所有出版機(jī)構(gòu)或負(fù)有出版責(zé)任的單位,凡出版一種出版物必須向指定的圖書館等機(jī)構(gòu)免費(fèi)繳送一定數(shù)量的樣本[18]。呈繳本制度同樣適用于網(wǎng)站歸檔,即以國家法律或法令形式規(guī)定某些重要網(wǎng)站定期向數(shù)字檔案館呈繳網(wǎng)頁檔案,如政府網(wǎng)站、檔案館網(wǎng)站等。自愿歸檔制度是指相關(guān)部門自愿向數(shù)字檔案館定期提交網(wǎng)站或向檔案館申請網(wǎng)站捕捉歸檔的制度,如社交網(wǎng)站、個(gè)人網(wǎng)站等。而其他部門的網(wǎng)站則可由數(shù)字檔案館根據(jù)國家法律規(guī)定將具有歸檔價(jià)值的網(wǎng)站進(jìn)行自動(dòng)捕捉。多種制度相結(jié)合的綜合性歸檔模式能夠彌補(bǔ)各歸檔制度的不足,以實(shí)現(xiàn)網(wǎng)站歸檔效益的最大化。

        5.2 合作層面:納入第三方主體,創(chuàng)建國際國內(nèi)“雙合”的運(yùn)行模式

        IA自1996年創(chuàng)建以來,一直秉持著多方合作的運(yùn)營理念,從而獲得了豐富的館藏資源、高水平的技術(shù)與綜合人才等,這對于正處于網(wǎng)頁歸檔探索階段的我國具有很大的借鑒價(jià)值。我國網(wǎng)站檔案館應(yīng)積極納入如企業(yè)、高校等第三方網(wǎng)頁歸檔管理主體,采取國際國內(nèi)“雙合”的運(yùn)行模式。

        國內(nèi)合作。網(wǎng)站檔案館本質(zhì)是通過爬蟲軟件對網(wǎng)頁進(jìn)行采集,將其存儲(chǔ)到數(shù)字存儲(chǔ)庫,并通過檢索軟件等向用戶提供網(wǎng)頁利用。網(wǎng)站檔案館的運(yùn)行涉及多領(lǐng)域的知識(shí)背景與技術(shù)軟件,僅靠檔案部門無法達(dá)到網(wǎng)站檔案館應(yīng)有的服務(wù)效果?;诖?,網(wǎng)站檔案館可聚集社會(huì)第三方力量的協(xié)同合作。如在技術(shù)方面,網(wǎng)站檔案館可同相關(guān)的數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)、技術(shù)開發(fā)部門等合作,為網(wǎng)頁檔案的采集、永久保存與開發(fā)利用注入新鮮的技術(shù)血液;在資金方面,可從政府投入、社會(huì)捐贈(zèng)等多途徑入手,為網(wǎng)頁歸檔提供資金保障;在人才方面,可與高校形成合作,使高校成為網(wǎng)站檔案館的人才儲(chǔ)備中心。除與第三方機(jī)構(gòu)的合作外,各網(wǎng)站檔案館也應(yīng)加強(qiáng)館際合作,實(shí)現(xiàn)網(wǎng)站資源的共建共享。

        國際合作。國外的網(wǎng)站檔案館起步較早,建設(shè)也相對較為成熟,對于我國處于剛剛起步階段的網(wǎng)站檔案館建設(shè)有值得借鑒的經(jīng)驗(yàn)與技術(shù)軟件,因此國際合作顯得尤其重要。我國可與美國、英國等網(wǎng)站歸檔經(jīng)驗(yàn)較為成熟的國家開展技術(shù)方面的合作與交流,引進(jìn)國外先進(jìn)的技術(shù)軟件等。但由于部分網(wǎng)站檔案涉及國家機(jī)密,我國應(yīng)視情況選擇網(wǎng)站檔案國際合作模式,即根據(jù)網(wǎng)站性質(zhì)與內(nèi)容的不同,有選擇性地開展網(wǎng)站歸檔的國際合作。

        5.3 技術(shù)層面:引進(jìn)新技術(shù),形成覆蓋網(wǎng)站歸檔運(yùn)行周期的保護(hù)框架

        隨著技術(shù)的不斷發(fā)展,檔案信息的有效載體日益增多,使得網(wǎng)站呈現(xiàn)格式多樣化的檔案信息載體,如3D展廳、H5、影像視頻等。要讓這些數(shù)字檔案保持原始性、真實(shí)性、可讀性,就必須不斷引進(jìn)與更新覆蓋網(wǎng)站歸檔的采集、永久保存、網(wǎng)頁利用等整個(gè)運(yùn)行周期的技術(shù),為網(wǎng)站檔案營造安全的電子檔案存儲(chǔ)環(huán)境,以滿足檔案的存儲(chǔ)與利用需求,形成前瞻性的保護(hù)框架。

        在網(wǎng)站檔案收集前期,網(wǎng)站檔案館必須具備多樣化檔案格式識(shí)別、網(wǎng)頁重建與深度挖掘技術(shù)。一旦發(fā)現(xiàn)采集的網(wǎng)頁受到硬件破壞、黑客入侵等造成網(wǎng)站數(shù)據(jù)丟失,網(wǎng)站檔案館必須利用網(wǎng)頁重現(xiàn)技術(shù)開展網(wǎng)站恢復(fù)工作,確保網(wǎng)站信息的可訪問與可獲取[19]。除對網(wǎng)頁進(jìn)行抓取以外,爬蟲軟件還需完成對網(wǎng)站中鏈接的其他一級(jí)、二級(jí)、三級(jí)等網(wǎng)頁的采集,有效保證采集的網(wǎng)站與其鏈接信息之間的聯(lián)系,形成較為完整的“語境”與電子檔案元數(shù)據(jù)的原始環(huán)境。在網(wǎng)站檔案保存階段,網(wǎng)站檔案館應(yīng)構(gòu)建符合電子檔案長期保存條件的虛擬環(huán)境,不斷更新數(shù)據(jù)庫的存儲(chǔ)能力,如美國IA采購了Sun Modular Datacenter等一系列技術(shù),大大擴(kuò)充了自身的存儲(chǔ)能力。此外,網(wǎng)站檔案存儲(chǔ)庫還需保證網(wǎng)站檔案不受網(wǎng)絡(luò)黑客等的惡意破壞,從而維護(hù)檔案的真實(shí)性與可讀性。在檔案服務(wù)階段,網(wǎng)站檔案館必須具備檔案的鑒別技術(shù),確保輸出的網(wǎng)站檔案與采集時(shí)的電子檔案一致,維護(hù)檔案的真實(shí)性。因此,網(wǎng)站檔案館必須與時(shí)俱進(jìn)地更新分布于每一個(gè)網(wǎng)站歸檔運(yùn)行階段的管理技術(shù),形成覆蓋全周期的技術(shù)保護(hù)框架,從技術(shù)上保障網(wǎng)頁檔案的真實(shí)性與可靠性。

        5.4 人員層面:提高人員素養(yǎng),實(shí)現(xiàn)網(wǎng)站歸檔的前端控制與后端檢測

        2017年美國國家數(shù)字管理聯(lián)盟(NDSA)的網(wǎng)絡(luò)檔案調(diào)查報(bào)告顯示,開發(fā)成功的Web歸檔程序必須具備歸檔工具、評估和選擇、質(zhì)量保證等三大技能[20],同時(shí)具備這三大技能對于檔案工作人員而言難度較大。IA自1996年建成以來就一直秉承著協(xié)同合作的態(tài)度,與圖書館、州檔案館、學(xué)術(shù)機(jī)構(gòu)等合作獲得技術(shù)與人才方面的支持。我國網(wǎng)站檔案館也應(yīng)在提高檔案工作人員的管理技能與科技素養(yǎng)的基礎(chǔ)上,引進(jìn)各領(lǐng)域的專業(yè)人員,形成綜合性的人才隊(duì)伍。

        爬蟲軟件的廣泛式無選擇性的網(wǎng)頁采集策略難以保證網(wǎng)站檔案的真實(shí)性與完整性,甚至導(dǎo)致部分“非法內(nèi)容”被采集保存,這就要求網(wǎng)站檔案管理人員必須加強(qiáng)對網(wǎng)站檔案的前端控制與后端檢測。在網(wǎng)站存檔前期,檔案管理人員必須對采集的網(wǎng)頁進(jìn)行鑒別,包括網(wǎng)頁的完整程度、密級(jí)屬性、內(nèi)容合法性等,確保網(wǎng)站檔案采集的準(zhǔn)確性與完整性,形成對網(wǎng)站檔案歸檔的前端控制。在網(wǎng)站檔案利用后期,檔案管理人員要確保用戶所需的網(wǎng)站檔案可公開且與歸檔前的網(wǎng)站檔案信息相一致,從而保障檔案利用的真實(shí)性與機(jī)密性。網(wǎng)站歸檔的前端控制與后端檢測對檔案網(wǎng)站的歸檔與利用形成前瞻性的保護(hù)體系,為實(shí)現(xiàn)網(wǎng)站檔案的管理與利用提供重要保障。

        5.5 開發(fā)層面:挖掘網(wǎng)站資源,創(chuàng)新服務(wù)理念與資源利用方式

        網(wǎng)頁檔案作為一種數(shù)據(jù)化信息資源,更大程度上實(shí)現(xiàn)了檔案信息的可交換性,即以數(shù)據(jù)化的形式獨(dú)立存在的網(wǎng)頁檔案資源在與普通網(wǎng)絡(luò)信息一樣實(shí)現(xiàn)無損交換的同時(shí),促進(jìn)網(wǎng)頁檔案內(nèi)容信息的價(jià)值實(shí)現(xiàn),從而激發(fā)網(wǎng)頁資源的顯性知識(shí)與隱形信息的挖掘與價(jià)值提升[21]。然而,現(xiàn)今大部分的網(wǎng)站檔案館都只提供簡單的網(wǎng)站采集、永久保存、直接利用等服務(wù)內(nèi)容,缺乏深度與廣度的檔案資源整合與服務(wù)挖掘。檔案作為一種信息資源,倘若只是提供簡單的歸檔、保存與利用等服務(wù),則很大程度上降低了其實(shí)際價(jià)值?;诖?,IA也嘗試進(jìn)行了檔案資源集成的未來規(guī)劃。2020年7月28日,IA宣稱將與滑鐵盧大學(xué)形成合作,為研究和管理網(wǎng)絡(luò)檔案的學(xué)者、研究人員、圖書館員和檔案工作者提供易于使用、可擴(kuò)展的工具,即檔案釋放項(xiàng)目[11]。檔案釋放項(xiàng)目是為了給學(xué)者提供能將網(wǎng)絡(luò)檔案數(shù)據(jù)轉(zhuǎn)換為易于使用格式的獨(dú)立服務(wù),并通過互聯(lián)網(wǎng)檔案集成來實(shí)現(xiàn)該項(xiàng)服務(wù),從而達(dá)到學(xué)者通過一個(gè)門戶網(wǎng)站就可收集和分析網(wǎng)絡(luò)檔案內(nèi)容整個(gè)運(yùn)行周期的效果。因此,我國網(wǎng)站檔案館必須在網(wǎng)站檔案服務(wù)的利用方式、個(gè)性化服務(wù)與資源增值服務(wù)方面有所創(chuàng)新。

        在檢索方式上,我國網(wǎng)站檔案館應(yīng)突破當(dāng)前以關(guān)鍵詞檢索、URL檢索等為主的單一檢索模式,引進(jìn)當(dāng)前信息檢索領(lǐng)域的熱點(diǎn)技術(shù),如智能檢索、可視化檢索、用戶畫像技術(shù)等。這些技術(shù)可以提高檢索系統(tǒng)的信息查找能力,更具針對性地幫助用戶查找到所需檔案資源。在個(gè)性化服務(wù)方面,網(wǎng)站檔案館可根據(jù)用戶注冊的職業(yè)、興趣等信息,提供個(gè)性化的服務(wù)功能,以提升用戶的體驗(yàn)效果,如針對老師的職業(yè)屬性提供“教學(xué)設(shè)計(jì)”等獨(dú)有的功能。在資源增值服務(wù)方面,網(wǎng)站檔案館可對資源的使用情況及用戶的行為進(jìn)行挖掘與分析,進(jìn)而提供資源利用情況分析、價(jià)值評估、數(shù)據(jù)可視化分析、“信息找人”等增值服務(wù)。如Netflix和Google利用消費(fèi)者的集體智慧,將觀察到的行為信息轉(zhuǎn)化為相關(guān)的搜索結(jié)果或建議??傊?,網(wǎng)站檔案作為新時(shí)代的信息產(chǎn)物,仍存在著大量值得深入挖掘的價(jià)值。為實(shí)現(xiàn)網(wǎng)站檔案價(jià)值的最大化及檔案服務(wù)的最優(yōu)化,網(wǎng)站檔案館必須進(jìn)一步深化“主動(dòng)式”的服務(wù)理念,通過深入挖掘網(wǎng)站檔案的資源價(jià)值,為用戶提供個(gè)性化的增值服務(wù)。

        5.6 防范層面:樹立危機(jī)意識(shí),形成以網(wǎng)站檔案館為核心的多獨(dú)立站點(diǎn)存儲(chǔ)庫

        電子檔案的不穩(wěn)定性使得網(wǎng)站檔案館必須具備足夠安全的運(yùn)行系統(tǒng)。在這種情況下,網(wǎng)站檔案館有必要建立檔案副本與檔案異地備份體系,將檔案資源存儲(chǔ)分布在多個(gè)地理獨(dú)立的站點(diǎn)上,以提供故障轉(zhuǎn)移和災(zāi)難恢復(fù)。以美國IA的異地備份功能為借鑒,其于2006 年在亞歷山大圖書館設(shè)立檔案備份,為IA存儲(chǔ)的網(wǎng)頁檔案資源提供了安全保障。因此,我國網(wǎng)站檔案館也應(yīng)在檔案的安全防控方面有所延伸拓展。

        我國網(wǎng)站檔案館可建立多個(gè)獨(dú)立物理備份數(shù)據(jù)存儲(chǔ)庫,以存儲(chǔ)歸檔的網(wǎng)站檔案副本,提供元數(shù)據(jù)存儲(chǔ)空間。存儲(chǔ)庫一般只作為存儲(chǔ)備份網(wǎng)站檔案的存儲(chǔ)庫,不對外提供利用。各物理備份數(shù)據(jù)庫通過數(shù)據(jù)互通的運(yùn)行模式自動(dòng)更新網(wǎng)站檔案館所采集的網(wǎng)站檔案,形成信息資源共建共享。但一方存儲(chǔ)庫檢測出某網(wǎng)站檔案館或某存儲(chǔ)庫受到破壞而出現(xiàn)故障時(shí),各存儲(chǔ)庫則會(huì)自動(dòng)斷開互通的連接通道,進(jìn)入資源保護(hù)狀態(tài)。此種運(yùn)行模式通過建立以網(wǎng)站檔案館為核心的多個(gè)獨(dú)立站點(diǎn)存儲(chǔ)庫,形成安全的異地備份體系,為檔案的故障轉(zhuǎn)移與災(zāi)難恢復(fù)提供重要保障。

        猜你喜歡
        網(wǎng)頁檔案館資源
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        資源回收
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        關(guān)于縣級(jí)檔案館館藏檔案開發(fā)利用的思考
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        全省部分檔案館新館掠影
        浙江檔案(2017年10期)2017-03-31 06:27:31
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        when與while檔案館
        国产av剧情刺激对白| 亚洲中文av一区二区三区| 一区二区和激情视频| 一区二区和激情视频| 大肉大捧一进一出视频出来呀| 四虎影视免费观看高清视频| 免费a级毛片出奶水| 国产精品美女久久久久久2018| 国产成人影院一区二区| 亚洲AV无码资源在线观看| 天堂AV无码AV毛片毛| 国产美女av一区二区三区| 精品蜜桃av一区二区三区| 国产又色又爽的视频在线观看91| 日本免费看片一区二区三区| 久久精品中文少妇内射| 久久久久久久久毛片精品| 亚洲av无码xxx麻豆艾秋| 亚洲av成人精品日韩一区| 日本韩国一区二区三区| 91中文字幕精品一区二区| 亚洲精品一区二区网站| 日韩精品成人区中文字幕| 狠狠人妻久久久久久综合蜜桃| 欧美 变态 另类 人妖| 少妇太爽了在线观看| 女人被躁到高潮嗷嗷叫免费软| 国产激情视频在线观看首页| 夜晚黄色福利国产精品| 国产女人高潮叫床免费视频| 久久精品视频在线看99| 国产剧情福利AV一区二区| 九月色婷婷免费| 成人av一区二区亚洲精| 亚洲日韩精品无码av海量| 国产女人水真多18毛片18精品 | 久青草国产视频| 成人国产精品高清在线观看| 亚洲乱码中文字幕一线区| 337p日本欧洲亚洲大胆精品| 人人妻人人澡人人爽久久av|