亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        WARC標(biāo)準(zhǔn)推廣策略研究*

        2019-06-24 06:32:40黃新榮
        圖書館 2019年6期
        關(guān)鍵詞:網(wǎng)絡(luò)資源標(biāo)準(zhǔn)資源

        曾 薩 黃新榮

        (西北大學(xué)公共管理學(xué)院 西安 710127)

        隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用發(fā)展,網(wǎng)頁、社交媒體已經(jīng)成為社會(huì)生活中不可或缺的內(nèi)容,網(wǎng)絡(luò)資源不斷豐富。根據(jù)社會(huì)記憶理論,網(wǎng)絡(luò)資源是社會(huì)記憶的重要組成部分,具有重要的數(shù)據(jù)挖掘、數(shù)據(jù)分析價(jià)值。但網(wǎng)頁、社交媒體的特性使得其多變、易失,因此,網(wǎng)頁歸檔、社交媒體歸檔等數(shù)字資源保存的研究和實(shí)踐逐漸增多,網(wǎng)絡(luò)資源的保存格式、保存方式受到重視,WARC格式也逐漸被人所知。

        WARC(Web ARChive)是一個(gè)將多個(gè)數(shù)字資源(數(shù)據(jù)對象)和相關(guān)信息一起聚合到一個(gè)文件中的一種方法,是一種適用于網(wǎng)絡(luò)爬蟲資源的存儲(chǔ)文件格式[1]。為使網(wǎng)絡(luò)資源保存格式與國際標(biāo)準(zhǔn)接軌,國家標(biāo)準(zhǔn)局于2017年7月12日發(fā)布了由ISO28500:2009翻譯而成的《GB/T 3394—2017 信息和文獻(xiàn)WARC文件格式》,2018年2月1日正式生效。但是WARC 標(biāo)準(zhǔn)發(fā)布后在國內(nèi)知曉度不高,沒有引起重視。為解決這一問題,文章從WARC及其標(biāo)準(zhǔn)的概況出發(fā),探討WARC的國外應(yīng)用廣泛的原因,分析國內(nèi)應(yīng)用WARC的困難,并制定相應(yīng)的推廣策略。

        1 WARC概述

        1.1 WARC格式及其標(biāo)準(zhǔn)演變

        WARC由ARC擴(kuò)展而來,ARC是由System Enhancement Associates (SEA)在1985年開發(fā)的無損數(shù)據(jù)的壓縮和歸檔格式[2],該格式后來被ZIP格式所取代。20世紀(jì)90年代,Internet Archive(互聯(lián)網(wǎng)檔案館 IA)將ARC格式用于網(wǎng)頁資源存檔,將網(wǎng)頁上抓取的內(nèi)容存儲(chǔ)為內(nèi)容序列塊并保存在單個(gè)文件中。在ARC文件中,包含已經(jīng)存檔的各種內(nèi)容(html、ps、jpeg),每個(gè)文件之前都有一個(gè)單行標(biāo)題信息,包括:文件格式、文件大小、文件包含的外部鏈接等[3]。每一個(gè)ARC文件都有一個(gè)相應(yīng)的DAT文件,只包含標(biāo)題信息。用戶訪問取決于ARC文件語料庫的大規(guī)模索引或記錄標(biāo)題的單獨(dú)副本(例如Internet Archive DAT文件)。索引DAT文件可以支持用戶通過URL和日期訪問,如同在Wayback Machine中檢索。

        2003年在IIPC(國際互聯(lián)網(wǎng)保存聯(lián)盟)成立后,開始改進(jìn)ARC格式,將ARC格式擴(kuò)展為WARC格式。WARC記錄包括一個(gè)記錄標(biāo)題,后跟一個(gè)記錄內(nèi)容塊和兩個(gè)換行符,內(nèi)容塊可包含任何格式的資源,包括嵌入或鏈接到html頁面的二進(jìn)制圖像或視聽文件[4],一個(gè)WARC文檔包含若干WARC記錄。WARC格式兼容ARC格式,以更好地支持歸檔組織的收集、訪問和交換需求。除了ARC記錄的主要內(nèi)容之外,WARC還可以容納相關(guān)的輔助內(nèi)容,例如分配元數(shù)據(jù)、縮短重復(fù)檢測事件、后期轉(zhuǎn)換以及資源分段等[5]。WARC的應(yīng)用范圍更加廣泛,可用于構(gòu)建收集、管理、訪問、挖掘、交換內(nèi)容的應(yīng)用程序,雖然是用于網(wǎng)頁存檔的標(biāo)準(zhǔn)格式,但已經(jīng)超越了網(wǎng)絡(luò)應(yīng)用范圍,可用于存儲(chǔ)數(shù)字資源或數(shù)字化材料。

        為了統(tǒng)一格式、開放標(biāo)準(zhǔn),IIPC主持開發(fā)相應(yīng)工作,2005年5月通過作為工作項(xiàng)目提交的ISO TC46/SC4。自2007年2月開始形成第一版標(biāo)準(zhǔn)草案,草案經(jīng)過10余次修改完善[6],2008年11月最終確定,2009年5月正式發(fā)布,成為國際標(biāo)準(zhǔn)——ISO28500:2009信息和文獻(xiàn)—WARC文件格式。隨著實(shí)踐發(fā)展,在ISO信息技術(shù)委員會(huì)ISO /TC46(信息和文件)的監(jiān)測下,經(jīng)過IIPC的不斷修訂,ISO28500:2017在2017年8月正式出臺,取代了前一版本[7]。由法國國家圖書館召集的ISO TC46/SC4/WG12是負(fù)責(zé)維護(hù)的工作組,推動(dòng)WARC格式的持續(xù)演進(jìn)。

        1.2 WARC格式的特點(diǎn)

        1.2.1 收割資源描述詳細(xì)

        WARC文件由一序列的WARC記錄組成,WARC記錄可記錄大量數(shù)據(jù)信息,記錄的內(nèi)容或者是一次檢索的直接結(jié)果(網(wǎng)頁、內(nèi)嵌圖片、URL轉(zhuǎn)向信息、DNS主機(jī)名查詢結(jié)果、獨(dú)立文件等),或者是為存檔內(nèi)容提供附加信息的綜合資源(如元數(shù)據(jù)、轉(zhuǎn)化后的內(nèi)容)。WARC定義了8種記錄類型:對應(yīng)不同種類資源的描述,詳見表1。

        表1 WARC記錄類型及描述資源

        從表1可以看出,WARC對收割資源的描述十分詳細(xì),從資源的原生環(huán)境到采集過程,從資源自身內(nèi)容到采集產(chǎn)生的附加信息,WARC都有所記錄,可最大程度的記錄數(shù)據(jù)背景信息。

        1.2.2 支持資源內(nèi)容分割重組

        WARC規(guī)定當(dāng)記錄過大以致超出單個(gè)WARC文件所能允許的最大容量時(shí),記錄會(huì)被分解成獨(dú)立的片段(稱為分段),可使用“continuation”記錄,保持原始記錄邏輯完整。記錄中的“Segment—Origin—ID”字段負(fù)責(zé)將各內(nèi)容片段記錄與起始片段記錄關(guān)聯(lián)起來,“Segment—Number”字段負(fù)責(zé)對每一內(nèi)容片段按先后順序進(jìn)行編號[8]。分割片段的大小可控,同時(shí)也適用于其他數(shù)字資源的分割。

        WARC還支持資源重組,面向同一主題、同一事件需要從不同WARC文件抽取資源時(shí),可以利用“Warcinfo—ID”字段,“WARC—Warcinfo—ID”指示與該記錄的關(guān)聯(lián)‘warcinfo’記錄,找到資源所在的原始位置,從而保證合并記錄時(shí)的關(guān)聯(lián)真實(shí)性。

        1.2.3 支持外部語義關(guān)聯(lián)

        WARC并不是一個(gè)完全閉合的文件,利用“metadata”記錄可指向另一特定記錄,支持資源間相互關(guān)聯(lián),也支持對關(guān)聯(lián)的語義描述?!癿etadata”記錄存儲(chǔ)著原始收割或轉(zhuǎn)化的內(nèi)容,可指向任何記錄類型。網(wǎng)絡(luò)資源數(shù)量巨大,針對同一事件可產(chǎn)生大量WARC文件,利用“WARC—Concurrent—To”標(biāo)頭關(guān)聯(lián)同一抓取事件的其他記錄,利用“WARC-Refers-To”標(biāo)頭關(guān)聯(lián)記錄描述的其他資源,方便對收割資源的進(jìn)一步描述、解釋。

        1.2.4 便于存檔和壓縮

        WARC的多種記錄類型實(shí)現(xiàn)了對資源的多種描述以及關(guān)聯(lián)外部、拆分重組等功能,WARC自身雖然沒有MIS、JAR、RPM等支持軟件打包和分發(fā)的格式復(fù)雜,也不似Boot image、Card image、ROM image等磁盤映像(Disk image)格式,能夠完全復(fù)制存儲(chǔ)設(shè)備的結(jié)構(gòu)和內(nèi)容,但是WARC格式十分便于存檔和壓縮,可以打包、壓縮、加密文件,也支持自解壓和自擴(kuò)展,適合對數(shù)據(jù)量大、內(nèi)容復(fù)雜、交互性強(qiáng)的網(wǎng)絡(luò)資源的存儲(chǔ)。

        1.3 WARC格式應(yīng)用情況

        1.3.1 國外WARC應(yīng)用實(shí)踐

        WARC為網(wǎng)頁資源的保存而產(chǎn)生,1996年到WARC出現(xiàn)之前,一些率先開展網(wǎng)頁保存的國家,如:美國、澳大利亞、瑞典、埃及等利用ARC格式存檔網(wǎng)頁資源。在IIPC成員的共同努力下,ARC擴(kuò)展為WARC,應(yīng)用范圍逐漸擴(kuò)大,一些應(yīng)用ARC的項(xiàng)目,也逐漸將數(shù)據(jù)格式轉(zhuǎn)換為WARC,通過梳理應(yīng)用WARC的網(wǎng)頁存檔、社交媒體文件存檔項(xiàng)目(見表2),可以發(fā)現(xiàn)WARC是國外在網(wǎng)頁存檔、社交媒體文件存檔中應(yīng)用最普遍的格式。一些國家圖書館也認(rèn)可WARC格式對保存數(shù)字收割資源的可行性,并投入實(shí)踐,如:德國、新西蘭、新加坡國家圖書館等。

        此外,Archive-it(網(wǎng)頁存檔服務(wù)組織)對“WARC文件的本地?cái)?shù)字保存活動(dòng)”進(jìn)行了年度調(diào)查,以50多個(gè)合作機(jī)構(gòu)(有網(wǎng)絡(luò)歸檔計(jì)劃的大型或小型圖書館)為調(diào)查對象,發(fā)現(xiàn)WARC已經(jīng)得到了普遍采用,過半的機(jī)構(gòu)會(huì)將WARC下載到本地進(jìn)行保存,部分機(jī)構(gòu)利用開源或自主研發(fā)數(shù)字保存系統(tǒng)本地存儲(chǔ)WARC 文件,部分機(jī)構(gòu)研究適合WARC數(shù)據(jù)傳輸?shù)腁PI,以促進(jìn)本地?cái)z取WARC文件,一些機(jī)構(gòu)在進(jìn)行從WARC提取元數(shù)據(jù)描述網(wǎng)絡(luò)資源的研究[9]。這一調(diào)查表明,國外機(jī)構(gòu)對WARC的應(yīng)用并非停留在網(wǎng)頁歸檔項(xiàng)目層次,也并非止步于僅僅將資源存儲(chǔ)為WARC文件,而是對WARC進(jìn)行了更深層次的分析,對WARC更廣范圍的、更加細(xì)致的利用做出了更多的探索。

        表2 WARC國外項(xiàng)目應(yīng)用列表

        1.3.2 國內(nèi)WARC應(yīng)用情況

        相對于國外的應(yīng)用而言,我國的WARC應(yīng)用匱乏。國內(nèi)大型的網(wǎng)頁歸檔項(xiàng)目有Web信息博物館和WICP(Web Information Collection and Preservation),WICP項(xiàng)目應(yīng)用WARC作為網(wǎng)絡(luò)數(shù)字資源的保存格式。WICP是中國國家圖書館在2003年啟動(dòng)的網(wǎng)絡(luò)信息資源采集與保存實(shí)驗(yàn)項(xiàng)目,該項(xiàng)目對靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁采取不同的保存策略,在項(xiàng)目的發(fā)展過程中,2010年國家圖書館開發(fā)出網(wǎng)絡(luò)資源獲取系統(tǒng),系統(tǒng)將網(wǎng)頁資源保存為WARC格式[10]。此外,鄭州市檔案局在進(jìn)行政府網(wǎng)站歸檔時(shí)將網(wǎng)頁資源保存為WARC并壓縮保存[11]。

        利用百度、搜狐等搜索引擎對WARC的相關(guān)信息進(jìn)行檢索,有關(guān)WARC文件格式信息少,多為介紹類;WARC標(biāo)準(zhǔn)僅有少量報(bào)道性新聞;WARC相關(guān)實(shí)踐未有檢索結(jié)果,說明WARC在國內(nèi)沒有被廣泛應(yīng)用。

        2 國外WARC標(biāo)準(zhǔn)應(yīng)用廣泛的原因

        2.1 標(biāo)準(zhǔn)由實(shí)踐而來

        回顧WARC與ISO28500的產(chǎn)生和發(fā)展歷程可以發(fā)現(xiàn),WARC標(biāo)準(zhǔn)之所以被廣泛采納,是因?yàn)橛猩詈竦膶?shí)踐基礎(chǔ)。在ISO28500產(chǎn)生之前,IIPC相關(guān)工作組在網(wǎng)頁歸檔的實(shí)踐過程中,逐步擴(kuò)展ARC形成了WARC,這表明WARC在產(chǎn)生之初就已經(jīng)有了實(shí)驗(yàn)群體、對比對象。在不斷實(shí)踐過程中,發(fā)現(xiàn)問題、解決問題,并擴(kuò)大應(yīng)用范圍,有更多實(shí)踐數(shù)據(jù)支撐,最終證明WARC最為適合網(wǎng)絡(luò)資源存檔。

        在標(biāo)準(zhǔn)的準(zhǔn)備過程中,IIPC成員間不斷進(jìn)行討論和論證,在兩年時(shí)間內(nèi)WARC標(biāo)準(zhǔn)草稿經(jīng)歷10余個(gè)版本,確立了ISO28500:2009。在標(biāo)準(zhǔn)正式頒布之后,隨著時(shí)間推演、實(shí)踐變化,IIPC聯(lián)盟中的一些成員提出標(biāo)準(zhǔn)的修訂意見,在2015年、2016年出臺歐洲方面的關(guān)于ISO28500改進(jìn)的建議,最終ISO28500:2017出臺。

        以實(shí)踐為基礎(chǔ),進(jìn)行WARC標(biāo)準(zhǔn)的產(chǎn)生和修訂,WARC的優(yōu)勢和劣勢都有直觀反映,在實(shí)踐基礎(chǔ)上的WARC標(biāo)準(zhǔn),應(yīng)用風(fēng)險(xiǎn)低,接受范圍更廣。WARC面臨的問題得到有效解決。

        2.2 完善的政策標(biāo)準(zhǔn)體系

        根據(jù)網(wǎng)頁歸檔生命周期模型[12],WARC存檔格式是存檔環(huán)節(jié)中重要的組成部分,完善的政策標(biāo)準(zhǔn)使得WARC的標(biāo)準(zhǔn)與其他環(huán)節(jié)標(biāo)準(zhǔn)的銜接更為流暢。國外WARC政策標(biāo)準(zhǔn)的完善性表現(xiàn)在:

        一是得到網(wǎng)頁存檔相關(guān)政策的支持。網(wǎng)絡(luò)資源作為重要的數(shù)字資源,許多國家已經(jīng)認(rèn)識到歸檔保存網(wǎng)絡(luò)資源的重要性,制定網(wǎng)絡(luò)資源存檔的相關(guān)政策,如澳大利亞《2020數(shù)字連續(xù)計(jì)劃》、英國《政府網(wǎng)頁存檔:重新定義政府部門技術(shù)指導(dǎo)》、美國《社交媒體文件捕獲最佳實(shí)踐白皮書》等。作為存儲(chǔ)的重要組成部分,在政策文件中存儲(chǔ)載體的安全性、存儲(chǔ)格式的適用性、數(shù)據(jù)的可遷移性以及存儲(chǔ)的方式和位置都被強(qiáng)調(diào),進(jìn)而引起對存儲(chǔ)格式的重視。

        二是存檔標(biāo)準(zhǔn)體系完善。國外網(wǎng)頁從收集到保存整個(gè)生命周期都有具體標(biāo)準(zhǔn)和規(guī)范。在網(wǎng)頁形成之前,具有網(wǎng)頁設(shè)計(jì)標(biāo)準(zhǔn),如ISO/IEC40500—Web內(nèi)容可訪問性指南〈Web Content Accessibility Guidelines (WCAG) 2.0〉、美國網(wǎng)頁設(shè)計(jì)規(guī)范等。在對網(wǎng)頁資源進(jìn)行組織時(shí),具有一系列的元數(shù)據(jù)標(biāo)準(zhǔn),如:OAIS(開放存檔信息系統(tǒng))、METS(元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn))、澳大利亞政府記錄元數(shù)據(jù)標(biāo)準(zhǔn)(AGRkMS 2.2版本)。在網(wǎng)絡(luò)資源存檔時(shí),有網(wǎng)絡(luò)存檔元數(shù)據(jù)集(Web Archiving Metadata Set),網(wǎng)頁信息存檔統(tǒng)計(jì)與質(zhì)量標(biāo)準(zhǔn)ISO/TR 14873,也有存檔介質(zhì)標(biāo)準(zhǔn)ISO11799與ISO18938。這些標(biāo)準(zhǔn)為WARC標(biāo)準(zhǔn)的推廣和實(shí)施起了助推作用。

        三是具有詳細(xì)的標(biāo)準(zhǔn)實(shí)施指南。在2009年ISO28500發(fā)布后,IIPC隨即編寫了WARC Implementation Guidelines—2009(WARC實(shí)施指南)[13]。IIPC指出ISO28500是一個(gè)說明如何有效編寫WARC文件的規(guī)則,但是對特定情況下WARC文件的編寫方法缺少建議。在此情況下,IIPC編寫了WARC實(shí)施指南,提出了對于WARC文件命名、記錄識別、記錄信息處理的建議,詳細(xì)闡述了WARC數(shù)據(jù)捕獲、ARC轉(zhuǎn)向WARC等數(shù)據(jù)包裝的具體措施,對載荷識別、WARC文件重新包裝、病毒檢查提出了具體的操作性建議。

        2.3 形成了WARC生態(tài)系統(tǒng)

        國外為了方便WARC文件的收割、存儲(chǔ)和利用,形成了一系列相關(guān)的工具和格式,Archive-team將其稱為WARC生態(tài)系統(tǒng)[14]。WARC的支撐工具可分為4類:數(shù)據(jù)捕獲工具、存儲(chǔ)組織工具、索引工具、分析利用工具。這4類工具都具有相應(yīng)的程序、軟件或者系統(tǒng)支撐:

        捕獲類工具,主要用于從網(wǎng)絡(luò)獲取網(wǎng)絡(luò)資源,常用的有Heritrix、GNUWget、Grab-site、WarcMiddleware、WARCreate等,如WARCreate是面向個(gè)人網(wǎng)頁存檔的谷歌瀏覽器插件,可將用戶瀏覽的網(wǎng)頁保存為WARC文件[15]。

        存儲(chǔ)組織類工具,主要用于對收割資源(WARC文件)進(jìn)行保存、轉(zhuǎn)換、驗(yàn)證、切割、元數(shù)據(jù)抽取等處理,常用的有WARCIO、Jhove2、Megawarc、WARC to ZIP、Java Web Archive Toolkit(JWAT)、Pylibwarc、ArchiveSpark,如Megawarc 可將多個(gè)小型WARC文件合并為一個(gè)大型WARC文件,并且檢查WARC文件是否可以在將其添加到Megawarc之前解壓縮[16]。

        索引類工具,用于對WARC文件的檢索,常用的有cdx_writer、Wayback Machine、Apache Solr、Lucene 等,如cdx_writer通過Python腳本從WARC文件創(chuàng)建CDX索引文件。WARC支持外部索引,ARC/WARC的索引通常稱為CDX文件,CDX文件中包含大量的歸檔信息,利用CDX索引文件可以生成檔案的概要文件[17],CDX格式及CDX文件的出現(xiàn),極大方便了對存檔WARC文件的利用。

        分析利用類工具,主要用于對存檔內(nèi)容的審查和分析以及瀏覽等,常用的有Pywb-Web Recorder、WARC viewer、Web Archiving Integration Layer (WAIL)等,如WARC viewer用于瀏覽WARC文件。

        WARC相關(guān)工具包的不斷催生,使WARC標(biāo)準(zhǔn)有了實(shí)踐的支撐,也正是因?yàn)閃ARC相關(guān)工具和格式的不斷發(fā)展和成熟,又反過來促進(jìn)WARC標(biāo)準(zhǔn)的推廣和完善,使得WARC格式和標(biāo)準(zhǔn)與時(shí)俱進(jìn)。

        2.4 組織的推廣與保障

        WARC與ISO28500的產(chǎn)生和發(fā)展,都離不開IIPC。在IIPC成員的共同開發(fā)下WARC產(chǎn)生并推廣;在IIPC的支持下,成立專門的標(biāo)準(zhǔn)工作組,由法國國家圖書館帶頭編寫草案,最終成為國際標(biāo)準(zhǔn);標(biāo)準(zhǔn)發(fā)布后, IIPC又成立WARC利用任務(wù)工作組(WARC Usage Task Force),負(fù)責(zé)WARC實(shí)施指南的撰寫。此外,為進(jìn)一步促進(jìn)主流Web開發(fā)社區(qū)利用WARC格式,IIPC還成立了WARC工具項(xiàng)目,負(fù)責(zé)開發(fā)WARC相關(guān)工具包,此項(xiàng)目目前已經(jīng)進(jìn)行到3期,提供了一系列開源的免費(fèi)的WARC工具,如Libwarc、Openway Back等[18]。IIPC作為最大的國際互聯(lián)網(wǎng)保存聯(lián)盟,為WARC提供了智力、資金、組織等支持,使得WARC不僅僅是一個(gè)文件格式,還是一個(gè)保存體系,最終成為一個(gè)完整的生態(tài)系統(tǒng)。

        推進(jìn)WARC發(fā)展的團(tuán)體還有許多其他聯(lián)盟組織、志愿團(tuán)體、財(cái)團(tuán)等,如Archive-it。

        3 我國應(yīng)用WARC標(biāo)準(zhǔn)的困難

        距離GB/T 3394-2017發(fā)布已經(jīng)一年有余,但WARC標(biāo)準(zhǔn)在國內(nèi)并沒有被廣泛應(yīng)用。分析發(fā)現(xiàn)由于我國與國外應(yīng)用WARC的歷史、環(huán)境不同,網(wǎng)絡(luò)資源存檔進(jìn)展不同,使得WARC標(biāo)準(zhǔn)應(yīng)用困難。

        3.1 缺乏網(wǎng)頁和社交媒體歸檔相關(guān)實(shí)踐

        WARC是網(wǎng)頁存檔格式,國內(nèi)缺乏網(wǎng)頁存檔和社交媒體存檔的實(shí)踐,使得WARC無“用武之地”。國內(nèi)網(wǎng)頁存檔實(shí)踐,大型項(xiàng)目只有Web信息博物館、WICP,且產(chǎn)生了一定成果,余下為類似鄭州市檔案館的機(jī)構(gòu)或個(gè)人進(jìn)行的小型網(wǎng)頁歸檔實(shí)驗(yàn),不具備社會(huì)影響力。對于社交媒體文件歸檔,由于隱私權(quán)、知識產(chǎn)權(quán)等還存在爭議,存檔機(jī)構(gòu)與數(shù)據(jù)平臺之間還在博弈,我國目前還沒有圖書館、檔案館或者公司等采用爬蟲方式大批量收割保存社交媒體文件的項(xiàng)目。網(wǎng)頁歸檔和社交媒體文件歸檔實(shí)踐匱乏,使得WARC格式缺乏實(shí)踐機(jī)會(huì)和情境,對WARC缺乏相應(yīng)的了解,WARC標(biāo)準(zhǔn)自然也應(yīng)用困難。

        此外,缺乏實(shí)踐,WARC會(huì)產(chǎn)生“水土不服”現(xiàn)象。相比國外豐富、持久的網(wǎng)頁存檔經(jīng)驗(yàn),我國的網(wǎng)頁歸檔實(shí)踐不是很成功,無法提供持久有效的鏈接與回放。國家圖書館在2007年成為IIPC的成員,WICP項(xiàng)目后期很大程度上采用IIPC推薦的框架與流程,包括存檔格式WARC。因此,我國對網(wǎng)頁歸檔的實(shí)踐還停留在較為宏觀的“選擇—收割—存儲(chǔ)—利用”流程階段,對網(wǎng)頁歸檔的一些細(xì)節(jié),如存檔格式等缺乏持久的實(shí)踐研究,WARC及其標(biāo)準(zhǔn)在國內(nèi)都是真正意義上的舶來品。在國外卻不同,WARC為網(wǎng)頁歸檔而產(chǎn)生,在網(wǎng)頁歸檔實(shí)踐中應(yīng)用,WARC的應(yīng)用和發(fā)展有實(shí)踐基礎(chǔ),經(jīng)得起實(shí)踐檢驗(yàn)。

        3.2 缺乏對WARC格式以及相關(guān)格式的研究

        在理論層面,WARC的研究也比較匱乏。筆者在CNKI檢索發(fā)現(xiàn),有關(guān)WARC的研究屈指可數(shù),只有5篇,其中,4篇屬于WARC格式介紹,1篇屬于應(yīng)用WARC格式的索引系統(tǒng)架構(gòu)。在4篇介紹論文里,鐘華翻譯了IS028500對WARC的相關(guān)介紹[19]。李睿、郭世月的文章在較淺層面對比了WARC格式與主流網(wǎng)絡(luò)資源存檔格式標(biāo)準(zhǔn)VERSVEO、LANL MPEG-21、MET的歷史、適用性與可持續(xù)性[8],在另一篇文章里深入介紹了WARC的特征與功能以及部分應(yīng)用情況[20]。曲云鵬分析了WARC格式的優(yōu)點(diǎn)、WARC格式的結(jié)構(gòu)和內(nèi)容、介紹WARC的生態(tài)環(huán)境[21]。

        推廣WARC及其標(biāo)準(zhǔn),上述研究數(shù)量少且太過淺顯,進(jìn)一步需要采用實(shí)驗(yàn)論證為什么WARC格式適合中文網(wǎng)絡(luò)資源歸檔;也應(yīng)深度對比WARC格式與其他歸檔格式,如JSON、XML、PiSi、Disk cloning、OFD等,找到WARC應(yīng)用于保存網(wǎng)絡(luò)資源的適用性與優(yōu)勢。在上述研究的基礎(chǔ)上,如果發(fā)現(xiàn)WARC不適合中文網(wǎng)頁或社交媒體歸檔,可以研究如何對源代碼進(jìn)行改進(jìn),設(shè)計(jì)實(shí)驗(yàn)進(jìn)行論證。

        3.3 缺乏相關(guān)政策標(biāo)準(zhǔn)支持

        政策支持上,國家檔案局在《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》[22]中指出,要研究制定重要網(wǎng)頁資源的采集和社交媒體文件的歸檔管理辦法,但截至目前還沒有任何政策出臺。

        WARC在國外是整個(gè)網(wǎng)頁生命周期的一部分,是網(wǎng)頁歸檔生命周期的一部分,國外做到了全周期管理。在國內(nèi)則沒有網(wǎng)頁生命周期或網(wǎng)頁歸檔生命周期的概念。在網(wǎng)頁生成階段,網(wǎng)頁設(shè)計(jì)缺乏規(guī)范;只有電子文件發(fā)布了歸檔元數(shù)據(jù)方案,缺乏網(wǎng)頁歸檔、社交媒體歸檔的元數(shù)據(jù)方案。在WARC文件的存儲(chǔ)方面也缺乏相關(guān)實(shí)踐,沒有完全成功的案例。相關(guān)標(biāo)準(zhǔn)的缺乏使得WARC只是一個(gè)單獨(dú)的個(gè)體,而不是作為體系中重要的組成部分。整體的脫節(jié)使得標(biāo)準(zhǔn)推廣困難,標(biāo)準(zhǔn)推廣困難又使得網(wǎng)絡(luò)歸檔實(shí)踐推進(jìn)困難,陷入囚徒困境。

        在標(biāo)準(zhǔn)支持上,在引進(jìn)WARC標(biāo)準(zhǔn)后,相關(guān)部門缺乏對標(biāo)準(zhǔn)的解讀,相關(guān)的長期保存機(jī)構(gòu)未制定實(shí)施細(xì)則。對于廣大的非計(jì)算機(jī)專業(yè)的網(wǎng)絡(luò)資源保存人員,WARC具有一定的專業(yè)性,并不能深入理解并使用WARC格式。

        3.4 缺乏軟件工具支撐

        網(wǎng)頁歸檔整個(gè)流程都需要軟件、系統(tǒng)等工具的支持,國外已經(jīng)圍繞WARC格式形成了生態(tài)系統(tǒng),我國在開發(fā)和引進(jìn)網(wǎng)絡(luò)資源歸檔軟件方面還處于空白?,F(xiàn)在網(wǎng)絡(luò)資源存檔通用工具都為國外研發(fā),國內(nèi)一些研究人員主要做相關(guān)介紹工作,部分技術(shù)人員通過設(shè)計(jì)實(shí)驗(yàn)提出利用國外已有的開源軟件對國內(nèi)社交網(wǎng)絡(luò)(微博、微信公眾平臺)信息進(jìn)行歸檔保存、回溯利用,但是沒有大型項(xiàng)目試驗(yàn)這些軟件是否可以應(yīng)用到批量數(shù)據(jù)的歸檔、是否可持久應(yīng)用于存檔、在中文環(huán)境下是否存在特殊性等問題。

        4 我國推廣WARC標(biāo)準(zhǔn)的策略

        長期保存網(wǎng)絡(luò)數(shù)字資源,相當(dāng)于建立了一個(gè)具有歷史價(jià)值、憑證價(jià)值、信息價(jià)值、文化價(jià)值的龐大的數(shù)據(jù)庫,為以后的發(fā)展提供數(shù)據(jù)集積淀、保留數(shù)字記憶。目前,國內(nèi)一些機(jī)構(gòu)已經(jīng)逐步試水,廣州市和青島市要求歸檔政府微博、微信公眾平臺信息,部分機(jī)構(gòu)主動(dòng)采取手工歸檔方式保存單位自己發(fā)布的社交媒體信息。為推進(jìn)網(wǎng)絡(luò)資源存檔進(jìn)程,需要自動(dòng)化歸檔的探索,采用WARC格式存檔,推廣WARC標(biāo)準(zhǔn),可以借鑒國外相關(guān)項(xiàng)目的發(fā)展經(jīng)驗(yàn),利用WARC生態(tài)系統(tǒng)的開源工具,和國外進(jìn)行數(shù)據(jù)共享資源互換等,這在一定程度上能為網(wǎng)絡(luò)資源存檔營造環(huán)境、創(chuàng)造條件。

        4.1 制定標(biāo)準(zhǔn)使用指南或?qū)嵤┘?xì)則

        在已經(jīng)發(fā)布GB/T 3394-2017的情況下,目前最為迫切的是制定標(biāo)準(zhǔn)使用指南,增進(jìn)大眾對WARC及其標(biāo)準(zhǔn)的理解。翻譯而來的GB/T 3394-2017,對WARC的字段、類型、以及部分代碼做了介紹。在中國制定的實(shí)施細(xì)則中,則可以對WARC歷史、WARC與WAT/WET/CDX等格式的關(guān)聯(lián)和區(qū)別等進(jìn)行對比介紹,增加用戶對WARC的理性認(rèn)識,增強(qiáng)認(rèn)同感;進(jìn)一步,介紹WARC的生態(tài)環(huán)境,明晰WARC格式的使用依賴于哪些工具、有哪些成熟的開源軟件可以利用,增加用戶對WARC整體性的理解;另外,需要包含WARC實(shí)施的若干細(xì)節(jié),由于中國WARC的用戶體驗(yàn)較少,可以借鑒已經(jīng)應(yīng)用過WARC的項(xiàng)目經(jīng)驗(yàn),參考WARC Implementation Guidelines—2009,或者自行進(jìn)行WARC文件捕獲的相關(guān)實(shí)驗(yàn),補(bǔ)充WARC標(biāo)準(zhǔn)實(shí)施時(shí)一些必要的細(xì)節(jié),如:WARC文件捕獲、數(shù)據(jù)封裝、WARC記錄的加工、WARC文件的命名及修改、WARC文件元數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)和非網(wǎng)頁數(shù)據(jù)的打包等,給用戶提供操作性建議。

        實(shí)施細(xì)則的指導(dǎo),不僅能給用戶提供全方位的應(yīng)用向?qū)?,也增加了用戶對WARC的認(rèn)識,使WARC中國化的程度加深,相關(guān)歸檔實(shí)踐增多,從底層催生網(wǎng)絡(luò)資源存檔項(xiàng)目。

        4.2 形成網(wǎng)絡(luò)資源存檔政策標(biāo)準(zhǔn)體系

        要推廣WARC標(biāo)準(zhǔn),需要形成完善的政策標(biāo)準(zhǔn)體系,同時(shí)要和已有的標(biāo)準(zhǔn)相銜接。

        在制定新政策方面,應(yīng)考慮到數(shù)字資源保存的長期性和特殊性,應(yīng)制定資金可控、風(fēng)險(xiǎn)可控、可實(shí)施的政策。政策要規(guī)定何種類型的網(wǎng)絡(luò)資源應(yīng)該被優(yōu)先保存、對于不同的資源采取不同的保存策略。對于存儲(chǔ)空間、存儲(chǔ)設(shè)備、存儲(chǔ)格式等政策應(yīng)該加以引導(dǎo)。對于網(wǎng)頁存檔制定政策應(yīng)注重頂層設(shè)計(jì),否則會(huì)出現(xiàn)大規(guī)模保存網(wǎng)頁的重復(fù),產(chǎn)生冗余數(shù)據(jù)。在社交媒體文件歸檔時(shí),由于動(dòng)態(tài)、交互等特征使得社交媒體存檔更加復(fù)雜,政策需要多加考量。在賦予歸檔主體保存權(quán)利的時(shí)候,應(yīng)注意平臺、個(gè)人等的知識產(chǎn)權(quán)和隱私權(quán)的保護(hù)。在整個(gè)歸檔流程中還涉及到目標(biāo)、資源評估、訪問利用、風(fēng)險(xiǎn)管理等具體政策。

        在標(biāo)準(zhǔn)制定方面,與數(shù)字資源長期保存相關(guān)的有:電子文件元數(shù)據(jù)標(biāo)準(zhǔn)、電子文件歸檔光盤技術(shù)與應(yīng)用規(guī)范、民國檔案數(shù)據(jù)采集標(biāo)準(zhǔn)、口述史料采集與管理、照片類/錄音類電子檔案元數(shù)據(jù)方案等。在制定網(wǎng)絡(luò)資源存檔元數(shù)據(jù)標(biāo)準(zhǔn)時(shí),可參考國內(nèi)這些標(biāo)準(zhǔn)進(jìn)行部分銜接,如:音頻、照片的元數(shù)據(jù)、數(shù)據(jù)交換格式等??梢砸M(jìn)部分國外相關(guān)標(biāo)準(zhǔn),如網(wǎng)頁存檔元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)字資源描述元數(shù)據(jù)框架、存檔資源數(shù)據(jù)交換規(guī)范等。由于國情不同,部分標(biāo)準(zhǔn)無法引進(jìn),可以重新制定標(biāo)準(zhǔn),如:網(wǎng)頁設(shè)計(jì)規(guī)范、捕獲行為規(guī)范、社交媒體存檔系統(tǒng)架構(gòu)、數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)等。

        4.3 引進(jìn)開發(fā)相關(guān)軟件

        WARC標(biāo)準(zhǔn)已經(jīng)正式實(shí)施,國內(nèi)并沒有開發(fā)專門的軟件,一方面是因?yàn)榫W(wǎng)絡(luò)存檔目前還沒有受到政府與社會(huì)重視,沒有應(yīng)用市場;另一方面,認(rèn)識到存檔重要性的人不懂技術(shù)也缺乏資金與志愿者支持。在這種情況下,可引進(jìn)國外已有的網(wǎng)頁歸檔軟件、網(wǎng)絡(luò)資源存檔的框架以及參考社交媒體文件多線程歸檔實(shí)現(xiàn)路徑。在引進(jìn)軟件的基礎(chǔ)上對軟件進(jìn)行改良,使之成為國內(nèi)適用的網(wǎng)絡(luò)資源存檔工具。

        從長遠(yuǎn)角度分析,如果只是引用缺乏研發(fā),則會(huì)受制于人,失去網(wǎng)絡(luò)資源存檔領(lǐng)域的話語權(quán)。在初期歸檔實(shí)踐開展順利后,可著手開發(fā)適用于我國網(wǎng)絡(luò)資源存檔的軟件,將微信公眾號信息、微博評論點(diǎn)贊信息長期保存,還原歸檔信息原生環(huán)境,利用云計(jì)算進(jìn)行網(wǎng)絡(luò)資源歸檔存儲(chǔ),手動(dòng)歸檔數(shù)據(jù)轉(zhuǎn)換等方面,開發(fā)出適用軟件,并推向國際市場。與IIPC其他成員一起共同解決網(wǎng)頁存檔、社交媒體文件歸檔的技術(shù)難題,從而在互聯(lián)網(wǎng)信息長期保存方面占有話語權(quán),逐步在數(shù)據(jù)高地上占據(jù)一席之地。

        4.4 成立網(wǎng)絡(luò)資源存檔部門

        WARC標(biāo)準(zhǔn)推廣和實(shí)施需要專業(yè)人員的支撐。國內(nèi)已經(jīng)有應(yīng)用WARC格式的先例,可在參與人員中選取關(guān)鍵人員成立網(wǎng)絡(luò)資源存檔部門,負(fù)責(zé)參加國外網(wǎng)絡(luò)資源存檔項(xiàng)目會(huì)議、與國外項(xiàng)目建立長期合作關(guān)系,積極借鑒國外存檔相關(guān)經(jīng)驗(yàn)。在此基礎(chǔ)上,借助自身項(xiàng)目經(jīng)驗(yàn),開展實(shí)驗(yàn)網(wǎng)頁存檔、社交媒體文件存檔項(xiàng)目。如果實(shí)驗(yàn)項(xiàng)目成功,可在全國范圍內(nèi)培訓(xùn),傳播網(wǎng)絡(luò)資源存檔的專業(yè)知識,推動(dòng)網(wǎng)絡(luò)資源存檔實(shí)踐的開展。由專業(yè)組織的保障和推廣,WARC就能被廣大存檔人員所知、所用。

        綜上所述,WARC格式是整個(gè)網(wǎng)絡(luò)資源歸檔生命周期的重要組成部分,WARC標(biāo)準(zhǔn)的認(rèn)可度不高、推廣艱難,一定程度上也反映了國內(nèi)不重視網(wǎng)絡(luò)資源長期保存。推行WARC格式,旨在加速數(shù)字資源長期保存的進(jìn)程,要想成功推動(dòng)WARC標(biāo)準(zhǔn)的實(shí)施,必然要網(wǎng)絡(luò)資源存檔得到發(fā)展,所以說WARC標(biāo)準(zhǔn)推動(dòng)不是獨(dú)立事件,而是一個(gè)系統(tǒng)工程,需要多方配合推進(jìn)。

        (來稿時(shí)間:2018年9月)

        猜你喜歡
        網(wǎng)絡(luò)資源標(biāo)準(zhǔn)資源
        2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        忠誠的標(biāo)準(zhǔn)
        美還是丑?
        資源回收
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
        專用汽車(2016年4期)2016-03-01 04:13:43
        網(wǎng)絡(luò)資源在高中班級管理中的運(yùn)用
        談網(wǎng)絡(luò)資源在大學(xué)計(jì)算機(jī)教學(xué)中的應(yīng)用
        免费网站看av片| 亚洲中文字幕成人无码| 亚洲av无吗国产精品| 成人午夜视频一区二区无码| 成人a级视频在线观看| 日韩中文字幕久久久经典网| 亚洲aⅴ在线无码播放毛片一线天| 国产亚洲精品一区二区在线观看| 亚洲欧美日韩中文v在线| 亚洲国产精品嫩草影院久久| 日韩人妻少妇一区二区三区| 亚洲女同系列在线观看| 熟女少妇av免费观看| 精品88久久久久88久久久| 激情综合丁香五月| 亚洲女人毛茸茸粉红大阴户传播| 一本之道加勒比在线观看| 老汉tv永久视频福利在线观看 | 久久精品国产亚洲av热九九热| 人妻少妇久久中文字幕一区二区 | 亚洲精品午睡沙发系列| 少妇被又大又粗又爽毛片久久黑人 | 亚洲视频在线观看一区二区三区| 精品国产一区二区三区AV小说| 国产男女猛烈视频在线观看| 成熟了的熟妇毛茸茸| 亚洲一品道一区二区三区| ZZIJZZIJ亚洲日本少妇| 精品国产三级在线观看| 日韩av东京社区男人的天堂| 欧美群妇大交群| 性生大片免费观看性少妇| 亚洲女同高清精品一区二区99| 无码伊人66久久大杳蕉网站谷歌 | 老汉tv永久视频福利在线观看| 国内精品久久久久久久久久影院| 日本免费一区二区三区| 国产69精品久久久久777| www国产亚洲精品久久麻豆| 亚洲女同恋av中文一区二区| 亚洲av综合日韩精品久久|