亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國內(nèi)外網(wǎng)頁存檔理論與實踐研究歷程與特征分析

        2022-03-30 23:23:59初彥伯王萍李依凝李佳恒
        現(xiàn)代情報 2022年4期

        初彥伯 王萍 李依凝 李佳恒

        作者簡介:初彥伯(1996-),男,博士研究生,研究方向:專利情報分析、專利情報挖掘。李依凝(1998-),女,碩士研究生,研究方向:信息資源管理。李佳恒(1994-),男,博士研究生,研究方向:信息資源管理。

        通訊作者:王萍(1965-),女,教授,博士生導師,研究方向:信息資源管理。

        摘 要:[目的/意義]存檔網(wǎng)頁具有憑證價值、情報價值及檔案價值。對國內(nèi)外網(wǎng)頁存檔研究歷程進行梳理,以期對我國實踐項目的發(fā)展及后續(xù)研究提供借鑒及參考。[方法/過程]對1993年至今的國內(nèi)外網(wǎng)頁存檔文獻進行研讀,參照OAIS模型,將國內(nèi)外網(wǎng)頁存檔研究整體劃分為4個階段,分別為初始研究階段、縱深發(fā)展階段、功能全面提升階段、智慧型實踐項目探索階段;將各階段發(fā)展概況及研究歷程進行梳理,歸納階段性研究熱點及特征。[結果/結論]網(wǎng)頁存檔實踐項目以理論與實踐并行的方式發(fā)展。同時,向智慧型實踐項目不斷探索。理論模型、系統(tǒng)框架、技術革新、資源采集方式、歸檔資源評估、資源開發(fā)利用及人工配置七者交融并互相促進,共同將存檔網(wǎng)頁資源推向深層化應用。

        關鍵詞:網(wǎng)頁存檔;網(wǎng)頁保管;存檔網(wǎng)頁利用;網(wǎng)頁資源長期保存

        DOI:10.3969/j.issn.1008-0821.2022.04.014

        〔中圖分類號〕G250.1 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)04-0153-15

        Abstract:[Purpose/Significance]The archived webpage has credential value,information value and archive value.The research process of home and abroad webpage archiving is sorted out,in order to provide reference and reference for the development and follow-up research of practical projects in my country.[Methods/Process]Referring to the OAIS model,and foreign web archive documents from 1993 to the present were studied,the domestic and foreign web archive research were divided into four stages,which ware the initial research stage,the in-depth development stage,the comprehensive function improvement stage,the exploration stage of the smart practical project;the development overview and research process of each stage are sorted out,and the characteristics of the staged research were summarized.[Results/Conclusions]The web archive practice project is developed in a parallel way of theory and practice.At the same time,continues to explore smart practical projects.Theoretical model,system framework,technological innovation,resource collection method,archive resource assessment,resource development and utilization,and manual configuration are blended and mutually promoted,and jointly push the archived web resources to deeper application.

        Key words:web archive;web hosting;archived web utilization;long-term preservation of web resouces

        隨著互聯(lián)網(wǎng)的普及、互聯(lián)網(wǎng)技術的日趨成熟,互聯(lián)網(wǎng)中的“網(wǎng)頁信息資源”已經(jīng)成為全球最大的信息資源庫。中國互聯(lián)網(wǎng)信息中心2021年2月3日發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》中的統(tǒng)計數(shù)據(jù)顯示,截至2020年12月,我國網(wǎng)民規(guī)模達到9.89億,較2020年3月增長了8 540萬,互聯(lián)網(wǎng)普及率達70.4%,我國互聯(lián)網(wǎng)行業(yè)在抵御新冠疫情和疫情常態(tài)化防控方面發(fā)揮了積極作用,為我國成為全球唯一實現(xiàn)經(jīng)濟正增長的主要經(jīng)濟體做出了重要貢獻[1]。網(wǎng)頁信息資源是一種動態(tài)增長的、易逝的且不可再生的“原生性”網(wǎng)絡文獻[2],研究表明一個網(wǎng)頁的平均壽命只有44天[3],網(wǎng)頁中的高價值資源一旦消失便難以復原,將會給國家和社會文化資源的持久保存和歷史傳承造成難以挽回的損失。為此,需要學界更多關注并研究網(wǎng)頁存檔問題,實現(xiàn)網(wǎng)頁信息資源長期保存與持續(xù)利用。

        所謂網(wǎng)頁存檔(Web Archive,簡稱WA),又稱“網(wǎng)絡存檔”,是指一種在“原生性”網(wǎng)絡信息資源的整個生命周期內(nèi)對其進行有目的的評價、選擇、采集、描述、元數(shù)據(jù)表示、存儲、發(fā)布和維護等一系列工作以確保其當前可用和未來價值增值的管理活動[4]。近年來,國內(nèi)外相關領域的專家學者投入了大量的精力和時間成本開展網(wǎng)絡存檔研究工作,不斷完善網(wǎng)絡存檔的理論研究并積極推進實踐探索,相關研究內(nèi)容眾多,研究主題龐雜,研究質(zhì)量差異,使得有必要更好地了解國內(nèi)外網(wǎng)絡存檔的研究現(xiàn)狀,對國內(nèi)外網(wǎng)絡存檔研究進行系統(tǒng)梳理,以期對我國相關研究提供借鑒和參考。

        1 研究方法

        本文采用文獻調(diào)研法,國內(nèi)文獻選取中國知網(wǎng)(http://www.cnki.net/)為國內(nèi)文獻檢索平臺,選擇高級檢索方式,檢索條件的篇名中分別包含“網(wǎng)頁存檔”“網(wǎng)絡存檔”“網(wǎng)頁保存”“網(wǎng)絡信息資源長期保存”“Web Archive”“Web Archiving”等關鍵詞。國外文獻通過檢索Web of Science、Scopus等外文文獻數(shù)據(jù)庫,關鍵詞“Web Archive”“Web Archiving”“Internet Archive”等,經(jīng)過整理最后得到全部文獻637篇,其中國內(nèi)文獻294篇,國外文獻343篇。

        國外最早出現(xiàn)本關鍵詞相關文獻是1993年,國內(nèi)是1999年。國外最早的文獻是1993年C,SIMMONDS發(fā)表的SEARCHING INTERNET ARCHIVE SITES WITH ARCHIE-WHY,WHAT,WHERE,AND HOW一文。國內(nèi)外在1993—1999年共發(fā)文5篇,2000—2004年共發(fā)文17篇,2005—2012年共發(fā)文159篇,2012至今共發(fā)文456篇。由此可見,與“網(wǎng)頁存檔”相關主題地研究是以遞增的趨勢發(fā)展,說明一直以來都是國內(nèi)外眾多學者研究的重點,從1993年至今的總體發(fā)文量曲線圖如圖1所示。

        可以發(fā)現(xiàn),國內(nèi)文獻總量為294篇,其中有25篇為碩士論文,沒有相關主題的博士論文,說明國內(nèi)對網(wǎng)頁存檔的研究還不夠深入。國內(nèi)總文獻量呈遞增趨勢,說明在國內(nèi)越來越多的專家學者投入精力完善網(wǎng)頁存檔的研究工作,隨著網(wǎng)絡技術研究的深入,未來會在此領域有大量新的研究文獻發(fā)表。

        國外從2003年開始文獻量大幅遞增,這與各個國家紛紛投入網(wǎng)頁存檔實踐項目有直接聯(lián)系。隨著實踐項目的不斷發(fā)展及完善,在采集、歸檔保存及長久保存過程中所使用技術的不斷更新,針對網(wǎng)頁存檔過程中涉及的核心技術進行深入研究的文獻將變多,由此文獻總量呈明顯遞增趨勢。隨著公眾認知增加、獲取途徑增多,新的未知問題將會不斷涌現(xiàn),未來網(wǎng)頁存檔將仍然是國外學者研究的熱點。

        在前述基礎之上,研讀國內(nèi)外相關主題文獻,挑選時區(qū)研究重點主題,并結合現(xiàn)有研究進行階段劃分。網(wǎng)頁歸檔實踐項目的進展影響研究主題的更新,所以,本文還采用網(wǎng)站調(diào)查法和案例分析法,使用IIPC(國際互聯(lián)網(wǎng)保存聯(lián)盟)官方網(wǎng)站獲取最新資料。通過對國內(nèi)外網(wǎng)頁歸檔實踐項目的具體研究,從整個網(wǎng)頁歸檔的流程,其中包括:采集方式、采集頻率、技術方法、存檔內(nèi)容管理、系統(tǒng)平臺搭建、開源工具研發(fā)、責任體系構建、法律及權利等角度作為出發(fā)點,系統(tǒng)歸納并總結階段性研究熱點,為劃分本文網(wǎng)頁存檔研究的階段提供了重要依據(jù)。

        雖然網(wǎng)頁存檔的理論研究始于1993年,但實踐研究則始于1996年。本文將網(wǎng)頁存檔研究歷史進程共劃分為4個階段:第一階段(1996—2005)為網(wǎng)頁存檔初始項目研究,第二階段(2006—2010)為網(wǎng)頁存檔研究縱深發(fā)展,第三階段(2011—2014)為網(wǎng)頁存檔系統(tǒng)功能全面提升研究,第四階段(2015—至今)為探索智慧型網(wǎng)頁存檔實踐,圖2及圖3是1993年、1999年至今的國內(nèi)外相關文獻主題詞共現(xiàn)圖。

        本文在對國內(nèi)外近年相關研究文獻和網(wǎng)絡存檔項目調(diào)研的基礎上,參照OAIS模型,將各階段歸納為采集、管理、保存、利用4個主要階段[5],對每個階段的研究進行細分。如圖4所示,以時間流逝線為主線,對1996年至今的網(wǎng)頁存檔相關主題研究進行全方位梳理。

        2 網(wǎng)頁存檔實踐項目發(fā)展概況

        縱觀整個網(wǎng)頁存檔研究歷史進程,1996年Internet Archive[6]的提出正式意味著網(wǎng)頁存檔實踐項目的興起。同年,澳大利亞建立Pandora項目[7],開發(fā)了“PANDAS”數(shù)字信息存檔系統(tǒng),項目保存澳大利亞境內(nèi)在線出版物,包括社會科學和自然科學、政治、宗教文化等方面的資源,建立與各州立圖書館的合作關系,在系統(tǒng)開發(fā)上,主要在數(shù)字對象存儲系統(tǒng)、數(shù)字對象管理系統(tǒng)及數(shù)字對象存檔系統(tǒng)3個領域進行主要投入[8]。同年,瑞典建立Kulturarw3項目[9],收集瑞典頂級域“se”下的Web服務器及部分其他服務器的資源。

        1997年北歐圖書館在借鑒Kulturarw3項目的實踐經(jīng)驗后,啟動NWA項目[6],并成立專門的技術小組負責制定長期歸檔資源的保存、訪問等技術規(guī)格,逐步建立與北歐各國圖書館、整個歐洲地區(qū)的網(wǎng)頁存檔合作機制。同年,美國國會圖書館建立Minerva Prototype項目[10],對長期保存資源的數(shù)字化、元數(shù)據(jù)、選擇與采集、可獲取等問題進行試驗,通過與Internet Archive項目合作,獲取“Wayback Mechine”及采集技術,為收集的網(wǎng)頁資源進行索引,同時提供短期的數(shù)據(jù)存儲服務,用戶可以按照網(wǎng)站、日期或類別獲取資源。

        1999年新西蘭國家圖書館啟動網(wǎng)頁存檔項目,對政府、歷史、醫(yī)學、音樂、政策等主題進行選擇性采集[11],保存的資源內(nèi)容支持網(wǎng)址搜索、關鍵字搜索、字母搜索、主題瀏覽。2000年捷克國家圖書館建立WebArchiv項目,提出基于重大事件的采集方式。2001年挪威國家圖書館啟動Paradigma項目,通過法定存繳框架對長期保存的資源進行框定,并提供獲取服務[12]。同年英國國家檔案館開展網(wǎng)頁存檔項目并采取選擇性、事件、主題的收集方式對境內(nèi)網(wǎng)站進行保存。在此項目中,部分內(nèi)容可追溯至1996年的英國中央政府網(wǎng)站[13]。

        2002年中國Web信息博物館(Web Infomall)由北京大學主持開發(fā),項目包括歷史網(wǎng)頁存儲系統(tǒng)及回放系統(tǒng)兩部分,使用網(wǎng)址鏈接的方式,瀏覽永久保存的網(wǎng)頁[14]。2003年我國網(wǎng)頁存檔實踐項目WICP(Web Information Collection and Preservation,網(wǎng)絡信息采集與保存)正式啟動,按照表層網(wǎng)及深層網(wǎng)分別進行收集與保存,分別以鏡像存檔及專題存檔的方式,通過ODBN(On-line Database Navigation,網(wǎng)絡數(shù)據(jù)庫導航項目)進行收集、整理、編目保存等操作之后,最終形成網(wǎng)絡導航展現(xiàn)使用。

        2003年IIPC(國際互聯(lián)網(wǎng)保存聯(lián)盟)成立,對世界范圍內(nèi)的網(wǎng)頁存檔實踐項目都有重要的推動和借鑒作用。軟件技術方面的成果已收獲頗豐,開發(fā)了一系列工具,均是開源的、拓展性強、適用于不同的環(huán)境、適用于不同系統(tǒng)的保存[6],已可以滿足各國網(wǎng)頁存檔項目的部署應用基本需求。2006年起,國內(nèi)學者在中文網(wǎng)絡信息資源的采集策略、法律、資金、組織與管理機制、中文網(wǎng)絡信息檔案館建設等問題方面提出更為先進的構想[15]。提出資源風險識別、深網(wǎng)采集、保存制度的深化、資源收集策略的更新、建立地方網(wǎng)絡信息保存中心等建議。

        截至2010年,國外網(wǎng)絡信息資源的采集與保存工作,已經(jīng)完成由技術支撐實踐運行。尤其在采集和保存策略的開拓和實踐兩方面,積攢了大量的實踐經(jīng)驗,網(wǎng)頁存檔實踐項目參與主體、研究方式、項目狀況、保存內(nèi)容、技術標準、系統(tǒng)工具、法律政策、經(jīng)濟效益、合作機制等方面都有了不同程度的發(fā)展和完善;相比之下,我國還存在一定距離,充分借鑒國外的經(jīng)驗的同時,發(fā)展適宜我國國情的網(wǎng)頁存檔項目尤為重要。

        2011—2015年,由技術驅(qū)動的網(wǎng)絡存檔,拉開系統(tǒng)功能全面升級的序幕,研究內(nèi)容聚焦于重新審視網(wǎng)頁存檔的初衷、系統(tǒng)架構、軟件技術、法律法規(guī)、責任體系等。除此之外,出現(xiàn)了新興技術的崛起,例如,將云存儲技術應用于網(wǎng)頁歸檔及新合作模式下的網(wǎng)頁歸檔。并且出現(xiàn)了一系列解決方案,例如采集內(nèi)容部分發(fā)現(xiàn)的學科分布不平衡、部分內(nèi)容缺乏權威性或?qū)W術價值、個人創(chuàng)作者選擇標準的應用不清晰等。

        網(wǎng)頁存檔實踐項目整體已經(jīng)完成從實驗、部署應用以及系統(tǒng)平臺的全面升級。2015年起,開啟探索智慧型網(wǎng)頁存檔實踐項目的新篇章,基于社交媒體的網(wǎng)頁存檔如雨后春筍般出現(xiàn),自媒體類APP、微博等社交軟件的興起,對網(wǎng)頁存檔實施主體提出更大的挑戰(zhàn)。在此階段,突出主題是“存檔資源開發(fā)利用”,以存檔資源為原始數(shù)據(jù)進行的研究逐漸變多,并有持續(xù)上漲的趨勢。例如:區(qū)塊鏈、云計算等新技術在網(wǎng)頁存檔中的應用[16]將網(wǎng)頁存檔項目推向了智慧型階段,區(qū)塊鏈技術可以增強數(shù)據(jù)安全性、提高自動化認證能力、節(jié)約保存成本、提高審計效率且適用于協(xié)作保存網(wǎng)絡環(huán)境下,海量數(shù)字資源長期保存可信性認證模式[17]。同時,也出現(xiàn)了基于信息生命周期管理理論,重點分析網(wǎng)絡歸檔生命周期模型的結構、內(nèi)容及優(yōu)勢的相關研究[18]。新合作模式、新技術、新系統(tǒng)架構的設想、資源深層開發(fā)利用4個主題的出現(xiàn),標志著智慧型網(wǎng)頁存檔階段正式開啟。

        3 研究歷程及代表性觀點

        3.1 資源采集

        2000年我國就有學者提出建立網(wǎng)上資源庫的設想[19],認為創(chuàng)建網(wǎng)上信息資源庫,收集和保存網(wǎng)絡產(chǎn)生的信息資源能在“時間、空間和經(jīng)濟行為”三者之間進行有效配置。這一想法啟發(fā)了楊道玲[20]提出網(wǎng)絡資源要及時、系統(tǒng)的采集,應建立完善的數(shù)字資源呈繳本制度,以立法形式確保產(chǎn)生的網(wǎng)絡資源置于國家控制下。2003李春明等[21]在以上研究基礎之上提出為保證采集內(nèi)容的準確性,應先基于區(qū)域進行模糊抽取,再基于正則表達式進行精確抽取,兩種方法需要同時進行。

        2004年趙俊玲[22]在提出在資源采集環(huán)節(jié)需要采用選擇性采集、全域采集等多種方式混合采集資源,在對美國國會圖書館開展的Minerva項目研究中,加深自己的研究,提出基于重大事件的采集方式,以此,能夠反映事件的全貌。同年,我國學者提出,對重大事件,如非典、人民代表大會進行專題的收集[23],以上觀點不謀而合。難以收集資源所有歷史版本及隱藏的或動態(tài)資源的難題一直困擾著網(wǎng)絡資源采集,Hiiragi W等[24]提出一個網(wǎng)絡歸檔的系統(tǒng)模型,按照提供網(wǎng)絡資源的個人或組織確定的資源歸檔策略來收集資源的,從技術上解決了此問題。2015年Gossen G等[25]通過整合社交網(wǎng)絡和聚焦網(wǎng)絡抓取來提高網(wǎng)絡收藏的新鮮度,提出通過一個新的集成的爬蟲,將網(wǎng)絡和社會媒體無縫地整合在一起,從而為一個感興趣的主題收集新鮮的、相關的網(wǎng)絡和社會網(wǎng)絡內(nèi)容。

        2016年陳為東等[26]在社交媒體資源進行網(wǎng)絡存檔的基礎之上,從采集工具的角度出發(fā),提出社交媒體采集工具分為捕獲形式、插件技術、專門針對某一資源或社交媒體、保存對象、其他種類共5類,從API獨立性、采集內(nèi)容、適用對象、是否開源與是否免費5個指標比較了捕獲形式下以API獲取信息的7種工具。2017年張衛(wèi)東等[27]通過對歐盟FP7框架下發(fā)展成熟且具有代表性的社交媒體信息采集與保存項目ARCOMEM采用的信息采集機制、采集標準、采集策略和采集方法等方面予以深入剖析,提出了建立多元的組織協(xié)作采集機制、制定科學規(guī)范的采集標準、運用多目標驅(qū)動的采集策略、開發(fā)智能化的采集方法,提出需要資源保存風險評估及控制的技術做出進一步研究。

        3.2 資源管理

        關于采集數(shù)據(jù)管理問題,2006年陳清文[28]提出在管理方面,軟件、硬件、人力等因素需要經(jīng)濟費用支撐,應該重視經(jīng)濟效益,在長期保存管理策略也提出了提高全民意識、制定有關網(wǎng)絡信息資源長期保存的法律、建立網(wǎng)絡信息長期保存的責任制、并提出網(wǎng)絡信息資源呈繳制。王志庚等[29]在2007年提出各國項目管理數(shù)據(jù)所采取的措施不同,例如數(shù)據(jù)交換。因此,需要聯(lián)合制定存檔數(shù)據(jù)管理的統(tǒng)一標準,但在當時我國WICP的總量較小,還沒有開展系統(tǒng)的數(shù)據(jù)管理研究和實踐。

        在2008年,作者對網(wǎng)絡信息呈繳制的研究繼續(xù)深化,提出將網(wǎng)絡信息資源納入呈繳之列,呈繳制度應該明確呈繳者的權利和義務并建立符合我國國情的呈繳制[30]。2011年楊智勇等[31]提出要從4個方面進行網(wǎng)頁資源長期保存的管理分別是:更新技術、數(shù)字遷移技術、仿真技術及自動管理技術。

        3.3 資源保存

        2004年趙俊玲[19]在分析國外實踐項目基礎上提出,之后的研究應該是從保存策略和保存機構之間的合作模型進行研究,在自己的研究基礎之上分別在2004—2005年之間,從保存資源的著作權和網(wǎng)絡信息資源保存的框架入手進行研究[32]。2005年盧宏[33]在以上研究基礎上,提出有關研究者須盡快制定網(wǎng)絡文獻著錄規(guī)范,構建學科核心網(wǎng)站和學術信息網(wǎng)絡資源評價體系。2006年陳清文[34]提出了長期保存的技術策略:保存“過時技術”法、遷移、建立長期保存系統(tǒng)。Yang G等[35]從長期保存具有良好可信度、唯一性和估值信譽的數(shù)字內(nèi)容的角度,討論了在網(wǎng)絡服務器上保存單調(diào)遞增的數(shù)字內(nèi)容的策略。

        2007年Kim Y S[36]提出在網(wǎng)頁歸檔過程中,除了技術方面問題,歸檔內(nèi)容真實性、版權等法律問題同樣重要,因此,需要了解網(wǎng)絡技術和法律的特征。2012年趙生輝[37]提出中國少數(shù)民族語言網(wǎng)絡信息資源保存體系,分為信息來源層、數(shù)據(jù)集成層、集成服務層,提出少數(shù)民族語言網(wǎng)絡信息資源長期保存應該按照檔案化管理、多元一體和信息共享理念。2012年廖思琴等[38]根據(jù)OAIS框架,分析了云存儲元數(shù)據(jù)在保存型元數(shù)據(jù)中的位置,根據(jù)國外數(shù)字資源長期保存元數(shù)據(jù)框架和實踐項目分析了政府網(wǎng)絡資源保存型核心元數(shù)據(jù),并重點分析了云存儲元數(shù)據(jù),包括元素定義方法和定義工具。

        2015年王志剛[39]提出圖書館需要數(shù)字技術作為發(fā)展力量,特別是在風險評估以及風險控制領域尤為突出,需要在實施網(wǎng)頁歸檔過程中,對數(shù)字圖書館網(wǎng)絡信息進行風險評估非常有必要。2016年孫紅蕾等[40]首次提出“互聯(lián)網(wǎng)+”時代下,在對互聯(lián)網(wǎng)信息資源長期協(xié)作保存基本含義分析的基礎上,闡釋互聯(lián)網(wǎng)信息資源長期協(xié)作保存的價值所在,并提出了包括組織機制、責任機制、保障機制、運行機制、激勵機制在內(nèi)的互聯(lián)網(wǎng)信息資源長期協(xié)作保存機制。

        3.4 資源利用

        2005年,Thelwall M等[41]通過調(diào)查發(fā)現(xiàn)網(wǎng)頁歸檔項目的實施存在國際偏見,而這種偏見是由于不同的全國平均網(wǎng)站年齡和超鏈接結構所造成的,提出研究人員在未來使用檔案時需要盡量規(guī)避此問題。2007年國外學者Mohr,Gordon[42]提出現(xiàn)存工具Heritagrix、Web Crawler/Harvester、Wayback Mechine回放工具和Nutchwax檔案全文索引工具和查詢實時程序,一個標準的網(wǎng)絡資源檔案WARC也開發(fā)完成,下一步應該是提高國際合作的密切程度,以此將提高現(xiàn)有工具利用率。2010年龍正義[43]提出以利用為核心的網(wǎng)頁歸檔項目,實際上最早提出“利用”方面的是Internet Achieve所述“離開了利用談保存是沒有意義的”,在提供網(wǎng)頁信息利用方面,應當在法律允許框架下,盡可能的開發(fā)系統(tǒng)、網(wǎng)站或者平臺供人們檢索使用,現(xiàn)有的“Wayback Mechine”可以瀏覽自1996年至今的1 500億個網(wǎng)站。

        2013年,王芳等[44]提出存檔資源要實現(xiàn)多元化應用,但與功能和服務都日益變大的空間相比,距離多元化的應用還是存在距離,存在法律倫理、可利用性和限制、以大數(shù)據(jù)方式利用技術需求等問題。2015年王萍等[45]對國外主要Web Archive項目存檔資源應用的基本情況進行梳理,總結和分析當前網(wǎng)絡存檔資源開發(fā)利用的途徑,立足于網(wǎng)絡技術的不斷發(fā)展和演變,以及未來對網(wǎng)絡存檔資源的應用需求,對其開發(fā)利用的發(fā)展趨勢進行展望。

        2019年黃新平[46]對歐盟第七框架計劃資助的LiWA、BlogFoever、ARCOMEM、ForgetIT 4個發(fā)展成熟的社交媒體信息長期保存項目實施情況進行系統(tǒng)梳理,并從項目內(nèi)容、開發(fā)技術和實踐應用3個維度對其進行比較分析,為我國社交媒體信息長期保存項目的建設與應用提供借鑒。同年,將云計算應用于政府網(wǎng)絡長期保存項目中,提出能夠高效率、低成本地實現(xiàn)海量政府網(wǎng)頁的在線歸檔和集成管理[47]。

        3.5 技術研發(fā)

        2003年Kawano H[48]將網(wǎng)絡挖掘技術應用于網(wǎng)頁存檔過程中,使用文本網(wǎng)絡挖掘技術基于Mondou網(wǎng)絡搜索引擎和網(wǎng)絡機器人來實現(xiàn)。2004年Wang W等[49]提出基于網(wǎng)絡檔案的網(wǎng)絡考古學,由此產(chǎn)生的網(wǎng)絡檔案不僅是歷史網(wǎng)頁的集合,而且包含了豐富的信息,借助研究工具Waoa(網(wǎng)絡考古檔案館官方網(wǎng)站)來挖掘檔案,解決了文件類型的多樣性、文件形式及腳本語言、網(wǎng)站更新頻率、域內(nèi)的鏈接結構等技術問題。同年,F(xiàn)attah M A等[50]從互聯(lián)網(wǎng)檔案館中存在的平行文本中自動提取英阿雙語詞典的兩種算法從而提升內(nèi)容準確度。Goodkin J等[51]提出一個獲取和打包網(wǎng)絡信息,并可以在多個存儲器中歸檔的模型,該模型是Echo Depository項目的一部分,該項目是由美國國會圖書館與企業(yè)合作為期3年的數(shù)字保存項目。

        2007年,Kim H等[52]提出網(wǎng)絡存檔的過程取決于采用的采集方法的類型、數(shù)據(jù)的組織和存儲、數(shù)據(jù)的完整性和范圍,實現(xiàn)了為密集網(wǎng)絡存檔開發(fā)元數(shù)據(jù)。Wu P H等[53]提出在用戶使用網(wǎng)絡檔案時,能夠訪問完整和連貫的收藏內(nèi)容很重要,因此提出了一種基于網(wǎng)絡注釋系統(tǒng)的設計原則來組織網(wǎng)絡檔案的方法,用來標注網(wǎng)絡檔案,該系統(tǒng)保留了編目過程的證據(jù)和上下文。2008年Wang L C[54]從元數(shù)據(jù)格式和內(nèi)容結構兩個角度探討網(wǎng)絡檔案策略。在對元數(shù)據(jù)格式的分析中使用案例分析法,分析了它們的信息組織規(guī)律。其次,研究了起源檔案原理及其在檔案著錄控制層次中的應用。2009年Crook E[55]提出,隨著檔案及歸檔能力提高,網(wǎng)絡歸檔仍然面臨著新技術和Web2.0應用兩大亟需解決的難題。

        2011年Saad M B等[56]提出現(xiàn)有網(wǎng)絡檔案大多以斷斷續(xù)續(xù)的形式出現(xiàn),提高網(wǎng)絡檔案的連貫性尤為重要,作者從技術角度提出,在期望頁面幾乎沒有變化的時間段,基于模式爬行站點,引入了一種新穎的導航方法,使用戶能夠在給定的查詢時間瀏覽最一致的頁面版本。2013年Phillips M E等[57]對歸檔的PDF資源進行分析,提出在歸檔整個工作流程中用于文檔特征的提取工具,新工具將提供選擇內(nèi)容和建立收藏新的方式。同年,Jatowt Y A[58]提出了一個頁面歷史的交互式探索系統(tǒng)并演示了一個名為頁面歷史瀏覽器(Phe)的應用程序,用于總結和可視化網(wǎng)絡頁面的歷史。Phe描繪了頁面發(fā)展的概況,描述了其典型的內(nèi)容隨著時間的推移,并讓用戶從不同的角度觀察頁面歷史。

        2016年張煒等[59]基于區(qū)塊鏈理念及相關技術,提出一種增強數(shù)據(jù)安全性、提高自動化認證能力、節(jié)約保存成本、提高審計效率且適用于協(xié)作保存網(wǎng)絡環(huán)境下海量數(shù)字資源長期保存的可信性認證模式。2018年Pavlos F等[60]針對存檔網(wǎng)頁部分不可以利用這一問題,提出了一個rdf/s模型和一個分布式框架,用于構建描述網(wǎng)絡文檔內(nèi)容的語義語義信息(層),并滿足現(xiàn)有語義層可以滿足現(xiàn)有關鍵字系統(tǒng)不能充分滿足的信息需求。

        3.6 系統(tǒng)框架

        2006年國外學者Lor P等[61]提出了一個基于社會正義和人權的道德框架用來指導網(wǎng)絡存檔。同年,Choi K H等[62]介紹了韓國圖書館的網(wǎng)頁存檔系統(tǒng),該系統(tǒng)的工作流程和處理過程是基于網(wǎng)站和網(wǎng)絡存檔的個人數(shù)字資源被有選擇地收集。2007年劉進軍[63]構建了一個中文網(wǎng)絡信息資源保存的流程,其流程具體分為信息收集、加工、存儲、服務4個階段。2008年Anand A等[64]提出一個全球規(guī)模的基礎設施來收集、歸檔和對收集的數(shù)據(jù)進行歷史分析的分布式體系結構,從構建網(wǎng)絡檔案文本分析的工作中獲得啟發(fā)并提出Everlast,一個可擴展的分布式框架,用于下一代網(wǎng)絡檔案和檔案上的臨時文本分析,該系統(tǒng)建立在一個松散耦合的分布式架構上,可以部署在大規(guī)模的點對點網(wǎng)絡上。

        2011年楊元香[65]從價值的來源、屬性和影響因素闡述價值概念,并在此基礎上引申出歸檔網(wǎng)絡信息價值的概念,論述了歸檔網(wǎng)絡信息價值判斷的重要性,從信息生產(chǎn)者的需求動力、信息服務商的服務和為用戶提供共享的資源等方面說明歸檔網(wǎng)絡信息價值判斷的意義。2012年Noh Y H等[66]提出韓國網(wǎng)頁存檔項目“綠洲”首先應對網(wǎng)絡數(shù)據(jù)進行定義,制定收集原則、收集方法、收集頻率。其次,改進歸檔的目標資源。最后,提出選定目標材料數(shù)據(jù)庫及制定合作存檔政策的必要性。

        2015年,Banos V等[67]使用網(wǎng)絡內(nèi)容管理系統(tǒng)(Wcms)實現(xiàn)將內(nèi)容安全轉移到網(wǎng)絡檔案館以便保存,解決了部分網(wǎng)頁資源不能完整歸檔的難題。同年,吳振新等[68]構建了國際重要科研機構Web存檔系統(tǒng),在采集端實現(xiàn)三層擴展,通過增加采集客戶端功能提高存檔流程自動化程度,通過增加的WARC文件內(nèi)容解析功能抽取更多信息,實現(xiàn)索引及檢索服務的擴展,系統(tǒng)擴展后的采集存檔框架初步具備分布式、可擴展、全自動化的特點。

        2016年胡吉穎等[69]開發(fā)了網(wǎng)絡信息存檔WARC文件的解析與索引系統(tǒng),以此充分挖掘科技網(wǎng)站存檔資源價值,實現(xiàn)向用戶提供了豐富的科技網(wǎng)站存檔數(shù)據(jù)信息,提高用戶檢索訪問效率的目的。2018年吳碩娜等[70]通過分析了網(wǎng)絡歸檔生命周期模型的結構、內(nèi)容以及顯著優(yōu)勢,對該模型進行前端和后端擴展,最終得到網(wǎng)絡生命周期管理模型,從內(nèi)容和技術要求上為網(wǎng)絡信息資源管理提供了詳細指導,有利于更好地發(fā)揮網(wǎng)絡信息資源的價值,延續(xù)網(wǎng)絡信息生命。

        4 階段性研究特征分析

        4.1 第一階段(1996—2005)

        在此階段,國內(nèi)外網(wǎng)頁存檔發(fā)展涉及較為廣泛,這是因為實踐項目剛興起,帶來較多可以進行研究的切入點。國外在對網(wǎng)頁歸檔過程中的采集工具、采集方式、歸檔資源組織、網(wǎng)站評估、索引網(wǎng)站、保存系統(tǒng)的開發(fā)、升級等問題的研究較為突出。國內(nèi)研究則多數(shù)以國外較成熟的實踐項目為研究對象,充分論述國內(nèi)實踐項目的同時,多角度進行分析,為我國的網(wǎng)頁歸檔實踐項目的發(fā)展提供建議;整體研究呈現(xiàn)增長的趨勢,維度趨于橫向拉寬。

        由1996—2005年每一年的發(fā)文數(shù)量逐漸變多,研究代表性思想呈現(xiàn)逐漸朝著整個實踐項目各階段進行深入研究的趨勢,研究的范圍逐漸變廣,有趨于深入研究的趨勢,隨著時代的變遷會帶來新技術的革新,研究的成果將會呈繼續(xù)增長;在理論研究方面,國內(nèi)的理論研究較多,技術方面的研究較少。國外相反,對技術問題研究較國內(nèi)更深入也更前沿。為了直觀了解本階段國內(nèi)外研究熱點主題,如圖5及圖6為主題詞共現(xiàn)網(wǎng)絡。

        1)資源采集:國內(nèi)的研究,對于網(wǎng)絡資源采集方式進行較為具體的刻畫,以選擇性采集、全域采集及主題事件采集等多種采集方式并行的方案受到推崇;首次提出“呈繳本制度”,以確保采集到的資源在國家的管控之下。

        2)資源保存:國內(nèi)從資源自身屬性、保存內(nèi)容的著作權及信息資源保存框架入手,對資源保存策略開展試探性研究,首次出現(xiàn)對于“歸檔資源評價”的相關研究。

        3)技術研發(fā):國內(nèi)對于技術研發(fā)較少;而國外熱度較高,出現(xiàn)將文本網(wǎng)絡挖掘技術、網(wǎng)絡考古、新算法等技術應用于網(wǎng)頁存檔實踐項目,從而解決了網(wǎng)頁存檔過程中文件種類多樣化、腳本語言障礙、域內(nèi)鏈接結構等技術難題。

        4)系統(tǒng)框架:國內(nèi)外的系統(tǒng)框架聚焦于資源采集部分框架搭建,是因為此階段對于網(wǎng)頁歸檔資源的采集研究較多,出現(xiàn)基于采集方式的系統(tǒng)框架及社會正義與道德框架,以此指引網(wǎng)頁存檔實踐活動。

        4.2 第二階段(2006—2010)

        第二階段,技術相關研究越發(fā)深入;國外此階段的重點是技術的研發(fā)研究,包括系統(tǒng)架構升級、保存網(wǎng)絡分布式體系結構、存儲框架及存檔質(zhì)量等。國內(nèi)的研究,除借鑒國外的實踐經(jīng)驗之外,對我國網(wǎng)頁存檔項目的個性化建議也出現(xiàn)較多研究成果,對“責任體系”的研究為重點。在此階段,國內(nèi)外對于存檔流程研究更為細化,趨近于完善的網(wǎng)頁存檔應用型項目。

        1)資源采集:我國學者對于國內(nèi)重大事件進行專題收集,以此反映事件全貌,國外研究從技術角度解決了采集過程中,難以收集資源所有歷史版本及隱藏的或動態(tài)資源的難題。

        2)資源管理:國內(nèi)研究開始涉足元數(shù)據(jù)及元數(shù)據(jù)管理,從軟件、硬件、人力、資金等方面完善網(wǎng)頁存檔實踐項目,對于“呈繳制”的研究進一步深化,呈繳制度應該明確呈繳者的權利和義務并建立符合我國國情的呈繳制。相較于國內(nèi),國外此階段的研究重點在系統(tǒng)研發(fā)及系統(tǒng)框架搭建。

        3)資源利用:國外學者研究聚焦于促進工具的利用,從而促進資源利用。國內(nèi)研究有相似之處,提倡使用“Wayback Mechine”并且在法律允許范圍內(nèi),盡可能開發(fā)系統(tǒng),在技術上國內(nèi)的實踐項目需要技術發(fā)展。

        4)技術研發(fā):國外對于技術研發(fā)實現(xiàn)一次峰值,在開發(fā)元數(shù)據(jù)、元數(shù)據(jù)的應用、編目歸檔內(nèi)容的方法等進行的研究較多,也出現(xiàn)了一些設想,例如在面對Web2.0時代的解決方案,技術革新需要緊隨時代發(fā)展的步伐。

        4.3 第三階段(2011—2014)

        相較于第二階段而言,第三階段是對采集、管理和保存過程中的技術進行全面的革新,國內(nèi)在系統(tǒng)升級、爬蟲技術、網(wǎng)絡空間等方面研究都具有了顯著提升,除此之外,對法律法規(guī),責任體系和保存體系提出較多理論層面的建議;歸檔資源價值評估的研究成為凸顯詞,有變成熱點的趨勢。國內(nèi)外均提出歸檔資源的價值評估。國外多從算法等角度進行優(yōu)化,國內(nèi)從資源采集階段進行資源選取層面的研究,高價值歸檔網(wǎng)頁的指向為資源的利用,國內(nèi)外已經(jīng)出現(xiàn)了由技術支撐網(wǎng)頁歸檔項目的趨勢,以及網(wǎng)頁資源利用為核心的技術指向;國內(nèi)外對于歸檔網(wǎng)頁的利用研究已經(jīng)出現(xiàn)了較成熟的想法,學者們對于資源的利用研究迫在眉睫,從理論層面和實踐層面可以看出,國內(nèi)外的研究已經(jīng)將資源利用提上了日程。

        1)資源管理:國內(nèi)研究也涉足技術角度,在數(shù)字遷移技術、仿真技術、自動管理技術及技術更新等方面對歸檔資源進行管理的研究較多。國外在本階段研究的重點系統(tǒng)框架搭建方面。

        2)資源利用:國內(nèi)外對于資源利用在“淺層資源利用”方面研究較多,實現(xiàn)歸檔資源多元化應用,還需要解決法律倫理、可利用性和限制、利用技術需求等問題。

        3)技術研發(fā):國外研究主要體現(xiàn)在解決歸檔資源斷斷續(xù)續(xù)、用戶無法查詢特定時間段內(nèi)的歸檔資源的問題。除此之外,在歸檔資源的展示層面,也提出較創(chuàng)新的觀點。國內(nèi)此階段對于技術研發(fā)還沒有涉足太深,因為國內(nèi)網(wǎng)頁存檔實踐項目起步較晚,還需要進一步學習和完善。

        4.4 第四階段(2015至今)

        此階段,新技術的應用對研究方向有重大影響。國內(nèi)外的研究主要體現(xiàn)在,包括云計算、云存儲、區(qū)塊鏈以及最新可視化技術應用于網(wǎng)頁存檔流程,以此,實現(xiàn)高效率、低成本地對海量政府網(wǎng)頁的在線歸檔和集成管理、自動化認證能力、提高審計效率等;社交媒體的網(wǎng)絡存檔興起,國內(nèi)外的研究出現(xiàn)較新穎的社交媒體網(wǎng)絡資源采集,更偏重社交媒體網(wǎng)頁歸檔的技術解決方案,而國內(nèi)以研究國外新技術的綜述較多,提出的建議較有創(chuàng)新性;資源利用的研究占據(jù)較大比重,大多數(shù)研究都是圍繞資源利用展開,而在網(wǎng)頁資源的采集和管理方面,對于采集的技術全面革新,主要提出網(wǎng)頁資源的可獲取性,且經(jīng)過評估后的可利用性網(wǎng)頁資源,在保存方面也提出更加智慧的解決方案,例如低成本、高效率完成海量信息的全景映射和更加完善的資源保存框架。

        1)資源采集:國內(nèi)外研究重點體現(xiàn)在社交媒體存檔資源的采集,在采集機制、采集標準、采集策略和采集方法等方面予以深入剖析,在國內(nèi)首次提出以“協(xié)同”的方式實現(xiàn)多源組織合作,但從技術方面對歸檔資源進行評估方面,還需要國內(nèi)學者繼續(xù)深入研究。

        2)資源管理:國內(nèi)研究在資源管理方面,主要體現(xiàn)在:互聯(lián)網(wǎng)+時代帶來新的資源管理方法,多方“協(xié)作”的主題詞成為本階段凸顯詞。國外在此階段,資源管理方面研究較少。

        3)資源利用:國內(nèi)研究對于“存檔資源利用”更進一步,聚焦于資源應用需求及開發(fā)利用途徑兩方面,除此之外,對于社交媒體的網(wǎng)頁存檔,聚焦于項目內(nèi)容、開發(fā)技術和實踐應用三方面。雖然,新技術應用于網(wǎng)頁存檔實現(xiàn)了優(yōu)化項目,但也帶來了更多挑戰(zhàn),國內(nèi)對于資源利用還需要進一步挖掘。

        4)系統(tǒng)框架:此階段,國內(nèi)外系統(tǒng)框架的搭建圍繞“安全信息”及“歸檔價值”兩方面展開,自動化技術應用與系統(tǒng)框架的搭建,解決存檔數(shù)據(jù)信息不全面、用戶訪問效率較低的問題。除此之外,對于“歸檔價值”也出現(xiàn)了從技術和內(nèi)容兩方面進行解決的構想。

        5 結 語

        網(wǎng)頁存檔是人類網(wǎng)絡信息資源長期保存的重要任務,時代的發(fā)展帶來了眾多新技術的革新問世,這也給實踐項目帶來了巨大挑戰(zhàn)。首先,網(wǎng)頁存檔實踐項目針對每個國家都帶有特色的烙印,采集工具、采集內(nèi)容、資源管理、保存方式、利用側重點、技術開發(fā)方向、系統(tǒng)平臺建設、法律法規(guī)標準迥異,各具特色。其次,作為網(wǎng)頁存檔實踐項目責任主體,長期保存體系的構建者,又要為廣大用戶提供服務,需要在系統(tǒng)功能方面滿足用戶需求的同時,在法律允許的范圍內(nèi),遵守知識產(chǎn)權以及隱私權等相關法律約束。隨著各國網(wǎng)頁歸檔實踐項目的發(fā)展,項目過程中的各個流程都將會進一步得到深入研究。系統(tǒng)梳理以往的研究具有重要作用,對于日后網(wǎng)頁存檔理論及實踐有啟示意義。

        對各國家圖書館或檔案館而言,網(wǎng)頁存檔實踐項目是技術與資源及人工共同結合的一項工程,網(wǎng)頁存檔實踐項目發(fā)展的方向,始終是指向“資源深層開發(fā)利用”環(huán)節(jié),提高資源利用率是最終核心問題。理論模型、系統(tǒng)框架、技術革新、資源采集方式、歸檔資源評估、資源開發(fā)利用及人工配置,七者交融但又相互促進。后續(xù)的相關研究中,可以根據(jù)這五方面特點,開展更為深入的探索。

        參考文獻

        [1]中國互聯(lián)網(wǎng)絡信息中心(CNNIC).第47次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R].2021-02-03.

        [2]陽廣元.國內(nèi)外Web Archive研究綜述[J].圖書館雜志,2014,33(10):88-94.

        [3]楊道玲.Web資源保存現(xiàn)狀與思考[J].圖書館雜志,2004,(10):32-36.

        [4]陽廣元.國外Web Archive研究進展及啟示[J].圖書館工作與研究,2016,(6):18-21.

        [5]黃新平,王萍.國內(nèi)外近年Web Archive技術研究與應用進展[J].圖書館學研究,2016,(18):30-35.

        [6]Developers.Internet Archive[EB/OL].https://archive.readme.io/docs,2021-09-08.

        [7]Pandora[EB/OL].http://pandora.nla.gov.au/,2021-09-08.

        [8]李華,吳振新,郭家義,等.Web Archive發(fā)展歷程與發(fā)展趨勢研究[J].現(xiàn)代圖書情報技術,2009,3(1):1-10.

        [9]National Library of Sweden.Kulturarw3[EB/OL].https://www.kb.se/hitta-och-bestall/hitta-i-samlingarna/kulturarw3.html,2021-09-08.

        [10]Library of Congress.Minerva[EB/OL].https://www.loc.gov/services-and-programs/,2021-09-08.

        [11]National Library.New Zealand Web Archive[EB/OL].https://natlib.govt.nz/collections/a-z-of-all-collections/nz-web-archive,2021-09-08.

        [12]Paradigma[EB/OL].https://netpreserve.org/about-us/members/nasjonalbiblioteket-national-library-norway/,2021-09-08.

        [13]UKdomain[EB/OL].https://netpreserve.org/about-us/members/national-archives-uk/,2021-09-08.

        [14]趙麗琴.我國網(wǎng)絡信息保存研究述評[J].圖書館學研究:應用版,2011.

        [15]楊道玲.中文網(wǎng)絡信息資源保存問題探討[J].檔案學研究,2006,89(3):39-42.

        [16]黃新平.基于云計算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺構建研究[J].中國檔案,2020,559(5):67-67.

        [17]張煒,董曉莉.以區(qū)塊鏈促進協(xié)作保存網(wǎng)絡環(huán)境下信息資源的可信性[J].國家圖書館學刊,2018,27(5):89-98.

        [18]吳碩娜,黃新榮.Web歸檔生命周期模型的發(fā)展研究[J].數(shù)字圖書館論壇,2018,173(10):43-47.

        [19]劉家真.創(chuàng)建我國網(wǎng)上信息資源庫的構想[C]//中國圖書館學學術年會,2000.

        [20]楊道玲.Web資源采集與保存研究[D].武漢:武漢大學.

        [21]李春明,呂偉.網(wǎng)絡信息資源專題存檔試驗研究[J].國家圖書館學刊,2004,(2):34-37.

        [22]趙俊玲.國外關于網(wǎng)絡信息資源保存的研究[J].中國圖書館學報,2004,30(3):80-83.

        [23]趙俊玲.美國國會圖書館網(wǎng)絡信息保存項目Minerva及啟示[J].圖書館建設,2005,(5):40-42.

        [24]Hiiragi W,Sakaguchi T,Sugimoto S,et al.A Policy-Based System for Institutional Web Archiving[C]//International Conference on Asian Digital Libraries.Springer,Berlin,Heidelberg,2004.

        [25]Gossen G,Demidova E,Risse T.iCrawl:Improving the Freshness of Web Collections By Integrating Social Web and Focused Web Crawling[J].ACM,2016.

        [26]陳為東,王萍,王益成,等.面向Web Archive的社交媒體信息采集工具比較研究[J].圖書館學研究,2017,(13):10-16.

        [27]張衛(wèi)東,黃新平.面向Web Archive的社交媒體信息采集——基于ARCOMEM項目的案例分析[J].情報資料工作,2017,(1):94-99.

        [28]陳清文.網(wǎng)絡信息資源保存研究綜述[J].山東圖書館學刊,2006,(1):18-21.

        [29]王志庚,郝守真.網(wǎng)絡文獻保存的實踐和課題[J].國家圖書館學刊,2004,(2):23-29.

        [30]陳清文,黃田青.網(wǎng)絡學術信息資源呈繳保存制度研究[J].圖書館,2008,(3):36-37.

        [31]楊智勇,曹航.網(wǎng)頁資源長期保存的標準和技術研究[J].檔案,2011,(3):41-44.

        [32]趙俊玲,杜國芳.著作權法對網(wǎng)絡信息資源保存的影響分析[J].現(xiàn)代情報,2005,25(5):72-74.

        [33]盧宏.參考文獻中引用網(wǎng)絡信息資源的思考[J].圖書情報工作,2005,(5):121-123.

        [34]陳清文.網(wǎng)絡信息資源長期保存的采集策略與方法[J].情報探索,2006,(12):47-48.

        [35]Yang G,Bin R,Yue R.Reputation-based Contents Crawling in Web Archiving System[C]//International Symposium on Operations Research and Its Applications;ISORA08.Hiroyuki Kawano@Nanzan University,Aichi 4890863,2008.

        [36]Kim Y S.A Study of Legal Issues for Web Archiving[J].Journal of the Korean Society for Library and Information Science,2007,41(3).

        [37]趙生輝.中國少數(shù)民族語言網(wǎng)絡信息資源的保存體系研究[J].情報資料工作,2012,(2):59-64.

        [38]廖思琴,周宇,胡翠紅.基于云存儲的政府網(wǎng)絡信息資源保存型元數(shù)據(jù)研究[J].情報雜志,2012,31(4):143-147.

        [39]王智剛.數(shù)字圖書館網(wǎng)絡信息資源保存風險評估及控制技術研究[J].信息系統(tǒng)工程,2015,(2):12.

        [40]孫紅蕾,鄭建明.互聯(lián)網(wǎng)信息資源長期協(xié)作保存機制研究[J].圖書館學研究,2017,(10):20-25.

        [41]Thelwall M,Vaughan L.A Fair History of the Web Examining Country Balance in the Internet Archive[J].Library & Information Ence Research,2005,26(2):162-176.

        [42]Archival Tools to Match the Web:Open,International,Comprehensive[C]//International Conference on Asian Digital Libraries.Springer,Berlin,Heidelberg,2007.

        [43]龍正義.網(wǎng)頁長期保存的策略與方法研究[J].檔案管理,2010,(3):20-23.

        [44]王芳,史海燕.國外Web Archive研究與實踐進展[J].中國圖書館學報,2013,39(2):36-45.

        [45]王萍,黃新平,張楠雪.國外Web Archive資源開發(fā)利用的途徑及趨勢展望[J].圖書館學研究,2015,(23):43-49.

        [46]黃新平.歐盟FP7社交媒體信息長期保存項目比較與借鑒[J].圖書館學研究,2019,460(17):4-11.

        [47]黃新平.基于云計算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺構建研究[J].中國檔案,2020,559(5):67-67.

        [48]Kawano H.Web Archiving Strategies By Using Web Mining Techniques[C]//Communications,Computers and Signal Processing,2003.PACRIM.2003 IEEE Pacific Rim Conferenceon.IEEE,2003.

        [49]Wang W,Chen D I,Lin S.Web Archaeology Research on Several Chinas Main.com Websites1.

        [50]Fattah M A,Ren F,Shingo K.[IEEE International Conference on Information Technology:Coding and Computing,2004.Proceedings.ITCC 2004.-Las Vegas,NV,USA(2004.04.5-2004.04.7)]International Conference on Information Technology:Coding and Computing,2004.Proceedings.ITCC 2004[J].2004,2:298-302.

        [51]Goodkin J,Cobb J,Pearcemoses R,et al.Technical Architecture Overview:Tools for Acquisition,Packaging and Ingest of Web Objects Into Multiple Repositories[C]//ACM.ACM,2006.

        [52]Kim H J,Lee H W.Development of Metadata Elements for Intensive Web Archiving[J].Journal of the Korean Society for Information Management,2007,24(2):143-160.

        [53]Wu P H J,Heok A K H,Tamsir I P.Annotating the Web Archives-An Exploration of Web Archives Cataloging and Semantic Web[C]//International Conference on Asian Digital Libraries(ICADL 2006).Nanyang Technological University 31 Nanyang Link,2006.

        [54]A Study on Web Archives Design:The Description and the Format Approach[J].Archiving Conference,2008.

        [55]Crook E.Web Archiving in a Web 2.0 World[J].The Electronic Library,2009,27(5).

        [56]Saad M B,Pehlivan Z,Gangarski S.Coherence-Oriented Crawling and Navigation Using Patterns for Web Archives[C]//TPDL2011;International Conference on Theory and Practice of Digital Libraries.LIP6,University P.and M.Curie,4 Place Jussieu 75005,Paris,F(xiàn)rance;LIP6,University P.and M.Curie,4 place Jussieu 75005,Paris,F(xiàn)rance;LIP6,University P.and M.Curie,4 place Jussieu 75005,Paris,F(xiàn)rance,2011.

        [57]Phillips M E,Murray K R.Improving Access to Web Archives Through Innovative Analysis of PDF Content[C]//2013:186-192.

        [58]Jatowt A,Kawai Y.Special Section on Data Engineering Page History Explorer:Visualizing and Comparing Page Histories.

        [59]張煒,董曉莉.以區(qū)塊鏈促進協(xié)作保存網(wǎng)絡環(huán)境下信息資源的可信性[J].國家圖書館學刊,2018,27(5):89-98.

        [60]Pavlos F,Helge H,Vaibhav K,et al.Building and Querying Semantic Layers for Web Archives[J].International Journal on Digital Libraries,2018:1-19.

        [61]Lor P,Britz J.A Moral Perspective on South-North Web Archiving[J].Journal of Information Science,2004,30(6):540-549.

        [62]Choi K H,Jeon D J.A Web Archiving System of the National Library of Korea:OASIS[C]//Digital Libraries:Achievements,Challenges and Opportunities;Lecture Notes in Computer Science;4312.National Library of Korea,Seoul,Republic of Korea,2006

        [63]劉進軍.中文網(wǎng)絡信息資源保存權益主體分析[J].圖書館學研究,2007,(12):26-28.

        [64]Anand A,Bedathur S,Berberich K,et al.EverLast:A Distributed Architecture for Preserving the Web[C]//ACM.ACM,2012.

        [65]楊元香.歸檔網(wǎng)絡信息價值判斷研究[D].湘潭:湘潭大學,2012.

        [66]Noh Y H,Go Y S.A Study on Improving the OASIS Selection Guidelines[J].Journal of the Korean Biblia Society for Library & Informationence,2012,23(3):217-222.

        [67]Banos V,Manolopoulos Y.Web Content Management Systems Archivability[J].Springer International Publishing,2015.

        [68]吳振新,胡吉穎,張智雄,等.基于IIPC開源軟件拓展構建國際重要科研機構Web存檔系統(tǒng)[J].現(xiàn)代圖書情報技術,2015,31(4):1-9.

        [69]胡吉穎,吳振新,謝靖,等.構建面向WARC文檔的全文索引系統(tǒng)[J].現(xiàn)代圖書情報技術,2016,32(5):91-98.

        [70]吳碩娜,黃新榮.Web歸檔生命周期模型的發(fā)展研究[J].數(shù)字圖書館論壇,2018,173(10):43-47.

        (責任編輯:郭沫含)

        91在线区啪国自产网页| 亚洲av永久无码精品放毛片| 中文字幕久无码免费久久| 国产精品亚洲一区二区杨幂| 黑丝国产精品一区二区| 一本色道久久88—综合亚洲精品| 国产精品永久免费| 人妻丰满av∨中文久久不卡| 狠狠色狠狠色综合| 亚洲av永久无码精品国产精品| 含羞草亚洲AV无码久久精品| 日本人妖一区二区三区| 日本女优中文字幕在线播放| 国产精品国产av一区二区三区| 人人人妻人人澡人人爽欧美一区| 亚洲男人天堂| 免费一本色道久久一区| 中文字幕乱码亚洲美女精品一区| 97女厕偷拍一区二区三区| 欧美疯狂性受xxxxx喷水| 狠狠色噜噜狠狠狠狠色综合久| 亚洲av日韩片在线观看| 水蜜桃在线观看一区二区国产| 国产精品无码素人福利| 在线涩涩免费观看国产精品| 久久久精品3d动漫一区二区三区| 国产一区二区三区av免费观看| 国产精品久色婷婷不卡| 中文字幕有码无码人妻av蜜桃| 久久精品无码专区免费青青| 2017天天爽夜夜爽精品视频| av网站国产主播在线| 亚洲第一最快av网站| 丰满少妇人妻无码专区| 有码中文字幕一区二区| 男女深夜视频网站入口| 国产成人小视频| 亚洲国产无线乱码在线观看| av资源在线播放网站| 久久日日躁夜夜躁狠狠躁| 人妻哺乳奶头奶水|