亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

國家圖書館網(wǎng)絡信息資源采集與保存平臺關鍵技術實現(xiàn)

2021-04-15 03:54:48魏大威季士妍

圖書館 2021年3期

魏大威季士妍

（國家圖書館北京 100081）

1 引言

網(wǎng)絡信息記錄和反映了一個時代的發(fā)展和變化，互聯(lián)網(wǎng)是一個社會信息大平臺，億萬網(wǎng)民在上面獲得信息、交流信息，特別是伴隨5G網(wǎng)絡和智能終端的發(fā)展普及，網(wǎng)絡信息資源已成為人類社會重要的信息載體，與傳統(tǒng)文獻相比，其承載的文化內容更加豐富多樣，而且體量龐大、格式異構，呈現(xiàn)出明顯的大數(shù)據(jù)特征。中國互聯(lián)網(wǎng)絡信息中心（China Internet Network Information Center，CNNIC）發(fā)布的第45次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示[1]，截至2020年3月，我國網(wǎng)民規(guī)模達9.04億，較2018年底增長7 508萬；互聯(lián)網(wǎng)普及率達64.5%，較2018年底提升4.9個百分點；網(wǎng)絡視頻（含短視頻）用戶規(guī)模達8.50億，較2018年底增長1.26億；短視頻用戶規(guī)模為7.73億，占網(wǎng)民總數(shù)的85.6%。與網(wǎng)民用戶數(shù)量逐年遞增的趨勢相比，我國網(wǎng)站數(shù)量則呈逐年下降的趨勢。截至2019年12月，我國網(wǎng)站數(shù)量為497萬個，較2018年底減少5.1%，而同期的網(wǎng)頁數(shù)量是2 978億個，較2018年底增長5.8%。網(wǎng)絡信息資源的易變性、不穩(wěn)定性、流動性、不可再生性以及對軟硬件環(huán)境的強依賴性，決定了其存在的短暫性，導致長期保存難度極大。據(jù)統(tǒng)計，平均每周大約有2%的網(wǎng)頁會消失[2]。如果不采取積極有效的保存措施，不僅會造成信息價值的嚴重浪費，同時也不利于文化和文明的傳承。要更好地留存時代的記憶，及時完整地保存網(wǎng)絡信息資源非常重要。

保存與利用網(wǎng)絡信息資源是互聯(lián)網(wǎng)時代國家圖書館傳承與保護網(wǎng)絡文化成果、了解和掌握時代發(fā)展、促進科學研究與應用的重要工作與研究重點。國家圖書館從2003年開始探索網(wǎng)絡信息資源保存實踐，2009年成立了“國家圖書館互聯(lián)網(wǎng)信息保存保護中心”[3]，一直致力于網(wǎng)絡信息資源的采集、保存、管理與利用。

2 國家圖書館網(wǎng)絡信息資源保存工作的發(fā)展與突破

2.1 國家圖書館網(wǎng)絡信息資源采集與保存發(fā)展歷程

國家圖書館的網(wǎng)絡信息資源采集與保存工作始于2003年，年初國家圖書館成立網(wǎng)絡文獻收集與保存試驗小組，正式啟動“網(wǎng)絡信息采集與保存”（Web Information Collection and Preservation，WICP）試驗項目，利用網(wǎng)絡機器人自動收集與存取的方式，開始嘗試對互聯(lián)網(wǎng)上關于中國發(fā)生的具有較大影響力的重特大事件進行專題收集。2005年國家圖書館網(wǎng)絡信息采集成果服務網(wǎng)站上線，提供熱點專題和政府網(wǎng)站存檔資源瀏覽服務[4]。2007年國家圖書館正式加入國際互聯(lián)網(wǎng)保存聯(lián)盟（International Internet Preservation Consortium，IIPC），基于國際通用的標準和技術體系，開展國內網(wǎng)絡信息資源采集與保存工作，進而促進了該項工作的國際化和標準化進程；2009年成立國家圖書館互聯(lián)網(wǎng)信息保存保護中心；2014年開始聯(lián)合全國圖書館，共同開展網(wǎng)絡信息資源的采集與保存工作。經(jīng)過近二十年的持續(xù)研究探索與發(fā)展建設，國家圖書館建立起了較為完整的網(wǎng)絡資源保存體系，將全面保存與重點保存有機結合，在保存的基礎上面向不同用戶和群體提供網(wǎng)絡資源的整合與揭示服務。

2.2 應對互聯(lián)網(wǎng)信息更新頻率高、更新量大的難題，逐步完善采集保存策略

隨著網(wǎng)絡技術的普及與發(fā)展，網(wǎng)站及網(wǎng)頁資源呈爆發(fā)性增長，這對網(wǎng)絡信息資源的采集、存儲與管理提出了巨大挑戰(zhàn)。通過對中國互聯(lián)網(wǎng)絡信息中心多年來發(fā)布的《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[5]的對比分析可見，從2006年開始，我國網(wǎng)站數(shù)量呈現(xiàn)快速增長趨勢，從2006年的84萬個增長到最高值533萬個（2017年）。雖然網(wǎng)站數(shù)量在2010年出現(xiàn)了大幅下降，從2018年開始緩慢下降，但是與之相對應的年份網(wǎng)頁數(shù)量卻保持持續(xù)穩(wěn)定增長態(tài)勢，由2006年的45億增長到2019年的2 978億。網(wǎng)站及網(wǎng)頁數(shù)量變化對比最強烈的是2010年，網(wǎng)站數(shù)量較上一年減少40%，而網(wǎng)頁數(shù)量卻較上一年增長78.5%。由此可見，網(wǎng)絡信息資源體量龐大，面對海量的網(wǎng)絡信息資源，如何克服存儲空間、時間限制以及經(jīng)費人力等因素的影響，合理有效地制定網(wǎng)絡信息資源采集策略和保存管理方案，是對網(wǎng)絡信息資源采集機構的一個重大挑戰(zhàn)。

圖1 歷年中國網(wǎng)站數(shù)量

國家圖書館通過多年的采集經(jīng)驗積累及規(guī)律摸索，結合多角度檢測等方式，逐步形成了一套采集策略——全域采集與領域采集相結合、存檔采集與內容采集相結合。國家圖書館針對國內外網(wǎng)站采用全域采集策略，通過固定時間段內多次采集的模式保證采集數(shù)據(jù)的完整性，減少數(shù)據(jù)缺漏，以形成完備的國內外網(wǎng)站資源庫；針對專題類網(wǎng)站采用領域采集策略，通過實時采集、固定時間段內多次采集、單次采集等相結合的模式，形成精準化的專題網(wǎng)絡資源庫。在全域采集以及領域采集中，國家圖書館通過存檔采集將網(wǎng)站的原貌全部采集保存下來，實現(xiàn)目標網(wǎng)站的完整存檔級保存；針對特定內容的采集，采用內容采集策略精準地將網(wǎng)頁中的文字及相關的圖片、文字類附件進行采集和保存，實現(xiàn)目標網(wǎng)站的精準化內容保存。

圖2 歷年中國網(wǎng)頁數(shù)量

截至目前，國家圖書館的網(wǎng)絡信息資源采集與保存業(yè)務，已形成涵蓋國內外政治、經(jīng)濟、社會、文化、科技等領域重要網(wǎng)站和重大專題網(wǎng)絡資源的特色化網(wǎng)絡資源保存體系，累計采集保存國內外網(wǎng)站超過5萬余個/次、專題網(wǎng)絡資源超過300個，保存數(shù)據(jù)量達到300TB。

2.3 應對快速更新的互聯(lián)網(wǎng)新技術，持續(xù)進行技術研發(fā)和功能升級

網(wǎng)絡信息采集與保存涉及較為復雜的技術問題，包括網(wǎng)絡資源多版本管理、網(wǎng)絡資源重要性評估、網(wǎng)頁資源的深層挖掘等，因參與采集的各個機構的技術架構不同，其采用的基礎技術策略和采集方法均不相同。國家圖書館從2005年開始即基于開源軟件Heritrix進行了采集、編目和保存。Heritrix是基于JAVA語言開發(fā)的開源網(wǎng)絡資源采集獲取工具，是IIPC一直在研發(fā)、優(yōu)化、推廣的開源工具，支持網(wǎng)絡資源采集的爬蟲定義和網(wǎng)頁過濾技術，具有較為高效的可配置功能。在實際工作中，國家圖書館根據(jù)采集目標網(wǎng)站多類、采集策略多樣、更新頻率不一致以及存檔網(wǎng)站保存的需要，對Heritrix做了定制開發(fā)，對中文網(wǎng)站、專題網(wǎng)頁以及政府公開信息采用普遍性采集與定制化采集相結合的方式。

隨著全國范圍內多個圖書館參與網(wǎng)絡信息資源保存工作，業(yè)界迫切需要一個規(guī)范性、開放性、共享性的軟件平臺，以適應不同基礎硬件環(huán)境的圖書館的網(wǎng)絡信息采集業(yè)務需求，支撐多個圖書館基于同一軟件平臺共同開展網(wǎng)絡資源采集和保存工作，共同促進我國網(wǎng)絡資源保存事業(yè)的發(fā)展。因此，國家圖書館利用虛擬化技術，擴展采集服務器組成服務器集群，形成大規(guī)模的分布式采集架構，提升采集效率；利用分布式文件技術實現(xiàn)數(shù)據(jù)的存儲管理，使用彈性HASH散列分布算法解決單點故障問題，實現(xiàn)多節(jié)點的負載均衡隨機可控，提高采集系統(tǒng)的吞吐量，進而整體提升網(wǎng)絡資源采集和保存系統(tǒng)的性能；建設了一個云共享式“網(wǎng)絡信息資源采集與保存平臺”，支持國家圖書館與多個圖書館（機構）開展共享式、分布式、協(xié)同式的網(wǎng)絡采集業(yè)務，進而整體提升網(wǎng)絡信息資源采集與保存的能力與規(guī)模。

2.4 應對互動化、移動化、視頻化的互聯(lián)網(wǎng)發(fā)展趨勢，通過定制開發(fā)與突破創(chuàng)新提升網(wǎng)絡資源采集能力

近年來互聯(lián)網(wǎng)資源的發(fā)布方式和服務形式出現(xiàn)互動化、視頻化、移動化的趨勢，多種新式、復雜的資源服務技術被采用，圖書館需要持續(xù)地對采集技術進行更新和升級，來應對復雜網(wǎng)絡架構的解析、大數(shù)據(jù)網(wǎng)絡信息的抓取、混合多維業(yè)務請求的解構以及網(wǎng)絡技術的高速迭代等挑戰(zhàn)。因此，國家圖書館持續(xù)地對“網(wǎng)絡信息資源采集與保存平臺”進行技術更新，創(chuàng)新了網(wǎng)絡資源采集和資源管理的算法及策略，實現(xiàn)了網(wǎng)絡資源全站采集、增量采集（精準采集發(fā)生變化的網(wǎng)站內容）的功能；通過精準化時間節(jié)點管理，實現(xiàn)對采集到的網(wǎng)絡資源的節(jié)點化控制；通過復雜關系控制以及結構重構，實現(xiàn)精準化時間節(jié)點的網(wǎng)絡資源增量回放功能。此外，國家圖書館通過對移動互聯(lián)網(wǎng)應用的分析以及應用視頻分析和視頻抓取技術，定制實現(xiàn)了互聯(lián)網(wǎng)WAP資源、網(wǎng)絡資源中各種格式的音視頻的采集、本地保存和流暢回放，以此應對當前互聯(lián)網(wǎng)資源移動短視頻化、“視頻+”的趨勢，更好地凸顯了網(wǎng)絡信息資源保存的意義和價值。

3 國家圖書館網(wǎng)絡信息資源采集與保存平臺關鍵技術實現(xiàn)

國家圖書館基于自有的網(wǎng)絡信息資源采集和保存的業(yè)務特點和業(yè)務管理需求，在網(wǎng)絡資源增量采集、數(shù)據(jù)管理以及精準化時間節(jié)點控制的增量回放等功能上進行了特別的程序定制開發(fā)，設計了平臺的系統(tǒng)架構和功能實現(xiàn)，在平臺的技術實現(xiàn)路線上，采用IIPC采集框架進行定制化功能開發(fā)。

3.1 平臺實現(xiàn)的功能特點

3.1.1 既能全流程管控、又能一鍵化操作

IIPC框架提供的基礎性網(wǎng)絡信息資源采集和保存的整個業(yè)務流程，包括采集網(wǎng)站種子鏈接的部署、采集結果的匯總、采集完整信息的編目、索引文件的建立以及采集內容的質檢、采集網(wǎng)站的回放設置以及回放發(fā)布鏈接的配置等操作，這些均需業(yè)務人員進行手動操作和干預，并且這類工作經(jīng)常需要重復操作。隨著業(yè)務的持續(xù)發(fā)展，在網(wǎng)絡信息采集各個業(yè)務環(huán)節(jié)中產(chǎn)生及需要處理的數(shù)據(jù)量大幅增長，手動操作已經(jīng)無法滿足業(yè)務發(fā)展的需求。此外，圖書館中參與操作的業(yè)務人員的計算機操作水平相差較大，有些業(yè)務人員甚至不具備計算機操作基礎，在網(wǎng)絡信息資源采集和保存的工作中存在很大的困難，嚴重阻礙了圖書館網(wǎng)絡信息資源采集和保存業(yè)務的推進和發(fā)展。

國家圖書館構建的網(wǎng)絡信息資源采集與保存平臺，很好地解決了網(wǎng)絡信息資源采集的完整業(yè)務流程控制和管理自動化問題，通過模塊化的形式，實現(xiàn)了將網(wǎng)絡信息資源采集和保存的完整流程切分成多個合理的、彼此有關聯(lián)的、個體相對獨立的業(yè)務模塊；通過可視化的操作界面，讓即使不具備網(wǎng)絡信息資源采集能力或計算機知識的業(yè)務人員也可以操作和完成工作，進而最大程度降低平臺的操作難度，讓業(yè)務人員更專注于網(wǎng)絡信息資源的采集策略和內容管理，明顯地降低了操作難度、規(guī)范了業(yè)務流程、提高了工作效率。

3.1.2 既能遵循國際標準、又能實現(xiàn)特定功能定制

網(wǎng)絡信息資源采集與保存平臺的資源采集、數(shù)據(jù)管理以及資源回放的功能實現(xiàn)均在遵循國際標準的框架下實現(xiàn)。這不但便于與業(yè)界進行數(shù)據(jù)交換和共享，而且便于采集與保存技術的互通開放。此外平臺的技術架構還具有延續(xù)性、發(fā)展性和開放性的特點。國家圖書館的網(wǎng)絡信息資源采集一直基于Heritrix架構實現(xiàn)采集功能、基于OpenWayback實現(xiàn)網(wǎng)站回放功能。因此，平臺在技術升級和功能定制化開發(fā)中，繼續(xù)堅持并沿用原有的開源框架，選用了該開源框架的最高版本（Heritrix 3.4版本）；在此框架基礎上，采用SpringCloud微服務架構進行了多項功能定制開發(fā)，可以在不影響完整架構的基礎上隨時根據(jù)業(yè)務需要進行新的定制功能開發(fā)與實現(xiàn)。

網(wǎng)絡信息資源采集與保存平臺的完整架構實現(xiàn)層次化和模塊化構建，可以根據(jù)不同機構的網(wǎng)絡信息資源采集業(yè)務的需要，實現(xiàn)采集流程配置、采集參數(shù)管理以及采集、編目、審核與發(fā)布的完整流程的業(yè)務邏輯配置，能較好地滿足不同機構的網(wǎng)絡信息資源采集需求。平臺的完整架構采用開放架構和流程模塊獨立架構，可以適應不同機構的服務器集群性能和網(wǎng)絡環(huán)境，對網(wǎng)絡信息資源采集機構具有較好的普適性。此外，流程模塊獨立架構為采集機構提供了靈活的管理空間、個性化的采集策略定制以及定制化的存檔資源保存管理功能，能較好地滿足網(wǎng)絡信息資源采集的機構個性化需求。

3.1.3 既能完整采集、又能精準采集和增量回放

為了應對網(wǎng)絡信息資源體量龐大、格式異構、更新頻繁等挑戰(zhàn)，網(wǎng)絡信息資源采集與保存平臺實現(xiàn)了技術突破，在采集技術、采集算法、存檔資源控制策略、網(wǎng)頁回放展示邏輯管理、存檔網(wǎng)站結構重構等方面均實現(xiàn)了創(chuàng)新。

該平臺在網(wǎng)絡資源采集功能上，既實現(xiàn)了對網(wǎng)站內容的全站采集、完整采集，也實現(xiàn)了針對發(fā)生變化的網(wǎng)站內容的增量采集，以及對指定網(wǎng)站或網(wǎng)頁的定位采集和精確采集；在采集資源保存方面，既實現(xiàn)了對每個網(wǎng)站不同版本的完整保存，也實現(xiàn)了對同一網(wǎng)站不同采集時間節(jié)點的增量保存和增量索引管理；在采集資源的保存格式上仍舊遵循國際標準，采用WARC（Web Archiving File Format）[9]格式，但是突破了WARC格式打包文件的限制，將采集到的網(wǎng)站（網(wǎng)頁）資源以結構化、索引化的模式進行存儲和管理，實現(xiàn)了基于采集時間節(jié)點的存檔資源分布式存儲管理；在網(wǎng)站回放功能實現(xiàn)方面，在保持存檔網(wǎng)站完整內容整體性回放的基礎上，創(chuàng)新實現(xiàn)了增量采集網(wǎng)頁內容的完整、準確回放展示，即所謂的增量回放功能。該功能通過復雜網(wǎng)頁層級關系控制以及結構重構，實現(xiàn)了精準化時間節(jié)點的網(wǎng)絡資源增量回放展示，不但達到采集和回放展示出來的網(wǎng)站中多層級、多鏈接的有效性和完整性，而且保障了增量回放展示的網(wǎng)頁沒有丟失、混亂、錯誤的情況發(fā)生。

3.2 平臺構建的技術架構

網(wǎng)絡信息資源采集與保存平臺，采用分層架構進行構建。對外服務層為面向用戶服務的UI交互界面層，為網(wǎng)絡信息資源采集管理業(yè)務人員提供方便快捷、可視化的使用界面，最大化降低平臺使用的技術要求；展示層進行業(yè)務請求渲染和交互，采用異步 JavaScript 和 XML技術，實現(xiàn)網(wǎng)頁異步更新；平臺服務層實現(xiàn)任務管理、性能優(yōu)化管理、參數(shù)配置、個性化定制等模塊化功能，并通過接口模式為其他層提供數(shù)據(jù)交互和功能支持；采集層應用Heritrix爬蟲軟件，負責處理采集策劃設置、信息資源抓取、采集隊列管理、采集狀態(tài)監(jiān)測等核心業(yè)務；存儲層負責對采集完成的數(shù)據(jù)進行數(shù)據(jù)校驗、數(shù)據(jù)保存以及采集時間節(jié)點的控制；運行環(huán)境層則負責整個平臺的服務器資源和網(wǎng)絡資源的綜合性管理。

3.3 平臺突破的關鍵技術

網(wǎng)絡信息資源采集與保存平臺實現(xiàn)的增量采集功能，是在完整采集網(wǎng)站內容的基礎上，以采集新出現(xiàn)的網(wǎng)頁、變更的網(wǎng)頁為目標的采集。這種采集模式可以有效節(jié)省采集服務器的存儲空間資源和網(wǎng)絡帶寬資源，縮短周期性采集整站的采集時間，大幅提高采集效率。增量采集業(yè)務有完整的工作流程，從采集源分析、采集目標定位、采集種子隊列管理、增量采集資源保存管理到時間節(jié)點控制、增量采集片段化回放展示等一系列業(yè)務管理，均需要完整規(guī)劃和統(tǒng)一實現(xiàn)。

圖3 網(wǎng)絡信息資源采集與保存平臺架構

網(wǎng)絡信息資源采集與保存平臺在Heritrix 3.4版本基礎上進行了程序定制開發(fā)。依靠Heritrix 3.4的自有功能，實現(xiàn)網(wǎng)站內容的完整采集和管理；依靠程序定制開發(fā)，實現(xiàn)網(wǎng)站內容增量采集和節(jié)點化管理，實現(xiàn)面向主流網(wǎng)站更新網(wǎng)頁的識別和采集，并保障增量采集內容不重復、不遺漏、不混亂。所有采集到的網(wǎng)站內容均以WARC格式進行保存和管理。平臺使用默認的WARCWriterProcessorwen文件處理器進行網(wǎng)絡資源采集，并在此基礎上做增量采集文件的定制化開發(fā)，平臺實現(xiàn)的增量采集業(yè)務流程如圖4所示。

圖4 增量采集業(yè)務流程圖

在采集源分析業(yè)務中，平臺首先判斷是否需要開展增量采集操作，如果不需要，則直接進入全站完整采集業(yè)務流程中。如果判斷為增量采集業(yè)務需求，則要進行采集目標定位業(yè)務操作。首先獲取增量采集目標網(wǎng)站中需要進行比對的版本號，通過計算對當前的CrawlURI和版本號內的采集目標進行對比，如果文件存在，并且大小無變化，則說明這個采集對象不需要增量采集，直接返回結束狀態(tài)并跳過，這樣可以大大節(jié)省采集時間和存儲空間；如果文件不存在，或者文件存在但是與目標相比較運算結果發(fā)生了變化，則說明該采集對象需要進行增量采集，下一步要明確采集對象和采集目標，后續(xù)將需要采集的URL放入采集隊列中，并且將當前版本和URI等對象信息痕跡進行保存。增量采集判斷的業(yè)務邏輯會根據(jù)采集源的情況循環(huán)執(zhí)行，直到采集源分析全部完成，進入下一個采集操作流程。

平臺基于OpenWayback實現(xiàn)存檔資源管理和網(wǎng)站回放展示的完整業(yè)務管理，特別針對增量采集的特殊性進行了功能定制開發(fā)，實現(xiàn)增量采集資源保存管理、時間節(jié)點控制、增量采集片段化回放的定制功能。

圖5 增量回放業(yè)務流程

平臺采用索引機制對采集到的每個網(wǎng)站及網(wǎng)頁進行管理，顆粒度包括網(wǎng)站整站、網(wǎng)頁以及頁面中的鏈接等；通過URL+采集批次標記的方式實現(xiàn)時間節(jié)點化管理；在索引機制中，運用算法和邏輯結構定義等方法管理增量采集、增量保存的存檔資源，也實現(xiàn)了基于采集時間節(jié)點的存檔資源分布式存儲管理。

在網(wǎng)站內容回放展示的功能實現(xiàn)上，采用精確化索引管理匹配增量采集網(wǎng)頁資源的模式，可以保證全站采集的網(wǎng)站內容完整回放展示；獨創(chuàng)實現(xiàn)的網(wǎng)頁層級關系控制以及結構重構功能，可以實現(xiàn)任意時間節(jié)點增量采集網(wǎng)頁的回放展示；索引機制與時間節(jié)點相匹配的模式，可以大量減少存檔網(wǎng)站的冗余數(shù)據(jù)，明顯提升網(wǎng)站回放展示的效率，保障增量回放展示網(wǎng)頁的準確性、高效性。

表1 不同采集方式的采集效率比對

在實際采集業(yè)務操作中，針對同一網(wǎng)站采用全站采集和增量采集兩種不同的采集模式，平臺在采集容量和采集時長上有著明顯的差別；兩種采集方式所對應的平臺的運行時間和運行效率也明顯不同，可以較為清晰地看出增量采集效率遠遠高于全站采集效率，較為顯著地縮短了采集周期，進而可以保證采集內容的時新性和時效性，能有效解決存儲空間不夠以及網(wǎng)絡帶寬有限等問題。

4 網(wǎng)絡信息資源采集未來發(fā)展思考

隨著技術和時代的發(fā)展，互聯(lián)網(wǎng)的信息傳播呈現(xiàn)出不同的態(tài)勢及特點，新型的傳播架構極大地激發(fā)了社會活力。特別是伴隨5G網(wǎng)絡的普及和智能終端的發(fā)展普及，移動短視頻高流量、高承載量和快速傳播的特點使得“視頻+”逐漸滲透到互聯(lián)網(wǎng)各行各業(yè)，知識獲取輕量級、內容消費娛樂化，催生出了多樣化的網(wǎng)絡信息載體形態(tài)，對網(wǎng)絡信息資源的保存與保護提出了更高的要求。國家圖書館要持續(xù)地發(fā)揮多年來網(wǎng)絡信息資源采集和保存的實踐經(jīng)驗，在網(wǎng)絡資源采集策略、采集范疇、采集技術、知識挖掘以及服務模式等方面進行創(chuàng)新和發(fā)展，進而提升網(wǎng)絡資源“保存”與“應用”的價值。

4.1 用技術創(chuàng)新強化平臺的技術先進性和普適性

技術創(chuàng)新的具體手段包括：對網(wǎng)絡信息資源采集及保存的關鍵技術進行研究和追蹤，創(chuàng)新業(yè)務流程，提升工作效率；優(yōu)化算法和速度，提高并發(fā)數(shù)和系統(tǒng)的響應速度，支持并滿足大規(guī)模用戶的同時操作。平臺在采集功能上要擴充采集范圍，對移動互聯(lián)網(wǎng)和音視頻的采集應具有普適性，能滿足日益增長的移動化資源的保存需求。在技術創(chuàng)新的加持下，網(wǎng)絡信息資源采集和保存的范疇在現(xiàn)有網(wǎng)頁資源為主的基礎上，將顯著增加音視頻資源、移動互聯(lián)網(wǎng)資源的采集范疇以及采集比重，實現(xiàn)對重點網(wǎng)站網(wǎng)頁資源的一年多次增量采集、對體現(xiàn)中國文化傳播的原生性音視頻資源的專題性采集、對只有移動服務的移動互聯(lián)網(wǎng)資源的普遍性采集。

技術創(chuàng)新手段的應用，可以顯著提升國家圖書館網(wǎng)絡信息資源采集與保存平臺的適應性和云服務性。具體包括：以云服務的模式支持多節(jié)點的接入，支持不同服務器規(guī)模的部署，支持多節(jié)點、多用戶的互聯(lián)互通；以微服務的模式，支持不同采集需求的技術實現(xiàn)，特別是可以對技術各異的移動化資源采集進行針對性功能實現(xiàn)；最終構建覆蓋全國各級圖書館的網(wǎng)絡資源分布式保存與服務，引領全國多機構共同參與網(wǎng)絡資源采集事業(yè)。

4.2 用智慧化提升網(wǎng)絡信息資源的保存價值和服務能力

將語義分析、知識關聯(lián)、內容挖掘等方法運用于網(wǎng)絡信息資源的管理，可以明顯提升網(wǎng)絡信息資源的規(guī)范化管理、內容化挖掘以及知識化建設能力；將網(wǎng)頁資源、政府開放信息、社交媒體資源以及開放獲取資源作為網(wǎng)絡信息資源的多來源，統(tǒng)一進行組織管理和整合建設，有助于整體建設多內容、全載體、分主題的網(wǎng)絡信息資源全內容體系。

變革網(wǎng)絡信息資源應用與服務方式，提升網(wǎng)絡信息服務效果，通過資源推薦、快照保存、信息檢索、資源分類瀏覽等功能實現(xiàn)資源的有序組織與呈現(xiàn)、信息發(fā)現(xiàn)與檢索，通過知識庫向用戶介紹網(wǎng)絡信息保存相關知識和內容，能夠有效增強服務能力，提升用戶體驗。充分利用現(xiàn)代信息技術，通過時間軸、地域軸、地圖、知識圖譜等可視化手段進行資源展示與用戶交互，以熱門關鍵詞實現(xiàn)資源推薦檢索，可以豐富和優(yōu)化網(wǎng)絡信息資源的服務模式。

4.3 用互鑒與共享促進行業(yè)間、國際間的合作與共進

以5G為代表的新基建興起、發(fā)展并日漸普及，通過高帶寬、低時延、萬物互聯(lián)的方式應用于人們生活的方方面面。視頻的使用更加普及、視頻的內容及其呈現(xiàn)方式更加豐富；移動互聯(lián)網(wǎng)的應用和服務將大大超越傳統(tǒng)互聯(lián)網(wǎng)應用，甚至部分應用與資源只在移動互聯(lián)網(wǎng)端呈現(xiàn)；VR（虛擬現(xiàn)實）、AR（增強現(xiàn)實）等應用廣泛普及。這些發(fā)展與變化都對網(wǎng)絡信息資源的采集與保存提出了新的要求。國家圖書館要持續(xù)強化科技創(chuàng)新突破，加快對網(wǎng)絡信息資源采集核心技術和應用技術的協(xié)同攻關；持續(xù)地關注與跟蹤國際互聯(lián)網(wǎng)界的技術發(fā)展和趨勢，通過參加業(yè)界年會、技術論壇交流、郵件互信、項目合作等方式與國內外業(yè)界進行緊密的聯(lián)系與合作，深入了解開源軟件Heritrix、OpenWayback的版本變化、技術功能以及功能定制開發(fā)的方法和技術；在提升自身技術能力的同時，積極分享本館在這些軟件框架下的探索和實踐經(jīng)驗。

在數(shù)字時代，5G和大數(shù)據(jù)、人工智能、云計算、邊緣計算等技術緊密結合，會為網(wǎng)絡信息資源采集與保存帶來新的發(fā)展思路和智慧化的工具手段。國家圖書館將在技術架構構建、采集策略智慧化管理、采集格式與管理、機器學習輔助自動編目和內容管理、視頻內容采集與保存、質量監(jiān)控等方向，以多樣化的溝通和合作方式開展國際性、行業(yè)性交流，不斷完善網(wǎng)絡信息資源采集與保存體系建設。

國家圖書館會持續(xù)跟蹤國際互聯(lián)網(wǎng)采集技術的發(fā)展，著力加強在標準互聯(lián)互通、技術創(chuàng)新升級、服務智慧共享等方面的交流合作，從技術、策略、規(guī)范及智慧服務等方面多角度、多維度、多渠道地促進中國互聯(lián)網(wǎng)信息采集與保存事業(yè)的發(fā)展與進步。

（來稿時間：2020年11月）