魏大威 季士妍
(國家圖書館 北京 100081)
網(wǎng)絡信息記錄和反映了一個時代的發(fā)展和變化,互聯(lián)網(wǎng)是一個社會信息大平臺,億萬網(wǎng)民在上面獲得信息、交流信息,特別是伴隨5G網(wǎng)絡和智能終端的發(fā)展普及,網(wǎng)絡信息資源已成為人類社會重要的信息載體,與傳統(tǒng)文獻相比,其承載的文化內容更加豐富多樣,而且體量龐大、格式異構,呈現(xiàn)出明顯的大數(shù)據(jù)特征。中國互聯(lián)網(wǎng)絡信息中心(China Internet Network Information Center,CNNIC)發(fā)布的第45次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示[1],截至2020年3月,我國網(wǎng)民規(guī)模達9.04億,較2018年底增長7 508萬;互聯(lián)網(wǎng)普及率達64.5%,較2018年底提升4.9個百分點;網(wǎng)絡視頻(含短視頻)用戶規(guī)模達8.50億,較2018年底增長1.26億;短視頻用戶規(guī)模為7.73億,占網(wǎng)民總數(shù)的85.6%。與網(wǎng)民用戶數(shù)量逐年遞增的趨勢相比,我國網(wǎng)站數(shù)量則呈逐年下降的趨勢。截至2019年12月,我國網(wǎng)站數(shù)量為497萬個,較2018年底減少5.1%,而同期的網(wǎng)頁數(shù)量是2 978億個,較2018年底增長5.8%。網(wǎng)絡信息資源的易變性、不穩(wěn)定性、流動性、不可再生性以及對軟硬件環(huán)境的強依賴性,決定了其存在的短暫性,導致長期保存難度極大。據(jù)統(tǒng)計,平均每周大約有2%的網(wǎng)頁會消失[2]。如果不采取積極有效的保存措施,不僅會造成信息價值的嚴重浪費,同時也不利于文化和文明的傳承。要更好地留存時代的記憶,及時完整地保存網(wǎng)絡信息資源非常重要。
保存與利用網(wǎng)絡信息資源是互聯(lián)網(wǎng)時代國家圖書館傳承與保護網(wǎng)絡文化成果、了解和掌握時代發(fā)展、促進科學研究與應用的重要工作與研究重點。國家圖書館從2003年開始探索網(wǎng)絡信息資源保存實踐,2009年成立了“國家圖書館互聯(lián)網(wǎng)信息保存保護中心”[3],一直致力于網(wǎng)絡信息資源的采集、保存、管理與利用。
國家圖書館的網(wǎng)絡信息資源采集與保存工作始于2003年,年初國家圖書館成立網(wǎng)絡文獻收集與保存試驗小組,正式啟動“網(wǎng)絡信息采集與保存”(Web Information Collection and Preservation,WICP)試驗項目,利用網(wǎng)絡機器人自動收集與存取的方式,開始嘗試對互聯(lián)網(wǎng)上關于中國發(fā)生的具有較大影響力的重特大事件進行專題收集。2005年國家圖書館網(wǎng)絡信息采集成果服務網(wǎng)站上線,提供熱點專題和政府網(wǎng)站存檔資源瀏覽服務[4]。2007年國家圖書館正式加入國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC),基于國際通用的標準和技術體系,開展國內網(wǎng)絡信息資源采集與保存工作,進而促進了該項工作的國際化和標準化進程;2009年成立國家圖書館互聯(lián)網(wǎng)信息保存保護中心;2014年開始聯(lián)合全國圖書館,共同開展網(wǎng)絡信息資源的采集與保存工作。經(jīng)過近二十年的持續(xù)研究探索與發(fā)展建設,國家圖書館建立起了較為完整的網(wǎng)絡資源保存體系,將全面保存與重點保存有機結合,在保存的基礎上面向不同用戶和群體提供網(wǎng)絡資源的整合與揭示服務。
隨著網(wǎng)絡技術的普及與發(fā)展,網(wǎng)站及網(wǎng)頁資源呈爆發(fā)性增長,這對網(wǎng)絡信息資源的采集、存儲與管理提出了巨大挑戰(zhàn)。通過對中國互聯(lián)網(wǎng)絡信息中心多年來發(fā)布的《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[5]的對比分析可見,從2006年開始,我國網(wǎng)站數(shù)量呈現(xiàn)快速增長趨勢,從2006年的84萬個增長到最高值533萬個(2017年)。雖然網(wǎng)站數(shù)量在2010年出現(xiàn)了大幅下降,從2018年開始緩慢下降,但是與之相對應的年份網(wǎng)頁數(shù)量卻保持持續(xù)穩(wěn)定增長態(tài)勢,由2006年的45億增長到2019年的2 978億。網(wǎng)站及網(wǎng)頁數(shù)量變化對比最強烈的是2010年,網(wǎng)站數(shù)量較上一年減少40%,而網(wǎng)頁數(shù)量卻較上一年增長78.5%。由此可見,網(wǎng)絡信息資源體量龐大,面對海量的網(wǎng)絡信息資源,如何克服存儲空間、時間限制以及經(jīng)費人力等因素的影響,合理有效地制定網(wǎng)絡信息資源采集策略和保存管理方案,是對網(wǎng)絡信息資源采集機構的一個重大挑戰(zhàn)。
圖1 歷年中國網(wǎng)站數(shù)量
國家圖書館通過多年的采集經(jīng)驗積累及規(guī)律摸索,結合多角度檢測等方式,逐步形成了一套采集策略——全域采集與領域采集相結合、存檔采集與內容采集相結合。國家圖書館針對國內外網(wǎng)站采用全域采集策略,通過固定時間段內多次采集的模式保證采集數(shù)據(jù)的完整性,減少數(shù)據(jù)缺漏,以形成完備的國內外網(wǎng)站資源庫;針對專題類網(wǎng)站采用領域采集策略,通過實時采集、固定時間段內多次采集、單次采集等相結合的模式,形成精準化的專題網(wǎng)絡資源庫。在全域采集以及領域采集中,國家圖書館通過存檔采集將網(wǎng)站的原貌全部采集保存下來,實現(xiàn)目標網(wǎng)站的完整存檔級保存;針對特定內容的采集,采用內容采集策略精準地將網(wǎng)頁中的文字及相關的圖片、文字類附件進行采集和保存,實現(xiàn)目標網(wǎng)站的精準化內容保存。
圖2 歷年中國網(wǎng)頁數(shù)量
截至目前,國家圖書館的網(wǎng)絡信息資源采集與保存業(yè)務,已形成涵蓋國內外政治、經(jīng)濟、社會、文化、科技等領域重要網(wǎng)站和重大專題網(wǎng)絡資源的特色化網(wǎng)絡資源保存體系,累計采集保存國內外網(wǎng)站超過5萬余個/次、專題網(wǎng)絡資源超過300個,保存數(shù)據(jù)量達到300TB。
網(wǎng)絡信息采集與保存涉及較為復雜的技術問題,包括網(wǎng)絡資源多版本管理、網(wǎng)絡資源重要性評估、網(wǎng)頁資源的深層挖掘等,因參與采集的各個機構的技術架構不同,其采用的基礎技術策略和采集方法均不相同。國家圖書館從2005年開始即基于開源軟件Heritrix進行了采集、編目和保存。Heritrix是基于JAVA語言開發(fā)的開源網(wǎng)絡資源采集獲取工具,是IIPC一直在研發(fā)、優(yōu)化、推廣的開源工具,支持網(wǎng)絡資源采集的爬蟲定義和網(wǎng)頁過濾技術,具有較為高效的可配置功能。在實際工作中,國家圖書館根據(jù)采集目標網(wǎng)站多類、采集策略多樣、更新頻率不一致以及存檔網(wǎng)站保存的需要,對Heritrix做了定制開發(fā),對中文網(wǎng)站、專題網(wǎng)頁以及政府公開信息采用普遍性采集與定制化采集相結合的方式。
隨著全國范圍內多個圖書館參與網(wǎng)絡信息資源保存工作,業(yè)界迫切需要一個規(guī)范性、開放性、共享性的軟件平臺,以適應不同基礎硬件環(huán)境的圖書館的網(wǎng)絡信息采集業(yè)務需求,支撐多個圖書館基于同一軟件平臺共同開展網(wǎng)絡資源采集和保存工作,共同促進我國網(wǎng)絡資源保存事業(yè)的發(fā)展。因此,國家圖書館利用虛擬化技術,擴展采集服務器組成服務器集群,形成大規(guī)模的分布式采集架構,提升采集效率;利用分布式文件技術實現(xiàn)數(shù)據(jù)的存儲管理,使用彈性HASH散列分布算法解決單點故障問題,實現(xiàn)多節(jié)點的負載均衡隨機可控,提高采集系統(tǒng)的吞吐量,進而整體提升網(wǎng)絡資源采集和保存系統(tǒng)的性能;建設了一個云共享式“網(wǎng)絡信息資源采集與保存平臺”,支持國家圖書館與多個圖書館(機構)開展共享式、分布式、協(xié)同式的網(wǎng)絡采集業(yè)務,進而整體提升網(wǎng)絡信息資源采集與保存的能力與規(guī)模。
近年來互聯(lián)網(wǎng)資源的發(fā)布方式和服務形式出現(xiàn)互動化、視頻化、移動化的趨勢,多種新式、復雜的資源服務技術被采用,圖書館需要持續(xù)地對采集技術進行更新和升級,來應對復雜網(wǎng)絡架構的解析、大數(shù)據(jù)網(wǎng)絡信息的抓取、混合多維業(yè)務請求的解構以及網(wǎng)絡技術的高速迭代等挑戰(zhàn)。因此,國家圖書館持續(xù)地對“網(wǎng)絡信息資源采集與保存平臺”進行技術更新,創(chuàng)新了網(wǎng)絡資源采集和資源管理的算法及策略,實現(xiàn)了網(wǎng)絡資源全站采集、增量采集(精準采集發(fā)生變化的網(wǎng)站內容)的功能;通過精準化時間節(jié)點管理,實現(xiàn)對采集到的網(wǎng)絡資源的節(jié)點化控制;通過復雜關系控制以及結構重構,實現(xiàn)精準化時間節(jié)點的網(wǎng)絡資源增量回放功能。此外,國家圖書館通過對移動互聯(lián)網(wǎng)應用的分析以及應用視頻分析和視頻抓取技術,定制實現(xiàn)了互聯(lián)網(wǎng)WAP資源、網(wǎng)絡資源中各種格式的音視頻的采集、本地保存和流暢回放,以此應對當前互聯(lián)網(wǎng)資源移動短視頻化、“視頻+”的趨勢,更好地凸顯了網(wǎng)絡信息資源保存的意義和價值。
國家圖書館基于自有的網(wǎng)絡信息資源采集和保存的業(yè)務特點和業(yè)務管理需求,在網(wǎng)絡資源增量采集、數(shù)據(jù)管理以及精準化時間節(jié)點控制的增量回放等功能上進行了特別的程序定制開發(fā),設計了平臺的系統(tǒng)架構和功能實現(xiàn),在平臺的技術實現(xiàn)路線上,采用IIPC采集框架進行定制化功能開發(fā)。
3.1.1 既能全流程管控、又能一鍵化操作
IIPC框架提供的基礎性網(wǎng)絡信息資源采集和保存的整個業(yè)務流程,包括采集網(wǎng)站種子鏈接的部署、采集結果的匯總、采集完整信息的編目、索引文件的建立以及采集內容的質檢、采集網(wǎng)站的回放設置以及回放發(fā)布鏈接的配置等操作,這些均需業(yè)務人員進行手動操作和干預,并且這類工作經(jīng)常需要重復操作。隨著業(yè)務的持續(xù)發(fā)展,在網(wǎng)絡信息采集各個業(yè)務環(huán)節(jié)中產(chǎn)生及需要處理的數(shù)據(jù)量大幅增長,手動操作已經(jīng)無法滿足業(yè)務發(fā)展的需求。此外,圖書館中參與操作的業(yè)務人員的計算機操作水平相差較大,有些業(yè)務人員甚至不具備計算機操作基礎,在網(wǎng)絡信息資源采集和保存的工作中存在很大的困難,嚴重阻礙了圖書館網(wǎng)絡信息資源采集和保存業(yè)務的推進和發(fā)展。
國家圖書館構建的網(wǎng)絡信息資源采集與保存平臺,很好地解決了網(wǎng)絡信息資源采集的完整業(yè)務流程控制和管理自動化問題,通過模塊化的形式,實現(xiàn)了將網(wǎng)絡信息資源采集和保存的完整流程切分成多個合理的、彼此有關聯(lián)的、個體相對獨立的業(yè)務模塊;通過可視化的操作界面,讓即使不具備網(wǎng)絡信息資源采集能力或計算機知識的業(yè)務人員也可以操作和完成工作,進而最大程度降低平臺的操作難度,讓業(yè)務人員更專注于網(wǎng)絡信息資源的采集策略和內容管理,明顯地降低了操作難度、規(guī)范了業(yè)務流程、提高了工作效率。
3.1.2 既能遵循國際標準、又能實現(xiàn)特定功能定制
網(wǎng)絡信息資源采集與保存平臺的資源采集、數(shù)據(jù)管理以及資源回放的功能實現(xiàn)均在遵循國際標準的框架下實現(xiàn)。這不但便于與業(yè)界進行數(shù)據(jù)交換和共享,而且便于采集與保存技術的互通開放。此外平臺的技術架構還具有延續(xù)性、發(fā)展性和開放性的特點。國家圖書館的網(wǎng)絡信息資源采集一直基于Heritrix架構實現(xiàn)采集功能、基于OpenWayback實現(xiàn)網(wǎng)站回放功能。因此,平臺在技術升級和功能定制化開發(fā)中,繼續(xù)堅持并沿用原有的開源框架,選用了該開源框架的最高版本(Heritrix 3.4版本);在此框架基礎上,采用SpringCloud微服務架構進行了多項功能定制開發(fā),可以在不影響完整架構的基礎上隨時根據(jù)業(yè)務需要進行新的定制功能開發(fā)與實現(xiàn)。
網(wǎng)絡信息資源采集與保存平臺的完整架構實現(xiàn)層次化和模塊化構建,可以根據(jù)不同機構的網(wǎng)絡信息資源采集業(yè)務的需要,實現(xiàn)采集流程配置、采集參數(shù)管理以及采集、編目、審核與發(fā)布的完整流程的業(yè)務邏輯配置,能較好地滿足不同機構的網(wǎng)絡信息資源采集需求。平臺的完整架構采用開放架構和流程模塊獨立架構,可以適應不同機構的服務器集群性能和網(wǎng)絡環(huán)境,對網(wǎng)絡信息資源采集機構具有較好的普適性。此外,流程模塊獨立架構為采集機構提供了靈活的管理空間、個性化的采集策略定制以及定制化的存檔資源保存管理功能,能較好地滿足網(wǎng)絡信息資源采集的機構個性化需求。
3.1.3 既能完整采集、又能精準采集和增量回放
為了應對網(wǎng)絡信息資源體量龐大、格式異構、更新頻繁等挑戰(zhàn),網(wǎng)絡信息資源采集與保存平臺實現(xiàn)了技術突破,在采集技術、采集算法、存檔資源控制策略、網(wǎng)頁回放展示邏輯管理、存檔網(wǎng)站結構重構等方面均實現(xiàn)了創(chuàng)新。
該平臺在網(wǎng)絡資源采集功能上,既實現(xiàn)了對網(wǎng)站內容的全站采集、完整采集,也實現(xiàn)了針對發(fā)生變化的網(wǎng)站內容的增量采集,以及對指定網(wǎng)站或網(wǎng)頁的定位采集和精確采集;在采集資源保存方面,既實現(xiàn)了對每個網(wǎng)站不同版本的完整保存,也實現(xiàn)了對同一網(wǎng)站不同采集時間節(jié)點的增量保存和增量索引管理;在采集資源的保存格式上仍舊遵循國際標準,采用WARC(Web Archiving File Format)[9]格式,但是突破了WARC格式打包文件的限制,將采集到的網(wǎng)站(網(wǎng)頁)資源以結構化、索引化的模式進行存儲和管理,實現(xiàn)了基于采集時間節(jié)點的存檔資源分布式存儲管理;在網(wǎng)站回放功能實現(xiàn)方面,在保持存檔網(wǎng)站完整內容整體性回放的基礎上,創(chuàng)新實現(xiàn)了增量采集網(wǎng)頁內容的完整、準確回放展示,即所謂的增量回放功能。該功能通過復雜網(wǎng)頁層級關系控制以及結構重構,實現(xiàn)了精準化時間節(jié)點的網(wǎng)絡資源增量回放展示,不但達到采集和回放展示出來的網(wǎng)站中多層級、多鏈接的有效性和完整性,而且保障了增量回放展示的網(wǎng)頁沒有丟失、混亂、錯誤的情況發(fā)生。
網(wǎng)絡信息資源采集與保存平臺,采用分層架構進行構建。對外服務層為面向用戶服務的UI交互界面層,為網(wǎng)絡信息資源采集管理業(yè)務人員提供方便快捷、可視化的使用界面,最大化降低平臺使用的技術要求;展示層進行業(yè)務請求渲染和交互,采用異步 JavaScript 和 XML技術,實現(xiàn)網(wǎng)頁異步更新;平臺服務層實現(xiàn)任務管理、性能優(yōu)化管理、參數(shù)配置、個性化定制等模塊化功能,并通過接口模式為其他層提供數(shù)據(jù)交互和功能支持;采集層應用Heritrix爬蟲軟件,負責處理采集策劃設置、信息資源抓取、采集隊列管理、采集狀態(tài)監(jiān)測等核心業(yè)務;存儲層負責對采集完成的數(shù)據(jù)進行數(shù)據(jù)校驗、數(shù)據(jù)保存以及采集時間節(jié)點的控制;運行環(huán)境層則負責整個平臺的服務器資源和網(wǎng)絡資源的綜合性管理。
網(wǎng)絡信息資源采集與保存平臺實現(xiàn)的增量采集功能,是在完整采集網(wǎng)站內容的基礎上,以采集新出現(xiàn)的網(wǎng)頁、變更的網(wǎng)頁為目標的采集。這種采集模式可以有效節(jié)省采集服務器的存儲空間資源和網(wǎng)絡帶寬資源,縮短周期性采集整站的采集時間,大幅提高采集效率。增量采集業(yè)務有完整的工作流程,從采集源分析、采集目標定位、采集種子隊列管理、增量采集資源保存管理到時間節(jié)點控制、增量采集片段化回放展示等一系列業(yè)務管理,均需要完整規(guī)劃和統(tǒng)一實現(xiàn)。
圖3 網(wǎng)絡信息資源采集與保存平臺架構
網(wǎng)絡信息資源采集與保存平臺在Heritrix 3.4版本基礎上進行了程序定制開發(fā)。依靠Heritrix 3.4的自有功能,實現(xiàn)網(wǎng)站內容的完整采集和管理;依靠程序定制開發(fā),實現(xiàn)網(wǎng)站內容增量采集和節(jié)點化管理,實現(xiàn)面向主流網(wǎng)站更新網(wǎng)頁的識別和采集,并保障增量采集內容不重復、不遺漏、不混亂。所有采集到的網(wǎng)站內容均以WARC格式進行保存和管理。平臺使用默認的WARCWriterProcessorwen文件處理器進行網(wǎng)絡資源采集,并在此基礎上做增量采集文件的定制化開發(fā),平臺實現(xiàn)的增量采集業(yè)務流程如圖4所示。
圖4 增量采集業(yè)務流程圖
在采集源分析業(yè)務中,平臺首先判斷是否需要開展增量采集操作,如果不需要,則直接進入全站完整采集業(yè)務流程中。如果判斷為增量采集業(yè)務需求,則要進行采集目標定位業(yè)務操作。首先獲取增量采集目標網(wǎng)站中需要進行比對的版本號,通過計算對當前的CrawlURI和版本號內的采集目標進行對比,如果文件存在,并且大小無變化,則說明這個采集對象不需要增量采集,直接返回結束狀態(tài)并跳過,這樣可以大大節(jié)省采集時間和存儲空間;如果文件不存在,或者文件存在但是與目標相比較運算結果發(fā)生了變化,則說明該采集對象需要進行增量采集,下一步要明確采集對象和采集目標,后續(xù)將需要采集的URL放入采集隊列中,并且將當前版本和URI等對象信息痕跡進行保存。增量采集判斷的業(yè)務邏輯會根據(jù)采集源的情況循環(huán)執(zhí)行,直到采集源分析全部完成,進入下一個采集操作流程。
平臺基于OpenWayback實現(xiàn)存檔資源管理和網(wǎng)站回放展示的完整業(yè)務管理,特別針對增量采集的特殊性進行了功能定制開發(fā),實現(xiàn)增量采集資源保存管理、時間節(jié)點控制、增量采集片段化回放的定制功能。
圖5 增量回放業(yè)務流程
平臺采用索引機制對采集到的每個網(wǎng)站及網(wǎng)頁進行管理,顆粒度包括網(wǎng)站整站、網(wǎng)頁以及頁面中的鏈接等;通過URL+采集批次標記的方式實現(xiàn)時間節(jié)點化管理;在索引機制中,運用算法和邏輯結構定義等方法管理增量采集、增量保存的存檔資源,也實現(xiàn)了基于采集時間節(jié)點的存檔資源分布式存儲管理。
在網(wǎng)站內容回放展示的功能實現(xiàn)上,采用精確化索引管理匹配增量采集網(wǎng)頁資源的模式,可以保證全站采集的網(wǎng)站內容完整回放展示;獨創(chuàng)實現(xiàn)的網(wǎng)頁層級關系控制以及結構重構功能,可以實現(xiàn)任意時間節(jié)點增量采集網(wǎng)頁的回放展示;索引機制與時間節(jié)點相匹配的模式,可以大量減少存檔網(wǎng)站的冗余數(shù)據(jù),明顯提升網(wǎng)站回放展示的效率,保障增量回放展示網(wǎng)頁的準確性、高效性。
表1 不同采集方式的采集效率比對
在實際采集業(yè)務操作中,針對同一網(wǎng)站采用全站采集和增量采集兩種不同的采集模式,平臺在采集容量和采集時長上有著明顯的差別;兩種采集方式所對應的平臺的運行時間和運行效率也明顯不同,可以較為清晰地看出增量采集效率遠遠高于全站采集效率,較為顯著地縮短了采集周期,進而可以保證采集內容的時新性和時效性,能有效解決存儲空間不夠以及網(wǎng)絡帶寬有限等問題。
隨著技術和時代的發(fā)展,互聯(lián)網(wǎng)的信息傳播呈現(xiàn)出不同的態(tài)勢及特點,新型的傳播架構極大地激發(fā)了社會活力。特別是伴隨5G網(wǎng)絡的普及和智能終端的發(fā)展普及,移動短視頻高流量、高承載量和快速傳播的特點使得“視頻+”逐漸滲透到互聯(lián)網(wǎng)各行各業(yè),知識獲取輕量級、內容消費娛樂化,催生出了多樣化的網(wǎng)絡信息載體形態(tài),對網(wǎng)絡信息資源的保存與保護提出了更高的要求。國家圖書館要持續(xù)地發(fā)揮多年來網(wǎng)絡信息資源采集和保存的實踐經(jīng)驗,在網(wǎng)絡資源采集策略、采集范疇、采集技術、知識挖掘以及服務模式等方面進行創(chuàng)新和發(fā)展,進而提升網(wǎng)絡資源“保存”與“應用”的價值。
技術創(chuàng)新的具體手段包括:對網(wǎng)絡信息資源采集及保存的關鍵技術進行研究和追蹤,創(chuàng)新業(yè)務流程,提升工作效率;優(yōu)化算法和速度,提高并發(fā)數(shù)和系統(tǒng)的響應速度,支持并滿足大規(guī)模用戶的同時操作。平臺在采集功能上要擴充采集范圍,對移動互聯(lián)網(wǎng)和音視頻的采集應具有普適性,能滿足日益增長的移動化資源的保存需求。在技術創(chuàng)新的加持下,網(wǎng)絡信息資源采集和保存的范疇在現(xiàn)有網(wǎng)頁資源為主的基礎上,將顯著增加音視頻資源、移動互聯(lián)網(wǎng)資源的采集范疇以及采集比重,實現(xiàn)對重點網(wǎng)站網(wǎng)頁資源的一年多次增量采集、對體現(xiàn)中國文化傳播的原生性音視頻資源的專題性采集、對只有移動服務的移動互聯(lián)網(wǎng)資源的普遍性采集。
技術創(chuàng)新手段的應用,可以顯著提升國家圖書館網(wǎng)絡信息資源采集與保存平臺的適應性和云服務性。具體包括:以云服務的模式支持多節(jié)點的接入,支持不同服務器規(guī)模的部署,支持多節(jié)點、多用戶的互聯(lián)互通;以微服務的模式,支持不同采集需求的技術實現(xiàn),特別是可以對技術各異的移動化資源采集進行針對性功能實現(xiàn);最終構建覆蓋全國各級圖書館的網(wǎng)絡資源分布式保存與服務,引領全國多機構共同參與網(wǎng)絡資源采集事業(yè)。
將語義分析、知識關聯(lián)、內容挖掘等方法運用于網(wǎng)絡信息資源的管理,可以明顯提升網(wǎng)絡信息資源的規(guī)范化管理、內容化挖掘以及知識化建設能力;將網(wǎng)頁資源、政府開放信息、社交媒體資源以及開放獲取資源作為網(wǎng)絡信息資源的多來源,統(tǒng)一進行組織管理和整合建設,有助于整體建設多內容、全載體、分主題的網(wǎng)絡信息資源全內容體系。
變革網(wǎng)絡信息資源應用與服務方式,提升網(wǎng)絡信息服務效果,通過資源推薦、快照保存、信息檢索、資源分類瀏覽等功能實現(xiàn)資源的有序組織與呈現(xiàn)、信息發(fā)現(xiàn)與檢索,通過知識庫向用戶介紹網(wǎng)絡信息保存相關知識和內容,能夠有效增強服務能力,提升用戶體驗。充分利用現(xiàn)代信息技術,通過時間軸、地域軸、地圖、知識圖譜等可視化手段進行資源展示與用戶交互,以熱門關鍵詞實現(xiàn)資源推薦檢索,可以豐富和優(yōu)化網(wǎng)絡信息資源的服務模式。
以5G為代表的新基建興起、發(fā)展并日漸普及,通過高帶寬、低時延、萬物互聯(lián)的方式應用于人們生活的方方面面。視頻的使用更加普及、視頻的內容及其呈現(xiàn)方式更加豐富;移動互聯(lián)網(wǎng)的應用和服務將大大超越傳統(tǒng)互聯(lián)網(wǎng)應用,甚至部分應用與資源只在移動互聯(lián)網(wǎng)端呈現(xiàn);VR(虛擬現(xiàn)實)、AR(增強現(xiàn)實)等應用廣泛普及。這些發(fā)展與變化都對網(wǎng)絡信息資源的采集與保存提出了新的要求。國家圖書館要持續(xù)強化科技創(chuàng)新突破,加快對網(wǎng)絡信息資源采集核心技術和應用技術的協(xié)同攻關;持續(xù)地關注與跟蹤國際互聯(lián)網(wǎng)界的技術發(fā)展和趨勢,通過參加業(yè)界年會、技術論壇交流、郵件互信、項目合作等方式與國內外業(yè)界進行緊密的聯(lián)系與合作,深入了解開源軟件Heritrix、OpenWayback的版本變化、技術功能以及功能定制開發(fā)的方法和技術;在提升自身技術能力的同時,積極分享本館在這些軟件框架下的探索和實踐經(jīng)驗。
在數(shù)字時代,5G和大數(shù)據(jù)、人工智能、云計算、邊緣計算等技術緊密結合,會為網(wǎng)絡信息資源采集與保存帶來新的發(fā)展思路和智慧化的工具手段。國家圖書館將在技術架構構建、采集策略智慧化管理、采集格式與管理、機器學習輔助自動編目和內容管理、視頻內容采集與保存、質量監(jiān)控等方向,以多樣化的溝通和合作方式開展國際性、行業(yè)性交流,不斷完善網(wǎng)絡信息資源采集與保存體系建設。
國家圖書館會持續(xù)跟蹤國際互聯(lián)網(wǎng)采集技術的發(fā)展,著力加強在標準互聯(lián)互通、技術創(chuàng)新升級、服務智慧共享等方面的交流合作,從技術、策略、規(guī)范及智慧服務等方面多角度、多維度、多渠道地促進中國互聯(lián)網(wǎng)信息采集與保存事業(yè)的發(fā)展與進步。
(來稿時間:2020年11月)