孫婷婷 張軼群 柳萍
摘 要:高校網(wǎng)站作為智慧校園建設(shè)的基礎(chǔ)平臺,產(chǎn)生了海量的網(wǎng)頁數(shù)據(jù),這些數(shù)據(jù)多源、異構(gòu)且復雜,并且從產(chǎn)生、發(fā)布到展示均是以電子形式進行。文章分析國內(nèi)外有關(guān)高校網(wǎng)站網(wǎng)頁歸檔的現(xiàn)狀,總結(jié)其中存在的問題,結(jié)合東南大學實踐提出具有高校特色的網(wǎng)站網(wǎng)頁歸檔管理體系。
關(guān)鍵詞:高校網(wǎng)站;網(wǎng)頁歸檔;歸檔策略;東南大學
近年來隨著高校智慧校園及“雙一流”建設(shè)的推進,高校網(wǎng)站成了教學資源共享、師生互動交流、部門協(xié)同辦公的綜合信息集成服務(wù)平臺,產(chǎn)生了海量的網(wǎng)頁數(shù)據(jù)和電子文件。但受人為操作、軟硬件升級、網(wǎng)站改版等原因影響,這些網(wǎng)頁數(shù)據(jù)及文件具有易逝性,因此需要及時歸檔,保證網(wǎng)頁檔案信息資源長久保存。
一、 國際國內(nèi)現(xiàn)狀
1996年國外已開始網(wǎng)站網(wǎng)頁歸檔研究與實踐,最早主要有澳大利亞網(wǎng)絡(luò)文件保存和獲取項目(PANDORA)、英國網(wǎng)絡(luò)信息保存聯(lián)盟計劃(UKWAC),美國國會圖書館網(wǎng)絡(luò)信息保存項目(MINERVA)等,此后法國、加拿大、韓國等國家和組織也相繼開展相關(guān)工作。2003年,國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)[1]成立,截至2022年2月,共有52個成員機構(gòu),涵蓋了超過45個國家的檔案館、圖書館、學校等。大多數(shù)高校如哥倫比亞大學、康奈爾大學、加州大學洛杉磯分校與美國互聯(lián)網(wǎng)檔案館(Internet Archive)合作。美國互聯(lián)網(wǎng)檔案館是1996年成立的世界上最大的在線數(shù)字檔案館,最主要的工作就是對互聯(lián)網(wǎng)上的網(wǎng)頁進行數(shù)字建檔。[2]截至目前,其“Archive-It”網(wǎng)站歸檔項目已經(jīng)與387個高校、高校院系、高校附屬機構(gòu)以及高校檔案館進行合作。[3]
我國網(wǎng)站網(wǎng)頁歸檔研究與實踐起步較晚,最早是2001年北京大學網(wǎng)絡(luò)實驗室的中國Web信息博物館項目,其收錄了幾乎所有中文網(wǎng)站的網(wǎng)頁信息。2003年國家圖書館開始從事網(wǎng)絡(luò)信息資源采集與保存實驗項目(WICP),對中國境內(nèi)的互聯(lián)網(wǎng)資源進行采集與保存。此后,國家圖書館加入IIPC,成立了國家圖書館互聯(lián)網(wǎng)信息保存保護中心,[4]并于2021年啟動互聯(lián)網(wǎng)信息戰(zhàn)略保存項目。但是我國檔案部門的網(wǎng)站網(wǎng)頁歸檔工作仍處于探索階段,目前僅有少數(shù)網(wǎng)站網(wǎng)頁歸檔試點單位。此外,也有少數(shù)高校開展網(wǎng)站網(wǎng)頁歸檔工作,如臺灣大學自2006年起開發(fā)網(wǎng)頁歸檔系統(tǒng),建立了臺灣網(wǎng)站典藏庫,至今已收錄10大類共計52個網(wǎng)站。[5]
二、 高校網(wǎng)站網(wǎng)頁歸檔存在的問題
綜合國內(nèi)外現(xiàn)狀可見,我國的網(wǎng)站網(wǎng)頁歸檔尚處于起步階段,高校網(wǎng)站網(wǎng)頁歸檔工作更是處于萌芽階段,存在著以下幾點亟待解決的問題。
1. 管理辦法缺失
2019年12月,國家檔案局發(fā)布《政府網(wǎng)站網(wǎng)頁歸檔指南》,政府網(wǎng)站網(wǎng)頁歸檔工作有了統(tǒng)一的指導標準。政府出臺的規(guī)范標準雖對高校具有指導借鑒意義,但由于兩者網(wǎng)頁信息存在差異,在實際工作中不能完全適用。筆者通過調(diào)研北京、上海、江蘇、浙江、重慶、東北等地區(qū)的30余所高校,發(fā)現(xiàn)其中開展網(wǎng)站網(wǎng)頁歸檔工作且制定相關(guān)管理辦法的高校寥寥無幾。政府或?qū)W校管理辦法的缺失,使得高校網(wǎng)站網(wǎng)頁歸檔工作“無章可循”,出現(xiàn)種種問題。并且由于缺乏政策認可與指導,高校對網(wǎng)站網(wǎng)頁的認識度和利用度有限,缺乏有效的支持與信息反饋,難以開展或推進網(wǎng)站網(wǎng)頁歸檔項目,更難反推管理辦法的制定,由此陷入惡性循環(huán),制約了高校網(wǎng)站網(wǎng)頁歸檔工作的開展。
2. 采集歸檔方式局限
目前高校多采用選擇性采集和被動歸檔相結(jié)合的方式。選擇性采集是選擇符合一定標準的特定網(wǎng)站網(wǎng)頁或文件進行采集;被動歸檔是由檔案管理系統(tǒng)下達網(wǎng)頁采集任務(wù),利用采集工具抓取指定網(wǎng)頁信息并歸檔。其局限性在于對采集內(nèi)容的選擇標準具有主觀性,且易割裂采集內(nèi)容與周圍環(huán)境、背景知識等相關(guān)網(wǎng)頁的聯(lián)系。也有少數(shù)高校采用完整性采集和被動歸檔相結(jié)合的方式。完整性采集是對特定網(wǎng)絡(luò)域的所有網(wǎng)頁信息進行完整采集。這種完整性采集與被動歸檔相結(jié)合的缺點在于周期長、頻率低、成本高,兩個采集時間節(jié)點之間發(fā)生更新的網(wǎng)頁信息無法歸檔,造成大量的信息遺漏,且無法實施深層網(wǎng)絡(luò)資源采集,歸檔的信息質(zhì)量較差。
3. 歸檔范圍、內(nèi)容片面
高校網(wǎng)站涵蓋范圍廣泛,包含主站、二級單位網(wǎng)站及微博微信等。這些網(wǎng)站網(wǎng)頁形式多樣,更新發(fā)布信息頻繁,具有復雜性、異構(gòu)性和動態(tài)性等特點。因此對高校檔案館的人力、資金、技術(shù)等方面具有較高的要求,能將這些網(wǎng)站網(wǎng)頁全部歸檔的少之又少。目前國內(nèi)高校多是在校內(nèi)網(wǎng)絡(luò)范圍內(nèi)選擇性地采集歸檔相關(guān)網(wǎng)頁,如校報、校內(nèi)新聞等網(wǎng)頁,歸檔內(nèi)容基本局限于純文本或網(wǎng)頁快照,缺乏與網(wǎng)頁相關(guān)的多媒體內(nèi)容、元數(shù)據(jù)等信息,大大降低了網(wǎng)頁檔案的憑證價值和利用價值。
三、 東南大學網(wǎng)站網(wǎng)頁歸檔實踐策略
2020年起,東南大學按照“統(tǒng)籌規(guī)劃、量力而行、分期建設(shè)”的原則,通過調(diào)研學校網(wǎng)站群網(wǎng)絡(luò)架構(gòu)、平臺建設(shè)和信息內(nèi)容等情況,統(tǒng)籌規(guī)劃實踐工作,按網(wǎng)站類型和實施難易度確定分期建設(shè)的目標,至2021年底已完成65萬余條網(wǎng)頁數(shù)據(jù)及文件的歸檔工作,2022年將完成學校官方微博和微信網(wǎng)頁歸檔。通過借鑒國內(nèi)外經(jīng)驗,以及對做法進行不斷總結(jié)與完善,逐步探索出具有較強可行性的高校網(wǎng)站網(wǎng)頁歸檔實踐策略。
該策略通過建立一套完善的網(wǎng)站網(wǎng)頁歸檔體系,完成前端平臺構(gòu)建、管理制度建設(shè)、采集歸檔方式選擇以及數(shù)據(jù)檢測與利用等工作,從而形成良好的“生態(tài)系統(tǒng)”,系統(tǒng)各部分要素節(jié)點相輔相成、結(jié)合互補、互相推動、缺一不可,最終實現(xiàn)網(wǎng)站網(wǎng)頁歸檔從前端控制、過程實施到后端管理的一體化、全過程管理。
1. 前端平臺構(gòu)建
(1)構(gòu)建系統(tǒng)平臺
構(gòu)建系統(tǒng)平臺的目的是對歸檔數(shù)據(jù)進行前端控制,將多種采集和歸檔方式結(jié)合并舉。一方面,依托智慧校園網(wǎng)站群系統(tǒng)的主動推送,實現(xiàn)校內(nèi)網(wǎng)站多站點、多欄目統(tǒng)一管理及信息集成,完整地將網(wǎng)站群上的數(shù)據(jù)進行歸檔。另一方面,建立完善的網(wǎng)頁采集機制,通過下達任務(wù),對校外站點數(shù)據(jù)進行被動抓取。兩種方式優(yōu)勢互補,有效提高數(shù)據(jù)信息的廣度和精度,保障歸檔網(wǎng)頁數(shù)據(jù)的齊全完整。
(2)搭建數(shù)據(jù)橋梁
在智慧校園網(wǎng)站群系統(tǒng)與檔案管理系統(tǒng)之間開通數(shù)據(jù)接口,實現(xiàn)數(shù)據(jù)的無縫對接。在網(wǎng)頁采集程序與檔案管理系統(tǒng)之間開通數(shù)據(jù)接口,實現(xiàn)校外站點數(shù)據(jù)的抓取與傳輸。通過這兩座“橋梁”,實現(xiàn)前、后端互聯(lián)互通,能夠進行數(shù)據(jù)解析、清洗與去重、關(guān)系映射與轉(zhuǎn)換等[6],提高歸檔數(shù)據(jù)質(zhì)量,最終至檔案管理系統(tǒng)進行長久保存,并在專題數(shù)據(jù)庫集成與展示。
2. 管理制度建設(shè)
(1)定義歸檔范圍
為了確保來源不同、態(tài)別不同、構(gòu)成不同的網(wǎng)頁數(shù)據(jù)與文件應(yīng)收盡收、應(yīng)歸盡歸,首先需要明晰歸檔集成對象。高校網(wǎng)站網(wǎng)頁歸檔范圍應(yīng)包含三部分:一是中英文高校主站,二是中英文二級單位如院系、職能部門、直屬單位等網(wǎng)站,三是校外站點與本校相關(guān)的重大事件、重要人物、重要事跡以及微博微信等網(wǎng)頁。東南大學規(guī)定了網(wǎng)站網(wǎng)頁歸檔范圍涵蓋東南大學智慧校園網(wǎng)站群以及校外媒體站點的相關(guān)內(nèi)容,特別是與學校招生就業(yè)、人才培養(yǎng)、科研教學等相關(guān)的重要站點。
(2)明確歸檔內(nèi)容
根據(jù)高校網(wǎng)站網(wǎng)頁信息類型及呈現(xiàn)方式,可明確歸檔保存的內(nèi)容。網(wǎng)頁是內(nèi)容和結(jié)構(gòu)兩方面的結(jié)合:內(nèi)容包含文本內(nèi)容(即網(wǎng)頁上的純文本)、視覺內(nèi)容(即網(wǎng)頁信息的視覺形式)、多媒體內(nèi)容(圖片、音視頻、動畫等)以及網(wǎng)頁元數(shù)據(jù)。結(jié)構(gòu)包含外觀(即網(wǎng)頁整體布局或演示)和行為(即網(wǎng)站內(nèi)外鏈接導航)。東南大學規(guī)定設(shè)置歸檔字段如文件題名、網(wǎng)站名稱等將元數(shù)據(jù)采集歸檔,同時網(wǎng)頁文件及其視頻、圖片等以附件形式歸檔,并且利用技術(shù)手段將源網(wǎng)頁的可視化圖像進行歸檔,保留了網(wǎng)頁的真實面貌。
(3)制定檔號規(guī)則
制定檔號規(guī)則是對數(shù)量眾多、內(nèi)容廣泛、形式復雜的網(wǎng)站網(wǎng)頁信息進行科學有序管理的必要一環(huán),需使之兼具唯一性、合理性、穩(wěn)定性、擴充性、易操作性,又能夠與本單位檔號制定規(guī)則相一致。參考《政府網(wǎng)站網(wǎng)頁歸檔指南》及東南大學檔案館其他類檔案號的制定規(guī)則,按“檔案門類-歸檔年度-網(wǎng)站級別-流水號”規(guī)則設(shè)置,能夠體現(xiàn)檔案門類和網(wǎng)站級別,便于查找和區(qū)分。
3. 采集歸檔方式選擇
如前文所述,單純只采用某種采集和歸檔方式具有一定的局限性,為解決這些問題,依托網(wǎng)站網(wǎng)頁歸檔系統(tǒng)平臺,將不同的采集和歸檔方式結(jié)合互補,對三類網(wǎng)頁數(shù)據(jù)——歷史數(shù)據(jù)、鏈接與校外媒體站點數(shù)據(jù)以及新增與修改數(shù)據(jù)進行歸檔,多線并舉,確保網(wǎng)頁檔案的齊全完整。
(1)完整性采集與主動歸檔相結(jié)合
采用完整性采集與主動歸檔相結(jié)合的方式,利用檔案管理系統(tǒng)與智慧校園網(wǎng)站群系統(tǒng)之間的接口,將網(wǎng)站網(wǎng)頁歸檔系統(tǒng)平臺建立之前網(wǎng)站群上存在的歷史數(shù)據(jù)一次性完整地主動推送至檔案管理系統(tǒng)。東南大學在實踐中采用此方式實現(xiàn)了3個主要站點20余萬條歷史數(shù)據(jù)及其相應(yīng)附件的歸檔工作。
(2)選擇性采集與被動歸檔相結(jié)合
采用選擇性采集與被動歸檔相結(jié)合的方式,對歷史數(shù)據(jù)中包含的鏈接數(shù)據(jù)的源網(wǎng)頁信息甚至可視化圖像進行捕獲,保證歸檔數(shù)據(jù)的完整性。在實踐過程中發(fā)現(xiàn),網(wǎng)站前臺發(fā)布人經(jīng)常通過轉(zhuǎn)載鏈接的方式發(fā)布網(wǎng)頁信息,因此歸檔后往往只含有一條鏈接,為提高歸檔數(shù)據(jù)質(zhì)量,后續(xù)將在網(wǎng)站網(wǎng)頁歸檔系統(tǒng)平臺嵌入網(wǎng)頁采集機制對數(shù)據(jù)進行監(jiān)督完善。照此方式,可對校外媒體站點與東南大學相關(guān)的網(wǎng)頁及微博微信等進行精準捕獲,甚至多次捕獲不同時間節(jié)點的數(shù)據(jù),確保其完整性與有效性。
(3)前端控制與實時監(jiān)測
采用前端控制與實時監(jiān)測的方式,可解決智慧校園網(wǎng)站群最新發(fā)布的新增數(shù)據(jù)歸檔問題。網(wǎng)頁信息在網(wǎng)站前端一經(jīng)發(fā)布,立即觸發(fā)主動歸檔機制,瞬間將網(wǎng)頁數(shù)據(jù)及文件推送至檔案管理系統(tǒng),真正做到網(wǎng)頁數(shù)據(jù)的“一觸即發(fā)”。若已歸檔的網(wǎng)頁數(shù)據(jù)在前端發(fā)生修改,系統(tǒng)能夠?qū)崟r監(jiān)測并比對,將修改后再次發(fā)布的數(shù)據(jù)進行推送,同時保存其修改過程中形成的元數(shù)據(jù),確保檔案形成證據(jù)鏈的完整性。
4. 數(shù)據(jù)檢測與利用
為了加強網(wǎng)頁檔案數(shù)據(jù)的質(zhì)量控制和安全保障,需對歸檔后的網(wǎng)頁檔案數(shù)據(jù)進行檢測,推進網(wǎng)頁檔案數(shù)據(jù)資源的整合、服務(wù)和共享。
(1)數(shù)據(jù)檢測
網(wǎng)頁從前端創(chuàng)建、發(fā)布到歸檔管理均以電子形式流轉(zhuǎn),可用四性檢測方式進行檢測:一是通過檢測網(wǎng)頁元數(shù)據(jù)規(guī)范性、重復性以及電子文件屬性、存儲路徑等,保證網(wǎng)頁數(shù)據(jù)及文件的真實性;二是通過檢測歸檔的網(wǎng)頁文件數(shù)據(jù)總量、元數(shù)據(jù)與內(nèi)容數(shù)據(jù)是否齊全完整等來保證其完整性;三是網(wǎng)頁歸檔后,檢測元數(shù)據(jù)是否可以被正常訪問,網(wǎng)頁文件及附件等是否可以正常瀏覽、下載,格式是否符合歸檔要求等,確保其可用性;四是除權(quán)限設(shè)置外,配備物理措施、數(shù)據(jù)加密技術(shù)、防病毒措施等,同時采集歸檔文件形成流轉(zhuǎn)過程中的證據(jù)鏈,保證其安全性。
(2)數(shù)據(jù)利用
為了促進網(wǎng)站網(wǎng)頁檔案數(shù)據(jù)資源開發(fā)與利用,應(yīng)積極探索知識管理、人工智能、數(shù)字人文等技術(shù)在網(wǎng)頁檔案信息深層加工中的應(yīng)用,通過建立專題數(shù)據(jù)庫的形式實現(xiàn)對網(wǎng)頁檔案資源的可視化開發(fā)利用。東南大學在將所有網(wǎng)頁數(shù)據(jù)及文件歸檔后,建立了網(wǎng)站網(wǎng)頁檔案專題數(shù)據(jù)庫,為用戶提供檢索、統(tǒng)計、分析、導出等功能,并且歸檔的網(wǎng)頁文件以及音視頻、圖片等支持在線瀏覽或點播,以便為用戶提供多元化服務(wù),助力學校發(fā)展與科學研究。
*本文系中國高等教育學會檔案工作分會一般項目“智慧校園背景下高校網(wǎng)頁歸檔實踐與研究”(項目編號:ZGD-YB-2020-21)階段性研究成果。
注釋與參考文獻
[1]INTERNATIONAL INTERNET PRESERVATION CONSORTIUM-IIPC [EB/OL].[2022-02-18].http:// netpreserve.org/.
[2]楊棄.美國互聯(lián)網(wǎng)檔案館建設(shè)[J].檔案與建設(shè),2018(04):24-26+13.
[3]Archive-It-Web Archiving Services for Libraries and Archives[EB/OL].[2022-02-18].https://archive-it.org/.
[4]劉青,孔凡蓮.中國網(wǎng)絡(luò)信息存檔及其與國外的比較——基于國家圖書館WICP項目的研究[J].圖書情報工作,2013(18):80-86+93.
[5]臺灣大學.臺灣網(wǎng)站典藏庫[EB/OL].[2022-02-18]. http://webarchive.lib.ntu.edu.tw/.
[6]卞咸杰.大數(shù)據(jù)時代檔案信息資源共享平臺數(shù)據(jù)采集系統(tǒng)設(shè)計與應(yīng)用[J].檔案與建設(shè),2020(10):25-29.