曾 薩 黃新榮
(西北大學公共管理學院 西安 710127)
互聯(lián)網時代,社交媒體記錄了個人、組織、社會方方面面的活動,是人們社會生活的重要組成部分。社交媒體文件歸檔,不僅是保存憑證信息,更是構建個人記憶、組織記憶、社會記憶不可或缺的內容。社交媒體作為重要的信息生產平臺,其文件歸檔在美國、英國、加拿大、澳大利亞等國已經引起重視,這些國家均已開展歸檔項目。我國還未有社交媒體文件歸檔的實踐,具體如何操作尚處于空白狀態(tài)。相對來看,國外90年代就已經開始網頁歸檔研究,國內近幾年也開展了網頁歸檔項目,網頁歸檔項目在管理、技術、方法等方面已經比較成熟。網頁歸檔和社交媒體文件歸檔,都是網絡信息資源長期保存以及電子文件歸檔的延伸,有一定的相似性。借鑒網頁歸檔的經驗,可為社交媒體文件歸檔提供可操作的方法和建議。
早在1996年,美國互聯(lián)網檔案館、冰島國家與大學圖書館、澳大利亞國家圖書館、埃及亞歷山大圖書館就已經開展網頁歸檔項目,此后瑞典、新西蘭、法國、挪威等國家紛紛展開網頁歸檔實踐。2003年7月,IIPC[1](國際互聯(lián)網保存聯(lián)盟)在法國國家圖書館正式成立。IIPC的任務是獲取、保存互聯(lián)網上的數據,使后代可以從項目中獲取知識和信息,促進全球交流與國際關系。目前IIPC共有54個成員,包括一些著名的圖書館、檔案館、聯(lián)盟、大學、商業(yè)機構等,涵蓋全世界絕大多數高水平的網頁歸檔項目研究機構。IIPC在網頁歸檔系統(tǒng)結構、標準規(guī)范、元數據等方面建立了一系列技術規(guī)范,并資助成員機構開發(fā)能夠實現網絡資源采集、管理、存儲、利用等功能的高質量、具有較高易用性的開源性軟件工具[2]。
中國國家圖書館是IIPC的成員機構之一。中國目前有兩個網頁歸檔項目:Web信息博物館和網絡信息資源采集與保存項目(WIPC)。
1.2.1 Web信息博物館概況
“中國Web信息博物館”[3]是在國家973和985項目支持下,北京大學網絡實驗室開發(fā)建設的中國網頁歷史信息存儲與展示系統(tǒng),包括歷史網頁存儲系統(tǒng)和回放系統(tǒng)兩個部分。系統(tǒng)可以收集中國所有靜態(tài)網頁,并提供歷史網頁的存檔和回放。該系統(tǒng)主要功能有:網頁回放,輸入URL, 瀏覽永久保存的歷史網頁;歷史事件專題回放;數據分享。該系統(tǒng)以“天網搜索”技術為基礎,項目2011年陷入停滯,首頁可訪問,但無法進行網頁回放。
1.2.2 國家圖書館網絡信息資源采集與保存項目(WIPC)和網絡數據庫導航項目(ODBN)
中國國家圖書館網絡信息資源采集與保存實驗項目,2003年開始,主要任務為發(fā)現網頁資源采集、存儲、著錄和開放利用中存在的問題,提出解決方案;確定網頁歸檔采集范圍和資源類型, 根據其特點確定技術應用和采集策略;實驗性收集、整理、 保存網頁并提供服務等[4]。WICP和ODBN是國家圖書館在進行網絡信息的采集和保存時,按照兩類不同網頁,即表層網頁和深層網頁,采取不同的整合策略形成的項目[5]。軟件運用IIPC的開源軟件,WICP項目2015年已停止,ODBN也未有結果展現。
從中國兩個項目的情況來看,中國網頁歸檔項目開展得并不成功,無法持續(xù)提供利用,但是表層網頁、深層網頁不同的采集策略的思想仍然具有前瞻性,也為之后中國開展網頁歸檔和社交媒體歸檔提供經驗和教訓。
網頁歸檔項目數量眾多,筆者挑選歐洲、北美洲、澳洲、亞洲等地區(qū),成立時間早、現在可以提供利用、影響力比較大的網頁歸檔項目,運用文獻研究、瀏覽網站等方法,查詢項目的采集策略、采集工具等信息,形成典型網頁歸檔項目表(表1)。采用同樣的方法,查詢社交媒體歸檔項目的具體信息,形成典型社交媒體歸檔項目表(表 2)。
表1 典型網頁歸檔項目表
表2 典型社交媒體文件歸檔項目表
從這些典型的歸檔項目來看,社交媒體文件歸檔項目開始時間明顯較晚。1996年網頁歸檔項目開展,到2010年網頁歸檔項目已經發(fā)展成熟,在采集策略、采集方法、采集標準以及軟件設計等方面都已經形成規(guī)范,并且能夠延續(xù)至今提供利用。社交媒體文件歸檔從2010年開始陸續(xù)才有國家開始研究,雖然已經有網頁歸檔作為基礎,但是社交媒體信息具有時效性、碎片化、交互性、多媒體性等特征,傳統(tǒng)的網頁歸檔項目經驗、技術等不能直接應用,現有的項目采集方法、技術研究等方面還比較稚嫩。
表3 網頁歸檔項目與社交媒體文件歸檔項目的簡明比較
將網頁歸檔項目與社交媒體項目作一個簡明比較(表3),可以發(fā)現社交媒體文件歸檔雖然也是網絡信息資源長期保存,但是很多方面都發(fā)生了改變,采集頻率、標準、軟件等不能照搬網頁歸檔的經驗。造成這些差異的最根本的原因為社交媒體是web2.0的集中表現,以用戶為主發(fā)布信息,其交互性、實時性、碎片化等特點對社交媒體文檔歸檔提出了更高的要求,因此社交媒體文件歸檔項目的技術水平和管理方式也與網頁歸檔項目有很大的不同。
3.1.1 制定統(tǒng)一歸檔元數據標準
元數據是網絡信息資源描述、組織、管理和檢索的基本解決方案,元數據和開放檔案信息系統(tǒng)(OAIS)為數字資源的長期保存提供了技術層面的可行性[15]。 元數據在系統(tǒng)互操作和信息聚合方面起關鍵性作用,規(guī)范的元數據標準不僅利于文件的重新整合,也有助于提供多樣化的檢索方式。國際互聯(lián)網保存協(xié)會定義了網絡存檔元數據集(IIPC Web Archiving MetadataSet)作為規(guī)范的元數據國際標準。IA項目沒有制定元數據標準,不能提供多樣化的檢索方式。除IA 項目外,根據各國國情,各項目都規(guī)定有自己的元數據標準,如:日本元數據對象描述框架、韓國都柏林數據集、澳大利亞RDFS。
已經開展的社交媒體歸檔項目元數據標準還不清晰,如:Twitter存檔項目,元數據只是簡單的字段規(guī)定,對其他項目沒有參考價值;OSMA運用的內閣辦公室網頁標準是為了支持UKGWA項目而制定,只有部分元數據規(guī)范。Twitter、YouTube、Ins等社交媒體全世界通用,對于國際性事件或者是影響力較大的事件各國的社交媒體上都有反映,缺乏統(tǒng)一的國際元數據標準,對國際性事件的重構就較為困難。各項目在參考國際標準的前提下規(guī)定自己的標準,在檢索利用時借鑒圖書館領域元數據收割模式的整合檢索,就可以達到對國際性事件多視角、多方面重構,完整、全面了解事件的本來面貌、發(fā)展動態(tài)。
3.1.2 合作共享
網頁歸檔項目在其發(fā)展過程中,展現出良好的合作意識。合作方式包括形成聯(lián)盟、共享軟件、分工協(xié)作等。
網頁歸檔項目是一個由獨立走向合作,最終形成聯(lián)盟的過程。1996年網頁歸檔項目獨立開展,2003年IIPC成立,開展網頁歸檔項目的機構幾乎都是IIPC的成員。IIPC也建立了自己的網站[1],網站不僅可以查詢每個成員有何種項目,也可以查詢項目進程;不僅可以了解網頁歸檔項目的概況,也可以了解IIPC最新會議、決策等,將全世界網頁歸檔項目信息匯集、共享。
網頁歸檔項目實現了軟件共享。IIPC網站提供網頁歸檔工具的免費下載,軟件為開源形式,可以根據實情修改軟件源代碼適用本國需求,我國WIPC項目、法國國家圖書館網頁歸檔項目等都采用IIPC的工具包。軟件共享為各項目提供技術支持,節(jié)省了人力、物力。IIPC聯(lián)盟也資助成員國進行軟件開發(fā),成員共享。
網頁歸檔項目注重分工協(xié)作。Pandora項目早期由澳大利亞圖書館獨立開展,后期為分布式合作模式,各州圖書館以及其他文化機構都參與進來,負責不同類型以及不同地區(qū)網頁的采集。為了更好的分工協(xié)作,澳大利亞、韓國等也制定了《采集指南》,規(guī)定各采集機構的職責。此外,在IIPC的推動下,網頁歸檔項目也不定期進行交流,共同探討網頁歸檔要解決的困難和技術革新。
社交媒體文件歸檔的合作更為復雜。社交媒體往往是幾個大的平臺,如Facebook、Twitter等,國內的如新浪微博、微信等,社交媒體文件歸檔必然要與社交媒體平臺取得合作。從法律角度看,平臺授權資源收割才具有合法性,如2017年9月15日,新浪微博更新了《微博服務使用協(xié)議》,其中的第1.3條宣稱:“未經微博平臺事先書面許可,用戶不得自行授權任何第三方使用微博內容(微博內容即指用戶在微博上已發(fā)布的信息,例如文字、圖片、視頻、音頻等),包括但不限于自行授權任何第三方發(fā)表、復制、轉載、更改、引用、鏈接、下載、同步或以其他方式使用部分或全部微博內容等”[16]。在網絡上引起了廣泛討論。從保存社會記憶的角度來說,需要平臺積極配合,否則就喪失了記憶的重要來源。社交媒體文件歸檔技術要求更高,需要軟件公司或者科研機構的支持。Twitter存檔項目美國國家圖書館將技術外包,ARCOMEM形成了跨國多組織信息采集機制,是合作的典范。隨著社交媒體的不斷發(fā)展,更需要平臺服務商、軟件公司、政府、第三方組織之間展開密切合作,保存海量的社交媒體信息,進行數據挖掘、相關分析等,用更快、更精準、更豐富的成果服務于社會。
3.2.1 采集方式
除IA項目外,網頁歸檔項目都是選擇性采集,針對特定的網站進行有規(guī)律的捕獲,或者選定專題進行定時采集?;谶x擇性采集策略的項目其原則是根據網絡信息資源的歷史價值、文化價值、研究價值和經濟價值的不同,有選擇地對 Web 資源進行采集,提高了網絡資源的采集質量[17]。 澳大利亞Pandora項目的采集方式具有代表性,只采集對未來和現在具有研究價值的資源,如:采集只有網絡版的出版物。
社交媒體由于主體多元,產生的信息更為龐雜,采集目標更難確定。ARCOMEM項目采用“全民參與”的采集方法,由群眾展開對信息資源的征集與評價,與英國UKWA網頁歸檔項目類似。這種利用者提名所要保存信息資源的方法值得社交媒體歸檔項目借鑒。但群眾容易盲從,采集者應該在爭取群眾意見的基礎上,制定采集策略。
社交媒體具有多媒體性、超鏈接性,同一信息內容有視頻、聲頻、圖片、文字等多種形式,信息量龐大且格式不統(tǒng)一,我們應該對不同類型信息,采用不同的采集方式,以便后續(xù)的著錄和整理。
3.2.2 去重方法
網頁歸檔在采集過程中不可避免地產生復本,如不同 URL 指向同一文件內容、多次采集的Web 內容沒有更新或僅有少量更新[18]。韓國OASIS網頁歸檔項目針對網頁復本去除冗余,采用了循環(huán)冗余校驗(CRC32)的方法,即當系統(tǒng)采集一份資源后,會自動將CRC32值與已有資源進行比對,如遇相同,系統(tǒng)則會通知管理員處理;日本運用的是重復數據刪除技術(Deduplication),通過反復制器(Deduplicator)刪除重復數據,來提高存儲空間的利用率[19]。
除上述以焙燒方式將鉬精礦轉化為高溶氧化鉬工藝技術外,濕法加壓氧化分解的方式將鉬精礦轉化為高溶氧化鉬是鉬冶煉技術研究的熱點之一。依據加壓氧化分解加入的物質性質差別,可以將鉬精礦加壓氧化分解技術分為加壓酸浸、加壓堿浸兩種類型。
社交媒體具有超鏈接性,針對一個事件有許多的轉載和評論,如江歌、劉鑫事件微博有3 000余次轉發(fā)、1萬多條評論,信息大量重復。社交媒體是否需要保存轉載和評論,每個項目都要有自己的考量。如果保存轉載和評論,必然會出現信息冗余,耗費大量的時間、人力、物力;如果不保存轉載和評論,語境信息不完整,會喪失部分重要的背景信息,網友對事件的觀點和看法沒有被保存,內容信息不完整。在條件匱乏的情況下,點贊數、轉載數和評論數作為重要的背景數據,反映事件的重要程度。在技術和資金支持的情況下,評論可以和信息內容一起保存,也可以作為背景數據與元數據一起封裝保存。轉載可以借鑒網頁歸檔的去冗余技術,避免保存重復消息。
3.2.3 利用方式
IA項目是廣泛采集,并未用元數據進行著錄,只能通過URL查詢網頁,檢索方式單一。大多數的網頁歸檔項目在成果開放階段都提供多樣化的檢索方式,有URL檢索、字母檢索、主題檢索、標題導航、專題檢索、地域檢索甚至有元數據檢索。在可供利用的社交媒體文件歸檔項目中,檢索方式還比較單一。從用戶的角度出發(fā),用最簡單的方式最快地找到所需要的信息才能更好地滿足用戶需求。為了更好的用戶體驗,社交媒體歸檔查詢可以在Wayback Machine的基礎上,將關鍵詞檢索作為主要檢索方式,以多樣化的檢索方式作為補充,努力實現多媒體檢索、智能檢索、自然語言檢索。
IA項目在利用網站上提供了申訴途徑。采集的信息內容不在出版商或者組織對外公開的范圍,當涉及到個人隱私時,用戶可以在網站提出申訴,項目人員評估是否對此網頁繼續(xù)開放。這是一種必要的信息反饋,值得社交媒體文件歸檔借鑒。社交媒體如果采集重大事件,必然會涉及個人賬戶,可能會造成隱私權的侵犯,需要有一個申訴的途徑。當然社交媒體歸檔可以對此途徑進行優(yōu)化,成為一個良性互動方式,用戶不僅可以申訴、評價、提出意見和建議,還可以得到項目的回應,項目組不單是判斷是否侵權,也能發(fā)現問題,改進項目。3.3 技術上的借鑒
3.3.1 軟件開發(fā)
社交媒體信息也是網絡資源的一種,社交媒體的軟件要求更為復雜,雖然不能直接采用網頁歸檔的軟件但是可以借鑒部分成果。如Arcomem Crawler是在Heritrix的基礎上進行開發(fā),綜合應用最佳信息新鮮度優(yōu)化抓取寬度與深度優(yōu)先搜索、社會網絡分析、智能自適應決策支持、“語義保護” 方法等技術,方可實現智能化的抓取[20-21]。社交媒體文件歸檔的索引和回放軟件除了主要參考Nutchwax和Wayback Machine,也可以借鑒基于Lucene 開發(fā)的開源企業(yè)級搜索平臺Apache Solr[22]和谷歌瀏覽器 Chrome 的插件Momento,可以讓用戶在使用瀏覽器進行網頁瀏覽時,在 Momento 內更方便地找到當前訪問頁面過去的版本[23]。社交媒體文件歸檔系統(tǒng)也可以參照WCT與NAS,借鑒任務管理、分布式部署以及協(xié)同工作等。當然社交媒體歸檔的軟件還是以研發(fā)為主、借鑒為輔,需要符合社交媒體平臺以及信息的特征,需要更高的技術要求和資金支持。社交媒體相關軟件如果可以像IIPC一樣實現技術共享、合作開發(fā),將對社交媒體文件歸檔在大范圍內開展起推動作用。
3.3.2 存儲格式
為保存網頁歸檔的批量信息,IIPC在ARC格式的基礎上開發(fā)出WARC, 2009年成為國際標準(ISO28500:2009)。WARC 將多樣化的網絡資源收割結果連同相關描述信息一并整合到同一存檔文件中[26], 如詳細地記錄了HTTP 請求的頭信息和元數據信息,可以識別保存的資源、冗余的資源、遷移的資源和切割的資源塊[23]; WARC支持眾多協(xié)議、打包和壓縮、大容量保存。WARC可以記錄WARC文檔管理信息、資源環(huán)境信息、內容信息、結構信息[23]。社交媒體文件歸檔本質上是網絡資源長期保存,完全可以采用WARC格式,完整記錄背景數據,滿足社交媒體信息多媒體特征;面向不同任務實現記錄重組,符合社交媒體交互性信息保存需求;對外部資源進行組織、支持外部檢索,滿足社交媒體超鏈接性以及由此帶來的檢索需求;支持對資源的遷移,以實現社交媒體信息多年后重新提取利用。
社交媒體信息具有動態(tài)性、碎片化、交互性、跨平臺性、多媒體性、即時性,比網頁歸檔更為復雜。在進行社交媒體歸檔時需要克服更多困難,才能長時間保存資源、提供利用、減少糾紛。
社交媒體文件歸檔需要多方合作以及雄厚的資金支持。如果只是僅僅借鑒網頁歸檔項目的管理方式,還達不到深度合作以及雄厚的資金支持。社交媒體歸檔要真正得到重視,需要國家相關部門牽頭。社交媒體平臺數量有限但是規(guī)模大,國家相關部門應做好頂層設計和規(guī)劃,避免項目重復開展以及資源重復收集;要加強元數據標準的制定,推動國際標準的規(guī)范,方便各國開展交流,減少信息孤島;要注意協(xié)調平臺提供商、第三方組織、軟件公司之間的利益關系,推動分工合作以及責任落實;主動爭取財政支持,使社交媒體歸檔技術研發(fā)等無后顧之憂。
社交媒體文件歸檔對網頁歸檔的反思主要是鑒定方式。舍恩伯格在《刪除》[25]一書中曾說,遺忘是人類的常態(tài),記憶是例外。在數字領域類模仿人類的遺忘的可能方法之一是把存儲在數字化記憶中的信息和一個存儲期限相關聯(lián),提醒我們面對信息在時間上的有限性。把信息設置存儲期限,就是價值鑒定。網頁歸檔挑選固定站點進行收割,一般為政府網站、學校網站或者知名網站,這些信息更具長期保存價值。社交媒體主體相對于網頁歸檔價值鑒定更加復雜,社交媒體多元參與,一條信息涉及多種主體、多條評論和轉發(fā),難以確定收割對象及其保存價值。社交媒體信息十分龐大,如果不進行對象篩選和價值鑒定,即使是壓縮保存也需要很大的保存空間。如果需要進行價值鑒定,如何判定價值又成為一個問題,如針對江歌、劉鑫案件,企業(yè)微信公眾號、個人大V等都有發(fā)聲,哪些應該被保存,保存多久,都值得思考。如果要進行真實性鑒定,社交媒體圖片經過PS等合成技術合成的很多,逐一鑒定需要耗費巨大的財力和人力。社交媒體文件歸檔在項目開始前就應有規(guī)劃:是否進行鑒定、進行哪方面的鑒定、如何進行鑒定等。
4.3.1 動態(tài)網頁捕獲問題
網頁歸檔采集的都是靜態(tài)網頁,并不能采集動態(tài)網頁資源。為了更加全面的保存網頁信息,網頁歸檔項目做了一些嘗試:我國ODBN項目基于鏈接技術實現網絡數據庫的分類導航,可以實現5 000個數據庫的檢索,但后期并未呈現成果;法國國家圖書館(BnF)挑選網站并與版權所有者達成協(xié)議,由版權所有者資源通過FTP或者是實體介質(CD或DVD)呈繳給BnF,之后工作人員對這些資源進行校驗并添加元數據[26],但這種人工采集著錄的方式十分低效,后期開發(fā)了DeepArc,將關系型數據庫導出為XML模式; Pandora項目針對深層網頁研發(fā)出Xinq工具,但也只是將數據放到通用接口。
社交媒體需要用戶登陸進行身份驗證,需要關注其他賬號才能獲取信息,是一種簡單的動態(tài)網頁。Twitter存檔項目前期由于平臺主動捐贈信息,直接跳過了資源采集階段,無需收割軟件,這種合作機制一定程度上可以解決動態(tài)網頁的問題。ARCOMEMCrawler 采用基于 RESTAPI 的應用程序接口技術獲取來自Twitter、Facebook、Flickr、Google+ 、YouTube 等社交媒體的信息[27],并通過App Key復用方法與多線程采集方法的結合使用實現捕獲的社交媒體信息 URLs的序列管理[28]。ARCOMEM項目實現了技術的突破,克服了動態(tài)網頁的障礙,通過線上過程、線下過程、交叉采集實現對社交媒體信息的采集。社交媒體文件歸檔如果要可持續(xù)進行,必然要借鑒這種技術,或者研發(fā)新技術,實現動態(tài)網頁的捕獲,并加快網頁歸檔的進程。
4.3.2 新技術的利用問題
社交媒體歸檔數據十分龐大,傳統(tǒng)的光盤和磁介質存儲已經不能滿足存儲需求,谷歌、亞馬遜、阿里巴巴、騰訊、百度等公司提供云計算、云存儲服務,社交媒體文件歸檔可以租賃上述公司提供的云服務。檔案館或者圖書館運用云存儲技術不但可以使海量信息有處可存,也可以避免大量投入資金購買設備和技術。
社交媒體文件歸檔需要采集軟件進行不間斷的采集,大量的積累性數據為數據挖掘提供了無限可能。英國網頁歸檔項目利用數據挖掘技術提供三項可視化服務: 為 Web Archive中的短語或詞生成 N-Gram、標簽云和3D 墻[29]。此外,社交媒體信息具有動態(tài)性、交互性、碎片化特征,同一社會事件的多條不同類型的消息及時匯集才能拼湊出全貌。只有運用數據挖掘工具對大量零散數據進行相關分析,制定社交媒體事件專題,才能為用戶提供更加便捷的利用,節(jié)約用戶時間和精力,更好地輔助決策,為社交媒體信息賦予更大的價值。
國外網頁歸檔項目都有法律支持,版本法、呈繳法以及圖書館法規(guī)定在線出版物以及網絡出版物的呈繳問題、規(guī)定圖書館收割公共信息的權利,而國內網頁信息資源的呈繳缺乏法律支持。社交媒體文件主體多元,如果公共檔案館、圖書館對本地區(qū)大事件進行采集,必然會涉及政務微博、企業(yè)微博、知名微信公眾號、大V等的微博、微信,采集需要取得主體同意。對政務微博、政務微信進行采集,評論也是重要的組成部分,但評論是個人信息,需要征求個人同意。如果逐個爭取賬號同意,費時費力??梢酝ㄟ^“信息自決權”的方式,由信息的發(fā)布者決定其發(fā)布在社交媒體的信息是否要保存、公開,存儲期限是多久,來解決版權和個人隱私的保護問題。
社交媒體信息的時效性、交互性、多媒體性、超鏈接性、多元性、即時性等特征決定了它雖然與網頁歸檔同是網絡資源長期保存,但是卻不同于網頁歸檔。雖然歸檔流程相似,社交媒體歸檔可以借鑒網頁歸檔的相關管理、技術經驗,但絕不是復制經驗。社交媒體文件歸檔需要更加廣泛以及深入的機構間合作、更加高端的技術支持、更加完備的法律規(guī)范、更加優(yōu)化的歸檔流程以及更多民眾的配合,才能處理好復雜的主體關系、有序采集海量信息、提供便捷高效的利用。
(來稿時間:2018年1月)