隨著互聯(lián)網(wǎng)軟硬件設(shè)施以及智能設(shè)備的普及,社交媒體在人類活動中得到越來越普遍的使用。社交媒體正形成海量信息,記錄人類形形色色的活動。為了保存人類活動的證據(jù),留存社會記憶材料和信息資源,社交媒體歸檔獲得檔案領(lǐng)域的關(guān)注,美國、英國、澳大利亞、加拿大、中國、韓國等都開始在政策與數(shù)字檔案館的建設(shè)方面進(jìn)行考慮,或已開展相應(yīng)的行動。
然而,社交媒體歸檔從技術(shù)、社會、文化、法律等方面給予檔案領(lǐng)域管理挑戰(zhàn),例如信息量大、互動性、超媒體、即時(shí)性造成的檔案化保存困難,所有權(quán)和隱私的鑒定與保護(hù)問題,缺乏和平臺服務(wù)提供商的合作以及無存檔機(jī)制等不利因素,但當(dāng)前在理論或?qū)嵺`上都沒有一套完善的方案。
本文一方面梳理全球社交媒體歸檔的主要進(jìn)展,呈現(xiàn)各國成果和經(jīng)驗(yàn);另一方面審視目前各國社交媒體歸檔面臨的主要問題,從中進(jìn)一步探討社交媒體歸檔改進(jìn)的關(guān)鍵點(diǎn)與未來的走向。
英國國家檔案館有著長久的網(wǎng)站歸檔歷史,業(yè)已形成龐大的網(wǎng)頁檔案庫,社交媒體信息也是其捕獲對象。它從2011年啟動針對社交媒體歸檔的兩年期項(xiàng)目,平臺為Twitter與YouTube,以賬戶為單位收集信息,收集對象僅限于英國核心政府機(jī)構(gòu),使用的是自主開發(fā)的、用于捕獲與提供利用社交媒體內(nèi)容的自動化工具。英國國家檔案館的社交媒體歸檔確保了收集的賬戶即便原始賬戶消失,其形成的內(nèi)容依然可用。
2014年,英國國家檔案館發(fā)布了第一批可在線利用的社交媒體檔案,包括幾千份原始視頻和超過65000的Twitter信息,主要內(nèi)容包括:內(nèi)閣辦公室、英國政府、國防部等51個(gè)政府機(jī)構(gòu)Twitter賬戶發(fā)布的信息,2012年奧運(yùn)會與殘奧會7類主題信息,38類政府機(jī)構(gòu)的視頻庫,2個(gè)2012奧運(yùn)會與殘奧會的視頻庫[1]。
2.2.1 聯(lián)邦政府機(jī)構(gòu)
與英國國家檔案直接歸檔政府機(jī)構(gòu)的社交媒體信息不同,NARA主要指導(dǎo)與監(jiān)督形成信息的聯(lián)邦機(jī)構(gòu)依據(jù)NARA和自身的規(guī)定歸檔,并發(fā)布了《社交媒體文件管理指南》,對捕獲、保管期限等做了相應(yīng)規(guī)定[2]。
依據(jù)NARA發(fā)布的《社交媒體白皮書》,截至2013年5月,美國聯(lián)邦疾病控制中心、農(nóng)業(yè)部、住建部、國務(wù)院、退伍軍人事務(wù)部、總務(wù)管理局、文件與檔案管理署、海軍、史密森學(xué)會、美國海岸警衛(wèi)隊(duì)、環(huán)保部等10余個(gè)聯(lián)邦機(jī)構(gòu)都各有其社交媒體歸檔政策,且已經(jīng)在開展相應(yīng)工作[3]。例如,美國聯(lián)邦疾病控制中心關(guān)于社交媒體信息的管理政策有《疾病控制中心社交媒體工具、指南和最佳實(shí)踐》《Twitter指南和最佳實(shí)踐》《Facebook 指南和最佳實(shí)踐》。
2.2.2 國會圖書館
與NARA主要關(guān)注聯(lián)邦政府機(jī)構(gòu)不同,國會圖書館收集的對象更為廣泛,包括社會組織、機(jī)構(gòu)、群體和個(gè)人所形成的信息,其目的主要是為未來的研究提供豐富的社會材料。2010年4月,美國國會圖書館和Twitter簽訂了一項(xiàng)協(xié)議,國會圖書館從協(xié)議生效起可獲得Twitter公司建立起即2006年到2010年4月的tweets檔案。國會圖書館起初的目標(biāo)是:獲取與保存2006年至2010年的tweets檔案;建立安全與可續(xù)的流程來接收和保存直到當(dāng)前的日常與持續(xù)的tweets流;建立迄今為止所有檔案的組織框架。到2013年1月,這些目標(biāo)得以實(shí)現(xiàn),國會圖書館擁有1700億條tweets,且持續(xù)增長[4]。
2.2.3 美國地方州
美國各州如亞利桑那、俄亥俄、紐約、北卡羅萊納、華盛頓、俄勒岡、德克薩斯、緬因、佛羅里達(dá)、馬薩諸塞也都在不同程度開展社交媒體歸檔項(xiàng)目,如,華盛頓州2011年頒布了《華盛頓州政府社交媒體應(yīng)用指南與最佳實(shí)踐》,從隱私、利用、服務(wù)協(xié)議、內(nèi)容的合法管理、安全、文檔保管等方面規(guī)范社交媒體賬戶的運(yùn)營與維護(hù);亞利桑那州在2012年發(fā)布的《公共機(jī)構(gòu)電子通訊、社交網(wǎng)絡(luò)與網(wǎng)絡(luò)文檔通用保管期限表》中規(guī)定社交網(wǎng)絡(luò)與網(wǎng)絡(luò)文檔的類型、保管期限以及保管的起始時(shí)間。此外阿拉巴馬州的檔案與歷史部門從2006年起就開始收集阿拉巴馬州檔案機(jī)構(gòu)的Facebook頁面、阿拉巴馬州的美國國會代表和參議院的twitter、州政府機(jī)構(gòu)的YouTube視頻等。
澳大利亞國家檔案館同樣關(guān)注社交媒體歸檔,但目前政策比較簡單。澳大利亞國家檔案館認(rèn)為社交媒體形成了新類型文件,各聯(lián)邦機(jī)構(gòu)有義務(wù)管理好這些文件,并發(fā)布了《使用社交媒體工具過程中的文件管理事宜》,主要從如下方面提示聯(lián)邦機(jī)構(gòu)應(yīng)當(dāng)注意的文件管理問題:如何管理存儲于第三方的信息、如何確保捕獲的是準(zhǔn)確和真實(shí)的文件、機(jī)構(gòu)與使用社交媒體的雇員捕獲社交媒體文件卻不能滿足于動態(tài)變化的社交媒體時(shí)有哪些職責(zé)、哪些互動類的信息需要捕獲、是否需要保存所有的活動信息[5]。同時(shí),澳大利亞國家圖書館收集所有澳大利亞中央政府機(jī)構(gòu)的網(wǎng)絡(luò)檔案(AGWA),社交媒體文件也是其中收集的對象。
社交媒體在中國有著極其廣泛的用戶群,政務(wù)微博與微信已建成當(dāng)前中國最大的網(wǎng)絡(luò)議政廳。依據(jù)檔案事業(yè)發(fā)展“十三五”規(guī)劃,為了提升電子檔案管理水平,核心任務(wù)之一就是要研究制定重要網(wǎng)頁資源和社交媒體文件的歸檔管理辦法。可以看出,中國的社交媒體歸檔也開始進(jìn)入行動之中,亟待政策、技術(shù)、專業(yè)等方面的支持。
社會的營利或非營利的非官方機(jī)構(gòu)同樣參與或協(xié)助收集網(wǎng)絡(luò)信息。Internet archive是典型代表,作為非營利機(jī)構(gòu),它一方面幫助留存社會信息資源與文化遺產(chǎn),至2016年就建立20年的Internet archive已為網(wǎng)絡(luò)保存了4450億的網(wǎng)頁,總量達(dá)到23PB,社交媒體平臺Twitter、Facebook與YouTube的網(wǎng)頁抓取量是2015年最高的15個(gè)網(wǎng)站中的3個(gè)。另一方面,Internet archive也協(xié)助社會組織、機(jī)構(gòu)、群體與個(gè)人歸檔保存所需網(wǎng)絡(luò)信息滿足個(gè)性化需求,開發(fā)了頗為廣泛的應(yīng)用工具archive-it幫助個(gè)人與機(jī)構(gòu)歸檔社交媒體[6]。
從當(dāng)前全球的社交媒體歸檔行動來看,工作已經(jīng)取得一定成效,具體來說:
第一,從內(nèi)部的電子系統(tǒng)轉(zhuǎn)向更加開闊的互聯(lián)網(wǎng)平臺,拓展了檔案職業(yè)陣地。盡管互聯(lián)網(wǎng)歸檔已有20年左右的歷史,但各國檔案領(lǐng)域參與的深度與影響力有限,其他信息行業(yè)如圖書館、信息技術(shù)部門或是第三方機(jī)構(gòu)都有更豐富的實(shí)踐。社交媒體是當(dāng)前互聯(lián)網(wǎng)的主流應(yīng)用之一,是主導(dǎo)互聯(lián)網(wǎng)的web 2.0技術(shù)與理念的典型代表,對社交媒體的歸檔可以說是從互聯(lián)網(wǎng)的核心開啟檔案領(lǐng)域的新工作,改變此前參與有限的被動狀態(tài)。
在互聯(lián)網(wǎng)的驅(qū)動下,人類社會正面臨數(shù)字轉(zhuǎn)型帶來的社會、文化、技術(shù)挑戰(zhàn),從社交媒體入手,探索在開放、互動、動態(tài)、異構(gòu)化、參與的環(huán)境中如何重塑數(shù)字文件形成、保存與開發(fā)利用流程,檔案領(lǐng)域管理對象、管理主體、管理方式等核心要素如何變化。具體來說,在社交媒體歸檔過程中,涉及歸檔范圍與標(biāo)準(zhǔn)、捕獲方式與技術(shù)、歸檔信息整合、歸檔信息長期保存與可信性維護(hù),以及歸檔信息資源智能開發(fā)與利用等問題,這些問題的探討本質(zhì)上就是在新的數(shù)字環(huán)境中推動檔案理論、方法論以及實(shí)踐的創(chuàng)新。
一方面,通過歸檔行動保管一定數(shù)量的社交媒體信息,為社會、組織與個(gè)人留存開展活動的證據(jù)與記憶材料,形成具有豐富價(jià)值的信息資源庫;另一方面,由此形成的一系列政策、指南與經(jīng)驗(yàn)報(bào)告,都可為后續(xù)的社交媒體歸檔行動乃至其他國家地區(qū)的實(shí)踐提供借鑒。例如,NARA基于十?dāng)?shù)個(gè)聯(lián)邦機(jī)構(gòu)的社交媒體歸檔實(shí)踐經(jīng)驗(yàn)所發(fā)布的《社交媒體白皮書》,從政策、方法、工具與注意事項(xiàng)上提供了諸多可借鑒之處。
盡管全球的社交媒體歸檔有一定成果,但在對象、方式、主體,或是人文、管理與技術(shù)層面都還存在很多不確定性,歸結(jié)起來就是誰來管、管什么、怎么管以及如何落實(shí)這些構(gòu)想的問題。
確定社交媒體歸檔收集范圍前,要明確兩個(gè)問題:第一,關(guān)于政府類社交媒體信息的互動類信息中,完整性如何界定,一份主體信息下的評論是否是完整信息的一部分?英國國家檔案館并不捕獲用戶評論;然而,不少機(jī)構(gòu)或?qū)W者如澳大利亞國家檔案館認(rèn)為互動類信息應(yīng)當(dāng)考慮歸檔。另一方面,如果考慮歸檔互動類信息,那么哪些要捕獲、有什么標(biāo)準(zhǔn),是根據(jù)內(nèi)容質(zhì)量、主題還是形成者來判定?
第二,關(guān)于政府類社交媒體以外的其他組織、社區(qū)、個(gè)人等形成的信息。社交媒體為人類提供了即時(shí)記錄生活與工作的平臺,形成的是許多有價(jià)值的信息資源和反映人類社會的證據(jù)與記憶材料,有著歸檔的必要性。那么,這些信息由誰歸檔、政府是否有權(quán)歸檔、如何歸檔、如何管理?
行動的落實(shí)在很大程度上需要系統(tǒng)機(jī)制的保障。當(dāng)前,社交媒體歸檔相關(guān)制度并不完善,法律、標(biāo)準(zhǔn)、政策、指南等的缺失現(xiàn)象較為嚴(yán)重,很多問題沒有妥善的預(yù)案予以解決,甚至無指導(dǎo)性的意見。即便是較早出臺社交媒體指南的NARA,在很多歸檔問題上并無定論。例如,在保管期限的設(shè)定上,NARA建議在現(xiàn)有保管期限表中查得的部分則依據(jù)現(xiàn)有規(guī)定,未能查得的部分則先設(shè)為永久,待新規(guī)定出臺后再重新設(shè)定[7]。
因此,為深入指導(dǎo)未來的社交媒體歸檔,需要建立系統(tǒng)的機(jī)制予以保障,主要包括:統(tǒng)籌全局的頂層設(shè)計(jì),從戰(zhàn)略層面定位社交媒體歸檔的目標(biāo)與其主要構(gòu)件;社交媒體歸檔的行動計(jì)劃,指導(dǎo)實(shí)現(xiàn)目標(biāo)的實(shí)施路徑,基于目標(biāo)設(shè)定分目標(biāo),在每個(gè)分目標(biāo)下分配所需行動及行動時(shí)間;配套相應(yīng)的實(shí)施性指南,提供每個(gè)行動的指南和標(biāo)準(zhǔn),從而保證每個(gè)管理流程有明確的制度可參照執(zhí)行,包括收集范圍設(shè)計(jì)、捕獲、分類、保管期限設(shè)定、整合等一系列環(huán)節(jié)。
社交媒體歸檔往往要求不同主體協(xié)同合作完成,檔案館、圖書館、信息組織等記憶機(jī)構(gòu)的協(xié)作,公眾的參與,社交媒體服務(wù)提供商的支持等都是協(xié)同合作的方式,因此社交媒體歸檔項(xiàng)目受任務(wù)量和復(fù)雜性的不同需要不同相關(guān)利益者的參與。社交媒體的信息往往是在開放與互動中形成,且是在形成主體之外的第三方平臺上,這些信息的歸屬權(quán)、管理權(quán)、處置權(quán)以及利用權(quán)都涉及不同的相關(guān)利益者。另外,這些信息的數(shù)量巨大,單獨(dú)某一類主體難以獨(dú)立完成歸檔及歸檔之后的長期保管與開發(fā)。因此,協(xié)同合作的參與模式理論上較為契合社交媒體歸檔需要。
然而,這種參與還需從理論設(shè)想到實(shí)踐中落地。目前,眾包在美國、英國、荷蘭等國對數(shù)字化資源的鑒定與著錄都有諸多實(shí)踐,但對數(shù)字原生信息的管理貢獻(xiàn)有限。從技術(shù)、管理、司法、人文等方面實(shí)現(xiàn)大眾參與尚有難度,例如,技術(shù)上如何實(shí)現(xiàn)群體的協(xié)同工作、管理上如何分配不同參與人員的權(quán)限與職責(zé)、司法上如何保障相關(guān)利益者的權(quán)益、人文上如何保證參與人員的社會性需求等。
社交媒體無論是信息的捕獲、有序整合還是技術(shù)鑒定都與技術(shù)息息相關(guān),技術(shù)是將行動落實(shí)于實(shí)踐中的必然載體,也是當(dāng)前社交媒體歸檔要攻克的主要方向。
當(dāng)前,技術(shù)層面的問題主要涉及捕獲、整理以及開發(fā)利用。例如,在英國比較主流的方法是通過公共可獲取的API捕獲社交媒體信息,實(shí)現(xiàn)對內(nèi)容的精確裁剪,以滿足版權(quán)限制與用戶利用需求,并可連同元數(shù)據(jù)一同捕獲。但這些方法對Facebook卻不那么適用,英國國家檔案館至今無法歸檔其中央政府在Facebook上發(fā)布的信息。且一旦歸檔范圍要包含用戶評論,現(xiàn)有的捕獲工具又會面臨自動化升級的挑戰(zhàn)。而這些信息的捕獲只是歸檔的第一步,歸檔要求的有序化組織信息意味著如何通過技術(shù)將信息整合,海量的半結(jié)構(gòu)化信息的組織與語義挖掘則又是另一個(gè)技術(shù)難題,這也就是為什么國會圖書館在接收了千億條的信息后并不能提供這些信息的利用,原因就在于海量信息的整合存在困難。
在前端控制與全程管理的框架中,歸檔不是孤立的,還要為后續(xù)環(huán)節(jié)提供支持。作為過程性環(huán)節(jié),它涉及收集、鑒定、整理等,鑒定為歸檔選定了對象,保管期限設(shè)定、分類方案等使信息得以有序化。而此后的長期保管、利用等都是以歸檔時(shí)形成的信息體系為基礎(chǔ),無論是保管上的具體要求還是利用環(huán)節(jié)的管理,都將以歸檔時(shí)的分類體系或是背景信息作為參考。
因而,社交媒體歸檔要在前端設(shè)計(jì)好歸檔方案,在設(shè)計(jì)捕獲工具、捕獲對象、捕獲內(nèi)容、捕獲方式、整合原則時(shí)考慮未來的長期保管和開發(fā)利用中可能面臨的需求和問題,從而在前端奠定管理流程中無縫鏈接的基礎(chǔ)。
總而言之,社交媒體歸檔還有長遠(yuǎn)的探索路途,這為文件、檔案、信息等領(lǐng)域提供了極大的研究與實(shí)踐空間,有待各國與地區(qū)采取更多行動。當(dāng)前全球的社交媒體歸檔已有一定成效,但還需進(jìn)一步明晰管理要素、分辨面臨的挑戰(zhàn)和走向,從人文與技術(shù)層面構(gòu)建優(yōu)化管理體系。
注釋與參考文獻(xiàn):
[1]Josh Gerstein. Feds stalled plan to vet visa applicants through social media[EB/OL]. [2016-03-09].http://www.politico.com/blogs/underthe-radar/2015/12/feds-considered-vettingvisa-applicants-on-social-media-216899.
[2][7]National Archives and Records Administration. Bulletin 2014-12: Guidance on Managing Social Media[DB/OL]. [2016-09-09].http://www.archives.gov/records-mgmt/bulletins/2014/2014-02.html.
[3]National Archives and Records Administration. National Archives and Records Administration White Paper on Best Practices for the Capture of Social Media Records[DB/OL].[2016-09-09].http://www.archives.gov/recordsmgmt/resources/socialmediacapture.pdf.
[4]Erin Allen. Update on the Twitter Archive at the Library of Congress[EB/OL]. [2016-09-09]. http://blogs.loc.gov/loc/2013/01/updateon-the-Twitter-archive-at-the-library-ofcongress/.
[5]NAA. Records management issues to consider when using social media tools [EB/OL].[2016-09-09].http://www.naa.gov.au/recordsmanagement/agency/digital/socialmedia/index.aspx.
[6]Kalev Leetaru. How Much Of The Internet Does The Wayback Machine Really Archive?[EB/OL]. [2016-09-09].
[7]http://www.forbes.com/sites/kalevleetaru/2015/11/16/how-much-of-theinternet-does-the-wayback-machine-reallyarchive/#2715e4857a0b4edc16de88d4.