涂海麗唐曉波
(1.武漢大學(xué)信息管理學(xué)院 湖北武漢 430072)
(2.東華理工大學(xué)經(jīng)濟與管理學(xué)院 江西撫州 344000)
·交流與探索·
對社會化媒體資源長期保存的思考*
涂海麗唐曉波
(1.武漢大學(xué)信息管理學(xué)院 湖北武漢 430072)
(2.東華理工大學(xué)經(jīng)濟與管理學(xué)院 江西撫州 344000)
社會化媒體是給予用戶極大參與的網(wǎng)絡(luò)媒體,社會化媒體資源指的是所有形式的社會化媒體工具、網(wǎng)站,以及其中多數(shù)由用戶生成的信息內(nèi)容。文章在借鑒現(xiàn)有國內(nèi)外理論研究與實踐探索的基礎(chǔ)上,結(jié)合社會化媒體資源不同于一般網(wǎng)絡(luò)資源的特性,從社會化媒體資源保存的必要性、資源的選擇、保存主體、保存方法及保存過程中要注意的問題等方面進行探討,提出對用戶產(chǎn)生內(nèi)容進行加工后保存、讓平臺運營商參與保存、利用云存儲等技術(shù)、廣泛開展合作聯(lián)盟、妥善解決法律及成本等問題的觀點,為社會化媒體這一特殊網(wǎng)絡(luò)資源的長期保存與有效利用提供參考。
社會化媒體數(shù)字資源長期保存
社會化媒體是依賴Web2.0發(fā)展起來的給予用戶極大參與空間的工具和平臺。在社會化媒體上,人們可以隨時隨地發(fā)布最出現(xiàn)的新鮮事,自由分享意見、觀點及經(jīng)驗。目前,社會化媒體呈現(xiàn)形式越來越多樣化,出現(xiàn)了滿足不同用戶群體個性化需求的平臺或工具,權(quán)威咨詢公司CIC將社會化媒體分為“基礎(chǔ)功能網(wǎng)絡(luò)”(如在線百科、博客等)、“核心網(wǎng)絡(luò)”(如微博、社交網(wǎng)站、即時通信、視頻/音樂分享、論壇、消費評論等)、“增值衍生網(wǎng)絡(luò)”(如社會化電子商務(wù)、社交游戲、社會化搜索等)和“新興/細分網(wǎng)絡(luò)”(如圖片分享、商務(wù)社交、婚戀交友、輕博客、在線旅游等)四大類。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)的最新統(tǒng)計,截止2014年6月,我國即時通信用戶達到5.64億,占整個網(wǎng)民用戶的89.3%;博客/個人空間用戶達到4.44億,占整個網(wǎng)民用戶的70.3%;微博用戶達到2.75億,占整個網(wǎng)民用戶的43.6%;社交網(wǎng)站用戶達到2.57億,占整個網(wǎng)民用戶的40.7%;論壇/BBS用戶達到1.24億,占整個網(wǎng)民用戶的19.7%。社會化媒體資源是指所有形式的社會化媒體工具、網(wǎng)站平臺以及這些工具、平臺上的信息內(nèi)容。它僅包括:技術(shù)資源和內(nèi)容資源。社會化媒體工具、平臺承載了其構(gòu)建的技術(shù)、程序,是開發(fā)人員集體智慧的結(jié)晶,稱為技術(shù)資源;而社會化媒體上的信息內(nèi)容大部分是用戶生成內(nèi)容,也包含相關(guān)機構(gòu)發(fā)布的信息,如社會化媒體建設(shè)機構(gòu)、其他媒體或經(jīng)濟實體,信息內(nèi)容多樣化,包括文字、圖片、聲音、視頻等多媒體信息,多數(shù)以非結(jié)構(gòu)形式存在,稱為內(nèi)容資源。社會化媒體資源屬于一種網(wǎng)絡(luò)數(shù)字資源,具有種類繁多、產(chǎn)生速度快、體量大、價值稀疏的特點。近二十年來,數(shù)字資源長期保存的問題一直是圖書情報領(lǐng)域的熱點問題,學(xué)者們圍繞著哪些數(shù)字資源應(yīng)該保存、如何保存、由誰保存、長期保存存在的問題及挑戰(zhàn)等問題展開了深入研究。隨著社會化媒體對用戶和研究者影響的逐步深入,以及社會化媒體資源不同于一般媒體及網(wǎng)站資源的特點,社會化媒體資源的長期保存問題值得關(guān)注,但是是否有必要保存?是否都保存?由誰保存?如何對社會化媒體資源進行長期有效保存以方便利用?保存過程要解決哪些問題?這都是需要面對的重要問題。本文試圖借鑒前人理論與實踐研究,結(jié)合社會化媒體資源的特性,對社會化媒體資源長期保存的必要性、資源的選擇、保存主體等問題提出一些看法。
社會化媒體資源保存是數(shù)字資源長期保存的一個前沿課題,研究范圍涵蓋了采集,管理,保存和社交媒體的可用性等方面。Nikos Kasioumis等認為對于博客信息的收集和存檔,關(guān)鍵是要建立系統(tǒng),并介紹了建立一個具有強大的數(shù)字化保存、管理和傳播功能的新的博客保存平臺的工作進展,這個平臺將為任何個人和組織博客提供保存服務(wù)。Michael L.Nelson等提出使用網(wǎng)絡(luò)基礎(chǔ)設(shè)施固有保存網(wǎng)頁的功能及信息檢索方法來保存網(wǎng)頁,以減少資源選擇的糾結(jié),并指出這只是現(xiàn)有存檔方法的補充,而不是替代。Donghee Sinn和Sue Yeon Syn認為社交網(wǎng)絡(luò)上個人用戶豐富的生活記錄保存問題給檔案工作者提出了一個重要的研究課題。文章以Facebook為研究對象,通過網(wǎng)絡(luò)調(diào)查,了解了Facebook如何展現(xiàn)用戶及其日常生活,用戶是否將Facebook作為個人數(shù)字存檔的工具及其原因。結(jié)果表明,對Facebook的態(tài)度和在Facebook上的活動是用戶選擇保存?zhèn)€人文件和個人存檔行為的主因。最后討論了專業(yè)存檔機構(gòu)在網(wǎng)絡(luò)個人數(shù)字資源保存中的作用。Catherine C.Marshall指出博客和在線銀行帳戶、個人網(wǎng)站、電子照片及個人電腦文檔一樣,屬于個人的數(shù)字化資產(chǎn)。這類個人數(shù)字資源有必要保存以備將來使用,但歸檔面臨資產(chǎn)價值的識別、便于存取等眾多挑戰(zhàn)。國內(nèi)鮮見直接關(guān)于社會化媒體資源長期保存的研究,從理論研究來看,大部分文獻將社會化媒體資源作為網(wǎng)絡(luò)資源的一部分來研究網(wǎng)絡(luò)資源長期保存的問題。文獻[8-10]介紹了國外網(wǎng)絡(luò)資源長期保存及其對我國的啟示。文獻[11-13]對網(wǎng)絡(luò)資源采集與保存的技術(shù)及方法進行了探討。一些少數(shù)文獻則直接研究社會化媒體的典型代表,如微博、博客的長期保存問題。文獻[14]論證了微博信息長期保存的價值。文獻[15]運用專家調(diào)查法,從微博長期保存的原因、面臨的威脅、保存的費用、保存的職責(zé)四個方面對微博長期保存的可行性進行調(diào)查。調(diào)查發(fā)現(xiàn)“微博能夠為數(shù)據(jù)挖掘提供條件”、“其潛在的經(jīng)濟價值”這兩個因素構(gòu)成了微博長期保存的主要動力。并指出微博信息的長期保存工作存在產(chǎn)權(quán)糾紛與保存技術(shù)難題、費用與保存機構(gòu)難定兩大障礙,需要相關(guān)各方共同參與,并提出圖書館要積極主動地承擔(dān)保存職責(zé)。文獻[16-18]研討了博客保存的現(xiàn)狀、困境與對策。
從以上相關(guān)文獻的回顧可以看出,到目前為止,大部分學(xué)者把社會化媒體中的典型類型,如微博、博客、即時消息等看成是個人資產(chǎn)或網(wǎng)絡(luò)資源的一種形態(tài),而采取像其它個人資產(chǎn)或網(wǎng)絡(luò)資源一樣的保存策略,鮮有學(xué)者將社會化媒體資源作為網(wǎng)絡(luò)資源的特例單獨開展長期保存的研究,雖然社會化媒體資源在資源形式、資源的構(gòu)建等方面有一般網(wǎng)絡(luò)資源的共性,但也有其資源內(nèi)容產(chǎn)生、生命周期上獨特的個性,這必將給網(wǎng)絡(luò)資源長期保存帶來更大的挑戰(zhàn)。
3.1 社會化媒體資源是否有必要長期保存
社會化媒體資源是否有必要保存的問題是近年來數(shù)字資源長期保存研究領(lǐng)域爭論的焦點之一。否定者認為,社會化媒體上的信息大多由用戶生成,主要是記錄日常生活的瑣事、所感、所想、對時事的評論,價值稀疏,信息質(zhì)量良莠不齊,這些內(nèi)容沒有保存的必要。另外一些專題知識,分布廣泛,更新速度快,而且重復(fù)、無序內(nèi)容較多,很難收集和辨別源頭,不易保存。研究機構(gòu)Pearanalytics對Twitter的抽樣調(diào)查顯示,有40.5%的信息沒有價值。MarketWatch網(wǎng)站科技專欄作家John C.Dvorak總結(jié)了Twitter作為新聞源有報道片面、缺乏分析等七大不足?!稄V州日報》載文稱,微博已經(jīng)從一個社交平臺變成許多垃圾信息、八卦、惡搞甚至謠言的集散地。央視《朝聞天下》欄目就曾報道了微博造假現(xiàn)象,引發(fā)了網(wǎng)民熱議。一些信息技術(shù)專家也認為,博客隨網(wǎng)絡(luò)產(chǎn)生,保存意味著脫離產(chǎn)生背景,在保存條件不具備情況下,沒有保存的必要。
認為微博等社會化媒體資源有必要保存主要從其保存價值角度進行論證。歷史學(xué)家Dan Snow認為,正是博客中記錄的那些瑣碎、枯燥的細節(jié)對幾百年后的人們來說才意義非凡。美國國會圖書館認為Twitter的價值主要有三:直接提供因Twitter引發(fā)的事件的第一手資料,可稱為一個新聞聚合發(fā)布器,記錄當(dāng)時普通人的社會生活。有人從“生產(chǎn)成本”降低這點推算有意愿寫有價值微博的人是博客的4倍,加上“消費成本”的降低,認為微博的傳播力是博客的200倍。從這個意義上來說,由博客進化而來的微博應(yīng)比博客具有更大的保存價值。西方國家對微博的研究價值已經(jīng)有所認識,并已開展保存工作。OCLC董事會主席Larry P.Alford稱收集社會媒體信息是學(xué)術(shù)圖書館的使命之一。我國學(xué)者徐寬、任河認為微博等社會化媒體上個人發(fā)布的信息由于是“未經(jīng)證實、非正式、效用價值難確定”的信息,嚴(yán)格來講不在長期保存之列,但部分內(nèi)容對公眾產(chǎn)生了很大影響,客觀反映了一段歷史時期的社會狀態(tài)和現(xiàn)實,具有時代感,也可列為記錄歷史的內(nèi)容,需要保存下來。筆者同意這些觀點,同時認為:社會化媒體資源作為一種凝聚了開發(fā)者和用戶智慧的有用數(shù)字資源應(yīng)該長期保存下來,正是因為社會化媒體的信息大多由用戶生成,給予了用戶極大自由表達對社會現(xiàn)象所持觀點的權(quán)力,留下了一個時期內(nèi)的歷史記憶,雖然價值稀疏,但可以通過人工智能等手段發(fā)掘其重要價值,發(fā)現(xiàn)其運動規(guī)律,這將給企業(yè)更好了解顧客需求及學(xué)術(shù)研究提供重要情報;由于社會化媒體的開放性和易用性,一些重要新聞或熱點可以第一時間在微博、微信等社會化媒體工具上實時發(fā)布和進展跟蹤,便于找到信息發(fā)布的源頭,為后續(xù)溯源及可能涉及的法律糾紛提供憑證;一些專題知識,如百科知識,正是由于在線用戶的貢獻,使得知識內(nèi)容更加完善,也正是由于社會化媒體這個開放平臺,使得知識共享和知識的獲取變得更加容易,這些珍貴的資源不能因為難以保存而丟棄,而應(yīng)該盡快解決保存的技術(shù)問題。總之,社會化媒體第一次將全人類聚集在一起去分享自己的知識,凝聚了全人類的智慧,對后世來說是一筆重要的數(shù)字文化遺產(chǎn),但社會化媒體資源更新速度太快,生命周期極短,如果不對社會化媒體資源進行長期保存,將永無再現(xiàn)機會,對我們及后世造成無法彌補的缺憾。
3.2 是否所有的社會化媒體資源都要保存
保存是為今后的利用服務(wù)的,沒有人能夠回答現(xiàn)在網(wǎng)絡(luò)上的哪些資源今后會用到,哪些資源絕對不會用到,這是擺在社會化媒體資源選擇面前的一大難題。趙俊玲認為,網(wǎng)絡(luò)信息資源缺少像文獻出版過程中期刊社這樣的一層過濾機制,一些重復(fù)的、低俗的、甚至垃圾信息充斥著網(wǎng)絡(luò),因此網(wǎng)絡(luò)信息資源的保存不得不面臨資源選擇的問題。網(wǎng)絡(luò)資源保存研究的學(xué)者們對于保存哪些網(wǎng)頁的問題各持見解,統(tǒng)一的認識是保存重要的網(wǎng)頁,但是哪些網(wǎng)頁重要本身不好判斷。有的學(xué)者認為為了不遺漏重要信息,應(yīng)該盡量多、大范圍地保存各種形式網(wǎng)頁。徐寬、任河提出數(shù)字資源保存的內(nèi)容要具備客觀性、科學(xué)性、原創(chuàng)性、代表性和可操作性的要求,并進一步將長期保存的網(wǎng)絡(luò)資源劃分為科學(xué)數(shù)據(jù)類、公共記錄類、技術(shù)設(shè)計類、共用軟件類、科學(xué)文獻類、原創(chuàng)文體類和私人發(fā)布類七大類。學(xué)者們的這些研究為社會化媒體資源的選擇提供了很好的借鑒,筆者認為,社會化媒體資源中的技術(shù)資源屬于技術(shù)設(shè)計類資源,應(yīng)該全部保存,存在爭議的是內(nèi)容資源。對于在當(dāng)時產(chǎn)生重大關(guān)注和影響的科學(xué)數(shù)據(jù)、事件、原創(chuàng)體、私人發(fā)布的內(nèi)容資源,由于轉(zhuǎn)載、復(fù)制、引用較多,應(yīng)該去重后保存;但用戶關(guān)注信息,如評論、跟帖等,由于體量大、價值稀疏,無需保存原始數(shù)據(jù),利用現(xiàn)在成熟的情報分析技術(shù)對這些信息進行價值挖掘,如情感分析、輿情分析、可視化分析等,對處理之后的二次信息進行分類與其處理技術(shù)進行保存,并進行后續(xù)的數(shù)據(jù)監(jiān)護、實時跟蹤數(shù)據(jù)變化,根據(jù)社會化媒體信息的生命周期特性進行周期性抽取、統(tǒng)計、匯總等處理之后進行保存。另外,可以利用一些網(wǎng)絡(luò)自動保存工具,按照規(guī)則要求,自動獲取和選擇要保存的資源。
3.3 社會化媒體資源由誰來保存
社會化媒體資源比其他數(shù)字資源更新速度更快,生命周期更短,量大異構(gòu),這就注定了其保存的難度,不是哪一個機構(gòu)能夠勝任的。縱觀包含博客、微博等網(wǎng)絡(luò)資源長期保存的實踐,可將保存主體分為三種類型:國家層面、組織聯(lián)盟和項目。國家層面一般由國家圖書館主導(dǎo),廣泛吸納檔案館、博物館、高校圖書館等機構(gòu)參與。如澳大利亞國家圖書館啟動的PANDORA項目2005年將博客納入長期保存的范圍;2010年,美國國會圖書館與Twitter簽訂協(xié)議,將Twitter平臺上所有公開信息長期保存。組織聯(lián)盟是在國際或區(qū)域合作前提下,形成以圖書館為主,檔案館、文化遺產(chǎn)保存單位等機構(gòu)參與的格局。像英國網(wǎng)頁歸檔聯(lián)盟UKWAC收集了幾十個博客,但僅對部分時期的部分博客內(nèi)容(不包括鏈接)歸檔;互聯(lián)網(wǎng)檔案館(美國的非贏利性組織)已經(jīng)保存了自1996年以來的550億份包含部分博客的網(wǎng)頁。項目形式的保存主要對網(wǎng)絡(luò)資源從保存策略、技術(shù)、方法等方面進行深入研究,一般都有基金支持,選取的保存對象體量有限,以提供研究實證數(shù)據(jù)為目的,提出的策略、方法等需要實踐的檢驗。如美國NDIIPP資助的Web at risk項目開發(fā)了網(wǎng)頁保存的WAS系統(tǒng)。目前,圖書館保存的大都是版權(quán)和產(chǎn)權(quán)明確的重要數(shù)字資源,而網(wǎng)絡(luò)環(huán)境下,數(shù)字資源可以無限轉(zhuǎn)載和復(fù)制,版權(quán)和產(chǎn)權(quán)不那么容易識別,因此圖書館數(shù)字資源保存模式在社會化媒體資源保存問題上受到新的挑戰(zhàn)。另外收集社會化媒體資源的工作是一項非常復(fù)雜的工作,涉及到用戶和網(wǎng)站,而用戶只管信息發(fā)布不管保存,網(wǎng)站是技術(shù)提供和用戶信息及用戶發(fā)布信息的保存者,可以說是網(wǎng)絡(luò)版權(quán)所有者,因此提供社會化媒體平臺的企業(yè)參與社會化媒體資源的保存顯得理所當(dāng)然。但是,社會化媒體平臺種類繁多,此起彼伏,誰能擔(dān)此重任呢?目前法律法規(guī)沒有明確界定,學(xué)術(shù)界也沒有統(tǒng)一看法。以美國數(shù)字信息保存特別工作組為代表的責(zé)任主體學(xué)派和以澳大利亞學(xué)者為代表的非責(zé)任主體學(xué)派都認為保存信息的主要責(zé)任者之一應(yīng)該是信息形成者。但是博客等社會化媒體的信息形成者多數(shù)為個人,依賴個人對社會化媒體資源進行保存顯然是不可行的。筆者認為,應(yīng)該由圖書館為主導(dǎo),吸納那些對社會化媒體資源保存的重要性有足夠的認識、有意向參與這項公益事業(yè)、數(shù)字保存技術(shù)有保障的網(wǎng)站平臺運營商參加。這些企業(yè)提供的網(wǎng)絡(luò)數(shù)據(jù)采集、云存儲及智能搜索等技術(shù),與現(xiàn)有的圖書館等已經(jīng)開展數(shù)字資源保存的機構(gòu)組成聯(lián)盟,分類保存、分工協(xié)作,共同承擔(dān)包含社會化媒體資源的網(wǎng)絡(luò)資源的長期保存工作。
3.4 如何收集、保存、利用
社會化媒體資源的長期保存不可避免地涉及數(shù)字資源的長期保存收集、保存和提供利用。在這些環(huán)節(jié)上,一些項目組或?qū)W者做過相關(guān)探索:荷蘭1995年啟動的DNEP項目,開啟了深層網(wǎng)絡(luò)資源繳送與長期保存的先河;美國的Internet Archive項目(網(wǎng)頁信息存檔)自1996年起就對全球可抓取的網(wǎng)頁定期收錄和進行長期分類保存,并開發(fā)了針對這些保存網(wǎng)頁的檢索系統(tǒng),現(xiàn)已與多家機構(gòu)合作共享,為公眾提供網(wǎng)頁全文檢索服務(wù);法國國家圖書館按網(wǎng)頁信息資源收集的難易程度采取的自動收集、手動收集、專題收集,并對收集的數(shù)據(jù)進行長期保存;英國的Archive Press項目在保存博客信息內(nèi)容上另辟蹊徑,開發(fā)基于網(wǎng)絡(luò)種子的保存模式,去除用戶不需要的網(wǎng)頁框架、色彩等內(nèi)容,選擇并整合博客信息內(nèi)容進行保存。David Tarrant提出了數(shù)據(jù)載體關(guān)聯(lián)保存的思想,并進一步指出用RDF和OWL技術(shù)構(gòu)建載體關(guān)聯(lián)可以減少數(shù)據(jù)冗余,為數(shù)據(jù)資源的載體保存提供了很好的思路。以上的繳送、分類保存、跨平臺信息檢索、自動收集、進行選擇整合保存、聯(lián)合保存和基于語義網(wǎng)技術(shù)的載體保存都給社會化媒體資源如何保存提供了很好的方法。由于社會化媒體資源分布的廣泛性和數(shù)量之多,無法用手工方式進行,因此自動采集工具、元數(shù)據(jù)、大容量存儲設(shè)備、搜索技術(shù)的開發(fā)和應(yīng)用是關(guān)鍵。Angela Dappert指出數(shù)字資源的保存依賴元數(shù)據(jù),元數(shù)據(jù)需要描述資源、組織需求、環(huán)境、行為等要素。云存儲技術(shù)可能是未來解決網(wǎng)絡(luò)數(shù)字資源長期保存的可行技術(shù)。2009年在華盛頓召開的“數(shù)字資源保存存儲架構(gòu)設(shè)計”會議上,F(xiàn)edora Commons、DuraSpace、Meta Archive、LOCK SS、Library of Congress等機構(gòu)的研究人員都提及云存儲研究??傊?,社會化媒體資源的保存需要平臺運營商的參與,與圖書館等機構(gòu)合作,分類分流保存,平臺運營商通過云平臺進行存儲,保存用戶信息、用戶生成信息、用戶隱私信息;進行用戶關(guān)注信息的二次處理;提供圖書館等機構(gòu)需要的資源和保存技術(shù)。其他機構(gòu)為輔,如國家圖書館、國家博物館,保存網(wǎng)站框架與技術(shù)信息,網(wǎng)上公開信息。保存和利用并重,隨時為國家安全機構(gòu)或國家統(tǒng)計機構(gòu)提供用戶總體信息和必要的個人及個人行為信息。另外,數(shù)據(jù)自動更新、遷移、仿真、數(shù)據(jù)再造(數(shù)據(jù)恢復(fù)與數(shù)據(jù)考古)、數(shù)據(jù)轉(zhuǎn)換等技術(shù)解決了資源受設(shè)備生命周期的影響而損毀的問題,也是在社會化媒體資源長期保存的維護過程中可以借鑒的方法。
3.5 如何解決保存中的法律、資金問題
商業(yè)網(wǎng)站及個人博客等都有自己的訪問權(quán)限,未經(jīng)授權(quán)私自抓取與保存,將面臨侵權(quán)控告的風(fēng)險。由于社會化媒體資源的數(shù)量多且分散,不像出版產(chǎn)品的創(chuàng)作者、制作者、保存者的角色那么明確,創(chuàng)作源頭難尋,知識產(chǎn)權(quán)所有者難以明確,使得征求網(wǎng)絡(luò)資源的創(chuàng)作者及版權(quán)所有者獲得公益保存權(quán)的難度太大,這就需要建立國內(nèi)的數(shù)字資源主動存繳機制,使社會化媒體資源保存工作順利開展?;ヂ?lián)網(wǎng)本身無國界,一國未經(jīng)他國允許擅自收集和保存他國網(wǎng)絡(luò)資源,將會面臨同樣的問題,而各國法律不一,跨國侵權(quán)將會使問題變得更加復(fù)雜和嚴(yán)重。需要爭取國際立法,在保護知識產(chǎn)權(quán)及版權(quán)的基礎(chǔ)上,給予為謀求長遠公共利益而非私自營利為目的數(shù)字資源長期保存機構(gòu)的正當(dāng)權(quán)利。另外,長期保存過程中也會遇到內(nèi)部安全管理不善和受黑客攻擊的威脅,因此保存過程中的安全問題也需要技術(shù)防范和法律支持。網(wǎng)絡(luò)資源的保存成本很高,2004年就有人做過分析,1TB的存儲設(shè)備需花2萬元,可以存發(fā)1億個網(wǎng)頁。Internet Archive項目組估算,光收集1T網(wǎng)絡(luò)資源需花費3,000美元。Gartner集團經(jīng)過預(yù)算認為購買設(shè)備的費用占數(shù)字資源保存總投入的三分之一,另有些人認為初期投入占總投入不到10%。初期購買設(shè)備的投入只是總投入的一小部分,后續(xù)的軟硬件更新、系統(tǒng)維護、數(shù)據(jù)監(jiān)護的費用將占絕大部分。經(jīng)費的預(yù)算和來源將是社會化媒體資源保存的又一大問題。英國的LIFE項目通過建立數(shù)字資源保存生命周期模型,研究數(shù)字資源保存的成本。丹麥借助于OAIS的數(shù)字資源長期保存過程模型來評價保存成本。社會化媒體資源的保存不僅要考慮保存過程中的成本還應(yīng)該計算數(shù)字資源二次加工及后續(xù)的維護成本。經(jīng)費的來源應(yīng)該學(xué)習(xí)國外的做法,像LOCKSS項目和Portico項目經(jīng)費均來自多個渠道,LOCKSS項目經(jīng)費來自梅隆基金、國家科學(xué)基金及聯(lián)盟成員經(jīng)費,Portico項目經(jīng)費來自梅隆基金、圖書館出版商年費、慈善機構(gòu)基金會及政府機構(gòu)資助。社會化媒體資源長期保存的經(jīng)費應(yīng)該來自互聯(lián)網(wǎng)企業(yè)、圖書館等成員經(jīng)費,還應(yīng)該爭取政府、慈善機構(gòu)資助,及收取其他資源使用企業(yè)或個人的年費或會員費。
社會化媒體資源是一種重要的網(wǎng)絡(luò)數(shù)字資源,是Web2.0技術(shù)應(yīng)用的產(chǎn)物,包括社會化媒體工具和網(wǎng)站,以及這些工具和網(wǎng)站上主要由用戶分享的信息內(nèi)容。社會化媒體資源凝結(jié)著在線媒體開發(fā)者和用戶的智慧,反映了這種新媒體時代的歷史印跡,是一種重要的數(shù)字文化遺產(chǎn),需要長期保存下來?,F(xiàn)有的保存策略是由圖書館將博客、微博等某些社會化媒體資源作為網(wǎng)絡(luò)資源進行長期保存,這勢必會遺漏一些重要的資源。本文認為:(1)應(yīng)該吸納有資質(zhì)的平臺運營商參與長期保存工作,與圖書館分工合作,互聯(lián)網(wǎng)企業(yè)提供自動采集技術(shù)、云存儲、智能搜索等技術(shù),負責(zé)用戶生成內(nèi)容的二次加工及保存,圖書館負責(zé)網(wǎng)站、工具及重要事件信息、原創(chuàng)網(wǎng)絡(luò)作品等的保存,雙方資源通過公共入口為用戶提供服務(wù)。(2)保存工作分數(shù)字資源采集、保存和使用三個方面的工作。參照已有的資源選擇標(biāo)準(zhǔn),運用自動采集工具加手動采集;運用云存儲技術(shù)開展保存工作;運用智能搜索技術(shù)進行資源的提供。(3)社會化媒體資源無國界,知識產(chǎn)權(quán)、出版權(quán)、保存權(quán)三權(quán)分離,要使長期保存這種公益活動正常開展,就應(yīng)該尋求國際立法,明確規(guī)范保存機構(gòu)的權(quán)利、義務(wù)及守則。(4)社會化媒體資源保存保存需要巨額資金的支持,一方面要合理評估保存和維護成本,另一方面尋求政府、慈善機構(gòu)、使用者等多方面的資助。
[1]CIC中國社會化媒體格局圖2013[EB/OL].[2013-04-02].http://www.ciccorporate.com/index.phpoption=com_c ontent&view=article&id=1079&catid=84:archives-2013 &Itemid=194&lang=zh.
[2]第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].[2014-07-21].http://cnnic.cn/gywm/xwzx/rdxw/2014/ 201407/t20140721_47439.htm.
[3]Alexandra I.Cristea,Dimitrios Katsaros,annis Manolopoulos.Introduction to the special issue of the World Wide Web journal on“Social Media Preservation and Applications”[J].World Wide Web,2014,(17):691-693.
[4]Nikos Kasioumis,Vangelis Banos,Hendrik Kalb.Towards building a blog Volume preservation platform[J]. World Wide Web,2014,17,(4):799-825.
[5]Michael L.Nelson,F(xiàn)rank McCown,Joan A.Smith,etal. Using the web infrastructure to preserve web pages[J]. International Journal on Digital Libraries,2007,6,(4):327-349.
[6]Donghee Sinn,Sue Yeon Syn.Personal documentation on a social network site:Facebook,a collection ofmoments from your life[J].Arch Sci,2014,14:95-124.
[7]Catherine C.Marshall.Rethinking Personal Digital Archiving,Part 1:Four Challenges from the Field[EJ/ OL].[2014-05-20].http://www.dlib.org/dlib/march08/ marshall/03marshall-pt1.html.
[8]向菁,吳振新,司鐵英,等.國際主要Web Archive項目介紹與評析[J].國家圖書館學(xué)刊,2010,(1):64-68.
[9]傅澤平.PANDORA項目及其對網(wǎng)絡(luò)信息長期保存的啟示[J].情報雜志,2012,(5):172-175.
[10]郭紅梅,張智雄.歐盟數(shù)字化長期保存研究態(tài)勢分析[J].中國圖書館學(xué)報,2014,(2):120-127.
[11]羅倩,姜恩波.基于合作式的網(wǎng)站資源采集系統(tǒng)的建設(shè)[J].情報雜志,2011,(6):178-181,177.
[12]張智雄,林穎,吳振新,張曉林.數(shù)字信息資源長期保存技術(shù)體系研究[J].現(xiàn)代圖書情報技術(shù),2006,(4):2-7.
[13]王暢.網(wǎng)絡(luò)信息資源保存——基于多元層次描述的構(gòu)建方法探析[J].圖書情報工作,2010,(21):80-83.
[14]劉超,鄭建程.論微博信息的長期保存價值[J].圖書館論壇,2014,(6):101-105.
[15]廖璠,劉國敏.微博長期保存的可行性研究—基于德爾菲法的調(diào)查報告[J].圖書館論壇,2013,(2):45-49.
[16]謝春枝.博客長期存取的現(xiàn)狀和對策研究[J].圖書情報知識,2009,(6):81-86.
[17]謝春枝.博客資源長期存取的困境探析[J].圖書館論壇,2009,(4):96-99.
[18]郭紅梅,張智雄,劉振.網(wǎng)絡(luò)日志存檔研究現(xiàn)狀分析[J].圖書情報工作,2013,(12):143-148.
[19]Pearanalytics.Twitter Study[EB/OL].[2014-02-12]. http://www.pearanalytics.com/wp-content/uploads/2012/ 12/Twitter-Study-August-2009.pdf.
[20]MarketWatch.The seven flaws of Twitter[EB/OL].[2014 -01-04].http://www.marketwatch.com/story/as-newssource-twitter-has-seven-deadly-flaws.
[21]李光焱.微博還能搏動多久?[N].廣州日報,2011-03-23(C12).
[22]Catherine 0'Sullivan.Diaries,Online Diaries,and the Future Loss to Archives;or,Blogs and the Blogging BloggersWho BIog Them[J].The American Archivist,2005,68(1):53-73.
[23]ALA.Thousands blog for British Library[EB/OL].[2014-02-12].http://www.ala.org/Template.cfm%20Sec tion=news&template=/ContentManagement/Content Di splay.cfm&Content ID=140832.
[24]Library of Congress.The Library and Twitter:An FAQ[EB/OL].[2014-02-12].http://blogs.loc.gov/loc/2010/ 04/the-library-and-twitter-an-faq/.
[25]劉潔.微博在電視新聞節(jié)目中的運用[J].視聽界,2011,(3):61-63.
[26]Larry P.Alford.嚴(yán)丹,錢卓珺.把握當(dāng)下:為學(xué)術(shù)圖書館的未來而定義[J].圖書館雜志,2013,(7):4-8.
[27]徐寬,任河.數(shù)字資源長期保存的內(nèi)容價值判斷依據(jù)研究[J].圖書情報工作,2013,(13):72-75.
[28]趙俊玲.網(wǎng)絡(luò)信息資源長期保存初探[J].圖書館工作與研究,2006,(1):31-33.
[29]Online Australian Publications:Select ion Guidelines for Archiving and Preservation by the National Library ofAustralia[EB/OL].[2008-09-30].http://pandora.nla. gov.au/archived/select ionguidelines2003.htm l#s3.7.
[30]Library of Congress.Update on the Twitter Archive At the Library of Congress[EB/OL].[2014-01-04].http:// www.loc.gov/today/pr/2013/files/twitter_report_2013jan. pdf.
[31]About the Archive[EB/OL].[2008-09-30].http://info.webarchive.org.uk/about the archive.html.
[32]陳清文.網(wǎng)絡(luò)信息資源長期保存責(zé)任的研究[J].中華醫(yī)學(xué)圖書情報雜志,2006,(6):49-51.
[33]宛玲.國外數(shù)字資源長期保存的最新發(fā)展及對我國的啟示[J].中國圖書館學(xué)報,2004,(2):24-28.
[34]National Library of Prance.Digital legal deposit:four questions about Web Archiving at the BnF[EB/OL].[2011-09-23].http://wwv.bnf.fr/en/professionals/digital legal deposit/a digital legal depositweb archiving.html.
[35]Pen nock M.Archive Press:A Really Simple Solution to Archiving Blog Content[EB/OL].[2011-02-18]. http://www.cdlib.org/services/uc3/iPres/presentations/Pe nnockm.pdf.
[36]Tarrant D.Where the Semantic Web and Web2.0 Meet FormatRiskManagement:P2Registry[EB/OL].[2011-02-18].http://www.cdlib.org/iPres/presentations/Tarrant.pdf.
[37]Dappert A,F(xiàn)arquhar A.Implementing Metadata that Guides Digital Preservation Services[EB/OL].[2011-02-18].http://www.cdlib.org//services/uc3/iPres/present ations/Farquhar.pdf.
[38]Designing Storage Architectures for Dig ital Preservation[EB/OL].[2010-04-20].http://www.digital preservation.gov/news/e vents/other_meetings/storage09/index. htm l.
[39]Wheatley P.LIFE3:Predicting Long Term Preservation Costs[EB/OL].[2011-02-18].http://www.cdlib.org/iPre s/presentations/Wheatley.pdf.
[40]Kejser U B,Nielsen A B,Thirifays A.CostModel for Digital Preservation:Cost of Digital Migration[EB/ OL].[2011-02-18].http://www.cdlib.org/iPres/presentations/Kejser.pdf.
[41]What is LOCKSS Program[EB/OL].[2011-04-02].http://locks.standford.edu/lockss/home.
[42]Portico:A Digital Preservation and Electronic Archiving Service[EB/OL].[2011-04-02].http://www.Portico. org/digital-preservation/.
Thinking About the Long-term Conservation of Social Media Resources
Social media is online media w ith users involved greatly.Socialmedia resources refers to all form s of social media tools,sites,and information content that generated mostly by users.Drawing on domestic and international theory and practice and w ith the characteristics of social media resources in mind,the author discussed the necessity of social media resources conservation,choices of resource,saving subjects,preservation methods and issues in the preservation process,etc.It is proposed that user-generated content should be preserved after processing,Internet companies involve in the preservation,cloud storage technology should be used,relevant agencies should have extensive cooperation,and legal and cost issues should be properly resolved.
socialmedia;data resource;long-term conservation
G203;G253
:A
:1003-6938(2014)05-0112-06
涂海麗(1979-),女,武漢大學(xué)信息管理學(xué)院博士研究生,東華理工大學(xué)經(jīng)濟與管理學(xué)院講師;唐曉波(1962-),男,武漢大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師。
*本文系國家自然科學(xué)基金項目“社會化媒體集成檢索與語義分析方法研究”(項目編號:71273194)研究成果之一。
2014-09-10;責(zé)任編輯:魏志鵬