臧國(guó)全 趙佩端
(鄭州大學(xué)信息管理學(xué)院 鄭州 450001)
·專題研究·
社交媒體長(zhǎng)期保存的困擾*
臧國(guó)全 趙佩端
(鄭州大學(xué)信息管理學(xué)院 鄭州 450001)
與其他類(lèi)型數(shù)字資源相比,社交媒體有其自身的特殊性,對(duì)其實(shí)施長(zhǎng)期保存面臨諸多困擾:社交媒體收割的困擾,包括收割方式產(chǎn)生的困擾和收割邊界的困擾;社交媒體保存的困擾,包括社交平臺(tái)條款產(chǎn)生的困擾、保存技術(shù)的困擾、保存標(biāo)準(zhǔn)與內(nèi)容的困擾、保存實(shí)踐的困擾;社交媒體使用的困擾,包括侵權(quán)的困擾、用戶隱私的困擾和訪問(wèn)實(shí)踐的困擾。
社交媒體 數(shù)字保存 數(shù)字資源
社交媒體是基于因特網(wǎng)的一種應(yīng)用程序,基本功能是構(gòu)建用戶的交流平臺(tái)。實(shí)踐中,社交媒體包括不同類(lèi)型的網(wǎng)絡(luò)平臺(tái),主要有:社交網(wǎng)站(如Facebook 和QQ空間),用戶集體創(chuàng)作內(nèi)容網(wǎng)站(如YouTube和維基百科),產(chǎn)品和服務(wù)的營(yíng)銷(xiāo)網(wǎng)站(如Amazon和eBay)。盡管不同類(lèi)型社交平臺(tái)的功能存在一些差異,但用戶在線交流是基本功能,均產(chǎn)生交流內(nèi)容及其附加數(shù)據(jù),可供科研人員進(jìn)行數(shù)據(jù)挖掘,也可為商業(yè)企業(yè)提供消費(fèi)分析和市場(chǎng)研究,且后者的應(yīng)用越來(lái)越多,已經(jīng)形成一種商業(yè)運(yùn)作模式。
數(shù)字資源長(zhǎng)期保存系統(tǒng)主要包括數(shù)字資源獲取、數(shù)字資源保存和用戶訪問(wèn)三大模塊。同樣,社交媒體長(zhǎng)期保存也涵蓋社交媒體收割、社交媒體保存和用戶使用三個(gè)環(huán)節(jié),每個(gè)環(huán)節(jié)都存在一些困擾。
1.1 收割方式產(chǎn)生的困擾
與Web 1.0的網(wǎng)絡(luò)信息資源通常使用Web爬蟲(chóng)程序(如Heritrix)抓取不同,以Web 2.0展現(xiàn)的社交媒體,因其交互特征(常用JavaScript實(shí)現(xiàn)),導(dǎo)致對(duì)其實(shí)施收割需要不同的工具,采用不同的方法,且均產(chǎn)生一些困擾。
(1)應(yīng)用編程接口(API)
社交媒體平臺(tái)提供的API是社交媒體平臺(tái)與社交數(shù)據(jù)收割者之間的接口,定義對(duì)社交數(shù)據(jù)收割的規(guī)則,比如,F(xiàn)acebook的Timehop API[1]可定制收割一個(gè)用戶賬戶中每年特定一天的社交內(nèi)容。API的收割需要申請(qǐng),比如Twitter中,收割者需申請(qǐng),一旦申請(qǐng)被接受,API將與Twitter連接,收割連接之后產(chǎn)生的社交數(shù)據(jù),并轉(zhuǎn)換為結(jié)構(gòu)化的JSON格式提供給收割者。API的收割不僅包括社交內(nèi)容,還包括元數(shù)據(jù),比如,Twitter的API收割有用戶ID、用戶IP、用戶發(fā)出推文后的操作記錄(共享、愛(ài)好)等;Facebook的Graph API收割包括產(chǎn)生的評(píng)論;YouTube的API收割除了用戶發(fā)布的視頻外,還有描述視頻及其關(guān)聯(lián)的元數(shù)據(jù)。
API收割雖然提供了獲取社交數(shù)據(jù)的一個(gè)途徑,但也存在一些困擾,其中之一是限制收割的數(shù)據(jù)量,比如,Twitter的API收割量限制為總數(shù)據(jù)量的1%,且不公開(kāi)1%樣本量的抽取方法,導(dǎo)致收割者無(wú)法檢驗(yàn)獲取數(shù)據(jù)的代表性[2]。
(2)社交數(shù)據(jù)代理商和第三方服務(wù)
社交數(shù)據(jù)代理商一般是社交平臺(tái)的官方商業(yè)機(jī)構(gòu),提供采用API難以收割的數(shù)據(jù),比如,代理商Gnip提供Twitter的API無(wú)法收割的歷史數(shù)據(jù)(因?yàn)門(mén)witter 的API只收割用戶連接后的社交數(shù)據(jù)),甚至包括全部推文的收割服務(wù),但需付費(fèi),每月為2000美元,外加每1000個(gè)推文的傳遞費(fèi)0.1美元[3]。社交數(shù)據(jù)代理商還提供特定數(shù)據(jù)的收割,比如,代理商DataSift提供Twitter、Facebook和Youtube的主題數(shù)據(jù)收割(包括實(shí)時(shí)的和歷史的社交數(shù)據(jù)),銷(xiāo)售給品牌公司、金融市場(chǎng)、新聞機(jī)構(gòu)等進(jìn)行數(shù)據(jù)分析。
第三方服務(wù)是獨(dú)立于社交平臺(tái)和社交數(shù)據(jù)需求者的服務(wù)實(shí)體,通過(guò)協(xié)議向需求者提供社交數(shù)據(jù)收割。業(yè)已存在的第三方服務(wù)有兩類(lèi):一是商業(yè)服務(wù)項(xiàng)目,如ArchiveSocial[4],MirrorWeb[5],Erado[6],Gwava[7]等,專門(mén)從事社交數(shù)據(jù)收割,可根據(jù)用戶的需求提供個(gè)性化的定制收割服務(wù);二是公益性保存項(xiàng)目,如互聯(lián)網(wǎng)記憶基金會(huì)(IMF)和國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)的Web保存項(xiàng)目,將社交數(shù)據(jù)收割作為其中一項(xiàng)業(yè)務(wù)。
顯然,社交數(shù)據(jù)代理商和第三方服務(wù)提供的大都是商業(yè)服務(wù),用戶需要購(gòu)買(mǎi),且價(jià)格不菲。也有例外,比如,針對(duì)社交數(shù)據(jù)代理商DataSift收割的Twitter社交數(shù)據(jù),當(dāng)用戶的需求是包含特定關(guān)鍵詞或標(biāo)簽時(shí),只要目標(biāo)數(shù)據(jù)集不超過(guò)所有社交數(shù)據(jù)的1%,免費(fèi)提供;再比如,用戶可以從第三方服務(wù)的公益型保存項(xiàng)目中免費(fèi)訪問(wèn)社交數(shù)據(jù)。
(3)社交媒體平臺(tái)的用戶自存檔服務(wù)
自存檔是一些社交媒體平臺(tái)(如Facebook、谷歌和Twitter等[8])向用戶提供的下載其賬戶數(shù)據(jù)的備份服務(wù),但需用戶相應(yīng)設(shè)置。自存檔數(shù)據(jù)僅限用戶賬戶本身,不涉及其他賬戶內(nèi)容。如,F(xiàn)acebook只備份賬戶所有者發(fā)布的內(nèi)容和發(fā)送給所有者賬戶的內(nèi)容,以電子郵件方式郵寄給用戶一個(gè)結(jié)構(gòu)化的壓縮文件,且限定幾天內(nèi)下載,之后過(guò)期;谷歌的一些服務(wù)(Gmail、谷歌日歷、視頻群聊和YouTube)也提供自存檔功能[8]。
很明顯,這項(xiàng)服務(wù)針對(duì)單個(gè)用戶賬戶的社交數(shù)據(jù),收割范圍很有限。但對(duì)于機(jī)構(gòu)賬戶可能是一個(gè)有價(jià)值的選擇,可用來(lái)收割保存一個(gè)機(jī)構(gòu)中使用該公共賬戶產(chǎn)生的所有社交數(shù)據(jù)。對(duì)公眾人物,這項(xiàng)服務(wù)為建立個(gè)人社交檔案提供了一個(gè)解決方案。
1.2 收割邊界的困擾
目前為止,還未出現(xiàn)針對(duì)一個(gè)或多個(gè)社交平臺(tái)的所有社交數(shù)據(jù)進(jìn)行收割的實(shí)踐,已有的收割實(shí)踐都是專題性的,都存在收割邊界的界定問(wèn)題,但目前的界定實(shí)踐都存在一些困擾。
社交過(guò)程線程構(gòu)建的困擾。與傳統(tǒng)網(wǎng)頁(yè)不同,社交媒體的核心是用戶交流,一個(gè)完整的交流過(guò)程可稱為一個(gè)線程,但交流過(guò)程可能涉及多個(gè)用戶賬戶,且常常包含多個(gè)相關(guān)對(duì)話主題和事件,導(dǎo)致難以清晰界定一個(gè)交流過(guò)程的開(kāi)始和結(jié)束。已有的一些收割實(shí)踐很少考慮線程的建立,比如,北卡羅萊納州大學(xué)圖書(shū)館的社交媒體保存系統(tǒng)[9],依據(jù)該校的官方賬戶和與該校相關(guān)事件的標(biāo)簽,收割Twitter和Instagram社交平臺(tái)的相關(guān)數(shù)據(jù);愛(ài)爾蘭社交媒體保存項(xiàng)目[10],基于地理位置、關(guān)鍵詞和標(biāo)簽,使用Twitter API的收割工具,搜集與愛(ài)爾蘭相關(guān)的所有推文。這些項(xiàng)目都采用不同方法界定收割范圍,但都沒(méi)有考慮線程的構(gòu)建,常常會(huì)出現(xiàn)一個(gè)線程中的一些對(duì)話在收割范圍內(nèi),但其他對(duì)話在收割范圍外,導(dǎo)致無(wú)法完整收割一個(gè)線程中的所有對(duì)話,致使未來(lái)用戶使用的理解困難。
社交媒體收割策略的困擾。常用的收割策略之一是基于關(guān)鍵詞和標(biāo)簽,但在幾乎所有社交媒體中都沒(méi)有對(duì)用戶使用的關(guān)鍵詞和標(biāo)簽進(jìn)行規(guī)劃化處理,存在大量的一詞多義、多詞一義、詞義含糊現(xiàn)象,對(duì)識(shí)別社交內(nèi)容涉及的實(shí)體(人、地方、機(jī)構(gòu)、事件等)的標(biāo)簽也常存在拼寫(xiě)不同甚至錯(cuò)誤,一些術(shù)語(yǔ)常常變化,這些因素都會(huì)導(dǎo)致基于關(guān)鍵詞和標(biāo)簽的全面收割相關(guān)內(nèi)容的策略難以準(zhǔn)確設(shè)計(jì),且也無(wú)法過(guò)濾掉虛假數(shù)據(jù)、個(gè)別道德缺失的用戶傳播的僵尸數(shù)據(jù)和污染數(shù)據(jù),當(dāng)然對(duì)收割的數(shù)據(jù)進(jìn)行質(zhì)量控制是一個(gè)解決方法,但人工控制的成本較高,軟件控制的準(zhǔn)確度難以保障,且均未見(jiàn)報(bào)道。收割策略之二是基于用戶賬戶,但社交媒體的交流特征致使一個(gè)賬戶內(nèi)容常常與其他多個(gè)賬戶內(nèi)容產(chǎn)生關(guān)聯(lián),而這種關(guān)聯(lián)又是多維的、隨機(jī)的,很難對(duì)這種關(guān)聯(lián)進(jìn)行全面清晰的界定,導(dǎo)致基于賬戶的策略在空間維度上無(wú)法收割到全面相關(guān)數(shù)據(jù)。收割策略之三是基于時(shí)間段,同樣基于社交媒體的用戶交流屬性,這種策略無(wú)法在時(shí)間維度上收割全面的相關(guān)數(shù)據(jù)。收割策略之四是基于隨機(jī)抽樣,在科學(xué)研究中最常用,比如前述的Twitter的API 的1%收割抽樣率,顯然這種策略也存在大量數(shù)據(jù)漏收,且因均不公開(kāi)抽樣算法,無(wú)法驗(yàn)證抽樣的合理性。
語(yǔ)義環(huán)境收割的困擾。除了線程之外,社交數(shù)據(jù)的理解還需語(yǔ)義環(huán)境的支撐,但目前的實(shí)踐大都僅抓取社交媒體內(nèi)容,較少提供語(yǔ)義環(huán)境的元數(shù)據(jù)收割。比如Twitter的使用條款限制收割用于描述附加信息的元數(shù)據(jù),包括用戶地理位置、評(píng)論或轉(zhuǎn)發(fā)的用戶ID等。甚至,一些非文本社交內(nèi)容根本就沒(méi)有文本 信息,比如Instagram的照片和視頻收割,元數(shù)據(jù)的缺失導(dǎo)致這類(lèi)社交多媒體信息完全失去語(yǔ)義環(huán)境。還有,社交內(nèi)容中包含大量的超鏈,這些超鏈的對(duì)象內(nèi)容對(duì)社交媒體內(nèi)容的理解至關(guān)重要,甚至是內(nèi)容的重要組成部分,但社交平臺(tái)大都采用TinyURL[11]和 Bit.ly[12]壓縮URL,導(dǎo)致直接收割后超鏈的失效,當(dāng)然在收割過(guò)程中可以將其恢復(fù)為原始URL,但維護(hù)外部URL僅是短期保存的一個(gè)方案,確保內(nèi)嵌的外部對(duì)象內(nèi)容能夠被長(zhǎng)期有效訪問(wèn)的方法只有同時(shí)收割外部對(duì)象內(nèi)容并與社交內(nèi)容一起保存或建立兩者之間的鏈接,但目前這項(xiàng)實(shí)踐很少,唯一見(jiàn)到的報(bào)道是ARCOMEM 項(xiàng)目提供了該解決方案[13]。
全面收割相關(guān)內(nèi)容是社交媒體收割的一個(gè)挑戰(zhàn),剔除重復(fù)內(nèi)容則是社交媒體收割的另一個(gè)困擾。因?yàn)樯缃粌?nèi)容的轉(zhuǎn)載和群發(fā),導(dǎo)致無(wú)論采取何種收割策略,都會(huì)出現(xiàn)大量的重復(fù)內(nèi)容,若不及時(shí)剔除,保存系統(tǒng)可能存在大量冗余內(nèi)容致使存儲(chǔ)和檢索的困難。去重的一個(gè)有效方法是以推文ID為主線,確保收割的元數(shù)據(jù)和推文都與推文ID相連接。去重會(huì)刪除一些推文,但也會(huì)導(dǎo)致保存會(huì)話線程中一些推文的缺失。
社交媒體高度動(dòng)態(tài)性導(dǎo)致的社交內(nèi)容快速消失使對(duì)其進(jìn)行長(zhǎng)期保存尤為迫切。2015年,網(wǎng)絡(luò)歷史學(xué)家Peter Webste報(bào)告了社交內(nèi)容的消失速度,稱在英國(guó)Web Archive項(xiàng)目中保存的社交內(nèi)容,一年前保存的目前仍然在線且未變化的比例不到10%[14]。Salah和Nelson在檢查社交媒體信息的壽命后,發(fā)現(xiàn)發(fā)布后的第一年消失近11%,以后以每天0.2%的速度持續(xù)消失[15]。2014年,社交媒體用戶上傳到TwitPic數(shù)以百萬(wàn)計(jì)照片的可能被刪除引發(fā)人們的擔(dān)心,原因是Twitter要撤銷(xiāo)對(duì)Twitpic的API訪問(wèn)[16]。實(shí)際上,商業(yè)社交平臺(tái)都有自己的商業(yè)模式,重視當(dāng)前數(shù)據(jù)輕視歷史數(shù)據(jù),缺乏長(zhǎng)期保存的動(dòng)機(jī),社會(huì)沒(méi)有理由期望社交平臺(tái)對(duì)其社交數(shù)據(jù)的長(zhǎng)期可用性負(fù)責(zé)。
2.1 社交平臺(tái)條款產(chǎn)生的困擾
社交數(shù)據(jù)的收割比例和頻率條款導(dǎo)致的困擾。多數(shù)社交平臺(tái)允許通過(guò)其API收割社交數(shù)據(jù),但幾乎都在使用條款中限制了收割保存數(shù)據(jù)的比率和頻率??赡艿脑蚴巧缃黄脚_(tái)都是商業(yè)企業(yè),通過(guò)銷(xiāo)售用戶數(shù)據(jù)而獲利,為了保護(hù)企業(yè)利益,社交平臺(tái)必須確保數(shù)據(jù)的安全,采取的措施之一是API的使用方針,限制獲取數(shù)據(jù)的比例和請(qǐng)求頻率。這項(xiàng)條款對(duì)科學(xué)研究帶來(lái)困擾,因?yàn)榭茖W(xué)研究需要大量的社交數(shù)據(jù)樣本,方能得出有價(jià)值的結(jié)論,但社交平臺(tái)通過(guò)追蹤基于API訪問(wèn)請(qǐng)求的方式避免過(guò)度的數(shù)據(jù)訪問(wèn),否則就取消訪問(wèn)者的全部權(quán)限,導(dǎo)致科研活動(dòng)難以獲取充足的數(shù)據(jù)樣本。這項(xiàng)條款也對(duì)保存機(jī)構(gòu)帶來(lái)困擾,一般來(lái)說(shuō),保存機(jī)構(gòu)期望收割一個(gè)主題的完整社交數(shù)據(jù),比如一個(gè)城市、一個(gè)國(guó)家、一個(gè)持續(xù)發(fā)生的事件等,但這項(xiàng)條款導(dǎo)致這種期望難以實(shí)現(xiàn)。
社交數(shù)據(jù)的禁止出售、出租、租賃、再授權(quán)條款導(dǎo)致了困擾。不僅Twitter明確社交數(shù)據(jù)的禁止轉(zhuǎn)讓許可條款,F(xiàn)oursquare[17],Linked In[18]和You Tube[19]等也有類(lèi)似條款。該項(xiàng)條款限制了社交數(shù)據(jù)的保存方式,因?yàn)橐坏┍4鏅C(jī)構(gòu)收割了社交數(shù)據(jù),根據(jù)條款規(guī)定只能收割者進(jìn)行保存,不能轉(zhuǎn)移給第三方機(jī)構(gòu)(如其他保存系統(tǒng)、云存儲(chǔ)等),這對(duì)具有長(zhǎng)期保存需求但沒(méi)有條件建立本地保存系統(tǒng)的收割機(jī)構(gòu)帶來(lái)困境。這項(xiàng)條款也演繹出了社交數(shù)據(jù)不能共享,在公共保存領(lǐng)域,如文化遺產(chǎn)的保存機(jī)構(gòu),社交數(shù)據(jù)的禁止共享使得這類(lèi)機(jī)構(gòu)履行其核心職責(zé)成為困難。
實(shí)踐上,社交平臺(tái)條款經(jīng)常改變,有些變化頻率很高(如1年以內(nèi)),導(dǎo)致保存機(jī)構(gòu)難以制定長(zhǎng)期政策處理社交媒體的保存授權(quán)問(wèn)題,尤其是從多個(gè)社交平臺(tái)收割的社交數(shù)據(jù)。
2.2 保存技術(shù)的困擾
社交媒體的廣泛應(yīng)用導(dǎo)致社交數(shù)據(jù)快速增長(zhǎng),對(duì)社交數(shù)據(jù)的保存技術(shù)帶來(lái)兩個(gè)問(wèn)題。一是存儲(chǔ)問(wèn)題,大規(guī)模社交數(shù)據(jù)的產(chǎn)生需要海量存儲(chǔ)設(shè)備,也需要建立社交數(shù)據(jù)收割的選擇標(biāo)準(zhǔn),用以收割有價(jià)值的涵義連貫的社交數(shù)據(jù)集合以供長(zhǎng)期保存,另外,社交媒體平臺(tái)的使用條款限制了社交數(shù)據(jù)的轉(zhuǎn)移保存,增加了收割方的長(zhǎng)期保存難度。二是索引問(wèn)題,海量的社交數(shù)據(jù)給信息機(jī)構(gòu)的傳統(tǒng)索引技術(shù)帶來(lái)挑戰(zhàn),需要?jiǎng)?chuàng)新一種新的索引技術(shù)以滿足用戶檢索的需要。比如,2013年,國(guó)會(huì)圖書(shū)館的“Twitter保存項(xiàng)目”的數(shù)據(jù)規(guī)模已達(dá)80TB,1200億條推文[20],由于現(xiàn)行的索引技術(shù)難以勝任這樣規(guī)模的海量數(shù)據(jù)處理,導(dǎo)致目前為止還不能面向用戶提供檢索服務(wù)。
2.3 保存標(biāo)準(zhǔn)與內(nèi)容的困擾
保存標(biāo)準(zhǔn)的缺乏致使保存實(shí)踐困難。現(xiàn)行的社交媒體保存實(shí)踐主要來(lái)自于傳統(tǒng)Web 保存的延伸,使用相似的收割工具,采用相似的保存方法。但社交媒體內(nèi)容與傳統(tǒng)Web內(nèi)容存在根本區(qū)別,已有一些針對(duì)社交媒體收割新方法的開(kāi)發(fā),但都在實(shí)驗(yàn)階段,未見(jiàn)規(guī)模性應(yīng)用的報(bào)道。也許是因?yàn)樯缃幻襟w的新穎性,對(duì)其進(jìn)行長(zhǎng)期保存的標(biāo)準(zhǔn)和最佳實(shí)踐還沒(méi)建立,盡管有些相關(guān)的操作指南,但確保社交媒體內(nèi)容及其所有相關(guān)數(shù)據(jù)的長(zhǎng)期有效保存的完整標(biāo)準(zhǔn)仍沒(méi)出現(xiàn)。
社交媒體的特質(zhì)導(dǎo)致保存困境。一方面,社交媒體保存需要收割和保存內(nèi)容數(shù)據(jù)和元數(shù)據(jù);另一方面,社交媒體的保存也包括內(nèi)嵌媒體和URL。這兩個(gè)方面特質(zhì)都要求保存社交數(shù)據(jù)的語(yǔ)境信息,比如Twitter的推文限制140個(gè)字,如果丟失一個(gè)內(nèi)嵌URL,就可能會(huì)導(dǎo)致一個(gè)推文甚至整個(gè)交流對(duì)話失去意義。目前常用的基于API收割的社交數(shù)據(jù)格式是JSON和XML,前者是一種基于JavaScript的開(kāi)放式標(biāo)準(zhǔn),被Twitter使用,后者是基于ISO8879-1986的非專有格式,被一些社交媒體的API使用。但是,這兩種格式都沒(méi)有提供社交媒體長(zhǎng)期訪問(wèn)的語(yǔ)境信息的解決方案。
語(yǔ)境信息是保存的重要內(nèi)容,但難以收割。語(yǔ)境存在于用戶的交流過(guò)程中,包括使用的終端、平臺(tái)提供的服務(wù)、應(yīng)用程序的界面和功能,以及用戶交流所在的社區(qū)等。用戶發(fā)布內(nèi)容的含義受語(yǔ)境的影響很大,未來(lái)用戶對(duì)保存的社交媒體內(nèi)容的理解能力取決于對(duì)語(yǔ)境的保存程度。社交媒體的語(yǔ)境是動(dòng)態(tài)的,比如,社交平臺(tái)頻繁更新服務(wù)界面,改變基本功能,另外,新技術(shù)的誕生也會(huì)改變社交媒體的語(yǔ)境。
因此,僅僅抓取社交內(nèi)容和元數(shù)據(jù)無(wú)法提供足夠的語(yǔ)境展示用戶的交流過(guò)程,保存語(yǔ)境信息的一個(gè)理想方法是抓取用戶的交流過(guò)程,采用截屏和視頻錄像方式。記錄社交媒體的用戶整個(gè)在線過(guò)程,可能是未來(lái)社交媒體長(zhǎng)期保存的一個(gè)趨勢(shì)。
2.4 保存實(shí)踐的困擾
根據(jù)上述對(duì)社交媒體收割的現(xiàn)狀考察,研究人員采用API收割的數(shù)據(jù)很有限;代理商和第三方服務(wù)也不可能對(duì)社交數(shù)據(jù)進(jìn)行全面收割,且均為價(jià)格昂貴的數(shù)據(jù)銷(xiāo)售服務(wù);社交平臺(tái)的自存檔服務(wù)也僅提供用戶個(gè)人賬戶范圍內(nèi)的社交數(shù)據(jù)下載與備份;社交平臺(tái)本身依據(jù)其服務(wù)條款對(duì)平臺(tái)的所有社交數(shù)據(jù)具有長(zhǎng)期保存的權(quán)力,但由于商業(yè)目的在于出售社交數(shù)據(jù)而獲利,故缺乏保存動(dòng)機(jī)。因此,還沒(méi)有出現(xiàn)一個(gè)真正的社交媒體長(zhǎng)期保存項(xiàng)目。
目前為止,社交媒體長(zhǎng)期保存項(xiàng)目的建立嘗試僅發(fā)生在Twitter和美國(guó)國(guó)會(huì)圖書(shū)館之間[21]。2010年,Twitter將2006年以來(lái)的所有社交數(shù)據(jù)和元數(shù)據(jù)贈(zèng)予國(guó)會(huì)圖書(shū)館,以期進(jìn)行長(zhǎng)期保存,并僅供非商業(yè)用戶的訪問(wèn)使用,國(guó)會(huì)圖書(shū)館將這個(gè)長(zhǎng)期保存項(xiàng)目命名為“Twitter保存項(xiàng)目”。但是,贈(zèng)予協(xié)議附加了兩個(gè)條件:一是用戶訪問(wèn)的時(shí)間延遲是社交數(shù)據(jù)發(fā)表6個(gè)月,所以研究人員并不擁有Twitter實(shí)時(shí)社交數(shù)據(jù)的訪問(wèn)權(quán)限,二是用戶僅限在獲得授權(quán)的研究人員,因此無(wú)法實(shí)現(xiàn)開(kāi)放獲取。另外,Twitter提供的海量社交數(shù)據(jù)導(dǎo)致國(guó)會(huì)圖書(shū)館在存儲(chǔ)技術(shù)、數(shù)據(jù)組織和標(biāo)引、訪問(wèn)方法、數(shù)據(jù)的產(chǎn)權(quán)保護(hù)和用戶隱私保護(hù)等方面都遇到了前所未有的挑戰(zhàn)。目前為止,這個(gè)保存項(xiàng)目仍處于構(gòu)建研究階段,未對(duì)外開(kāi)放。但對(duì)于未來(lái)的基于Twitter社交數(shù)據(jù)研究人員來(lái)說(shuō),國(guó)會(huì)圖書(shū)館的“Twitter保存項(xiàng)目”毫無(wú)疑問(wèn)是重要的數(shù)據(jù)來(lái)源,其價(jià)值值得期待。這項(xiàng)合作是商業(yè)化社交平臺(tái)與社會(huì)文化遺產(chǎn)保存機(jī)構(gòu)的首度聯(lián)合,目的是實(shí)現(xiàn)社交數(shù)據(jù)的長(zhǎng)期保存,以支撐非商業(yè)化的科學(xué)研究,具有劃時(shí)代意義,雖然目前遇到了困難和挑戰(zhàn),但對(duì)未來(lái)發(fā)展具有示范作用。
3.1 侵權(quán)的困擾
社交平臺(tái)的使用條款禁止對(duì)基于API收割的社交數(shù)據(jù)進(jìn)行復(fù)制和傳播,實(shí)際上限制了對(duì)收割數(shù)據(jù)的任何形式的共享。但在數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究領(lǐng)域,數(shù)據(jù)共享越來(lái)越重要,甚至在一些情況下是必須的。比如,科學(xué)研究人員對(duì)基于API收割的社交數(shù)據(jù)進(jìn)行分析,產(chǎn)生一項(xiàng)研究成果并公開(kāi)發(fā)表,其他研究人員為了驗(yàn)證這項(xiàng)成果,就必須獲取相同的社交數(shù)據(jù)集,但社交平臺(tái)使用條款限制了這種可能性,因此,無(wú)法進(jìn)行再現(xiàn)驗(yàn)證研究。針對(duì)Twitter,目前有一個(gè)折中方案,即Twitter沒(méi)有禁止Tweet ID的共享,科研人員可以將社交數(shù)據(jù)集的每個(gè)Tweet ID共享給再現(xiàn)驗(yàn)證研究人員,后者根據(jù)Tweet ID收割到相同的社交數(shù)據(jù)集。但這種方案也存在風(fēng)險(xiǎn),因?yàn)橥铺乜赡芤驯粍h除或被編輯,導(dǎo)致無(wú)法收割到完全一致的社交數(shù)據(jù)集。
社交平臺(tái)的使用條款禁止對(duì)非用戶本人的社交內(nèi)容的任何直接引用,可能的考慮是社交內(nèi)容中含有大量的個(gè)人用戶敏感數(shù)據(jù),這對(duì)科研活動(dòng)有時(shí)也會(huì)帶來(lái)一定的侵權(quán)風(fēng)險(xiǎn)。例如,一個(gè)Twitter數(shù)據(jù)集包含受版權(quán)保護(hù)的圖片,如果基于該社交數(shù)據(jù)集的科研成果中直接內(nèi)嵌了這些圖片并公開(kāi)發(fā)表,則構(gòu)成了侵權(quán)。為了防止這種形式的侵權(quán)行為的發(fā)生,目前科學(xué)研究活動(dòng)采用了一個(gè)折中方法,對(duì)這些圖片的分析只限制在元數(shù)據(jù)層面且采用定量方法,這樣其研究成果中僅涉及定量分析的結(jié)果,一般可以不包含對(duì)原始圖片的引用,這雖然規(guī)避了侵權(quán)風(fēng)險(xiǎn),但有時(shí)會(huì)對(duì)出版物的質(zhì)量和研究成果的可信任性產(chǎn)生負(fù)面影響。然而,如果對(duì)社交數(shù)據(jù)集采用定性法進(jìn)行分析,侵權(quán)問(wèn)題可能會(huì)凸顯,因?yàn)榛谶@類(lèi)方法的研究結(jié)果中常常需要引用(甚至大量引用)社交媒體內(nèi)容。
3.2 用戶隱私的困擾
據(jù)統(tǒng)計(jì)[22],2015年世界上有29%的人是社交媒體的活躍用戶,2016年將會(huì)有超過(guò)三分之一的人使用社交媒體,產(chǎn)生的社交數(shù)據(jù)數(shù)量是空前的。隨著用戶數(shù)量的快速增長(zhǎng),社交媒體已經(jīng)像廣播、電話、能源、交通工具等成為人們?nèi)粘I罟ぷ髦斜夭豢缮俚墓不A(chǔ)服務(wù)。但是,與用戶使用其他公共服務(wù)相比,使用社交媒體產(chǎn)生個(gè)人隱私數(shù)據(jù)問(wèn)題更加突出,因?yàn)檫@項(xiàng)服務(wù)的主要功能是用戶交流,交流過(guò)程產(chǎn)生的社交數(shù)據(jù)內(nèi)含大量用戶個(gè)人隱私信息,如果不進(jìn)行有效的倫理規(guī)范,借助于日益先進(jìn)的社交數(shù)據(jù)挖掘工具,社交數(shù)據(jù)分析作為一項(xiàng)科學(xué)研究活動(dòng)的整體影響將產(chǎn)生巨大的負(fù)面效應(yīng),遠(yuǎn)遠(yuǎn)超過(guò)用戶個(gè)人信息泄露的離散案例。
社交數(shù)據(jù)作為一類(lèi)大數(shù)據(jù),與其他形式的數(shù)字資源相比,個(gè)人隱私的泄露風(fēng)險(xiǎn)更大。這種風(fēng)險(xiǎn)來(lái)自于大數(shù)據(jù)的關(guān)聯(lián)屬性,這種屬性使個(gè)人身份更容易泄露。當(dāng)把多個(gè)數(shù)據(jù)集(如社交媒體數(shù)據(jù)和管理數(shù)據(jù))合并一起進(jìn)行綜合分析時(shí),很容易建立個(gè)人身份與個(gè)人信息之間的關(guān)聯(lián),一般來(lái)說(shuō),數(shù)據(jù)量越大,數(shù)據(jù)的多樣性越豐富,識(shí)別個(gè)人身份的可能性也越高。當(dāng)然,不同的應(yīng)用對(duì)社交隱私數(shù)據(jù)的保護(hù)效果也不盡相同,一般來(lái)講,非商業(yè)性應(yīng)用要好于商業(yè)性應(yīng)用,因?yàn)榍罢撸ㄈ缈茖W(xué)研究)一般由公共經(jīng)費(fèi)支持,研究成果是公共產(chǎn)品,研究活動(dòng)以不損害公民利益為前提,所以在使用社交數(shù)據(jù)時(shí),更注重公民的隱私權(quán),保護(hù)公民的個(gè)人數(shù)據(jù),但后者的使用對(duì)象集中在最新社交數(shù)據(jù),目的是增加銷(xiāo)售收入,對(duì)社交用戶隱私數(shù)據(jù)的保護(hù)考慮相對(duì)較少。目前廣泛采用的匿名化可以降低個(gè)人隱私泄露的風(fēng)險(xiǎn),但簡(jiǎn)單的匿名化不可能完全防止這類(lèi)風(fēng)險(xiǎn),一項(xiàng)報(bào)告指出[23],很多大數(shù)據(jù)的應(yīng)用程序都可以很容易地破解匿名問(wèn)題。
社交平臺(tái)的服務(wù)條款大都界定社交數(shù)據(jù)的所有權(quán)歸社交媒體,比如Twitter, Facebook,谷歌,LinkedIn等。用戶在使用社交媒體時(shí)需要簽署使用服務(wù)的協(xié)議,協(xié)議中一些選項(xiàng)的選擇也可能涉及對(duì)未來(lái)泄露個(gè)人隱私的認(rèn)可。這種服務(wù)條款和用戶協(xié)議在社交數(shù)據(jù)所有權(quán)歸屬認(rèn)定上用戶處于弱勢(shì)和被動(dòng)地位,雖然用戶是社交媒體內(nèi)容的作者,用戶數(shù)據(jù)也是用戶本人自愿產(chǎn)生的,但這些社交數(shù)據(jù)無(wú)論用于商業(yè)目的,還是用于非商業(yè)的科學(xué)研究、作為社會(huì)文化遺產(chǎn)的收藏、收割到保存系統(tǒng),用戶完全失去控制權(quán)甚至知曉權(quán)。所以,從用戶角度,追蹤和識(shí)別個(gè)人隱私數(shù)據(jù)的應(yīng)用軌跡是不可行的。
因此,技術(shù)防御無(wú)法完全解決用戶個(gè)人信息的泄露,必須針對(duì)社交數(shù)據(jù)使用建立一套倫理規(guī)范。業(yè)已存在的相關(guān)倫理準(zhǔn)則可以參考,比如,經(jīng)濟(jì)合作與發(fā)展組織[24](OECD)的《個(gè)人隱私保護(hù)和個(gè)人數(shù)據(jù)傳播指南》、英國(guó)國(guó)家經(jīng)濟(jì)和社會(huì)研究委員會(huì)[25](ESRC)的《科研倫理框架》、因特網(wǎng)研究者協(xié)會(huì)[26](AIR)的《倫理推薦指南》、歐盟[27](EU)的《被遺忘權(quán)》等,但這些準(zhǔn)則和指南要么規(guī)范特定的使用群體(如OECD和EU),要么規(guī)范特定的應(yīng)用對(duì)象(如ESRC 和AIR),完全針對(duì)社交數(shù)據(jù)特質(zhì)的還未見(jiàn)報(bào)道。
3.3 訪問(wèn)實(shí)踐的困擾
據(jù)普查,目前還沒(méi)有一個(gè)真正的社交媒體數(shù)據(jù)長(zhǎng)期保存系統(tǒng),雖然社交平臺(tái)有長(zhǎng)期保存社交數(shù)據(jù)的權(quán)力,但均沒(méi)有長(zhǎng)期保存的計(jì)劃,更沒(méi)有長(zhǎng)期保存項(xiàng)目的實(shí)施,用戶對(duì)社交媒體數(shù)據(jù)的使用大多限在對(duì)社交平臺(tái)訪問(wèn)的層面。但是,至今為止,社交媒體都沒(méi)有對(duì)用戶(包括個(gè)人用戶和團(tuán)體用戶)給予完全訪問(wèn)的授權(quán),僅有的一個(gè)完全訪問(wèn)授權(quán)的例子發(fā)生在Twitter與MIT (麻省理工)之間[28]。
2014年,Twitter與MIT簽署協(xié)議,旨在向后者提供其全部社交數(shù)據(jù)(包括歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和未來(lái)數(shù)據(jù))非商業(yè)化使用的長(zhǎng)期訪問(wèn)授權(quán),同時(shí)向后者的媒體實(shí)驗(yàn)室提供一千萬(wàn)美元支持社交數(shù)據(jù)分析工具的研發(fā)。協(xié)議規(guī)定,Twitter通過(guò)其Gnip數(shù)據(jù)服務(wù)向MIT開(kāi)放其所有社交數(shù)據(jù)的訪問(wèn),MIT基于對(duì)Twitter社交數(shù)據(jù)的訪問(wèn)分析,向政府提供完善城市社區(qū)的公共服務(wù)功能、提高社區(qū)運(yùn)行效率以及政府服務(wù)透明度的對(duì)策,且MIT無(wú)需報(bào)告訪問(wèn)、獲取和利用Twitter數(shù)據(jù)的計(jì)劃,也無(wú)需將Twitter數(shù)據(jù)下載轉(zhuǎn)移到本地設(shè)備,避免數(shù)據(jù)存儲(chǔ)成本的發(fā)生。截至2105年底,這項(xiàng)協(xié)議執(zhí)行效果良好。
但是,這個(gè)協(xié)議授權(quán)的僅是MIT。實(shí)際上,僅為了科學(xué)研究的目的期望訪問(wèn)甚至收割社交數(shù)據(jù)的研究群體很大,如何滿足這一群體的需求是社交媒體界乃至整個(gè)社會(huì)面臨的挑戰(zhàn)。在這項(xiàng)合作中,Twitter為了公共利益履行了自己的社會(huì)義務(wù),雖然合作剛剛開(kāi)始,長(zhǎng)期效果的評(píng)價(jià)現(xiàn)在還為時(shí)過(guò)早,但它具有劃時(shí)代意義,開(kāi)啟了新媒體時(shí)代商業(yè)化社交平臺(tái)無(wú)償服務(wù)于社會(huì)的新模式。
社交媒體是一種新型的數(shù)字資源。與其他類(lèi)型數(shù)字資源的長(zhǎng)期保存相比,社交媒體長(zhǎng)期保存的理論探討與實(shí)踐項(xiàng)目都甚顯遜色。據(jù)筆者考察,目前為止還沒(méi)有一個(gè)專門(mén)的社交媒體長(zhǎng)期保存系統(tǒng),社交媒體數(shù)字資源一般被保存到Web保存系統(tǒng)中,且按照一般Web網(wǎng)頁(yè)的收割方法進(jìn)行收割。但是,這種收割和保存方法完全忽略了社交媒體數(shù)字資源的用戶交流屬性和語(yǔ)境依賴屬性,給用戶使用帶來(lái)極大困難。本文基于社交媒體的特質(zhì)析出了這類(lèi)數(shù)字資源長(zhǎng)期保存面臨的一些困擾,以期業(yè)界探討解決方案,應(yīng)用到未來(lái)的保存實(shí)踐之中。
(來(lái)稿時(shí)間:2016年4月)
1.Timehop.We’re Building the Future of the Past[EB/OL].[2016-01-09].http://timehop.com/press
2.Twitter.Streaming API[EB/OL].[2016-02-01].https://dev.twitter.com/streaming/overview
3.GNIP.Customized Solutions for Predictable Pricing[EB/OL].[2016-02-01].https://gnip.com/pricing/
4.ArchiveSocial.Risk Management & Analystics for Social Media Archiving[EB/OL].[2016-02-09].http://archivesocial.com/
5.MirrorWeb.Archiving Websites and Social Media [EB/OL].[2016-03-03].https://www.mirror-web.com/
6.Erado.About Erado[EB/OL].[2016-01-01].https://www.erado.com/
7.Gwava.Efficient Management of Your Corporate Communication[EB/OL].[2016-02-09].http://www.gwava.eu/en
8.Bandziulis, L.How to Download and Archive Your Social Media Memories[EB/OL].[2015-12-09].http://www.wired.com/2014/07/archive-social-networks
9.North Carolina State Universities (NCSU) Libraries.Social Media Archives Toolkit[EB/OL].[2016-01-07].https://www.lib.ncsu.edu/social-media-archives-toolkit
10.DRI.Digital Repository of Ireland[EB/OL].[2016-01-12].http://www.dri.ie/
11.百度百科.TinyURL[EB/OL].[2016-03-01].http://baike.baidu.com/link?url=lNbBh_sEC79y46GCLrmoLzM tETZUMUfxon9C7pHQe2SCAQlLG3BCK9QFEqff4H4 Hiiw64I7ciUCCFpJlRpsvIa
12.百度百科.Bit.ly[EB/OL].[2016-03-01].http://baike.baidu.com/link?url=LWnDmseCr75BLJ6UYcZOCy3f3t8 kX-SfdK6V554QoquD16Yj0H8mBlHphh1oov37qER7ny o0z0Owvjd_Y-k_q
13.Risse, T.et.al.Documenting Contemporary Society by Preserving Relevant Information from Twitter.In: Weller, K.et al.Twitter and Society[M].NY: Peter Lang Publishing, 2015:310-354
14.Webster, P.How Fast Does the Web Change and Decay? Some Evidence[EB/OL].[2016-01-01].http://webarchivehistorians.org/2015/03
15.Salah, H., Nelson, M.Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost?[EB/OL] [2016-01-09].http://arxiv.org/abs/1209.3026
16.D’Orazio, D.Twitpic Saved by Twitter Just Hours Before Planned Shut Down[EB/OL].[2016-01-18].http://www.theverge.com/2014/10/25/7070585/twitpic-savedby-twitter-just-hours-before-planned-shutdown
17.Foursquare.Foursquare Platform Policy[EB/OL].[2016-02-01].https://foursquare.com/legal/api/
18.Linked In.API Terms of Use[EB/OL].[2015-12-19].https://developer.linkedin.com/legal/api-terms-of-use
19.YouTube.YouTube Developer Policy[EB/OL].[2015-12-19].https://developers.google.com/youtube/terms?hl=en
20.Library of Congress.Update on the Twitter Archive at the Library of Congress[EB/OL].[2015-10-10].http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf
21.Library of Congress.Twitter Donates Entire Tweet Archive to Library of Congress[EB/OL].[2015-12-12].http://www.loc.gov/today/pr/2010/10-081.html
22.Kemp,S.Digital, Social & Mobile in APAC in 2015[EB/OL].[2016-01-09].http://wearesocial.sg/ blog/2015/03/digital-social-mobile-in-apac-in-2015/
23.President’s Council of Advisors on Science and Technology(USA).Big Data and Privacy: A Technological Perspective[EB/OL].[2016-01-01].https://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/ pcast_big_data_and_privacy_-_may_2014.pdf
24.OECD.Guidelines on the Protection of Privacy and Transborder Flows of Personal Data[EB/OL].[2015-11-09].http://www.oecd.org/sti/ieconomy/oecdguidelinesonthe protectionofprivacyandtransborderflowsofpersonaldata.htm
25.ESRC.Framework for Research Ethics[EB/OL].[2015-12-30].http://www.esrc.ac.uk/funding/guidance-forapplicants/research-ethics
26.Association of Internet Researcher.Ethical Recommendations[EB/OL].[2015-11-07].http://aoir.org/ethics
27.EU.Law Regarding the Right to Be Forgotten[EB/ OL].[2015-12-12].http://eur-lex.europa.eu/legal-content/ EN/TXT/?uri=URISERV%3Al14012
28.Gillis, M.Investing in MIT’s new Laboratory for Social Machines (Twitter blog)[EB/OL].[2016-01-08].https://blog.twitter.com/2014/investing-in-mit-s-newlaboratory-for-social-machines
Some Confusions in Social Media Long-term Preservation
Zang Guoquan Zhao Peiduan
( School of Information Management, Zhengzhou University)
Compared with other digital resources, social media has its own characteristics.There are some confusions during the social media long-term preservation: social media harvesting confusions, including the harvesting ways and boundary definition; social media preservation confusions, including the social platform terms, preservation technology,preservation standard and content, and preservation practice; social media usage confusions, including the copyright infringement, user privacy and access practice.
Social media Digital preservation Digital resource
G250
格式〕 臧國(guó)全,趙佩端.社交媒體長(zhǎng)期保存的困擾[J].圖書(shū)館,2016(9):77-82
臧國(guó)全(1963-),男,鄭州大學(xué)信息管理學(xué)院教授,副院長(zhǎng),發(fā)表論文80多篇,出版學(xué)術(shù)專著3部;趙佩端(1992-),女,鄭州大學(xué)信息管理學(xué)院在讀碩士研究生。
* 本文系國(guó)家自然科學(xué)基金項(xiàng)目“數(shù)字保存的風(fēng)險(xiǎn)型元數(shù)據(jù)與風(fēng)險(xiǎn)監(jiān)控研究”(項(xiàng)目編號(hào):71673255)研究成果之一。