陳 崢
(1.湖北開(kāi)放大學(xué) 武漢 430074; 2.武漢大學(xué)社會(huì)學(xué)院 武漢 430072)
隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),人類(lèi)的生產(chǎn)、生活等行為活動(dòng)越來(lái)越網(wǎng)絡(luò)化,互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)上每時(shí)每刻都在生成相關(guān)的數(shù)據(jù)(指存在于計(jì)算機(jī)系統(tǒng)中的信息資料),社會(huì)科學(xué)家很快就認(rèn)識(shí)到了這些數(shù)據(jù)的價(jià)值。2009年,大衛(wèi)·拉澤爾等15位學(xué)者撰文指出,當(dāng)前被廣泛使用的電子郵件、移動(dòng)通信、信用卡、電子購(gòu)物清單、網(wǎng)絡(luò)診療記錄、社交軟件等已經(jīng)為我們積累了大量長(zhǎng)時(shí)間、連續(xù)性、大規(guī)模的人類(lèi)行為與互動(dòng)數(shù)據(jù)。基于這種前所未有的廣度、深度和尺度的數(shù)據(jù)收集與分析,將為拓展、深化甚至革新對(duì)個(gè)體行為、群體交往、組織結(jié)構(gòu)乃至整個(gè)社會(huì)運(yùn)行規(guī)律的認(rèn)識(shí)開(kāi)辟一條新路徑[1]。
互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)中的信息內(nèi)容可分為專(zhuān)業(yè)生產(chǎn)內(nèi)容(PGC,Professional Generated Content)和用戶(hù)生成內(nèi)容(UGC,User Generated Content)。Web2.0時(shí)代的信息交互技術(shù),使互聯(lián)網(wǎng)用戶(hù)既是信息的受眾,也能方便地成為信息的生產(chǎn)者、發(fā)布者與傳播者。每一個(gè)用戶(hù)不僅可以在博客、微博、微信、論壇/BBS、分享網(wǎng)絡(luò)、好友社交網(wǎng)絡(luò)等平臺(tái)上生成自己的內(nèi)容,也可以對(duì)其他用戶(hù)發(fā)布的內(nèi)容進(jìn)行點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)。由此,互聯(lián)網(wǎng)上幾乎時(shí)刻都在產(chǎn)生新的用戶(hù)生成內(nèi)容,形成來(lái)源復(fù)雜、形態(tài)多樣、規(guī)模龐大且持續(xù)高速增長(zhǎng)的UGC大數(shù)據(jù)。早在2010年,UGC即已占據(jù)整個(gè)在線(xiàn)內(nèi)容的50.7%[2]。
UGC大數(shù)據(jù)的產(chǎn)生和積累令社會(huì)科學(xué)家極為振奮,因?yàn)檫@種大規(guī)模的個(gè)人行為互動(dòng)數(shù)據(jù)是前互聯(lián)網(wǎng)時(shí)代難以獲取甚至無(wú)法獲取的研究資料。以往,專(zhuān)業(yè)生產(chǎn)內(nèi)容相對(duì)容易獲得,但社會(huì)科學(xué)研究最重要的對(duì)象是蕓蕓眾生,研究者必須了解普通人的思想觀念、行為傾向、情感心理等方面的狀態(tài)。為了達(dá)到這一目的,社會(huì)科學(xué)研究者一直在探索和完善社會(huì)調(diào)查、社會(huì)測(cè)量的方法。然而長(zhǎng)期以來(lái),社會(huì)科學(xué)研究仍只能以觀察、訪(fǎng)談、問(wèn)卷調(diào)查等方法作為獲取普通人信息的主要手段。這些方法存在諸多不足,例如實(shí)施較為困難、成本往往較高,因而導(dǎo)致獲取的數(shù)據(jù)一般規(guī)模較小,并且時(shí)效性差。正因如此,來(lái)源于廣大群眾的UGC大數(shù)據(jù)成為計(jì)算社會(huì)科學(xué)關(guān)注的新型資料,社會(huì)科學(xué)各領(lǐng)域?qū)W者紛紛嘗試運(yùn)用UGC大數(shù)據(jù)發(fā)現(xiàn)知識(shí)、探索規(guī)律。
將任何數(shù)據(jù)運(yùn)用于研究都必須先考察其質(zhì)量。在社會(huì)科學(xué)研究意義上,衡量數(shù)據(jù)質(zhì)量的首要標(biāo)準(zhǔn),就是看它們是否真實(shí)、準(zhǔn)確地反映了社會(huì)事實(shí)(與計(jì)算機(jī)科學(xué)意義上的數(shù)據(jù)質(zhì)量有所不同)。截至目前,基于UGC大數(shù)據(jù)的社會(huì)科學(xué)研究已有不少,但其數(shù)據(jù)質(zhì)量問(wèn)題似乎并未得到足夠的重視,至今少有人進(jìn)行細(xì)致深入的研究。但是,UGC大數(shù)據(jù)是用戶(hù)的行為、心理、觀念在網(wǎng)絡(luò)上的完美映射嗎?顯然,這個(gè)問(wèn)題對(duì)能否得到正確的研究結(jié)論具有決定性的影響。下文將就這一重要問(wèn)題展開(kāi)探討。
傳統(tǒng)的數(shù)據(jù)資料獲取方法存在固有缺陷,對(duì)社會(huì)科學(xué)實(shí)證研究能力形成嚴(yán)重制約。長(zhǎng)期以來(lái),社會(huì)科學(xué)家都在尋找克服缺陷的辦法。正因如此,當(dāng)包括UGC在內(nèi)的網(wǎng)絡(luò)大數(shù)據(jù)出現(xiàn)后,很多學(xué)者首先是將其與傳統(tǒng)數(shù)據(jù)進(jìn)行比較,進(jìn)而發(fā)現(xiàn)它避免了傳統(tǒng)數(shù)據(jù)的一些缺陷,這種優(yōu)勢(shì)主要表現(xiàn)在樣本量大、時(shí)效性強(qiáng)、無(wú)研究者介入干擾、對(duì)象的無(wú)反應(yīng)性。UGC大數(shù)據(jù)的這四個(gè)特點(diǎn),正是計(jì)算社會(huì)科學(xué)對(duì)其極感興趣的最重要原因。但是,由此認(rèn)為UGC大數(shù)據(jù)一定能夠真實(shí)、客觀、準(zhǔn)確地反映社會(huì)事實(shí)與人們的行為、思想觀念和心理狀態(tài),能夠完美地適應(yīng)各種社會(huì)科學(xué)研究的需要,卻是過(guò)于輕率了。這是因?yàn)?,克服了傳統(tǒng)數(shù)據(jù)的局限并不意味著不會(huì)有新的局限。排除了主試方干擾、受試方干擾,并不足以保證生成的就一定是真實(shí)的、自然狀態(tài)的數(shù)據(jù)。
互聯(lián)網(wǎng)的信息生態(tài)是極為復(fù)雜的,UGC記錄了海量的人類(lèi)行為與互動(dòng),但其中有大量既非真實(shí)亦非自然的內(nèi)容。事實(shí)上,大量虛假、錯(cuò)誤、片面、未經(jīng)證實(shí)、相互矛盾的信息每時(shí)每刻都在生成,UGC的實(shí)際狀態(tài)是過(guò)載、無(wú)序、優(yōu)劣混雜、追溯困難,在數(shù)據(jù)質(zhì)量上呈現(xiàn)極度的不均衡性。對(duì)于對(duì)精確性要求較高的社會(huì)科學(xué)研究來(lái)說(shuō),UGC大數(shù)據(jù)的總體數(shù)據(jù)質(zhì)量,遠(yuǎn)未達(dá)到可以放心使用的程度。以下從主體多元化、媒介市場(chǎng)化與政治化及其他因素對(duì)此展開(kāi)分析。
UGC大數(shù)據(jù)源自人類(lèi)行為的網(wǎng)絡(luò)化,互聯(lián)網(wǎng)規(guī)模龐大的用戶(hù)群體在人格特質(zhì)、文化素養(yǎng)、知識(shí)結(jié)構(gòu)、心理狀態(tài)等諸多方面的異質(zhì)性,決定了其內(nèi)容生產(chǎn)動(dòng)機(jī)的千差萬(wàn)別和內(nèi)容生產(chǎn)能力的巨大差距。同時(shí),UGC數(shù)據(jù)生產(chǎn)者與PGC數(shù)據(jù)生產(chǎn)者不同,一般既無(wú)須對(duì)質(zhì)量負(fù)任何責(zé)任,也無(wú)須承擔(dān)因質(zhì)量低劣而引起的后果,這決定了很多用戶(hù)內(nèi)容生成的隨意性很強(qiáng)。用戶(hù)的異質(zhì)性與無(wú)責(zé)任性一方面使UGC的內(nèi)容包羅萬(wàn)象,另一方面也必然導(dǎo)致其質(zhì)量良莠不齊。即便是以知識(shí)分享為旗幟,以創(chuàng)建人類(lèi)歷史上規(guī)模最大的百科全書(shū)為口號(hào)的維基百科以及百度百科等網(wǎng)絡(luò)平臺(tái),其很多詞條內(nèi)容的質(zhì)量也令人不敢恭維。例如,安德卡分析了2010年1月6日的2 958 303篇維基百科的快照,發(fā)現(xiàn)至少有8.52%的文章存在標(biāo)記錯(cuò)誤,其中以引用標(biāo)注出現(xiàn)的錯(cuò)誤為最多,很多文章被注明了引用卻實(shí)際上沒(méi)有任何引用來(lái)源或參考[3]。這還只是主要通過(guò)機(jī)器算法檢測(cè)出來(lái)的錯(cuò)誤,如果請(qǐng)具有領(lǐng)域知識(shí)的專(zhuān)家來(lái)檢驗(yàn)詞條,會(huì)發(fā)現(xiàn)錯(cuò)誤更多?;ヂ?lián)網(wǎng)上每時(shí)每刻都有錯(cuò)誤、虛假、片面的信息生成為數(shù)據(jù),并且由于互聯(lián)網(wǎng)具有突破時(shí)空限制的強(qiáng)大傳播能力,這些信息可能會(huì)有極廣的傳播范圍和極快的傳播速度。例如,從百科獲取知識(shí)信息的用戶(hù),有可能繼續(xù)在互聯(lián)網(wǎng)分享一些錯(cuò)誤信息,或依據(jù)其生成新的內(nèi)容,這意味著錯(cuò)誤信息量還可能持續(xù)增加。換言之,錯(cuò)誤的信息內(nèi)容一經(jīng)生成,就會(huì)不斷擴(kuò)散,很可能呈覆水難收之勢(shì)。
除了錯(cuò)誤、虛假、片面的信息之外,UGC還是謠言的淵藪?;ヂ?lián)網(wǎng)的虛擬性與隱匿性,固然有助于用戶(hù)的自然表達(dá),且可為用戶(hù)的傳播活動(dòng)提供安全保障,但也被造謠者當(dāng)作保護(hù)傘。一直以來(lái),社交媒介平臺(tái)上的各種謠言泛濫成災(zāi)。例如,新浪微博曾被冠以“史上最佳謠言機(jī)器”的“美名”[4]。據(jù)中山大學(xué)發(fā)布的《2016微信年度謠言分析報(bào)告》,2016年微信中傳播最為廣泛的五大熱門(mén)謠言,閱讀量均超過(guò)2 000萬(wàn)次,并被多個(gè)公眾號(hào)轉(zhuǎn)發(fā)[5]。一些謠言被缺乏甄別能力的用戶(hù)轉(zhuǎn)發(fā)擴(kuò)散,在龐大的網(wǎng)絡(luò)空間中難以被及時(shí)堵截和消除。并且,一些已經(jīng)由權(quán)威機(jī)構(gòu)辟謠過(guò)的謠言,經(jīng)過(guò)一段時(shí)期后又死灰復(fù)燃,其內(nèi)容在互聯(lián)網(wǎng)上反復(fù)生成。所謂“造謠動(dòng)動(dòng)嘴,辟謠跑斷腿”“辟謠的腳步追不上造謠的翅膀”,即是對(duì)這種亂象的生動(dòng)描述[6]。
社交媒介的興起催生了“后真相時(shí)代”?!昂笳嫦唷敝浮霸V諸情感及個(gè)人信念,較客觀事實(shí)更能影響民意”,該詞入選2016年牛津詞典年度詞匯[7]。羅什·沃索吉等人的研究展示了“后真相時(shí)代”的表征,他們力圖探究推特平臺(tái)中虛假與真實(shí)新聞傳播趨勢(shì)的異同,為此收集、分析了從2006年推特創(chuàng)立之初至2017年,由300萬(wàn)用戶(hù)發(fā)布且被瀏覽、轉(zhuǎn)發(fā)450萬(wàn)次的12.6萬(wàn)條新聞。結(jié)果顯示,虛假新聞無(wú)論是在傳播廣度、深度還是速度上均顯著優(yōu)于真實(shí)新聞。為保證結(jié)論的可靠性,他們先運(yùn)用社交媒介機(jī)器人偵測(cè)算法將自動(dòng)化的社交媒介賬戶(hù)進(jìn)行識(shí)別并移除,而后再將這些機(jī)器賬戶(hù)產(chǎn)生的流量加入分析進(jìn)程,發(fā)現(xiàn)機(jī)器賬戶(hù)散布虛假與真實(shí)新聞的速率一致,表明該結(jié)論依然成立。由此,他們強(qiáng)調(diào),民眾的確更喜歡傳播虛假新聞[8]。此外,本杰明·多爾、默罕默德·法茲與托比亞斯·弗雷德里希的研究亦佐證了虛假信息傳播能力之強(qiáng)大。他們通過(guò)在代表社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)與若干傳統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的曲線(xiàn)圖上,分別模擬一個(gè)自然的謠言傳播過(guò)程,發(fā)現(xiàn)謠言在前者中的傳播速度遠(yuǎn)快于后者。例如在推特中,一條始于一個(gè)隨機(jī)節(jié)點(diǎn)的謠言?xún)H經(jīng)8個(gè)回合的傳播便波及4 500萬(wàn)名用戶(hù),“速度是驚人的”[9]。
由上可見(jiàn),信息生產(chǎn)與傳播主體的極端多元化及其異質(zhì)性與無(wú)責(zé)任性,導(dǎo)致UGC內(nèi)容真?zhèn)位祀s,整體質(zhì)量難以保證。
UGC創(chuàng)造了有利可圖的媒介市場(chǎng),其商業(yè)價(jià)值已被充分認(rèn)識(shí)和利用。特里·多爾蒂等指出,互動(dòng)型媒介環(huán)境為將現(xiàn)今多元化的媒介市場(chǎng)變現(xiàn)提供可能性,這種可能性是通過(guò)提供能夠讓普通受眾的聲音在信息與廣告的漩渦中凸顯的方式來(lái)實(shí)現(xiàn)的。在互聯(lián)網(wǎng)世界中,這種有利可圖的媒介市場(chǎng)愈發(fā)由UGC而非發(fā)行商所驅(qū)動(dòng)。早在2007年,這種新興市場(chǎng)即吸引了6 900萬(wàn)用戶(hù),并且產(chǎn)生了4.5億美元的廣告收入[10]。伴隨UGC大數(shù)據(jù)的商業(yè)價(jià)值而來(lái)的,是網(wǎng)絡(luò)媒介的市場(chǎng)化現(xiàn)象。各種互動(dòng)式平臺(tái)上廣泛存在受經(jīng)濟(jì)利益驅(qū)使的故意造假行為,大量的商業(yè)水軍在網(wǎng)絡(luò)上興風(fēng)作浪。例如,近年來(lái),影視劇口碑和點(diǎn)擊量倒掛的情況屢見(jiàn)不鮮。有些劇作觀眾評(píng)價(jià)較高,業(yè)內(nèi)人士也予以肯定,但收視率和網(wǎng)絡(luò)平臺(tái)點(diǎn)擊量慘淡;相反,有些劇集格調(diào)較低,內(nèi)容拖沓冗長(zhǎng),觀眾普遍給予差評(píng),但點(diǎn)擊量卻節(jié)節(jié)攀升[11]。這種現(xiàn)象的背后隱藏著一條完整的流量造假產(chǎn)業(yè)鏈。影視劇播放量的攀升會(huì)讓其所屬制片公司名利雙收;視頻網(wǎng)站也會(huì)因?yàn)閯∽鞑シ帕看?、關(guān)注度高,贏得更多與其他制片公司合作的機(jī)會(huì),并吸引更多的廣告贊助商。故此,競(jìng)相刷流量成為影視劇圈內(nèi)慣例,流量公司亦大行其道[11]。這些專(zhuān)門(mén)刷流量的公司會(huì)提供諸如“騰訊5元1萬(wàn)點(diǎn)擊量”之類(lèi)的服務(wù)[12]。低廉的價(jià)格造就了驚人的假流量,如《楚喬傳》2017年內(nèi)的播放量竟被刷到457.9億,被調(diào)侃“全球人口不足一部劇點(diǎn)擊量”[12]。這種通過(guò)購(gòu)買(mǎi)而得的點(diǎn)擊量實(shí)際上是對(duì)用戶(hù)觀看行為的偽造。再如,中國(guó)最大的電商平臺(tái)淘寶活躍著一批“職業(yè)差評(píng)師”,他們通過(guò)購(gòu)買(mǎi)商品、收貨之后故意給賣(mài)家差評(píng)的方式,敲詐勒索賣(mài)家。某“差評(píng)師”的群里甚至喊出“十條差評(píng)擼垮一個(gè)店”[13]的口號(hào)。將用戶(hù)評(píng)價(jià)用作牟利工具,這種行為不僅誤導(dǎo)了消費(fèi)者,而且污染了數(shù)據(jù)。這些數(shù)據(jù)不是互聯(lián)網(wǎng)用戶(hù)真實(shí)行為的記錄,而是出于利益驅(qū)動(dòng)進(jìn)行造假的產(chǎn)物,對(duì)研究者來(lái)說(shuō)也無(wú)疑是陷阱。但發(fā)現(xiàn)這些假數(shù)據(jù),并在研究中予以徹底剔除,往往是相當(dāng)困難的。
作為一種傳播能力強(qiáng)大的新媒介,互聯(lián)網(wǎng)與傳統(tǒng)媒介一樣存在媒介政治化現(xiàn)象?;ヂ?lián)網(wǎng)的發(fā)展讓公民參與社會(huì)政治生活的模式產(chǎn)生了變化,相較于以往在社會(huì)政治生活中較為被動(dòng)的地位,當(dāng)今“任何人可以隨時(shí)在公開(kāi)的站點(diǎn)上發(fā)表自己對(duì)有關(guān)事務(wù)的意見(jiàn)和建議”,公民政治參與的渠道愈發(fā)暢通[14]69。然而,政治參與渠道的暢通也為偽造與誘導(dǎo)民意提供了機(jī)會(huì),樸槿惠組建網(wǎng)絡(luò)水軍、俄羅斯被疑干預(yù)美國(guó)大選兩起事件,都堪稱(chēng)典型案例。
據(jù)報(bào)道,韓國(guó)國(guó)家情報(bào)院在一份報(bào)告中承認(rèn),曾在選舉前組建了30組“網(wǎng)絡(luò)水軍”,成員包括國(guó)家情報(bào)院官員和來(lái)自民間的網(wǎng)絡(luò)高手,專(zhuān)門(mén)負(fù)責(zé)發(fā)帖實(shí)施“心理戰(zhàn)”,以幫助樸槿惠贏得選舉。2012年1月1日至12月19日,“網(wǎng)絡(luò)水軍”利用716個(gè)推特賬戶(hù),通過(guò)發(fā)帖、回帖、分享等方式生成帖子數(shù)量達(dá)到27萬(wàn)多條。這些人在網(wǎng)絡(luò)上發(fā)帖,專(zhuān)門(mén)負(fù)責(zé)抹黑樸槿惠的競(jìng)選對(duì)手。文在寅就是受害者之一,他最終以48.02%比51.55%的微弱劣勢(shì)敗北[15]。
至今仍處在爭(zhēng)議漩渦之中的俄羅斯干預(yù)美國(guó)大選事件更為錯(cuò)綜復(fù)雜。2016年6月始,多家美國(guó)媒體相繼爆料稱(chēng),俄羅斯在網(wǎng)絡(luò)上運(yùn)用多種手段支持特朗普。2016年7月,在對(duì)一家名為“互聯(lián)網(wǎng)研究機(jī)構(gòu)”的神秘的俄羅斯在線(xiàn)宣傳組織進(jìn)行長(zhǎng)期追蹤之后,《紐約客》作者阿德里安·陳撰文指出:“為造成草根運(yùn)動(dòng)方興未艾之假象,該機(jī)構(gòu)在各社交媒介平臺(tái)中運(yùn)營(yíng)大量馬甲賬號(hào)……從去年夏天到年末,我發(fā)現(xiàn)該機(jī)構(gòu)名下的一些推特賬號(hào)已然開(kāi)始置頂右翼新聞媒介,并將自己描述成愈發(fā)喜愛(ài)特朗普的保守派選民……有理由相信,如此支持特朗普的行為,是該機(jī)構(gòu)力圖通過(guò)協(xié)助特朗普問(wèn)鼎白宮,達(dá)成攪亂美國(guó)社會(huì)之目的的嘗試?!盵16]除涉嫌利用虛假社交媒介賬號(hào)為特朗普造勢(shì)之外,俄羅斯還被指責(zé)散布虛假的、經(jīng)宣傳手法修飾的新聞。《華盛頓郵報(bào)》2017年1月5日的報(bào)道顯示,時(shí)任美國(guó)國(guó)家情報(bào)總監(jiān)的詹姆斯·克拉珀當(dāng)日在向國(guó)會(huì)作證時(shí)強(qiáng)調(diào)“俄羅斯炮制假新聞并將之發(fā)布于社交媒介,對(duì)此我們不應(yīng)該忽視”。同時(shí),希拉里·克林頓的競(jìng)選伙伴參議員蒂姆·凱恩表示他是一些假新聞的對(duì)象,盡管主流媒介均未采信這些新聞,但“其中一條新聞被分享了80萬(wàn)次”[17]。雖然上述事件至今仍未被坐實(shí),并且這些手段在多大程度上影響了選民的投票意向,其與特朗普問(wèn)鼎白宮是否具有相關(guān)性也尚未有定論,但具有諷刺意味的是,新聞聚合網(wǎng)站Buzzfeed強(qiáng)調(diào)“借助媒介進(jìn)行宣傳攻勢(shì)絕非全新的策略,也非局限于俄羅斯,包括美國(guó)在內(nèi)的若干國(guó)家,早已運(yùn)用這一策略企圖操控他國(guó)民意”[18]。
以上案例表明,某些人會(huì)出于政治目的而借用普通用戶(hù)的身份偽造大量的UGC數(shù)據(jù);借助于互聯(lián)網(wǎng),這種偽造還可能是跨國(guó)界的。某些國(guó)家已經(jīng)將互聯(lián)網(wǎng)作為插手他國(guó)政局的重要工具,當(dāng)前,在出于政治目的的暗地操縱下,互聯(lián)網(wǎng)上虛假民意的聲音越來(lái)越大,與網(wǎng)民的自然表達(dá)混在一起,真?zhèn)坞y辨[19]。
除了用戶(hù)因素、媒介市場(chǎng)化因素、媒介政治化因素外,還有一些因素也會(huì)影響UGC的數(shù)據(jù)質(zhì)量,例如用戶(hù)線(xiàn)上與線(xiàn)下的不一致性、垃圾數(shù)據(jù)問(wèn)題等。
用戶(hù)是以獨(dú)立的“隱形人”身份在虛擬空間中生產(chǎn)內(nèi)容,這既可能讓其不受現(xiàn)實(shí)世界的道德與法律規(guī)范的制約,從而放縱自己的行為[14]70,也能較容易地將自身形象“完美化”。很多人在虛擬世界里的言論、行為與其在現(xiàn)實(shí)世界中的言論、行為存在不同程度的差異,有些人的差異還很大。一個(gè)靦腆的宅男可能在網(wǎng)上是兇悍的“暴民”,文體明星則一般是雇用專(zhuān)人打理其社交媒介賬號(hào),在網(wǎng)絡(luò)上展現(xiàn)的往往是他們或其公關(guān)策劃公司認(rèn)為“應(yīng)該展現(xiàn)的形象”,互聯(lián)網(wǎng)記錄的顯然不是他們的平常狀態(tài)。UGC中還包含著大量的垃圾數(shù)據(jù),如惡意灌水等行為產(chǎn)生的數(shù)據(jù)。這些垃圾數(shù)據(jù)一般體量較大,對(duì)話(huà)題提取、意見(jiàn)提取等研究無(wú)疑會(huì)構(gòu)成不同程度的干擾,有些情況下甚至?xí)?dǎo)致研究失敗。正如奈斯比特所言:“失去控制和無(wú)組織的信息在信息社會(huì)并不構(gòu)成資源,相反,它會(huì)成為信息工作者的敵人?!盵20]
鑒于UGC數(shù)據(jù)質(zhì)量的良莠不齊,憑借檢測(cè)識(shí)別技術(shù)提高數(shù)據(jù)質(zhì)量就顯得尤為重要。UGC大數(shù)據(jù)包括文本、圖片、音頻、視頻等多種類(lèi)型,目前用于社會(huì)科學(xué)研究的主要是文本型數(shù)據(jù)。當(dāng)前的內(nèi)容檢測(cè)識(shí)別方式主要有人工檢測(cè)、自動(dòng)測(cè)量?jī)深?lèi),前者即人工抽樣檢測(cè),后者包括基于統(tǒng)計(jì)的自動(dòng)檢測(cè)與基于機(jī)器學(xué)習(xí)的自動(dòng)檢測(cè)。然而,各種檢測(cè)識(shí)別技術(shù)都是針對(duì)文本型數(shù)據(jù)且皆有其短板,尚無(wú)力應(yīng)對(duì)互聯(lián)網(wǎng)信息生態(tài)的復(fù)雜性,亦難以適應(yīng)UGC大數(shù)據(jù)的多態(tài)性、動(dòng)態(tài)性特點(diǎn);對(duì)圖片、音頻、視頻等數(shù)據(jù)進(jìn)行檢測(cè)識(shí)別的技術(shù)難度更大,這些數(shù)據(jù)在社會(huì)科學(xué)研究中的價(jià)值發(fā)揮還很有限。下文將就基于人工研判的識(shí)別、基于統(tǒng)計(jì)的自動(dòng)測(cè)量、基于機(jī)器學(xué)習(xí)的自動(dòng)檢測(cè)技術(shù)等三個(gè)方面的應(yīng)用與局限性展開(kāi)分析。
3.1.1 標(biāo)志列表匹配
虛假錯(cuò)誤信息自有其信息源,一些域名即以散布假消息為人熟知。由此,為提醒互聯(lián)網(wǎng)用戶(hù)信息源的可靠性,相關(guān)研究人員開(kāi)發(fā)了若干標(biāo)志列表,將慣常發(fā)布錯(cuò)誤或片面信息的域名做出標(biāo)記[21]。比如,數(shù)據(jù)服務(wù)平臺(tái)卡哥(Kaggle)中名為“關(guān)于假新聞的真相”的數(shù)據(jù)集。該數(shù)據(jù)集包括通過(guò)webhose.io的應(yīng)用程序接口爬取的244個(gè)網(wǎng)站的元數(shù)據(jù),并且還在持續(xù)擴(kuò)大之中。同時(shí),Kaggle專(zhuān)門(mén)開(kāi)發(fā)了名為“BS Detector”的網(wǎng)絡(luò)瀏覽器插件,安裝此插件的用戶(hù)點(diǎn)擊進(jìn)入上述列表中的網(wǎng)站時(shí),即會(huì)得到“可疑信息來(lái)源”的提示[22]。此外,名為“開(kāi)源”(open sources)的數(shù)據(jù)服務(wù)平臺(tái)中包含一個(gè)由相關(guān)領(lǐng)域?qū)<揖艏?xì)選的1 001個(gè)域名的數(shù)據(jù)集[23]。這種通過(guò)標(biāo)志列表匹配的方法有很明顯的局限性,此種方式并不能甄別某篇文章內(nèi)容的真?zhèn)?,而是基于一個(gè)假設(shè),即所有來(lái)自可疑信息源的信息皆是可疑的,但事實(shí)上社交媒體用戶(hù)發(fā)布信息的真實(shí)性并不必然與特定網(wǎng)站相關(guān)聯(lián)。
3.1.2 事實(shí)核查網(wǎng)站
事實(shí)核查網(wǎng)站是致力于識(shí)別在網(wǎng)絡(luò)上傳播的虛假信息及騙局的網(wǎng)站。這些網(wǎng)站會(huì)雇用職業(yè)記者、志愿者去核查用戶(hù)在網(wǎng)頁(yè)與社交媒體中分享的文章內(nèi)容的真實(shí)性,尤其會(huì)關(guān)注那些熱點(diǎn)文章[24]。一旦文章內(nèi)容的真?zhèn)蔚玫酱_認(rèn),網(wǎng)站會(huì)公布其發(fā)現(xiàn)以及與之相關(guān)聯(lián)的信息,比如文章的網(wǎng)址等。根據(jù)杜克記者實(shí)驗(yàn)室的統(tǒng)計(jì),截至2019年10月,其收錄的活躍的事實(shí)核查網(wǎng)站已達(dá)210家[25]。較有代表性的事實(shí)核查網(wǎng)站如PolitiFact.com、HoaxSlayer.com等。前者主要關(guān)注美國(guó)政治新聞,該網(wǎng)站的員工會(huì)檢視國(guó)會(huì)議員、白宮職員、游說(shuō)團(tuán)體與利益集團(tuán)的言論,并在“真假度量?jī)x”(Truth-O-Meter)分級(jí)為真實(shí)、大部分真實(shí)、一半真實(shí)、大部分錯(cuò)誤、謊言。后者旨在協(xié)助用戶(hù)識(shí)破各種網(wǎng)絡(luò)騙局,并為他們提供網(wǎng)絡(luò)安全知識(shí)[26]。此外,法國(guó)新聞社于2018年組建了面向外部的國(guó)際化的事實(shí)核查團(tuán)隊(duì),與其他國(guó)家、地區(qū)的核查者、編輯展開(kāi)合作,并將發(fā)現(xiàn)公之于眾,目前此合作項(xiàng)目已遍及20余個(gè)國(guó)家和地區(qū)[27]。
雖然事實(shí)核查網(wǎng)站的準(zhǔn)確度很高,但面對(duì)互聯(lián)網(wǎng)高速增長(zhǎng)的海量信息,靠人工調(diào)查與研判,只能是面向一些特定類(lèi)別的、相對(duì)重要的信息,無(wú)法對(duì)海量的優(yōu)劣混雜的UGC大數(shù)據(jù)進(jìn)行較為全面的清查。
基于統(tǒng)計(jì)的自動(dòng)測(cè)量是對(duì)文本進(jìn)行統(tǒng)計(jì)特征抽取,通過(guò)回歸分析、機(jī)器學(xué)習(xí)等技術(shù)手段對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)測(cè)。在通過(guò)特定的算法進(jìn)行識(shí)別后,可以過(guò)濾掉劣質(zhì)數(shù)據(jù),但統(tǒng)計(jì)算法能夠達(dá)到的識(shí)別精度往往不盡如人意。常見(jiàn)的算法有信息源評(píng)估、聲譽(yù)評(píng)估、用戶(hù)反饋評(píng)價(jià)等。信息源評(píng)估是根據(jù)生產(chǎn)者的社會(huì)身份來(lái)判斷其所提供內(nèi)容的質(zhì)量,如“.gov”表示政府組織,“.edu”表示學(xué)校,“.com”表示企業(yè)等,它假定社會(huì)身份越有權(quán)威性的用戶(hù)提供的內(nèi)容質(zhì)量越高。聲譽(yù)評(píng)估是根據(jù)個(gè)人在網(wǎng)絡(luò)的知名度、美譽(yù)度來(lái)判斷其所提供內(nèi)容的質(zhì)量,它假定越有聲望的用戶(hù)生產(chǎn)的內(nèi)容越具有真實(shí)性。用戶(hù)反饋評(píng)價(jià)是基于互聯(lián)網(wǎng)眾籌模式的測(cè)評(píng),它假定用戶(hù)評(píng)價(jià)越高的內(nèi)容質(zhì)量越高。顯然,這些假定都只有概率意義上的正確性,基于這些假定設(shè)計(jì)的算法雖然有助于數(shù)據(jù)質(zhì)量的評(píng)測(cè)和提高,但顯然都存在缺陷,無(wú)法起到根本性的作用。例如用戶(hù)反饋評(píng)價(jià)在有些時(shí)候是失效的,因?yàn)闇y(cè)評(píng)者的主觀性及隨意性會(huì)影響測(cè)評(píng)效果,并且用戶(hù)好評(píng)也可能是水軍刷出來(lái)的。
在社會(huì)科學(xué)研究中,研究者必然會(huì)面對(duì)從不同數(shù)據(jù)源獲取的不一致甚至矛盾對(duì)立的數(shù)據(jù),絕大多數(shù)情況下都是通過(guò)設(shè)計(jì)一定的算法對(duì)數(shù)據(jù)進(jìn)行診斷,去偽存真。這種基于統(tǒng)計(jì)方法的檢測(cè)識(shí)別技術(shù)在某些時(shí)候是有效的。但必須看到,它形成正確判斷的前提是真實(shí)信息的量大于錯(cuò)誤信息的量;對(duì)于運(yùn)用加權(quán)算法的統(tǒng)計(jì)分析而言,權(quán)威性高的數(shù)據(jù)源一般不能出錯(cuò)。然而在很多情況下,這兩點(diǎn)其實(shí)是難以保證的。
3.3.1 基于在線(xiàn)社會(huì)網(wǎng)絡(luò)分析的識(shí)別方式
隨著社交媒體平臺(tái)成為虛假信息的溫床,有學(xué)者開(kāi)始運(yùn)用社交媒體數(shù)據(jù)以在線(xiàn)社會(huì)網(wǎng)絡(luò)分析的方式識(shí)別可疑用戶(hù)。有研究團(tuán)隊(duì)使用推特?cái)?shù)據(jù)進(jìn)行了相應(yīng)嘗試。他們基于一個(gè)標(biāo)志列表,該表包含常發(fā)布虛假信息的域名,并通過(guò)推特應(yīng)用程序接口獲取兩類(lèi)數(shù)據(jù):一是包含標(biāo)志列表中網(wǎng)址的推文,二是不包含相應(yīng)網(wǎng)址的推文。對(duì)于后者,他們按照時(shí)間順序以“一小時(shí)會(huì)話(huà)”為單位,將這些推文分組并使用基于會(huì)話(huà)的模型對(duì)其依次進(jìn)行處理。之后,每一段會(huì)話(huà)會(huì)被“銳推”(即推文轉(zhuǎn)發(fā))可視化工具Retweet Graph Generator分析,每一個(gè)“銳推”圖形G=(V, E)包括節(jié)點(diǎn)u,v(u,v∈V),描述了用戶(hù)之間的聯(lián)結(jié)與網(wǎng)絡(luò)邊緣((u, v)∈E),且表明了用戶(hù)u與用戶(hù)v之間由推文轉(zhuǎn)發(fā)產(chǎn)生的互動(dòng)。然后研究團(tuán)隊(duì)使用基于德格魯特模型的用戶(hù)概率模型計(jì)算用戶(hù)的虛假指數(shù),即某用戶(hù)發(fā)布虛假信息的可能性。德格魯特模型為確定某特定團(tuán)體能否就某一問(wèn)題達(dá)成共識(shí)提供了簡(jiǎn)單的方案。在此模型中,假設(shè)每個(gè)個(gè)體通過(guò)將自己與朋友的見(jiàn)解進(jìn)行中和的方式形成自己的最終意見(jiàn)[28]。基于此,每位用戶(hù)ui會(huì)被指派一個(gè)虛假指數(shù)的初始值Pi(0)=0。然后,假定A為“銳推”圖形G的鄰接矩陣,若用戶(hù)u轉(zhuǎn)發(fā)了用戶(hù)v的推文,則A(u,v)=1;研究團(tuán)隊(duì)通過(guò)調(diào)轉(zhuǎn)A的邊緣創(chuàng)造一個(gè)躍遷矩陣T,并使A值為1,意即每位用戶(hù)轉(zhuǎn)發(fā)若干用戶(hù)的推文,后者中每位用戶(hù)對(duì)前者的影響程度相同。矩陣T包括了每一節(jié)點(diǎn)根據(jù)假新聞的分享行為給予另一節(jié)點(diǎn)的權(quán)重。如此,發(fā)布可疑推文的用戶(hù)Pi(0)=1,未發(fā)布者Pi(0)=0。最后,他們運(yùn)用更新規(guī)則提取新指數(shù)的公式,即p(t)=T.p(t-1)??傊绻程囟ㄓ脩?hù)發(fā)布或者轉(zhuǎn)發(fā)了包含標(biāo)志列表中網(wǎng)址的推文,其虛假指數(shù)值即會(huì)上升。
由上可見(jiàn),這種方式首先是基于一個(gè)假設(shè),即在某在線(xiàn)社會(huì)網(wǎng)絡(luò)的子網(wǎng)絡(luò)中,有一些用戶(hù)發(fā)布過(guò)包含了標(biāo)志列表中網(wǎng)址的推文,與之距離愈近的用戶(hù),其發(fā)布虛假信息的可能性愈大;其次,此方式仍然是基于專(zhuān)業(yè)知識(shí)的標(biāo)志列表;最后,此方式也無(wú)法對(duì)推文內(nèi)容進(jìn)行分析。該方式最大的缺陷在于,如果含有標(biāo)志列表中網(wǎng)址的推文是辟謠的內(nèi)容,則此方法極易形成誤判。
3.3.2 語(yǔ)言學(xué)模型與深度神經(jīng)網(wǎng)絡(luò)算法識(shí)別
為實(shí)現(xiàn)對(duì)新聞內(nèi)容真?zhèn)蔚淖詣?dòng)監(jiān)測(cè),有研究團(tuán)隊(duì)開(kāi)發(fā)了語(yǔ)言學(xué)模型。其要義是提取新聞標(biāo)題與正文的語(yǔ)言學(xué)特征,并將其導(dǎo)入一個(gè)被訓(xùn)練用以識(shí)別文章內(nèi)容真實(shí)性的深度神經(jīng)網(wǎng)絡(luò)。該模型可分解為三個(gè)步驟:
第一步是數(shù)據(jù)獲取。研究團(tuán)隊(duì)選擇名為假新聞?wù)Z料庫(kù)的數(shù)據(jù)集。此數(shù)據(jù)集包括從開(kāi)源數(shù)據(jù)服務(wù)平臺(tái)提供的1 001個(gè)域名中爬取得到的超過(guò)900萬(wàn)篇新聞,它是為以識(shí)別假新聞為目的的深度學(xué)習(xí)算法的訓(xùn)練而設(shè)的。每篇新聞都被貼上某種標(biāo)簽,被分為12類(lèi),包括“假新聞”“極端偏激”“陰謀論”“仇恨新聞”“可靠的”等[23]。根據(jù)研究目的,他們選用“假新聞”與“可靠的”兩類(lèi),前者的定義為捏造信息、散布欺騙性?xún)?nèi)容或嚴(yán)重歪曲真實(shí)新聞報(bào)道的來(lái)源,后者的定義為以符合新聞業(yè)傳統(tǒng)和道德慣例的方式傳播新聞和信息的來(lái)源。兩者的數(shù)據(jù)集分別包括100萬(wàn)、200萬(wàn)篇文章。
第二步是語(yǔ)言學(xué)特征遴選。研究團(tuán)隊(duì)將語(yǔ)言學(xué)特征歸為三類(lèi):第一,文體特征,即每篇文章正文與標(biāo)題的句法及文本類(lèi)型;第二,復(fù)雜性特征,即每篇文章正文與標(biāo)題的可讀性與詞匯量等;第三,心理特征,即比照描述某種心理特質(zhì)的專(zhuān)業(yè)詞典,判定每篇文章正文與標(biāo)題的情感傾向。按此標(biāo)準(zhǔn),從數(shù)據(jù)集中文章的正文與標(biāo)題提取的、可用數(shù)值表示的特征共計(jì)534個(gè)。為消弭特征過(guò)多對(duì)模型訓(xùn)練的負(fù)面影響,研究者先將缺失值比例較高、僅具有單一值以及高度相關(guān)的特征刪除,再運(yùn)用梯度決策提升樹(shù)計(jì)算特征的重要性指數(shù)以排除零與低重要性的特征,由此剔除了134個(gè)特征;對(duì)于剩余的特征亦僅保留重要性指數(shù)排名前20者,比如正文行數(shù)、正文中平均每句話(huà)有多少個(gè)停止詞、標(biāo)題中大寫(xiě)字母的比例等。這些語(yǔ)言學(xué)特征將通過(guò)Javascript特征提取庫(kù)被導(dǎo)入深度神經(jīng)網(wǎng)絡(luò)模型。
第三步運(yùn)用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分析。首先進(jìn)行的是數(shù)據(jù)預(yù)處理,根據(jù)輸入規(guī)格,通過(guò)離散化或者獨(dú)熱編碼,將定類(lèi)數(shù)據(jù)轉(zhuǎn)化為數(shù)值。其結(jié)果是每個(gè)數(shù)據(jù)條目即代表數(shù)值特征的一個(gè)矢量。接著,將數(shù)據(jù)通過(guò)輸入層導(dǎo)入模型,輸入層之后是批歸一化層。批歸一化層的功能在于保證輸入數(shù)據(jù)具備零均值與單位方差,以使神經(jīng)網(wǎng)絡(luò)處于更佳的運(yùn)轉(zhuǎn)狀態(tài)。然后,經(jīng)歸一化的數(shù)據(jù)將進(jìn)入稠密層,或稱(chēng)全連接層。這是一個(gè)共計(jì)5層的瓶頸結(jié)構(gòu),相應(yīng)包含512、256、128、64、32個(gè)神經(jīng)元。該層的作用在于分類(lèi),即決定數(shù)據(jù)屬于何種類(lèi)型。最后,在模型的分類(lèi)層中,將每類(lèi)一個(gè)神經(jīng)元與歸一化指數(shù)函數(shù)一起用來(lái)生成概率對(duì)Preal與Pfake,即表示文章內(nèi)容是真實(shí)或虛假的相應(yīng)可能性[29]。
這種基于深度神經(jīng)網(wǎng)絡(luò)算法的識(shí)別技術(shù)可能在精確度上有所提高,但并非像人工一樣是基于對(duì)內(nèi)容的理解,而是只有概率意義上的準(zhǔn)確性。此外,深度神經(jīng)網(wǎng)絡(luò)是一個(gè)黑箱系統(tǒng),其判斷機(jī)理是“不可知的”,這也決定了在某些時(shí)候其可靠性值得懷疑。
由于檢測(cè)識(shí)別技術(shù)存在明顯的局限性,UGC大數(shù)據(jù)中信息內(nèi)容失實(shí)(信息內(nèi)容與社會(huì)事實(shí)不符)、用戶(hù)行為失實(shí)(數(shù)據(jù)并非用戶(hù)行為的真實(shí)記錄)、用戶(hù)心理失實(shí)(數(shù)據(jù)未能反映用戶(hù)的真實(shí)心理)等問(wèn)題難以消除,下文以幾個(gè)最為典型的案例進(jìn)行說(shuō)明。
網(wǎng)傳美國(guó)未來(lái)學(xué)家阿爾文·托夫勒在《第三次浪潮》中寫(xiě)道:“如果說(shuō)IBM的主機(jī)拉開(kāi)了信息化革命的大幕,那么‘大數(shù)據(jù)’才是第三次浪潮的華彩樂(lè)章?!睂?shí)際上《第三次浪潮》中并無(wú)此語(yǔ),阿爾文·托夫勒與此相近的言論為“計(jì)算機(jī)能夠記憶、聯(lián)系、篩選‘廣大數(shù)據(jù)’(vast masses of data),它將幫助我們以更為深刻的水平去認(rèn)識(shí)很多問(wèn)題。”[30]
運(yùn)用慧科新聞搜索研究數(shù)據(jù)庫(kù),以“大數(shù)據(jù)+第三次浪潮+華彩樂(lè)章”為組合關(guān)鍵詞進(jìn)行搜索,可以發(fā)現(xiàn)從2014年10月至2019年10月,在1 000多種平面媒體和3 000余種網(wǎng)絡(luò)媒體中,共有2 247篇文章引用了這句話(huà),分布于報(bào)紙、網(wǎng)站、論壇、博客之中,文章數(shù)分別為38、2050、135、23,其中不乏知名門(mén)戶(hù)網(wǎng)站乃至權(quán)威媒體;此外,還可見(jiàn)于學(xué)術(shù)論文(引用時(shí)均未標(biāo)明頁(yè)碼)。
這句憑空杜撰之語(yǔ)在互聯(lián)網(wǎng)上廣為流傳,而阿爾文·托夫勒的原話(huà)卻在網(wǎng)絡(luò)信息空間中難覓蹤影。在慧科新聞搜索研究數(shù)據(jù)庫(kù)中用多種關(guān)鍵詞組合進(jìn)行搜索,結(jié)果均為0;甚至直接采用百度進(jìn)行網(wǎng)頁(yè)搜索,也難覓其蹤。對(duì)于這種虛假錯(cuò)誤信息,基于統(tǒng)計(jì)方法與基于機(jī)器學(xué)習(xí)方法的檢測(cè)識(shí)別技術(shù)完全無(wú)能為力,必須由具有領(lǐng)域知識(shí)的人來(lái)判別,而靠專(zhuān)家來(lái)保證海量UGC大數(shù)據(jù)的質(zhì)量顯然是不切實(shí)際的。值得注意的是,2018年已有學(xué)者在學(xué)術(shù)論文中給出了正確的引文[31],但影響甚微。
用戶(hù)行為失實(shí)最典型的例子是“刷單”?!八巍敝干碳彝ㄟ^(guò)偽造資金往來(lái)或物流記錄,制造虛假銷(xiāo)量,從而實(shí)現(xiàn)促銷(xiāo)目的的行為[32]。這種對(duì)用戶(hù)購(gòu)買(mǎi)行為的偽造源于經(jīng)濟(jì)利益的驅(qū)使。2018年,阿里巴巴就監(jiān)控到2 800多個(gè)炒信平臺(tái),包括刷單QQ群2 384個(gè),空包交易平臺(tái)290個(gè),刷單交易平臺(tái)237個(gè)[33]。各電商平臺(tái)、相關(guān)政府部門(mén)對(duì)“刷單”行為的打擊力度持續(xù)加強(qiáng),如阿里巴巴建立覆蓋全鏈路的大數(shù)據(jù)實(shí)時(shí)風(fēng)控與稽查系統(tǒng)[34];2019年6—11月,市場(chǎng)監(jiān)管總局、發(fā)展改革委、工業(yè)和信息化部等8部門(mén)聯(lián)合開(kāi)展2019網(wǎng)絡(luò)市場(chǎng)監(jiān)管專(zhuān)項(xiàng)行動(dòng)[35]。在這種情況下,“刷單”現(xiàn)象仍然普遍存在。不僅網(wǎng)店商家刷,也有電商平臺(tái)授意供應(yīng)商和員工“自刷”[35],只是手段因時(shí)而異且更為隱秘。例如,阿里巴巴的生態(tài)產(chǎn)業(yè)鏈條上滋生了大量的“刷單螞蟻”,他們組織嚴(yán)密,培訓(xùn)嚴(yán)格,了解阿里打擊刷單技術(shù)體系的漏洞,這讓他們能夠“上有政策、下有對(duì)策”,刷出的銷(xiāo)量和評(píng)價(jià)能夠以假亂真[35]??梢?jiàn),這是平臺(tái)與刷單者的技術(shù)博弈,至少在當(dāng)前還難以清除“刷單”對(duì)數(shù)據(jù)造成的污染。
前述特朗普“通俄門(mén)”事件是UGC大數(shù)據(jù)中用戶(hù)心理失實(shí)的典型例證。利用社交媒介平臺(tái)偽造民意,進(jìn)而影響用戶(hù)思想、改變用戶(hù)初衷的問(wèn)題,在美國(guó)引發(fā)廣泛關(guān)注。為此,美國(guó)參議院情報(bào)委員會(huì)多次舉行聽(tīng)證會(huì)。在2018年9月5日進(jìn)行的聽(tīng)證會(huì)上,臉書(shū)首席運(yùn)營(yíng)官雪莉·桑德伯格承認(rèn)對(duì)于問(wèn)題的發(fā)現(xiàn)與應(yīng)對(duì)過(guò)于遲緩,但堅(jiān)持認(rèn)為臉書(shū)已經(jīng)在甄別、封殺可疑用戶(hù)方面取得相當(dāng)進(jìn)展,稱(chēng)臉書(shū)“每天阻止成百上千萬(wàn)次注冊(cè)虛假賬號(hào)的嘗試”;推特CEO杰克·多西亦直言對(duì)問(wèn)題的棘手程度準(zhǔn)備不足、相關(guān)技術(shù)亦不完善,但已經(jīng)做到“每天阻止超過(guò)50萬(wàn)個(gè)可疑賬戶(hù)登錄推特”[36]。除此之外,兩者并未就如何改進(jìn)現(xiàn)狀透露更多細(xì)節(jié)。而本應(yīng)參會(huì)的谷歌卻未如期前往,有媒介分析稱(chēng)谷歌此舉意在回避那些可能讓其緊張尷尬的問(wèn)題[37]。這表明擁有強(qiáng)大資源的互聯(lián)網(wǎng)巨頭雖然付出了努力,但其現(xiàn)有技術(shù)手段尚不足以對(duì)UGC數(shù)據(jù)偽造、操控民意的內(nèi)容進(jìn)行有效鑒別與剔除。
此外,用戶(hù)在社交媒體上著力構(gòu)建完美“人設(shè)”,從而導(dǎo)致在網(wǎng)絡(luò)中的“言”與現(xiàn)實(shí)生活中的“行”不一致,即“前臺(tái)后臺(tái)效應(yīng)”。近年來(lái),經(jīng)營(yíng)“人設(shè)”成為明星自我推銷(xiāo)、攫取流量的手段。然而,不少明星的后臺(tái)行為一旦被曝光,其在前臺(tái)經(jīng)營(yíng)的“人設(shè)”便瞬間崩塌。同時(shí),“人設(shè)”經(jīng)營(yíng)愈發(fā)大眾化。一些用戶(hù)在社交媒體平臺(tái)上謹(jǐn)慎經(jīng)營(yíng)自己的“人設(shè)”,比如,為秀文化底蘊(yùn),還沒(méi)有真正讀完一本書(shū)就先曬出三五句評(píng)論,或精心挑選“適合發(fā)朋友圈的句子”[38]?!叭嗽O(shè)”與真實(shí)生活有時(shí)存在巨大落差,只是刻意表演出來(lái)的“精神顏值”[38]。
可見(jiàn),無(wú)論是對(duì)民意的偽造或操控,還是用戶(hù)刻意打造的網(wǎng)絡(luò)形象,都是虛假心理狀態(tài)的體現(xiàn),這些對(duì)社會(huì)科學(xué)研究而言無(wú)疑是干擾項(xiàng)。對(duì)此,互聯(lián)網(wǎng)巨頭尚不具備令人滿(mǎn)意的去偽存真的技術(shù)手段。
由上述分析可見(jiàn),將UGC大數(shù)據(jù)運(yùn)用于社會(huì)科學(xué)研究,在很多時(shí)候都會(huì)面對(duì)各種真實(shí)性值得懷疑的數(shù)據(jù),因此不能拿來(lái)即用,必須以合適的方式檢驗(yàn)數(shù)據(jù)的質(zhì)量,判斷可能存在的誤差,并采用適當(dāng)?shù)牟呗?,將研究結(jié)論的誤差控制在可以接受的范圍內(nèi)。根據(jù)當(dāng)前的數(shù)據(jù)狀態(tài)與技術(shù)水平,在研究中可采用的策略如下。
UGC大數(shù)據(jù)種類(lèi)很多,基于UGC大數(shù)據(jù)的社會(huì)科學(xué)研究也有不同的指向和特點(diǎn)。當(dāng)研究者決定采用某些UGC數(shù)據(jù)時(shí),就需要憑借自己的知識(shí)和經(jīng)驗(yàn),對(duì)數(shù)據(jù)的真實(shí)性、準(zhǔn)確性做出初步判斷。有些數(shù)據(jù)所受污染較小,或雖有一定程度的污染但對(duì)研究結(jié)論的影響不大,例如,通過(guò)對(duì)用戶(hù)在網(wǎng)上言論的情緒分析,來(lái)研究人類(lèi)情緒是否和季節(jié)、天氣有較強(qiáng)的相關(guān)性,以驗(yàn)證心理學(xué)的相關(guān)假設(shè)。而有些數(shù)據(jù)則可能存在很?chē)?yán)重的質(zhì)量問(wèn)題,例如在2016年美國(guó)大選期間,假新聞和民意偽造泛濫成災(zāi),此時(shí)用UGC數(shù)據(jù)來(lái)分析民眾投票傾向,其研究結(jié)論就會(huì)大受質(zhì)疑。例如,2016年包括微軟必應(yīng)在內(nèi)的基于大數(shù)據(jù)對(duì)美國(guó)大選投票結(jié)果的預(yù)測(cè)幾乎“全軍覆沒(méi)”。對(duì)數(shù)據(jù)質(zhì)量進(jìn)行預(yù)判的主要思路是分析所選擇的UGC數(shù)據(jù)是否存在媒介市場(chǎng)化、媒介政治化、生產(chǎn)者動(dòng)機(jī)等因素的影響,影響程度如何。
UGC大數(shù)據(jù)體量龐大,不可能進(jìn)行總體的質(zhì)量檢驗(yàn),但可采用隨機(jī)抽樣的方法,從中抽取一定數(shù)量的樣本,由具備豐富領(lǐng)域知識(shí)經(jīng)驗(yàn)的研究人員對(duì)樣本進(jìn)行人工檢驗(yàn),并依據(jù)檢驗(yàn)結(jié)果推斷其總體質(zhì)量,進(jìn)而判斷研究結(jié)論大致的誤差范圍(置信區(qū)間)。需要特別指出的是,這種檢測(cè)與計(jì)算機(jī)技術(shù)意義下的數(shù)據(jù)質(zhì)量檢驗(yàn),兩種數(shù)據(jù)質(zhì)量的含義是完全不一樣的。前者針對(duì)信息內(nèi)容的真實(shí)性、準(zhǔn)確性;后者指在大數(shù)據(jù)預(yù)處理環(huán)節(jié)進(jìn)行的數(shù)據(jù)清洗、去重等技術(shù)性操作,其目的是保證獲取的數(shù)據(jù)集與源數(shù)據(jù)的一致性。當(dāng)前基于UGC的研究,大多缺失抽樣檢驗(yàn)環(huán)節(jié)。計(jì)算社會(huì)科學(xué)研究者必須正視現(xiàn)實(shí),不能將受到嚴(yán)重污染的數(shù)據(jù)用于研究,除非能夠消除這些污染。
大數(shù)據(jù)分析最顯著的優(yōu)勢(shì)在于研究的精細(xì)化以及對(duì)事物相關(guān)性的發(fā)現(xiàn)能力。UGC大數(shù)據(jù)尤其在對(duì)普通人群的心理、觀念、行為的研究中具有重要價(jià)值,但缺陷是數(shù)據(jù)質(zhì)量往往難以保證。因此我們可以將大數(shù)據(jù)分析與傳統(tǒng)研究相結(jié)合,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。研究者基于UGC大數(shù)據(jù)進(jìn)行探索性研究,以發(fā)現(xiàn)事物的多樣性及事物之間的相關(guān)性,但并不輕易將其作為可靠結(jié)論,而是在此基礎(chǔ)上提出研究假設(shè),然后設(shè)計(jì)嚴(yán)謹(jǐn)?shù)难芯靠蚣?,用傳統(tǒng)方法對(duì)假設(shè)進(jìn)行進(jìn)一步驗(yàn)證。
對(duì)同一問(wèn)題的研究,在條件允許的情況下,可采用多種數(shù)據(jù)源,如搜索數(shù)據(jù)可采用百度、搜狐、360等,社交媒體數(shù)據(jù)可采用微博、微信等;然后比較基于不同數(shù)據(jù)源的研究結(jié)論的一致性程度,看一項(xiàng)研究是否能夠得出跨平臺(tái)的結(jié)論。
以上只是對(duì)UGC數(shù)據(jù)質(zhì)量問(wèn)題的初步思考與嘗試,其應(yīng)對(duì)策略還需要計(jì)算社會(huì)科學(xué)學(xué)者不斷探索與改進(jìn)。
隨著數(shù)字化生活時(shí)代的到來(lái),互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)上產(chǎn)生了海量的用戶(hù)生成內(nèi)容。這種大規(guī)模的個(gè)人行為互動(dòng)數(shù)據(jù)是以往難以甚至無(wú)法獲取的研究資料,它蘊(yùn)藏著廣大網(wǎng)絡(luò)用戶(hù)的思想觀念、行為傾向、情感心理等社會(huì)事實(shí)信息,具有重大的社會(huì)科學(xué)價(jià)值。但要將UGC大數(shù)據(jù)運(yùn)用于社會(huì)科學(xué)研究,必須首先考察其質(zhì)量。從UGC大數(shù)據(jù)生產(chǎn)者的異質(zhì)性、生產(chǎn)動(dòng)機(jī)的差異性、內(nèi)容檢測(cè)識(shí)別技術(shù)等影響因素進(jìn)行分析,可以發(fā)現(xiàn)網(wǎng)絡(luò)信息與社會(huì)現(xiàn)實(shí)是兩個(gè)不平行的空間,數(shù)據(jù)質(zhì)量呈現(xiàn)極度的不均衡性。認(rèn)為UGC大數(shù)據(jù)能夠真實(shí)、客觀、準(zhǔn)確地反映社會(huì)事實(shí)與人們的行為、思想觀念和心理狀態(tài),能夠完美地適應(yīng)各種社會(huì)科學(xué)研究的需要,籠統(tǒng)地給大數(shù)據(jù)冠以真實(shí)性、準(zhǔn)確性特征是輕率的。UGC的發(fā)布和傳播基本處于無(wú)控制或極弱控制狀態(tài),這既是UGC的最大優(yōu)勢(shì),也導(dǎo)致了UGC數(shù)據(jù)的缺陷。各網(wǎng)絡(luò)平臺(tái)對(duì)缺乏信息審核評(píng)價(jià)機(jī)制的弊端早有所知,也采取了很多措施對(duì)數(shù)據(jù)質(zhì)量進(jìn)行控制,但效果有限。同時(shí),當(dāng)前基于人工研判的識(shí)別、基于統(tǒng)計(jì)的自動(dòng)測(cè)量、基于機(jī)器學(xué)習(xí)的自動(dòng)檢測(cè)技術(shù)主要是針對(duì)文本型數(shù)據(jù)且皆有其局限性,尚無(wú)力應(yīng)對(duì)互聯(lián)網(wǎng)信息生態(tài)的復(fù)雜性,亦難以適應(yīng)UGC大數(shù)據(jù)的多態(tài)性、動(dòng)態(tài)性特點(diǎn),因此從原始數(shù)據(jù)中提取出高質(zhì)量數(shù)據(jù)往往是很困難的。
對(duì)計(jì)算社會(huì)科學(xué)而言,數(shù)據(jù)質(zhì)量是研究質(zhì)量的基礎(chǔ),也是UGC大數(shù)據(jù)價(jià)值發(fā)揮的關(guān)鍵。致力于計(jì)算社會(huì)科學(xué)的學(xué)者一定要清醒認(rèn)識(shí)到,包括UGC在內(nèi)的大數(shù)據(jù)并不是萬(wàn)能的。UGC大數(shù)據(jù)存在的一些缺陷,憑借當(dāng)前的數(shù)據(jù)處理技術(shù)尚無(wú)法解決,這也是高水平的研究和高質(zhì)量的成果并不多見(jiàn)的重要原因之一。在當(dāng)前條件下,計(jì)算社會(huì)科學(xué)以UGC為研究資料,必然會(huì)面對(duì)各種真實(shí)性、準(zhǔn)確性值得懷疑的數(shù)據(jù)。將UGC大數(shù)據(jù)運(yùn)用于社會(huì)科學(xué)研究,必須根據(jù)具體情況對(duì)數(shù)據(jù)質(zhì)量進(jìn)行審慎的分析和判斷。但分析UGC大數(shù)據(jù)的質(zhì)量缺陷,絕不是為了將其“棄之如敝屣”,而是為了探索提高數(shù)據(jù)質(zhì)量的方法和途徑,使之更好地發(fā)揮價(jià)值。在技術(shù)方面,通過(guò)發(fā)展人工智能技術(shù)來(lái)提高數(shù)據(jù)的檢測(cè)識(shí)別精度應(yīng)該是主要方向;在具體研究方面,需要通過(guò)數(shù)據(jù)質(zhì)量預(yù)判與抽樣檢驗(yàn),采用與傳統(tǒng)研究相結(jié)合、多種UGC數(shù)據(jù)交叉驗(yàn)證等策略予以應(yīng)對(duì),并不斷探索與改進(jìn)適合UGC大數(shù)據(jù)運(yùn)用的研究方法。
(來(lái)稿時(shí)間:2020年8月)