尚聞一,車尚錕
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和網(wǎng)絡(luò)社會(huì)影響的擴(kuò)大,特別是由網(wǎng)民開發(fā)工具、提供內(nèi)容和建設(shè)社區(qū)[1]的Web2.0模式的高速推進(jìn),民眾在網(wǎng)絡(luò)空間中社會(huì)交往和活動(dòng)的重要性日益增強(qiáng)。網(wǎng)民參與網(wǎng)絡(luò)信息處理與加工的門檻大大降低,信息加工與分享得以普及,于是全民的社會(huì)交往和活動(dòng)向網(wǎng)絡(luò)空間拓展,大大加強(qiáng)了普通民眾公共參與的能力和意愿:“如果……在過去25年間個(gè)人傾向加強(qiáng)了,公共參與減少了,那么互聯(lián)網(wǎng)就是扭轉(zhuǎn)這種傾向的中心力量?!盵2]在網(wǎng)絡(luò)社會(huì)中,民眾發(fā)聲能力強(qiáng)化,社會(huì)也就注入了新的活力。
網(wǎng)絡(luò)技術(shù)也為社會(huì)帶來隱憂,一種走向是極端思想的匯流和群體暴力的肆虐。古斯塔夫·勒龐(Gustave Le Bon)在《烏合之眾》中指出,作為行動(dòng)群體一員的個(gè)人,其集體心理與個(gè)人心理有著本質(zhì)差別,而其智力也會(huì)受到這種差別的影響,于是智力在集體中不起作用,而完全處在無意識情緒的支配之下[3]134-136。這種心理如果不加約束,就會(huì)導(dǎo)致“群體極化”(Group Polarization)問題。
托克維爾指出,個(gè)人主義會(huì)隨著身份平等的擴(kuò)大而不斷在社會(huì)中擴(kuò)散[4]625-627。在網(wǎng)絡(luò)社會(huì)中,身份平等正以遠(yuǎn)勝托克維爾所處時(shí)代的程度在社會(huì)中擴(kuò)大,個(gè)人主義傾向隨之伴生,這種傾向倘若任其發(fā)展,相互串聯(lián),就會(huì)形成“群體極化”現(xiàn)象,即“團(tuán)體成員一開始即有某些偏向,在商議后,人們朝偏向的方向繼續(xù)移動(dòng),最后形成極端的觀點(diǎn)”[5]47。受困于信息過載的網(wǎng)民有對信息過濾的需求,網(wǎng)站經(jīng)營者又有對相似觀點(diǎn)的青睞,群體極化因而形成。群體極化藉由“虛擬串聯(lián)”進(jìn)一步發(fā)酵,腐蝕“社會(huì)粘性”(SocialGlue)[5]41-67。
對群體極化問題,學(xué)界從不同角度進(jìn)行討論。西方學(xué)者主要關(guān)注其機(jī)制的不同闡釋。Van Swol認(rèn)為,群體極化的產(chǎn)生源于個(gè)體希望在群體中獲得認(rèn)同,因此傾向持有與群體相似的觀點(diǎn),并通過更極端化的表達(dá)彰顯其領(lǐng)袖地位[6]。Vinokur等指出,由于人們在不同觀點(diǎn)中普遍傾向選擇自己了解更多信息的一種,處在群體中的人們會(huì)自然地轉(zhuǎn)向這一群體普遍持有的觀點(diǎn)[7]。Abrams等則將這一現(xiàn)象歸因于“自我歸類”(Self-categorization):群體成員選擇相同的觀點(diǎn)是為了凸顯自己從屬于這一群體的身份特征[8]。
在對群體極化概念加以理解的基礎(chǔ)上,學(xué)界近年來一個(gè)重要的研究轉(zhuǎn)向是關(guān)注群體極化的測量。對此,這一發(fā)軔于政治學(xué)的概念不僅受到社會(huì)學(xué)和心理學(xué)等方面的關(guān)注,人機(jī)交互乃至信息系統(tǒng)領(lǐng)域的學(xué)者也試圖利用本專業(yè)的研究范式對群體極化現(xiàn)象加以度量。Isenberg使用實(shí)驗(yàn)方法,論證社會(huì)比較(Social Comparison)和說服論證(Persuasive Argumentation)過程對群體極化的引發(fā)機(jī)制,指明后者的影響尤為重要[9]。Friedkin使用選擇轉(zhuǎn)向(Choice Shift)來度量群體極化,解釋了社會(huì)心理學(xué)視域下人際影響網(wǎng)絡(luò)的構(gòu)成和地位結(jié)構(gòu)對個(gè)體選擇變化的影響[10]。Dubrovsky等在人機(jī)交互視角下,通過實(shí)證研究,比較計(jì)算機(jī)媒介下和面對面溝通中決策小組地位的影響,也研究了這一過程中決策者傾向的變化和決策的轉(zhuǎn)變[11]。Sia等從信息系統(tǒng)研究角度出發(fā),通過實(shí)證研究,引入統(tǒng)計(jì)學(xué)方法度量,以檢驗(yàn)計(jì)算機(jī)輔助交流(CMC)與群體極化問題的關(guān)聯(lián)[12]。
應(yīng)對網(wǎng)絡(luò)空間的“群體極化”問題,必須培養(yǎng)一種“協(xié)商調(diào)和”機(jī)制,即公民進(jìn)行充分溝通和討論,以實(shí)現(xiàn)理性協(xié)商作為決策的前提。對此,在《網(wǎng)絡(luò)共和國》中提出要抑制群體極化的凱斯·桑斯坦(Cass Sunstein)從政府規(guī)訓(xùn)角度提出解決方案,認(rèn)為應(yīng)由政府促成網(wǎng)絡(luò)空間中不同意見的協(xié)商[5]90。但僅僅依靠政府進(jìn)行規(guī)制是不足的,網(wǎng)絡(luò)社區(qū)同樣可能內(nèi)蘊(yùn)著能夠促成“協(xié)商調(diào)和”的內(nèi)部力量。在Web2.0大潮中,以此為宗旨的Wiki技術(shù)正在付諸實(shí)踐,先行者便是以維基百科為代表的在線協(xié)作書寫(Collaborative Writing)。
維基百科是全球最具影響力的網(wǎng)絡(luò)百科全書,作為在線協(xié)作書寫的代表吸引學(xué)界的廣泛關(guān)注。周慶山等提出維基百科信息自組織模式的六種特征:中立定位、內(nèi)容和用戶開放、協(xié)作共享、信息自組織管理和修改、信息增長、用戶互動(dòng)形成規(guī)范[13],并注意到其協(xié)作書寫的基本屬性。維基百科的在線協(xié)作書寫特質(zhì),使之成為應(yīng)對群體極化問題的一個(gè)有效嘗試。其對群體極化制衡作用的第一種途徑,是多元化、差異化的參與者組成。參與者的多元屬性是維基百科提高書寫質(zhì)量、特別是抑制群體極化的秘訣所在。Arazy等注意到,維基百科致力于擴(kuò)大編撰者群體的數(shù)量與差異性。而群體差異帶來的基于任務(wù)的沖突恰恰是提高詞條質(zhì)量的重要因素[14];類似地,Wilkinson等考察了編輯行為和合作行為對詞條質(zhì)量的影響,證實(shí)了編撰者的差異性和詞條質(zhì)量呈現(xiàn)正相關(guān)[15]。這些差異性不僅有利于詞條質(zhì)量的增強(qiáng),更增加了維基百科編撰群體的異質(zhì)性,使之不至于在討論之初便普遍具備某種偏向,從而抑制了群體極化的風(fēng)險(xiǎn)。
維基百科制衡群體極化的第二種途徑,是維基百科協(xié)作書寫的各種運(yùn)行機(jī)制。Halfaker等對維基百科“拒絕”(reject)機(jī)制的實(shí)證研究表明:編撰者豐富的經(jīng)驗(yàn)并不能使他們在避免被拒絕時(shí)有所優(yōu)勢;編撰者非常熱衷于維護(hù)自己的貢獻(xiàn),盡管這種所有權(quán)意識行為(Ownership Behavior)不為維基百科的原則所鼓勵(lì)[16]。他們還在另一個(gè)研究中關(guān)注了維基百科的“復(fù)原”(revert)機(jī)制,發(fā)現(xiàn)復(fù)原機(jī)制盡管會(huì)在相當(dāng)程度上打消編撰者(特別是新編撰者)的積極性,但積極影響大于消極影響,有利于維基百科維系其質(zhì)量[17]。此外,王烽對維基百科擁有的一種獨(dú)特且相對完善的協(xié)商途徑——討論頁進(jìn)行研究,發(fā)現(xiàn)“討論頁……不同于條目編輯頁直接對條目作出修改,而是通過志愿者對話的形式,對條目的內(nèi)容與質(zhì)量進(jìn)行協(xié)商”[18]。這三種維基百科獨(dú)特的運(yùn)作模式為詞條協(xié)作書寫提供了有效的協(xié)商機(jī)制,讓各種觀點(diǎn)充分交鋒,從而促進(jìn)協(xié)商調(diào)和。
維基百科多元化的參與者組成和促進(jìn)觀點(diǎn)充分交鋒的協(xié)商機(jī)制引起大量沖突,而這種沖突同時(shí)也是抑制群體極化、達(dá)致協(xié)商調(diào)和的關(guān)鍵所在。吳克文分析了互聯(lián)網(wǎng)群體協(xié)作中的沖突模式,提出基于段落編輯歷史的文本比較、沖突網(wǎng)絡(luò)的可視化和內(nèi)容歸屬展示三種改進(jìn)設(shè)計(jì)[19]。更多學(xué)者則針對某一個(gè)詞條進(jìn)行案例分析,選取的詞條包括英文維基百科“Wukan protests”詞條(和對應(yīng)的百度百科“9·21烏坎村事件”詞條)[20]、中文維基百科“南京大屠殺”詞條[21]和百度百科“11·13巴黎恐怖襲擊事件”詞條[22],分別從不同話語框架的建構(gòu)對話語沖突的反映、在線記憶社群的協(xié)作與話語權(quán)爭奪、在線集體記憶有別于媒介報(bào)道的特點(diǎn)等角度,綜合利用編輯成員構(gòu)成及其社會(huì)網(wǎng)絡(luò)分析、詞條篇幅變遷分析、討論頁分析等手段進(jìn)行研究。這些基于某一詞條的案例分析并未試圖針對群體極化問題進(jìn)行實(shí)證分析,但仍為本文提供了諸多借鑒。
綜上所述,對于在線協(xié)作書寫的代表維基百科與群體極化問題的關(guān)聯(lián),學(xué)界已從參與者組成、協(xié)商機(jī)制和書寫中的沖突三個(gè)角度進(jìn)行了充分的討論?!罢鐔⒚蛇\(yùn)動(dòng)引導(dǎo)了一個(gè)知識創(chuàng)造的新組織模型,新網(wǎng)絡(luò)也幫助把科學(xué)界轉(zhuǎn)變?yōu)橐粋€(gè)逐漸開放和協(xié)作的網(wǎng)絡(luò)。”[23]163“大規(guī)模協(xié)作”的先驅(qū)維基百科并不掩蓋編撰者觀點(diǎn)的差異,相反,其運(yùn)行機(jī)制為了避免百科全書成為某些特定群體的“回音室”,著力讓擁有不同背景、秉持不同觀點(diǎn)的編撰者相互協(xié)作。以此為背景,本文通過實(shí)證研究,討論維基百科在線協(xié)作書寫對群體極化的抑制作用。本文選取英文維基百科“Islamophobia”(伊斯蘭恐懼癥)這一極具爭議性的詞條,通過對其討論頁文本的情感傾向分析和對詞條編輯用戶的社會(huì)網(wǎng)絡(luò)分析,試圖回應(yīng)如下問題:在維基百科運(yùn)行中,參與協(xié)作的編撰者的意見在討論后是進(jìn)一步分化,走向“群體極化”,還是會(huì)相互調(diào)和,實(shí)現(xiàn)理想的“協(xié)商調(diào)和”模式?
在文獻(xiàn)調(diào)研的基礎(chǔ)上,筆者提出研究框架,見圖1。首先,收集英文維基百科詞條“Islamophobia”(伊斯蘭恐懼癥)討論頁(Talk Page)中的自然語言文本數(shù)據(jù)和詞條編輯歷史(Revision History)中的編輯數(shù)據(jù);接著,展開兩個(gè)并行的數(shù)據(jù)分析過程:情感傾向分析和社會(huì)網(wǎng)絡(luò)分析;最后,對數(shù)據(jù)分析的結(jié)果進(jìn)行評估與闡釋。
在研究框架中,兩個(gè)并行的數(shù)據(jù)分析過程——情感傾向分析和社會(huì)網(wǎng)絡(luò)分析在邏輯上相互聯(lián)系、相互補(bǔ)充。情感傾向分析討論頁中文本的情感傾向變化,反映用戶針對詞條內(nèi)容進(jìn)行相互溝通與辯爭時(shí)情緒和觀點(diǎn)的變化,關(guān)注用戶的討論行為;而社會(huì)網(wǎng)絡(luò)分析則針對編輯行為,依托詞條編輯數(shù)據(jù),通過基于詞條編輯關(guān)系構(gòu)建的編輯網(wǎng)絡(luò),分析用戶的編輯關(guān)系變化,反映用戶對詞條進(jìn)行編輯時(shí)立場的轉(zhuǎn)移,關(guān)注用戶的編輯行為。二者互為表里:編輯行為所處的立場,決定討論行為所秉持的觀點(diǎn),而討論后觀點(diǎn)的變遷又深刻影響著下一步的編輯行為。本研究選用情感傾向分析和社會(huì)網(wǎng)絡(luò)分析,分別考察詞條發(fā)展過程中用戶討論行為和編輯行為的變化。通過對這兩種行為的度量,分析維基百科獨(dú)特的“討論頁”功能對用戶編輯行為的影響,從而理解維基百科在線協(xié)作書寫影響網(wǎng)絡(luò)民主的內(nèi)在機(jī)制。
圖1 研究框架
本研究選取“Islamophobia”(伊斯蘭恐懼癥)詞條作為數(shù)據(jù)源?!耙了固m恐懼癥”專指非穆斯林針對伊斯蘭信仰的原生恐懼與仇恨,這一說法最早產(chǎn)生于1970年代。2001年“9·11事件”后,隨著西方對伊斯蘭世界敵視情緒的增長而升溫,引起激烈辯爭。這一概念影響頗大,John Esposito等甚至撰寫專著進(jìn)行探討[24]。
“Islamophobia”詞條的諸多優(yōu)點(diǎn)使之成為群體極化問題研究的天然數(shù)據(jù)源。第一,這一詞條極具爭議性,關(guān)涉文明沖突、宗教對立和族群對話等母題,對其話語權(quán)的爭奪貫穿詞條編輯歷史的全過程,符合“群體極化”定義中“團(tuán)體成員一開始具有某些偏向”的特征;第二,這一詞條影響力大,編輯次數(shù)逾5000次;第三,促成伊斯蘭恐懼癥升溫的“9·11事件”與維基百科的創(chuàng)建同在2001年,該詞條較早吸引了維基百科編輯用戶的關(guān)注,創(chuàng)建時(shí)間早。同時(shí),盡管僅使用一個(gè)詞條存在樣本量不足而導(dǎo)致的效度問題,但該詞條較強(qiáng)的代表性和詞條內(nèi)部較大的數(shù)據(jù)量可以在一定程度上克服樣本量的局限性。
該詞條自2003年創(chuàng)建以來,每年的編輯次數(shù)明顯波動(dòng):2003年22次;2004年118次;2005年792次;2006年、2007年達(dá)到峰值,均超過1000次;2008年后編輯次數(shù)高速下降,2008年303次;2009年跌至50次,從此再也沒有回到過峰值。密集編輯反映的是詞條熱度的變遷,當(dāng)詞條熱度驟降,群體極化現(xiàn)象便不顯著。因此,本研究選取該詞條創(chuàng)建、發(fā)展至鼎盛期的討論和編輯歷史作為研究對象,截取2003-2007年討論頁中全部的討論文本和編輯數(shù)據(jù)進(jìn)行分析研究。其中,討論頁記錄用戶有關(guān)詞條內(nèi)容的辯爭、討論與協(xié)商,提供的自然語言文本數(shù)據(jù)能夠反映處于不同立場的討論參與者之間情感傾向的變化;而編輯數(shù)據(jù)記錄不同用戶對詞條修改的全部歷史,能夠揭示用戶之間的編輯關(guān)系,反映編輯用戶對詞條內(nèi)容話語權(quán)的爭奪。在數(shù)據(jù)分析階段,本文對討論頁文本數(shù)據(jù)進(jìn)行情感傾向分析,對編輯數(shù)據(jù)進(jìn)行社會(huì)網(wǎng)絡(luò)分析。
對數(shù)據(jù)收集階段獲取的2003-2007年記錄于討論頁的全部文本(詞條討論頁Archive1-10及Archive11的前33組數(shù)據(jù)),首先在預(yù)處理階段進(jìn)行數(shù)據(jù)清洗,對換行問題和部分元數(shù)據(jù)的缺失進(jìn)行自動(dòng)修復(fù),并將清洗后的數(shù)據(jù)以一組對話為基本單元、以討論對話的縮進(jìn)作為判定對話對象的標(biāo)準(zhǔn),創(chuàng)建情感傾向分析的數(shù)據(jù)源。為了得出每一組對話的情感傾向,研究使用三個(gè)模型進(jìn)行訓(xùn)練。
(1)利用自然語言處理工具NLTK自帶的、基于電影評論文本及其對應(yīng)情感傾向數(shù)據(jù)訓(xùn)練的樸素貝葉斯(Naive Bayes)模型(使用的數(shù)據(jù)集為nltk.corpus中的movie reviews),使用NLTK提供的分類器直接進(jìn)行訓(xùn)練[25]。使用這一分類器是機(jī)器學(xué)習(xí)領(lǐng)域的通用方法,優(yōu)勢在于作為訓(xùn)練數(shù)據(jù)的電影評論文本較為完備、標(biāo)簽也較為細(xì)致:內(nèi)置的情感分析相關(guān)語料既包含整個(gè)句子的三元分類標(biāo)注,也包含重要情感詞的情感傾向數(shù)值(為[-1,1]區(qū)間內(nèi)的一位小數(shù))。因此,利用NLTK內(nèi)已集成好的樸素貝葉斯分類器既可以輸出情感傾向的三元分類值(-1、0、1,即反對、中立、支持),又可以輸出具體的極性值(即[-1,1]區(qū)間內(nèi)的、表示情感傾向具體強(qiáng)度的任意一個(gè)小數(shù))。訓(xùn)練數(shù)據(jù)共有2000條,按照4:1劃分訓(xùn)練集與測試集;最終的訓(xùn)練集共有1600條、測試集共有400條數(shù)據(jù),準(zhǔn)確率達(dá)73.5%。
(2)利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練互聯(lián)網(wǎng)電影數(shù)據(jù)庫(IMDb)共10662條電影評論文本及其對應(yīng)的情感傾向數(shù)據(jù),選取這一訓(xùn)練集同樣沿用機(jī)器學(xué)習(xí)領(lǐng)域通用的做法,旨在利用其完備的數(shù)據(jù)集以達(dá)到良好的訓(xùn)練效果。每條數(shù)據(jù)由兩個(gè)部分組成:評論文本和對應(yīng)的情感傾向(標(biāo)簽為pos或neg,分別表示積極和消極),10662條數(shù)據(jù)中正負(fù)向情感的訓(xùn)練數(shù)據(jù)各一半。參考Kim在多項(xiàng)任務(wù)中獲得“頂尖水準(zhǔn)”(state of the art)的模型[26],對這些以txt格式存儲(chǔ)、包含文本和類別標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行深度學(xué)習(xí)。在具體實(shí)現(xiàn)中,使用Tensorflow作為深度學(xué)習(xí)框架,構(gòu)建包含詞嵌入(Word Embedding,將自然語言詞語轉(zhuǎn)化為高維向量)層[27-28]、卷積層、池化層以及隨機(jī)失活方法和softmax決策函數(shù)的模型,采用L2正則化技術(shù)避免過擬合。模型在詞嵌入層設(shè)置窗口大小為5、詞語向量維度為128,共訓(xùn)練200輪次(epoch),每一輪次150批(batch)。同樣按照4:1劃分訓(xùn)練集與測試集,最終的訓(xùn)練集為8530條、測試集為2132條,通過調(diào)參,準(zhǔn)確率可達(dá)到85%。
(3)考慮到上述兩種基于機(jī)器學(xué)習(xí)的方法所使用的訓(xùn)練數(shù)據(jù)都是電影評論文本,而非Wikipedia討論頁文本,因此本研究使用基于規(guī)則的方法,以詞語為特征進(jìn)行基于規(guī)則的匹配,從而為情感傾向判定提供補(bǔ)充。研究采用在WordNet詞集[29]基礎(chǔ)上擴(kuò)展而出、被廣泛應(yīng)用于情感識別任務(wù)的情感語義網(wǎng)詞集SentiWordNet[30-31]。這一詞集共包含100000多個(gè)詞條記錄,每個(gè)詞條記錄由詞性、詞條編號、正向情感值、負(fù)向情感值、同義詞詞條名和注釋組成。因?yàn)樵~集共包含名詞、形容詞、動(dòng)詞和副詞四種詞性,每個(gè)詞語可以具有多個(gè)詞性,在不同詞性下對應(yīng)的情感傾向值也不同。所以,本研究通過詞性識別和詞形還原(基于NLTK工具包的句法分析和詞形還原工具實(shí)現(xiàn)),得到文本中每個(gè)詞語的詞性和原始詞形(去掉復(fù)數(shù)、動(dòng)詞時(shí)態(tài)等),然后通過停用詞表進(jìn)行詞語過濾,將選中的詞語根據(jù)詞性在詞集中搜索其對應(yīng)的正負(fù)向情感傾向值,將段落中所有選中詞語的正向情感傾向值和負(fù)向情感傾向值分別累加,根據(jù)二者的相對大小關(guān)系判定每段對話的情感傾向。
上述3種模型是情感分析中最為主流、性能最為優(yōu)越的幾種模型。不過,這3種模型各有優(yōu)劣,為進(jìn)一步提高結(jié)果的信度,采用集成學(xué)習(xí)中并行集成[32]的方法,將3個(gè)模型結(jié)合起來以提高準(zhǔn)確率。由于前兩種模型均為基于電影評論數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)得到的模型,為平衡機(jī)器學(xué)習(xí)方法和基于規(guī)則的方法,將基于規(guī)則的模型3賦予2倍的權(quán)重,3個(gè)模型的最終權(quán)重比例為1∶1∶2。通過加權(quán)和集成,得到最終的情感分析結(jié)果:對每一條評論,在1(正向情感)、0(中立情感)和-1(負(fù)向情感)中輸出一個(gè)情感傾向的取值。
對2003-2007年全部編輯數(shù)據(jù),提取每次作出編輯行為的用戶ID及其編輯時(shí)間,按照時(shí)間順序排列。然后,對每次編輯,以作出編輯行為的用戶作為發(fā)起方、以該次編輯所對應(yīng)的上一次編輯的用戶作為接收方,建立一組關(guān)系(其意義為,用戶的編輯行為代表作出這次編輯的用戶對上一次編輯的用戶的修改)。以這些關(guān)系為數(shù)據(jù)源,分別建立基于全部數(shù)據(jù)的詞條整體社會(huì)網(wǎng)絡(luò),以及基于2005年及更早、2006年和2007年三段編輯數(shù)據(jù)(這三段數(shù)據(jù)大致相等)的3個(gè)分時(shí)段子網(wǎng)絡(luò)(按照時(shí)間順序依次命名為分時(shí)網(wǎng)絡(luò)A、B、C)。
首先,對網(wǎng)絡(luò)中的互惠性關(guān)系進(jìn)行分析?;セ菪允嵌攘坑邢蚓W(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)相互連接程度的指標(biāo)[33]55-56。由于本文中的社會(huì)網(wǎng)絡(luò)由以時(shí)間為順序的編輯數(shù)據(jù)構(gòu)建,網(wǎng)絡(luò)中的互惠關(guān)系實(shí)質(zhì)上是一種“A修訂B,B反過來修訂A”的交替修訂關(guān)系,反映的是尖銳的沖突和話語權(quán)爭奪。剔除網(wǎng)絡(luò)中反映自反關(guān)系的數(shù)據(jù)(即連續(xù)兩次修改都由同一個(gè)用戶作出,代表用戶進(jìn)行自我修訂)后,本研究首先計(jì)算詞條整體社會(huì)網(wǎng)絡(luò)互惠性關(guān)系的占比;隨后,對三個(gè)子網(wǎng)絡(luò)分別計(jì)算互惠性關(guān)系的占比,從而得到互惠性關(guān)系占比變化的趨勢。
其次,分別對整體社會(huì)網(wǎng)絡(luò)和3個(gè)子網(wǎng)絡(luò),使用在時(shí)間效率和準(zhǔn)確性上都很優(yōu)越的Louvain模塊化算法進(jìn)行社群發(fā)現(xiàn),以探測復(fù)雜網(wǎng)絡(luò)中的社群結(jié)構(gòu)。這一算法分為兩個(gè)階段:第一階段將節(jié)點(diǎn)不斷加入到能使局部模塊性(Modularity)達(dá)到最大化的社群中,第二階段則從第一階段的結(jié)果出發(fā)構(gòu)建一個(gè)新的網(wǎng)絡(luò)。二者不斷迭代,直到各個(gè)節(jié)點(diǎn)所屬的社群不再發(fā)生變化。這一用于計(jì)算模塊性的公式為:
其中,△Q為模塊性的增量,∑in為節(jié)點(diǎn)被歸入的社群內(nèi)部所有邊的權(quán)重之和,∑tot為指向這一社群中所有頂點(diǎn)的所有邊的權(quán)重之和,ki為指向頂點(diǎn)i的所有邊的權(quán)重之和,ki,in為從頂點(diǎn)i出發(fā)并指向這一社群內(nèi)所有頂點(diǎn)的所有邊的權(quán)重之和,m為整個(gè)網(wǎng)絡(luò)中所有邊的權(quán)重之和[34]。整體社會(huì)網(wǎng)絡(luò)社群發(fā)現(xiàn)的結(jié)果被呈現(xiàn)于開源可視化和網(wǎng)絡(luò)分析平臺Gephi[35]中,利用Force Atlas算法進(jìn)行布局,并基于Laplacian動(dòng)力(Laplacian Dynamics)方法[36]對社群劃分后的網(wǎng)絡(luò)進(jìn)行可視化呈現(xiàn)。
最后,對3個(gè)分時(shí)網(wǎng)絡(luò)的社群發(fā)現(xiàn)結(jié)果進(jìn)行橫向比較,計(jì)算3個(gè)網(wǎng)絡(luò)間的社群相似度。這種相似性計(jì)算實(shí)質(zhì)上是數(shù)據(jù)結(jié)構(gòu)“圖”的相似性計(jì)算。衡量相同用戶在不斷時(shí)段所屬社群的關(guān)系,實(shí)質(zhì)上就是不同圖的公共頂點(diǎn)間邊的重合度的計(jì)算。在3類主流的圖的相似性算法(精確計(jì)算[37]、基于圖的特征屬性計(jì)算[38]和基于頂點(diǎn)相似的迭代計(jì)算[39])中,因?yàn)楸狙芯刻幚淼臄?shù)據(jù)集較小,不受到算法復(fù)雜度的過度制約,無需降低精確度以換取時(shí)空代價(jià),所以采用復(fù)雜度和精確度都較高的精確計(jì)算方法,比較圖公共頂點(diǎn)間邊集合重合的比例,將這一比例定義為社群相似度。此處,邊的重合的意義為:同時(shí)出現(xiàn)在兩個(gè)子網(wǎng)絡(luò)中的用戶,在兩個(gè)網(wǎng)絡(luò)中屬于同一個(gè)社群。
對本文2.2中得到的情感分析結(jié)果,分別進(jìn)行組內(nèi)情感傾向變化分析和組間情感傾向變化分析。對前者,選取在同一組討論中至少有兩次對話的兩個(gè)用戶,比較其前半段對話與后半段對話的平均情感傾向;對后者,選取至少在兩組討論中有過對話的兩個(gè)用戶,比較其在前一半討論中與后一半討論中的平均情感傾向(若同一組討論中對話次數(shù)或討論組數(shù)為奇數(shù)次,則將處于中間位置的一次對話或討論歸于前半段對話或前一半討論)。
在組內(nèi)比較中,在剔除同組討論前后半段對話情感傾向一致的數(shù)據(jù)后,以同組討論中兩位用戶對話的次數(shù)為標(biāo)準(zhǔn),分別計(jì)算不同次數(shù)下情感傾向上升的比例。如表1所示,組內(nèi)情感傾向上升的總數(shù)目占據(jù)少數(shù)。其中,在同組討論中兩名用戶有2~3次對話時(shí),后半段對話相對于前半段情感傾向上升的比例在50%左右;而有4~8次時(shí),情感傾向上升的比例下降到42.42%,明顯低于情感傾向下降的比例;當(dāng)同組討論對話數(shù)目進(jìn)一步增多到9次及以上,這一比例繼續(xù)下降到41.67%。這一結(jié)果表明,當(dāng)兩名用戶在同一組討論中進(jìn)行少量(2~3次)對話時(shí),其情感傾向在討論前后的變化并無明顯的偏向,上升與下降的可能性相仿;隨著對話的深入,在往復(fù)交流中,情感傾向越發(fā)可能隨著討論的持續(xù)而趨于下降。總的來看,兩名用戶在同一組討論后的情感傾向相對于討論前會(huì)趨于激烈。
表1 組內(nèi)情感傾向變化
在組間比較中,同樣剔除前一半討論與后一半討論平均情感傾向一致的數(shù)據(jù),以兩位用戶參加討論的組數(shù)為標(biāo)準(zhǔn),分別計(jì)算不同組數(shù)下情感傾向上升的比例。如表2所示,組間情感傾向上升的總數(shù)目占據(jù)多數(shù)。其中,在兩名用戶參與2~3組討論時(shí),后一半討論相對于前一半,其情感傾向上升的略高于50%;而在參與4~8組時(shí),情感傾向上升的比例迅速增長到60%,明顯高于情感傾向下降的比例;不過,這種偏向不會(huì)始終持續(xù),當(dāng)兩名用戶參與討論的組數(shù)繼續(xù)增多(達(dá)到9次及以上)時(shí),情感傾向的偏向出現(xiàn)逆轉(zhuǎn),上升的比例小于下降的比例。
表2 組間情感傾向變化
組間分析的結(jié)果表明,當(dāng)兩名用戶參與討論組數(shù)較少(2~3組)時(shí),在靠后討論中的情感傾向比靠前討論中的傾向,上升的可能性略高于下降的可能性。隨著兩名用戶討論話題的增多,彼此之間更加熟悉、更加理解,情感傾向上升的可能性大幅增加,明顯高于情感傾向下降的可能性。但當(dāng)兩人繼續(xù)圍繞不同的話題討論,在往復(fù)交鋒中,情感傾向下降的可能性反而會(huì)逆轉(zhuǎn)、超越上升的可能性。不過,這一異常情況僅涉及6組數(shù)據(jù),可能屬于樣本量規(guī)模過小而出現(xiàn)的偶然情況。這一異常并不妨礙組間比較的總體結(jié)論:當(dāng)兩名用戶進(jìn)行2組或以上討論時(shí),靠后的討論的情感傾向相對于靠前的討論整體會(huì)趨于緩和。
綜合上述結(jié)果可以發(fā)現(xiàn),在組內(nèi)比較時(shí),隨著時(shí)間的推移,用戶討論的情感傾向更多地向負(fù)向移動(dòng),情感趨于激烈。而在組間比較時(shí),隨著兩名用戶參與討論次數(shù)的增多,情感傾向更多地往正向移動(dòng),情感趨于緩和。
對本文2.3所建立的整體社會(huì)網(wǎng)絡(luò)的互惠性關(guān)系進(jìn)行分析,發(fā)現(xiàn)互惠性關(guān)系共有712條,占全部非自反性關(guān)系的35.55%。這意味著:平均每三次編輯行為,就有一次以上是對針對自己的修改而反過來所作出的重新修訂。這一比例反映出對“Islamophobia”詞條極為激烈的話語權(quán)爭奪。大量編輯用戶并不滿意他人對自己所編詞條文本的修改,因而要對新的版本再行改正。當(dāng)然,第二次修改往往并非對他人的修改作簡單撤銷、恢復(fù)原狀,詞條也正是在這樣的交替修改中日臻完善。然而,這種對他人修改自己版本的重新修訂,仍能非常清晰地反應(yīng)出對詞條編輯主導(dǎo)地位的爭奪。
由表3可見,分時(shí)網(wǎng)絡(luò)的互惠性關(guān)系占比呈現(xiàn)出鮮明的下降趨勢:從分時(shí)網(wǎng)絡(luò)A的41.72%下降到分時(shí)網(wǎng)絡(luò)B的38.81%,并在分時(shí)網(wǎng)絡(luò)C中驟降為26.82%。這一趨勢表明,在他人對自己的版本進(jìn)行修改后,越來越少的用戶會(huì)立即反過來對新的版本再行修訂。盡管直到2007年,互惠性關(guān)系的占比依然可觀,但話語權(quán)爭奪激烈度呈現(xiàn)出逐年降低的趨勢仍是極為明晰的事實(shí)。隨著時(shí)間推移,更多用戶選擇接受他人對自己的修訂。這一方面反映出原始編輯用戶對針對自身的修改愈發(fā)樂于接納;另一方面則反映出第一次修改本身趨于理性。二者相輔相成,共同促成編輯關(guān)系逐漸由對立變?yōu)閰f(xié)調(diào)。對整體網(wǎng)絡(luò)社群發(fā)現(xiàn)的結(jié)果將整體網(wǎng)絡(luò)分成7個(gè)社群,如圖2所示。
表3 互惠性關(guān)系占比
圖2 “Islamophobia”詞條編輯的社會(huì)網(wǎng)絡(luò)
將對50位及以上用戶作過修改的用戶定義為核心用戶,并將對20位及以上用戶作出過修改的用戶定義為活躍用戶,可以發(fā)現(xiàn):盡管并不存在一位或幾位起到絕對主導(dǎo)地位的用戶,但用戶的社會(huì)網(wǎng)絡(luò)仍很不平衡。大部分編輯行為由少量核心用戶和活躍用戶作出,而這些用戶的分布非常集中。6位核心用戶全部處于社群A(Nysin、Netscott、 Raphael1、 SlimVirgin) 和 B(Karl Meier、YahelGuhan)中;而22位活躍用戶中,處于社群A和B的也分別有9位和10位,另外3位分處社群C和D中。當(dāng)用戶被分為一個(gè)社群時(shí),表示這些用戶間有密集的相互編輯行為。因此,對整體網(wǎng)絡(luò)社群發(fā)現(xiàn)的結(jié)果揭示:“Islamophobia”詞條2007年及以前的編輯行為主旋律是以一批核心用戶和活躍用戶為領(lǐng)導(dǎo)、圍繞兩個(gè)“核心戰(zhàn)場”展開的激烈交鋒,并在次中心的其他戰(zhàn)場上開展不同程度的話語權(quán)爭奪。
對三個(gè)分時(shí)網(wǎng)絡(luò)間社群相似度的比較,首先要抽取分時(shí)網(wǎng)絡(luò)的公共頂點(diǎn)。分時(shí)網(wǎng)絡(luò)A與C僅有兩個(gè)不存在公共邊的公共頂點(diǎn),且這兩個(gè)頂點(diǎn)同時(shí)存在于分時(shí)網(wǎng)絡(luò)B中。這表明不存在同時(shí)活躍于2005年及以前和2007年,卻在2006年沒有作出任何編輯行為的用戶,顯示出用戶編輯行為的連續(xù)性。在時(shí)間上連續(xù)的分時(shí)網(wǎng)絡(luò)A與B和B與C分別有10個(gè)和14個(gè)公共頂點(diǎn),這些頂點(diǎn)間分別形成了29條和43條邊。但是,兩個(gè)網(wǎng)絡(luò)(組)公共頂點(diǎn)組成的這些邊中分別僅有3條和6條公共邊,因此,兩組分時(shí)網(wǎng)絡(luò)的社群相似度都處于0.1~0.15這一極低的區(qū)間內(nèi)(見表4)。由于社群相似度由公共頂點(diǎn)間邊的重合比例定義,這一數(shù)據(jù)意味著在上一個(gè)時(shí)間區(qū)間內(nèi)屬于同一個(gè)社群中的用戶,在下一個(gè)時(shí)間區(qū)間的網(wǎng)絡(luò)中有極大概率分屬于不同的社群,亦即:在兩個(gè)不同時(shí)段內(nèi),編輯用戶很少與同一位用戶發(fā)生密集的相互編輯關(guān)系,而是會(huì)轉(zhuǎn)向新的用戶。
表4 網(wǎng)絡(luò)間社群相似度
這一發(fā)現(xiàn)進(jìn)一步說明了互惠性關(guān)系分析中得到的結(jié)論。在一個(gè)時(shí)段中產(chǎn)生頻繁相互編輯關(guān)系、進(jìn)行激烈話語權(quán)爭奪的兩位用戶,有的在下一個(gè)時(shí)段中仍然活躍,但卻不再頻繁地相互編輯。這表明,在詞條修訂的過程中,大部分的爭論都能夠隨著時(shí)間的推移達(dá)成共識或妥協(xié)。對一位活躍于兩個(gè)時(shí)段的編輯用戶而言,上一時(shí)段的辯爭并不持續(xù)到下一時(shí)段。新的爭論隨著時(shí)間的推移繼續(xù)產(chǎn)生,盡管用戶過去的辯爭對手依然在頻繁參與(詞條)編輯,但在新爭論中,其辯爭對手卻往往出現(xiàn)了變化。在編輯的過程中,編輯用戶的社會(huì)網(wǎng)絡(luò)不斷重組,反映出編輯關(guān)系從對立到協(xié)調(diào)的變化趨勢。
通過對英文維基百科詞條“Islamophobia”討論頁文本的情感傾向分析和詞條編輯用戶的社會(huì)網(wǎng)絡(luò)分析發(fā)現(xiàn),就討論頁文本的情感傾向而言,在同一組討論內(nèi)用戶的情感傾向隨著時(shí)間的推移趨于激烈,而在不同組間的討論中卻趨于緩和;就詞條編輯用戶的社會(huì)網(wǎng)絡(luò)而言,反映“A修訂B,B反過來修訂A”的互惠性關(guān)系比例逐年降低,編輯網(wǎng)絡(luò)也大規(guī)模重組,即與某一編輯用戶同屬于一個(gè)社群、有著密集相互編輯關(guān)系的用戶組成,在不同時(shí)段中呈現(xiàn)出明顯的差異。
這些發(fā)現(xiàn)表明,討論頁中用戶之間的討論微觀上趨向激化,宏觀上趨向緩和;用戶之間的編輯關(guān)系由對立變?yōu)閰f(xié)調(diào)。微觀的激化與宏觀的緩和、編輯關(guān)系的協(xié)調(diào)之間并不矛盾。相反,正是這樣一種激烈討論與迭代修訂的過程,構(gòu)成維基百科獨(dú)特的協(xié)商調(diào)和機(jī)制:它不掩飾觀點(diǎn)的分歧,反而通過提供討論頁這一渠道促成迥異觀點(diǎn)間的充分對話。這種對話在某一組討論的過程中趨向激化,卻讓對立的觀點(diǎn)在盡情碰撞中促成理解之同情,“人們因此持續(xù)擴(kuò)大自己的視野,并且經(jīng)常以另一種觀點(diǎn)來測試自己原有的觀點(diǎn)”[5]137,推動(dòng)不同立場間的相互理解。于是,一組討論中愈發(fā)激化的情感傾向沒有讓辯爭的雙方彼此對立,加劇用戶編輯過程的話語權(quán)爭奪。與之相對,隨著時(shí)間的推移,用戶的編輯行為整體趨于理性。于是詞條質(zhì)量在討論中得到提高,協(xié)商調(diào)和在辯爭中得以實(shí)現(xiàn)。
本研究最突出的局限性在于:盡管從計(jì)算社會(huì)科學(xué)角度進(jìn)行的實(shí)證研究證明,在“Islamophobia”編輯中觀點(diǎn)的激烈碰撞會(huì)促成整體討論趨向緩和、編輯關(guān)系趨向協(xié)調(diào),但這種促進(jìn)關(guān)系發(fā)揮效用的具體機(jī)理仍有待詳細(xì)說明。另外,對某一個(gè)詞條討論和修改歷史的深度挖掘能夠證明在這一詞條的發(fā)展過程中,協(xié)商調(diào)和而非群體極化占據(jù)主流,卻不足以說明由以宗教為議題的“Islamophobia”詞條得到的這一結(jié)論,普適于浩如煙海的各個(gè)主題的維基百科條目。而使用計(jì)算機(jī)自然語言處理技術(shù)盡管能夠部分反映情感傾向,但計(jì)算機(jī)技術(shù)對復(fù)雜的自然語言文本的理解仍有較大的局限性。
針對未來研究的改進(jìn)方向,最直接的是利用定性方法對詞條討論中觀點(diǎn)的碰撞是如何導(dǎo)致詞條編輯行為趨于理性的具體機(jī)理加以闡釋。此外,在維基百科其他詞條中進(jìn)一步驗(yàn)證本研究通過個(gè)案得到的結(jié)論,以增強(qiáng)其說服力;使用維基百科討論頁文本作為訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),以優(yōu)化集成學(xué)習(xí)中機(jī)器學(xué)習(xí)模型的效果,從而提升情感分析算法的整體信度,也是本研究方法論層面的一個(gè)改進(jìn)方向。最后,對于組間情感傾向變化在兩位用戶進(jìn)行9組及以上對話時(shí)異常值出現(xiàn)的原因,需要用其他數(shù)據(jù)加以驗(yàn)證。
本研究的意義在于:通過對“Islamophobia”詞條的案例研究,對網(wǎng)絡(luò)社會(huì)的重要議題——群體極化問題從實(shí)證的角度作出了驗(yàn)證。從方法論意義上,研究通過集成機(jī)器學(xué)習(xí)算法和基于規(guī)則的方法并行集成建立的模型進(jìn)行情感分析、通過社群發(fā)現(xiàn)算法和圖的相似度計(jì)算的思想進(jìn)行社會(huì)網(wǎng)絡(luò)分析,所建立的研究框架具有獨(dú)創(chuàng)性;同時(shí),這一框架具有較強(qiáng)的可復(fù)制性,可以在類似的計(jì)算社會(huì)科學(xué)研究和其他領(lǐng)域中推廣。從內(nèi)容意義上,研究初步證實(shí)了維基百科存在一種討論與修訂相結(jié)合、在觀點(diǎn)激烈交鋒中促成編輯行為協(xié)調(diào)的協(xié)商調(diào)和機(jī)制。這一在線協(xié)作書寫中的機(jī)制對于抑制群體極化問題存在重要意義,值得新時(shí)期網(wǎng)絡(luò)社會(huì)建設(shè)借鑒。
在新時(shí)期,各種立場的聲音在網(wǎng)絡(luò)上層出不窮,其中褊狹、激烈的聲音不在少數(shù),稍有不慎,就會(huì)因虛擬串聯(lián)而無限放大。所以,警惕網(wǎng)絡(luò)空間中的群體極化,保證社會(huì)粘性,是不容回避的問題。但是,即便是提出“群體極化”盛世危言的桑斯坦也認(rèn)為:盡管新科技可能造成莫大的危險(xiǎn),但“它們帶來的希望遠(yuǎn)多于危險(xiǎn)”[5]142。一個(gè)由政府調(diào)控進(jìn)行外部規(guī)訓(xùn)、(由)網(wǎng)絡(luò)空間建立內(nèi)部協(xié)商機(jī)制的環(huán)境,足以使網(wǎng)絡(luò)這一新科技成為協(xié)商溝通機(jī)制的推動(dòng)者,一如文字、紙張與印刷術(shù)在歷史中起到的作用。維基百科便是建立這種環(huán)境的一個(gè)絕好范本。Rask指出:“盡管通常來說,維基百科更適合來自發(fā)達(dá)國家的參與者。但發(fā)展中國家的參與者一樣可以從中受益。”[40]我國當(dāng)然不必對維基百科的模式亦步亦趨,但通過討論頁刻意凸顯而非掩蓋群體差異、在激烈的討論中讓觀點(diǎn)充分交鋒而達(dá)成協(xié)調(diào)的理念,卻是利用在線協(xié)作書寫以發(fā)展協(xié)商調(diào)和、抑制群體極化的良好思路。
英國思想家約翰·密爾(John Stuart Mill)說:“(與不同于自身的人、不熟悉的思想模式)溝通一直是,尤其對現(xiàn)在來說,是我們進(jìn)步的主要來源之一?!盵41]135并不過分地說,維基百科正是一個(gè)在網(wǎng)絡(luò)空間中促成這種溝通,抑制群體極化的有益嘗試,其理念與運(yùn)行機(jī)制,值得持續(xù)地研究、反思與借鑒。