徐 翔
(同濟大學藝術與傳媒學院大數(shù)據與計算傳播研究中心 上海 201804)
社交媒體的強勢發(fā)展給數(shù)字網絡、信息社會帶來新的特征,社交媒體的用戶生成內容(User Generated Content,UGC)成為影響到社會文化的重要信息環(huán)境。隨著海量社交媒體信息的傳播,用戶可能陷入的“信息繭房”問題也日益引起矚目和擔憂。然而,信息的繭房化、信息封閉和窄化不只是個體面臨的信息風險,也是社會共同體和輿論場整體面臨的風險。本研究的核心問題是:社交媒體平臺下資訊的生產與傳播是否以及如何體現(xiàn)著平臺公共的信息封閉與窄化?這種平臺內容的封閉程度,與平臺內容傳播熱度之間具有怎樣的可確定性描述的分布和規(guī)律?
網絡中的“信息繭房”“回音室”[1]“巴爾干化”[2]等多方面的研究,指出用戶會陷入輿論、信息的重復和隔離。桑斯坦提出“信息繭房”概念,意指人們將自身桎梏于像蠶繭一般的“繭房”中,獲得“窄化”的信息[3]。從內涵與機理而言,現(xiàn)有的“信息繭房”概念及信息窄化主要指個體用戶或用戶群組之現(xiàn)象,是局部區(qū)別于其他局部、或區(qū)別于社會整體,而不是指社會整體的。在此,宏觀平臺層面的信息“繭房化”和信息內容在流動中趨于重復、窄化的內容收斂,成為本研究的重點問題。
一些研究從用戶之間的聯(lián)系、社會網絡、社會連接和群體內接觸之間,探討用戶及其信息的同質化問題。Himelboim發(fā)現(xiàn)高度自我聯(lián)系的子群,twitter用戶不容易接觸異質性的內容[4]。Lawrence對于博客鏈接的分析也得出跨黨派用戶群之間的意識形態(tài)隔離[5]。Jacobson等人測量了意見氣候中“過濾氣泡”的影響,發(fā)現(xiàn)社交媒體上的政治討論可能存在話語壁壘[6]。對此需要注意的是,把社群間的意見隔離和“回音室”轉變?yōu)樯鐣w結構化的“信息繭房”還需要更為直接的銜接和證據。即使在社交網絡中存在著局部的信息同質化,也不意味著它等同于全局的信息同質化;難以通過對特定領域、垂直主題或有限用戶群的分析而將群體性的信息繭房擴展為平臺性的公共信息繭房。
就作為一種“公共領域”或類公共領域的社交媒體而言,其中信息的同質化和異質化、局部同質化和全局異質化之間的矛盾,是一直存在的問題。例如有觀點認為,“信息繭房”對于社會中異質性的加強會促動“全民共有話題的消失”[7]。但是在公眾“信息繭房”交織下,公共領域是體現(xiàn)一個個“微”繭房構筑的多樣性,或是公共領域的同質化和“公共回音室”,兩者并未得到直接有效的勾連。局部的信息窄化、內容收斂和社會“公共領域”之間的深層次矛盾,因此需推移到宏觀信息環(huán)境層面的“公共信息繭房”。
對于平臺整體的公共信息繭房,它不同于個體性的信息繭房視角,而是關注社交媒體平臺如何被困在有限的信息空間之中。這其中,一些研究涉及社交媒體訊息和UGC生產過程中的同質化。例如Pew研究中心擔憂,互聯(lián)網使人們退卻到自己狹窄的興趣中,那些偶發(fā)的新聞資訊有越來越少的趨勢[8]。趙焱鑫等通過模型仿真指出,網絡中輿情主體的流動性和記憶能力的提高可以增大輿情同質化傾向[9]。但是高熱度信息的相似并不直接意味著低熱度信息的不相似,也不等同于高熱度信息彼此之間比低熱度信息彼此之間更相似。在此基礎上,值得進一步探討的問題包括:高熱度帖子彼此間的趨似程度,和帖子的媒介傳導熱度之間是否存在以及存在著怎樣的對應關系?低熱度帖子之間是高相似度還是低相似度?本文從三個可能的層面對社交媒體信息的趨似方式加以考察,也即信息彼此之間的相似性(簡稱Sim1)、信息趨于和全局信息的相似性(簡稱Sim2)、信息趨于和頂部最高熱度信息的相似性(簡稱Sim3);當結合信息的傳播熱度變化后,Sim1、Sim2、Sim3依次對應于后文Q2.1、Q2.2、Q2.3中所述的層內收斂性、全局收斂性、趨頂收斂性。
平臺中的高傳播度信息的同質性,使得頭部信息可能比全局其他信息可能更為窄化。在媒體議程研究中,有研究認為公共議程的數(shù)量受到時間、注意力和資源等約束力的限制,議程之間實際存在零和博弈的競爭關系[10]。Jennings等認為受到更多關注的議程對象會對長期議程多樣性產生負面影響[11]。不僅某些問題比其他問題受到更多關注,而且某些問題僅在議程更加多樣化時才受到關注[12]。在社交媒體中,信息的生產、特征與其傳播熱度具有密切聯(lián)系,高熱度內容呈現(xiàn)出明顯的類型有限化、收窄化現(xiàn)象[13-14]。一些分析對此探討了社交網絡中高熱度信息可能的共同特征。例如,Ma等人發(fā)現(xiàn)Twitter上關于相似話題的標簽可能同時具備相似的流行度趨勢[15]。Dworak表示網絡不是鼓勵報道的多樣性,而是把精力集中在類似的報道上[16]。這些研究顯示社交網絡高熱度內容可能具有更強的彼此相似性(Sim1),而低熱度內容或低顯著度議程則受到的同質化約束則較低。
社交媒體中用戶選擇的趨同,使得高關注度內容可能具有較之一般內容的更高相似性和重復性。在競爭激烈的新聞生態(tài)中,市場機制往往會根據消費者的偏好產生“更多相同”的內容[17-18]。高選擇性的媒體環(huán)境并沒有導致受眾的分化,而是產生受眾之間的高重復度[19]。對在線社交網絡的音樂收聽分析顯示,聽眾的收聽對象具有同質化現(xiàn)象[20]。Yoo等人發(fā)現(xiàn)級聯(lián)的擴散受到具有相似內容的并行級聯(lián)的同時擴散的抑制;那些擁有較大網絡的內容的傳播更有可能被相似內容的傳播放大[21]。這些研究一方面顯示出受偏好內容的高度擴散而增強它們對于平臺的覆蓋、對于其他多樣信息的抑制,使得少數(shù)高熱度內容在平臺中具有更高的普遍性和全局相似度(Sim2),另一方面也有助于推測高熱度內容的集中使得其比低熱度內容具有更強的彼此相似性(Sim1)
平臺中的高傳播度信息會增強其他內容與自己的相似化,使得一定時期內平臺信息朝向高傳播度信息加強趨同。Marty 等通過新聞主題的分析強調某些主題的過度曝光與傳播,強化了“多即少”理論[22]。當“信息級聯(lián)”效應發(fā)生在平臺中時,容易導致某些內容在短時間內被大范圍和重復性地傳播,使得熱門議題表現(xiàn)得單一化[23]。Webster表示數(shù)字媒體時代雖然沒有媒體節(jié)目完全相同,但他們的交叉點將是最受歡迎的文化產品,這將人們的注意力集中在最流行的選擇上[24]。由于高傳播度的內容使得其他內容與自己相似化的能效更強,可能使得全局內容表現(xiàn)得與高傳播熱度內容具有更高的相似度,體現(xiàn)出趨頂?shù)南嗨菩?Sim3)。
社交媒體新聞內容生產中的同質模仿和“媒體風暴”增強高熱度內容的相似和封閉。 “媒體風暴”下在更廣泛的社會政治環(huán)境中存在一個重大的、突出的問題(或議程)并反過來導致不同的媒體來源報道類似的問題[25]。Zhang證實了新聞媒體存在相互觀察和模仿的日常行為[26]。對于一些中小型媒體而言,會更加留意權威媒體的做法,以確信自身新聞報道的價值[27]。與該現(xiàn)象類似,一系列主體相似、內容相關的事件會使得出現(xiàn)新聞“搭車”現(xiàn)象[28]。這些一方面使得熱門新聞和信息集中到有限和窄化的范圍中而增強信息的趨頂相似性(Sim3),另一方面也使信息內容減少其多樣化、異質化成分而增強在高可見度信息覆蓋下的全局相似性(Sim2)。
為簡化表述,本文把社交媒體信息內容之間趨于相似化、重復化的現(xiàn)象與態(tài)勢代稱為內容收斂,它強調內容消減其多樣性和異質性,而趨向似同、封閉、窄化的有限范圍收斂。沿著[信息內容收斂→用戶或社群層面的信息內容收斂→社交媒體宏觀意義上的信息內容收斂→媒介傳導程度與宏觀信息內容收斂]的邏輯路徑,本文針對微博的社交媒體環(huán)境,提出關于社交媒體平臺“內容收斂”的核心問題:信息在媒介平臺中的傳導程度,是否以及如何影響著該媒介平臺中的信息內容的“收斂”,使平臺信息表現(xiàn)和加強著重復和封閉程度?
結合上一節(jié)的分析,作為一種網絡平臺和內容生產平臺的社交媒體,不僅可能存在著高傳播度內容的同質化現(xiàn)象,而且這種現(xiàn)象的程度與內容傳播熱度、內容在平臺的顯要性之間存在聯(lián)系。由本文核心問題提出假設Q1,及其延伸子假設Q2、Q3:
Q1:在有限周期內,新浪微博中越是高熱度的帖子則其相似的“內容收斂”程度越高,兩者成正比關系。
Q2:如果Q1成立和顯著,則可以進一步推知:
Q2.1、趨向彼此的收斂。越是高熱度的帖子,彼此之間的多樣性越是消減,而相似、封閉的程度增加。也就意味著:同一熱度層級的帖子,彼此的平均相似度與該層級帖子的平均熱度(或熱度“質心”)成正比。
Q2.2、趨向全局的收斂。帖子的內容收斂不是朝向哪個限定性的局部或指定范圍的,而是關乎到總體內容的收斂。越是高熱度的帖子就越是表現(xiàn)出朝向周期內的“眾聲喧嘩”“蕓蕓眾聲”的全體內容的趨同化,而相較于全體內容的差異性、異質性的成分就越少。也即:帖子的熱度越高,那么和周期內全體帖子的平均相似度也就越高,兩者成正比。
Q2.3、趨向頂部的收斂。如果越是高熱度的帖子就越趨似于總體的內容,那么帖子平均“貼近”于總體內容的過程同時也近似地表現(xiàn)為“貼近于”最高熱度帖子群的過程。帖子的熱度越高,那么和最高熱度“層級”帖子的相似度也就越高,兩者成正比。
Q3、在Q2.1、Q2.2、Q2.3中分別涉及到的三種不同的內容收斂(層內收斂性、全局收斂性、趨頂收斂性三個層面),這三者的收斂程度不是割裂或沖突的,而是具有高度的正相關性和一致性。如果Q2.1、Q2.2、Q2.3都成立,那么很難設想Q3不成立,除非前面的假設環(huán)節(jié)具有重大紕漏(見圖1)。
圖1 基本假設與結構關系
針對全文的問題和假設,研究思路與主要操作步驟如下:
a.獲取新浪微博的帖子樣本(見2.3節(jié))。
b.將每條帖子進行向量化的轉換(見2.4節(jié))。
c.對帖子按照其傳播熱度進行等頻分層(見2.3節(jié)),設層數(shù)為max。
d.對步驟③中分層后的每層帖子,計算該層帖子和以下帖子的內容相似度(計算方法見2.5節(jié)):4A、計算層內這些帖子彼此的平均相似度,全部各層得到的結果記為數(shù)值序列S1;4B、逐層計算該層和全體帖子的平均相似度(由于實際計算量太大,因此全體帖子用隨機抽樣的部分帖子代替),全部各層得到的結果記為數(shù)值序列S2;4C、計算該層和熱度最高層帖子的相似度,全部各層得到的結果記為數(shù)值序列S3。S1、S2、S3中的元素個數(shù)=max個,元素順序皆與步驟③中的層順序對應。
e.對每層帖子,計算該層帖子的平均傳播熱度,記為數(shù)值序列F。F中的元素個數(shù)=max個,元素順序與S1、S2、S3中的層順序皆一一對應。
f.6A、通過S1和F的相關關系與回歸分析,檢驗Q2.1及其對應的假設H1(見后文第3節(jié));6B、通過S2和F的相關關系與回歸分析,檢驗Q2.2及其對應的假設H2(見后文第4節(jié));6C、通過S3和F的相關關系與回歸分析,檢驗Q2.3及其對應的假設H3(見后文第5節(jié));6D、通過S1、S2、S3的一致性,檢驗Q2及其對應的假設H4。
上述實施思路和關鍵環(huán)節(jié)進一步見圖2。
圖2 研究思路與假設內涵
選擇新浪微博,抓取、篩選其用戶在2017年1月1日到2018年12月31日的兩年間的帖子樣本;其中4個日期的數(shù)據缺失或不足,剩下實際有效分析的為726天。帖子被抓取時間為2019年10月-2020年1月,熱度指標已經過一段時間的冷卻期,其評論數(shù)、點贊數(shù)、轉發(fā)數(shù)已穩(wěn)定,從而避免無效擾動。
對于帖子發(fā)布者采取廣覆蓋、成本相對較低的多階段抽樣。首先從新浪微博首頁47個內容版塊(分別是:社會、國際、科技、科普、數(shù)碼、財經、股市、明星、綜藝、電視劇、電影、音樂、汽車、體育、運動健身、健康、瘦身、養(yǎng)生、軍事、歷史、美女模特、美圖、情感、搞笑、辟謠、正能量、政務、游戲、旅游、育兒、校園、美食、房產、家居、星座、讀書、三農、設計、藝術、時尚、美妝、動漫、宗教、萌寵、法律、視頻、上海)中,各個版塊每天早晚各抓取一次,持續(xù)1個月,共獲得67 362條“種子”帖。由于結合了新浪微博自身的內容分發(fā)系統(tǒng),因此種子帖廣泛而大致均衡地分布在這47類版塊。然后從這些種子帖做一輪“滾雪球”抽樣的擴散,每條種子帖抓取500條評論的評論者(不足500條的則全部抓取)。其后去除重復用戶和無效用戶、抓取失敗的用戶后,獲取其發(fā)布者和評論者共計3 501 153個用戶的初始庫,并從中隨機取10萬個用戶,其中有效抓取到87 739個用戶所發(fā)帖子。樣本用戶的使用特征、自我標示的地區(qū)來源見圖3、表1。
表1 樣本用戶所標示的地區(qū)來源
圖3中,關注他人數(shù)的均值為5.74,標準差為1.137,有效樣本數(shù)為71 856個;粉絲數(shù)的均值為6.58,標準差為2.884,有效樣本數(shù)為71 919個;發(fā)微博條數(shù)的均值為7.970,標準差為2.090,有效樣本數(shù)為71 495個。根據圖3中還原的原始數(shù)值,用戶的關注他人數(shù)平均為311.06人,粉絲數(shù)平均為720.54人,發(fā)微博數(shù)平均為2 892.86條。
微博的帖子熱度以其轉發(fā)數(shù)、評論數(shù)、點贊數(shù)作為衡量指標。首先將每個指標值xi經以2為底的對數(shù)函數(shù)轉換: log2(xi+1)。其后進行Min-Max歸一化處理,歸一化的公式為:(xi-min(x))/(max(x)-min(x))。轉發(fā)數(shù)、評論數(shù)、點贊數(shù)分別歸一化,統(tǒng)一量綱到[0,1]之間的值,并將三者等權相加后的值作為帖子的熱度值指標(代稱C1,后文涉及的帖子熱度如非特別說明均指C1)。
得到帖子的歸一化熱度(C1)后,在量綱[0,1]的尺度下,本研究去除C1<=0.05的帖子,被過濾的熱度“譜段” [0~0.05]是占[0~1]的全譜段寬度的最低5%。過于微弱的評論、點贊、轉發(fā)數(shù)其偶然性和干擾較多。微博中存在著網絡水軍、社交機器人、“僵尸粉”等用戶,進行著虛假評論、虛假轉贊等行為[29-30]過濾掉一些轉贊評過于微弱的帖子,有助于降低干擾度。本研究目的針對的是具有宏觀結構性的內容收斂和社會性的信息繭房問題,因此著重于具有一定程度的“公共領域”性質和公眾熱度的帖子。部分的個體化、私人化性質的帖子具有很低程度的評論、點贊、轉發(fā),這些帖子的社會擴散范圍過窄,甚至可能只是兩人之間就某個話題、事物的交流。對于公共領域的信息而言,熱度過低的帖子是“可見度”很低、甚至是接近于靜默的聲音。去除了“尾部”熱度過于“微弱”的成分可以使得用于分析的帖子更為真實有效地反映帖子的社會參與性與社會公共性,更好地符合研究目的。剩下的樣本中依然包含了大量的低熱度樣本,可以反映冷門帖子的特征以及帖子從冷到熱的變化規(guī)律。同時,本文也謹慎地把結論限定在C1指標值處于0.05~1的范圍內。最后分析的有效的帖子樣本數(shù)為12331149條,熱度分布見圖4,其均值等于0.1553,中位數(shù)等于0.1372,標準差等于0.0854。
圖4 帖子熱度分布直方圖
熱度計算過程中的各子指標分布如下,下述三個指標均為微博官方原始數(shù)值x經log2(x+1)轉換后。(1)轉發(fā)數(shù)。均值5.46,中值5.21,標準差2.96,范圍0~22.83;(2)評論數(shù)。均值3.24,中值2.81,標準差2.54,范圍0~22.39。(3)點贊數(shù)。均值5.46,中值5.21,標準差2.96,范圍0~22.83。
熱度指標之間的皮爾遜相關系數(shù)如下(表2)。
表2 熱度指標的相關系數(shù)矩陣
兩年的跨度內,每天的帖子量均值為16985條,統(tǒng)計描述詳見表3。
表3 每天帖子樣本數(shù)量的統(tǒng)計描述
對于微博帖子進行分周期、分時間段考察。在不同的短、中輿論周期下,選擇的周期天數(shù)分別為:3、5、9、10、20、27、40、80天。如果某周期下不能恰好整分,則余下的日期組成最后一個時間段。周期天數(shù)選擇的原因如下。其一,盡量使之具有隨意性和隨機性,回避7天或14天、30天、60天等整周、整月的循環(huán)周期。其二,有研究指出,新浪微博多數(shù)信息的生命周期是1天[31];亦有研究指出,新浪微博熱點話題的半衰期為8天[32]。本研究不刻意按照常見的輿論周期劃分,而是符合周期或者不符合周期都予以考察。其三,長短多樣周期都涉及到,避免結果只是某種特殊周期下的特殊現(xiàn)象。
對帖子按照熱度進行分層;采取各層帖子數(shù)量相等的等頻均勻切分(也即常用的“等頻分箱”),避免各層級規(guī)??趶讲灰恢?。把傳播熱度(C1)相同或最為相近的帖子納入同一層組Gx,也即把Gx作為分析的基本“信息單元”。分層的具體過程為:首先對于熱度的數(shù)值序列通過stats模塊中的scoreatpercentile()函數(shù)得到等頻分箱的分位數(shù),然后根據這些分位數(shù)對原序列采取numpy模塊中的digitize()函數(shù)進行分箱。某周期內所有帖子劃分為從低到高的熱度層級,依次為{G1,G2,G3,……,Gm}。對每層的帖子計算它們的熱度平均值作為該層的熱度“質心”,則上述所有“信息單元”對應的熱度質心為數(shù)值序列{H1,H2,H3,……,Hm},代稱為F。
對于帖子按照熱度的分層(也即數(shù)據預處理中的“分箱”)有兩種常用方法。一種是“等距分箱”,但這種處理,如前文的預分析所示(參見圖4),會造成低層級的“箱”內帖子數(shù)量遠超于中、高層級。另一種則是同樣常見的“等頻分箱”,也即每層中的帖子數(shù)量相等。本研究選擇“等頻分箱”主要基于以下考慮。帖子每天數(shù)量平均已達16 985條,而本研究考察的周期長度至少也達到了3天,也即每周期內的帖子數(shù)量平均已達到約5萬條甚至數(shù)十萬條、上百萬條,切分成較為有限的層級后每層內部的熱度依然可以保持足夠的稠密性和帖子“同熱度性”。此外,另一種需要考慮的疑問是,微博低熱度的帖子較多所以可能相似度低,高熱度的帖子較少所以可能相似度高,這對于本文的觀點論證是否有影響?基于這種可能的疑問,本文恰恰是采用“等頻分箱”以更好地回應和論證:同樣規(guī)模的低熱度帖子組和高熱度帖子組,后者比前者更為收斂,而且這種收斂是隨著熱度由低到高而逐步提升的,從而排除“低熱度帖子由于較多所以相似程度更低”的疑惑。
對于內容相似度的計算需要把微博帖子的短文本轉為向量。對每條帖子的向量化轉換采用在業(yè)界和學界有廣泛成熟應用、快速和穩(wěn)定的Word2Vec[33]及其平均池化方式進行。首先對樣本中的帖子,采取常用的分詞軟件“jieba”進行分詞[34];其后利用開源工具GenSim[35],將分詞后的每一個詞轉換成一個300維的Word2Vec詞向量,對這些詞的詞向量經過平均池化后得到該帖子的語句向量。訓練Word2Vec所使用的語料采用自行抓取的26G的中文語料庫,來源包括媒體新聞庫、網絡論壇帖子、經典名著等,訓練結果包括5830979個詞匯的嵌入式表示,效果充分良好。
Word2vec包括CBOW和Skip-Gram模型,本文采用其中的CBOW模型。CBOW模型的主要思想是上、下文信息作為輸入,當前詞作為監(jiān)督數(shù)據或監(jiān)督標簽。訓練目標是使當前詞出現(xiàn)的概率最大,而當前詞的后驗概率如下:
(1)
由詞向量表示句子或短文本,采取對詞向量求平均池化值,也即計算各向量等權后的平均向量[36]。Shen等的研究將簡單詞向量模型(SWEM),也即對詞向量進行等權求平均向量的方法,與循環(huán)和卷積神經網絡進行比較得出在大多數(shù)情況下SWEM表現(xiàn)出高性能[37]?;趙ord2vec詞向量進行平均池化得到帖子向量,具有良好基礎與現(xiàn)實應用性。
對于信息內容“收斂”主要通過內容之間的相似度來反映:相似程度越高表明這些內容之間兩兩的相似和重復程度越高;若異質化的內容越多,內容之間差異越大,則這些內容的平均相似程度就會越低。
將每條帖子轉為向量后依此逐條計算帖子和帖子之間的內容相似度。任意兩條帖子(序號分別為i、j)之間的相似度Sik采用常用的余弦相似度[38-39],也即這兩條帖子分別轉換得到的兩個向量A、B之間的夾角θ的余弦值cos(θ):
(2)
一組帖子G1與另一組帖子G2的平均相似度用衡量兩組對象之間距離或相似度的常用的“類平均法”(組間平均連接)測度,也即:假設G1包含n1條帖子,G2包含n2條帖子,G1中第i條帖子和G2中第k條帖子之間的相似度用Sik表示,則G1和G2之間的平均相似度為
(3)
如果是計算同一層組內部的自我相似度,則將上述公式中G1、G2置定為同一組,同理計算可得。當n1和n2都等于1的時候,式3還原為式2。
前文的Q1、Q2、Q3經過操作化界定和相應的轉換后得到要檢驗的子假設H1、H2、H3、H4。某個時間周期內的帖子樣本切分為等頻的100層之后,轉換后的假設見表4。
表4 轉換過程以及可操作化之后的假設
8種周期下的各時間段,F(xiàn)和S1的皮爾遜相關系數(shù)的p值遠小于0.001;皮爾遜相關系數(shù)值都很高,周期內各時間段的相關系數(shù)均值都達到0.92甚至0.96以上(見表5)。
表5 信息層熱度(F)和層內內容平均相似度(S1)的皮爾遜相關系數(shù)情況
一元線性回歸結果如表6。
表6顯示,各時間段下,回歸方程的顯著性全部小于0.001;擬合優(yōu)度指標R方在各周期平均值都達到0.86以上,甚至部分周期下接近于0.93。也即用簡單的直線擬合這種變化關系已經有良好效果。
表6 信息層熱度(自變量F)和層內內容平均相似度(因變量S1)的線性回歸分析
同時,各周期一元線性回歸的一次項系數(shù)(斜率)基本都在0.425,常數(shù)項(截距)基本都為0.173(在0.172-0.174之間輕微波動)。信息層級的熱度(自變量)和其層內相似度(因變量)的共變關系穩(wěn)定,不是一種大幅波動的現(xiàn)象。
8個周期下的各個時間段,都顯示出了在信息的熱度(F)和信息趨于頂部層級內容的相似性(S2)之間的強烈的正相關(見表7)。不少時間段下,F(xiàn)和S2的相關系數(shù)已經達到0.97以上的接近于為1的完全正相關。
表7 信息層熱度(F)和層趨向全局內容平均相似度(S2)的皮爾遜相關系數(shù)情況
采用一元線性回歸(見表8)。
表8 信息層熱度(自變量F)和層趨向全局內容平均相似度(因變量S2)的線性回歸分析
表8顯示,各時間段下,一元線性回歸擬合狀況總體而言較為理想,擬合優(yōu)度指標R方在各周期平均值都達到0.86以上,多數(shù)周期下超過0.90甚至在0.94以上。用簡單的直線擬合這種“全局趨同化”的變化關系,已經有良好的效果。
各周期一元線性回歸,經驗線性擬合方程的一次項系數(shù)(斜率)都在0.200極輕微的波動,這種波動甚至可以忽略;常數(shù)項(截距)全部穩(wěn)定在0.201-0.202。不同周期下,一元線性回歸的經驗方程其系數(shù)穩(wěn)定。
8個周期下的各個時間段,都顯示出了在信息的輿論熱度(F)和信息趨于頂部層級內容的相似性(S3)之間的強烈的正相關。所有周期、所有時間段下,F(xiàn)和S3的皮爾遜相關系數(shù)的p值小于0.001,周期內各時間段的相關系數(shù)均值達到0.93甚至0.97以上(見表9)。
表9 信息層熱度(F)和層趨向頂部內容平均相似度(S3)的皮爾遜相關系數(shù)情況
采用一元線性回歸,結果見表10。
表10結果顯示,各時間段下的一元線性回歸擬合狀況總體而言都較為理想,擬合優(yōu)度指標R方在各周期平均值都達到0.87以上,甚至部分周期下超過0.93乃至0.94。各周期一元線性回歸,經驗線性擬合方程的一次項系數(shù)(斜率)大部分都在0.260(少部分在0.258和0.262之內輕微波動),常數(shù)項(截距)全部穩(wěn)定在0.228。
表10 信息層熱度(自變量F)和層趨向頂部內容平均相似度(因變量S3)的線性回歸分析
對假設H4進行分析。首先,層內收斂性(S1)、全局收斂性(S2)、趨頂收斂性(S3)這三種內容“收斂”態(tài)勢,兩兩之間的皮爾遜相關系數(shù)分析結果顯示:這三個方向的收斂“步調”高度一致,8種周期、數(shù)百個時間段,其皮爾遜相關系數(shù)平均值達到了0.996以上,是接近于1的完全正相關,而且所有的相關系數(shù)的p值均小于0.001。
為了考察不同的變量之間的內部一致性,用Cronbach'sα系數(shù)考察層組的層內收斂、全局收斂、趨頂收斂的三個變量之間的統(tǒng)一性。Cronbach'sα值如果達到0.6以上是通??山邮艿慕Y果,達到0.8或0.9以上是很理想的值(見表11)。
表11 層內收斂、全局收斂、趨頂收斂三種作用的一致性分析
對三者的cronbachα系數(shù)分析顯示,各周期下其各時間段的平均值達到了0.946。三者之間的共同趨向性也達到了很高的程度,表現(xiàn)為趨向于層內的同質化、趨向于全局的同質化、趨向于頂部的同質化的“殊途同向”與“殊途同歸”。盡管結論簡單,但是具有一定程度的反直觀性。比如:越是趨同、封閉于本信息層內,則越是和“全局信息”趨同,通常被認為是不會同步的,前者往往意味著比后者更強的窄化和自我封閉性。又比如,越是趨同于全局的平均相似化就越是趨同于頂部的最熱信息層,這兩個過程有時也并非同步的。但實證結果確證了它們之間的同步、一致的規(guī)律性。
本研究以新浪微博為對象,分析了社交網絡媒體中可能的內容收斂和分層次漸進的重復化和封閉化。社交媒體環(huán)境中廣泛、多元、分散的訊息內容,隨著媒介傳導程度和層級的不同而具有鮮明的、漸進的內容收斂及其趨同。核心結果是:a.微博社交網絡中看似開放和自由的信息交流、傳播,必定發(fā)生越來越朝向有限標的發(fā)生同化、封閉、窄化的“內容收斂”,充分的信息流動產生封閉而非開放;b.社會信息的“內容收斂”程度和信息熱度之間成正比。
文章的主要貢獻如下。a.社交媒體信息的傳導熱度,是否以及如何線性地關聯(lián)于內容收斂的程度,是當前仍被理論重視不夠、也實證研究不足的問題。本文對新浪微博進行的規(guī)模性的實證分析較為精確地描畫了兩者之間的線性關系及其變化、分布的軌跡。對于H1、H2、H3,線性回歸方程的R方達0.85乃至0.9以上,其中:層內收斂的經驗線性擬合方程,一次項及常數(shù)項分別平均穩(wěn)定于0.425和0.173左右;全局收斂的線性方程其一次項及常數(shù)項分別平均穩(wěn)定于0.200和0.201-0.202左右;趨頂收斂的線性方程其一次項及常數(shù)項分別平均穩(wěn)定于0.260和0.228左右。參數(shù)在不同周期下都高度穩(wěn)定。b.在當前學界所熱點討論的用戶信息繭房、“過濾氣泡”、網絡群體“回音室”等微觀、中觀現(xiàn)象的基礎上,將之拓展到宏觀、整體層面的“超個體信息繭房”“平臺信息窄化”,有助于進一步推進解析信息社會與使用者之間的復雜、異化關系。c.通過信息如何越來越趨向于彼此間的同化、趨向于和總體信息的同化、以及在此過程中的趨頂收斂性這三個關聯(lián)層面,多角度地驗證了社會信息如何內容收斂的途徑和方式,豐富對于該現(xiàn)象與后果的認知。同時,不同的收斂作用之間的聯(lián)系和高度緊密的統(tǒng)一性在現(xiàn)有研究中關注不足,本文明確分析了微博內容的層內趨同、全局趨同、頂部趨同這三種收斂路徑的統(tǒng)一性,其克朗巴赫內在一致性系數(shù)高達0.946左右。
與社交媒體內容收斂相聯(lián)系的,是在充分的社會“公共領域”和平臺信息流動之中,不斷趨于窄化和自我封閉的“公共信息繭房”。充分的信息傳播帶來社會信息的內容收斂而非多樣性。
在一個特定的周期內,盡管微博環(huán)境的構成多元、多樣和自主,但其信息層級的三種趨同性必定隨熱度線性增長。其后果之一是潛藏的“輿論極端”語境及其帶來的收斂和封閉。根據本文的計算,如果各種參數(shù)不變,由于熱度歸一化后的最高值為1,所以信息彼此之間趨同的層內收斂性(S1)、趨同于全局的收斂性(S2)、趨同于頂部信息的收斂性(S3)程度,根據前文的線性回歸,其平均相似度的最大值估算如下:S1約為0.425×1+0.173=0.598;S2約為0.200×1+0.202=0.402;S3約為0.260×1+0.228=0.488?;诖丝梢灶A測,在最極端、最“狂熱”的高熱度信息環(huán)境中,那些“最頂端”的熱信息或社會注意力所集中的內容,其彼此間的內容相似度可高達0.598,大大高于任意兩條帖子的0.231左右的平均相似度水平。雖然就兩條信息的相似度而言這個值不算很高;但是本研究的結果在數(shù)百條帖子以上的尺度是很穩(wěn)定的,而考慮到數(shù)百條、數(shù)千條以上的帖子規(guī)模達到0.5以上的平均相似度,則是較深的信息同質化和窄化,反映出社會流動中的熱信息趨于“同一個模子”的強烈程度。這在緊急的社會動員或面臨重大公共事件時,會顯現(xiàn)的更加清晰。
對于公共信息繭房和內容收斂的另一種推進是網絡民意和輿論引導從“議程設置”向“廣義議程設置”和“單極化議程設置”的延拓。經典而得到廣泛應用的“議程設置”理論揭示的是:新聞媒介在告訴人們怎么想這一方面可能并不成功,但是在告訴人們想什么的方面則異常成功[40]。該理論強調“議程”之間設置和被設置的關系,但是忽視了“頂部”議程本身的相互同化。由層內收斂性可以預期,媒介議程隨著熱度提升而越來越趨同化、“濃稠化”,而不是傳統(tǒng)的“議程設置”理論中所預設的多元議程;高熱度議程具有對其他不相關議程的“擠出效應”乃至“獨占效應”,而后者在“議程設置”等理論中是被忽視的。與此同時,結合媒介輿論引導的實踐,由內容收斂性對該結論進行反推,則有助于思考的是:如何制造高熱度、高流量的議程?亦或者,如何預判一個議程在周期內可能的熱度?由趨頂收斂性可以預期,高熱度信息需要和頂部最熱帖子盡可能相似,這種“蹭熱點”策略雖然被應用但多是作為經驗技巧,而本文對其有效性予以了科學解釋與統(tǒng)計檢驗;由全局收斂性可以預期,高熱度議程需要和周期內全部議程盡可能具有高的平均相似度,因此需要提升該議程的公共性而非容易誤認為的垂直細分性;由層內收斂性可以預期,最高熱度的議程具有“擠出性”和頂部優(yōu)勢,此時對于議程的“加熱”或炒作有助于加強該議程的“頂部優(yōu)勢”。
盡管微博中的訊息千千萬萬,但這些多樣性中存在著趨同性;它們具有類似于“金字塔結構”的特征,從最底部的低熱度層到最頂部的高熱度層,而逐漸減少內部訊息的“自由彈性”,從寬松多變而變得更為有限和同質化,逐步增強其層內相似的“稠密”程度(層內收斂性);這個從底部到頂部的逐步收斂的過程,同時也是各層逐漸接近“頂部”(從而發(fā)生趨頂收斂性)的過程;全局內容雖然是很分散的,但是趨同于“頂部”的收斂性一方面使得只有“越是普通的”才越是“流行”的,而非“越是奇葩”才“越是流行”,另一方面也使得微博的內容環(huán)境呈現(xiàn)出一種全局“向心化”結構。一些流行觀點認為社交媒體信息不受某種中心話語、權威話語的控制和主導,是多元和去中心的,但是本文結果顯示:社交媒體信息不是去中心的而是有中心的,這個中心就是“趨頂收斂性”所指涉的“頂部”內容;圍繞這些作為中心的頂部內容形成向外一圈圈漣漪狀的圈層,每一漣漪圈層可視為熱度逐漸遞減的信息層,往外擴散的圈層和中心的相似度逐步線性降低;每往外擴散的圈層,圈層內部的帖子相似度也由于“層內收斂性”而線性降低;越往內圈則由于“全局收斂性”而作為全體相似中心的程度越高,給場域所有帖子都帶來這個中心的烙印和投影。