王晰巍,張 柳,黃 博,韋雅楠
(1. 吉林大學(xué)管理學(xué)院,長春 130022;2. 吉林大學(xué)大數(shù)據(jù)管理研究中心,長春 130022;3. 吉林大學(xué)國家發(fā)展與安全研究院,長春 130022;4. 吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,長春 130022)
根據(jù)2019 年全球數(shù)字報告顯示,全球有超過43.9 億人在使用互聯(lián)網(wǎng)。其中,社交媒體的使用持續(xù)快速增長,全球社交媒體用戶數(shù)量在2019 年初已增長到近35 億人,截至2019 年7 月9 日,新增用戶2.88 億人,全球滲透率高達(dá)45%,并且32.6 億用戶通過移動設(shè)備來使用社交媒體平臺[1]。隨著Web 2.0的出現(xiàn),社交網(wǎng)絡(luò)已經(jīng)成為互聯(lián)網(wǎng)信息傳播的重要媒介。社交網(wǎng)絡(luò)源自網(wǎng)絡(luò)社交,是一個能夠相互交流、相互溝通和相互參與的互動平臺,可以為大眾提供娛樂、休閑、生活服務(wù),并進(jìn)行信息分享和交流的網(wǎng)絡(luò)平臺[2]。由于社交媒體這種自由寬松的網(wǎng)絡(luò)空間,使得網(wǎng)絡(luò)上的謠言也層出不窮,嚴(yán)重危害社會以及網(wǎng)絡(luò)秩序的穩(wěn)定。因此,網(wǎng)絡(luò)謠言的甄別和治理成為當(dāng)前輿情管理部門及學(xué)者們關(guān)注的新問題。
近幾年國內(nèi)外學(xué)者展開了網(wǎng)絡(luò)謠言方面的研究。Liu 等[3]通過觀察社交媒體環(huán)境中用戶的特性及謠言在社交媒體中的傳播模式來區(qū)分謠言與非謠言;Zubiaga 等[4]使用自然語言處理和數(shù)據(jù)挖掘技術(shù),提出一個由謠言檢測、跟蹤、分類等組成的謠言分類系統(tǒng),并對解決謠言提出建議;Moin 等[5]設(shè)計了基于Facebook 話題評論數(shù)據(jù)的謠言檢測模型,并通過實驗分析對比機(jī)器學(xué)習(xí)在識別謠言監(jiān)測的優(yōu)越性。洪小娟等[6]以2013 年食品安全微博謠言為實證研究對象,運用社會網(wǎng)絡(luò)分析方法研究了微博謠言的網(wǎng)絡(luò)結(jié)構(gòu)特征;鄧勝利等[7]從用戶信任視角構(gòu)建了網(wǎng)絡(luò)謠言預(yù)測模型,并分析了用戶信任對網(wǎng)絡(luò)謠言生產(chǎn)與傳播的影響;蘭月新等[8]構(gòu)建了網(wǎng)絡(luò)謠言傳播主體演化模型,運用定性分析的方法分析了突發(fā)事件網(wǎng)絡(luò)謠言傳播機(jī)理。從國內(nèi)外學(xué)者的研究現(xiàn)狀來看,現(xiàn)有的相關(guān)研究主要分為兩類:一類是利用社交網(wǎng)絡(luò)的圖結(jié)構(gòu),以復(fù)雜網(wǎng)絡(luò)分析為理論基礎(chǔ),研究網(wǎng)絡(luò)謠言的傳播模式;另一類是利用自然語言處理的相關(guān)技術(shù),以用戶的評論信息作為數(shù)據(jù)基礎(chǔ),實現(xiàn)基于內(nèi)容的謠言識別。然而,目前尚未有研究嘗試運用區(qū)塊鏈技術(shù)實現(xiàn)社交網(wǎng)絡(luò)結(jié)構(gòu)的重構(gòu),并基于評論信息進(jìn)行謠言的甄別。
本文試圖解決以下三個方面的研究問題:①如何基于區(qū)塊鏈技術(shù)對社交網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重構(gòu)?②如何運用區(qū)塊鏈技術(shù)對網(wǎng)絡(luò)謠言的發(fā)布者進(jìn)行追溯?③怎樣基于評論信息對網(wǎng)絡(luò)謠言進(jìn)行甄別?因此,本文基于區(qū)塊鏈構(gòu)建網(wǎng)絡(luò)謠言甄別模型,以新浪微博中“塑料大米”作為研究對象進(jìn)行仿真研究,驗證模型的有效性與優(yōu)越性。本文的理論貢獻(xiàn)在于運用區(qū)塊鏈技術(shù)重構(gòu)社交網(wǎng)絡(luò)結(jié)構(gòu),基于評論信息進(jìn)行網(wǎng)絡(luò)謠言的甄別,并提供一種去中心化的可信任機(jī)制。在實踐中,這種基于區(qū)塊鏈的謠言驗證方式,提供了一種基于工作量證明機(jī)制的謠言甄別方法,使得網(wǎng)絡(luò)對謠言有一定的自動過濾能力。
網(wǎng)絡(luò)輿情以網(wǎng)絡(luò)為載體,傳播和擴(kuò)散眾多網(wǎng)絡(luò)用戶情感、態(tài)度、意見和觀點的集合[9]。在網(wǎng)絡(luò)輿情環(huán)境中,許多內(nèi)容生產(chǎn)者,尤其是缺乏深度思考的部分新媒體會尋求通過“標(biāo)題黨”、娛樂化、斷章取義、夸大歪曲等方式,獲得閱讀量、轉(zhuǎn)發(fā)率和點贊量,成為熱門內(nèi)容,繼而被廣大網(wǎng)民所知,形成網(wǎng)絡(luò)謠言。
網(wǎng)絡(luò)謠言,通常是指通過網(wǎng)絡(luò)傳播介質(zhì)(如微博、微信和論壇等)進(jìn)行傳播,沒有事實根據(jù),且?guī)в幸欢ǖ墓粜院湍康男缘脑捳Z[10]。由于互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們對網(wǎng)絡(luò)謠言的傳播不受時間、地點和空間的限制[11]。人們會以不同的方式對謠言做出反應(yīng)、互動和回應(yīng),通常認(rèn)為個人層面的不確定性和輕信度是網(wǎng)絡(luò)謠言傳播的決定因素[12]。網(wǎng)絡(luò)謠言與新聞的最大區(qū)別在于謠言本身是未經(jīng)證實的,與此同時,謠言往往是人們感興趣的或與自身利益相關(guān)的熱點問題[13]。網(wǎng)絡(luò)謠言傳播具有突發(fā)性并且流傳速度極快,其傳播與流行病的傳播很相似[14]。如果不能對網(wǎng)絡(luò)謠言進(jìn)行及時的甄別、管理和控制,將會對正常的社會秩序造成不良影響,并可能引起不必要的恐慌和混亂,更嚴(yán)重的甚至引發(fā)社會動蕩[15]。因此,對網(wǎng)絡(luò)謠言進(jìn)行追蹤溯源和及時甄別,可以減少不必要的負(fù)面輿情的發(fā)生。
區(qū)塊鏈最初起源于比特幣,是比特幣的底層技術(shù)。其本質(zhì)是一個去中心化的數(shù)據(jù)庫[16]。區(qū)塊鏈技術(shù)不依賴第三方,通過自身分布式節(jié)點,結(jié)合共識機(jī)制、密碼學(xué)、時間戳等技術(shù)來進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的存儲、驗證、傳遞和交流,具有點對點傳輸、去中心化、開放可追溯和安全不可竄改等特點[17]。區(qū)塊鏈技術(shù)被認(rèn)為是互聯(lián)網(wǎng)發(fā)明以來最具顛覆性的技術(shù)創(chuàng)新,其依靠密碼學(xué)和數(shù)學(xué),巧妙地運用分布式算法,在無法建立信任關(guān)系的互聯(lián)網(wǎng)上,不需要借助任何第三方中心的介入即可使參與者達(dá)成共識[18]。采用全民參與和全民記賬的方式,共同維護(hù)一個十分可靠的巨大賬本,即一個大的分布式數(shù)據(jù)庫,以較低的成本解決了信任與價值的可靠傳遞難題[19]?;趨^(qū)塊鏈的共識機(jī)制可建立信任網(wǎng)絡(luò),以抑制網(wǎng)絡(luò)謠言信息的進(jìn)一步傳播[20];區(qū)塊鏈的中心化數(shù)據(jù)系統(tǒng),可代替原有的第三方托管策略,從而提升了原始信息的安全,在信息源頭上遏制了惡意的謠言攻擊[21]。已有學(xué)者對以區(qū)塊鏈為架構(gòu)基礎(chǔ)的Stee‐mit、Matters 平臺應(yīng)對網(wǎng)絡(luò)謠言的功能設(shè)置和運行機(jī)制進(jìn)行了分析[22],這些研究較少有較成熟的理論模型。
由于區(qū)塊鏈重新定義了網(wǎng)絡(luò)中信息的存儲和傳播方式,從而保證了網(wǎng)絡(luò)中的數(shù)據(jù)不被非對稱加密算法竄改和偽造,使得網(wǎng)絡(luò)用戶對區(qū)塊鏈數(shù)據(jù)信息的狀態(tài)達(dá)成一致。從現(xiàn)有區(qū)塊鏈的研究和發(fā)展現(xiàn)狀來看,區(qū)塊鏈技術(shù)不僅僅適用于經(jīng)濟(jì)金融領(lǐng)域,更應(yīng)用在信息加密、知識產(chǎn)權(quán)、電子商務(wù)等方面。而且,區(qū)塊鏈技術(shù)將會從技術(shù)層面幫助網(wǎng)絡(luò)輿情進(jìn)行傳播內(nèi)容、傳播方式、網(wǎng)絡(luò)安全和隱私安全等進(jìn)行優(yōu)化與創(chuàng)新。在應(yīng)對虛假新聞等網(wǎng)絡(luò)謠言方面,區(qū)塊鏈技術(shù)的可追溯性,使得其非常適合用來追溯謠言信息的源頭。而通過設(shè)計基于評論內(nèi)容的工作量證明機(jī)制,可以有效地構(gòu)建甄別模型,從而進(jìn)一步增強(qiáng)其識別網(wǎng)絡(luò)謠言的能力。傳統(tǒng)的非基于區(qū)塊鏈的網(wǎng)絡(luò)謠言甄別模型中,大多使用機(jī)器學(xué)習(xí)對信息進(jìn)行真實性的識別[23],而本文旨在利用區(qū)塊鏈技術(shù)重構(gòu)社交網(wǎng)絡(luò)結(jié)構(gòu),以保證信息在社交網(wǎng)絡(luò)中傳播的可追溯性。在此基礎(chǔ)上,本文利用評論信息進(jìn)行謠言甄別,提供一種去中心化的可信任機(jī)制。根據(jù)節(jié)點間的語義相似度動態(tài)調(diào)節(jié)節(jié)點接入?yún)^(qū)塊鏈的難度,并利用區(qū)塊鏈中的工作量證明機(jī)制,使得社交網(wǎng)絡(luò)對網(wǎng)絡(luò)謠言傳播具有一定的自動過濾能力。
區(qū)塊鏈技術(shù)提供一種去中心化的可信任機(jī)制,其思想是以眾多網(wǎng)絡(luò)節(jié)點替代可信任的權(quán)威機(jī)構(gòu),即實現(xiàn)全網(wǎng)共同見證,最終達(dá)成一個共識機(jī)制[24]。在網(wǎng)絡(luò)謠言的甄別中,這種共識機(jī)制是全網(wǎng)大多數(shù)用戶對某一信息的共同認(rèn)知。以區(qū)塊鏈技術(shù)為基礎(chǔ),對于一條需要確認(rèn)的信息,可通過區(qū)塊鏈的工作量證明機(jī)制進(jìn)行認(rèn)證。在網(wǎng)絡(luò)輿情環(huán)境中,這種認(rèn)證方式可應(yīng)用于“意見領(lǐng)袖”對權(quán)威機(jī)構(gòu)發(fā)布的信息進(jìn)行的轉(zhuǎn)發(fā)和評論等行為。具體實現(xiàn)方式為:隨機(jī)找到一個可信的第三方節(jié)點,通過第三方確認(rèn)消息,再運用廣播機(jī)制,由該第三方節(jié)點向全網(wǎng)擴(kuò)散,通過全網(wǎng)大多數(shù)人的共同認(rèn)知,來辨別網(wǎng)絡(luò)傳播信息的真?zhèn)?。以下用UML 圖來說明本文所使用的區(qū)塊鏈技術(shù),如圖1 所示。
圖1 區(qū)塊鏈技術(shù)UML圖
在圖1 中,Block 表示區(qū)塊鏈的源節(jié)點,每個區(qū)塊中都包含8 個屬性。其中,BlockNo 表示區(qū)塊編號,為區(qū)塊的唯一索引,此處可認(rèn)為是該區(qū)塊的一個數(shù)字簽名;data 表示區(qū)塊中所存儲的信息。由于區(qū)塊鏈本身為比特幣的技術(shù)支撐,一般存儲的信息為交易記錄[25],本文將其運用在網(wǎng)絡(luò)輿情謠言甄別模型中,用于存儲社交網(wǎng)絡(luò)中的輿情信息;difficul‐ty 為挖礦難度,決定了該區(qū)塊計算隨機(jī)數(shù)的復(fù)雜度,其復(fù)雜度越高,計算的開銷越大,鏈入?yún)^(qū)塊鏈越困難;nonce 是用一次的隨機(jī)種子,用來產(chǎn)生一個唯一的隨機(jī)數(shù);hash 為哈希值,既可以作為區(qū)塊的唯一標(biāo)識,也能用來檢驗該區(qū)塊是否可靠[26];next 為指向下一個區(qū)塊的指針,使得區(qū)塊與區(qū)塊之間像鏈子一樣串聯(lián)起來;previous_hash 為指向前一個區(qū)塊鏈哈希值的指針;timestamp 為時間戳,用于表示存儲節(jié)點的時間信息[27]。
區(qū)塊類還包含兩個方法:一個是初始化方法,即將新產(chǎn)生的輿情信息保存在該區(qū)塊中[28];另一個方法是哈希算法,本文所使用的是SHA-256 散列函數(shù)。SHA-256 函數(shù)能夠生成一個唯一的256 位的數(shù)[29]。哈希算法的輸入為5 個部分的unicode 編碼之和,這5 個部分分別為:區(qū)塊的隨機(jī)種子nonce、區(qū)塊所存儲的數(shù)據(jù)data、前一個區(qū)塊的哈希值previ‐ous_hash、時間戳timestamp 和區(qū)塊編號BlockNo。這樣的計算方式大大提升了后續(xù)算法中“挖礦”計算的隨機(jī)性,使得散布謠言的網(wǎng)絡(luò)節(jié)點很難竄改原始內(nèi)容。
以網(wǎng)絡(luò)謠言的視角來看,BlockNo 提供了用戶的身份標(biāo)識,以證明用戶的身份。由于本文的區(qū)塊鏈模型是在原有社交網(wǎng)絡(luò)平臺的基礎(chǔ)上進(jìn)行的區(qū)塊鏈重構(gòu),這種方式可以有效地利用原有平臺的身份驗證信息。data 代表了用戶的評論信息,而評論信息的發(fā)布則看成是一個接入?yún)^(qū)塊鏈的過程。difficul‐ty 這一挖礦難度確定了其接入?yún)^(qū)塊鏈中的難易程度,由評論信息本身決定。在本文中利用了相似度函數(shù)來動態(tài)調(diào)節(jié)挖礦難度。區(qū)塊鏈中的散列函數(shù)由用戶的簽名、評論信息、時間戳等因素決定。這既保證了區(qū)塊的隨機(jī)性(即生成一個“第三方”的區(qū)塊),也保證了數(shù)據(jù)的安全性。
區(qū)塊鏈(BlockChian),即“不同區(qū)塊Block 連成的鏈”。本文所使用的區(qū)塊鏈,其源節(jié)點為輿情信息發(fā)布的源節(jié)點。由圖1 可知,區(qū)塊鏈類包含5個屬性,其中difficulty 為其所有子區(qū)塊中挖礦難度的總和,maxNonce 為最大隨機(jī)數(shù),用來表示隨機(jī)算法計算開銷的上限,具體計算公式為
其中,tgt 表示目標(biāo)(target)哈希值可接受的范圍;diff 為子區(qū)塊中挖礦難度(difficulty)的總和。
從計算方式可以得出,如果某一區(qū)塊的計算復(fù)雜度越高,那么哈希值的范圍就越小,即接入?yún)^(qū)塊鏈也就越困難。區(qū)塊鏈上每一個區(qū)塊的加入經(jīng)過“挖礦”方法隨機(jī)計算得出。每一個區(qū)塊的挖礦難度根據(jù)其與信息源文本相似度不同而變化,相似度越高,則難度越低;反之,相似度越低,則難度越高。區(qū)塊鏈將所存儲的輿情信息經(jīng)過SHA-256 散列運算后轉(zhuǎn)換成哈希值,使數(shù)據(jù)的安全性大大提升。
區(qū)塊鏈包含了兩個工作方法:一個方法是隨機(jī)挖礦算法;另一個方法是添加節(jié)點。本文采用“隨機(jī)挖礦算法”,即工作量證明機(jī)制(proof of work,POW)。工作量證明機(jī)制簡單理解就是一份證明,是用工作結(jié)果來證明工作過程的機(jī)制,也是目前廣泛應(yīng)用于去中心化系統(tǒng)的機(jī)制[30]。同時,工作量證明又被稱作“挖礦”,以挖到的“礦”的量來證明其“挖礦”的過程[31]。區(qū)塊鏈相當(dāng)于一個“礦區(qū)”,區(qū)塊鏈上的每一個節(jié)點相當(dāng)于礦區(qū)中的一個“礦工”,工作量證明機(jī)制是以節(jié)點計算得到的哈希值來證明節(jié)點真正參與了計算,就像礦工用采到的礦來證明其參與了采礦的過程。在不同節(jié)點計算能力相同的假設(shè)下,某一區(qū)塊挖礦的復(fù)雜度,僅由難度來決定。
4.1.1 前提假設(shè)
基于對區(qū)塊與區(qū)塊鏈的設(shè)定,本研究提出了3條基于區(qū)塊鏈的謠言甄別模型的前提假設(shè):①網(wǎng)絡(luò)輿情的源節(jié)點需為權(quán)威機(jī)構(gòu)所發(fā)布的真實信息,時間戳最早。若某節(jié)點的時間戳早于源節(jié)點,則直接判定為謠言[32];②存在某相似性計算算法,衡量新輿情與源節(jié)點處輿情的相似度[33];③有足夠多請求接入?yún)^(qū)塊鏈的節(jié)點,且不同節(jié)點的計算能力相同[34]。
社交網(wǎng)絡(luò)中的輿情傳播大致分為直接轉(zhuǎn)發(fā)和評論轉(zhuǎn)發(fā)。有學(xué)者將區(qū)塊鏈的不可竄改、可追溯機(jī)制應(yīng)用于社交媒體中轉(zhuǎn)發(fā)謠言的研究,而并未對社交網(wǎng)絡(luò)中評論信息進(jìn)行甄別[35]。因此,本文將針對這兩類傳播途徑進(jìn)行詳細(xì)闡述,以及區(qū)塊鏈如何通過節(jié)點時間戳,遞歸地追溯信息源節(jié)點,進(jìn)而有效地甄別謠言信息。
4.1.2 直接轉(zhuǎn)發(fā)的網(wǎng)絡(luò)謠言甄別
若網(wǎng)絡(luò)謠言的傳播途徑為直接轉(zhuǎn)發(fā),則網(wǎng)絡(luò)謠言的甄別過程較為容易。由于區(qū)塊鏈的不同區(qū)塊中包含了源節(jié)點時間戳,對于早于源節(jié)點時間戳的區(qū)塊可直接判定為謠言,并禁止接入?yún)^(qū)塊鏈(仿真實驗過程中,將區(qū)塊的挖礦難度調(diào)至最大即可)。此外,區(qū)塊鏈的結(jié)構(gòu)特性也保障了對傳播路徑的有效驗證,由于每一個區(qū)塊都有previous_hash,因而存儲了其父節(jié)點的信息,謠言甄別時可以一直遍歷到頭節(jié)點。如果頭節(jié)點并非源節(jié)點,則需要參照評論轉(zhuǎn)發(fā)的方法進(jìn)行甄別。
4.1.3 評論轉(zhuǎn)發(fā)的網(wǎng)絡(luò)謠言甄別
若網(wǎng)絡(luò)謠言的傳播途徑為評論轉(zhuǎn)發(fā),則甄別過程相對復(fù)雜。評論轉(zhuǎn)發(fā)經(jīng)常被網(wǎng)絡(luò)謠言傳播者利用。通常網(wǎng)絡(luò)謠言傳播者轉(zhuǎn)發(fā)某一權(quán)威機(jī)構(gòu)的信息,再別有用心地斷章取義,從而造成網(wǎng)絡(luò)謠言的傳播。由于這類網(wǎng)絡(luò)謠言是轉(zhuǎn)發(fā)自權(quán)威機(jī)構(gòu)的評論信息,甄別此類謠言也相對復(fù)雜,但區(qū)塊鏈的存儲結(jié)構(gòu),對這類網(wǎng)絡(luò)謠言可以做到有效地預(yù)防和甄別。
首先,需要判定該評論信息與源節(jié)點處信息的相似程度,可通過相似度計算函數(shù)進(jìn)行比較。一般認(rèn)為,文本相似度可表示為[0,1]區(qū)間的實數(shù),該實數(shù)可通過計算語義距離獲得。相似度同語義距離成反比關(guān)系,相似度越高則語義距離越小;反之,相似度越低則語義距離越大[36]??尚问交乇硎緸?/p>
(1)6個版本螺旋數(shù)量范圍是3~5個,間隔時間范圍0~6個學(xué)期,不同學(xué)段之間的間隔時間比同一學(xué)段內(nèi)的間隔時間長,平均間隔時間范圍是2.5~6個學(xué)期.不同版本內(nèi)容的螺旋間隔差異較大.
其中,Dis(SA,SB)表示文本SA、SB之間的非負(fù)語義距離;α為調(diào)節(jié)因子,為保證語義距離為0 時的計算意義,本文取α=10-6。
本文基于詞袋模型的隱狄利克雷分布(latent Dirichlet allocation,LDA)方法計算文本相似度[37]。詞袋模型的基本思想是不考慮詞語在文檔中的出現(xiàn)順序,僅將文檔表示成詞語的組合,這種假設(shè)非常適用于上下文信息不充分的社交網(wǎng)絡(luò)評論信息中。LDA 主題模型為一個三層的貝葉斯概率模型,包含文檔、主題和詞的三層結(jié)構(gòu)。采用其計算評論信息相似度的基本思想是:對評論信息進(jìn)行主題建模,并在主題對應(yīng)的詞語分布中抽取詞語,得到評論信息的主題分布,再依據(jù)這個分布計算JS 散度,用作相似度的度量方式。具體如公式(3)、公式(4)所示:
其中,P(x)、Q(x)表示了不同評論信息的主題分布。通過這樣的距離函數(shù),可以計算節(jié)點與源節(jié)點的相似程度。如果相似程度較高,則降低該區(qū)塊的挖礦難度;反之,如果相似程度較低,則增加該區(qū)塊鏈整體的挖礦難度。通常情況下,若某一節(jié)點為謠言傳播者,其信息與源節(jié)點的相似度較低,且網(wǎng)絡(luò)謠言傳播者一般會持續(xù)地散布謠言。
在區(qū)塊鏈模型的設(shè)定下,該條區(qū)塊鏈上的挖礦難度會不斷提升,由于一條區(qū)塊鏈的挖礦難度直接決定了該區(qū)塊接入主區(qū)塊鏈的可能性,在有足夠多節(jié)點請求接入?yún)^(qū)塊鏈的前提下,散布謠言的節(jié)點由于其挖礦難度的不斷提升,是很難接入?yún)^(qū)塊鏈的。區(qū)塊鏈挖礦算法的存在,加強(qiáng)了對這類節(jié)點的甄別。
一個健壯的網(wǎng)絡(luò)謠言甄別模型,自身需要具備謠言過濾算法,以保證能夠進(jìn)行謠言的自凈。本文基于區(qū)塊鏈構(gòu)建了網(wǎng)絡(luò)謠言甄別模型,如圖2 所示。
4.3.1 輿情爆發(fā)期及區(qū)塊鏈審核
輿情爆發(fā)期,即輿情萌芽階段,此時的輿情話題本身就有可能是謠言。此階段,輿情話題信息需要經(jīng)過權(quán)威機(jī)構(gòu)發(fā)布后才能認(rèn)證為真實信息。此時,可以通過區(qū)塊鏈技術(shù)進(jìn)行輿情審核,可以先構(gòu)建區(qū)塊鏈源節(jié)點Block(“Genesis”),這個節(jié)點代表權(quán)威機(jī)構(gòu)。初始輿情話題經(jīng)過權(quán)威機(jī)構(gòu)審核后發(fā)布輿情信息。若初始輿情話題被認(rèn)證為謠言,則需要進(jìn)行辟謠。
4.3.2 輿情發(fā)酵期及次級區(qū)塊鏈剪枝
在輿情的發(fā)酵期,可能會形成次級區(qū)塊鏈。此階段,每條次級區(qū)塊鏈的頭節(jié)點代表了較早參與輿情傳播的網(wǎng)絡(luò)用戶,在不考慮源節(jié)點的情況下,其時間戳最早。依照本文所建立的假設(shè),若其時間戳早于源節(jié)點的時間戳,則直接判定為謠言信息。同時,每條次級區(qū)塊鏈依照輿情的轉(zhuǎn)發(fā)關(guān)系鏈接而成,為降低分析的復(fù)雜性本文只考慮直接轉(zhuǎn)發(fā)這種情況。若是評論轉(zhuǎn)發(fā),相當(dāng)于以該節(jié)點為次級區(qū)塊鏈的源節(jié)點,從而該節(jié)點衍生成為主區(qū)塊鏈,因而可依照區(qū)塊鏈的遞歸結(jié)構(gòu)進(jìn)行構(gòu)建。由于區(qū)塊鏈的安全性,轉(zhuǎn)發(fā)過程中的信息是不可竄改的,這樣就保證了轉(zhuǎn)發(fā)信息的真實性。
此階段可通過區(qū)塊鏈實現(xiàn)輿情的過濾:依照相似度算法和挖礦算法,從各條次級區(qū)塊鏈尾端的節(jié)點開始,沿前向指針遍歷區(qū)塊鏈,累積挖礦難度,最終將挖礦難度的累計值存儲到該條次級區(qū)塊鏈的頭結(jié)點處。挖礦難度越高的區(qū)塊鏈頭結(jié)點,其接入?yún)^(qū)塊鏈源節(jié)點的可能性也就越低。由于挖礦算法的隨機(jī)性,在給定相似度算法有效的前提下,經(jīng)過足夠長的時間,由謠言信息組成的次級區(qū)塊鏈將被有效地剪枝,從而無法接入主區(qū)塊鏈。
圖2 區(qū)塊鏈的網(wǎng)絡(luò)謠言甄別模型
4.3.3 輿情擴(kuò)散期
輿情進(jìn)入過濾期后,隨即進(jìn)入輿情的廣播期,廣播操作相當(dāng)于一種共識機(jī)制,從區(qū)塊鏈數(shù)據(jù)結(jié)構(gòu)的角度而言,相當(dāng)于進(jìn)行區(qū)塊鏈剪枝。經(jīng)歷廣播操作后,區(qū)塊鏈中的每一個節(jié)點,都將存儲整個區(qū)塊鏈的輿情信息,從而構(gòu)建成整個網(wǎng)絡(luò)輿情的共識機(jī)制。由于區(qū)塊鏈在經(jīng)歷足夠長時間的過濾期后,能夠有效地過濾掉網(wǎng)絡(luò)謠言,使得在廣播后的輿情網(wǎng)絡(luò)具備高度的真實性。從輿情傳播的角度而言,此時的輿情網(wǎng)絡(luò)對于謠言有著較強(qiáng)的抵御力。
新浪微博是由新浪網(wǎng)推出的一款為大眾提供娛樂、休閑、生活服務(wù)的信息分享和交流平臺,并且已成為眾多微博平臺中在線人數(shù)及影響力最為廣泛的網(wǎng)絡(luò)社交媒體[38]。在2018 年中國微博用戶規(guī)模及使用情況中,中國微博月活躍用戶4.62 億,是當(dāng)下網(wǎng)民廣泛使用的社交平臺[39]。在網(wǎng)絡(luò)謠言代表性信息源的選擇上,本文選擇公眾關(guān)注的新浪微博熱點網(wǎng)絡(luò)謠言食品安全類的話題作為信息源采集研究對象,建立話題空間。根據(jù)《食品謠言治理報告》發(fā)布食品藥品類謠言敏感程度,選取“十大食藥謠言榜單”中“塑料大米”這一網(wǎng)絡(luò)謠言話題[40]。之所以選擇這一謠言話題,是因為這一話題是廣大網(wǎng)民非常關(guān)注的食品安全問題,與群眾的生活息息相關(guān),具有廣泛的受眾。同時,“塑料大米”這一話題,涉及較多的專業(yè)知識,對缺少相關(guān)知識背景的網(wǎng)民來說具有一定的誤導(dǎo)性,容易造成信息不對稱。截至2018 年3 月,微博“塑料大米”話題3326.7 萬閱讀,討論數(shù)共計3.9 萬,在該話題空間下,“央視新聞”關(guān)于該話題的轉(zhuǎn)發(fā)共計3545 條,評論數(shù)為2776 條?!叭嗣袢請蟆毕玛P(guān)于該話題的轉(zhuǎn)發(fā)為2759 條,評論數(shù)為1091 條。
為對前文所構(gòu)建的基于區(qū)塊鏈的網(wǎng)絡(luò)謠言甄別模型做進(jìn)一步的驗證,采用謠言信息和真實信息這兩類仿真數(shù)據(jù)來驗證本文所構(gòu)建的區(qū)塊鏈甄別模型的有效性,在仿真實驗中,迭代次數(shù)代表了網(wǎng)絡(luò)輿情中輿情的傳播過程。在本實驗中,假定迭代次數(shù)為0~10000 次時,為基于區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型的輿情爆發(fā)期,10000~100000 次為區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型的發(fā)酵期,100000 次后為區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型的輿情擴(kuò)散期。
本文將“塑料大米”話題空間下2018 年5 月21日的用戶評論信息作為節(jié)點信息,共計4598 條評論信息。將“新華視點”轉(zhuǎn)發(fā)的農(nóng)業(yè)農(nóng)村部部長韓長賦發(fā)表的“中國大米是安全的,塑料大米絕無此事”作為源節(jié)點信息,采用第4.1.3 節(jié)中提到的LDA 主題模型作為相似度衡量函數(shù),衡量評論信息與源節(jié)點信息的相似度,設(shè)定閾值為0.8,大于閾值的定義為謠言信息節(jié)點,共計1617 個,小于等于編輯距離的定義為真實信息節(jié)點,共計2981 個。
根據(jù)上文提到的算法,將真實信息與謠言信息分別作為兩類不同的區(qū)塊,通過挖礦算法,以真實信息節(jié)點、謠言信息節(jié)點作為類別劃分,統(tǒng)計這兩類節(jié)點在不同的輿情傳播時期接入?yún)^(qū)塊鏈的總數(shù)和平均挖礦次數(shù)。
假定模型中存在合適的相似性計算函數(shù),能夠較為合理地度量真實信息與謠言信息的相似程度。依照網(wǎng)絡(luò)謠言甄別模型的設(shè)定,若某節(jié)點傳播的是謠言信息,則其與源節(jié)點所傳播的真實信息的相似度就會很高,導(dǎo)致其挖礦難度增加。根據(jù)模型的設(shè)定,這使得這類謠言節(jié)點需要經(jīng)過更多輪次的迭代才能命中隨機(jī)數(shù),也就意味著其“挖礦”時間的延長。這將導(dǎo)致此類節(jié)點在過濾期,其挖礦的次數(shù)要明顯高于傳播真實信息的節(jié)點。隨著整個區(qū)塊鏈模型的不斷迭代,謠言節(jié)點的挖礦難度不斷累加,僅僅依靠單一節(jié)點的計算能力已經(jīng)無法完成挖礦,使得謠言接點失去了接入?yún)^(qū)塊鏈的能力。與此同時,傳播真實信息的節(jié)點,隨著迭代次數(shù)的增加,其挖礦難度會逐漸降低,加之謠言節(jié)點的挖礦難度的提升,真實節(jié)點接入?yún)^(qū)塊鏈的概率會大大提升。在足夠長的時間內(nèi),區(qū)塊鏈中的謠言節(jié)點數(shù)量會遠(yuǎn)遠(yuǎn)少于真實節(jié)點的數(shù)量,從而實現(xiàn)了基于區(qū)塊鏈的網(wǎng)絡(luò)謠言過濾。
圖3 表明了區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型中不同節(jié)點的哈希次數(shù)。其中,橫軸表示迭代次數(shù),單位為千輪;縱軸表示哈希次數(shù),代表節(jié)點接入?yún)^(qū)塊鏈的難度指標(biāo),單位為萬次。從圖3 可以看出,在輿情爆發(fā)期的初期(橫軸迭代次數(shù)0~15),由于真實節(jié)點與網(wǎng)絡(luò)謠言節(jié)點接入?yún)^(qū)塊鏈的概率呈現(xiàn)出一定的隨機(jī)性,網(wǎng)絡(luò)謠言節(jié)點與真實節(jié)點的平均挖礦次數(shù)相差無幾。但隨著迭代次數(shù)的增加,通過相似度函數(shù)的計算,導(dǎo)致真實節(jié)點的挖礦難度不斷降低,而謠言節(jié)點的挖礦難度不斷上升。根據(jù)本文的前提假設(shè),挖礦難度直接決定了節(jié)點接入?yún)^(qū)塊鏈的可能性,難度越大可能性越低;反之,難度越低,接入?yún)^(qū)塊鏈的可能性越高。這導(dǎo)致了輿情發(fā)酵期(橫軸迭代次數(shù)15~80),通過區(qū)塊鏈的過濾網(wǎng)絡(luò)謠言節(jié)點的平均挖礦次數(shù)明顯高于真實節(jié)點,使得網(wǎng)絡(luò)謠言節(jié)點越來越難接入?yún)^(qū)塊鏈。當(dāng)網(wǎng)絡(luò)輿情進(jìn)入擴(kuò)散期時(橫軸迭代次數(shù)80 以后),網(wǎng)絡(luò)謠言節(jié)點的挖礦次數(shù)已經(jīng)遠(yuǎn)遠(yuǎn)高于其他真實節(jié)點,在網(wǎng)絡(luò)中節(jié)點數(shù)足夠多的情況下,網(wǎng)絡(luò)謠言節(jié)點已經(jīng)幾乎不可能接入?yún)^(qū)塊鏈。在實際應(yīng)用中,此時可以整合區(qū)塊鏈上的絕大多數(shù)節(jié)點信息,發(fā)布輿情。
圖3 區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型仿真迭代次數(shù)
某些網(wǎng)絡(luò)謠言是通過對源信息的竄改而傳播的,而基于區(qū)塊鏈的網(wǎng)絡(luò)謠言甄別模型從設(shè)計上杜絕了這種可能性。由于每一個節(jié)點的哈希值計算都依賴于其前一個節(jié)點的哈希值,若要改變區(qū)塊鏈中的某條信息,則相當(dāng)于暴力破解SHA-256 算法。由于哈希值計算的不可逆性,從而保障了區(qū)塊鏈一旦生成,想通過竄改中間傳播過程而達(dá)到散播謠言的行為幾乎是無法實現(xiàn)的[41]。區(qū)塊鏈中的每一個區(qū)塊,或直接轉(zhuǎn)發(fā)自源節(jié)點,或是所存儲的信息與源節(jié)點處的信息高度相似,從而保證輿情傳播過程中信息的真實性。
此外,由于區(qū)塊保留了時間戳信息,因而可以遞歸地對輿情信息的傳播追溯到父節(jié)點。在輿情信息傳播過程中,由于時間戳的存在,網(wǎng)絡(luò)謠言信息的偽造將變得極為困難。同時,時間戳也是哈希函數(shù)的輸入,節(jié)點的哈希值計算也依賴于時間戳,這就進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)信息傳播的安全性。在區(qū)塊鏈的網(wǎng)絡(luò)謠言甄別模型中,既可以依靠時間戳來遞歸地甄別某一節(jié)點信息來源,又由于引入了時間戳而增強(qiáng)了節(jié)點數(shù)據(jù)的不可竄改性。
以往在網(wǎng)絡(luò)謠言甄別模型的研究中,這些模型主要依賴于深度學(xué)習(xí)等監(jiān)督模型進(jìn)行分類,從而達(dá)到甄別謠言目的,但這些模型往往需要大量的標(biāo)注樣本,而無論是人工標(biāo)注,還是類似深度學(xué)習(xí)對模型的訓(xùn)練,都需要大量的時間。從輿情傳播的角度而言,這將不利于有關(guān)部門在第一時間對相關(guān)輿情進(jìn)行管控及引導(dǎo)。
本文所構(gòu)建的區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型,僅需要在輿情爆發(fā)期通過權(quán)威機(jī)構(gòu)來構(gòu)建區(qū)塊鏈源節(jié)點進(jìn)行區(qū)塊鏈審核,并通過相似性計算函數(shù)及隨機(jī)算法來有效地進(jìn)行模型構(gòu)建;到輿情發(fā)酵期,網(wǎng)絡(luò)謠言節(jié)點由于其累計挖礦難度的不斷提升,已經(jīng)很難接入?yún)^(qū)塊鏈,從而喪失了輿情傳播的能力。這種方式使得區(qū)塊鏈技術(shù)相較于其他模型,具備一定的網(wǎng)絡(luò)謠言自凈能力,剔除虛假的網(wǎng)絡(luò)謠言發(fā)布節(jié)點,使得在網(wǎng)絡(luò)輿情在傳播過程中具有更強(qiáng)的信息真實性。
同時,由于區(qū)塊鏈具有分布式的存儲特點,可以讓每個區(qū)塊節(jié)點有效地記錄了整個網(wǎng)絡(luò)的輿情信息,這使得輿情信息的完整性得以最大程度的保存,使得網(wǎng)絡(luò)輿情信息的存儲不再依賴于一個傳統(tǒng)的中心性數(shù)據(jù)庫,而是分布式地存儲于區(qū)塊鏈的每一個節(jié)點,極大地增強(qiáng)了網(wǎng)絡(luò)輿情信息存儲模式的整體健壯性。
首先,本文構(gòu)建的區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型選用的相似度函數(shù)是一個相對粗糙的方法。這種相似度的計算僅設(shè)計字符串的編輯距離,導(dǎo)致一些具備原創(chuàng)性的節(jié)點與源節(jié)點的相似度被壓得很低,這會造成整個網(wǎng)絡(luò)節(jié)點的趨同。從輿情信息傳播的多樣性角度出發(fā),這會對一些見解獨到非網(wǎng)絡(luò)謠言的輿情信息造成較大的傳播限制。其次,基于區(qū)塊鏈構(gòu)建網(wǎng)絡(luò)謠言甄別模型并沒有考慮信息存儲上限,由于區(qū)塊鏈的分布式記賬存儲信息的能力,使得每個節(jié)點更新的信息會讓所有節(jié)點都進(jìn)行存儲,這就使得存儲的信息量越來越多,這無疑增加了區(qū)塊鏈的空間開銷成本。從實踐角度來看,區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型需要較為強(qiáng)大的物理設(shè)備作為支持。最后,由于挖礦難度的不斷累積,哈希值的計算過程也是一個非常耗時的任務(wù)。只有一部分節(jié)點能夠接入?yún)^(qū)塊鏈,雖然這有效地過濾了謠言節(jié)點,但對那些參與挖礦計算而又沒能接入?yún)^(qū)塊的節(jié)點而言,無疑造成了較大的資源浪費。
在理論貢獻(xiàn)層面,本文構(gòu)建了區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型。該模型提供了一種去中心化的可信任機(jī)制,通過“礦工”對信息進(jìn)行加密、校驗、廣播和存儲,識別網(wǎng)絡(luò)源頭,并對網(wǎng)絡(luò)謠言進(jìn)行甄別和溯源,形成網(wǎng)絡(luò)謠言自凈機(jī)制,為網(wǎng)絡(luò)謠言的研究提供新的理論研究支撐。在實踐貢獻(xiàn)層面,本文以新浪微博熱點網(wǎng)絡(luò)謠言話題食品安全中的“塑料大米”為信息源,根據(jù)語義距離劃分真實話題節(jié)點與謠言話題節(jié)點,通過仿真實驗對基于區(qū)塊鏈的網(wǎng)絡(luò)謠言甄別模型進(jìn)行驗證及分析,運用區(qū)塊鏈的特點追溯網(wǎng)絡(luò)源頭并對網(wǎng)絡(luò)謠言進(jìn)行甄別。仿真實驗以評論數(shù)據(jù)為載體,驗證了區(qū)塊鏈網(wǎng)絡(luò)謠言甄別模型在控制謠言傳播方面的有效性,從而為輿情監(jiān)管部門利用區(qū)塊鏈技術(shù)對網(wǎng)絡(luò)謠言進(jìn)行甄別及網(wǎng)絡(luò)輿情管理起到一定的指導(dǎo)和推動作用。在未來研究中,筆者還將把考慮運用計算詞向量的余弦距離算法,使得大部分的非謠言節(jié)點都能接入?yún)^(qū)塊鏈。