基于突發(fā)話題和領(lǐng)域?qū)＜业奈⒉┲{言檢測方法

2017-12-14 05:22:12楊文太

計算機應(yīng)用 2017年10期

關(guān)鍵詞：領(lǐng)域?qū)＜?/a>動量謠言

楊文太,梁剛,謝凱,楊進,許春

(1.四川大學(xué) 計算機學(xué)院,成都 610065; 2.四川大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)) (*通信作者電子郵箱 lianggang@scu.edu.cn)

基于突發(fā)話題和領(lǐng)域?qū)＜业奈⒉┲{言檢測方法

楊文太1,梁剛2*,謝凱1,楊進2,許春2

(1.四川大學(xué) 計算機學(xué)院,成都 610065; 2.四川大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)) (*通信作者電子郵箱 lianggang@scu.edu.cn)

針對現(xiàn)有謠言檢測方法中存在的數(shù)據(jù)采集困難和謠言檢測滯后的問題，提出一種基于動量模型的突發(fā)話題檢測和領(lǐng)域?qū)＜野l(fā)現(xiàn)的謠言檢測方法。該方法借鑒物理學(xué)中的動力學(xué)理論對話題特征進行建模，使用特征的動力學(xué)物理量描述特征的突發(fā)特性和發(fā)展趨勢，并在對突發(fā)特征進行特征聚合之后提取得到突發(fā)話題；然后，依據(jù)話題與用戶個人信息的領(lǐng)域相關(guān)性在候選專家池中發(fā)現(xiàn)領(lǐng)域相關(guān)的微博用戶來甄別話題信息的真實性。基于新浪微博數(shù)據(jù)的實驗結(jié)果表明，相對于僅基于有監(jiān)督機器學(xué)習(xí)的微博謠言識別方法，該方法謠言識別準(zhǔn)確率提高了13個百分點；相對于主流人工識別方法，將最長謠言檢測用時縮短至20 h，能夠較好地應(yīng)用于實際的微博謠言檢測環(huán)境。

動量模型;話題;突發(fā);領(lǐng)域?qū)＜?謠言檢測

0 引言

隨著微博平臺的流行,微博平臺上產(chǎn)生了大量難于驗證的謠言信息,給用戶體驗、平臺發(fā)展和國家穩(wěn)定帶來巨大危害。微博謠言問題主要表現(xiàn)為以下幾個方面:第一,由于微博平臺的謠言來自不同領(lǐng)域,用戶受限于有限的背景知識,在難以甄別謠言信息真假的情況下可能會相信謠言微博中的虛假事實,或者接受了其中的觀點,誤信虛假信息不僅會助長了謠言信息的傳播,還可能給個人帶來不可預(yù)料的財產(chǎn)、名譽等損失。第二,微博允許用戶自由地發(fā)布信息以及缺少有效的信息發(fā)布監(jiān)管措施,致使散布在微博上的謠言數(shù)量急劇上升。微博中謠言信息的泛濫降低了正常信息的可信度,由于一時難以分辨真假,可能致使用戶對傳播有益信息的微博持懷疑態(tài)度,從而從整體上損害微博平臺的信息可靠度;第三,由于某些危害國家社會穩(wěn)定的謠言得到大肆傳播,會對國家長治久安帶來隱患。

由于上述微博謠言的危害,謠言治理工作正變得日益重要。其中微博謠言檢測引起了業(yè)界相關(guān)工作者和學(xué)界相關(guān)研究者的關(guān)注?，F(xiàn)有謠言檢測方法一般分為兩類:人工檢測和基于機器學(xué)習(xí)的自動檢測[1]。

1 相關(guān)工作

1.1 人工謠言檢測

在人工識別方面,新浪微博提供了官方辟謠賬號“@微博辟謠”,通過微博辟謠團隊的辟謠專家人工確定微博真實性,然后發(fā)布辟謠信息,但由于微博平臺謠言檢測工作量大、人工資源不足等,該賬號目前為止僅發(fā)布了2 775條微博,其中2011年3月—2017年3月期間,發(fā)表微博總數(shù)為1 765條,難以反映實際的辟謠規(guī)模；另外由于該辟謠服務(wù)是以微博用戶賬號的方式存在的,辟謠信息的傳播直接依賴于賬號本身的粉絲數(shù),目前粉絲數(shù)為101萬,相對于2016年微博發(fā)布的月活躍用戶總數(shù)2.97億[2],僅占比約0.34%,因此該辟謠服務(wù)能夠發(fā)揮的謠言檢測和辟謠作用有限。新浪微博官方同時提供了基于眾包的辟謠平臺“微博不實信息舉報中心”,所有微博用戶可以向其舉報疑似謠言微博,在社區(qū)管理員審核之后,公告審核結(jié)果。對該平臺調(diào)研發(fā)現(xiàn),目前已完成判定舉報數(shù)僅為31 464條,其中包含大量重復(fù)舉報,且平均判定周期多于24 h,因此該平臺也很難發(fā)揮謠言檢測作用。

由于無法提供足夠的人力資源以供可疑謠言感知和可疑謠言檢測,人工謠言檢測方法具有以下局限性:

1)對信息的覆蓋率不足。主要表現(xiàn)為兩個方面：第一,對謠言信息的覆蓋率不足,以前文提到的兩種工業(yè)界的謠言檢測方案為例,它們對謠言信息的感知都來自于用戶舉報和專家手工搜索,而舉報謠言信息的用戶數(shù)量和專家數(shù)量難以匹配實際的謠言檢測規(guī)模,因此人工方法的謠言感知能力較弱;第二,辟謠信息的覆蓋率不足,“@微博辟謠”依賴于粉絲數(shù)來傳播辟謠信息,“微博不實信息舉報中心”則依賴于該網(wǎng)址的訪客數(shù),辟謠信息的傳播速度都難以匹配謠言信息的傳播速度。

2)謠言檢測周期長。在檢測周期內(nèi),在謠言帶來大量危害之前仍然無法檢測到謠言,那么謠言檢測工作將失去意義。

綜上,現(xiàn)有的人工檢測方法難以勝任實際的謠言檢測任務(wù)。

1.2 基于機器學(xué)習(xí)自動謠言檢測

在自動識別方面,學(xué)界廣泛使用的是機器學(xué)習(xí)方法,現(xiàn)有相關(guān)工作主要從機器學(xué)習(xí)算法的選擇和創(chuàng)新、區(qū)分謠言和非謠言的謠言檢測特征的選擇和抽取兩方面作出貢獻(xiàn)。文獻(xiàn)[3]提出基于信息、用戶、話題、傳播的四類謠言檢測特征,并使用J48算法來構(gòu)建謠言檢測模型,以下相關(guān)工作則基于文獻(xiàn)[3]對謠言檢測特征作了擴展,并探索選用了多種機器學(xué)習(xí)算法;文獻(xiàn)[4]提取了基于內(nèi)容和網(wǎng)絡(luò)的特征,結(jié)合推特上面的特定模因訓(xùn)練貝葉斯分類器自動檢測謠言;文獻(xiàn)[5]提出了基于客戶端和基于位置的兩類新特征,使用支持向量機(Support Vector Machine, SVM)在新浪微博平臺上自動檢測謠言;文獻(xiàn)[6]將微博所附的多媒體資源和微博發(fā)文時間差作為特征來檢測事件謠言,并基于微博配圖來源的文字描述和微博文本之間的相似性來判斷圖文不匹配類型的謠言;文獻(xiàn)[7]提出時序、結(jié)構(gòu)、語言三類特征,指出謠言信息和正常信息的微博數(shù)目-時間圖波動和傳播網(wǎng)絡(luò)圖之間的差異,并以此作為謠言檢測特征,在SVM、決策樹、隨機森林三種算法上做了對比實驗,最終選擇了隨機森林;文獻(xiàn)[8]從群眾響應(yīng)的角度來挖掘特征,抽取了轉(zhuǎn)發(fā)和評論中的文本特征,據(jù)此使用分層聚類算法來發(fā)現(xiàn)樣本中更多的謠言;文獻(xiàn)[9]指出謠言事件的演變過程早期會出現(xiàn)關(guān)于事件的詢問信息,提出了通過檢測事件詢問信息來檢測謠言的思路,使用文本特征作為聚類算法的特征,結(jié)合正則表達(dá)式和聚類算法來判斷未知信息的可靠度;文獻(xiàn)[10]發(fā)現(xiàn)了謠言和非謠言數(shù)據(jù)的謠言檢測特征在時間序列上存在可區(qū)分的差異,建立了一種動態(tài)時序結(jié)構(gòu)用以描述對時間敏感的謠言檢測特征在時間序列上的變化,將其作為特征,并使用決策樹、隨機森林、SVM作為基礎(chǔ)算法來做對比實驗;文獻(xiàn)[11]則從用戶行為的角度出發(fā)提出了新的基于用戶行為的謠言檢測特征,并對邏輯斯諦回歸、SVM、樸素貝葉斯、決策樹、K近鄰五種算法做了對比實驗;文獻(xiàn)[12]提出一種基于隨機游走圖內(nèi)核和常規(guī)的徑向基內(nèi)核的混合SVM檢測算法,使用隨機游走圖內(nèi)核算法度量兩棵傳播樹的相似度,而在常規(guī)徑向基內(nèi)核算法中則提出8個新的謠言檢測特征;文獻(xiàn)[13]在時序上以事件為最小粒度檢測謠言,提出16個新特征,同時,由于動態(tài)生成實驗數(shù)據(jù)和動態(tài)地給特征賦值,因此支持實時檢測;文獻(xiàn)[14]集成了基于內(nèi)容、傳播、信息源的三種模型,實現(xiàn)了一種實時謠言檢測系統(tǒng);文獻(xiàn)[1]提出了一種基于權(quán)威媒體的數(shù)據(jù)標(biāo)注方法以及3個新的謠言檢測特征,并使用5種主流機器學(xué)習(xí)算法做了對比實驗。

基于機器學(xué)習(xí)的自動謠言檢測方法具有自動檢測謠言的優(yōu)點,同時也存在一些問題:1)已標(biāo)注謠言數(shù)據(jù)難于獲取。該方法需要在模型訓(xùn)練階段提供謠言數(shù)據(jù)和非謠言數(shù)據(jù),而能夠滿足謠言檢測需要的謠言數(shù)據(jù)的獲取比較困難。常用的方式包括:爬取已標(biāo)注數(shù)據(jù)和手工標(biāo)注數(shù)據(jù)。以新浪微博不實信息舉報中心為例,其提供完成判定的謠言微博數(shù)為31 850條,但其中存在大量重復(fù)舉報,并且被舉報內(nèi)容中絕大多數(shù)鮮少引起關(guān)注,其轉(zhuǎn)發(fā)數(shù)和評論數(shù)偏低(以評論數(shù)大于100來篩選,只得到了1/9的微博),顯然只選擇該中心為謠言數(shù)據(jù)獲取來源不能滿足謠言檢測的需要。為模型訓(xùn)練需要,研究人員還需要手工標(biāo)注大量數(shù)據(jù),需要耗費巨大的時間和人力資源；此外,模型一經(jīng)訓(xùn)練完成就不再更改,只能對符合訓(xùn)練數(shù)據(jù)特征的數(shù)據(jù)進行謠言檢測,如果要求對于訓(xùn)練數(shù)據(jù)特征不一致的新樣本進行檢測,只有重新獲取或標(biāo)注符合新樣本特征的訓(xùn)練數(shù)據(jù),這無疑使模型喪失了靈活性。2)這種謠言檢測方法對用于檢測的謠言數(shù)據(jù)具有達(dá)到一定傳播程度的要求。首先,基于機器學(xué)習(xí)的自動檢測方法屬于一種回顧性檢測(Retrospective Investigation),要使這類方法輸出一定準(zhǔn)確率的檢測結(jié)果,必須提供足夠多的訓(xùn)練數(shù)據(jù),因此需要收集足夠多的謠言數(shù)據(jù),而謠言數(shù)據(jù)量大意味著存在大量關(guān)于謠言的轉(zhuǎn)發(fā)和評論,間接要求該謠言必須經(jīng)過一定程度的擴散;其次,這類模型使用的部分特征,比如微博評論數(shù)、轉(zhuǎn)發(fā)數(shù)、用戶粉絲數(shù)等的取值已經(jīng)對應(yīng)了謠言的一定傳播階段,例如形成不久的謠言的各類特征取值接近為0,隨著在傳播周期上時間的推移,相應(yīng)數(shù)值會不斷增大,即要使模型能夠以要求的準(zhǔn)確率檢測謠言,需要謠言和非謠言數(shù)據(jù)的以上特征取值呈現(xiàn)出足夠區(qū)分的差異,這意味著謠言已經(jīng)得到一定程度的擴散。使用滿足上述條件的數(shù)據(jù)和特征訓(xùn)練的模型固然可以自動檢測已廣泛散布開來的謠言,但在檢測處在生命周期初期的謠言時準(zhǔn)確率不高,具有冷啟動現(xiàn)象,表現(xiàn)為對謠言檢測的滯后性,因此難以有效應(yīng)用在實際的謠言檢測情景中。

1.3 本文工作

綜合人工謠言檢測方法的信息覆蓋率低、檢測周期長和自動謠言檢測方法的難于獲取已標(biāo)注數(shù)據(jù)，以及對訓(xùn)練數(shù)據(jù)規(guī)模和傳播程度的要求的缺陷,可以歸結(jié)出現(xiàn)有謠言檢測工作的兩大問題:1)數(shù)據(jù)難以獲取,主要表現(xiàn)為訓(xùn)練模型的數(shù)據(jù)標(biāo)注問題和待檢測數(shù)據(jù)的獲取問題;2)謠言檢測滯后,人工檢測受限于人力資源限制,自動檢測受限于所基于的機器學(xué)習(xí)方法本身對數(shù)據(jù)和特征的要求,對傳播初期的謠言的檢測存在冷啟動的現(xiàn)象,二者都無法以可接受的準(zhǔn)確率檢測處在傳播周期初期的謠言。

針對如上問題,本文專注于提高模型對屬于謠言檢測聚焦范圍的信息獲取的覆蓋率和及時性,以及縮短謠言檢測周期以使模型具有檢測初始傳播謠言的能力,提出基于突發(fā)話題檢測和專家發(fā)現(xiàn)的人工謠言檢測方法。

2 問題定義

為了應(yīng)對現(xiàn)有人工檢測和基于機器學(xué)習(xí)的自動檢測的上述問題,本文綜合考慮人工謠言檢測和基于機器學(xué)習(xí)的自動謠言檢測各自的優(yōu)勢和局限,以及謠言檢測工作的重點,將謠言檢測工作分為兩部分:感知和檢測,即待檢測謠言的感知和待檢測謠言的檢測。在感知部分需要解決的問題有:1)確定待檢測信息的主要對象;2)提高模型對待檢測信息的感知能力,包括覆蓋率和效率。在檢測部分需要解決:1)縮短謠言檢測周期;2)提高對處在謠言檢測周期初期的謠言的檢測能力。

在感知部分,首先,不是所有的微博都需要用來作謠言甄別[5],比如,用戶之間的日常聊天和小規(guī)模傳播的社會新聞類虛假信息的辟謠價值就不高,前者無關(guān)社會生活,后者得不到大規(guī)模傳播,最終都不會帶來大規(guī)模損失。其次,謠言的傳播與話題的擴散聯(lián)系緊密,在社交網(wǎng)絡(luò)中,謠言的興起、傳播和消亡和以謠言為內(nèi)容的話題的生命周期是一致的,謠言在微博平臺上短時間內(nèi)的興起表現(xiàn)為相應(yīng)突發(fā)話題的產(chǎn)生,而對于沒有形成話題的不實信息,雖然也符合謠言的定義,但由于信息內(nèi)容沒有引起廣泛的關(guān)注而轉(zhuǎn)發(fā)數(shù)和評論數(shù)都較低,所能造成的不利影響微乎其微,不在謠言檢測工作重點范圍內(nèi)?；谝陨峡紤],本文將謠言檢測的對象定位為話題。為提高話題檢測的覆蓋率,選擇粉絲數(shù)多和影響力大的社會新聞領(lǐng)域代表用戶作為檢測話題的原始信息來源,同時作為用戶層面的篩選,過濾對謠言檢測不是特別重要的微博信息,降低了模型需要的數(shù)據(jù)量,進而間接提高了模型的效率。為提高模型對待檢測信息的感知效率,以話題的突發(fā)特性作為特征,檢測微博平臺上短時間內(nèi)的突發(fā)話題,使模型具有了對突發(fā)謠言,即剛剛開始傳播的謠言的感知能力,使得及時檢測謠言成為可能,同時作為話題層面的數(shù)據(jù)篩選,進一步降低數(shù)據(jù)量,提高模型效率。相關(guān)文獻(xiàn)[15]指出可以使用物理動力學(xué)模型對話題的發(fā)展過程建模,利用動力學(xué)物理量,如加速度和動量等,描述話題的演變趨勢和熱門程度,進而可以通過對相關(guān)物理量的觀測來發(fā)現(xiàn)突發(fā)話題。文獻(xiàn)[16]將動量模型對突發(fā)話題的檢測思想運用在新浪微博上,在微博平臺上定義了話題的相關(guān)動量模型的物理量。本文基于文獻(xiàn)[16]的工作,使用工具pull-word抽取微博中的詞語作為話題識別特征,建立基于動量模型的突發(fā)話題檢測模型,主要包括突發(fā)特征檢測和突發(fā)特征聚合。

在檢測部分,由于不需要人工資源做待檢測信息感知,并且感知部分已從用戶和話題兩個層面降低了模型的數(shù)據(jù)處理量,整個模型需要的人工資源量相對于傳統(tǒng)人工檢測方法大為減少,這使應(yīng)用人工方式檢測謠言成為可能。此外,相對于自動檢測,基于領(lǐng)域?qū)＜业娜斯z測對用于檢測的謠言數(shù)據(jù)沒有數(shù)量和提取特征的要求,對新產(chǎn)生的謠言可以達(dá)到較高的檢測準(zhǔn)確率,因此本文采用人工檢測方法來作謠言檢測。為應(yīng)對傳統(tǒng)謠言檢測方法中因人力資源不足而帶來的檢測周期長的問題,提出主動利用群眾智慧的策略,挖掘和度量待檢測信息和微博用戶的領(lǐng)域相關(guān)性,把待檢測謠言推送給領(lǐng)域最相關(guān)的微博用戶(即領(lǐng)域?qū)＜?作信息真實性的甄別。相關(guān)文獻(xiàn)[17]選擇所有微博用戶作為候選專家池,為謠言檢測提供了充足的專家資源的同時,存在以下兩個問題:1)所有微博用戶量巨大,難于獲取;2)由于基數(shù)太大,所有微博用戶中能作為謠言檢測人工資源的專家比例低,專家發(fā)現(xiàn)工作量大。本文基于文獻(xiàn)[17]提出適應(yīng)于實際情景的建立候選專家池和度量話題和用戶領(lǐng)域相關(guān)性的方法。

綜上,本文余下部分聚焦于識別處在傳播擴散過程早期的待檢測話題信息和發(fā)現(xiàn)與話題信息相關(guān)的人工專家。

3 系統(tǒng)模型

圖1為本文提出的基于突發(fā)話題檢測和領(lǐng)域?qū)＜野l(fā)現(xiàn)的謠言檢測模型的結(jié)構(gòu)和處理流程。如圖1所示,整個模型由基于動量模型的突發(fā)話題檢測模型和基于用戶個人信息的領(lǐng)域?qū)＜野l(fā)現(xiàn)模型兩個子塊構(gòu)成。處理流程如下:1)確定待檢測微博的監(jiān)控點用戶和用于構(gòu)建候選專家池的微博各領(lǐng)域?qū)＜?2)爬蟲獲取監(jiān)控點用戶在實驗所涉及的所有時間窗口內(nèi)的微博集合,對其分詞、去停用詞,再結(jié)合實驗用微博數(shù)據(jù)的全集,得到每個時間窗口內(nèi)每個話題特征的質(zhì)量、加速度、動量值,據(jù)此提取每個時間窗口內(nèi)的突發(fā)特征集合;3)通過特征聚合得到每個時間窗口內(nèi)的突發(fā)話題集合,輸出至領(lǐng)域?qū)＜野l(fā)現(xiàn)模型;4)流程進入領(lǐng)域?qū)＜野l(fā)現(xiàn)模型,基于實驗開始時構(gòu)建的候選專家池,為每個時間窗口內(nèi)的突發(fā)話題集合發(fā)現(xiàn)用于識別突發(fā)話題真實性的領(lǐng)域相關(guān)專家,至此模型流程結(jié)束。

圖1 模型流程示意圖

3.1 基于動量模型的突發(fā)話題檢測

3.1.1 突發(fā)特征檢測

話題的發(fā)展過程和物理學(xué)中物體的靜止、開始運動、運動加快、運動變緩、回歸靜止的過程的相似性,使得使用動力學(xué)模型發(fā)現(xiàn)突發(fā)特征成為可能。在動力學(xué)模型中,動量反映了物體的運動方向和能量,加速度反映了物體位置的二階變化率；對于話題特征而言,動量反映了特征的變化趨勢和能量大小,加速度反映了特征的突發(fā)程度。在時間序列上,特征的動量和加速度不斷變化,通過設(shè)置加速度和動量的閾值,可以篩選得到指定時間點上的突發(fā)特征。

突發(fā)特征檢測的第一步工作是特征選擇,文獻(xiàn)[16]檢測微博文本中的有意義串作為特征,指出由于粒度更大,有意義串相比詞語更能夠反映話題信息。本文通過對分詞工具pull-word的調(diào)研,發(fā)現(xiàn)其能夠以較高的出詞概率輸出較長的詞,比如對“人民公園”這段文本,能夠以0.95的概率輸出“人民公園”,而輸出“人民”和“公園”的概率分別僅為0.86和0.78,這說明該工具優(yōu)先輸出較長的詞,并且具有識別較長詞語的能力,因此基于其提供在線接口的優(yōu)點和發(fā)現(xiàn)新詞的能力,本文利用該工具對新浪微博進行分詞、去停用詞之后,選取高于一定出詞概率閾值的詞語作為話題特征。

對話題特征的加速度和動量的計算需要選取合適的時間刻度,定義同時滿足物理學(xué)要求和符合實際應(yīng)用情景的物理學(xué)屬性。基于對話題演化過程以及動量模型的理解,結(jié)合新浪微博所能提供的數(shù)據(jù),選取一個時間窗口作為動量模型中的一個時刻,并如下定義了特征的質(zhì)量和位置這兩個基本屬性:

定義1 質(zhì)量屬性需要滿足較長時間內(nèi)不變,以及能夠代表特征在語料集中的重要程度,話題特征的質(zhì)量可經(jīng)式(1)計算得到：

mi=tfi×idfi

(1)

其中:tfi表示在大規(guī)模語料集中特征i的詞頻；idfi表示特征i在該語料集中的逆向文件頻率。逆向文件頻率的計算公式如下:

(2)

其中：|D|代表微博總數(shù)；|Dw|代表包含特征i的文檔數(shù)。對于給定的語料集,mi取固定值,既符合物理學(xué)中對質(zhì)量的定義,又能反映特征i在微博集合中的重要性。

定義2 位置屬性要求能夠反映特征在當(dāng)前時間窗口內(nèi)的熱門程度。逐漸變得熱門的特征必然頻繁出現(xiàn),包含該特征的微博數(shù)也迅速上升,為了避免極少部分用戶惡意重復(fù)發(fā)文的干擾,也應(yīng)考慮發(fā)文中包含該特征的用戶數(shù),特征i在t時刻的位置的計算公式如下:

x(t,i)=α×tf(t,i)+β×df(t,i)+γ×af(t,i)

(3)

其中：tf(t,i)表示時刻窗口t內(nèi)詞i的頻率；df(t,i)表示時間窗口t內(nèi)包含詞i的文檔頻率；af(t,i)代表時間窗口t內(nèi)的發(fā)表微博內(nèi)容包含特征i的微博用戶比例；α、β和γ為權(quán)重系數(shù),α+β+γ=1。這樣計算出的特征的位置屬性,能夠反映特征i在時刻t的熱度。

基于以上特征質(zhì)量和特征位置的定義,可以計算出特征i在特定時刻t的加速度a(t,i)和動量p(t,i):

(4)

p(t,i)=mi×v(t,i)

(5)

速度v(t,i)計算公式為:

(6)

其中Δt表示趨于零的時間變化量。

3.1.2 突發(fā)特征聚合

在3.1.1節(jié)工作的基礎(chǔ)上,得到時間窗口T內(nèi)的突發(fā)特征集合,由于詞語的多義性和表達(dá)的局限性,無法直接用來表示一個話題,考慮多個詞語的組合可以相互補充含義和消除單個詞語出現(xiàn)的歧義,比如“塑料”和“紫菜”單獨出現(xiàn)含義比較局限,但把二者結(jié)合在一起看,就可以代表“紫菜是用塑料做的”這一謠言。本文將突發(fā)特征聚合起來共同表征一個話題。能夠表征一個話題的突發(fā)特征必然頻繁出現(xiàn)在同一觀察窗口中,基于突發(fā)話題特征的這一特性,采用特征之間的互信息[16]來描述兩個特征屬于同一個話題的可能性,互信息值越高,兩個特征相關(guān)度越高,屬于同一個話題的可能性越大?；バ畔⒌挠嬎闳缦?

(7)

其中：P(i)代表特征i在當(dāng)前時間窗口微博中出現(xiàn)的概率；P(i,j)代表特征i和j共同出現(xiàn)在同一時間窗口內(nèi)的概率。

為了聚合出能代表話題的特征集合,采用如上定義的互信息作為兩個特征之間的距離,使用自下而上的層級聚類算法[17]聚合相關(guān)度高的特征成為話題。

綜上,突發(fā)話題檢測算法描述如下。

算法1 基于動量模型的突發(fā)話題檢測算法。

輸入實驗微博集合D,實驗數(shù)據(jù)覆蓋的時間窗口數(shù)Nt,時間窗口大小Tw,加速度閾值Ta,動量閾值Tp。

輸出Htl突發(fā)話題集合。

begin

forT← 1 toTwdo

words=WP(Dt)

/*WP為分詞函數(shù),Dt為時刻t之前發(fā)布的微博*/

fori← 0 toNwandcount←0 do

/*Nw為words長度*/

ifwords[i] inFlthen

/*Fl為特征列表*/

continue

else

count←count+1

Fl[count] ←words[i]

end if

end for

fori←0 toNfandj←0 do

/*Nf為Fl長度*/

fort←0 toTwdo

computea(t,i),p(t,i)

ifa(t,i)←Taandp(t,i)←Tpthen

Hfl[j]←Nf[i]

/*Hfl[]為話題列表*/

j←j+1

break

end if

end for

htl← Hc(Hfl)

/*Hc()為分層聚類算法函數(shù)*/

returnhtl

end

算法1開始時,對每個時間窗口內(nèi)的樣本數(shù)據(jù)分詞、去重,提取得到當(dāng)前時間窗口內(nèi)的話題特征集合。為當(dāng)前時間窗口內(nèi)的每一個話題特征計算加速度值、動量值,并分別與設(shè)置的加速度閾值和動量閾值相比較,提取加速度和動量同時高于閾值的話題特征作為突發(fā)話題特征,最后對突發(fā)話題特征集合使用層級聚類算法聚合得到話題集合,算法最終為每個時間窗口輸出一個突發(fā)話題集合。

3.2 基于微博用戶個人信息的領(lǐng)域?qū)＜野l(fā)現(xiàn)

通過對微博平臺的調(diào)研,發(fā)現(xiàn)微博提供了驗證用戶的影響力榜,涵蓋的用戶滿足權(quán)威性的認(rèn)定,因此本文將榜單內(nèi)用戶作為候選專家,方便數(shù)據(jù)獲取。

基于用戶個人信息的領(lǐng)域?qū)＜野l(fā)現(xiàn)模型基于如下假設(shè):話題信息和用戶個人信息都能在一定程度上反映出所屬領(lǐng)域。本文將突發(fā)話題檢測模型輸出的聚合后的話題特征集合看作一個話題信息,將微博平臺提供的昵稱、所在地、簡介、工作信息、用戶標(biāo)簽等諸多內(nèi)容作為用戶個人信息。對于指定話題信息的領(lǐng)域?qū)＜野l(fā)現(xiàn)的思路就是:在候選專家中選擇個人信息與話題信息相關(guān)度最高的用戶作為相關(guān)領(lǐng)域?qū)＜?。至?對于指定話題的專家發(fā)現(xiàn)問題轉(zhuǎn)化為:根據(jù)用戶個人信息與話題特征的相關(guān)性對用戶的排序問題,本文采用話題特征在用戶個人信息中的查找命中率fr(i,a)作為度量指標(biāo)對用戶排序,選取fr(i,a)大于閾值的用戶集合,作為針對話題i的人工檢測專家,定義如下:

fr(i,a)=N(i,a)/Ni

(8)

其中:N(i,a)代表在用戶a個人信息中包含話題i特征的個數(shù);Ni代表話題i的特征個數(shù)。

綜上,領(lǐng)域?qū)＜野l(fā)現(xiàn)算法描述如下。

算法2 基于微博用戶個人信息的領(lǐng)域?qū)＜野l(fā)現(xiàn)。

輸入突發(fā)話題集合Htl,微博專家信息集合E,相關(guān)性閾值Tfr。

輸出為每個突發(fā)話題找到的專家集合eli。

begin

E←Wp(E)

fori← 0 toNtdo

/*Nt表示Htl長度* /

forj← 0 toNeandm← 0 do

/*Ne表示E長度*/

computefr(i,a)

iffr(i,a)←Tfrthen

eli[m]←fr(i,a)

m←m+1

end if

end for

end

算法2為每個突發(fā)話題集合中的突發(fā)話題和微博專家信息池中的專家信息計算查找命中率,并用預(yù)先設(shè)置的閾值篩選,算法2最終為每一個突發(fā)話題輸出一組領(lǐng)域相關(guān)的人工謠言檢測專家。

4 實驗和結(jié)果分析

4.1 數(shù)據(jù)獲取和處理

本文實驗數(shù)據(jù)包括三部分:1)用于檢測時間窗口內(nèi)突發(fā)話題的微博文本;2)用于驗證突發(fā)話題檢測結(jié)果的話題驗證集;3)用于建立候選專家池的微博用戶信息。

微博日活躍用戶數(shù)量龐大,對每日產(chǎn)生的全部微博進行檢測不切實際,因此需要對微博數(shù)據(jù)進行采樣。謠言中占比最大的是能引起廣泛關(guān)注的社會新聞類型,也是謠言檢測工作聚焦的重點,本文從微博中采樣社會新聞類型的微博作為突發(fā)話題的源數(shù)據(jù)。工具“艾薇盒子”提供了國內(nèi)傳媒類微博賬號的榜單,編寫網(wǎng)絡(luò)爬蟲獲取榜單內(nèi)賬號ID作為監(jiān)控點,經(jīng)人工驗證處理之后共計得到55個監(jiān)控點用戶,編寫微博爬蟲獲取監(jiān)控點每天的微博,建立突發(fā)話題檢測數(shù)據(jù)集。另外,微博發(fā)現(xiàn)頻道提供了24 h內(nèi)的話題集合,在每個時間窗口內(nèi)爬取這些話題,作為話題驗證集。

為滿足謠言檢測需要,候選專家必須具有一定的權(quán)威性和活躍度,微博“發(fā)現(xiàn)”頻道提供了驗證用戶的影響力排行榜單,作為基于權(quán)威性和活躍度對微博用戶的一次篩選,本文選擇該榜單內(nèi)用戶作為候選專家,編寫爬蟲爬取用戶“基本信息”“工作信息”“教育信息”“標(biāo)簽信息”等個人信息,經(jīng)篩選處理后,共得到492位專家。

4.2 評價指標(biāo)

本文使用F1-measure度量突發(fā)話題檢測和專家發(fā)現(xiàn)的準(zhǔn)確度,除此之外計算了突發(fā)話題檢測時間Tb,以描述模型檢測突發(fā)話題的周期,計算公式為:

(9)

Tb=te-tf

(10)

其中:TP表示將正類檢測為正類數(shù);FN表示將正類檢測為負(fù)類數(shù);FP表示將負(fù)類檢測為正類數(shù);TN表示將負(fù)類檢測為負(fù)類數(shù);te表示首次檢測到話題的時刻;tf表示第一條屬于該話題的微博發(fā)布的時刻,時間單位為一個時間窗口。

4.3 實驗步驟

4.3.1 突發(fā)話題檢測

從所采集的微博數(shù)據(jù)發(fā)現(xiàn)樣本集平均每2 h產(chǎn)生一個話題,因此本文設(shè)置時間窗口為2 h,作為突發(fā)話題檢測的最小時間粒度。使用工具pull-word對獲取到的每個時間窗口內(nèi)的微博分詞、去停用詞,保留出詞概率大于閾值的詞語作為特征,其中以步長0.1,范圍0～1.0嘗試選擇分詞閾值Tw,使得到的保留詞語數(shù)量盡可能多、字串重復(fù)率盡可能低、詞語長度盡可能長,以利于突發(fā)話題檢測,對共10個Tw的取值依次嘗試,依據(jù)保留詞語的以上三個屬性,最終選擇Tw=0.9。

對分詞結(jié)果以自建停用詞表去停用詞,所得詞語作為特征,在對9天時間內(nèi)共8 766條微博的處理之后得到了39 929個待檢測突發(fā)話題特征。為每個特征在每個時間窗口下計算加速度和動量值,篩選加速度和動量大于閾值的特征。其中參數(shù)α、β和γ按步長0.1,范圍0～1.0嘗試取值,約束條件為γ=1-α-β。以10%為步長,分別確定加速度和動量的比例閾值Ta、Tp。將突發(fā)特征集合按互信息層次聚類之后得到話題集合,再與話題驗證集比較,得到模型突發(fā)話題檢測的F1和話題檢測周期Tb。

調(diào)參思路:選擇最優(yōu)的α、β、γ、Ta和Tp閾值組合以使突發(fā)話題檢測F1值最大,檢測周期Tb最短。圖2給出其中的12組參數(shù)組合取值作為示例,其中：每組參數(shù)取值都能得到一組F1、Tb取值,選取使F1-Tb最大的一組參數(shù)為最優(yōu)參數(shù)。

根據(jù)上述思路,訓(xùn)練得到突發(fā)話題檢測模型參數(shù)為:α=0.4,β=0.3,γ=0.3,Ta=0.9,Tp=0.9,在測試集上測試模型評價指標(biāo),得到F1為89.46%,話題的最早檢測時長為10個時間窗口,說明突發(fā)話題檢測模型能夠以較高的F1在話題生命周期的初期檢測到突發(fā)話題。

4.3.2 專家發(fā)現(xiàn)

對候選專家池中的用戶個人信息分詞去停用詞,然后計算話題特征在用戶個人信息中的查找命中率fr(i,a),按其大小對候選專家排序,取大于比例閾值Tfr的專家集合作為該話題的人工謠言檢測專家,根據(jù)對話題數(shù)據(jù)專家發(fā)現(xiàn)的人工標(biāo)注結(jié)果,以步長0.1,范圍0.1～1.0來選取使專家發(fā)現(xiàn)模型F1最高的Tfr。

圖3為閾值Tfr的調(diào)參示意,在F1-Tfr曲線中選擇最大值點對應(yīng)的Tfr作為專家發(fā)現(xiàn)模型的查找命中率閾值。從圖3可看出,取閾值Tfr=0.7時,得到最大F1值為85.61%。

在Tfr參數(shù)確定完畢,模型訓(xùn)練完成后,使用測試集驗證領(lǐng)域?qū)＜野l(fā)現(xiàn)模型的專家發(fā)現(xiàn)能力。在測試集上模型表現(xiàn)出84.28%的F1值,說明模型具備良好的領(lǐng)域?qū)＜野l(fā)現(xiàn)能力。

圖2 部分參數(shù)組合

圖3 F1值與查找命中率閾值Tfr 曲線

4.4 對比實驗

本文提出的謠言檢測模型結(jié)合了機器學(xué)習(xí)方法和人工檢測方法,模型自動化部分最終的輸出是關(guān)于每一個檢測到的突發(fā)話題的人工謠言檢測專家集合,而系列相關(guān)文獻(xiàn)方法的輸出是關(guān)于微博文本或者話題的可靠度或者信息類別(是否屬于謠言),因此無法直接使用本文方法和相關(guān)文獻(xiàn)方法作對比實驗。由于本文方法對于特定話題的檢測準(zhǔn)確率直接來自于人工專家的識別,因此使用人工標(biāo)注代替實際應(yīng)用中算法對領(lǐng)域?qū)＜业淖詣舆x擇,將人工標(biāo)注結(jié)果作為本文謠言檢測準(zhǔn)確率的結(jié)果與文獻(xiàn)[5]做對比實驗,采用十折交叉驗證,得到圖4結(jié)果。此外,對比實驗還比較了本文方法和“@微博辟謠”以及“微博不實信息舉報中心”的最早檢測時間。對本文方法取4.3.1中的結(jié)果作為最早檢測時間,對“@微博辟謠”和“微博不實信息舉報中心”則采用隨機抽取100條已判定謠言信息的最早判定時間。對比實驗顯示,本文方法最早檢測檢測到謠言用時為20 h,“微博不實信息舉報中心”為38 h,“微博辟謠”為53 h。

由于謠言檢測階段由人工專家負(fù)責(zé),所以本文方法檢測準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于基于機器學(xué)習(xí)的謠言檢測方法,圖4實驗結(jié)果反映了這一點,其中最小差值為13%。謠言檢測時間對比實驗反映出本文方法謠言檢測用時低于其他兩個人工檢測方法,這反映了本文利用突發(fā)話題檢測來捕捉待檢測謠言的思想的有效性。

圖4 文獻(xiàn)[5]方法與本文方法準(zhǔn)確率比較

5 結(jié)語

本文提出結(jié)合基于動量模型的突發(fā)話題檢測和基于領(lǐng)域相似性的領(lǐng)域?qū)＜野l(fā)現(xiàn)來解決現(xiàn)有謠言檢測工作存在問題的方法。與傳統(tǒng)的單純?nèi)斯z測和現(xiàn)有的基于機器學(xué)習(xí)的自動檢測方法相比,本文提出的謠言檢測方法具有如下優(yōu)點:1)由于突發(fā)話題檢測模型只需要獲取指定監(jiān)控點用戶的時序微博且所需時間窗口數(shù)較少,同時專家發(fā)現(xiàn)模型中需要的領(lǐng)域?qū)＜倚畔儆陟o態(tài)數(shù)據(jù),只需要定期爬取更新,因此不存在數(shù)據(jù)采集困難的問題;2)由于對于謠言的辨識是通過領(lǐng)域?qū)＜胰斯ぷR別,不受自動謠言檢測中選取的謠言檢測特征的影響,因而謠言檢測準(zhǔn)確率高;3)由于能夠檢測突發(fā)話題,并為之發(fā)現(xiàn)領(lǐng)域內(nèi)專家,因此相對于單純?nèi)斯し椒?擴展了謠言感知范圍和人力資源,使得該方法具有更高的謠言檢測效率和更大的謠言檢測覆蓋范圍;4)以較小的時間窗口來捕獲微博信息,可以檢測處在生命周期早期的謠言,解決了謠言檢測工作的及時性問題,能夠有效應(yīng)用于實際的謠言檢測任務(wù)。同時,本文也存在不足之處,比如爬蟲速率過快會被封禁的問題,有待進一步改進。

References)

[1] LIANG G, YANG J, XU C. Automatic rumors identification on Sina Weibo[C]// Proceedings of the 2016 12th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery. Piscataway, NJ: IEEE, 2016: 1523-1531.

[2] 樊博. 2016微博用戶發(fā)展報告[EB/OL]. [2017- 04- 28]. http://data.weibo.com/report/reportDetail?id=346. (FAN B. 2016 microblog user development report[EB/OL]. [2017- 04- 28]. http://data.weibo.com/report/reportDetail?id=346.

[3] CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter[C]// Proceedings of the 20th International Conference on World Wide Web. New York: ACM, 2011: 675-684.

[4] QAZVINIAN V, ROSENGREN E, RADEV D R, et al. Rumor has it: identifying misinformation in microblogs[C]// EMNLP 2011: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011: 1589-1599.

[5] YANG F, LIU Y, YU X, et al. Automatic detection of rumor on Sina Weibo[C]// Proceedings of the 2012 ACM SIGKDD Workshop on Mining Data Semantics. New York: ACM, 2012: 13.

[6] SUN S, LIU H, HE J, et al. Detecting event rumors on sina weibo automatically[C]// APWeb 2013: Proceedings of the 15th Asia-Pacific Web Conference on Web Technologies and Applications. Berlin: Springer, 2013: 120-131.

[7] KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media[C]// Proceedings of the 2013 IEEE 13th International Conference on Data Mining. Piscataway, NJ: IEEE, 2013: 1103-1108.

[8] CAI G, WU H, LV R. Rumors detection in Chinese via crowd responses[C]// Proceedings of the 2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Piscataway, NJ: IEEE, 2014: 912-917.

[9] ZHAO Z, RESNICK P, MEI Q. Enquiring minds: early detection of rumors in social media from enquiry posts[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 1395-1405.

[10] MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1751-1754.

[11] LIANG G, HE W, XU C, et al. Rumor identification in microblogging systems based on users’ behavior[J]. IEEE Transactions on Computational Social Systems, 2015, 2(3): 99-108.

[12] WU K, YANG S, ZHU K Q. False rumors detection on sina weibo by propagation structures[C]// Proceedings of the 2015 IEEE 31st International Conference on Data Engineering. Piscataway, NJ: IEEE, 2015: 651-662.

[13] LIU X, NOURBAKHSH A, LI Q, et al. Real-time rumor debunking on twitter[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1867-1870.

[14] ZHOU X, CAO J, JIN Z, et al. Real-time news certification system on Sina Weibo[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 983-988.

[15] HE D, PARKER D S. Topic dynamics: an alternative model of bursts in streams of topics[C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2010: 443-452.

[16] 賀敏, 杜攀, 張瑾, 等. 基于動量模型的微博突發(fā)話題檢測方法[J]. 計算機研究與發(fā)展, 2015, 52(5): 1022-1028. (HE M, DU P, ZHANG J, et al. Microblog bursty topic detection method based on momentum model[J]. Journal of Computer Research and Development, 2015, 52(5): 1022-1028.)

[17] LIANG C, LIU Z, SUN M. Expert finding for microblog misinformation identification[EB/OL]. [2017- 01- 10]. http://www.personal.psu.edu/cul226/files/coling2012_expert.pdf.

[18] MAIMON O, ROKACH L. Data Mining and Knowledge Discovery Handbook[M]. Berlin: Springer, 2005: 321-352.

Rumordetectionmethodbasedonbursttopicdetectionanddomainexpertdiscovery

YANG Wentai1, LIANG Gang2*, XIE Kai1,YANG Jin2,XU Chun2

(1.CollegeofComputerScience,SichuanUniversity,SichuanChengdu610065,China;2.CollegeofCyberSpaceSecurity,SichuanUniversity,SichuanChengdu610065,China)

It is difficult for existing rumor detection methods to overcome the disadvantage of data collection and detection delay. To resolve this problem, a rumor detection method based on burst topic detection inspired by the momentum model and domain expert discovery was proposed. The dynamics theory in physics was introduced to model the topic features spreading among the Weibo platform, and dynamic physical quantities of the topic features were used to describe the burst characteristics and tendency of topic development. Then, emergent topics were extracted after feature clustering. Next, according to the domain relativity between the topic and the expert, domain experts for each emergent topic were selected within experts pool, which is responsible for identifying the credibility of the emergent topic. The experimental results show that the proposed method gets 13 percentage points improvement on accuracy comparing with the Weibo rumor identification method based merely on supervised machine learning, and the detection time is reduced to 20 hours compared with dominating manual methods, which means that the proposed method is applicable for real rumor detection situation.

momentum model; topic; burst; domain expert; rumor detection.

2017- 04- 28;

2017- 07- 24。

四川省教育廳重點資助項目(17ZA0238,17ZA0200);四川省學(xué)術(shù)和技術(shù)帶頭人培養(yǎng)支持經(jīng)費資助項目(2016)。

楊文太(1993—),男,甘肅慶陽人,碩士研究生,主要研究方向:網(wǎng)絡(luò)安全、謠言檢測; 梁剛(1976—),男,四川成都人,副教授,博士,主要研究方向:網(wǎng)絡(luò)安全、智能計算; 謝凱(1992—),男,四川成都人,碩士研究生,主要研究方向:網(wǎng)絡(luò)安全、輿情監(jiān)測; 楊進(1980—),男,四川樂山人,副研究員,博士,主要研究方向:網(wǎng)絡(luò)安全、智能計算; 許春(1972—),男,河北石家莊人,副教授,博士,主要研究方向:網(wǎng)絡(luò)安全、智能計算。

1001- 9081(2017)10- 2799- 07

10.11772/j.issn.1001- 9081.2017.10.2799

TP393.08

This work is partially supported by the Research Foundation of Education Bureau of Sichuan Province (17ZA0238, 17ZA0200), the Sichuan Training Support Fund for Academic and Technical Leaders (2016).

YANGWentai, born in 1993, M. S. candidate. His research interests include network security, rumor detection.

LIANGGang, born in 1976, Ph. D., associate professor. His research interests include network security, intelligent computing.

XIEKai, born in 1992, M. S. candidate. His research interests include network security, public opinion monitoring.

YANGJin, born in 1980, Ph. D., associate research fellow. His research interests include network security, intelligent computing.

XUChun, born in 1972, Ph. D., associate professor. His research interests include network security, intelligent computing.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于突發(fā)話題和領(lǐng)域?qū)＜业奈⒉┲{言檢測方法

0 引言

1 相關(guān)工作

1.1 人工謠言檢測

1.2 基于機器學(xué)習(xí)自動謠言檢測

1.3 本文工作

2 問題定義

3 系統(tǒng)模型

3.1 基于動量模型的突發(fā)話題檢測

3.2 基于微博用戶個人信息的領(lǐng)域?qū)＜野l(fā)現(xiàn)

4 實驗和結(jié)果分析

4.1 數(shù)據(jù)獲取和處理

4.2 評價指標(biāo)

4.3 實驗步驟

4.4 對比實驗

5 結(jié)語