亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于梯度提升決策樹的微博虛假消息檢測

        2018-04-12 07:18:01段大高蓋新新韓忠明劉冰心
        計算機應用 2018年2期
        關鍵詞:謠言特征值分類器

        段大高,蓋新新,韓忠明,劉冰心

        (1.北京工商大學 計算機與信息工程學院,北京 100048; 2.北京工商大學 食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室,北京 100048;3.University of Liverpool, Department of mathematical Sciences, Liverpool, GB L69 7ZX)(*通信作者電子郵箱hanzhongming@btbu.edu.cn)

        0 引言

        微博是如今網(wǎng)民發(fā)布信息和獲取信息的主要渠道之一。根據(jù)中國互聯(lián)網(wǎng)信息中心(China Internet Network Information Center, CNNIC)2017年1月發(fā)布的全國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告[1],我國網(wǎng)民規(guī)模達7.31億,其中微博用戶超過2.67億,占整體網(wǎng)民的36.5%。微博的低門檻特性使得用戶可以不受時間地域的限制,自由表達自己的觀點,使用戶之間分享信息更加迅速、便捷。微博已經(jīng)逐步滲透進人們的生活,影響人們的生活方式。

        微博平均每天會增加數(shù)億條博文,這些博文中既有真實的信息,也有大量的虛假信息,而虛假信息的泛濫對群眾的影響非常大。例如:2017年3月初,一篇文章在網(wǎng)絡上引起軒然大波,該文稱疫苗會損害人體健康,危害無窮,家長們應該讓孩子遠離疫苗,甚至聲稱孩子自然感染疾病比打疫苗強。該虛假消息在傳播的過程中,誤導了網(wǎng)民的思想,很多家長選擇了不再給孩子注射疫苗。4月,微博上紛紛在轉(zhuǎn)一條如何鑒別草莓變色催熟的文章。該文稱如果草莓籽是紅色的,便是用了染色劑的緣故。浙江寧波、江蘇徐州等地市民也的確發(fā)現(xiàn),市面上很多草莓的籽是紅色的,頓時心生不安。很多市民不再食用草莓,給社會造成了巨大的經(jīng)濟損失。然而,真實的情況是,草莓自然成熟后,有部分草莓籽是會變成紅色的。有效地識別虛假信息對營造誠信、公平、健康的網(wǎng)絡環(huán)境以及維持正常的社會秩序是十分必要的。

        現(xiàn)有的研究主要是通過選取文本內(nèi)容、用戶屬性和傳播特性等方面的特征,然后構(gòu)建合適的分類模型,以達到識別微博虛假消息的目的。但是,這些研究中往往只選取局部、片面的特征(如選取文本內(nèi)容特征的統(tǒng)計特征、淺層傳播特征或者簡單的用戶屬性特征),沒有全面、深入地分析并挖掘影響虛假消息識別的主要因素。另外,以往的研究中只是選用單一的分類器對微博虛假消息進行檢測,如樸素貝葉斯(Naive Bayes, NB)、支持向量機(Support Vector Machine, SVM)、決策樹(Decision Tree,DT)等,沒有考慮使用組合多個弱分類器構(gòu)建強分類器來識別虛假消息,故而識別的精度不高。因此,基于微博的短文本特性,本文提取微博評論的文本內(nèi)容、用戶屬性、信息傳播和時間特性四個方面的特征,構(gòu)建基于梯度提升決策樹(Gradient Boost Decision Tree, GBDT)算法的微博虛假消息識別模型。實驗結(jié)果表明,本文提出的識別方法能夠有效提高虛假消息檢測的準確率。

        1 相關工作

        近幾年國內(nèi)外關于微博虛假消息的研究逐漸增多。在國外方面,2011年,Castillo等[2]提出了對Twitter話題可信度進行評估的方法,通過提取消息特征、用戶特征、話題特征以及傳播特征,采用J48決策樹分類方法來預測熱門話題是否可信。2012年,Yang等[3]提出客戶端類型和微博事件發(fā)生的地理位置兩種新特征,采用SVM分類方法對謠言進行檢測。實驗結(jié)果表明,當微博所涉及的事件發(fā)生在國外而且使用非移動客戶端時,此微博被判斷為謠言微博的概率較高。2015年,Dayani等[4]通過提取用戶特征和內(nèi)容特征,并采用K最近鄰(K-Nearest Neighbors, KNN)分類器以及NB分類器在Twitter中檢測謠言中支持、反對、質(zhì)疑、中性的評論。實驗結(jié)果表明:對于用戶特征,KNN分類器的效果并不理想;而對于內(nèi)容特征,樸素貝葉斯能有效檢測出謠言話題下的評論數(shù)量。2015年,Ma等[5]提出基于謠言生命周期的時間序列的社交上下文特征,包括微博內(nèi)容特征、用戶特征和傳播特征,并采用線性SVM分類器分別在Twitter數(shù)據(jù)集與DT、隨機森林(Random Forest, RF)以及SVM-RBF方法作比較。實驗結(jié)果表明:該文中提出方法的精確性比DT、RF以及SVM-RBF方法高,且達到與DT、RF以及SVM-RBF相同的精確性的用時最少。2015年,Liu等[6]提出在Twitter上的實時謠言揭露,通過使用“群眾智慧”和系統(tǒng)性方法來挖掘語言特征,并采用DT分類器、RF分類器以及SVM分類器進行實驗。實驗結(jié)果表明:該文中提出的方法在事件只有最初的5條Tweets以及最初的一小時內(nèi)的預測結(jié)果都要高于其他方法;而選取兩個實時謠言跟蹤網(wǎng)站snopes.com和emergent.info與人工驗證方法相比,結(jié)果顯示該方法能將檢測延遲減少25%和50%。

        與國外相比,國內(nèi)關于虛假消息檢測的研究相對較少。2013年,蔣盛益等[7]對現(xiàn)有成果進行了梳理,總結(jié)了這些研究的不足,指出了微博信息可信度分析的關鍵問題和核心方法,并對未來進行了展望。2013年,賀剛等[8]提出利用符號特征、鏈接特征、關鍵詞分布特征和時間差等新特征,將微博謠言識別形式化為分類問題,利用SVM分類算法對微博進行分類,識別結(jié)果可以輔助識別謠言。2016年,路同強等[9]在分析微博謠言傳播特點的基礎上,結(jié)合微博文本內(nèi)容、微博用戶等方面的特征構(gòu)建特征集合,將半監(jiān)督學習算法應用到謠言檢測中,以解決人工標注語料代價高昂的問題。2016年,吳樹芳等[10]在HITS(Hyperlink-Induced Topic Search)算法的基礎上,提出了融合用戶交互行為和博文內(nèi)容的微博用戶可信度評估算法,分別構(gòu)建基于交互行為和基于博文內(nèi)容的微博用戶有向鏈接圖,通過反復訓練法獲得可信度閾值,繪制不同可信度算法的用戶可信度曲線,驗證了算法的可行性和有效性。2016年,謝柏林等[11]提出一種基于把關人行為的微博虛假信息及早檢測方法。該方法利用模型狀態(tài)持續(xù)時間概率為Gamma分布的隱半馬爾可夫模型來刻畫信息轉(zhuǎn)發(fā)者和評論者對流行的真實信息的把關行為,基于此來及早識別微博上流行的虛假信息。實驗結(jié)果表明該方法具有較好的性能和較高的在線檢測速度。

        2 特征選取

        微博虛假消息與真實消息的評論存在著很大的差異。在文本內(nèi)容方面,虛假消息的評論具有語氣不確定程度強、消極詞匯多、內(nèi)容與源消息相關程度弱的特點;在用戶屬性方面,虛假消息的發(fā)布者一般是非認證用戶,其注冊日期比較短、注冊地信息不夠詳細,朋友數(shù)量遠高于粉絲數(shù)量,并且不使用頂級域名;在傳播特性方面,網(wǎng)絡大V用戶對源消息的轉(zhuǎn)發(fā)和URL、@、hashtag等符號信息將會影響用戶對源消息的信任程度,進而影響微博的轉(zhuǎn)發(fā)量;在時間特性方面,距離源微博發(fā)布時間越久的微博,其是虛假消息的概率會越小。

        基于以上分析,本文中總共選取了11個特征,并將這些特征分為四類:基于文本內(nèi)容的特征、基于用戶的特征、基于信息傳播的特征和基于時間的特征。其中, 基于文本內(nèi)容的特征已在文獻[12]中詳細介紹,故在此不再多作闡述。表1列出了文中所使用的全部特征,并對特征作了簡單的介紹。

        表1 特征及其描述Tab. 1 Features and their description

        2.1 關注度特征

        微博用戶之間存在的關系有兩種:關注與被關注。關注其他賬戶,則此賬戶為所關注賬戶的粉絲,可以看到其關注賬戶發(fā)表的博文。兩個賬戶互相關注,兩個賬戶即為朋友關系,都可以看到彼此發(fā)表的博文。郭浩等[13]指出, 積極關注別人,保持較高的發(fā)文數(shù)量,就可以吸引更多的粉絲,獲得更高的關注度,使社會化網(wǎng)絡媒體營銷更加有效。這說明一些在微博上傳播虛假消息的賬戶,可能會關注多個其他賬戶,以希望這些賬戶能夠關注自己,看到自己發(fā)表的博文并傳播這些消息,結(jié)果表現(xiàn)為朋友數(shù)量遠遠多于粉絲數(shù)量。正常用戶的朋友和粉絲的數(shù)量一般相差不多,其微博上的關注關系一般是現(xiàn)實中朋友關系的映射。因此,將關注度特征計算公式表示如下:

        ATTu=FOLu/(FOLu+FRIu)

        (1)

        其中:FOLu表示用戶u的粉絲數(shù)量,F(xiàn)RIu表示用戶u的朋友數(shù)量。正常用戶的關注度值要高于虛假消息傳播用戶的關注度值。

        2.2 頂級域名特征

        頂級域名是付費服務,它具有易查找、可信度高、獨立性等優(yōu)點,一般來說,只有一些有需要的個人或者是公司才會使用這項服務。而虛假消息傳播用戶本身是為了盈利,故而只會注冊一些免費的賬戶來傳播信息,所以此特征具有明顯的區(qū)分性。頂級域名特征(TLD)的取值是{0,1},0表示個人介紹中有頂級域名的用戶的特征值,1表示個人介紹中無頂級域名的用戶的特征值。

        2.3 意見領袖特征

        王永強[14]指出,所謂意見領袖,指的是人際傳播網(wǎng)絡中經(jīng)常為他人提供信息、意見、評論并對他人施加影響的“活躍分子”,是大眾傳播效果形成過程的中介或過濾環(huán)節(jié)。意見領袖在信息傳播過程中的影響是巨大的。例如,2010年12月6日,微博上爆出金庸先生“去世”的消息,當晚《中國新聞周刊》在官方微博上轉(zhuǎn)發(fā)了這則微博,這則消息事后被證實為謠言。但網(wǎng)絡大V的轉(zhuǎn)發(fā)加速了消息的傳播,導致此謠言在數(shù)分鐘內(nèi)即被轉(zhuǎn)發(fā)近千條。為了衡量意見領袖在傳播過程中的影響,本文中將用戶分為兩類:認證用戶和普通用戶,主要獲取認證用戶在傳播過程中的影響。由此,將意見領袖特征的計算公式表示為:

        (2)

        其中:REPver表示通過認證用戶微博被轉(zhuǎn)發(fā)的數(shù)量,REPori表示源消息的轉(zhuǎn)發(fā)數(shù)量。如果是普通用戶,則意見領袖特征為0。

        2.4 時間差特征

        謠言的傳播有四個階段:潛伏期、變異期、爆發(fā)期和消亡期。謠言的爆發(fā)期通常時間比較短暫。在謠言微博發(fā)布后,隨即會出現(xiàn)一系列辟謠的微博,并且其傳播要比謠言微博快很多,所以,距離謠言源微博時間越久的微博,它是謠言的概率會越小。根據(jù)以上分析,用時間差特征來表示當前評論發(fā)布時間距微博源消息發(fā)布時間的間隔,其計算公式表示如下:

        TIDw=TIMw-TIMm

        (3)

        其中:TIMw表示當前評論w的發(fā)布時間,TIMm表示源消息m的發(fā)布時間。時間差特征以天為單位。

        2.5 其他特征

        是否認證特征(VER)、注冊日期特征(RED)、注冊地特征(POR)在一定程度上反映了用戶的可信度。本文中通過是否認證特征將用戶分為兩類:認證用戶和普通用戶。是否認證特征的取值是{0,1},0表示普通用戶的特征值,1表示認證用戶的特征值。注冊日期特征是指用戶注冊的實際天數(shù),通過計算用戶當前評論的發(fā)表時間與用戶的注冊日期的差值來實現(xiàn)。注冊地特征衡量用戶注冊位置信息的詳細程度,其取值是{0, 0.5, 1},0表示注冊位置信息為空的用戶的特征值,0.5表示注冊位置信息中只有省份的用戶的特征值,1表示注冊位置信息中既有省份又有城市的用戶的特征值。

        3 特征選取

        本文在微博消息的評論中提取四個方面的特征,從不同的角度衡量微博虛假消息與真實消息之間的區(qū)別。與真實消息相比,在文本內(nèi)容方面,虛假消息中SUP特征值為負、COR特征值較低、CON特征值較低的評論更多;在用戶屬性方面,虛假消息的發(fā)布者一般是VER特征值為0,且ATT特征值較低、RED特征值較低、POR特征值較低、TLD特征值為0;在傳播特性方面,虛假消息的評論中URL、@、hashtag特征值較低,OPL特征值較低;在時間特性方面,虛假消息中TID特征值較小的評論更多。特征提取的目的是為了分析影響類別之間差異的主要因素。

        微博虛假消息識別問題,可以看作一個分類問題。在數(shù)據(jù)量較大的情況下,需要選擇一個分類速度高且準確率也高的模型。因此本文中選用GBDT算法,它是由Friedman[15]提出的組合決策樹模型,是一種由多個弱分類器經(jīng)過多次迭代形成的強分類器。與傳統(tǒng)Boosting算法(如Adaboost)不同的是,GBDT算法的基分類器是回歸樹,其迭代的目的是通過計算上一次模型的負梯度來改進模型,然后在殘差減少的梯度方向上建立新的決策樹;Adaboost算法通過簡單地調(diào)整正確、錯誤樣本的權(quán)重來改進模型,二者有本質(zhì)區(qū)別。

        現(xiàn)給定微博數(shù)據(jù)樣本{(xi,yi)}(i=1,2,…,n)。由于虛假消息識別是一個分類過程,故采用對數(shù)損失函數(shù),即:

        (4)

        其中:xi=(x1i,x2i,…,xqi),n為樣本的數(shù)量,q為虛假消息識別中特征的數(shù)量,yi為樣本的實際標簽,pi為樣本的預測標簽。GBDT算法的詳細步驟如下:

        1)初始化模型,估計使損失函數(shù)最小化的常數(shù)值β:

        (5)

        2)在上一次模型損失函數(shù)的梯度下降方向上建立模型,從m=1到M(M為迭代次數(shù)):

        ①計算損失函數(shù)的負梯度在當前模型的值,將它作為殘差rim的估計值:

        (6)

        ②將①中得到的估計殘差作為輸入,擬合一棵回歸樹,求得回歸樹的葉節(jié)點區(qū)域Rj,m(j=1,2,…,J)。

        ③為使損失函數(shù)極小化,對于j=1,2,…,J,求得沿梯度下降方向的最優(yōu)步長βjm:

        (7)

        ④更新模型Fm(x):

        (8)

        3)迭代結(jié)束,得到模型FM(x):

        (9)

        4)根據(jù)得到的模型,估算樣本預測為正類的概率p+(x)和預測為負類的概率p-(x):

        (10)

        5)據(jù)以下準則預測樣本標簽y(x),其中c(-1,1)是代價函數(shù),表示當真實類別為1,預測類別為-1時的代價:

        y(x)=2*l{c(-1,1)p+(x)>c(1,-1)p-(x)}-1

        (11)

        其中:l{}是將布爾值轉(zhuǎn)換為{0,1}函數(shù)。

        4 實驗結(jié)果與分析

        4.1 實驗數(shù)據(jù)

        本文實驗數(shù)據(jù)集有兩個:數(shù)據(jù)集1選自文獻[16],其數(shù)據(jù)采集自新浪微博社區(qū)管理中心和新浪微博API接口,總共包含2 313個謠言和2 351個非謠言,內(nèi)容包括旅游、球賽、娛樂、生活、常識等話題。數(shù)據(jù)集2是在文獻[17]中數(shù)據(jù)集的基礎上,采集新浪微博社區(qū)管理中心中的不實信息作為謠言數(shù)據(jù),然后在新浪微博上爬取與謠言微博具有相同時間跨度的微博作為非謠言數(shù)據(jù),保留原微博字數(shù)超過10,評論數(shù)超過200條的微博。處理后的數(shù)據(jù)集2總共包含447個謠言和455個非謠言,內(nèi)容主要是2013年和2014年的熱點新聞。兩個數(shù)據(jù)集的統(tǒng)計情況見表2。相比數(shù)據(jù)集2,數(shù)據(jù)集1包含的特征的相關信息更多,本文在數(shù)據(jù)集1中提取了表1中介紹的所有特征;而數(shù)據(jù)集2則缺少表1中某些特征的相關信息,最終在數(shù)據(jù)集2中提取了SUP、COR、CON、URL、@、hashtag和TID特征。本文中提出的虛假消息識別模型是一個綜合模型,如果需要針對具體某個事件進行識別,可以結(jié)合本文中的模型,并使用和事件本身相關的特征進行識別。實驗按照8∶2的比例隨機劃分數(shù)據(jù)集,即數(shù)據(jù)集的80%作訓練集,余下20%作測試集,均采用十折交叉驗證。

        表2 數(shù)據(jù)集的統(tǒng)計情況Tab. 2 Statistics of the data set

        4.2 特征歸一化

        從評論中提取的特征如果直接用于分類,其相差過大的權(quán)重范圍將會影響分類器的準確性。為此,對特征進行歸一化處理是十分有必要的。本文使用式(12)對特征進行歸一化處理,歸一化后特征權(quán)重限定在[0,1]區(qū)間,可以消除離群數(shù)據(jù)對分類的影響,也可以使計算過程收斂得更快。

        (12)

        其中:min(x.j)表示第j列特征權(quán)重的最小值,max(x.j)表示第j列特征權(quán)重的最大值。

        4.3 評價指標

        為了評測微博虛假消息檢測的結(jié)果,本文選用查準率(P)、查全率(R)以及F1值作為評價標準。

        P=TP/(TP+FP)

        (13)

        R=TP/(TP+FN)

        (14)

        F1=2PR/(P+R)

        (15)

        其中:TP是被正確判別為謠言的微博數(shù),F(xiàn)P是被錯誤判別為謠言的微博數(shù),F(xiàn)N是被錯誤判別為非謠言的微博數(shù)。另外,為了衡量總體的分類效果,采用下面的公式計算總體分類正確率:

        Acc=識別正確的微博數(shù)/總微博數(shù)

        (16)

        4.4 結(jié)果分析

        微博虛假消息的評論存在著語氣不確定程度強、消極詞匯多、重復源消息等的特點?;诖耍ㄟ^統(tǒng)計微博消息中被模型判定為虛假消息評論的比例,可以得到一個閾值,當微博消息中的虛假評論達到這個閾值的時候,則此微博被判定為虛假消息。

        為了比較不同分類器分類的結(jié)果,本文選擇Castillo等[2]使用的J48決策樹分類器、 Yang等[3]使用的SVM分類器以及Kwon等[18]使用的RF分類器。其中,SVM核函數(shù)選擇徑向基核函數(shù)(Radial Basis Function, RBF),使用LIBSVM[19]中的grid來尋找最優(yōu)的參數(shù)c和γ。

        4.4.1實驗閾值

        實驗以正確率Acc為基準,使用不同分類器獲得使正確率Acc最高的閾值,稱為最佳閾值,它可以最好地將虛假消息與真實消息區(qū)分開。兩個數(shù)據(jù)集的最佳閾值統(tǒng)計結(jié)果如表3所示。

        表3 數(shù)據(jù)集的最佳閾值Tab. 3 The best threshold of the data sets

        4.4.2特征重要性

        為了驗證特征在分類過程中的影響,以正確率Acc為基準,用GBDT分類器的默認參數(shù)來對不同的特征進行訓練,數(shù)據(jù)集1使用表1中的全部特征,數(shù)據(jù)集2使用SUP、COR、CON、URL、@、hashtag和TID特征,兩個數(shù)據(jù)集的訓練結(jié)果如表4所示。其中,特征前面的“-”符號表示不包括該特征的特征集,Acc中的“—” 表示實驗沒有使用該特征集。

        表4 不同特征對分類的影響Tab. 4 Influence on classification with different features

        從表4中可以明顯看出,實驗中用到的所有特征都有助于提升微博虛假消息的檢測效果。其中,數(shù)據(jù)集1使用所有特征(ALL)的正確率Acc是0.894,高于數(shù)據(jù)集2(0.892)。這是因為數(shù)據(jù)集1使用了表1中的全部特征,數(shù)據(jù)集2只使用表1中的部分特征。在數(shù)據(jù)集1中,時間差特征(TID)和注冊日期特征(RED)對總體分類結(jié)果影響是最大的;在數(shù)據(jù)集2中,內(nèi)容相關性特征(COR)和支持性特征(SUP)對總體分類結(jié)果影響是最大的。這是因為數(shù)據(jù)集1中的話題,例如生活、常識等,其討論的時間會比較長,所以在數(shù)據(jù)集1中,關于時間特征的重要性會比較高;數(shù)據(jù)集2的話題是熱點新聞,其評論內(nèi)容比數(shù)據(jù)集1更加規(guī)范,所以在數(shù)據(jù)集2中,起重要作用的主要是基于文本內(nèi)容的特征,而新聞的時效一般都比較短,故時間差特征(TID)在數(shù)據(jù)集2中體現(xiàn)的重要性沒有在數(shù)據(jù)集1中的重要性高。

        4.4.3分類結(jié)果

        為了便于比較,實驗將GBDT、RF、J48中決策樹的最大深度統(tǒng)一設定為15,SVM核函數(shù)選擇RBF,使用LIBSVM尋找最優(yōu)的參數(shù)c和γ。兩個數(shù)據(jù)集的實驗結(jié)果如表5所示。其中,F(xiàn)表示虛假消息,T表示真實消息。

        從表5中可以看出,GBDT分類器的正確率Acc要明顯高于SVM和J48。這是因為GBDT是一種由多個弱分類器形成的強分類器,其效果要好于單一的分類器;GBDT分類器的分類效果要好于RF, 這是因為GBDT的輸出是所有結(jié)果的累積,RF采用多數(shù)投票原則決定最終結(jié)果,且RF訓練調(diào)參時依賴于決策樹的最大深度,而GBDT只需很小的深度就可以達到很高的精度,實驗中為了提高分類速度,沒有給RF增大深度。數(shù)據(jù)集1中GBDT分類器的正確率Acc要高于數(shù)據(jù)集2中GBDT分類器的Acc,因為數(shù)據(jù)集1中使用了表1中的全部特征,數(shù)據(jù)集2只使用表1中的部分特征,且數(shù)據(jù)集1比數(shù)據(jù)集2數(shù)據(jù)量大,故分類模型加精確。

        表5 不同分類器的分類結(jié)果Tab. 5 Classification results of different classifiers

        5 結(jié)語

        本文從微博評論的角度在文本內(nèi)容、用戶屬性、信息傳播和時間特性四個方面分析影響分類的因素并提取分類特征,并基于GBDT算法設計微博虛假消息識別模型。通過在兩個微博數(shù)據(jù)集上的對比實驗分析可以看到,模型在數(shù)據(jù)集1上的實驗結(jié)果要好于在數(shù)據(jù)集2上的實驗結(jié)果;在數(shù)據(jù)集1中,起主要作用的是基于時間的特征,在數(shù)據(jù)集2中,起主要作用的是基于文本內(nèi)容的特征。兩個數(shù)據(jù)集上的實驗均表明,本文提出的基于GBDT的方法能夠有效提高微博虛假消息檢測的準確率。

        但是,微博虛假消息檢測的價值體現(xiàn)在能夠及早地發(fā)現(xiàn)并處理,以減少對社會的危害。因此,下一步的工作重點是通過借助傳播模型以及消息傳播過程中用戶的認知與識別能力,綜合更復雜的特征來構(gòu)建合適的模型,實現(xiàn)實時檢測微博虛假消息的目的。

        參考文獻:

        [1]中國互聯(lián)網(wǎng)絡信息中心.中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)信息中心,2017. (China Internet Network Information Center (CNNIC). Statistical report on Internet development in China [R]. Beijing: China Internet Network Information Center, 2017.)

        [2]CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter [C]// WWW ’11: Proceedings of the 20th International Conference on World Wide Web. New York: ACM, 2011: 675-684.

        [3]YANG F, LIU Y, YU X, et al. Automatic detection of rumor on Sina Weibo [C]// MDS ’12: Proceedings of the 2012 ACM SIGKDD Workshop on Mining Data Semantics. New York: ACM, 2012: Article No. 13.

        [4]DAYANI R, CHHABRA N, KADIAN T, et al. Rumor detection in Twitter: an analysis in retrospect [C]// ANTS 2015: Proceedings of the 2015 IEEE International Conference on Advanced Networks and Telecommuncations Systems. Piscataway, NJ: IEEE, 2015: 1-3.

        [5]MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites [C]// CIKM ’15: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1751-1754.

        [6]LIU X, NOURBAKHSH A, LI Q, et al. Real-time rumor debunking on twitter [C]// CIKM ’15: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1867-1870.

        [7]蔣盛益,陳東沂,龐觀松,等.微博信息可信度分析研究綜述[J].圖書情報工作,2013,57(12):136-142. (JIANG S Y, CHEN D Y, PANG G S, et al. Research review of information credibility analysis on microblog [J]. Library and Information Service, 2013, 57(12):136-142.)

        [8]賀剛,呂學強,李卓,等.微博謠言識別研究[J].圖書情報工作,2013,57(23):114-120. (HE G, LYU X Q, LI Z, et al. Automatic rumor identification on microblog [J]. Library and Information Service, 2013, 57(23):114-120.)

        [9]路同強,石冰,閆中敏,等.一種用于微博謠言檢測的半監(jiān)督學習算法[J].計算機應用研究,2016,33(3):744-748. (LU T Q, SHI B, YAN Z M, et al. Semi-supervised learning algorithm applied to microblog rumors detection [J]. Application Research of Computers, 2016, 33(3): 744-748.)

        [10]吳樹芳,徐建民.基于HITS算法的微博用戶可信度評估[J].山東大學學報(工學版),2016,46(2):1-7. (WU S F, XU J M. Evaluation of microblog users’ credibility based on HITS algorithm [J]. Journal of Shandong University (Engineering Science), 2016, 46(2): 1-7.)

        [11]謝柏林,蔣盛益,周詠梅,等.基于把關人行為的微博虛假信息及早檢測方法[J].計算機學報,2016,39(4):730-744. (XIE B L, JIANG S Y, ZHOU Y M, et al. Misinformation detection based on gatekeepers’ behaviors in microblog [J]. Chinese Journal of Computers, 2016, 39(4): 730-744.)

        [12]段大高,王長生,韓忠明,等.基于微博評論的虛假消息檢測模型[J].計算機仿真,2016,33(1):386-390. (DUAN D G, WANG C S, HAN Z M, et al. A rumor detection model based on Weibo’ reviews [J]. Computer Simulation, 2016, 33(1): 386-390.)

        [13]郭浩,陸余良,王宇,等.多特征微博垃圾互粉檢測方法[J].中國科技論文,2012,7(7):548-551. (GUO H, LU Y L, WANG Y, et al. Detection of spam mutual concerns in micro-blogs based on multi-features [J]. China Sciencepaper, 2012, 7(7): 548-551.)

        [14]王永強.微博“意見領袖” 少數(shù)派的權(quán)利[N].中國經(jīng)營報,2011- 09- 19 (C05). (WANG Y Q. Micro-blog “opinion leaders” the minority’ rights [N]. China Business Journal, 2011- 09- 19 (C05).)

        [15]FRIEDMAN J H. Greedy function approximation: a gradient boosting machine [J]. The Annals of Statistics, 2001, 29(5): 1189-1232.

        [16]MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks [C]// IJCAI 2016: Proceedings of the 25th International Joint Conference on Artificial Intelligence. London: dblp Computer Science Bibliography, 2016: 3818-3824.

        [17]JIN Z, CAO J, JIANG Y-G, et al. News credibility evaluation on microblog with a hierarchical propagation model [C]// ICDM ’14: Proceedings of the 2014 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2014: 230-239.

        [18]KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media [C]// ICDM 2013: Proceedings of the 2013 IEEE 13th International Conference on Data Mining. Piscataway, NJ: IEEE, 2013: 1103-1108.

        [19]CHANG C-C, LIN C-J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): Article No. 27.

        猜你喜歡
        謠言特征值分類器
        中國使館駁斥荒謬謠言
        一類帶強制位勢的p-Laplace特征值問題
        單圈圖關聯(lián)矩陣的特征值
        當謠言不攻自破之時
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        謠言
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        謠言大揭秘
        學生天地(2016年32期)2016-04-16 05:16:19
        基于商奇異值分解的一類二次特征值反問題
        男同gay毛片免费可播放| 99久久精品一区二区三区蜜臀| 女同亚洲女同精品| 欧美日韩亚洲成色二本道三区 | 国产极品大秀在线性色| 中文字幕亚洲视频一区| 男人和女人做爽爽视频| 国产女人水真多18毛片18精品| 欧美另类高清zo欧美| 亚洲男人天堂| 欧美性久久| 国产精彩刺激对白视频| 国产成人福利av一区二区三区| 国产黄三级三级三级三级一区二区 | 激情五月婷婷综合| 亚洲欧美国产精品久久久| 日韩精品人妻视频一区二区三区 | 本道天堂成在人线av无码免费| 精品国际久久久久999波多野| 亚洲va中文字幕无码毛片| 夫妇交换刺激做爰视频| 在线视频99| 大屁股少妇一区二区无码| 白丝美女扒开内露出内裤视频| 亚洲av产在线精品亚洲第三站| 亚洲黄色天堂网站在线观看禁18| 日本大骚b视频在线| 亚洲av无码专区电影在线观看| 午夜短无码| 青青久久精品一本一区人人| а天堂8中文最新版在线官网| 日本成本人三级在线观看| 中文字幕亚洲好看有码| 国产少妇一区二区三区| 日韩人妻不卡一区二区三区| 欧美日韩国产一区二区三区不卡| 亚洲欧美在线播放| 精品人妻一区二区三区av| 麻豆亚洲一区| 18禁高潮出水呻吟娇喘蜜芽| 2021最新久久久视精品爱|