劉 波 李 洋 孟 青 湯小虎 曹玖新
1(東南大學(xué)計算機(jī)科學(xué)與工程學(xué)院 南京 211189)2(東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 南京 211189)3(計算機(jī)網(wǎng)絡(luò)與信息集成教育部重點實驗室(東南大學(xué)) 南京 211189)
隨著移動互聯(lián)網(wǎng)以及智能移動終端的普及,新浪微博(1)http://weibo.com、Facebook(2)http://www.facebook.com、Instagram(3)http://www.instagram.com等社交媒體平臺將人們的生活和互聯(lián)網(wǎng)越來越緊密地聯(lián)系在一起.由全球領(lǐng)先的社交媒體數(shù)字營銷機(jī)構(gòu)DataReportal發(fā)表的2019全球數(shù)字報告顯示,全球77億人口中活躍的社交媒體用戶已經(jīng)達(dá)到45%,F(xiàn)acebook的月活躍用戶達(dá)到了22.71億,中國的新浪微博月活躍用戶也已經(jīng)達(dá)到了4.46億[1].此外,Kantar Media CIC在2017年中國社會化媒體格局概覽中指出中國的社會網(wǎng)絡(luò)如新浪微博等社交媒體平臺,已經(jīng)覆蓋了人們生活的方方面面[2].這是因為社交媒體具有快捷、方便、雙向、開放等特點,給人們消費(fèi)信息帶來了巨大的便利.然而,社交媒體的這些特點也使它成為了孕育不可信信息的溫床.一方面由于在社交媒體中內(nèi)容的發(fā)布幾乎是零門檻,用戶自身認(rèn)識局限性導(dǎo)致的錯誤觀點或者是用戶出于某種目的而設(shè)計的片面新聞、虛假新聞都能輕易地發(fā)布在社交媒體平臺上.另外一方面,由于社交媒體中信息的交換十分頻繁,不可信的內(nèi)容能夠很快傳播開來,覆蓋大量的用戶,給社會和個人帶來嚴(yán)重的負(fù)面影響.
傳統(tǒng)的內(nèi)容可信性判斷是通過人工來實現(xiàn)的,對于社交媒體中海量的內(nèi)容,這種方法已經(jīng)不可行.如今隨著數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展,采用計算機(jī)評估內(nèi)容可信性成為了主流.該方法的最大優(yōu)勢在于能夠從全局角度去評價內(nèi)容可信性,避免了人工評判中信息不對稱的問題.現(xiàn)在大部分社交媒體平臺都有自動化的信息過濾機(jī)制,如點評類網(wǎng)站Yelp(4)http://www.yelp.com對垃圾評論進(jìn)行過濾,問答互動型網(wǎng)站Quora(5)http://www.quora.com會隱藏劣質(zhì)答案而向用戶推送最佳答案.本文將從社交媒體中用戶的特點出發(fā),考慮用戶的主題因素和從眾因素,提出一種基于概率圖模型的方法來對社交媒體中的內(nèi)容可信性進(jìn)行判斷.
從20世紀(jì)90年代中期開始,互聯(lián)網(wǎng)內(nèi)容的可信性研究就成為了一個重要的研究領(lǐng)域[3].隨著社交媒體的興起,研究社交媒體中內(nèi)容的可信性變得尤為重要.對于計算機(jī)領(lǐng)域中的可信性,F(xiàn)ogg等人[4]給出了被大部分研究者所認(rèn)同的解釋.他們認(rèn)為可信性包含2個基本維度:可信賴度(trust worthiness)和專業(yè)度(expertise).可信賴度包含無惡意(well-intentioned)、真實(truthful)、公正(unbiased)3個方面,側(cè)重于描述信息本身;專業(yè)度包含經(jīng)驗豐富(experienced)、知識淵博(know-ledgeable)、能力突出(competent)3個方面,側(cè)重于描述信息源.
根據(jù)上述2個維度,可以將社交媒體中內(nèi)容的可信性研究分為面向信息源的可信性研究和面向信息的可信性研究.考慮到傳統(tǒng)網(wǎng)絡(luò)媒體中內(nèi)容可信性的研究方法也適用于社交媒體,本研究把傳統(tǒng)網(wǎng)絡(luò)媒體當(dāng)作特殊的社交媒體也納入到社交媒體內(nèi)容可信性研究的討論中,那么信息源就體現(xiàn)為傳統(tǒng)網(wǎng)絡(luò)媒體中的網(wǎng)站和社交媒體中的用戶.信息則是網(wǎng)站或者用戶發(fā)布于傳統(tǒng)網(wǎng)絡(luò)媒體或社交媒體上的多媒體內(nèi)容.
面向信息源的可信性研究可以分為2類:基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的信息源可信性研究和基于信息源特征的信息源可信性研究.基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的研究以信息源為節(jié)點、信息源之間的關(guān)系為邊構(gòu)造網(wǎng)絡(luò)模型,根據(jù)信息源在網(wǎng)絡(luò)中所處的位置,對信息源的可信性進(jìn)行計算.PageRank[5]算法是其中最為經(jīng)典的算法,之后出現(xiàn)了許多基于PageRank的改進(jìn)算法,比如Appleseed[6],TrustRank[7],CredibleRank[8],VoteTrust[9]等算法.基于信息源特征的研究是尋找影響信息源可信性的因素,比如信息源的活躍度、權(quán)威度、與其他信息源的關(guān)系、歷史行為和信息源發(fā)布內(nèi)容語義信息、傳播范圍、時效性等,研究這些因素如何影響信息源的可信性,采用合適的模型對這些因素進(jìn)行組合,從而得到信息源的可信性[10-11].雖然在信息源的可信性計算中加入了很多因素,但這些研究大部分都忽略了信息源的主題因素,默認(rèn)信息源在所有主題下是一樣的,不符合常理,比如說人們更傾向于相信一個醫(yī)生發(fā)布的關(guān)于藥品的內(nèi)容,而不相信他發(fā)布的關(guān)于天文的內(nèi)容.
面向信息的可信性研究方面通常考慮多種因素,采用迭代模型、優(yōu)化模型和概率圖模型3種模型來進(jìn)行研究.使用迭代模型度量信息可信性的研究利用影響信息可信性的因素和信息可信性之間的相互影響關(guān)系,通過影響信息可信性因素計算信息的可信性,然后通過信息可信性量化影響信息可信性的因素,不斷重復(fù)這個過程直至收斂.采用迭代模型的最簡單情形是利用信息源可信性和信息可信性之間的相互影響來計算信息的可信性[12-14].也有一些迭代模型考慮多種因素,如信息源之間的關(guān)系、信息的語義等[15-16].采用優(yōu)化模型的信息可信性計算方法主要目的是尋找一個映射把影響信息可信性因素和信息的可信性聯(lián)系起來,有2種實現(xiàn)方式:一種是回歸[17-20],另一種是分類[21-22],區(qū)別在于前者得到的是連續(xù)值,后者得到的是離散值.采用回歸方法時通常會使用邏輯回歸、最大似然估計等算法,或者是根據(jù)具體應(yīng)用場景設(shè)計相應(yīng)的回歸算法;分類方法中會采用支持向量機(jī)、決策樹等算法.基于概率圖模型的信息可信性研究認(rèn)為:信息源做出的判斷、信息源的特征、信息本身的特征等可觀測變量的分布依賴于信息的可信性、信息源的可信性等隨機(jī)變量,通過建立隨機(jī)變量和可觀測變量之間的關(guān)系得到概率圖模型.大部分研究采用了貝葉斯網(wǎng)絡(luò)[23-25],也有研究使用的是條件隨機(jī)場模型[26].
隨著社交媒體的普及,近幾年研究重心逐漸從傳統(tǒng)網(wǎng)絡(luò)轉(zhuǎn)移到Twitter(6)http://twitter.com、新浪微博等社交媒體平臺.目前國外研究涉及到的媒體平臺主要包括Twitter[14,21]、新浪微博[20,26]以及Yelp[27],研究對象可劃分為事件層面的信息可信性研究[14,20]以及推文層面的可信性研究[21,26-27].文獻(xiàn)[14]通過構(gòu)建推文與信息源、信息源之間的關(guān)系圖,將推文的可信性作為隱含變量通過最大期望(expectation maxi-mum, EM)算法進(jìn)行求解,進(jìn)而通過投票思想獲得事件的可信性.文獻(xiàn)[20]通過構(gòu)建推文間的關(guān)系圖來將事件的可信性計算轉(zhuǎn)化為圖優(yōu)化問題.社交媒體中往往存在很多噪音數(shù)據(jù),比如大量的從眾轉(zhuǎn)發(fā)等現(xiàn)象,對推文可信性判斷帶來干擾進(jìn)而使事件的可信性判斷出現(xiàn)不可忽視的偏差.由此可見,從大量噪音數(shù)據(jù)中篩選出真正有用的推文數(shù)據(jù)就顯得十分重要.推文層面的研究大多依賴于數(shù)據(jù)集的標(biāo)注標(biāo)簽以使用傳統(tǒng)機(jī)器學(xué)習(xí)方法,考慮到訓(xùn)練集規(guī)模較大、人工標(biāo)注耗費(fèi)成本較高,我們更傾向于使用無需人工標(biāo)注的方法,如使用帶標(biāo)簽數(shù)據(jù)集或無監(jiān)督學(xué)習(xí)方法.Fontanarava等人[27]使用Yelp帶標(biāo)簽數(shù)據(jù)集采用了集成學(xué)習(xí)的方法,混合了多個模型對Yelp上特定領(lǐng)域的評論可信性進(jìn)行了研究.他們從評論的語言學(xué)特征入手,采用判別模型支持向量機(jī)和生成模型循環(huán)神經(jīng)網(wǎng)絡(luò)對評論內(nèi)容的可信性進(jìn)行分析,另一方面采用隨機(jī)森林,根據(jù)用戶和評論元數(shù)據(jù)的特征,對評論的可信性進(jìn)行了分類.最后將3個模型得到的結(jié)果采用線性內(nèi)插法結(jié)合到一起,得到最終的結(jié)果.Yelp等評價類網(wǎng)站與新浪微博等內(nèi)容導(dǎo)向的社交平臺的元數(shù)據(jù)特征存在明顯差別,如評價類平臺特有的星級等,所以針對內(nèi)容導(dǎo)向的社交平臺仍需挖掘有用特征.
目前國內(nèi)對社交媒體信息可信性評價的相關(guān)工作較少.謝柏林等人[28]在2016年的研究中,側(cè)重于及早發(fā)現(xiàn)微博中的虛假信息,將轉(zhuǎn)發(fā)以及評論內(nèi)容的觀點傾向,結(jié)合用戶對信息的識別度作為觀測值,使用狀態(tài)持續(xù)時間概率為Gamma分布的隱半馬爾可夫模型計算原創(chuàng)微博的可信性.除此以外,任亞峰等人[29]在2015年針對虛假評論檢測進(jìn)行了研究,該研究考慮到人工標(biāo)注數(shù)據(jù)集后采用監(jiān)督學(xué)習(xí)的不合理性,基于少量已知正例樣本采用PU(positive and unlabeled)學(xué)習(xí)算法標(biāo)注未知標(biāo)簽數(shù)據(jù),最后在標(biāo)注數(shù)據(jù)集中構(gòu)建多核分類器來檢測虛假評論.雖然這些研究開始重視社交網(wǎng)絡(luò)信息的可信性,但近幾年國內(nèi)在該方面的研究還很少見.
面向信息的可信性研究中大多忽略了主題因素,然而用戶在不同主題下具有不同的可信性[30].默認(rèn)信息源在所有主題下具有相同可信性,一方面削弱了信息源在其擅長主題下的可信性,另一方面也增強(qiáng)了信息源在其不擅長主題下的可信性,從而影響最終可信性計算結(jié)果的準(zhǔn)確性.文獻(xiàn)[21]在研究Twitter平臺中的信息可信性時考慮了用戶主題對信息可信性的影響,認(rèn)為用戶的主題與其參與的推文的主題偏差越大,推文和用戶的可信性就越低.該研究針對Twitter平臺的10個話題爬取了2 000條相關(guān)推文,采用人工進(jìn)行標(biāo)注分析,一方面模型對標(biāo)注信息依賴性較高,另一方面數(shù)據(jù)規(guī)模較小,無法充分挖掘潛在特征.
在解決沖突數(shù)據(jù)相關(guān)問題中,需要保證數(shù)據(jù)源之間的獨立性.數(shù)據(jù)源之間的依賴關(guān)系如頻繁的拷貝行為,會對最終數(shù)據(jù)準(zhǔn)確性的分析產(chǎn)生影響[31].Dong等人[13]在該問題的研究中,通過貝葉斯建模數(shù)據(jù)源之間的依賴關(guān)系,并據(jù)此調(diào)整數(shù)據(jù)源可信性在數(shù)據(jù)準(zhǔn)確性分析中的權(quán)重.社交媒體內(nèi)容可信性分析也應(yīng)當(dāng)考慮同樣的問題.此外,頻繁拷貝信息的信息源不僅經(jīng)常出現(xiàn)在不可信信息的發(fā)布者中,也經(jīng)常出現(xiàn)在可信的發(fā)布者中,并不能從他們發(fā)布信息的行為中得到所發(fā)布信息可信性的傾向.
綜上所述,本文將同時考慮用戶的主題因素和拷貝因素對社交媒體中內(nèi)容的可信性進(jìn)行進(jìn)一步研究.由于社交媒體中缺乏內(nèi)容和用戶可信性的標(biāo)記,人工標(biāo)記難度很大,成本很高,比較適合采用無監(jiān)督的方法進(jìn)行研究,而概率圖模型比較適合無監(jiān)督的學(xué)習(xí)[32],同時具有直觀易于理解的特點,所以本文在考慮用戶主題和拷貝因素的基礎(chǔ)上,使用了貝葉斯網(wǎng)絡(luò)對社交媒體中內(nèi)容的可信性進(jìn)行分析和評價.本文的主要貢獻(xiàn)在于同時考慮了用戶的主題特性和從眾行為特性,一方面將可信性評價與用戶的擅長領(lǐng)域聯(lián)系起來,另一方面也降低了社交平臺中拷貝內(nèi)容等噪音數(shù)據(jù)給可信性評價帶來的干擾,最終在新浪微博真實數(shù)據(jù)集的實驗結(jié)果表明本文提出的社交媒體內(nèi)容可信性評價模型相比其他模型更具有適用性.
為評價社交媒體信息的可信性,本文提出社交媒體內(nèi)容可信性評價模型LCEM(latent credibility evaluation model).首先描述模型背后的思想,簡要介紹用戶的主題因素、從眾因素以及各因素與內(nèi)容可信性之間的關(guān)系,然后給出模型的構(gòu)建過程.
在社交媒體中,用戶發(fā)表或者轉(zhuǎn)發(fā)一條內(nèi)容的行為可以看作是一次投票行為.對于轉(zhuǎn)發(fā)微博,其投票對象是轉(zhuǎn)發(fā)微博對應(yīng)的原始微博.對于原創(chuàng)微博,其投票對象是發(fā)表微博所承載的內(nèi)容信息,可以認(rèn)為原創(chuàng)微博是一種特殊的轉(zhuǎn)發(fā)微博,是將抽象內(nèi)容轉(zhuǎn)發(fā)為具體文本,而不是文本對文本的轉(zhuǎn)發(fā).為了將原創(chuàng)微博與轉(zhuǎn)發(fā)微博統(tǒng)一起來,近似認(rèn)為原創(chuàng)微博的投票對象也是原始微博.如果一個用戶發(fā)表了原創(chuàng)內(nèi)容或者單純轉(zhuǎn)發(fā)了他人發(fā)表的內(nèi)容,可以看作是該用戶對其發(fā)表或者轉(zhuǎn)發(fā)的內(nèi)容投了一次贊成票,表示其認(rèn)為原始內(nèi)容是可信的.如果在轉(zhuǎn)發(fā)的同時加上了自己對內(nèi)容的觀點,當(dāng)觀點的情感極性是正向的,那么可以當(dāng)作用戶相信原始內(nèi)容,投出了贊成票;反之,如果評論的情感極性是負(fù)向的,那么可以當(dāng)作用戶不認(rèn)可原始內(nèi)容,投出了反對票.很顯然,不同用戶投票對于人們判斷內(nèi)容可信性的參考價值是不一樣的.
首先,如果一個投票是在用戶從眾的情況下產(chǎn)生的,那么意味著這個投票的產(chǎn)生未經(jīng)過用戶的判斷,投票中沒有贊成和反對的傾向,其產(chǎn)生獨立于內(nèi)容的可信性,所以不具備參考價值.如果用戶在非從眾的情況下做出了一次投票,表明用戶是通過自己的思考,利用相關(guān)的知識經(jīng)驗進(jìn)行了判斷.由于知識經(jīng)驗和內(nèi)容是相關(guān)的,所以投票也就與內(nèi)容的可信性聯(lián)系在一起,具有參考價值.CNNIC2016年中國互聯(lián)網(wǎng)新聞市場研究報告[33]中顯示,超過60%的用戶在轉(zhuǎn)發(fā)新聞內(nèi)容的時候并未對內(nèi)容的可信性進(jìn)行判斷,這些大量的從眾投票會嚴(yán)重干擾人們對內(nèi)容可信性進(jìn)行判斷,所以依據(jù)用戶的從眾行為過濾沒有價值的投票顯得十分必要.
此外,用戶在非從眾情況下投票的參考價值也有著很大的差異.如果一個用戶在一個主題下比較活躍,那么用戶對該主題相關(guān)的知識掌握的也就相對較多,也就越容易做出正確的判斷,用戶在該主題下的投票參考價值也就越大;相反,在用戶不熟悉的主題下,用戶缺乏判斷該主題下內(nèi)容可信性的知識,不容易做出準(zhǔn)確判斷,所以這時候用戶做出投票的參考價值很小.總的來說,用戶非從眾情況下投票的參考價值很大程度上取決于用戶在投票對象主題下的專業(yè)程度.本文將用戶的活躍程度視為用戶的專業(yè)程度.
綜合考慮用戶的從眾行為和主題分布可以很大程度上過濾掉沒有價值的投票,提升具有參考價值投票的作用,從而提高對內(nèi)容可信性判斷的準(zhǔn)確度.下面從這2方面出發(fā),以新浪微博平臺為例,從用戶視角闡述新浪微博中投票的產(chǎn)生.首先用戶打開其微博主頁會看到最新發(fā)表或轉(zhuǎn)發(fā)的微博,如果用戶傾向于從眾的話,他很有可能直接轉(zhuǎn)發(fā)看到的熱門微博.如果該用戶獨立思考能力比較強(qiáng),那么他會選擇自己感興趣的微博進(jìn)行轉(zhuǎn)發(fā),并且會考慮微博的可信性,以一定的概率轉(zhuǎn)發(fā)微博,做出投票.這個過程中涉及到2種投票的概率:一種是用戶從眾情況下的概率;另一種是非從眾情況下的概率.對于前者,用戶呈現(xiàn)出的態(tài)度可能是支持也可能是反對.可以認(rèn)為用戶是從已有的轉(zhuǎn)發(fā)微博中隨機(jī)挑選了一條進(jìn)行轉(zhuǎn)發(fā),所以他的態(tài)度取決于他轉(zhuǎn)發(fā)微博的態(tài)度.那么從眾用戶投出贊成票的概率就是用戶所處環(huán)境下贊成票數(shù)占所有票數(shù)的比例,即表示支持的轉(zhuǎn)發(fā)數(shù)占總轉(zhuǎn)發(fā)數(shù)的比例,投出反對票的概率則是反對票數(shù)占總票數(shù)的比例.對于后者,用戶也會投出贊成票或者反對票,這取決于用戶自身的屬性.用戶在非從眾情況下可能贊成了可信的內(nèi)容(真陽性),也有可能支持了不可信的內(nèi)容(假陽性),同樣也會出現(xiàn)反對可信內(nèi)容(假陰性)和反對不可信內(nèi)容(真陰性)的情況.所以用戶投贊成票和反對票的概率就是它們在內(nèi)容可信性下的邊緣概率,也就是在內(nèi)容可信與否2種情況下的投票概率之和,其中邊緣概率的計算公式為
(1)
考慮到缺乏帶標(biāo)記的社交媒體內(nèi)容可信性數(shù)據(jù),本文基于生成模型的思想,采用貝葉斯網(wǎng)絡(luò)建立了社交媒體內(nèi)容可信性評價圖模型LCEM,利用盤式記法簡化表示為圖1,模型中的各個符號含義如表1所示.
Fig. 1 Latent credibility evaluation model圖1 社交媒體內(nèi)容可信性評價模型
Table 1 The Description of Symbols表1 模型符號說明
Continued(Table 1)
下面詳細(xì)描述模型的建立過程,從變量之間的關(guān)系建模到整個貝葉斯網(wǎng)絡(luò)的構(gòu)建.
ρdu~Bino(1,πu).
(2)
zdu~Muti(1,θd).
(3)
λdu~Bino(1,μd).
(4)
4)vdu表示用戶u對內(nèi)容d的投票,投票分為贊成票和反對票,分別用1和0表示.其服從的分布分為2種情況:一種是用戶u在從眾情況下產(chǎn)生;另一種是用戶u在非從眾情況下產(chǎn)生.
vdu=Bino(1,φukc).
(5)
vdu~Bino(1,gdu),
(6)
上下文環(huán)境變量gdu的建模方法為
(7)
(8)
其中,參數(shù)τ是新引入的一個超參數(shù),用于平衡用戶投贊成票和反對票的概率.
上述1)~4)所有變量中,如圖1,用戶從眾行為ρdu、內(nèi)容主題zdu和內(nèi)容可信性λdu將作為模型的隱含變量;投票結(jié)果vdu、用戶u以及上下文環(huán)境gdu則作為可觀測變量;剩下的用戶從眾概率分布參數(shù)πu、內(nèi)容主題分布參數(shù)θd、內(nèi)容可信性分布參數(shù)μd以及用戶投票行為分布參數(shù)φukc是待估計參數(shù),也就是需要求解的變量.
為了提高模型的靈活性和進(jìn)行平滑處理,為每個待估計參數(shù)引入相應(yīng)的先驗分布,先驗分布的參數(shù)就是超參數(shù).首先用戶u在內(nèi)容d的從眾行為ρdu服從單次二項分布,那么用戶的所有投票的從眾行為ρu=(ρd1u,ρd2u.…)服從二項分布,那么有:
ρu~Bino(nu,πu),
(9)
其中,nu表示用戶u的投票次數(shù).為便于計算,πu的分布滿足二項分布的共軛先驗貝塔分布,也就是:
πu~Beta(η),
(10)
其中,超參數(shù)η=(η0,η1),每個分量表示0和1的個數(shù).同理有:
θd~Dir(γ),
(11)
其中,超參數(shù)γ=(γ0,γ1,…,γ|K|),
μd~Beta(α),
(12)
其中,超參數(shù)α=(α0,α1),
φukc~Beta(β),
(13)
其中,超參數(shù)β=(β0,β1).
模型中,{u,vdu,gdu}是可觀測變量,{μd,φukc,πu,θd}是待估計參數(shù),{ρdu,zdu,λdu}是隱含變量.模型的輸入是所有投票記錄對應(yīng)的可觀測變量和超參數(shù)的值,輸出是所有隱含變量以及待估計參數(shù)的值.
圖1中各變量的聯(lián)合概率分布的抽象表達(dá)為
P(W,λ,z,ρ,μ,θ,φ,π;α,γ,β,η).
(14)
根據(jù)上面提出的社交媒體內(nèi)容可信性評價模型,投票產(chǎn)生的具體過程為
1) 對于每一個用戶u、每一個內(nèi)容主題k和每一種內(nèi)容可信性c,從貝塔分布Beta(φukc|β)中取樣生成非從眾情況下用戶u在內(nèi)容主題為k和可信性為c情況下投票行為的分布參數(shù)φukc;
2) 對于每個用戶u,從貝塔分布Beta(πu|η)中取樣生成用戶u的從眾行為分布參數(shù)πu;
3) 對于每條內(nèi)容d:
3.1) 從狄利克雷分布Dir(θd|γ)取樣生成內(nèi)容d的主題分布θd;
3.2) 從貝塔分布Beta(μd|α)中取樣生成內(nèi)容的可信性分布μd;
3.3) 對于每個投票給內(nèi)容d的用戶u:
3.3.1) 從二項分布ρdu~Bino(1,πu)中取樣生成用戶u的從眾行為ρdu;
3.3.2) 從二項分布λdu~Bino(1,μd)中取樣生成內(nèi)容的可信性標(biāo)簽λdu;
3.3.3) 從多項分布zdu~Multi(1,θd)中取樣生成內(nèi)容的一個主題zdu;
3.3.4) 若ρdu=0,則從二項分布vdu~Bino(1,φukc)中取樣生成投票vdu,其中k表示zdu的取值結(jié)果,c表示λdu的取值結(jié)果;若ρdu=1,則從二項分布vdu~Bino(1,gdu)中取樣生成投票vdu.
在完成概率圖模型建立后,需要針對其中的待估計參數(shù)進(jìn)行求解.本文在參數(shù)估計的過程中采用了吉布斯采樣算法.吉布斯采樣作為馬爾可夫蒙特卡洛方法的一種特殊情況,適用于高維數(shù)據(jù)的采樣,普遍應(yīng)用于概率圖模型中.采用吉布斯采樣求解模型,最主要的工作是推導(dǎo)隱含變量的采樣規(guī)則.根據(jù)采樣結(jié)果可以很容易地計算待估計參數(shù).
首先給出隱含變量在已知數(shù)據(jù),即數(shù)據(jù)集和超參下的聯(lián)合概率分布形式,表示為
P(λ,z,ρ|W;α,γ,β,η).
(15)
引入隱含變量分布參數(shù),即待估計參數(shù)后,式(15)可表示為
(16)
那么要計算隱含變量的聯(lián)合概率分布,需要先計算P(λ,z,ρ,μ,θ,φ,π|W;α,γ,β,η),即隱含變量和待估計參數(shù)在已知信息下的聯(lián)合概率分布.根據(jù)貝葉斯公式以及D-分離規(guī)則有:
P(λ,z,ρ,μ,θ,φ,π|W;α,γ,β,η)∝P(W,λ,z,ρ|μ,φ,π)P(θ|γ)P(μ|α)×P(φ|β)P(π|η).
(17)
根據(jù)概率圖模型中各條生成路線,式(17)可以整理得到:
P(λ,z,ρ,μ,θ,φ,π|W;α,γ,β,η)∝
(18)
表達(dá)式(18-1)對應(yīng)圖1中η→πu→ρdu生成路線,表示用戶從眾行為的先驗分布中采樣生成用戶從眾行為的分布,然后從該分布中采樣出用戶是否從眾.同理表達(dá)式(18-2)對應(yīng)路線β→φukc→vdu;表達(dá)式(18-3)對應(yīng)路線γ→θd→zdu;表達(dá)式(18-4)對應(yīng)路線α→μd→λdu;表達(dá)式(18-5)對應(yīng)路線gdu→vdu.對于投票結(jié)果vw,其生成路徑分別對應(yīng)表達(dá)式(18-2)和表達(dá)式(18-5)這2種不同的情況,由公式的指數(shù)上標(biāo)也就是投票記錄對應(yīng)的用戶從眾行為ρw決定.當(dāng)該投票是在用戶非從眾(ρw=0)情況下產(chǎn)生時,其生成路徑對應(yīng)表達(dá)式(18-2),當(dāng)該投票在用戶從眾(ρw=1)情況下產(chǎn)生時,其生成路徑對應(yīng)表達(dá)式(18-5).
將式(18)帶入式(16)計算隱含變量的概率分布,并且將多重積分根據(jù)積分變量進(jìn)行轉(zhuǎn)化來簡化計算復(fù)雜度,整理為
P(λ,z,ρ|W;α,γ,β,η)∝
(19)
(20)
(21)
(22)
(23)
并且表達(dá)式(19-5)可以轉(zhuǎn)化為
(24)
至此,結(jié)合式(20)~(24),可以得到隱含變量的聯(lián)合概率分布:
(25)
在3.1節(jié)隱含變量的聯(lián)合概率分布的推導(dǎo)基礎(chǔ)上,繼續(xù)闡述隱含變量的狀態(tài)轉(zhuǎn)移分布推導(dǎo)過程,并給出LCEM的吉布斯采樣算法.
根據(jù)吉布斯采樣算法,LCEM的轉(zhuǎn)移概率為
P(λo,zo,ρo|λ,z,ρ,W;α,γ,β,η)∝
(26)
其中(λo,zo,ρo)表示與一個投票vo對應(yīng)的隱含變量,{λ,z,ρ}表示剔除該投票vo對應(yīng)的隱含變量后剩余投票對應(yīng)的隱含變量.可以看出需要采樣的隱含變量的轉(zhuǎn)移概率同所有隱含變量的聯(lián)合概率與剔除該組變量的隱含變量的聯(lián)合概率比值成正比.并且可以使用式(15)的形式來表示聯(lián)合概率,整個轉(zhuǎn)移概率公式推導(dǎo)可拆分成對每一部分的推導(dǎo).下面具體推導(dǎo)式(26)中F1和F的關(guān)系,其中Γ(·)表示伽瑪函數(shù):
(27)
同式(27)推導(dǎo)過程,式(26)中F2和F的關(guān)系為
(28)
式(26)中F3和F的關(guān)系為
(29)
式(26)中F4和F的關(guān)系為
(30)
式(26)中F5和F的關(guān)系為
F5=(gvo)ρoF.
(31)
綜合式(27)~(31),一組隱含變量轉(zhuǎn)移概率的具體表達(dá)形式為
P(λo,zo,ρo|λ,z,ρ,W;α,γ,β,η)∝
(32)
其中ρo∈{0,1},若當(dāng)前隱含變量對應(yīng)的投票記錄在從眾情況下產(chǎn)生,即ρo=0,最終的概率與上下文gvo無關(guān),同理ρo=1,最終概率與第2項無關(guān).
對其中某個隱含變量進(jìn)行采樣時,另外2個變量作為隱含變量的固定值.所以該隱含變量的采樣概率只和式(32)中的相關(guān)項有關(guān),其他項在當(dāng)前采樣過程中作為常量.所以各隱含變量的采樣規(guī)則為
P(λo|λ,z,ρ,W;α,γ,β,η)∝
(33)
P(zo|λ,z,ρ,W;α,γ,β,η)∝
(34)
P(ρo|λ,z,ρ,W;α,γ,β,η)∝
(35)
根據(jù)隱含變量的采樣公式對隱含變量進(jìn)行采樣,將采樣得到的結(jié)果作為后驗知識,結(jié)合事先設(shè)定的先驗知識,利用先驗分布和后驗分布的共軛關(guān)系,可以得到各個待估計參數(shù)的計算規(guī)則:
(36)
(37)
(38)
(39)
根據(jù)這些規(guī)則就可以得到本文提出的可信性評價模型LCEM的吉布斯采樣算法.算法輸入是所有內(nèi)容對應(yīng)的投票記錄集合W、內(nèi)容所有主題類別K、內(nèi)容可信性先驗分布參數(shù)α、內(nèi)容主題先驗分布參數(shù)γ、用戶從眾行為先驗分布參數(shù)η、用戶在不同主題和可信性下投票行為的先驗分布參數(shù)β、上下文環(huán)境變量平衡參數(shù)τ,以及采樣迭代次數(shù)I.算法輸出包括內(nèi)容可信性分布μ、內(nèi)容主題分布θ、用戶從眾行為分布π、用戶在不同主題和內(nèi)容可信性下投票行為分布φ,以及所有隱含變量{λ,z,ρ}.詳細(xì)過程如算法1所示.
算法1.LCEM吉布斯采樣算法.
輸入:{W,K,α,β,γ,η,τ,I};
輸出:{μ,θ,π,φ,λ,z,ρ}.
② for alld∈Ddo
③ for allw∈Wddo
④
⑤λw~U(0,1);
⑥zw~U(1,|K|);
⑦ρw~U(0,1);
⑧ end for
⑨ end for
本節(jié)采用真實社交媒體平臺的數(shù)據(jù)來驗證本文提出的模型.采用的數(shù)據(jù)來自于文獻(xiàn)[34]的新浪微博公開數(shù)據(jù)集,數(shù)據(jù)中有3萬條原創(chuàng)微博、3 700萬條轉(zhuǎn)發(fā)微博、140萬個用戶.從數(shù)據(jù)中可以提取出可觀測變量的值,從而得到模型的輸入.
需要設(shè)定的參數(shù)包括迭代次數(shù)I、微博主題類別K,以及各先驗分布的超參.
首先對迭代次數(shù)I的設(shè)定.由于吉布斯采樣是一個隨機(jī)化求解方法,無法保證迭代確定次數(shù)后收斂.本文將迭代次數(shù)設(shè)定為一個較大值1 000,通過觀察困惑度(perplexity)來判斷是否收斂.困惑度是一個用于衡量概率模型擬合程度的量,值越小表示擬合效果越好.隨著采樣進(jìn)行,困惑度會不斷減少,當(dāng)困惑度變化范圍小于一定閾值,則認(rèn)為其收斂,實驗設(shè)定閾值為0.001.困惑度計算方法為
(40)
(41)
其中Φ表示待估計參數(shù)集合,Ψ是超參數(shù)集合.
本文中模型的似然函數(shù)可以表示為
(42)
對于主題類別K的設(shè)定,也就是主題類別個數(shù)的設(shè)定,本文采用HDP(hierarchical Dirichlet processes)模型[35].HDP模型可以看做是LDA(latent Dirichlet allocation)模型[36]的擴(kuò)展,是非參數(shù)化的LDA模型,可以自動調(diào)整主題個數(shù),達(dá)到不用人工確定主題個數(shù)的目的.本文將微博文本輸入HDP模型,經(jīng)過5天32 182次迭代,得到如圖2所示的主題與困惑度關(guān)系:
Fig. 2 The relation between number of topics and perplexity圖2 主題數(shù)和困惑度的關(guān)系
從圖2中可以發(fā)現(xiàn)主題數(shù)100之后,困惑度趨于平穩(wěn),所以本文將主題數(shù)確定為100.
對于{α,γ,η,β} 這些先驗分布的超參數(shù),假設(shè)它們的各個分量都相等,即α=α′×(1,1),γ=γ′×(1,1,…,1),η=η′×(1,1),β=β′×(1,1)那么對向量的設(shè)定就可以轉(zhuǎn)化為對標(biāo)量的設(shè)定,即對系數(shù){α′,γ′,η′,β′} 的設(shè)定.設(shè)定{α′,γ′,η′,β′,τ}這些參數(shù)時,本文利用了貝葉斯優(yōu)化工具(7)https://github.com/fmfn/BayesianOptimization搜尋合適的參數(shù),設(shè)定的搜索區(qū)間為α′∈[0.01,2],γ′∈[0.01,2],η′∈[0.01,2],β′∈[0.01,2],τ∈[0.01,100],搜尋結(jié)果為α′=0.01,γ′=0.01,η′=0.01,β′=0.01,τ=94.47.
為了驗證LCEM模型的有效性,本文選取了6個模型進(jìn)行對比.
3) TruthFinder[37].該方法是一種迭代模型,通過信息源(source)建立事實(fact)之間的聯(lián)系,采用類似于PageRank的方法計算fact的可信性.
4) LTM[24].該模型也是概率圖模型,其思想是各個fact中每個source做出的聲明(claim)受到fact可信與否的影響,利用這個影響關(guān)系來判斷fact的可信性.
5) KDEm[17].該模型是一種回歸模型,采用了核密度估計的思想,將同一fact的所有claim映射到函數(shù)空間,將用戶的可信性作為權(quán)重,對fact的可信性進(jìn)行擬合.
6) CATD[38].該模型也是回歸模型,通過fact可信性與source之間的關(guān)聯(lián),建立優(yōu)化目標(biāo),在計算source權(quán)重時考慮了source發(fā)表的claim數(shù)服從冪律分布,每個source權(quán)重的置信度會有很大差別,根據(jù)置信度來修正權(quán)重.
其中TruthFinder,KDEm,CATD有公開源碼(8)https://github.com/MengtingWan/KDEm,由文獻(xiàn)[17]提供.這6個模型中的source,claim,fact分別對應(yīng)著本文研究場景中的用戶、投票、微博.
由于本文采用的公開數(shù)據(jù)集中并不攜帶內(nèi)容可信或者不可信的標(biāo)簽,常規(guī)的F1值評價方法并不適用.本文將采用的評價方法為:取實驗結(jié)果中可信性最高的100條微博和可信性最低的100條微博,采用人工的方式判斷前100條中可信微博的數(shù)量和后100條微博中不可信微博的數(shù)量,將前100條中可信微博的比例和后100條中不可信微博的比例作為評價指標(biāo).
對各個模型中輸出的內(nèi)容可信性評分排序,提取出可信性最高的100條微博和可信性最低的100條微博,得到的對比結(jié)果如圖3所示.本文提出模型的準(zhǔn)確程度都要高于其他模型,即使除去用戶主題因素的考慮,相比其他模型也具有一定的優(yōu)勢.不考慮從眾因素的情況下,效果也和其他模型中最好的相差無幾.其中的原因是對比模型是建立在用戶行為差異比較大的基礎(chǔ)上,即所有用戶投出的贊成票數(shù)和反對票數(shù)差別較小.但是在社交媒體中反對票數(shù)本來就遠(yuǎn)小于贊成票數(shù),加上從眾用戶的存在,它們懸殊更加巨大.在本文使用的數(shù)據(jù)集中,根據(jù)情感分析得到的贊成票數(shù)和反對票數(shù)的比值達(dá)到了900.而本文從用戶的從眾因素和主題因素2個角度弱化了這種負(fù)面影響,得到了相對于其他模型較好的結(jié)果.雖然TruthFinder也考慮到用戶之間存在著拷貝,但是只是單純地為所有內(nèi)容的可信性加上了一個相同衰減系數(shù),并不影響最終可信性的排名.圖3也體現(xiàn)了用戶從眾因素對內(nèi)容可信性評價的影響大于用戶的主題因素,原因在于用戶參與其不熟悉的主題往往反映了一定的從眾傾向,即從眾因素中包含了部分主題因素.
Fig. 3 The precision of credibility top100 and bottom100 microblogs圖3 可信性Top100以及Bottom100微博的精確率
同時,從圖3中可以明顯看到,在Top100中可信微博的比例都比較高,而在Bottom100中不可信微博的比例都很低.究其原因,一方面數(shù)據(jù)集中可信內(nèi)容數(shù)要遠(yuǎn)大于不可信內(nèi)容數(shù);另一方面,用戶在參與負(fù)面新聞時往往持批判的態(tài)度,即根據(jù)情感極性分析得到的是反對票,但實際上是贊成票.這樣就導(dǎo)致了在Bottom100中負(fù)面新聞?wù)紦?jù)了很大一部分,使得真正不可信的內(nèi)容減少.
Fig. 4 The perplexity of LCEM, LCEMH and LCEMT圖4 模型LCEM,LCEMH,LCEMT的困惑度
本文致力于解決的問題是社交媒體中內(nèi)容可信性判斷的問題.針對該問題,考慮到在社交媒體中用戶在消費(fèi)信息時有跟風(fēng)的傾向和選擇自己感興趣信息的傾向,本文從用戶的從眾因素和主題因素以及內(nèi)容的可信性因素出發(fā),對用戶發(fā)表或傳播內(nèi)容時持有的支持或反對態(tài)度進(jìn)行分析建模,從而實現(xiàn)對內(nèi)容可信性的評價.實驗結(jié)果表明,本文提出的模型更加適合社交媒體中內(nèi)容可行性的評價.
雖然相比現(xiàn)有的內(nèi)容可信性評價模型,本文提出的模型具有較好的效果,但是本文模型在以下方面仍有改進(jìn)的空間:提高評論支持或反對的計算準(zhǔn)確程度;更加準(zhǔn)確地衡量用戶轉(zhuǎn)發(fā)內(nèi)容時的上下文環(huán)境;除了考慮用戶的從眾行為,加入用戶對特定用戶的依賴能夠提高可信性判斷的準(zhǔn)確程度.