吳連偉,饒 元,樊笑冰,楊 浩
(西安交通大學(xué) 軟件學(xué)院 社會智能與復(fù)雜數(shù)據(jù)處理實驗室,陜西 西安 710049)
基于用戶生成內(nèi)容的Web 2.0社交網(wǎng)絡(luò)平臺極大地促進了信息內(nèi)容的生成、傳播與快速增長,在享受信息的快速獲取與傳播共享便利的同時,網(wǎng)絡(luò)中散布著大量的謠言、偏激和虛假信息。在線博客中存在著許多偏激和虛假的內(nèi)容,微博也被大量的垃圾和謠言信息嚴(yán)重污染,甚至在線新聞媒體也被大量不可靠且沒有被證實的新聞所充斥[1],這種現(xiàn)象直接影響到了主流媒體。Howell[2]將海量數(shù)字化虛假內(nèi)容信息列為影響現(xiàn)代社會發(fā)展的重大威脅之一。
Gupta[3]的研究結(jié)果表明:在Twitter中有將近52%的內(nèi)容是確定可信的、35%的內(nèi)容是大致可信的、13%的內(nèi)容是確定不可信的。不可信信息將極大地渲染消極和負(fù)面的社會情緒,不僅影響社會和諧,而且也會影響國家安全與政治生態(tài)。例如,澎湃新聞曾在2016年1月4日發(fā)布“江西九江市潯陽區(qū)發(fā)生6.9級地震”的假新聞所引起的社會恐慌,2016年英國脫歐和美國總統(tǒng)大選事件中所引爆的媒體信任危機,許多類似的新聞使人們開始深刻地意識到“陰謀論、假新聞、極端的感情抒發(fā)”的信息在網(wǎng)絡(luò)傳播中給社會所傳遞的負(fù)面影響。如何在復(fù)雜網(wǎng)絡(luò)環(huán)境下快速識別出信息的真?zhèn)?,以確保網(wǎng)絡(luò)中傳播信息的真實性與可信性,并對傳播信息內(nèi)容的可信度進行度量,已成為目前學(xué)術(shù)界、工業(yè)界和政府機構(gòu)共同關(guān)注且亟需解決的重要問題。
為了解決上述問題,本文在文獻調(diào)研分析與總結(jié)的基礎(chǔ)上,從信息可信性與不可信的特征出發(fā),針對不同類型的信息內(nèi)容特征進行識別、抽取與比較,在此基礎(chǔ)上,系統(tǒng)地梳理和分析當(dāng)前主要的信息可信度建模與評測方法,為信息內(nèi)容的可信度分析與研究奠定基礎(chǔ)。
從可信的角度看,信息可以分為可信與不可信兩大類,除了能夠證明信息本身的真實性、科學(xué)性、客觀性以及完整性以外的信息,其余信息均可稱為不可信信息。而在網(wǎng)絡(luò)中傳播的這些不可信信息本身也存在著一些明顯的差異,根據(jù)這些差異將不可信信息進一步歸納為:極端突發(fā)事件下的模糊信息、網(wǎng)絡(luò)偏激信息、網(wǎng)絡(luò)普通虛假信息、網(wǎng)絡(luò)謠言、誤報信息與垃圾信息等六種類型。
其中,極端突發(fā)事件是指具備嚴(yán)重危害性的不可預(yù)知的突發(fā)性事件,特別是指由于自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事故以及社會安全事件等方面突發(fā)且不會重現(xiàn)的事件[4],由于極端突發(fā)事件除了具有爆炸性、不可重復(fù)性和嚴(yán)重危害性等特征外,還具有極強的模糊性,從而為虛假信息的快速傳播提供了空間;網(wǎng)絡(luò)偏激信息是指夸大或貶低事實、斷章取義或者是以偏概全的信息,這類信息中往往融入了個人的極端情感;網(wǎng)絡(luò)普通虛假信息包括惡意造假或蓄意欺騙的信息;網(wǎng)絡(luò)謠言指在網(wǎng)絡(luò)中傳播的一個存在爭議或者事實有待檢驗的信息陳述[5];誤報信息則是由于工作失誤而錯報的信息,產(chǎn)生的原因包括錄入失誤、疏忽或者專業(yè)能力差等[6];垃圾信息指與用戶無關(guān)且無價值、不被關(guān)注的信息,也包括失去時效的過時信息等。根據(jù)上述定義,表1從特點、發(fā)布者、目的性、危害性和可信度等特征的差異對信息進行了比較。
表1 六類不可信信息的特征對比表
由于信息傳播過程中的用戶社交網(wǎng)絡(luò)與興趣網(wǎng)絡(luò)交織融合,信息內(nèi)容的組織形式具有多樣性且具有跨媒體特征,使得不可信信息識別的復(fù)雜性程度大幅提高,這直接影響到了網(wǎng)絡(luò)信息傳播過程中預(yù)測與引導(dǎo)策略的有效性。因此,本文提出了信息可信度概念來對所有信息的可信程度進行統(tǒng)一度量。
信息可信度是評價信息內(nèi)容質(zhì)量的一種關(guān)鍵性指標(biāo),它與信息在網(wǎng)絡(luò)中傳播的核心要素相關(guān),即與信息內(nèi)容、話題、信息傳播者和傳播媒介及信息接受者等特征相關(guān),因此,可用如下五元組來形式化地定義為:
IC=
(1)
其中,IC表示信息的可信度,C、T、P、M和R分別表示了信息內(nèi)容、話題、信息傳播者、傳播媒介及信息接受者的特征集合,該模型所描述的信息在網(wǎng)絡(luò)中的傳播過程如圖1所示。盡管該模型在傳播要素與內(nèi)容可信度度量之間建立了一種聯(lián)系,但并沒有解決如何選擇不同的特征維度并進行有效的評估測量這一關(guān)鍵問題。
圖1 信息可信度IC模型中網(wǎng)絡(luò)信息的傳播過程示意圖
West[7]認(rèn)為可信度是信息接受者對信源或傳播媒介品質(zhì)的一種主觀感受,這種品質(zhì)不管內(nèi)容如何,受眾都能毫無保留地對其信賴。而Fogg[8]進一步強調(diào)受眾對信息傳播者的信任主要來自于個人特質(zhì)和信息來源可信程度特征的主觀測量。周東浩[9]將微博看作一個融合了社交圖譜和興趣圖譜的關(guān)系網(wǎng)絡(luò),其中節(jié)點之間的結(jié)構(gòu)相似度以及用戶對信息的傳播興趣對信息傳播概率的影響最大。在此基礎(chǔ)上,Metzger[10]認(rèn)為信息可信度不僅包括了對信息源的專業(yè)性、吸引力以及可信賴性的主觀信任度,同時也包括了信息內(nèi)容質(zhì)量、精確度的客觀評判。而方濱興等[11]進一步將信息內(nèi)容、人員以及行為動機的識別作為信息內(nèi)容安全判斷與控制的核心要素,且通過行為動機的分析來客觀地反映人員的主觀行為。為了更好地分析信息內(nèi)容的質(zhì)量,Miyamori[12]開發(fā)了一個WISDOM系統(tǒng),并從信息的內(nèi)容、傳播者、表面特征和社會價值等四個方面來度量信息的可信度。Castillo[13]提出了一個基于多級社交網(wǎng)絡(luò)的信息內(nèi)容可信度評價指標(biāo)體系,其中一級特征指標(biāo)包括信息內(nèi)容、接收者、話題和傳播等四項,二級指標(biāo)74項,為信息內(nèi)容可信度測量奠定了重要的分析基礎(chǔ)。
綜上,考慮到信息在傳播過程中主觀與客觀因素對信息可信度測量的影響,為了更有效地建立信息的可信度評價模型,需要進一步深入地對可信信息以及上述六種不可信信息的特征進行分析和量度,因此,本文從IC模型的五個維度出發(fā),對信息在傳播過程中的可信度特征進行研究與分析。
由于網(wǎng)絡(luò)結(jié)構(gòu)與人們的行為傾向?qū)π畔鞑a(chǎn)生非常大的不確定性影響,且傳播內(nèi)容的可信度與網(wǎng)絡(luò)的結(jié)構(gòu)特征、個體行為以及信息傳播的初始狀態(tài)之間存在著密切關(guān)系。同時,在線文本的有用性與價值性以及社交文本(如Tweets)內(nèi)容中的URL、關(guān)注數(shù)、轉(zhuǎn)發(fā)數(shù)和內(nèi)容長度均可以作為信息可信度評估的最佳指標(biāo)[14]。Metzger[15]認(rèn)為信息可視化模式比信息內(nèi)容以及來源對可信度評估結(jié)果的影響更大。而Lipshultz[16]卻認(rèn)為在構(gòu)建公眾信任時的參與度、完整性以及目的性才是關(guān)鍵,他利用TweetLevel工具對Twitter中的信任進行了度量,結(jié)果表明網(wǎng)絡(luò)中的個體愿意信任那些和自己建立聯(lián)系的用戶所發(fā)表的、且具有一定轉(zhuǎn)發(fā)數(shù)量與引用數(shù)的信息內(nèi)容。Castillo[17]則認(rèn)為Tweet中信息的可信度與信息源、主題、作者的聲譽、寫作風(fēng)格、信息傳播以及與時間相關(guān)特征緊密相關(guān);徐靜[18]針對Web信息可信度的時效性、權(quán)威性、影響力和關(guān)注度四個特征進行驗證,并提出了一個多維度加權(quán)結(jié)合的可信度計算方法。Hardalov[1]則進一步提出了一個基于語言學(xué)(主要指n-gram)、可信性(大小寫、發(fā)音、拼寫與情感)以及語義(Embedding and DBPedia Data)三者融合的富特征(20條特征)條件下,語言無關(guān)的自動化的英文信息可信度識別方法,實驗結(jié)果表明在特定的測試集下,內(nèi)容可信度的識別率竟高達99.36%。
目前,信息內(nèi)容的可信度研究主要集中在對信息特征的分析與定義以及基于特征的可信度檢測上,本文將IC模型中的五個維度作為信息內(nèi)容可信度特征分析的一級指標(biāo),在此基礎(chǔ)上,將該指標(biāo)下所涉及的子特征細化為二級指標(biāo),并將具體可度量的細化特征作為三級指標(biāo),從而構(gòu)建了一個信息內(nèi)容可信度特征分析的指標(biāo)體系,如表2所示。
表2 信息內(nèi)容可信度特征指標(biāo)體系表
在上述特征分析的基礎(chǔ)上,為了對不同類型的不可信信息的可信程度進行分析,下面對這些類型的信息可信特征以及度量方法進行分析。
2.2.1極端突發(fā)事件下模糊信息特征描述
突發(fā)事件是指突然發(fā)生的超常規(guī)的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會安全事件的總稱。它具有突發(fā)性、無重復(fù)性、無章可循但又能產(chǎn)生重大次生影響的特征。特別是突發(fā)事件產(chǎn)生后,相關(guān)信息的模糊性,使得心理處于恐慌狀態(tài)的人群對信息的渴求強烈,從而成為了各類不可信信息滋生與傳播的土壤[19]。例如,在日本福島核泄露事件發(fā)生后,Thomson[20]研究發(fā)現(xiàn)與這場危機現(xiàn)場距離越近的傳播者(即傳播者可信度中的地理位置)越能增加共享信息的可信度。Mendoza[21]定義了基于詞共現(xiàn)的主題(話題)抽取方法,通過抽取包括信息、內(nèi)容(內(nèi)容在平臺上的特征、語法特征、語義特征)、信息媒介(媒介平臺特征)和接受者(評論轉(zhuǎn)發(fā)特征)等一系列特征研究極端突發(fā)事件信息可信度,尤其是在新聞可信度識別領(lǐng)域獲得了較高的準(zhǔn)確度。薛傳業(yè)[22]從信息內(nèi)容、傳播來源(內(nèi)容來源媒介特征)、傳播渠道(媒介平臺特征)、傳播者影響力、傳播者可信度、網(wǎng)絡(luò)依賴性等方面對突發(fā)事件中信息可信度進行研究,發(fā)現(xiàn)網(wǎng)絡(luò)的使用和信息的完整性對突發(fā)事件信息的可信度影響不顯著,但其他因素對突發(fā)事件中信息的可信度則存在明顯影響。
2.2.2網(wǎng)絡(luò)偏激信息特征描述
網(wǎng)絡(luò)偏激信息本質(zhì)上是人們對現(xiàn)實社會認(rèn)知和情緒的反映,它包括了夸大事實信息、斷章取義和以偏概全等言論,并影響公眾對社會生活審視的立場和價值判斷。網(wǎng)絡(luò)偏激信息往往會帶來嚴(yán)重的煽動效應(yīng),并對個人及社會造成嚴(yán)重的不良影響。Lewandowsky[23]指出:人們對事件的信任源自于其大腦中所形成的未被大眾質(zhì)疑的信仰和觀念。特別是當(dāng)信息中包含與用戶興趣偏好一致的信仰與觀念時,即使信息內(nèi)容中存在著夸大或帶有某些偏激的言論,人們可能也會不加驗證地選擇接受。另外,由于偏激信息整體言論是可信的,只有部分言論是不可信的,導(dǎo)致了僅從文本內(nèi)容語法特征以及淺顯的語義特征兩個方面將無法完成對偏激信息的判斷與識別,所以目前的研究采用了深度學(xué)習(xí)技術(shù)從信息內(nèi)容本身的深層語義理解方向進行分析與研究,進而識別與判定偏激信息。
2.2.3網(wǎng)絡(luò)謠言特征描述
謠言是一種在人群之間私下流傳,對公眾感興趣的事物、事件或問題未經(jīng)證實的闡述或詮釋[24]。因此,謠言往往是一個有爭議的與事實有待檢驗的陳述[5]。Turner[25]指出,通過是否有可靠的消息來源、是否是人們所預(yù)期與希望知道的信息以及聽起來似乎是真的這三個方面的特征可以有效驗證謠言的真實性。Bessi[26]在研究Facebook中的謠言信息時,發(fā)現(xiàn)用戶更傾向于和自己觀點相同的好友(話題的用戶特征)進行交流與傳播。Hamidian[27]利用了包括時間、標(biāo)簽、URL和轉(zhuǎn)發(fā)等特征和內(nèi)容的一元、二元模型的語法特征以及100維的Twitter潛在語義向量(TLV)特征進行謠言檢測。Yang[28]收集了大量被新浪官方正式辟謠的新浪微博謠言數(shù)據(jù)集,進行了基于時間與地理位置以及客戶端程序發(fā)送微博情況在內(nèi)的19種信息內(nèi)容特征的謠言檢測與識別。Liu[29]將信息來源媒介的可信度、媒介身份和媒介平臺等特征相結(jié)合,并采用實時性算法來實現(xiàn)謠言信息的實時檢測。周東浩[9]利用傳播者與接受者的興趣偏好相似度特征來研究信息的傳播,并指出傳播者與接受者的興趣偏好相似度越高,接受者越傾向于接受傳播者所傳播的信息,且信息是否契合用戶的興趣偏好也是決定用戶是否接受并傳播的重要因素。
2.2.4網(wǎng)絡(luò)普通虛假信息特征描述
虛假信息是指“故意制造的不真實信息”,它具有傳播速度快、傳播范圍廣和傳播結(jié)構(gòu)呈散布型網(wǎng)狀結(jié)構(gòu)的特點。Fallis[30]將虛假信息的主要特點概括為:它是一款精心策劃的產(chǎn)品,從技術(shù)上看是一個復(fù)雜的欺騙過程,但虛假信息的來源并不一定是虛假的,也就是說通過虛假信息的來源特征并不能準(zhǔn)確評判虛假信息。因此,僅利用信息的來源則無法區(qū)分虛假信息與其他信息,同時,虛假信息的傳播對象往往針對特定的人群或組織。Karlova[6]從真實性、準(zhǔn)確性、完整性、時效性和欺騙性五個維度測量與區(qū)分誤報信息、虛假信息和政治宣傳信息,并指出這三種信息在本質(zhì)上只有虛假信息帶有蓄意欺騙性質(zhì)。Kumar[31]從認(rèn)知心理學(xué)角度,采用信息傳播所涉及的信息的一致性、相關(guān)的消息、信息接受者的總體可接受性和消息來源的可靠性等四種相關(guān)的欺騙線索來分析和評估社交媒體上誤報信息、虛假信息和政治宣傳信息的差異,并提出了阻止虛假信息傳播的不同解決方案。
2.2.5誤報信息特征描述
誤報信息是指錯誤的或誤導(dǎo)性的信息,它常常具有被官方或影響力高的人員來發(fā)布、擴散傳播迅速、存活時間短和較易被證實的特點。Ratkiewicz[5]研究了2010年美國總統(tǒng)競選活動中在Twitter上的選舉造勢的內(nèi)容數(shù)據(jù),發(fā)現(xiàn)具有很強傳播感染性的誤報信息用錯誤觀念影響了民眾的支持傾向,并對投票選舉結(jié)果產(chǎn)生了嚴(yán)重影響。Karlova[32]認(rèn)為誤報信息很難檢測,但是采用基于群體智慧的眾包方式則可以有效地對其進行識別和控制。Neys[33]和Lewandowsky[23]認(rèn)為誤報信息的存在是極其危險的,需要對網(wǎng)絡(luò)中的誤報信息進行檢測、識別,并盡可能使其在早期得到及時的預(yù)防與控制。表3將信息、誤報信息與虛假信息從真實性、完整性、時效性和欺騙性這四個維度進行比較分析,其中誤報信息和虛假信息均不真實,但只有虛假信息具有欺騙性。
表3 信息、誤報信息與虛假信息比較表
注:Y=Yes,N=No;Y/N=可能是Yes也可能是No,取決于信息的本身和時間
2.2.6垃圾信息特征描述
網(wǎng)絡(luò)中垃圾信息通常是指由網(wǎng)絡(luò)水軍創(chuàng)造的隨意且無用的信息,以及各種無效廣告等與用戶無關(guān)的信息。由于網(wǎng)絡(luò)垃圾信息無用且干擾了正常的信息獲取,因此,用戶往往不會主動傳播這類信息,同時也希望識別并過濾掉這些信息對人們產(chǎn)生的負(fù)面影響。Ratkiewicz[5]利用meme的節(jié)點數(shù)量、邊的數(shù)量、平均度、平均強度、最大連接組件的平均邊權(quán)重、最大最小出入度以及六類情緒統(tǒng)計維度等共18種特征對網(wǎng)絡(luò)中的垃圾信息進行了分類。Wang[34]利用基于用戶粉絲和關(guān)注的有向圖特征以及Tweets內(nèi)容本身特征如重復(fù)Tweets、評論與@用戶(接受者評論/轉(zhuǎn)發(fā)特征)、URL和話題等四種特征對Twitter進行了垃圾信息檢測。Tan[35]抽取了網(wǎng)站評論信息中的垃圾內(nèi)容與URL之間的連接關(guān)系,并通過社交圖譜定義了垃圾信息散布者的節(jié)點特征、分享信息的URL和用戶鏈接圖譜的節(jié)點度、邊特征等在內(nèi)的九個相關(guān)特征,從而為垃圾信息的識別與過濾奠定了實現(xiàn)基礎(chǔ)。
綜上,通過對上述六類信息的可信度特征描述與分析,本文進一步將這六種不可信信息的特征指標(biāo)進行對比,形成的整個特征指標(biāo)體系如表4所示。
表中的對勾號(√)代表“存在”,比如第一個(√),表示在“極端突發(fā)事件信息”中存在著“傳播者影響力”特征。
表4 六類不可信信息的特征比較表
根據(jù)IC信息可信度模型以及信息可信特征指標(biāo)體系,如何建立基于特征的信息內(nèi)容可信度分析與評估模型則成為了關(guān)鍵。圖2顯示了網(wǎng)絡(luò)信息可信度分析的基本過程,即主要包括信息獲取、話題識別與跟蹤、特征抽取、可信度模型的建立與分析以及計算結(jié)果的評估。在此基礎(chǔ)上,本文從傳統(tǒng)的信息可信度基本模型、基于淺語義特征的可信度模型、基于媒體融合的深層語義理解研究以及其他相關(guān)模型[38]等方面來分別進行介紹。
Fogg[36]提出一個評判互聯(lián)網(wǎng)信息可信度過程的“關(guān)注—釋義”模型,該模型認(rèn)為人們對信息往往是先關(guān)注后釋義,即:當(dāng)評判在線信息的可信度時,人們首先會觀察到一些需要關(guān)注的信息要素,然后再對這些元素進行解釋和釋義。其中,有五個關(guān)鍵因素直接影響到了“關(guān)注”的程度:用戶的參與程度(即審查網(wǎng)頁內(nèi)容的動機或能力)、網(wǎng)站的話題(新聞或娛樂)、用戶的任務(wù)動機(尋找信息)、用戶的經(jīng)驗(新手或?qū)<?以及個體差異(認(rèn)知的需求、學(xué)習(xí)方式)。而在“釋義”階段,主要的影響因素包括用戶的期望假設(shè)(文化、過去經(jīng)歷等)、用戶能力與知識以及外部環(huán)境等因素。 Sunder[37]提出了由信息傳播的媒介、代理、交互性和可操縱性等四個要素組成的MAIN模型。其中,信息媒介的差異會采用不同的方式將信息傳播給不同的受眾;代理則表示媒介的具體代表;交互性反映了人們的信息交流方式,不同的互動方式所采用的啟發(fā)式評測規(guī)則也會存在差異;可操縱性反映了獲取信息的操作方式,例如,網(wǎng)站的層次結(jié)構(gòu)、大綱和超鏈接的設(shè)計會直接影響到人們獲取信息的難易程度。通過分析上述四個要素來獲取對信息質(zhì)量評估的啟發(fā)式判斷規(guī)則。
圖2 信息內(nèi)容可信度分析過程示意圖
高雅[38]在新聞信息可信度評測要素研究的基礎(chǔ)之上,結(jié)合微博的傳播學(xué)特征和社會網(wǎng)絡(luò)結(jié)構(gòu)特征,在多級信息分層傳播條件下,建立了一個微博新聞事件信息可信度模型,即一級傳播提供了對事件信息可信度分析的基準(zhǔn),而多級多次傳播則為信息可信度分析和度量提供了一個基于網(wǎng)絡(luò)節(jié)點特征以及傳播動力學(xué)特征的新視角,并利用因子分析法和層次分析法,采用主客觀相結(jié)合的方式來確定指標(biāo)體系的權(quán)重,實現(xiàn)了微博事件信息的可信度評判。郭國慶[39]在研究消費者在線評論可信度的影響時,在霍夫蘭德信息傳播模型的基礎(chǔ)上,從信源、信息內(nèi)容、接受者以及社會影響這四個角度對在線評論內(nèi)容的可信度進行研究,特別是將在線評論作為一個重要社會影響因素,提出了一個在線評論的可信度影響模型。Lucassell[40]利用信息語義(semantics)、表面特征(surface)和信息源(source)三者組成的3S模型來判斷信息的可信度,并展示了信任判斷的形成過程,通過實驗驗證了該模型具有較好的信息可信度識別率。
Wu[41]利用新浪微博官方公布的謠言庫建立了網(wǎng)絡(luò)信息可信度評估平臺(NICE),并用來評估社交媒體上未被檢驗可信性的信息可信度。該平臺首先從用戶特征、內(nèi)容特征、時間特征和評論特征四個方面對事件信息進行可信度表示(the credibility representation),事件可信度表示如式(2)所示。
(2)
隨后,利用常規(guī)的邏輯回歸分類算法將信息劃分為謠言信息和非謠言信息,如圖3所示?;谠撍悸罚琋ICE模型在評估信息可信度和檢測謠言方面具有了較好的性能。
圖3 NICE平臺整體結(jié)構(gòu)示意圖
Gupta[42]在對信息可信度特征進行抽取的基礎(chǔ)上,采用有監(jiān)督機器學(xué)習(xí)的RankSVM方法對微博信息進行可信度評分排序;同時,利用基于PageRank和事件圖相結(jié)合的算法來計算Twitter內(nèi)容的可信度,并獲得較高的準(zhǔn)確率[43]。Chang[44]則利用謠言特征所建立的五種結(jié)構(gòu)和時間特征規(guī)則來對Twitter中的政治謠言以及極端用戶進行識別和檢測。為了進一步檢測具有多信息來源的網(wǎng)絡(luò)信息內(nèi)容可信度,Pasternack[45]提出了一個LCA概率模型,該模型利用來自真實世界的兩個無監(jiān)督數(shù)據(jù)集和兩個半監(jiān)督的數(shù)據(jù)集,通過對內(nèi)容的語義擴展來獲取更有價值的可信度特征因素,并提高了可信度判別的準(zhǔn)確率。而Unankard[46]利用基于文本相似度和位置相關(guān)性聚類模型對Tweets的內(nèi)容進行聚類,從而獲取更多信用語義特征,用來對Twitter中所發(fā)生的事件的信用特征進行評估。而Kyoto大學(xué)研發(fā)的基于聚類模型的WISDOM[47]信息可信度綜合評估系統(tǒng),則通過對搜索引擎搜索結(jié)果中的一個或多個特征屬性進行內(nèi)容聚類,如按照信息發(fā)送者、主要觀點和對立觀點等方面進行聚類,為用戶提供了多個角度的信息可信度評價。
深度學(xué)習(xí)技術(shù)快速發(fā)展,使得人們從信息內(nèi)容表層淺顯語義研究過渡到了深層語義理解問題的研究上。例如,由于網(wǎng)絡(luò)偏激信息中存在一部分夸大的言論或者是貶低的事實,而另一部分信息往往是可信的,從簡單的淺層語義特征無法對該類信息做出準(zhǔn)確的判斷與識別,這就需要進一步采用深層語義理解以提高對偏激信息可信度的識別準(zhǔn)確率。而Takahashi抽取了謠言內(nèi)容的日期、地點、人物和組織等信息特征,并對這些特征信息進行過濾,實現(xiàn)謠言檢測,利用淺層特征對謠言的識別率僅維持在34%左右。而Hamidian[27]加入了深層語義特征后,利用謠言內(nèi)容的時間、標(biāo)簽、URL、轉(zhuǎn)發(fā)等Twitter信息以及特定網(wǎng)絡(luò)特征和內(nèi)容的一元模型、二元模型等語法特征信息,首次利用了100維的Twitter潛在向量(TLV)的語義特征進行謠言檢測,使得謠言的識別精確率提高到了97.2%。
另一方面,網(wǎng)絡(luò)中的信息越來越呈現(xiàn)出多媒體融合的新特征,大量的圖片、視頻和音頻等多媒體信息與本文信息相互結(jié)合且相互影響,通過不同媒體信息的可信特征的抽取與識別,以及語義特征的補充,例如,網(wǎng)絡(luò)中常說到的“有圖有真相”,就是將圖片中的可信特征與文本的可信特征進行了結(jié)合,提高了內(nèi)容可信度的識別準(zhǔn)確率,但同時也增加了計算處理的復(fù)雜程度。其中,如何對信息中存在的多媒體內(nèi)容的真實性與可信性進行度量,以及多媒體信息內(nèi)容與文本內(nèi)容之間的可信度特征的融合策略等方面仍然存在著關(guān)鍵性的挑戰(zhàn)。
通過對信息可信度特征的抽取與信息可信度建模,可以對信息內(nèi)容可信度進行計算和測量,但是如何評價測量結(jié)果的質(zhì)量好壞與有效性,則是一個關(guān)鍵。一般地,可信度測量評價分為可信度的客觀評測和用戶感知評測兩方面,其中,客觀評測是指通過常規(guī)量化的客觀指標(biāo)評測信息內(nèi)容的可信度,這些指標(biāo)包括真正率(TP-Rate)、真負(fù)率(TN-Rate)、假正率(FP-Rate)、假負(fù)率(FN-Rate)、準(zhǔn)確率(Accuracy Rate)、精確率(Precision Rate)、召回率(Recall Rate)和F1度量(F1-measure)等。而用戶感知測評主要是從用戶自身感受的角度所形成的Checklist標(biāo)準(zhǔn),其中包括時效性、權(quán)威性、客觀性、準(zhǔn)確性以及信息覆蓋范圍等。這兩個方面從不同的側(cè)面和角度對信息內(nèi)容的可信度進行了評測。此外,本文還對在線信息內(nèi)容可信度的實時性測評以及基于實證的測評方法進行了介紹。
內(nèi)容可信度的客觀評測主要通過常規(guī)量化的客觀指標(biāo)進行評測。Castillo[13]對文本特征子集、用戶特征子集、傳播特征子集和最常見特征子集等四個特征子集從真正率、假正率、精確率、召回率和F1度量等客觀指標(biāo)進行內(nèi)容可信度評估。Hardalov[1]利用信息內(nèi)容的語法、內(nèi)容和語義等特征,在三種不同的數(shù)據(jù)集上驗證虛假信息檢測的準(zhǔn)確率,并在此基礎(chǔ)上對信息可信度進行評測,結(jié)果表明語法特征比內(nèi)容特征的評價準(zhǔn)確率更高,而基于語義特征的評價準(zhǔn)確率最高。Zhang[48]使用精確率作為唯一客觀評估指標(biāo),利用GPPooled Brown、GPPooled Bow和Majority三種方法對Tweets的內(nèi)容進行了謠言檢測,發(fā)現(xiàn)GPPooled Bow法的精確度明顯高于其他兩種算法。Liu[29]利用準(zhǔn)確率從Tweets數(shù)量和時間上對文中提到的四種方法進行了評估,發(fā)現(xiàn)特定的算法組合將會在數(shù)量和時間上獲得最佳的準(zhǔn)確度。
客觀指標(biāo)是從內(nèi)容的基本物理特征出發(fā),來研究信息內(nèi)容的可信度,缺少用戶主體自身對信息可信度的感受。因此,美國圖書館協(xié)會(ALA)主導(dǎo)的可信度評測系統(tǒng)則從信息的權(quán)威性、時效性、客觀性、公開性、準(zhǔn)確性以及信息覆蓋范圍等標(biāo)準(zhǔn),并采用Checklist方法來對網(wǎng)站信息的質(zhì)量進行自動評估。Gupta[2]在基于半監(jiān)督排序模型的基礎(chǔ)上,開發(fā)了一個實時可信度評分的瀏覽器插件TweetCred,它可以利用用戶打分和用戶問卷調(diào)查兩種反饋方式獲取用戶對信息的主觀評價,并實現(xiàn)對信息內(nèi)容可信度質(zhì)量的度量。Rieh[49]認(rèn)為信息內(nèi)容的可信度不是一個離散的評估事件,而是一個持續(xù)不斷的迭代過程,因此,通過主觀判斷來實現(xiàn)信息的真實性、可靠性、準(zhǔn)確性和完整性的分類,以及信息可信度與信息質(zhì)量的評價,這也是一個動態(tài)的過程。綜上,本文根據(jù)相關(guān)文獻[50]總結(jié)出與用戶感知評測相關(guān)的指標(biāo),如表5所示。
表5 信息可信度用戶感知指標(biāo)
在線網(wǎng)絡(luò)信息往往具有極強的時效性特征,特別是為了消除由于大量不準(zhǔn)確或者虛假信息的廣泛傳播,對社交網(wǎng)絡(luò)以及社會和諧所造成的危害與負(fù)面的影響,如何對信息內(nèi)容可信度進行實時的分析與檢測也成為了目前的研究關(guān)鍵與挑戰(zhàn)之一。傳統(tǒng)的謠言檢測方法一般是對每條Tweet內(nèi)容進行可信度分析,但大多數(shù)情況下我們僅記得某個事件的關(guān)鍵字,很難完整地描述一條Tweet所敘述的事件。Gupta[2]利用開發(fā)的TweetCred插件,對540萬條Tweets信息的可信度進行計算,實驗結(jié)果顯示,82%的用戶檢測到系統(tǒng)中存在的不良信息,所需要的響應(yīng)時間為6秒,99%的用戶檢測到不良信息的響應(yīng)時間控制在10秒以內(nèi),從而保證了實時的可信度評分。Zhao[51]利用BOSTON數(shù)據(jù)集進行謠言檢測,利用改進算法來進行謠言檢測,其中檢測出46個謠言所使用的時間為4.3小時,而利用主題趨勢算法檢測出71個謠言的平均時間為3.6小時,利用標(biāo)簽追蹤算法檢測35個謠言所需要的時間為2.8小時。由于信息傳播過程的復(fù)雜性與信息特征的差異性,面對海量的在線信息,在實時檢測的基礎(chǔ)上,提高信息可信度識別的準(zhǔn)確率,仍然是未來研究的熱點之一。
實證研究能夠為網(wǎng)絡(luò)傳播中的信息在可信度檢測方面提供有效的佐證,并通過問卷調(diào)查來獲得信息可靠性與可信性的評判依據(jù)。目前,信息可信度的實證研究主要是針對特定的熱點事件,而網(wǎng)絡(luò)中不同類型的信息可信度的實證研究并沒有形成通用方法或架構(gòu),如湯志偉[19]選取了汶川大地震作為網(wǎng)絡(luò)公共危機案例,采用實證方法研究信息的可信度問題。結(jié)果顯示,網(wǎng)民對政府與傳統(tǒng)媒體所發(fā)布的信息的可信度評價顯著高于普通網(wǎng)民發(fā)布的信息,而對網(wǎng)絡(luò)新聞的可信度要高于論壇信息和即時通信工具所傳播的信息。此外,網(wǎng)民在公共危機時對網(wǎng)絡(luò)信息的可信度評價與其所具有的網(wǎng)絡(luò)經(jīng)驗、信任傾向顯著相關(guān),但與性別、年齡等因素不存在明顯相關(guān)性。
本文針對目前網(wǎng)絡(luò)傳播信息內(nèi)容的可信度研究進行了分析與綜述。首先,通過對信息特征的梳理,將信息分為可信信息與不可信信息,且不可信信息根據(jù)可信的程度又進一步分為:極端突發(fā)事件信息、網(wǎng)絡(luò)偏激信息、網(wǎng)絡(luò)謠言、虛假信息、誤報信息和垃圾信息等六種類型,并結(jié)合信息在網(wǎng)絡(luò)中的傳播特點與要素從內(nèi)容、話題、媒介、傳播者和接受者等維度對不同類型的信息進行了特征描述與定義。其次,從信息內(nèi)容與信息傳播等淺層語義特征、基于多媒體的信息融合以及深層語義理解等角度,對信息的可信度建模工作進行了梳理與歸納總結(jié)。在此基礎(chǔ)上,本文對信息內(nèi)容可信度的評價方法進行了分析,并通過從客觀評測、用戶感知評測、信息實時性和實證評價等多個方面對信息可信度的評測標(biāo)準(zhǔn)與方法進行了分析與介紹。
此外,本文針對網(wǎng)絡(luò)傳播信息可信度分析過程中存在的關(guān)鍵技術(shù)與挑戰(zhàn)也進行了介紹和分析,特別是在目前社交網(wǎng)絡(luò)正在呈現(xiàn)出海量實時交互條件下的跨語言、跨媒介以及跨媒體的新特征,也為網(wǎng)絡(luò)傳播的信息的可信度識別帶來了前所未有的新挑戰(zhàn)。例如,當(dāng)考慮到來自新聞、微博、微信、論壇等不同類型的跨媒介信息交叉擴散傳播的過程中,由于信息產(chǎn)生的來源、環(huán)境、傳播者、接受者、媒介等要素都發(fā)生了不同程度的變化,從而導(dǎo)致了原有的單網(wǎng)絡(luò)媒介信息傳播過程中的信息可信度研究方法無法應(yīng)用于跨媒介情況,因此,需要創(chuàng)建一些全新的跨域條件下的網(wǎng)絡(luò)傳播信息可信度的分析與建模方法與策略。同樣,當(dāng)考慮到多語言信息之間的關(guān)聯(lián)、自動翻譯與聚類跟蹤,以及多媒體條件下的語義映射,都為信息可信度的分析提出了更高的要求與挑戰(zhàn)。解決這些問題,不僅需要通過知識圖譜與知識推理,同時也需要對信息的傳播動力學(xué)機制進行深入研究,在此基礎(chǔ)上,結(jié)合目前的深度學(xué)習(xí)以及強化學(xué)習(xí)的策略,逐步尋找到一個更好的信息可信度的識別與分析方法,而這些工作與挑戰(zhàn)也不斷激勵著人們向更高的研究目標(biāo)前進。
[1]Hardalov M,Koychev I,Nakov P.In search of credible news[C]//Proceedings of the AIMSA 2016,Springer,LNAI9883,2016:172-180.
[2]Howell L.Digital wildfires in a hyperconnected world [R/OL].http://reports.wetorum.org/global-risks-2013/risk-case-11digital-wildfires-in-a-hyper connected-world1,2013.
[3]Gupta A,Kumaraguru P,Castillo C,et al.TweetCred:Real time credibility assessment of content on Twitter[C]//Proceedings of the SocInfo 2014,2014:228-243.
[4]中國災(zāi)害防御協(xié)會.中華人民共和國突發(fā)事件應(yīng)對法[2007][G].中國突發(fā)公共事件防范與快速處置2008優(yōu)秀成果選編.2008.
[5]Ratkiewicz J,Conover M,Meiss M,et al.Detecting and tracking the spread of astroturf memes in microblog streams[J].Computer Science,2010:249-252.
[6]Karlova N A,Lee J H.Notes from the underground city of disinformation:A conceptual investigation[C]//Proceedings of the ASIST 2011,2011,48(1):1-9.
[7]West M D.Validating a Scale for the measurement of credibility:A covariance structure modeling approach[J].Joumalism Quarterly,1994,71(1):159-168.
[8]Tseng S,Fogg B J.Credibility and computing technology[J].Communications of the ACM,1999,42(5):39-44.
[9]周東浩,韓文報,王勇軍.基于節(jié)點和信息特征的社會網(wǎng)絡(luò)信息傳播模型[J].計算機研究與發(fā)展,2015,52(1):156-166.
[10]Metzger M J.Making sense of credibility on the web:Models for evaluating online information and recommendations for future research[J].Journal of the American Society for Information Science and Technology,2007,58(13):2078-2091.
[11]方濱興,賈焰,韓毅.社交網(wǎng)絡(luò)分析核心科學(xué)問題、研究現(xiàn)狀及未來展望[J].中國科學(xué)院院刊,2015,30(2):187-199.
[12]Miyamori H,Akamine S,Kato Y,et al.Evaluation data and prototype system WISDOM for information credibility analysis[J].Internet Research,2008,18(2):155-164.
[13]Castillo C,Mendoza M,Poblete B.Information credibility on Twitter[C]//Proceedings of the 20th international conference on World wide web.ACM,2011:675-684.
[14]J O’Donovan,B Kang,G.Hllerer,et al.Credibility in context:An analysis of feature distribution in Twitter[J]Prjuacn,Searity,Risk & Trust,2013,545(3):293-301.
[15]Metzger M J,Andrew J F.Credibility and trust of information in online environments:The use of cognitive heuristics[J].Journal of Pragmatics,2013,59(112):210-220.
[16]J H Lipschultz,Social Media Trust,Credibility and Reputation Management [EB/OL],https://www.huffingtonpost.com/jeremy-harris-lipschultz/soliul-media-trust-credib_b_3858017.html,2013.
[17]Castillo C,Mendoza M,Poblete B.Predicting information credibility in time-sensitive social media(+supplementary material).Internet Research[J].2013,23(5):560-588.
[18]徐靜,楊小平,柳增.基于內(nèi)容信任的Web信息可信度驗證方法研究[J].北京理工大學(xué)學(xué)報,2014,34(7):710-715.
[19]湯志偉,彭志華,張會平.網(wǎng)絡(luò)公共危機信息可信度的實證研究——以汶川地震為例[J].情報雜志,2010,29(2):45-49.
[20]Thomson R,Ito N,Suda H,et al.Trusting tweets:The Fukushima disaster and information source credibility on Twitter[C]//Proceedings of the 9th International ISCRAM Conference,2012:1-10.
[21]Mendoza M,Poblete B,Castillo C.Twitter under crisis:Can we trust what we RT?[C]//Proceedings of the 1st Workshop on Social Media Analytics.ACM Press,2010:71-79.
[22]薛傳業(yè),夏志杰,張志花,等.突發(fā)事件中社交媒體信息可信度研究[J].現(xiàn)代情報,2015,35(4):12-16.
[23]Lewandowsky S,Ecker U K,Seifert C M,et al.Misinformation and its correction continued influence and successful debiasing[J].Psychol Sci Public Interest,2012,13(3):106-131.
[24]Peterson W A,Gist N P.Rumor and public opinion[J].American Journal of Sociology,1951,57(2):159-167.
[25]Turner R H, Kapferer J N, Fink B.Rumors:Uses,Interpretations and Images[J].Contemporary Sociology,,1990,20(5):794.
[26]Bessi A,Coletto M,Davidescu G A,et al.Science Vs.conspiracy:Collective narratives in the age of Misinformation [J].Plos One,2015,10(2):1-17.
[27]Hamidian S,Diab M T.Rumor identification and belief investigation on Twitter[C]//Proceedings of the 7th WASSA,2016:3-8.
[28]Yang F,Liu Y,Yu X,et al.Automatic detection of rumor on Sina Weibo[C]//Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics.ACM,2012:13.
[29]Liu X,Nourbakhsh A,Li Q,et al.Real-time rumor debunking on Twitter[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management.ACM,2015:1867-1870.
[30]Fallis D.A conceptual analysis of disinformation[C]//Proceedings of the 4th Amual iConference,2009.
[31]Kumar K P K,Geethakumari G.Detecting misinformation in online social networks using cognitive psychology[J].Human-centric Computing and Information Sciences,2014,4(1):1.
[32]Karlova N A,Fisher K E.Plz RT:A social diffusion model of misinformation and disinformation for understanding human information behaviour[J].Inform Research,2013,18(1):1-17.
[33]DeNeys W,Cromheeke S,Osman M(2011)Biased but in doubt:Conflict and decision condence[J].Plos One 6(1):e15954.
[34]Wang A H.Don’t follow me:Spam detection in Twitter[C]//Proceedings of the 2010 International Conference on Security and Cryptography.IEEE,2010:1-10.
[35]Tan E,Guo L,Chen S,et al.Unik:Unsupervised social network spam detection[C]//Proceedings of the 22 nd ACM internulind conference on information & knowle dge management 2013:479-488.
[36]Fogg B J.Prominence-interpretation theory:Explaining how people assess credibility online[C]//Proceedings of the ACM Chi Lauderdle Florida Usa ACM,2003 722-723.
[37]Sundar S S.Technology and credibility:Cognitive heuristics cued by modality,agency,interactivity and navigability[J].Digital Media,Youth,and Credibility.MacArthur Foundation Series on Digital Media and Learning,2007:73-100.
[38]高雅.微博新聞事件信息可信度評價[D].吉林:吉林大學(xué)碩士學(xué)位論文,2013.
[39]郭國慶,陳訊,何飛.消費者在線評論可信度的影響因素研巧[J],當(dāng)代經(jīng)濟管理,2010(10):17-23.
[40]Lucassen T,Schraagen J M.Factual accuracy and trust in information:The role of expertise[J].Journal of the Association for Information Science and Technology,2011,62(7):1232-1242.
[41]Wu S,Liu Q,Liu Y,et al.Information credibility evaluation on social media[C]//Proceedings of the 13th AAAI Conference on Artificial Intelligence,2016.
[42]Gupta A,Kumaraguru P.Credibility ranking of Tweets during high impact events[C]//Proceedings of the 1st workshop on Privacy and security in Onlire Social Media.2012:2-8.
[43]Gupta M,Zhao P,Han J.Evaluating Event Credibility on Twitter[C]//Proceedings of the 2012 SIAG/DM,2012:153-164.
[44]Chang C,Zhang Y,Szabo C,et al.Extreme user and political rumor detection on Twitter[C]//Proceedings of the Advanced Data Mining and Applications.Springer International Publishing,2016:751-763.
[45]Pasternack J,Dan R.Latent credibility analysis[C]//Proceedings of the International Conference on World Wide Web.2013:1009-1020.
[46]Unankard S.,Li X,Sharaf M A.Emerging event detection in social networks with location sensitivity[J].World Wide Web-internet & Web Information Systems,2015,18(5):1393-1417.
[47]Akamine S,Kawahara D,Kato Y,et al.WISDOM:A web information credibility analysis system[C]//Proceedings of the ACL-IJCNLP 2009 Software Demonstrations.Association for Computational Linguistics,2009:1-4.
[48]Zhang Y,Szabo C,Sheng Q Z,et al.Classifying perspectives on twitter:immediate observation,affection,and speculation[C]//Proceedings of the 16th International Conference on Web Information Systems Engineering,Part I,493-507.
[49]Rieh S Y.Credibility and cognitive authority of information[N].Bates M Maack M N.Encyclopedia of library and information sciences:3rd ed.New York:Taylor and Francis Group,LLC,2010:1137-1344.
[50]馮曉碩.[C].全國計算機信息管理學(xué)術(shù)研討會,2013.
[51]Zhao Z,Resnick P,Mei Q.Enquiring minds:Early detection of rumors in social media from enquiry posts[C]//Proceedings of the 24th International Conference on World Wide Web.ACM,2015:1395-1405.
吳連偉(1992—),博士研究生,主要研究領(lǐng)域為自然語言處理、信息可信度識別與分析。E-mail:wlianwei@qq.com
饒元(1973—),博士生導(dǎo)師,主要研究領(lǐng)域為社會智能與復(fù)雜數(shù)據(jù)處理。E-mail:yuanrao@163.com
樊笑冰(1993—),碩士研究生,主要研究領(lǐng)域為自然語言處理、可信信息傳播動力學(xué)機制研究。E-mail:fanxiaobing212@outlook.com