馬昊 馬曉悅
摘?要:[目的/意義]現(xiàn)有新媒體事件的聚類研究聚焦于事件的單一維度屬性,并未考慮事件傳播的網(wǎng)絡(luò)結(jié)構(gòu)特征和文本分布特征。[方法/過程]本研究基于信息熵的相關(guān)概念,提出基于網(wǎng)絡(luò)結(jié)構(gòu)熵與內(nèi)容分布熵的事件聚類模型。模型在表征事件網(wǎng)絡(luò)結(jié)構(gòu)特征、內(nèi)容分布特征的基礎(chǔ)上完成跨內(nèi)容事件相似度對比,并使用圖表示學(xué)習(xí)算法與k-means聚類算法對事件進(jìn)行分析與聚類。本文選取113例微博事件作為實驗對象,并使用事件基本屬性(點贊、評論、轉(zhuǎn)發(fā)等)作為聚類對照實驗組。[結(jié)論/發(fā)現(xiàn)]實驗結(jié)果分析表明,本研究提出的模型能夠捕捉到新媒體事件更深層次的傳播、分布特征,能夠?qū)ΜF(xiàn)有相似度計算指標(biāo)進(jìn)行完善與補充。[創(chuàng)新/價值]本研究不僅能夠從多維度層次提取事件的傳播特征,即事件網(wǎng)絡(luò)結(jié)構(gòu)特征和內(nèi)容分布特征,還能夠為輿情預(yù)測、管控提供支持,通過熵維度的信息變化監(jiān)測不同事件之間的傳播共性,輔助后續(xù)輿情事件的預(yù)測與監(jiān)管。
關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu);內(nèi)容分布;新媒體事件;微博傳播;網(wǎng)絡(luò)結(jié)構(gòu)熵;信息分布熵;事件聚類;圖表示學(xué)習(xí)
DOI:10.3969/j.issn.1008-0821.2021.02.004
〔中圖分類號〕G206?〔文獻(xiàn)標(biāo)識碼〕A?〔文章編號〕1008-0821(2021)02-0030-12
Abstract:[Purpose/Significance]The existing clustering research of new media events focuses on the single-dimensional attributes of events,and does not consider the network structure characteristics and text distribution characteristics of event propagation.[Method/Process]This research was inspired by the concept of information entropy,and proposed an event clustering model based on network structure entropy and content distribution entropy.The model completed cross-content event similarity comparison on the basis of characterizing event network structure characteristics and content distribution characteristics,then Network Representation Learning algorithm and k-means clustering algorithm cluster the events.This paper selected 113 microblog events as the experimental objects,and used the basic attributes of the events(likes,comments,reposts,etc.)as the cluster control experimental group.[Results/Conclusion]The analysis of the experimental results showed that the model proposed in this study could capture the deeper communication and distribution characteristics of new media events.At the same time,it could improve and supplement existing similarity calculation indicators.[Originality/Value]This research can not only extract the propagation characteristics of the event from multi-dimensional levels,that is,the characteristics of the event network structure and the distribution of event content.Also it can provide support for public opinion prediction and control.The model can also monitor the communication commonality between different events through the entropy dimension of information changes to assist subsequent reflection on public opinion events.
Key words:network structure entropy;information distribution entropy;event clustering;network representation learning;network structure;content distribution;new media events;microblog;communication
信息技術(shù)和自媒體行業(yè)的飛速發(fā)展使得互聯(lián)網(wǎng)行業(yè)中用戶創(chuàng)造內(nèi)容的數(shù)量呈現(xiàn)指數(shù)級增長[1]。在海量用戶生產(chǎn)數(shù)據(jù)的背景下,信息的自動聚類與分類成為研究焦點[2-3]。具體到新媒體環(huán)境中,由用戶生成信息所構(gòu)成的新媒體事件聚類與分類是新媒體輿情管理與檢測的一項重點研究[4-5]。如何精確地度量事件之間的相似度、對事件進(jìn)行聚類分析和分類成為組織和使用輿情信息的先決條件與研究熱點。
現(xiàn)有聚類研究局限于新媒體事件的文本內(nèi)容,導(dǎo)致相關(guān)計算指標(biāo)存在一定的局限性。學(xué)術(shù)界目前對于事件聚類亦或表征事件的文本聚類多關(guān)注于信息的特征提取,如早期的詞袋模型[6]及后續(xù)對詞語進(jìn)行加權(quán)的TF-IDF模型[7-8],并針對研究內(nèi)容展開了多個領(lǐng)域的探索,如網(wǎng)絡(luò)短文本聚類[9]、新聞文本聚類[10]等。而新媒體事件是以新媒體為載體的網(wǎng)絡(luò)熱點事件,具有兩大特征:雙向傳遞與用戶創(chuàng)造內(nèi)容。雙向傳遞即意味著用戶既可作為信息的接收者亦可成為信息的生產(chǎn)者;用戶創(chuàng)造內(nèi)容則指事件中傳遞的信息大多由用戶創(chuàng)造[11]。而這種傳播特點的深層邏輯是用戶對于某一話題的支持與關(guān)注。之前的研究也表明,用戶在新媒體事件傳播中形成的傳播網(wǎng)絡(luò)及網(wǎng)絡(luò)中的文本代表著用戶的喜好、影響力[12]、事件觀點等屬性[13]。這使得用戶創(chuàng)造內(nèi)容與用戶在事件之間形成的傳播網(wǎng)絡(luò)成為新媒體事件傳播的重要構(gòu)成部分[14]。且現(xiàn)有方法并未將事件的網(wǎng)絡(luò)結(jié)構(gòu)與事件的內(nèi)容分布結(jié)合考慮,現(xiàn)存指標(biāo)也并未對跨領(lǐng)域、跨內(nèi)容事件的相似度進(jìn)行計算。
基于此,本文提出綜合考慮網(wǎng)絡(luò)結(jié)構(gòu)與內(nèi)容分布的信息熵相似度度量模型,用于新媒體事件的類別計算。模型能夠從事件傳播的網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容分布對事件特征進(jìn)行提取,同時基于熵的概念構(gòu)建相似度計算指標(biāo)以完成跨事件對比。最后本文使用基于NRL(Network Representation Learning,圖表示學(xué)習(xí))和k-means的聚類方法將傳統(tǒng)指標(biāo)與本文構(gòu)建指標(biāo)在事件聚類層面的差異進(jìn)行對比,結(jié)果證明,本文指標(biāo)能夠考慮事件在傳播過程中網(wǎng)絡(luò)結(jié)構(gòu)和文本分布等深層特征,完善和補充傳統(tǒng)指標(biāo)對相似度的計算和聚類的劃分。
1?相關(guān)研究
本研究模型旨在對新媒體事件的網(wǎng)絡(luò)結(jié)構(gòu)特征及文本分布特征進(jìn)行量化表征?;诒疚哪P徒Y(jié)構(gòu),目前國內(nèi)外關(guān)于新媒體事件相似度計算、事件聚類的相關(guān)研究可分為兩大類別:一是基于圖論或者復(fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)相似度研究;二是基于新媒體短文本內(nèi)容的內(nèi)容特征相似度研究。
1.1?新媒體環(huán)境中事件網(wǎng)絡(luò)特征相似度研究
新媒體環(huán)境中網(wǎng)絡(luò)結(jié)構(gòu)相似度研究根據(jù)其最終的研究對象分為兩類。首先是網(wǎng)絡(luò)中節(jié)點的相似性研究,其次是網(wǎng)絡(luò)整體結(jié)構(gòu)相似性研究。
網(wǎng)絡(luò)節(jié)點相似性研究主要將用戶等研究對象作為社交網(wǎng)絡(luò)節(jié)點,研究其在網(wǎng)絡(luò)中的相似度。Celik M等在其研究中提出了一種根據(jù)用戶在新媒體社交中訪問站點的社交重要性來對用戶間相似性進(jìn)行量化的方法。該方法使用用戶經(jīng)常訪問具有重要社交價值的站點對用戶進(jìn)行網(wǎng)絡(luò)特征表示,使用編輯距離(Levenshtein距離)實現(xiàn)用戶之間相似度的量化[15]。Zhou X等提出了FRUI-P模型以識別跨平臺匿名用戶。將社交網(wǎng)絡(luò)中各用戶的朋友特征提取至朋友特征向量中。最后,開發(fā)了一對一的映射方案,以基于相似性來識別用戶[16]。
網(wǎng)絡(luò)整體相似性研究是將新媒體事件傳播網(wǎng)絡(luò)看作整體,度量網(wǎng)絡(luò)整體相似性以達(dá)成相應(yīng)的研究目標(biāo)。Jiang L等構(gòu)造了一種將醫(yī)療保健社交媒體數(shù)據(jù)表示為異構(gòu)醫(yī)療保健信息網(wǎng)絡(luò)的方法。該方法從局部(直接連接)和全局(間接連接)結(jié)構(gòu)出發(fā)度量網(wǎng)絡(luò)相似性,以此實現(xiàn)相似醫(yī)療保健用戶發(fā)現(xiàn)和推薦。其研究結(jié)果表明,基于結(jié)構(gòu)的相似性方法相較于基于內(nèi)容的方法在準(zhǔn)確度與效率方面具有更好的性能[17]。此外,Li Y等基于不同社交網(wǎng)絡(luò)中友誼網(wǎng)絡(luò)的相似性,提出了跨網(wǎng)絡(luò)的用戶識別與發(fā)現(xiàn)方法[18]。田世海等使用事件間共現(xiàn)作為新媒體事件之間的關(guān)系鏈接構(gòu)建輿情事件復(fù)雜網(wǎng)絡(luò),以此計算事件相似度并完成輿情事件的聚類分析[19]。
1.2?新媒體環(huán)境中事件內(nèi)容特征相似度研究
新媒體環(huán)境中內(nèi)容相似度研究主要針對短文本內(nèi)容的相似度,根據(jù)研究方法可分為兩類,首先是基于單詞的短文本相似度計算方法,其次是基于語義的短文本相似度計算方法。
基于單詞的短文本相似度計算將單詞作為最小分析單位,對應(yīng)的將短文本視為單詞的組合。因此在這類方法中,短文本的相似度即為組成該短文本的單詞對相似度。此類方法又可分為基于知識的相似度計算和基于語料的相似度計算?;谥R的相似度計算依賴于人工認(rèn)知對詞組間關(guān)系的標(biāo)記。其中典型案例為WordNet[20],一種基于認(rèn)知語言學(xué)組成的語義網(wǎng)絡(luò)。Lee J C等將單詞在WordNet中的最短路徑長度作為相似度計算指標(biāo)[21]。也有學(xué)者將詞嵌入模型與WordNet模型相結(jié)合以構(gòu)建新的相似度計算方法[22]?;陬A(yù)料的相似度則將單詞嵌入具體的預(yù)料之中,根據(jù)單詞在當(dāng)前預(yù)料中的分布特征對單詞間相似度進(jìn)行計算。其中最具代表性的方法是詞移動距離[23]。即在當(dāng)前語料組成的空間中,一個單詞從其位置移動到另一個單詞所在位置之間的距離作為其詞移動距離,以對單詞間相似度進(jìn)行表征。
基于語義的短文本相似度計算將文本中詞語分布的真實含義考慮在內(nèi)。其中最為經(jīng)典的方法為LSA系列模型[24]。模型假設(shè)單詞語義及其理解可從其在語料中的分布得出,即具有相似上下文的詞語具有相同的語義。在此基礎(chǔ)上,Hofmann T提出了基于LSA的概率潛在語義分析模型(PLSA),從概率視角對文本建模[25]。Blei D M等則提出了潛在的狄利克雷分布(LDA),為PLSA添加了貝葉斯框架,并使用單詞和文本之間的概率分布來表達(dá)文本含義[26]。也有研究人員試圖將短文本編碼為機器與用戶易為理解的形式,并在此基礎(chǔ)上進(jìn)行相似度計算。ESA(Explicit Semantic Analysis)模型是其中的經(jīng)典模型。Gabrilovich E等將維基百科作為文本的概念空間,將短文本表示為帶有權(quán)重的維基百科空間向量,后續(xù)的相似度計算則回歸為空間向量相似度計算[27]。
1.3?現(xiàn)存問題及研究目標(biāo)
新媒體事件的相關(guān)聚類研究較少,且研究內(nèi)容多局限于特定的指標(biāo)與屬性,并未從新媒體事件的傳播內(nèi)容特征及其傳播網(wǎng)絡(luò)特征視角出發(fā)進(jìn)行綜合探究。傳統(tǒng)的事件相似度度量手段無法準(zhǔn)確地表征新媒體事件的多維度特征,且缺少跨內(nèi)容領(lǐng)域的相似度指標(biāo)。
本研究創(chuàng)新點如下:首先,從網(wǎng)絡(luò)結(jié)構(gòu)維度與內(nèi)容分布維度出發(fā)捕捉新媒體事件特征。具體來說,本研究從復(fù)雜網(wǎng)絡(luò)角度出發(fā),根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)熵的概念構(gòu)建了新媒體事件在傳播網(wǎng)絡(luò)的特征屬性。從新媒體事件內(nèi)容相似度出發(fā),基于傳播網(wǎng)絡(luò)對新媒體事件文本內(nèi)容分布網(wǎng)絡(luò)進(jìn)行重構(gòu),并延續(xù)網(wǎng)絡(luò)結(jié)構(gòu)熵的概念構(gòu)建了內(nèi)容分布熵以表征新媒體事件內(nèi)容特征屬性。
其次,本研究從熵的角度出發(fā),將事件相似度對比映射至熵維度,在保留事件內(nèi)容分布屬性的基礎(chǔ)上,實現(xiàn)了跨內(nèi)容領(lǐng)域的不同事件相似度對比。研究將事件特征分為網(wǎng)絡(luò)結(jié)構(gòu)與文本分布兩大維度,二者從局部細(xì)粒度和整體粗粒度表征事件特征。具體而言,局部細(xì)粒度將網(wǎng)絡(luò)結(jié)構(gòu)與文本分布視為概率分布,求取局部屬性對全局屬性的代表性,以此來表征事件內(nèi)容的混亂程度,即熵;全局粗粒度則是對局部細(xì)粒度的補充,將事件規(guī)模屬性納入研究范圍。由于熵自身特征及其對文本分布的網(wǎng)絡(luò)重構(gòu),本研究能夠?qū)⒉煌I(lǐng)域事件映射至熵維度進(jìn)行對比。
最后,根據(jù)本研究提出的相似度計算方法,使用NRL(Network Representation Learning,圖表示學(xué)習(xí))和k-means算法對事件進(jìn)行聚類分析,并使用事件基礎(chǔ)屬性設(shè)置對照組進(jìn)行對比。
2?基于網(wǎng)絡(luò)與內(nèi)容結(jié)構(gòu)熵的事件相似度度量模型
本模型旨在將新媒體環(huán)境中內(nèi)容數(shù)據(jù)與聯(lián)系數(shù)據(jù)抽象為多維度復(fù)雜網(wǎng)絡(luò),并使用基于復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)熵、基于內(nèi)容分布結(jié)構(gòu)熵的模型對其進(jìn)行相似度計算,模型組成與流程示意如圖1所示。
從事件內(nèi)容數(shù)據(jù)與聯(lián)系數(shù)據(jù)的特征維度出發(fā),模型可分為兩部分:基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度度量和基于內(nèi)容分布熵的相似度度量。前者度量新媒體環(huán)境下事件傳播形成的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似度,后者度量新媒體環(huán)境下事件傳播中內(nèi)容變化(即內(nèi)容熵)的相似度。
基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度可從網(wǎng)絡(luò)結(jié)構(gòu)自身的復(fù)雜度(NND,Network Node Dispersion,網(wǎng)絡(luò)節(jié)點離散度)及兩個網(wǎng)絡(luò)之間的結(jié)構(gòu)相似度(EMD,Earth Mover's Distance,陸地移動距離,也叫第一Wasserstein距離)對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似性進(jìn)行量化表征;基于內(nèi)容分布的結(jié)構(gòu)熵與之類似,本文使用Bert模型基于內(nèi)容相似度對事件傳播網(wǎng)絡(luò)進(jìn)行重構(gòu)——生成“內(nèi)容分布網(wǎng)絡(luò)”,并在該網(wǎng)絡(luò)上度量NND與EMD指標(biāo)。
本文提出的模型能夠從網(wǎng)絡(luò)結(jié)構(gòu)與內(nèi)容分布結(jié)構(gòu)兩個維度,研究對象自身復(fù)雜度與對象之間相似度兩個指標(biāo)對于新媒體網(wǎng)絡(luò)事件進(jìn)行相似度計算。
在實例驗證階段,本文對采集的微博事件進(jìn)行相似度度量后形成事件距離矩陣,其次對其進(jìn)行基于圖表示學(xué)習(xí)聚類分析,使用事件原有屬性作為聚類對照組。結(jié)果表明,本模型能夠從內(nèi)容數(shù)據(jù)與網(wǎng)絡(luò)聯(lián)系兩個層面對事件的特征進(jìn)行捕捉,能夠?qū)鹘y(tǒng)事件相似度度量方法指標(biāo)進(jìn)行補充與完善。
2.1?基于熵的相似度度量
新媒體網(wǎng)絡(luò)事件在傳播過程中體現(xiàn)出“多個重要傳播節(jié)點引導(dǎo),大量普通節(jié)點依附參與討論,其隨時間節(jié)點的討論規(guī)模遞減”的狀態(tài),如圖2所示。
圖2?新媒體事件的傳播演變
以新浪微博為例,特定事件相關(guān)微博通常以“#事件關(guān)鍵詞#”形式的超鏈接為索引。在事件傳播過程中,少數(shù)節(jié)點引導(dǎo)著多數(shù)普通用戶節(jié)點進(jìn)行討論與交互,且隨著時間演變討論與交互的規(guī)模逐漸減小。
模型旨在度量此類網(wǎng)絡(luò)結(jié)構(gòu)分布的內(nèi)在復(fù)雜度及網(wǎng)絡(luò)與其他網(wǎng)絡(luò)間分布的相似度,從而在保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的前提下完成事件間的距離計算;同理,借助自然語言處理模型對事件傳播網(wǎng)絡(luò)進(jìn)行重構(gòu)得到內(nèi)容分布網(wǎng)絡(luò)后,模型能夠計算事件內(nèi)容分布的內(nèi)在復(fù)雜度、內(nèi)容與其他事件內(nèi)容分布之間的相似度,從而保證了跨事件內(nèi)容相似度計算的可能性,并保留了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。
2.1.1?基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度
模型的基礎(chǔ)理念事件傳播網(wǎng)絡(luò)理解為基于節(jié)點度的概率分布。為清晰地介紹本文模型,引入基本概念KL散度,如式(1)所示:
其中,p和q表示兩種維度為N的概率分布。
KL散度又稱為相對熵,是一種度量兩種分布相似度的方法。以該理論為基礎(chǔ),學(xué)者Schieber T等提出了網(wǎng)絡(luò)相似度模型,其中NND(Network Node Dispersion,網(wǎng)絡(luò)節(jié)點離散度)子模塊將網(wǎng)絡(luò)中節(jié)點的度看作概率分布以表征其結(jié)構(gòu)熵,其研究證明該方法能夠很好地在拓?fù)浣Y(jié)構(gòu)層面度量網(wǎng)絡(luò)相似度且具有較低的計算要求[28]。
本文受該模型啟發(fā),綜合考慮網(wǎng)絡(luò)規(guī)模與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似性,定義基于結(jié)構(gòu)熵的網(wǎng)絡(luò)相似度,如式(2)所示:
其中,g1和g2為待計算相似度的網(wǎng)絡(luò),EMD為陸地移動距離也稱Wasserstein距離[29],NND為網(wǎng)絡(luò)節(jié)點離散度指標(biāo),w1與w2為權(quán)重系數(shù)默認(rèn)取值0.5,μg1={μ1,μ1,…,μN}w。
NND指標(biāo)的詳細(xì)定義如式(3)所示:
其中,J(P1,P2,…,PN)表示JS距離,詳細(xì)定義如式(4)。節(jié)點Pi的節(jié)點度概率分布可表示為Pi={Pi(j)},Pi(j)表示對于節(jié)點i來說與其距離為j的節(jié)點的比例。d為當(dāng)前網(wǎng)絡(luò)直徑,目的是對計算結(jié)果進(jìn)行標(biāo)準(zhǔn)化。
其中,N表示當(dāng)前網(wǎng)絡(luò)中節(jié)點的總數(shù)量,μj定義如式(5)所示:
其中,Pi(j)定義與上式相同,N表示當(dāng)前網(wǎng)絡(luò)中節(jié)點的總數(shù)量。
因此,NND模塊能夠很好地捕捉網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)的熵值,即網(wǎng)絡(luò)平均局部節(jié)點度分布的概率對總體網(wǎng)絡(luò)節(jié)點分布概率的表征度。但其對于k-regular網(wǎng)絡(luò)不能進(jìn)行區(qū)分[28],對于k-regular網(wǎng)絡(luò)而言,局部節(jié)點度分布概率完全等同于全局節(jié)點分布概率,Schieber T在其研究中對該方法進(jìn)行詳實的改進(jìn)和說明。
在網(wǎng)絡(luò)事件中,僅使用NND指標(biāo),模型可能對過度傳播的熱門事件和傳播結(jié)構(gòu)單一的冷門事件缺乏區(qū)分度,因為這些事件的局部節(jié)點均能夠很好地表征全體節(jié)點的度分布概率。因此,本文對NND模型進(jìn)行改進(jìn),使用EMD距離作為NND的補充,如式(2)。EMD距離能夠度量將兩個分布移動為相同分布所花費的最小距離。μg1={μ1,μ1,…,μN}作為EMD的輸入能夠?qū)⒕W(wǎng)絡(luò)結(jié)構(gòu)的規(guī)模納入度量中,彌補了NND的缺陷。
本文旨在構(gòu)建跨領(lǐng)域、跨事件類型的相似度度量方法,這種將網(wǎng)絡(luò)特征抽象為熵的方法能夠有效實現(xiàn)跨類型計算。
2.1.2?基于內(nèi)容分布熵的相似度
基于結(jié)構(gòu)熵的相似度度量從事件網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)度量了事件的相似性,即單個節(jié)點的度概率分布在多大程度上可表征網(wǎng)絡(luò)整體,同時加以事件規(guī)模參數(shù)(EMD)對其進(jìn)行修正。
內(nèi)容分布熵的相似度計算與基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度計算所使用的基本方法相同,但前者的相似度計算基于重構(gòu)后的內(nèi)容相似網(wǎng)絡(luò),后者的相似度計算基于事件傳播過程中的真實聯(lián)系網(wǎng)絡(luò)。
重構(gòu)內(nèi)容相似度網(wǎng)絡(luò)的方法如下:①使用BERT模型作為短文本相似度計算指標(biāo);②根據(jù)事件傳播網(wǎng)絡(luò)結(jié)構(gòu),計算節(jié)點之間文本相似度;③使用相似度均值作為判斷不同節(jié)點之間是否存在新連接的閾值;④根據(jù)閾值重構(gòu)文本分布網(wǎng)絡(luò)。
最終,基于熵的網(wǎng)絡(luò)相似度模型如式(6):
其中,Dt(g1,g2)、Dn(g1,g2)分別表示基于內(nèi)容分布熵的相似度與基于網(wǎng)絡(luò)結(jié)構(gòu)熵的相似度,w1與w2為權(quán)重系數(shù)默認(rèn)取值0.5。
2.2?基于NRL和k-means的事件聚類模型
本文相似度計算模型可直接得出事件之間的距離或多個事件間的距離矩陣。為進(jìn)一步論證本文模型的有效性和本文模型與傳統(tǒng)事件相似性計算方法的不同之處,本文選擇對事件距離矩陣進(jìn)行基于NRL(圖表示學(xué)習(xí))和k-means的聚類分析,并將事件基本屬性特征組作為聚類對照組進(jìn)行分析。選擇的事件基本屬性如式(8)。
其中,Ei表示網(wǎng)絡(luò)事件i,Mi、Ii分別表示其對應(yīng)的媒介數(shù)量向量,即包含圖片與視頻數(shù)量;事件影響力向量,其中包括評論用戶數(shù)量、轉(zhuǎn)發(fā)用戶數(shù)量、點贊用戶數(shù)量。上述向量均進(jìn)行標(biāo)準(zhǔn)化。
NRL是一種將圖類型數(shù)據(jù)進(jìn)行降維并保留其圖形結(jié)構(gòu)特征屬性的有效方法,本文選擇Node2Vec算法[30]對事件距離舉證進(jìn)行向量化,使用k-means算法對事件向量進(jìn)行聚類。對照組基于事件基本屬性特征直接進(jìn)行k-means聚類分析。
3?模型實例分析
本文隨機選擇了113例微博網(wǎng)絡(luò)事件。事件由“#”加事件關(guān)鍵詞的超鏈接進(jìn)行索引,所有包含該鏈接的事件被微博平臺定義為話題,并提供單獨頁面供用戶瀏覽。所收集事件的微博討論量均在10w左右,事件涉及領(lǐng)域及其規(guī)模各不相同。
3.1?事件概述
根據(jù)模型對數(shù)據(jù)的需求,采集數(shù)據(jù)屬性包括事件名稱、事件分布內(nèi)容、發(fā)布內(nèi)容點贊數(shù)、發(fā)表內(nèi)容評論數(shù)、發(fā)布內(nèi)容轉(zhuǎn)發(fā)數(shù)(三者即式(8)中的事件影響力向量,表1中的數(shù)據(jù)為三者均值和)。
計算事件內(nèi)各個博文的平均媒介數(shù)量、平均影響力、平均原創(chuàng)內(nèi)容量并對其進(jìn)行描述性統(tǒng)計,結(jié)果如表1、表2所示。
事件平均可視化媒介數(shù)量穩(wěn)定在1.09/條微博左右,標(biāo)準(zhǔn)差為0.08;事件平均影響力則因為事件的領(lǐng)域和關(guān)注人群不同呈現(xiàn)出較大差異,標(biāo)準(zhǔn)差為55 680.71;事件平均原創(chuàng)內(nèi)容量是對原創(chuàng)博文長度的度量。受微博平臺博文數(shù)量限制,事件平均原創(chuàng)量均值為102.58,標(biāo)準(zhǔn)差為3.47。
3.2?基于熵的相似度度量結(jié)果
數(shù)據(jù)集中各個事件的網(wǎng)絡(luò)結(jié)構(gòu)熵與事件內(nèi)容熵(即NND指標(biāo))如圖3所示。
圖中橫坐標(biāo)為事件編號,縱坐標(biāo)為標(biāo)準(zhǔn)化后的NND值。在不同事件中,相比于事件網(wǎng)絡(luò)結(jié)構(gòu)重構(gòu)后的事件內(nèi)容分布網(wǎng)絡(luò)普遍具有更高的NND值。重構(gòu)后的事件分布網(wǎng)絡(luò)具有更高混亂度,即局部信息分布難以表征全體信息分布情況。
EMD彌補了NND對網(wǎng)絡(luò)規(guī)模不敏感的缺點,從網(wǎng)絡(luò)總體基于度的概率分布對兩個網(wǎng)絡(luò)進(jìn)行距離計算。圖4為部分事件EMD距離熱力圖,橫縱坐標(biāo)為事件編號,圖中顏色的填充變化對應(yīng)橫縱坐標(biāo)下的具體數(shù)值即事件之間的EMD距離。距離數(shù)值高說明事件之間相似度小,事件網(wǎng)絡(luò)的度分布差異度較大,對應(yīng)填充顏色為藍(lán)色;距離數(shù)值低說明事件之間相似度大,事件網(wǎng)絡(luò)的度分布差異度較小,對應(yīng)填充顏色為紅色(紅色與藍(lán)色的深淺變化由繪圖算法基于當(dāng)前數(shù)據(jù)的分布給出,即規(guī)定極小值為紅色、極大值為藍(lán)色,其余顏色深淺變化由其具體數(shù)值與極值之間的差值決定,差值越高顏色越淺),詳細(xì)標(biāo)度見圖右側(cè)圖例。由圖可知網(wǎng)絡(luò)結(jié)構(gòu)EMD與文本分布(內(nèi)容分布)EMD總體具有一致性,但在個別事件中存在較大差異。
不同維度EMD與NND值加權(quán)求和后形成最終事件距離指標(biāo),圖5為部分事件距離熱力圖,其中橫縱坐標(biāo)為事件編號。圖中顏色的填充變化對應(yīng)橫縱坐標(biāo)下的具體數(shù)值即事件之間的相異度,相異度數(shù)值高說明事件之間相似度小,對應(yīng)填充顏色為藍(lán)色;相異度數(shù)值低說明事件之間相似度大,對應(yīng)填充顏色為紅色(紅色與藍(lán)色的深淺變化由繪圖算法基于當(dāng)前數(shù)據(jù)的分布給出,即規(guī)定極小值為紅色、極大值為藍(lán)色,其余顏色深淺變化由其具體數(shù)值與極值之間的差值決定,差值越高顏色越淺),詳細(xì)標(biāo)度見圖右側(cè)圖例。左側(cè)子圖為最終事件距離矩陣,中間子圖為基于網(wǎng)絡(luò)結(jié)構(gòu)的事件距離矩陣,右側(cè)子圖為基于重構(gòu)文本分布網(wǎng)絡(luò)的事件距離矩陣。由圖可知,基于網(wǎng)絡(luò)結(jié)構(gòu)和基于文本分布網(wǎng)絡(luò)均能捕捉到事件的相似特征,且二者總體具有一致性。體現(xiàn)在圖中為二者熱度圖矩陣色塊分布整體較為一致,局部存在不同。二者加權(quán)融合為最終的事件距離矩陣——事件相異度矩陣。
3.3?事件聚類結(jié)果
使用Grover A等提供的Node2Vec方法對事件距離矩陣進(jìn)行向量化[30]。最終將事件的聚類分析分為實驗組與對照組。實驗組使用事件相異度矩陣作為輸入,通過Node2vec表示為事件特征向量,最終通過k-means進(jìn)行聚類分析;對照組使用事件基本特征作為輸入向量,其定義見式(8),最終使用k-means進(jìn)行聚類分析。
1)實驗組聚類結(jié)果
使用SSE(Sum of the Squared Errors,誤差平方和)繪制聚類“肘部圖”獲得的最佳聚類類別數(shù)如圖6所示。
在k=4時,SSE指標(biāo)迅速減小,此時k對應(yīng)較為真實的聚類類別數(shù)。對于聚類數(shù)據(jù)進(jìn)行降維繪圖[31],得到其最終類別分布結(jié)果如圖7所示。
由圖7可知,類別-2具有最多的樣本數(shù)(N=66),類別-4次之(N=35),類別-1樣本數(shù)N=10,類別-3樣本數(shù)量最?。∟=2)。通過觀察原始數(shù)據(jù),最終聚類結(jié)果中各個類別典型事件與特征如表3所示。
表中NND值為該類中NND均值標(biāo)準(zhǔn)化后的數(shù)值。由表可知,類別-1中事件傳播結(jié)構(gòu)均勻,即局部節(jié)點能夠很好地表征整體節(jié)點,但其文本分布復(fù)雜,即局部文本不能較好地表征全體;類別-2中事件數(shù)量最多,其傳播結(jié)構(gòu)均勻、文本分布復(fù)雜,但程度均低于類別-1;類別-3中事件網(wǎng)絡(luò)結(jié)構(gòu)NND和文本分布NND較小,說明局部信息能夠很好地表征整體,具體到實際數(shù)據(jù)中為突發(fā)危機事件;類別-4中不論是網(wǎng)絡(luò)結(jié)構(gòu)還是文本分布,局部信息都不能很好地表征全體,事件引發(fā)較多爭議和討論,傳播網(wǎng)絡(luò)結(jié)構(gòu)不規(guī)則。
2)對照組聚類結(jié)果
對于對照組同樣使用SSE指標(biāo)尋找最優(yōu)聚類類別數(shù),結(jié)果如圖8所示。
在k=4時,SSE指標(biāo)迅速減小,此時k對應(yīng)較為真實的聚類類別數(shù)。同樣,對于聚類數(shù)據(jù)進(jìn)行降維繪圖,得到對照組最終類別分布結(jié)果如圖9所示。
對照組聚類結(jié)果中:類別-1事件在討論人規(guī)模與圖片視頻等媒介數(shù)量最多;類別-2中事件參與討論人數(shù)較多,但圖片視頻等媒介數(shù)量較少;類別-3中事件參與討論人數(shù)較多,圖片視頻等媒介數(shù)量較多;類別-4事件參與人數(shù)較少,圖片媒介數(shù)量較多。
實驗組(熵聚類)與對照組(特征聚類)事件分類的關(guān)系如圖10所示。
圖中熵聚類,即本實驗提出的方法能夠?qū)鹘y(tǒng)的類別劃分進(jìn)行補充。傳統(tǒng)的數(shù)據(jù)基礎(chǔ)特征僅針對事件淺層數(shù)據(jù)特征的變化將事件進(jìn)行分組,且組間數(shù)據(jù)差異大(86∶21∶4∶2),不能很好地區(qū)分事件;依據(jù)本文提出的模型熵聚類考慮了事件規(guī)模、網(wǎng)絡(luò)結(jié)構(gòu)、文本分布等特征,能夠?qū)κ录卣鬟M(jìn)行精細(xì)捕捉,從而完成跨領(lǐng)域但不舍棄內(nèi)容的相似度度量與聚類分析。
4?討?論
4.1?模型可捕捉新媒體事件傳播中的“結(jié)構(gòu)簇”與“內(nèi)容簇”的分布特征
新媒體事件相似度計算、聚類與分類的研究實質(zhì)是對新媒體環(huán)境中同質(zhì)性內(nèi)容與異質(zhì)性內(nèi)容進(jìn)行分化,即同類事件間相似度最大且非同類事件間相似度最小。熵在信息中的本質(zhì)是度量系統(tǒng)的“內(nèi)在的混亂程度”,因此新媒體事件聚類是尋求事件分類后熵的最小化。本研究將新媒體事件中相似的網(wǎng)絡(luò)結(jié)構(gòu)與相似的內(nèi)容分布作為局部的“結(jié)構(gòu)簇”與“內(nèi)容簇”,“結(jié)構(gòu)簇”基于用戶評論行為形成的局部網(wǎng)絡(luò),“內(nèi)容簇”是基于用戶分布文本相似度形成的重構(gòu)網(wǎng)絡(luò)。本研究提出NND指標(biāo)對“簇”的分布特征進(jìn)行量化,即量化新媒體事件的熵。在本次實驗中,基于熵的相似度度量模型能夠從網(wǎng)絡(luò)事件網(wǎng)絡(luò)結(jié)構(gòu)維度和事件內(nèi)容分布維度出發(fā),考慮事件內(nèi)部分布不一致性和事件規(guī)模兩個因素,最終形成了事件相似度度量的綜合指標(biāo)。體現(xiàn)在以下3個方面。
首先,模型能夠提取事件傳播中“網(wǎng)絡(luò)結(jié)構(gòu)簇”的分布特征。受Schieber T等提出的NND概念的啟發(fā)[28],本文將網(wǎng)絡(luò)結(jié)構(gòu)看作基于度的概率分布,NND能夠度量在網(wǎng)絡(luò)中單個節(jié)點對于整體數(shù)據(jù)的表征程度,如式(2)。在新媒體事件中,基于用戶評論等信息行為,事件的傳播網(wǎng)絡(luò)自發(fā)形成“結(jié)構(gòu)簇”?!敖Y(jié)構(gòu)簇”的數(shù)量及其大小因不同事件而相異,但其分布是否一致具有可量化性。若事件“結(jié)構(gòu)簇”分布較為均勻則NND數(shù)值較小,若事件“結(jié)構(gòu)簇”分布具有較大差異,即事件“結(jié)構(gòu)簇”分布對于事件整體傳播網(wǎng)絡(luò)的表征性較弱,事件“結(jié)構(gòu)簇”分布較為不均勻,NND數(shù)值較高。
其次,模型能夠提取事件傳播中“內(nèi)容分布簇”的分布特征。與網(wǎng)絡(luò)結(jié)構(gòu)相異,網(wǎng)絡(luò)事件中并不存在明確的文本網(wǎng)絡(luò)結(jié)構(gòu)且各事件描述對象與內(nèi)容均不相同,文本間不存在明確的上下文關(guān)系,因此導(dǎo)致文本分布網(wǎng)絡(luò)不能直接對比,文本網(wǎng)絡(luò)不能直接沿用傳播的網(wǎng)絡(luò)結(jié)構(gòu)。本文使用基于Bert的短文本相似度度量方法對文本網(wǎng)絡(luò)進(jìn)行重構(gòu)。重構(gòu)后的網(wǎng)絡(luò)根據(jù)用戶發(fā)布文本之間的相似度對內(nèi)容分布進(jìn)行“簇”劃分,每個文本都有其歸屬的“內(nèi)容分布簇”,因此重構(gòu)后的文本分布能夠直接使用NND作為度量其一致性的手段。
最后,模型能夠提取事件網(wǎng)絡(luò)結(jié)構(gòu)規(guī)模和文本分布規(guī)模作為補充。由于NND本質(zhì)上是對目標(biāo)內(nèi)部一致性的度量,即“簇”與整體網(wǎng)絡(luò)之間的表征程度,因此在網(wǎng)絡(luò)結(jié)構(gòu)相似或者文本分布相似但規(guī)模差距巨大的事件無法被區(qū)分,而事件規(guī)模是網(wǎng)絡(luò)事件進(jìn)行區(qū)分的一項不可忽視的指標(biāo),因此研究選取EMD距離作為NND指標(biāo)的補充,使模型在跨事件的同時兼顧事件規(guī)模。
4.2?模型揭示了異質(zhì)新媒體事件傳播的普遍規(guī)律
本研究從“熵”的角度出發(fā),以不同維度事件“簇”分布對于事件總體的表征性對事件之間的相似度進(jìn)行度量并完成了聚類。由于是局部“簇”與總體網(wǎng)絡(luò)間的對比,即熵的對比,因此本研究模型天然具有跨事件性,即可將異質(zhì)性新媒體事件映射到熵維度直接進(jìn)行對比,而忽略其文本、網(wǎng)絡(luò)的具體差異,從而發(fā)現(xiàn)異質(zhì)性新媒體事件間的普遍規(guī)律。
首先,相較于內(nèi)容分布,事件網(wǎng)絡(luò)結(jié)構(gòu)更容易形成穩(wěn)定均勻的“結(jié)構(gòu)簇”,即相較于內(nèi)容分布維度中局部與全局的表征性關(guān)系,新媒體事件局部網(wǎng)絡(luò)結(jié)構(gòu)更能夠表征全局網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。相較于內(nèi)容分布,新媒體事件在網(wǎng)絡(luò)結(jié)構(gòu)維度具有更低的NND數(shù)值。數(shù)據(jù)角度,事件傳播的網(wǎng)絡(luò)局部特征能夠更好地表征整體網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)較為均勻,網(wǎng)絡(luò)中“結(jié)構(gòu)簇”的規(guī)模較為相近。事件與用戶交互角度,用戶在新媒體事件的評論過程中形成“結(jié)構(gòu)簇”與“內(nèi)容簇”,“結(jié)構(gòu)簇”分布較之“內(nèi)容簇”分布規(guī)模更為均勻。說明在新媒體事件中,用戶討論內(nèi)容難以形成規(guī)模一致的“內(nèi)容簇”,即難以達(dá)成普遍的意見統(tǒng)一。
其次,“結(jié)構(gòu)簇”對于新媒體事件具有更好的區(qū)分度。如表3內(nèi)容所示,本研究將新媒體事件聚為4類,其中類別1特征為:“結(jié)構(gòu)簇”相對均勻,“內(nèi)容簇”差異較大;類別2特征為:“結(jié)構(gòu)簇”差異較大,“內(nèi)容簇”差異較大;類別3特征為:“結(jié)構(gòu)簇”均勻,“內(nèi)容簇”差異較小;類別4特征為:“結(jié)構(gòu)簇”差異較大,“內(nèi)容簇”差異較大。結(jié)合不同類別中對應(yīng)的具體事件可得出如下結(jié)論,當(dāng)事件為極富爭議性時,“結(jié)構(gòu)簇”差異巨大,如類別4;當(dāng)事件易在新媒體環(huán)境中達(dá)成一致、缺少爭議時,“結(jié)構(gòu)簇”分布均勻差異較小,如類別3突發(fā)危機事件。
4.3?基于熵的相似度度量模型是對傳統(tǒng)模型的補充和擴(kuò)展
本文提出的相似度度量模型并非是對現(xiàn)有相似度度量指標(biāo)的否定和取代,而是對現(xiàn)有指標(biāo)、方法的補充與完善。具體體現(xiàn)在以下兩個方面:
一方面,模型從熵的角度——目標(biāo)局部特征從全局的表征性來對事件傳播的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行相似度計算。這種方法天然具有可比性,即目標(biāo)對象局部與全局的表征關(guān)系無量綱,模型可以對于不同領(lǐng)域事件、不同規(guī)模事件進(jìn)行相似度對比。這是對傳統(tǒng)方法局限于特定領(lǐng)域無法進(jìn)行跨事件對比的補充。同時,網(wǎng)絡(luò)結(jié)構(gòu)NND度量了事件網(wǎng)絡(luò)結(jié)構(gòu)的變化。事件傳播網(wǎng)絡(luò)結(jié)構(gòu)的變化暗示著事件傳播處于激化點或事件沉寂點。在網(wǎng)絡(luò)結(jié)構(gòu)層面,新媒體環(huán)境中事件的影響可被傳播廣度與傳播深度界定,NND指標(biāo)以概率分布視角對傳播廣度深度進(jìn)行了量化,使得不同類型不同結(jié)構(gòu)網(wǎng)絡(luò)可進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)特征比較。連續(xù)計算NND指標(biāo)并找出其突變點,即能夠揭示并定位事件傳播網(wǎng)絡(luò)中的關(guān)鍵節(jié)點與轉(zhuǎn)折節(jié)點,可在輿情檢測中準(zhǔn)確地預(yù)測輿情爆發(fā)點,從而精準(zhǔn)地制定并實施輿情疏控措施。
另一方面,模型重構(gòu)了文本分布網(wǎng)絡(luò)。傳統(tǒng)的事件網(wǎng)絡(luò)結(jié)構(gòu)基于具體的用戶信息行為,網(wǎng)絡(luò)中的文本關(guān)系不明確。本文對事件文本進(jìn)行重構(gòu),在真實網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上完成了文本分布網(wǎng)絡(luò)。同時針對該網(wǎng)絡(luò)的相似度計算同樣基于熵的概念,故具有跨事件可比性。模型保留了事件文本特征忽略了文本的具體內(nèi)容,因此可發(fā)現(xiàn)事件更加隱性的特征,對傳統(tǒng)方法進(jìn)行補充,如圖8所示。同時,內(nèi)容分布NND基于事件傳播結(jié)構(gòu)的內(nèi)容相似度重構(gòu)網(wǎng)絡(luò),暗示了事件內(nèi)部輿情討論的激烈程度。在內(nèi)容分布層面,新媒體環(huán)境中事件的輿情沖突、復(fù)雜性由用戶發(fā)表內(nèi)容之間觀點的認(rèn)同與否共同決定。內(nèi)容分布的NND指標(biāo)在重構(gòu)內(nèi)容分布網(wǎng)絡(luò)的基礎(chǔ)上,量化了事件內(nèi)部的輿情復(fù)雜性,可揭示事件討論觀點沖突的關(guān)鍵點。連續(xù)計算內(nèi)容分布NND指標(biāo)即可揭示事件輿情變化。通過識別挖掘新媒體傳播事件中的隱性內(nèi)容,對提升輿情把控與識別能力、通過量化事件內(nèi)部輿情復(fù)雜性對新媒體事件研判等具有實踐意義。整體而言對政府、企業(yè)等部門的形象公關(guān)、重大突發(fā)事件有效的防控把握、宣傳工作開展、政務(wù)新媒體工作部署等也具有應(yīng)用價值。
5?總?結(jié)
傳統(tǒng)網(wǎng)絡(luò)事件相似度計算模型或聚類模型局限于事件表層特征且難以構(gòu)建跨事件的統(tǒng)一相似度度量指標(biāo)。本文從網(wǎng)絡(luò)結(jié)構(gòu)、文本分布兩個維度出發(fā),結(jié)合事件規(guī)模、文本一致性、網(wǎng)絡(luò)結(jié)構(gòu)一致性等特征構(gòu)建了基于熵的跨事件網(wǎng)絡(luò)事件相似度度量模型。使用聚類方法對本模型提出的相似度方法與傳統(tǒng)方法進(jìn)行比較,結(jié)果表明本模型能夠補充和發(fā)現(xiàn)目前指標(biāo)的缺點和劣勢。
理論方面,模型對現(xiàn)有網(wǎng)絡(luò)事件相似度大量的指標(biāo)方法進(jìn)行補充和完善。模型基于事件網(wǎng)絡(luò)結(jié)構(gòu)熵與事件內(nèi)容分布熵捕捉事件更深層次的信息,同時模型對于熵的度量具有天然可比性,使得模型能夠完成跨事件相似度對比。模型在文本分布層面進(jìn)行文本分布網(wǎng)絡(luò)構(gòu)建,使得微博類網(wǎng)絡(luò)事件能夠在傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)之上重構(gòu)出基于內(nèi)容相似的文本分布網(wǎng)絡(luò),重構(gòu)文本上下文性關(guān)系。
實踐方面,模型提出的方法可以對日后輿情事件分析、預(yù)測、分類等領(lǐng)域提供事件特征的基本指標(biāo),這種基于熵的指標(biāo)可以對現(xiàn)有指標(biāo)進(jìn)行補充和修正。同時,模型對于文本分布網(wǎng)絡(luò)的重構(gòu)可以進(jìn)行進(jìn)一步的擴(kuò)展和完善,使得輿情平臺或者輿情處理方法能夠更加多元化和合理化。
參考文獻(xiàn)
[1]傅湘玲,齊佳音,高威.基于微博用戶創(chuàng)作內(nèi)容的新聞線索自動發(fā)現(xiàn)研究[J].情報學(xué)報,2016,35(10):1038-1047.
[2]王彥慈.基于云計算的微博輿情流式快速自聚類方法研究[J].情報科學(xué),2017,35(8):23-27.
[3]高慧穎,魏甜,劉嘉唯.基于用戶聚類與動態(tài)交互信任關(guān)系的好友推薦方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(10):66-77.
[4]吳恒,陳燕翎.基于UGC文本挖掘的游客目的地選擇信息研究——以攜程蜜月游記為例[J].情報科學(xué),2017,35(1):101-105.
[5]張海濤,唐詩曼,魏明珠,等.多維度屬性加權(quán)分析的微博用戶聚類研究[J].圖書情報工作,2018,62(24):124-133.
[6]Wu L,Hoi S C,Yu N.Semantics-preserving Bag-of-Words Models and Applications[J].IEEE Transactions on Image Processing,2010,19(7):1908-1920.
[7]Zhang W,Yoshida T,Tang X.A Comparative Study of TF*IDF,LSI and Multi-words for Text Classification[J].Expert Systems with Applications,2011,38(3):2758-2765.
[8]路永和,李焰鋒.改進(jìn)TF-IDF算法的文本特征項權(quán)值計算方法[J].圖書情報工作,2013,57(3):90-95.
[9]安璐,周亦文.恐怖事件情境下微博信息與評論用戶的畫像及比較[J].情報科學(xué),2020,38(4):9-16.
[10]官賽萍,靳小龍,徐學(xué)可,等.基于WMD距離與近鄰傳播的新聞評論聚類[J].中文信息學(xué)報,2017,31(5):203-214.
[11]翟姍姍,潘英增,胡畔,等.UGC挖掘中的在線醫(yī)療社區(qū)分面體系構(gòu)建與實現(xiàn)[J].圖書情報工作,2020,64(9):114-121.
[12]Cha M,Haddadi H,Benevenuto F,et al.Measuring User Influence in Twitter:The Million Follower Fallacy[J].Icwsm,2010,10(10-17):30.
[13]Suh B,Hong L,Pirolli P,et al.Want to Be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing,2010:177-184.
[14]林云,曾振華,曾林浩.微博社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)特征對輿情信息傳播的影響研究[J].情報科學(xué),2019,37(3):55-59.
[15]Celik M,Dokuz A S.Discovering Socially Similar Users in Social Media Datasets Based on Their Socially Important Locations[J].Information Processing & Management,2018,54(6):1154-1168.
[16]Zhou X,Liang X,Du X,et al.Structure Based User Identification Across Social Networks[J].IEEE Transactions on Knowledge and Data Engineering,2018,30(6):1178-1191.
[17]Jiang L,Yang C C.User Recommendation in Healthcare Social Media By Assessing User Similarity in Heterogeneous Network[J].Artificial Intelligence in Medicine,2017,81:63-77.
[18]Li Y,Su Z,Yang J,et al.Exploiting Similarities of User Friendship Networks Across Social Networks for User Identification[J].Information Sciences,2020,506:78-98.
[19]田世海,董月文,王健.基于NRL和k-means的輿情事件聚類研究[J].情報科學(xué),2020:1-7.
[20]Miller G A.WordNet:A Lexical Database for English[J].Communications of the ACM,1995,38(11):39-41.
[21]Lee J C,Cheah Y-N.Paraphrase Detection Using Semantic Relatedness Based on Synset Shortest Path in WordNet[C]//2016 International Conference on Advanced Informatics:Concepts,Theory and Application(ICAICTA),2016:1-5.
[22]Lee Y Y,Ke H,Yen T Y,et al.Combining and Learning Word Embedding with WordNet for Semantic Relatedness and Similarity Measurement[J].Journal of the Association for Information Science and Technology,2020,71(6):657-670.
[23]Kusner M,Sun Y,Kolkin N,et al.From Word Embeddings to Document Distances[C]//International Conference on Machine Learning,2015:957-966.
[24]Landauer T K,F(xiàn)oltz P W,Laham D.An Introduction to Latent Semantic Analysis[J].Discourse Processes,1998,25(2-3):259-284.
[25]Hofmann T.Probabilistic Latent Semantic Analysis[J].arXiv Preprint arXiv:1301.6705,2013.
[26]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.
[27]Gabrilovich E,Markovitch S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C].IJcAI,2007:1606-1611.
[28]Schieber T,Carpi L,Diaz-Guilera A,et al.Quantification of Network Structural Dissimilarities[J].Nature Communications,2017,(8):13928.
[29]Vallender S.Calculation of the Wasserstein Distance Between Probability Distributions on the Line[J].Theory of Probability & Its Applications,1974,18(4):784-786.
[30]Grover A,Leskovec J.Node2vec:Scalable Feature Learning for Networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016:855-864.
[31]Maaten L V D,Hinton G.Visualizing Data Using t-SNE[J].Journal of Machine Learning Research,2008,9(11):2579-2605.
(責(zé)任編輯:孫國雷)