唐紅梅,唐文忠,李瑞晨,王衍洋,王麗宏
(1.北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100083; 2.新疆維吾爾自治區(qū)科技項(xiàng)目服務(wù)中心,烏魯木齊 830000;3.北京航空航天大學(xué) 航空科學(xué)與工程學(xué)院,北京 100083; 4.北航江西研究院,南昌 330096;5.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
當(dāng)前,隨著網(wǎng)絡(luò)信息量的激增,信息生態(tài)環(huán)境受到污染,公眾獲取、辨別和消化信息的能力較弱,容易受到不實(shí)信息的影響,產(chǎn)生錯(cuò)誤的情感導(dǎo)向[1]。傳統(tǒng)的輿情傳播模式分析,主要集中在數(shù)學(xué)建模與歷史數(shù)據(jù)挖掘,且多數(shù)基于統(tǒng)計(jì)學(xué)原理,缺少完整的輿情分析功能。隨著知識圖譜的發(fā)展,很多領(lǐng)域均引入知識圖譜[2]。
圖模型對輿情的傳播過程進(jìn)行建模,將輿情信息的擴(kuò)散以節(jié)點(diǎn)和邊的形式進(jìn)行表示,能完整建模輿情事件在用戶間的傳播擴(kuò)散過程,并根據(jù)需要?jiǎng)討B(tài)添加用戶間關(guān)注關(guān)系、輿情信息引用關(guān)系等信息,提升分析的效果。王晰巍等[3]基于社會(huì)網(wǎng)絡(luò)分析法對輿情的傳播過程進(jìn)行建模,基于建立好的社會(huì)網(wǎng)絡(luò)圖,分析節(jié)點(diǎn)的入度與出度和節(jié)點(diǎn)的聚類情況,可以識別出傳播過程中的關(guān)鍵用戶。崔樹娟等[4]基于多子網(wǎng)復(fù)合復(fù)雜網(wǎng)絡(luò)模型構(gòu)建多關(guān)系社交網(wǎng)絡(luò),將復(fù)雜系統(tǒng)中個(gè)體間的多種相互關(guān)系映射為向量空間的多維向量,并將復(fù)雜網(wǎng)絡(luò)復(fù)合及分解轉(zhuǎn)化為向量空間的基變換,從而為具有多種關(guān)系的復(fù)雜網(wǎng)絡(luò)研究提供了新的解決方法。王蘭成和婁國哲[5]在2018年基于知識圖譜對涉軍輿情進(jìn)行了分析,提出了網(wǎng)絡(luò)輿情知識圖譜的輿情事件表達(dá)和處理引擎設(shè)計(jì)。馬哲坤和涂艷[6]在2019年基于知識圖譜進(jìn)行了突發(fā)話題監(jiān)測研究,發(fā)現(xiàn)基于知識圖譜的話題監(jiān)測相比于傳統(tǒng)方法在準(zhǔn)確率與召回率指標(biāo)上有較大提升?;谥R圖譜的輿情分析過程,就是輿情知識圖譜的推理過程。Chen等[7]在2018年針對知識圖譜鏈接預(yù)測提出的DIVA推理模型可以應(yīng)用在輿情傳播模式分類上,通過變分推理框架,綜合之前基于路徑推理與基于特征推理的優(yōu)點(diǎn),達(dá)到了更優(yōu)的性能。受變分自編碼器(VAE)[8](提出于2013年)的啟發(fā),DIVA模型在設(shè)計(jì)中使用變分自編碼器結(jié)構(gòu)完成了路徑搜索與路徑推理的結(jié)合。
通過對已有模型進(jìn)行研究對比,發(fā)現(xiàn)在輿情事件傳播模式分類任務(wù)中,由于數(shù)據(jù)規(guī)模龐大,生成的輿情事件圖譜包含上百萬的實(shí)體,且實(shí)體間關(guān)系非常復(fù)雜,對推理模型有極高的要求。
在公開數(shù)據(jù)集的測試中,DIVA模型針對較為簡單的單一關(guān)系分類任務(wù),只能對給定的2個(gè)實(shí)體在知識圖譜中判斷兩者是否屬于一種關(guān)系,并分別對屬于與不屬于2種情況給出概率。由于單獨(dú)的路徑搜索過程無法有效區(qū)分不同路徑的質(zhì)量高低,導(dǎo)致在復(fù)雜網(wǎng)絡(luò)中難以找到高質(zhì)量的連接路徑,影響最終的識別正確率。因此,如何通過二分類模式由一個(gè)模型直接輸出2種分類各自的概率,提升分類任務(wù)的正確率是本文的研究重點(diǎn)。
本文采用GraphDIVA模型進(jìn)行輿情傳播模式分類研究,從而降低了訓(xùn)練次數(shù),提升了分類任務(wù)的準(zhǔn)確性。
GraphDIVA模型以變分推理DIVA模型為基礎(chǔ),從網(wǎng)絡(luò)模型結(jié)構(gòu)和計(jì)算過程2個(gè)維度進(jìn)行分析,在路徑推理模塊中引入GraphSAGE算法,用于解決原模型缺少對于圖結(jié)構(gòu)特征的感知能力導(dǎo)致正確率下滑這一問題。GraphDIVA模型在生成路徑特征矩陣時(shí),引入GraphSAGE算法,對路徑所在的子圖結(jié)構(gòu)進(jìn)行采樣并聚合,過程如圖1所示。
圖1 GraphDIVA路徑特征生成過程Fig.1 GraphDIVA path feature generation process
GraphSAGE算法是Ham ilton等[9]在2017年提出的對于圖結(jié)構(gòu)特征進(jìn)行感知的算法,對于動(dòng)態(tài)圖結(jié)構(gòu)擁有非常好的適應(yīng)性。GraphSAGE算法認(rèn)為一個(gè)節(jié)點(diǎn)的特征決定于周圍節(jié)點(diǎn),通過多輪采樣聚合后便能得到最終的節(jié)點(diǎn)特征。同時(shí),將特征的聚合操作定義為先從中心節(jié)點(diǎn)逐層向外擴(kuò)散采樣,再從最外層逐層向內(nèi)聚合的遞歸過程,該方式可以解決圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[10]彈性不足的問題。在使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)窗口提取特征之前,先使用GraphSAGE算法對路徑中的每個(gè)實(shí)體隨機(jī)采樣固定數(shù)據(jù)的數(shù)目與連接關(guān)系,再使用MaxPooling策略對采樣到的嵌入向量進(jìn)行聚合,得到路徑實(shí)體與關(guān)系的特征表示。詳細(xì)計(jì)算過程如下:
式中:[rv;ev]表示路徑中某一步的關(guān)系嵌入向量與實(shí)體嵌入向量;N(v)為從路徑實(shí)體出發(fā)隨機(jī)選擇多個(gè)鄰接實(shí)體;[rui;eui]表示與路徑實(shí)體鄰接的實(shí)體與連接關(guān)系嵌入向量;f(v)為最終輸出的針對路徑中某一步的特征向量。
最終產(chǎn)生的路徑特征矩陣由路徑中的多步特征向量構(gòu)成。
GraphDIVA路徑推理模塊結(jié)構(gòu)如圖2所示。
圖2 GraphDIVA路徑推理模塊結(jié)構(gòu)Fig.2 GraphDIVA path reasoning module structure
圖2中:GraphSAGE路徑特征計(jì)算過程與LSTM網(wǎng)絡(luò)[11]為相對于原DIVA模型結(jié)構(gòu)的變化。相比于原模型中使用的3個(gè)CNN 窗口,GraphSAGE算法使用LSTM 計(jì)算路徑的次序特征,最終將LSTM 的輸出向量作為路徑的特征向量,如下所示:
式中:h為LSTM 計(jì)算路徑的每個(gè)時(shí)間步特征;v為圖中的一個(gè)節(jié)點(diǎn)。
相比于原DIVA模型直接將輸入路徑中實(shí)體與關(guān)系的嵌入向量作為路徑特征矩陣的做法,調(diào)整后的GraphDIVA模型先通過GraphSAGE算法識別路徑中實(shí)體所在子圖的結(jié)構(gòu)特征,再利用LSTM提取路徑的次序特征,大大提升了模型對圖的感知范圍與能力,從而解決了原模型中存在的正確率下滑等問題。
與通俗意義上只注重建模領(lǐng)域概念的知識圖譜不同,輿情知識圖譜需要額外添加輿情的傳播過程信息。婁國哲和王蘭成[12]對基于知識圖譜的網(wǎng)絡(luò)輿情建模方法進(jìn)行了研究,認(rèn)為面向網(wǎng)絡(luò)輿情的知識圖譜中實(shí)體分為事件標(biāo)簽、事件主體、事件客體與事件傳播方4類。事件標(biāo)簽為對事件本身的定性描述與分類;事件主體為事件內(nèi)容涉及到的單位與個(gè)人,如機(jī)構(gòu)、企業(yè)、明星等;事件相關(guān)客體描述事件的客觀信息,如發(fā)生的地點(diǎn)、涉及到的時(shí)間等;事件傳播方為輿情在傳播過程中涉及到的用戶、站點(diǎn)等。同時(shí),知識圖譜中的關(guān)系分為事件發(fā)起方與事件的關(guān)系、事件間的關(guān)系與事件傳播關(guān)系。其中事件發(fā)起方與事件的關(guān)系包括發(fā)起、關(guān)注、參與等;事件間關(guān)系包括引發(fā)、有關(guān)、相似等;事件傳播關(guān)系包括發(fā)表、評論、轉(zhuǎn)發(fā)、點(diǎn)贊等。
本文主要研究輿情在微博用戶間的傳播過程,不關(guān)注輿情事件的概念、涉及到的主體與時(shí)間地理因素,因此本文定義的輿情傳播知識圖譜的實(shí)體與關(guān)系在上述模型的基礎(chǔ)上進(jìn)行了大幅精簡與調(diào)整。實(shí)體包含關(guān)鍵詞、博文、評論、用戶與話題5類,關(guān)系分為包含關(guān)鍵詞、轉(zhuǎn)發(fā)、評論、用戶創(chuàng)建、提及話題5類。
對于用戶的轉(zhuǎn)發(fā)行為,輿情傳播知識圖譜的建模三元組如下所示:
式中:user表示用戶;blog表示博文。
首先,需要建立2個(gè)由用戶指向各自創(chuàng)建的博文的三元組,然后,建立由被轉(zhuǎn)發(fā)博文指向轉(zhuǎn)發(fā)博文的三元組。
對于用戶的評論行為,輿情傳播知識圖譜的建模三元組如下所示:
式中:comment表示用戶評論。
與轉(zhuǎn)發(fā)行為類似,首先,需要建立從用戶指向創(chuàng)建的評論的三元組,然后,建立由被評論博文指向評論的三元組。
對于博文與關(guān)鍵詞的對應(yīng)關(guān)系,輿情傳播知識圖譜的建模三元組如下所示:
式中:keyword表示博文的關(guān)鍵字。
對于博文與話題標(biāo)簽的對應(yīng)關(guān)系,輿情傳播知識圖譜的建模三元組如下所示:
式中:tag表示博文的標(biāo)簽。
在進(jìn)行輿情事件的劃分時(shí),直接使用關(guān)鍵詞作為劃分標(biāo)準(zhǔn)。如果從不同的實(shí)體出發(fā),最終能到達(dá)相同的關(guān)鍵詞實(shí)體,則認(rèn)為這些實(shí)體都屬于同一個(gè)輿情事件。
本文選擇新浪微博官方熱搜排行榜中熱門的新聞?lì)惻c娛樂類話題,提取核心關(guān)鍵詞作為后續(xù)搜索內(nèi)容的基礎(chǔ),每隔3~5天,根據(jù)熱搜排行榜的變化,更換核心關(guān)鍵詞,擴(kuò)大輿情的搜索范圍,獲得最原始的輿情數(shù)據(jù)。
確定關(guān)鍵詞后,以微博搜索作為入口,通過關(guān)鍵詞對有關(guān)微博內(nèi)容進(jìn)行搜索,并按照熱度提取排名前10的結(jié)果。對于每一篇微博,按熱度獲取熱門評論與熱門轉(zhuǎn)發(fā),再根據(jù)熱門轉(zhuǎn)發(fā)鏈接完成轉(zhuǎn)發(fā)關(guān)系的遞歸獲取操作。同時(shí),在解析頁面時(shí),記錄當(dāng)前頁面與上一個(gè)頁面的鏈接,從而方便從結(jié)果中重建正確的微博轉(zhuǎn)發(fā)關(guān)系。
本文研究數(shù)據(jù)來源于微博,時(shí)間段為2019年9月28日至2019年11月4日。數(shù)據(jù)結(jié)果類型包括數(shù)據(jù)數(shù)量、博文轉(zhuǎn)發(fā)量、博文傳播地位、博文話題標(biāo)簽、評論點(diǎn)贊量、話題標(biāo)簽數(shù)據(jù)、關(guān)鍵詞出現(xiàn)次數(shù)和輿情傳播深度等,詳細(xì)數(shù)據(jù)結(jié)果如表1所示。博文數(shù)據(jù)的分布狀況如表2~表4所示。
表1 數(shù)據(jù)數(shù)量統(tǒng)計(jì)Tab le 1 Data quan tity statistics
表2 博文轉(zhuǎn)發(fā)量統(tǒng)計(jì)Tab le 2 Blog post forward ing quantity statistics
表3 博文傳播地位統(tǒng)計(jì)Tab le 3 Statistics of propagation status of blog posts
表4 博文話題標(biāo)簽統(tǒng)計(jì)Tab le 4 B log post hashtag statistics
評論數(shù)據(jù)的分布狀況如表5所示。話題標(biāo)簽數(shù)據(jù)的分布狀況如表6所示。關(guān)鍵詞數(shù)據(jù)的分布狀況如表7所示。輿情傳播深度與廣度分布如表8所示。
表5 評論點(diǎn)贊量統(tǒng)計(jì)Tab le 5 Statistics of the am ount of likes
表6 話題標(biāo)簽數(shù)據(jù)統(tǒng)計(jì)Tab le 6 Hash tag data statistics
表7 關(guān)鍵詞出現(xiàn)次數(shù)統(tǒng)計(jì)Tab le 7 Statistics of keyword occurrence tim es
表8 輿情傳播深度統(tǒng)計(jì)Tab le 8 Statistics of pub lic opinion p ropagation dep th
通過對以上統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析可以看出,本文建立的輿情傳播圖譜覆蓋范圍廣泛,不僅包含豐富的熱門話題種類,而且還有效保留了輿情的原始傳播過程,可以充分支撐輿情傳播模式分類研究工作。
對于輿情在用戶間的傳播特性,領(lǐng)域中已有大量的研究成果。劉繼和李磊[13]在2013年就針對微博的輿情傳播過程對用戶間的傳播模式特點(diǎn)進(jìn)行了分析。本文中將輿情的傳播關(guān)系網(wǎng)劃分為單關(guān)鍵點(diǎn)型、多關(guān)鍵點(diǎn)型與鏈?zhǔn)叫?種基本模式,結(jié)構(gòu)示例如圖3所示。
圖3 微博輿情信息傳播基本模式示例Fig.3 Example of basic pattern of Weibo public opinion information propagation
單關(guān)鍵點(diǎn)由一個(gè)中心用戶與大量粉絲用戶組成。中心用戶往往在小范圍社區(qū)內(nèi)有非常高的人氣,多為某一特定領(lǐng)域的“大V”;粉絲用戶對于中心用戶有極高的信任與熱情,大多會(huì)在第一時(shí)間轉(zhuǎn)發(fā)相關(guān)輿情內(nèi)容。在這種模式中,中心用戶對于輿情事件的爆發(fā)有較強(qiáng)的控制力,能把握住輿情的走向節(jié)奏,但是最終的傳播規(guī)模也往往只局限在某個(gè)小圈子里,缺少大規(guī)模傳播的潛力。
多關(guān)鍵點(diǎn)由交換用戶、多個(gè)中心用戶與大量不同領(lǐng)域的普通用戶組成,相當(dāng)于多個(gè)單關(guān)鍵點(diǎn)的復(fù)合結(jié)構(gòu)。交換用戶為多關(guān)鍵點(diǎn)型的核心節(jié)點(diǎn),類似于溝通不同領(lǐng)域的中央交換機(jī),擁有與大量不同領(lǐng)域中心用戶的緊密關(guān)系,能夠發(fā)動(dòng)多個(gè)“大V”傳播自己的觀點(diǎn);與此同時(shí),多個(gè)中心用戶可以通過交換用戶實(shí)現(xiàn)信息互動(dòng),增強(qiáng)對不同領(lǐng)域的傳播能力。由于交換用戶的存在,多關(guān)鍵點(diǎn)在傳播時(shí)相比于單關(guān)鍵點(diǎn)型的覆蓋范圍大大延伸,往往能形成影響非常巨大的輿情事件。
鏈?zhǔn)脚c單關(guān)鍵點(diǎn)及多關(guān)鍵點(diǎn)在構(gòu)成上有較大的差別。單關(guān)鍵點(diǎn)與多關(guān)鍵點(diǎn)總體上屬于中央式結(jié)構(gòu),能將節(jié)點(diǎn)分為主從2種;而鏈?zhǔn)絼t更類似分布式結(jié)構(gòu),各個(gè)節(jié)點(diǎn)的地位大體是均等的。鏈?zhǔn)浇Y(jié)構(gòu)往往出現(xiàn)在有較強(qiáng)針對性的輿情傳播過程中,波及到的用戶也常常屬于相近的社交圈。由于鏈?zhǔn)絺鞑サ穆窂脚c生命周期較長,容易造成輿情的演化與扭轉(zhuǎn),并引發(fā)新的輿情傳播熱點(diǎn)。
實(shí)際輿情事件中,以上3種傳播模式不會(huì)以單獨(dú)的形式存在,而是產(chǎn)生大量的混合型結(jié)構(gòu)。一種常見的情況是先由普通網(wǎng)民發(fā)起鏈?zhǔn)絺鞑?,之后被“大V”發(fā)現(xiàn)后轉(zhuǎn)變?yōu)槎嚓P(guān)鍵點(diǎn)模式。
知識圖譜推理任務(wù)是指基于三元組進(jìn)行推理的模型。對于任意一個(gè)知識圖譜,包含實(shí)體集合ε與關(guān)系集合R。知識圖譜的結(jié)構(gòu)則可以(es,r,ed)的三元組進(jìn)行表示。以輿情傳播知識圖譜為例,用戶A與用戶B表示為實(shí)體euser_a和euser_b,用戶B轉(zhuǎn)發(fā)用戶A消息的操作表示為關(guān)系rrepost,輿情 的 擴(kuò) 散 則 可 用 三 元 組 描 述 為(euser_a,rrepost,euser_b)。推理任務(wù)基于部分殘缺的三元組,推測可能的答案。推理任務(wù)的三元組可能缺少關(guān)系(es,?,ed),也可能缺少實(shí)體(es,r,?),對應(yīng)了鏈接預(yù)測與實(shí)體預(yù)測2種子任務(wù)。本文基于輿情傳播模式分析的場景,更關(guān)注于鏈接預(yù)測[14],也就是推測用戶A與用戶B間可能存在的聯(lián)系,作為輿情傳播模式的劃分依據(jù)。原始的DIVA模型針對較為簡單的單一關(guān)系分類任務(wù),只能對給定的2個(gè)實(shí)體在知識圖譜中判斷兩者是否屬于一種關(guān)系,并分別對屬于或不屬于2種情況給出概率。本文研究的重點(diǎn)是:基于對原模型改進(jìn)后的GraphDIVA模型,在進(jìn)行推理任務(wù)分析時(shí),通過二分類模式由一個(gè)模型直接輸出2種分類各自的概率,提升分類任務(wù)的準(zhǔn)確性。GraphDIVA模型的路徑搜索過程對應(yīng)了傳播模式分析中輿情的核心傳播過程路徑的構(gòu)建,而路徑推理過程則對應(yīng)了以核心傳播路徑為主干的傳播關(guān)系子網(wǎng)的傳播模式特征識別。
原始的輿情傳播知識圖譜中只包含單向的傳播關(guān)系,因此,在進(jìn)行傳播路徑搜索與特征聚合時(shí)也只能單向進(jìn)行,無法進(jìn)行傳播溯源、鄰居特征聚合等操作。因此,訓(xùn)練與測試數(shù)據(jù)集的搭建參考了文獻(xiàn)[15]中建立NELL995數(shù)據(jù)的過程。
建立數(shù)據(jù)集時(shí),本文在原始知識圖譜的基礎(chǔ)上為每個(gè)三元組都創(chuàng)建了對應(yīng)的反向關(guān)系三元組。
原始的DIVA模型與GraphDIVA模型只能對關(guān)系進(jìn)行分類判斷,因此,需要將傳播模式對應(yīng)為輿情事件中起點(diǎn)微博與端點(diǎn)微博之間的關(guān)系。本文定義的新聞?lì)惻c娛樂類2種輿情傳播模式分別建立了political與entertainment兩類傳播模式關(guān)系,并在始發(fā)輿情與轉(zhuǎn)發(fā)輿情間建立對應(yīng)的關(guān)系三元組作為訓(xùn)練與測試數(shù)據(jù)。
由于在搜集輿情時(shí)是通過關(guān)鍵詞獲取信息的,可以直接以關(guān)鍵詞作為樣本劃分的依據(jù)。之后,對每類關(guān)鍵詞中轉(zhuǎn)發(fā)深度大于1的始發(fā)博文搜索位于最深轉(zhuǎn)發(fā)位置的轉(zhuǎn)發(fā)博文并保存?zhèn)鞑ヂ窂健H绻D(zhuǎn)發(fā)深度大于5,則只搜索深度為5的博文,盡量減小深度差別帶來的數(shù)據(jù)偏差。最終,本文構(gòu)建了包含18 633個(gè)樣本的數(shù)據(jù)集。樣本的詳細(xì)分布狀況如表9所示。
表9 樣本分布狀況Table 9 Sam p le distribution status
另一個(gè)與傳統(tǒng)知識推理任務(wù)的差異,是輿情傳播模式分析任務(wù)只關(guān)心從某個(gè)始發(fā)微博誕生的傳播關(guān)系網(wǎng)屬于哪種傳播類型,而不關(guān)注于始發(fā)微博與某個(gè)中間轉(zhuǎn)發(fā)微博之間屬于哪種傳播類型。因此,模型只在預(yù)訓(xùn)練階段關(guān)注傳播路徑,保證路徑搜索模塊的基本搜索能力。之后的訓(xùn)練與測試過程不再對路徑的終點(diǎn)進(jìn)行檢查,直接進(jìn)入路徑分類模塊計(jì)算分類概率。實(shí)際上,路徑搜索模塊在本任務(wù)中的作用更類似核心傳播路徑的分析與生成,而路徑推理模塊則對應(yīng)了圖數(shù)據(jù)的結(jié)構(gòu)分類功能。
本節(jié)針對輿情傳播分類任務(wù),完成了Graph-DIVA模型和DIVA模型在不同訓(xùn)練樣本中的傳播模式分類正確率的對比實(shí)驗(yàn)。通過實(shí)驗(yàn)表明,本文方法針對小樣本進(jìn)行分類時(shí),用較少的訓(xùn)練次數(shù)達(dá)到了較高的正確率。
本文在生成傳播圖譜的嵌入向量時(shí),使用了Fast-TransX[16]項(xiàng)目中的TransE實(shí)現(xiàn)。項(xiàng)目的代碼由C++編寫,同時(shí),從算法層面針對多線程運(yùn)行進(jìn)行優(yōu)化,運(yùn)行時(shí)只占用極少的內(nèi)存。Fast-TransE編碼器編碼參數(shù)如表10所示。表中:embedding_size表示最終生成的嵌入向量寬度;nbatches表示每輪迭代的批數(shù)量;threads表示生成時(shí)使用的線程數(shù);epochs表示迭代次數(shù);alpha表示生成時(shí)的學(xué)習(xí)速率。
表10 Fast-TransE參數(shù)Tab le 10 Fast-T ransE param eters
DIVA模型與GraphDIVA模型在進(jìn)行傳播模式分析任務(wù)訓(xùn)練時(shí)的規(guī)模與參數(shù)如表11和表12所示。
表11 傳播模式分析網(wǎng)絡(luò)參數(shù)Tab le 11 Propagation pattern analysis network param eters
表12 傳播模式分析訓(xùn)練參數(shù)Tab le 12 Propagation pattern analysis training param eters
為了加快訓(xùn)練與測試速度,在訓(xùn)練時(shí),先對訓(xùn)練樣本進(jìn)行隨機(jī)排序,再選擇前100個(gè)樣本作為訓(xùn)練集;測試時(shí),進(jìn)行同樣的隨機(jī)排序操作,并選擇前500個(gè)樣本作為測試集。另外,為了突出GraphDIVA模型相比于原模型的性能提升,實(shí)驗(yàn)中額外測試了2個(gè)模型在前25個(gè)樣本中進(jìn)行訓(xùn)練后的性能表現(xiàn)。
本文使用DIVA模型與GraphDIVA模型運(yùn)行相同的數(shù)據(jù)并對比最終效果。100個(gè)訓(xùn)練樣本的實(shí)驗(yàn)結(jié)果如圖4所示。結(jié)果顯示,利用知識圖譜與變分推理模型進(jìn)行輿情傳播模式分析是非常有效的一種技術(shù)方案,2種模型使用100個(gè)訓(xùn)練樣本在經(jīng)過4輪訓(xùn)練后即可達(dá)到90%的分類正確率。GraphDIVA模型相比于原始DIVA模型分類正確率從93%提升到95%,并且在訓(xùn)練10輪后就達(dá)到了最高正確率;相比之下,DIVA模型則需要20輪訓(xùn)練才能達(dá)到最佳效果。
圖4 輿情傳播模式分類100樣本測試結(jié)果Fig.4 100 sample test results of public opinion propagation pattern classification
25個(gè)訓(xùn)練樣本的測試結(jié)果如圖5所示。結(jié)果顯示,GraphDIVA模型在經(jīng)過20輪訓(xùn)練后就能達(dá)到89.4%的正確率,而DIVA模型只有76%,實(shí)驗(yàn)表明GraphDIVA模型在減少訓(xùn)練次數(shù)、提升分類正確率方面具有更優(yōu)的效果。
圖5 輿情傳播模式分類25樣本測試結(jié)果Fig.5 25 sample test results of public opinion propagation pattern classification
為了展示輿情分析模型的分析過程與效果,實(shí)驗(yàn)選取了“無錫高架橋坍塌”與“永不消逝的電波”2個(gè)輿情事件作為新聞?lì)惻c娛樂類傳播模式的案例,分析后的結(jié)果分別對應(yīng)圖6與圖7,圖中加粗的連接線表示模型識別出的核心傳播路徑。可以看出,雖然轉(zhuǎn)發(fā)深度都是9層,模型從“無錫高架橋坍塌”的傳播圖譜中識別到的核心傳播路徑多樣性強(qiáng)于“永不消逝的電波”,且核心傳播路徑周邊的傳播子圖結(jié)構(gòu)特征有很大的差別,在路徑末端仍能找出多關(guān)鍵點(diǎn)模式的結(jié)構(gòu),該實(shí)驗(yàn)體現(xiàn)了變分推理模型先構(gòu)建核心傳播路徑,再對傳播子網(wǎng)特征進(jìn)行識別的分析流程的有效性。
圖6 新聞?lì)惏咐治鼋Y(jié)果Fig.6 News case analysis results
圖7 娛樂類案例分析結(jié)果Fig.7 Entertainment case analysis results
1)針對輿情傳播分析任務(wù)場景,提出了輿情傳播領(lǐng)域知識圖譜結(jié)構(gòu)定義,使用微博數(shù)據(jù)搭建了輿情傳播知識圖譜與輿情傳播分析任務(wù)數(shù)據(jù)集。
2)使用GraphDIVA模型進(jìn)行輿情傳播模式分類,圍繞分析任務(wù)設(shè)計(jì)訓(xùn)練過程,并在自建數(shù)據(jù)集中完成了GraphDIVA模型和DIVA模型模式分類100樣本和25樣本測試的對比實(shí)驗(yàn)。Graph-DIVA模型能有效降低訓(xùn)練次數(shù),提升分類的正確率,特別是在25樣本測試中,模型在經(jīng)過20輪訓(xùn)練后,分類正確率從76%提升到89.4%。
綜上所述,使用GraphDIVA模型進(jìn)行傳播模式小樣本分類時(shí),在減少訓(xùn)練次數(shù)、提升分類正確率方面具有更優(yōu)的效果。