摘要:在社交媒體時(shí)代,深入研究熱點(diǎn)事件的挖掘與傳播機(jī)制,對(duì)于理解信息傳播和社交網(wǎng)絡(luò)行為具有重要意義。本文旨在探討一種有效捕捉社交媒體上事件相關(guān)文本特征的事件網(wǎng)絡(luò)文本表示模型,以更好理解事件的傳播和影響力。
關(guān)鍵詞:熱點(diǎn)事件挖掘與傳播;事件網(wǎng)絡(luò)文本表示模型;事件傳播;影響力
引言
在社交媒體時(shí)代,研究熱點(diǎn)事件的挖掘與傳播機(jī)制,對(duì)于理解信息傳播和社交網(wǎng)絡(luò)動(dòng)態(tài)至關(guān)重要[1]。社交媒體平臺(tái)已經(jīng)成為信息交流的主要渠道,用戶在這些平臺(tái)上分享各種事件和話題,從而塑造了公眾輿論和社會(huì)觀點(diǎn)。為了更深入地理解信息傳播的復(fù)雜性并有效應(yīng)對(duì),本文探討一種事件網(wǎng)絡(luò)文本表示模型[2]。該模型精準(zhǔn)地捕捉了社交媒體上事件相關(guān)文本的特征,為研究事件傳播和影響力提供了新的工具和方法。本文將深入探討該模型在社交媒體熱點(diǎn)事件挖掘與傳播機(jī)制研究中的應(yīng)用案例,包括熱點(diǎn)事件的檢測(cè)、話題建模以及情感分析等方面,以展示其在信息傳播領(lǐng)域的潛力和實(shí)際應(yīng)用。期望為信息傳播和社交網(wǎng)絡(luò)行為提供更深入的理解和支持。
1. 事件網(wǎng)絡(luò)文本表示模型
1.1 模型簡(jiǎn)介
事件網(wǎng)絡(luò)文本表示模型是一種高度先進(jìn)的文本處理技術(shù),其主旨在于將包括社交媒體等文本數(shù)據(jù)在內(nèi)的信息轉(zhuǎn)化為計(jì)算機(jī)可理解的數(shù)值表達(dá)形式。該技術(shù)通過將單詞、短語或文本段落映射為高維度向量,以捕獲文本的語義和語境信息,從而使計(jì)算機(jī)能夠更加深入地理解文本內(nèi)容。這種技術(shù)廣泛應(yīng)用于事件挖掘、主題建模、情感分析、信息檢索等多個(gè)領(lǐng)域,有助于從海量文本數(shù)據(jù)中提取有價(jià)值的信息和深刻的見解。
1.2 社交媒體熱點(diǎn)事件挖掘與傳播的過程及與其相關(guān)的事件網(wǎng)絡(luò)文本表示模型
(1)數(shù)據(jù)預(yù)處理:首要步驟是對(duì)社交媒體上的原始文本數(shù)據(jù)進(jìn)行預(yù)處理,其中包括去除特殊字符、停用詞以及數(shù)字等,以確保數(shù)據(jù)的一致性和可分析性。
(2)將文本轉(zhuǎn)化為數(shù)值表示:借助TF-IDF[3](term frequency-inverse document drequency)模型,文本數(shù)據(jù)被轉(zhuǎn)換成向量形式,為后續(xù)分析和建模提供了數(shù)值化的基礎(chǔ)。
(3)事件識(shí)別和話題提?。和ㄟ^運(yùn)用詞嵌入模型Word2Vec[4],從社交媒體數(shù)據(jù)中確定出熱點(diǎn)事件和相關(guān)話題。此后文本數(shù)據(jù)被映射至高維向量表示形式,并通過計(jì)算文本之間的相似性來尋找相似話題和事件。
(4)傳播路徑分析和情感分析:首先利用文本主題模型隱含狄利克雷分布(LDA),識(shí)別和分析社交媒體熱點(diǎn)事件的不同傳播路徑和話題,然后借助長(zhǎng)短期記憶網(wǎng)絡(luò)模型LSTM[5],確定用戶對(duì)事件的情感態(tài)度,包括正面、負(fù)面和中性情感。
1.3 社交媒體熱點(diǎn)事件挖掘與傳播的流程圖
如圖1所示。
2. 基于事件網(wǎng)絡(luò)文本表示模型的社交媒體熱點(diǎn)事件挖掘與傳播的算法
2.1 TF-IDF算法:將文本轉(zhuǎn)化為數(shù)值表示
將預(yù)處理后的文本數(shù)據(jù)運(yùn)用TF-IDF算法轉(zhuǎn)化為數(shù)值的形式,轉(zhuǎn)化過程如下:
(1)詞頻(TF)計(jì)算:
對(duì)于d文檔中的詞匯t,其詞頻TF(t,d)表示為:
TF(t,d)=N/M
其中,N表示詞匯t在文檔d中出現(xiàn)的次數(shù),M表示文檔d中的總詞數(shù)。
(2)逆文檔頻率(IDF)計(jì)算:
對(duì)于詞匯t,其逆文檔頻率IDF(t)表示為:
IDF(t)=log10(Nt/Mt+1)
其中,Nt表示總文檔數(shù),Mt表示包含詞匯t文檔數(shù)。
(3)TF-IDF計(jì)算:
對(duì)于詞匯t在文檔d中的TF-IDF值表示為:
TF-IDF(t,d)=TF(t,d)×IDF(t)
為進(jìn)行事件識(shí)別和話題提取,隨后運(yùn)用Word2Vec算法對(duì)文本數(shù)據(jù)進(jìn)行數(shù)值化處理。
2.2 Word2Vec算法:事件識(shí)別和話題提取
Word2Vec模型將每個(gè)詞匯映射為向量表示。假設(shè)有一個(gè)詞匯表V,每個(gè)單詞wi對(duì)應(yīng)于一個(gè)詞向量vi,其中i表示詞匯表中的索引。對(duì)于一個(gè)文本序列,其中包含n個(gè)詞匯:w=(w1,w2,w3……wn)
(1)使用Word2Vec模型,將每個(gè)詞匯映射為詞向量:
對(duì)于詞匯wi,其詞向量表示為。
(2)對(duì)于整個(gè)文本序列v,通過計(jì)算平均詞向量表示文本的高維度向量:
該過程詳細(xì)描述了如何利用Word2Vec模型將文本序列映射為平均詞向量,從而捕獲整個(gè)文本的語義信息。這些高維度向量隨后可用于進(jìn)行計(jì)算文本向量之間的相似性,來發(fā)現(xiàn)相似的文本內(nèi)容或識(shí)別文本中的事件和話題。
2.3 LDA和LSTM:傳播路徑分析和情感分析
2.3.1 LDA主題建模
對(duì)于文檔d,使用LDA模型獲得主題分布的過程如下:
(1)文檔表示:首先,將文檔d表示為詞袋模型:,其中wi表示文檔中的第i個(gè)詞匯。
(2)主題分布計(jì)算:對(duì)于文檔d,計(jì)算其主題分布如下:
其中,i表示文檔d中屬于主題i的概率分布。的計(jì)算基于Gibbs采樣方法,表示為:
其中,ni表示文檔d中主題i的詞匯數(shù)量,ai為Dirichlet先驗(yàn)參數(shù),mi是文檔d中的詞匯總數(shù),表示wj詞匯屬于主題i的概率。
2.3.2 傳播路徑分析
基于LDA主題建模的結(jié)果,分析文本數(shù)據(jù)中不同話題的傳播路徑的過程如下:
(1)話題提?。焊鶕?jù)LDA模型的輸出,獲得文本中涉及的主題分布,包括主題的權(quán)重分布。
(2)傳播路徑分析:對(duì)于每個(gè)主題或主題組合,追蹤其在社交媒體上的傳播路徑。這包括了分析哪些用戶或社交媒體賬戶首先提到了這些話題,以及隨后的傳播鏈條。
(3)傳播圖構(gòu)建:使用網(wǎng)絡(luò)分析技術(shù),構(gòu)建傳播圖,其中節(jié)點(diǎn)表示用戶或賬戶,邊表示信息傳播的路徑??梢允褂肅代碼生成一個(gè)簡(jiǎn)單的傳播圖(如圖2所示),其中包含5個(gè)節(jié)點(diǎn)和6條邊,鄰接矩陣顯示了節(jié)點(diǎn)之間的連接關(guān)系。
(4)影響力評(píng)估:通過分析傳播路徑中的節(jié)點(diǎn)和邊的屬性,評(píng)估不同用戶、賬戶或話題的影響力。這可以通過計(jì)算節(jié)點(diǎn)的度、中心性等網(wǎng)絡(luò)屬性來完成,以幫助識(shí)別最具影響力的參與者和關(guān)鍵信息源。
2.3.3 情感分析(LSTM模型)
情感分析的過程使用LSTM模型,包括以下步驟:
第一步,文本序列表示:將輸入文本序列表示為詞向量的序列,其中xi表示文本序列中的第i個(gè)詞匯的詞向量表示。
第二步,長(zhǎng)短期記憶網(wǎng)絡(luò)模型:使用長(zhǎng)短期記憶網(wǎng)絡(luò)模型(LSTM)進(jìn)行情感分析,LSTM模型包括輸入門、遺忘門、輸出門和記憶單元。
第三步,隱藏狀態(tài)計(jì)算:LSTM模型計(jì)算隱藏狀態(tài)序列,其中hi表示LSTM模型的隱藏狀態(tài)。計(jì)算過程包括以下公式:
(1)輸入門:
(2)遺忘門:
(3)輸出門:
(4)記憶單元:
(5)隱藏狀態(tài):
其中,表示sigmoid函數(shù),*表示逐元素乘法,為權(quán)重矩陣,為循環(huán)權(quán)重矩陣,t表示時(shí)間步。
第四步,情感結(jié)果輸出:LSTM模型輸出情感結(jié)果序列,其中yi表示文本序列中的第i個(gè)詞匯的情感分析結(jié)果。情感分析結(jié)果可為正面、負(fù)面或中性情感。情感分析后使用軟件Tableau對(duì)分析結(jié)果可視化呈現(xiàn),并生成熱點(diǎn)事件報(bào)告。
3. 事件網(wǎng)絡(luò)文本表示模型在社交媒體熱點(diǎn)事件挖掘與傳播中的應(yīng)用案例
3.1 社交媒體熱點(diǎn)問題
(1)氣候變化問題:社交媒體上的氣候變化問題備受關(guān)注。如何準(zhǔn)確捕捉氣候變化的關(guān)鍵信息、分析公眾態(tài)度和意見,成為一個(gè)重要問題。
(2)新技術(shù)推廣問題:社交媒體上不斷涌現(xiàn)各種新技術(shù)的推廣,如人工智能、區(qū)塊鏈、虛擬現(xiàn)實(shí)等。如何有效挖掘這些新技術(shù)的相關(guān)信息,了解公眾對(duì)其的態(tài)度,并識(shí)別潛在的應(yīng)用領(lǐng)域,成為一個(gè)重要問題。
3.2 問題原因
(1)信息碎片化:社交媒體平臺(tái)上圍繞氣候變化和新技術(shù)推廣問題的信息多源且碎片化。這一多樣性反映在信息來源的分散性,信息來源包括新聞媒體、科研機(jī)構(gòu)以及廣泛的社交媒體平臺(tái)。不同信息來源之間的一致性和協(xié)同性存在挑戰(zhàn),這給問題的全面把握和綜合性解析帶來了復(fù)雜性。在氣候變化領(lǐng)域,多源信息可能存在不一致之處;在新技術(shù)推廣問題中,信息可能分散在網(wǎng)絡(luò)上的多個(gè)來源,難以協(xié)同整合。
(2)輿論多元性:社交媒體上的氣候變化問題和新技術(shù)推廣問題相關(guān)的觀點(diǎn)和態(tài)度呈現(xiàn)多元性。社交媒體作為信息交流和意見表達(dá)的平臺(tái),容納了公眾的各種不同聲音和觀點(diǎn)。這種多元性使問題的解析變得更加復(fù)雜,因?yàn)楣娍赡芫蜌夂蜃兓瘑栴}和新技術(shù)的推廣問題持有不同甚至相互矛盾的觀點(diǎn)。例如,在氣候變化問題領(lǐng)域,人們的觀點(diǎn)和態(tài)度可能迥然不同,一些人支持采取緊急行動(dòng),而另一些人則質(zhì)疑氣候變化的嚴(yán)重性;在新技術(shù)推廣問題中,一些人熱衷于新技術(shù)的廣泛應(yīng)用,而其他人則對(duì)技術(shù)的安全性和社會(huì)影響感到擔(dān)憂。
(3)信息混淆:社交媒體平臺(tái)上充斥著虛假信息,容易使公眾對(duì)氣候變化問題和新技術(shù)推廣問題的真實(shí)情況產(chǎn)生困惑。虛假信息的存在會(huì)誤導(dǎo)公眾,扭曲他們對(duì)問題的認(rèn)知和評(píng)估。例如,在氣候變化問題領(lǐng)域,虛假信息否認(rèn)氣候變化的存在,或者試圖淡化其潛在影響;在新技術(shù)推廣問題中,虛假信息會(huì)夸大新技術(shù)的益處或潛在風(fēng)險(xiǎn)。虛假信息的廣泛傳播增加了問題的復(fù)雜性。
3.3 解決方案
事件網(wǎng)絡(luò)文本表示模型的應(yīng)對(duì)措施如下:
(1)多源信息整合:使用模型整合來自不同渠道的信息,創(chuàng)建全面的數(shù)據(jù)集,以更好地理解問題;
(2)情感分析:使用情感分析,了解社交媒體上的態(tài)度和情感反應(yīng),識(shí)別支持和反對(duì)意見;
(3)關(guān)鍵信息提?。菏褂媚P吞崛£P(guān)鍵信息,以增進(jìn)公眾理解;
(4)虛假信息檢測(cè):使用模型檢測(cè)虛假信息傳播路徑,確保信息真實(shí)性;
(5)可視化呈現(xiàn):使用可視化工具Tableau,以圖形方式呈現(xiàn)數(shù)據(jù)和輿情態(tài)勢(shì)。
結(jié)語
事件網(wǎng)絡(luò)文本表示模型在社交媒體熱點(diǎn)事件挖掘與傳播中具有廣泛的應(yīng)用潛力。通過多源信息整合、情感分析、關(guān)鍵信息提取、虛假信息檢測(cè)和可視化呈現(xiàn)等方法,更準(zhǔn)確地理解和應(yīng)對(duì)社交媒體上的重大問題,如氣候變化和新技術(shù)推廣。本研究為信息傳播、輿情分析以及決策制定者提供了有力的工具和實(shí)踐指導(dǎo)。在不斷演變的社交媒體環(huán)境中,事件網(wǎng)絡(luò)文本表示模型將持續(xù)發(fā)揮重要作用,以提供更加深入的見解與支持。
參考文獻(xiàn):
[1]毛太田,蔣冠文,李勇,等.新媒體時(shí)代下網(wǎng)絡(luò)熱點(diǎn)事件情感傳播特征研究[J].情報(bào)科學(xué),2019,37(4):029-035.
[2]譚偉志,廖濤,方賢進(jìn).面向事件的文本表示模型的構(gòu)建及應(yīng)用研究[J].阜陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,38(1):74-79.
[3]胡宏章,邱云飛,郭蕾.融合條件熵和TF-IDF的過采樣方法[J].計(jì)算機(jī)時(shí)代,2023,(6):48-53.
[4]唐煥玲,衛(wèi)紅敏,王育林,等.結(jié)合LDA與Word2vec的文本語義增強(qiáng)方法[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(13):135-145.
[5]李麗萍,曾麗芳,江紹萍,等.基于LSTM神經(jīng)網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,32(4):528-532.
作者簡(jiǎn)介:黃嬋,碩士研究生,副教授,研究方向:人工智能、數(shù)據(jù)挖掘。
基金項(xiàng)目:江西省教育廳科學(xué)技術(shù)研究項(xiàng)目——事件網(wǎng)絡(luò)文本表示模型在社會(huì)網(wǎng)絡(luò)中的應(yīng)用(編號(hào):GJJ213505)。