,
知識(shí)圖譜擁有非常豐富的語(yǔ)義信息,其開(kāi)放與互聯(lián)的特性被認(rèn)為是一種優(yōu)質(zhì)高效的知識(shí)組織方式,從而在許多領(lǐng)域得到廣泛應(yīng)用。互聯(lián)網(wǎng)上的著名涉軍論壇和軍網(wǎng)上的官兵論壇,均是涉軍網(wǎng)絡(luò)輿情集散地,需要對(duì)二者的網(wǎng)絡(luò)輿情進(jìn)行大數(shù)據(jù)分析研究。
本文結(jié)合輿情監(jiān)測(cè)中心承擔(dān)的輿情監(jiān)測(cè)分析任務(wù)和相關(guān)課題的研究,圍繞軍事大數(shù)據(jù)戰(zhàn)略開(kāi)展了涉軍網(wǎng)絡(luò)輿情分析的知識(shí)圖譜研究,以進(jìn)一步推進(jìn)新時(shí)代軍事大數(shù)據(jù)信息服務(wù)的創(chuàng)新發(fā)展。
與概念化的傳統(tǒng)語(yǔ)義網(wǎng)相比,知識(shí)圖譜更關(guān)注實(shí)例、更易于在線更新和利用眾包模式[1]。知識(shí)圖譜的構(gòu)建首先是獲取大量計(jì)算機(jī)可理解的知識(shí)。大數(shù)據(jù)時(shí)代,知識(shí)大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、半結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)以及各行業(yè)的結(jié)構(gòu)化數(shù)據(jù)中。知識(shí)圖譜構(gòu)建過(guò)程主要包括知識(shí)抽取、知識(shí)融合和知識(shí)計(jì)算3個(gè)步驟。
1.1.1 知識(shí)抽取
知識(shí)抽取主要解決如何從各種異構(gòu)數(shù)據(jù)源中獲取知識(shí)。數(shù)據(jù)源分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)3類。處理非結(jié)構(gòu)化數(shù)據(jù),需通過(guò)自然語(yǔ)言技術(shù)識(shí)別文章中的實(shí)體,識(shí)別實(shí)體之間的關(guān)系,有時(shí)還需獲取事件及其相關(guān)屬性;處理半結(jié)構(gòu)化數(shù)據(jù),是根據(jù)不同結(jié)構(gòu)訓(xùn)練出不同包裝器,然后進(jìn)行抽??;處理結(jié)構(gòu)化數(shù)據(jù),則需要通過(guò)ETL工具對(duì)數(shù)據(jù)進(jìn)行處理后,得到符合要求的知識(shí)。
1.1.2 知識(shí)融合
知識(shí)融合是將不同數(shù)據(jù)源獲取的知識(shí)進(jìn)行整合并構(gòu)建關(guān)聯(lián)關(guān)系。從各個(gè)數(shù)據(jù)源抽取的知識(shí)可能還存在不一致性,因此需要使用融合技術(shù)將知識(shí)使用統(tǒng)一的術(shù)語(yǔ)結(jié)構(gòu)(本體)進(jìn)行描述,進(jìn)而整合成一個(gè)龐大的知識(shí)庫(kù)。本體不僅提供了統(tǒng)一的概念字典,還表達(dá)了各個(gè)概念間的關(guān)系以及約束。通過(guò)實(shí)體映射技術(shù),將不同數(shù)據(jù)源中的實(shí)體映射到統(tǒng)一的本體概念中,進(jìn)而實(shí)現(xiàn)不同數(shù)據(jù)源的實(shí)體映射。知識(shí)融合的大量運(yùn)算,需要大數(shù)據(jù)平臺(tái)高性能分布式計(jì)算能力。融合后的知識(shí)庫(kù)需要有存儲(chǔ)管理方案,如NoSQL數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù),應(yīng)根據(jù)不同的應(yīng)用場(chǎng)景采用不同的存儲(chǔ)架構(gòu)。
1.1.3 知識(shí)計(jì)算
知識(shí)計(jì)算主要是根據(jù)知識(shí)圖譜獲得更多隱含、少噪聲的知識(shí),以提高可用性。運(yùn)用規(guī)則推理技術(shù)和鏈接預(yù)測(cè)技術(shù)可以獲取數(shù)據(jù)中的隱含知識(shí),使用基于圖的社會(huì)計(jì)算算法可以在知識(shí)網(wǎng)絡(luò)上補(bǔ)充知識(shí)間關(guān)聯(lián)的路徑,通過(guò)不一致檢測(cè)技術(shù)可以發(fā)現(xiàn)數(shù)據(jù)中的噪聲和缺陷等。
將知識(shí)圖譜技術(shù)應(yīng)用于網(wǎng)絡(luò)輿情管理,具有開(kāi)放資源豐富、信息集成域廣、計(jì)算能力強(qiáng)大的優(yōu)勢(shì)。
1.2.1 開(kāi)放資源豐富
百度百科是百度公司推出的網(wǎng)絡(luò)百科全書(shū)平臺(tái),幾乎涵蓋了所有已知的知識(shí)領(lǐng)域;互動(dòng)百科是一個(gè)大規(guī)模的中文百科知識(shí)平臺(tái),具有與百度百科相同的規(guī)模,覆蓋上萬(wàn)人群;中文維基百科是維基百科的中文版,提供網(wǎng)站全部數(shù)據(jù)的下載。它們都是當(dāng)前有豐富知識(shí)的百科類知識(shí)庫(kù)[2],因內(nèi)容收集全面而成為相關(guān)領(lǐng)域知識(shí)圖譜的優(yōu)秀在線資源。此外CN-DBPedia,Zhishi.me,XLore等均是在上述百科網(wǎng)站基礎(chǔ)上建立的知識(shí)圖譜,擁有大量的領(lǐng)域知識(shí)。這些網(wǎng)站雖然沒(méi)有提供數(shù)據(jù)下載服務(wù),但都開(kāi)放了訪問(wèn)接口,可通過(guò)爬蟲(chóng)等技術(shù)獲取數(shù)據(jù)。
1.2.2 信息集成域廣
網(wǎng)絡(luò)輿情引導(dǎo)不僅需要本領(lǐng)域的知識(shí),還需要了解政治、軍事、經(jīng)濟(jì)、社會(huì)、醫(yī)療等各領(lǐng)域的知識(shí)。如“魏則西事件”涉及互聯(lián)網(wǎng)、軍隊(duì)醫(yī)院、醫(yī)療等多個(gè)領(lǐng)域,涉軍網(wǎng)絡(luò)輿情的信息管理需要跨領(lǐng)域的互通與協(xié)作。知識(shí)圖譜的開(kāi)放性為這種領(lǐng)域知識(shí)之間的互通提供了基礎(chǔ)和便利。由于各領(lǐng)域的知識(shí)圖譜大多由開(kāi)放領(lǐng)域知識(shí)圖譜擴(kuò)展而獲得,因此跨領(lǐng)域的知識(shí)集成變得相對(duì)容易。
1.2.3 計(jì)算能力強(qiáng)大
開(kāi)放利用的知識(shí)圖譜有著規(guī)范的結(jié)構(gòu)和豐富的語(yǔ)義,不僅支持高效的查詢和復(fù)雜的知識(shí)計(jì)算,而且能夠?yàn)檩浨橹黝}發(fā)現(xiàn)、熱點(diǎn)追蹤等提供強(qiáng)大的支持。傳統(tǒng)的輿情信息多存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)或全文檢索數(shù)據(jù)庫(kù)中,使用文本聚類、文本分類等方法發(fā)現(xiàn)輿情。知識(shí)圖譜支持多種存儲(chǔ)方式下的語(yǔ)義檢索,如Neo4j數(shù)據(jù)庫(kù),可以通過(guò)Cypher語(yǔ)言實(shí)現(xiàn)基于圖的高效檢索[3]。基于符號(hào)和基于統(tǒng)計(jì)的知識(shí)推理方法均可應(yīng)用于知識(shí)圖譜中,能夠?yàn)檩浨楣芾硖峁└咝У妮o助決策支持。
網(wǎng)絡(luò)輿情熱點(diǎn)事件是在公共或局部網(wǎng)絡(luò)空間內(nèi),集中爆發(fā)于較短時(shí)間的一系列關(guān)于某話題的網(wǎng)絡(luò)輿情事件的總稱。網(wǎng)絡(luò)輿情知識(shí)圖譜是與網(wǎng)絡(luò)輿情處理有關(guān)的結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù)和輿情事件庫(kù),其基本組成單元為實(shí)體、關(guān)系、時(shí)間區(qū)間、實(shí)體四元組和實(shí)體、屬性、時(shí)間、屬性值四元組。時(shí)間區(qū)間是一個(gè)形如[ts,te]的區(qū)間,其中-∞≤ts≤te≤+∞。
網(wǎng)絡(luò)輿情信息是以上述兩種組成單位為基礎(chǔ)建立的動(dòng)態(tài)圖結(jié)構(gòu)。實(shí)體主要包括事件和對(duì)象兩類,“事件”表示網(wǎng)絡(luò)輿情事件中的各種話題事件,“對(duì)象”表示與事件有關(guān)聯(lián)的各種客體,例如地域、任務(wù)、機(jī)構(gòu)等[4-5]。關(guān)系主要包括3類,分別用于描述“事件-事件”“事件-對(duì)象”“對(duì)象-對(duì)象”之間的關(guān)系。例如四元組“啟動(dòng)針對(duì)ZX禁止出口令”“發(fā)布”“ [2018.04.16,+∞]”“美國(guó)商務(wù)部”,表達(dá)了最近發(fā)生的美國(guó)商務(wù)部制裁中興通信事件。網(wǎng)絡(luò)輿情事件在網(wǎng)絡(luò)輿情知識(shí)圖譜中的表示如圖1所示。
圖1網(wǎng)絡(luò)輿情知識(shí)圖譜中的輿情事件
網(wǎng)絡(luò)輿情處理包括輿情監(jiān)測(cè)、主題發(fā)現(xiàn)、熱點(diǎn)追蹤和輔助輿情引導(dǎo)等,可基于網(wǎng)絡(luò)輿情知識(shí)圖譜來(lái)完成。如某網(wǎng)絡(luò)輿情的知識(shí)圖譜為常見(jiàn)的輿情事件進(jìn)行了分類管理,每類事件中記錄了相關(guān)的觸發(fā)詞。同時(shí)知識(shí)圖譜中包含了各領(lǐng)域的大量術(shù)語(yǔ)以及與抽取事件相關(guān)的元素內(nèi)容,可以直接用于事件的抽取。抽取方法步驟為:內(nèi)容采集,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)從各大網(wǎng)絡(luò)媒體站點(diǎn)和自媒體賬號(hào)中抓取專門(mén)語(yǔ)料;文本處理,去除數(shù)據(jù)中的格式信息、廣告、超鏈接等無(wú)用信息,然后拆分成段落和句子,使用自然語(yǔ)言工具進(jìn)行分詞、去除停用詞;事件發(fā)現(xiàn),從處理好的句子中提取主題句,然后根據(jù)觸發(fā)詞進(jìn)行事件分類、要素填充,最后更新到知識(shí)圖譜中。
網(wǎng)絡(luò)輿情知識(shí)圖譜的事件存儲(chǔ)有著良好的結(jié)構(gòu)和細(xì)節(jié),包括事件的發(fā)生、傳播的整個(gè)過(guò)程,為發(fā)現(xiàn)輿情事件提供了極大的便利。網(wǎng)絡(luò)輿情知識(shí)圖譜的有向動(dòng)態(tài)圖有類、對(duì)象和事件3種節(jié)點(diǎn)。圖1中的有向邊代表節(jié)點(diǎn)之間關(guān)系,可以通過(guò)社會(huì)網(wǎng)絡(luò)分析法對(duì)輿情熱點(diǎn)進(jìn)行分析,還可以利用數(shù)據(jù)庫(kù)提供的高效語(yǔ)句直接檢索熱點(diǎn)事件[6]。涉軍輿情處理引擎負(fù)責(zé)具體的管理活動(dòng),主要包括輿情檢索和輿情引導(dǎo)。通過(guò)預(yù)定義Cypher語(yǔ)句和SQL語(yǔ)句訪問(wèn)知識(shí)圖譜數(shù)據(jù)庫(kù)實(shí)現(xiàn)輿情檢索,如主題發(fā)現(xiàn)查詢2018年1月份以來(lái)評(píng)論數(shù)最多的10件熱點(diǎn)事件,檢索語(yǔ)句為MATCH ( )-[c:COMMENT]->(e:Event) WHERE e.startTime>="2018.1" WITH e,count(c) AS comments ORDER BY comments desc LIMIT 10 RETURN e。如事件追蹤查詢某事件引發(fā)的系列事件,檢索語(yǔ)句為MATCH (e:Event)—>(ee:Event) WHERE e.name=“印軍越線阻攔中方施工” RETURN e,ee。熱點(diǎn)預(yù)測(cè)可以綜合事件評(píng)論數(shù)和衍生事件數(shù)的增加速度預(yù)測(cè)可能發(fā)生的熱點(diǎn)。輿情引導(dǎo)則是提供發(fā)布權(quán)威消息的接口,可以在官方網(wǎng)站、涉軍論壇、微博和微信公眾號(hào)中發(fā)布各類信息。
在輿情形成和高漲初期需要及時(shí)發(fā)現(xiàn)輿情熱點(diǎn)事件。網(wǎng)絡(luò)輿情事件演化為熱點(diǎn)事件的必要條件是關(guān)注度(演化度Evolution)高、傳播范圍(傳播廣度Range)大和受眾觀點(diǎn)出現(xiàn)分歧。輿情事件熱度(Heat)是指在t時(shí)刻事件演化度和傳播廣度變化趨勢(shì)的一種度量,即Heat(e,t)=ke×Evolution(e,t)+kr×Range(e,t)。其中,ke、kr為加權(quán)系數(shù),滿足ke≥0,kr≥0,ke+kr=1,可視實(shí)際情況調(diào)整。
輿情事件的輿情趨勢(shì)(Trend)是指在t時(shí)刻輿情事件演化度和傳播廣度變化率的一種度量,即Trend(e,t)=?t(Heat(e,t))=ke×?t(Evolution(e,t))+kr×?_t(Range(e,t))。其中,?t(Heat(e,t))為Heat(e,t)ate,t關(guān)于t的微分,?t(Evolution(e,t) )為Evolution(e,t)關(guān)于t的偏微分,?_t(Range(e,t))為Range(e,t)關(guān)于t的偏微分。在實(shí)際計(jì)算中,輿情趨勢(shì)可以使用差分近似。當(dāng)輿情趨勢(shì)大于某一閾值時(shí),表示輿情事件熱度增長(zhǎng)迅速,可將該事件視為熱點(diǎn)事件并加以重點(diǎn)關(guān)注;當(dāng)輿情趨勢(shì)在一段時(shí)間小于閾值時(shí),表示輿情事件熱度增長(zhǎng)緩慢或者下降,可以取消關(guān)注。
2.4.1 數(shù)據(jù)集構(gòu)建與參數(shù)選擇
以鐵血網(wǎng)為例,“鐵血論壇”有大量的活躍用戶和帖文,通過(guò)爬蟲(chóng)抓取2018年以來(lái)陸軍板塊的100篇熱帖構(gòu)建驗(yàn)證數(shù)據(jù)集。首先確定各模型參數(shù):時(shí)間單位選擇0.5天,時(shí)間窗口Δt選擇為4(即重點(diǎn)關(guān)注近2天),事件新鮮度衰減率α取-0.01,則最近4個(gè)時(shí)間單位的新鮮度分別為0.074、0.081、0.09和0.1;設(shè)輿情熱度的加權(quán)系數(shù)ke取0.6,kr取0.4。論壇主要涉及4類傳播事件即發(fā)帖、回帖、轉(zhuǎn)發(fā)和瀏覽。為簡(jiǎn)化模型令這4類事件所對(duì)應(yīng)關(guān)系的權(quán)重不隨時(shí)間變化,分別取常數(shù)0.6、0.2、0.15和0.05。另外,還可設(shè)定輿情預(yù)警值,當(dāng)輿情趨勢(shì)超過(guò)該值時(shí)需要重點(diǎn)關(guān)注和引導(dǎo)該輿情。
2.4.2 輿情事件熱度分析
輿情事件熱度綜合反映出用戶參與該事件的程度和該事件傳播的范圍。對(duì)100個(gè)帖文綜合分析發(fā)現(xiàn),輿情演化度和傳播廣度的變化規(guī)律存在一定的關(guān)系又各不相同[7],即趨勢(shì)大致相同但不完全一致。有些帖文演化度持續(xù)保持高位,但傳播廣度維持在較低水平,說(shuō)明參與該話題討論的為某個(gè)特定群體,并未引起大多數(shù)用戶的關(guān)注;有些帖文演化度不高,但傳播廣度較高,說(shuō)明該貼可能只是通過(guò)標(biāo)題吸引用戶并沒(méi)有實(shí)質(zhì)內(nèi)容。實(shí)驗(yàn)中分析了4個(gè)帖文的演化度、傳播廣度和事件熱度變化(圖2)。圖2中第1個(gè)帖文先后出現(xiàn)了2次熱點(diǎn),第2個(gè)帖文和第4個(gè)帖文在持續(xù)保持了一段時(shí)間的熱度后迅速衰減,第3個(gè)帖文出現(xiàn)多次熱點(diǎn)但總趨勢(shì)是下降的。
圖2 論壇板塊涉軍話題輿情熱度分析示例
在涉軍網(wǎng)絡(luò)輿情大數(shù)據(jù)管理中,建立針對(duì)不同網(wǎng)絡(luò)環(huán)境的輿情系統(tǒng),通過(guò)不同途徑開(kāi)展知識(shí)圖譜服務(wù)。以某涉軍網(wǎng)絡(luò)環(huán)境為研究對(duì)象,有關(guān)信息在描述中使用了代號(hào)表示。
所建的A網(wǎng)訪問(wèn)量穩(wěn)步提升,網(wǎng)中運(yùn)行的B論壇是網(wǎng)友之間進(jìn)行交流的活躍地,其發(fā)帖和回復(fù)的數(shù)量都已成為軍網(wǎng)上的大數(shù)據(jù)。輿情事件發(fā)現(xiàn)系統(tǒng)首先從存儲(chǔ)數(shù)據(jù)庫(kù)中檢索最新帖文進(jìn)行事件提取,并存儲(chǔ)到網(wǎng)絡(luò)輿情知識(shí)圖譜中,然后再通過(guò)輿情事件基于算法自動(dòng)發(fā)現(xiàn)熱點(diǎn)事件,并按照相應(yīng)的預(yù)警等級(jí)發(fā)出預(yù)警。如關(guān)注事件的輿情變化趨勢(shì)以掌握網(wǎng)友的反映,分析一段時(shí)間內(nèi)某類話題事件的輿情熱度等。
近幾年,國(guó)防和軍隊(duì)改革逐步推進(jìn),熱點(diǎn)話題不斷涌現(xiàn)。本文選取5個(gè)與軍隊(duì)改革有關(guān)的話題,計(jì)算話題的輿情熱度(圖3)。
圖3 不同話題輿情熱度的變化趨勢(shì)
從圖3可以看出,同一話題可多次成為熱點(diǎn),同一時(shí)段不同話題的輿情熱度差別較大。隨著時(shí)間的推進(jìn),熱點(diǎn)話題在不斷變化,一方面體現(xiàn)了不同階段有不同的改革內(nèi)容,另一方面也體現(xiàn)了網(wǎng)友對(duì)不同話題的關(guān)注度差別比較大。
將用戶參與的事件按照輿情熱度進(jìn)行累加,可以獲得用戶的活躍度。按照各個(gè)時(shí)間單位進(jìn)行統(tǒng)計(jì),可以獲得用戶活躍度的周期分布趨勢(shì)圖,如星期周期分布、小時(shí)周期分布等。用戶活躍度的周期分布趨勢(shì)圖存在一些規(guī)律,如上午或下午某個(gè)時(shí)間點(diǎn)用戶很活躍,這對(duì)于把握涉軍輿情的監(jiān)測(cè)時(shí)間有重要指導(dǎo)意義。
事件的主題句基本能夠表達(dá)事件關(guān)注的內(nèi)容,通過(guò)分析主題句可以發(fā)現(xiàn)網(wǎng)民關(guān)心的內(nèi)容和習(xí)慣使用的詞匯。對(duì)某涉軍事件的主題句進(jìn)行分詞,以輿情熱度作為權(quán)值進(jìn)行求和運(yùn)算,繪制出不同時(shí)間段的詞云(圖4)。如圖4所示,詞云中字號(hào)越大的主題,其輿情熱度越高。
從圖4中可以發(fā)現(xiàn),不同時(shí)間段網(wǎng)民關(guān)注的熱點(diǎn)詞匯差別比較大,這從側(cè)面反映出不同時(shí)間段涉軍網(wǎng)絡(luò)輿情的變化情況。如左上圖中“中國(guó)”“航母”“飛機(jī)”“海軍”等熱點(diǎn)詞的輿情熱度較高,因?yàn)楫?dāng)時(shí)正是中國(guó)第一艘航母遼寧艦的試航時(shí)期。其他3幅圖中關(guān)于“軍隊(duì)”“官兵”“改革”等的輿情熱度均比較高。
輿情熱點(diǎn)事件發(fā)現(xiàn)可以根據(jù)設(shè)定輿情熱度閾值實(shí)現(xiàn)。當(dāng)事件熱度大于事件熱度閾值時(shí),可以認(rèn)為該事件是熱點(diǎn)事件(圖5)。如圖5所示,某帖文在18~27的時(shí)間段,事件熱度超過(guò)閾值,被認(rèn)定為熱點(diǎn)事件。
輿情熱點(diǎn)的出現(xiàn)時(shí)機(jī)可以通過(guò)輿情趨勢(shì)預(yù)測(cè)(圖6)。如圖6顯示,在16~20的時(shí)間段輿情趨勢(shì)超過(guò)預(yù)警值,說(shuō)明該事件為輿情熱點(diǎn)。
通過(guò)對(duì)比發(fā)現(xiàn),使用輿情趨勢(shì)預(yù)判比使用事件熱度提前了2個(gè)時(shí)間單位(1天)。經(jīng)過(guò)在某涉軍實(shí)驗(yàn)數(shù)據(jù)集上測(cè)試,有87%的論壇帖文成功實(shí)現(xiàn)了預(yù)測(cè),取得預(yù)計(jì)效果。
圖4不同時(shí)間段的主題句詞云
圖5 通過(guò)事件熱度判定熱點(diǎn)事件
圖6 通過(guò)輿情趨勢(shì)判定輿情熱點(diǎn)
本文分析了知識(shí)圖譜組織的優(yōu)質(zhì)高效以及應(yīng)用于網(wǎng)絡(luò)輿情管理的優(yōu)勢(shì),提出了網(wǎng)絡(luò)輿情知識(shí)圖譜的輿情事件表達(dá)和處理引擎設(shè)計(jì),并從話題輿情熱度分析、用戶參與活躍度分析、事件熱點(diǎn)詞匯云圖分析和輿情熱點(diǎn)事件發(fā)現(xiàn)等方面,研究了涉軍輿情大數(shù)據(jù)的知識(shí)圖譜服務(wù)途徑,但目前還缺少大數(shù)據(jù)的進(jìn)一步驗(yàn)證。下一步將深化研究,以提高知識(shí)圖譜服務(wù)輿情管理的效能。