張慎武 鄭州大學西亞斯國際學院
互聯(lián)網(wǎng)改變著中國人的生活方式。2017年8月,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布了第40次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》?!秷蟾妗凤@示,截至2017年6月, 我國網(wǎng)民規(guī)模達7.51億,普及率達到54.3%,其中微博用戶2.9億,網(wǎng)民使用率38.7%,使用網(wǎng)絡(luò)新聞和論壇/貼吧的用戶分別為83.1%和17.6%[1]。超過70%的網(wǎng)民在互聯(lián)網(wǎng)上發(fā)表言論并進行話題討論,充分表達思想觀點和利益訴求。因為自身的開放性、互動性、便捷性、及時性和影響范圍廣等特點,互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會輿論的放大器[2]。在互聯(lián)網(wǎng)輿情中,有一些熱點問題容易引起廣泛的影響,特別是負面的影響。如果不能及時地發(fā)現(xiàn)、有效地引導,負面的互聯(lián)網(wǎng)輿情將對社會秩序和公共安全造成較大威脅。因此,對互聯(lián)網(wǎng)輿情進行高效快速分析預警的技術(shù)是保證良好、穩(wěn)定的社會秩序的重要保障手段,對此類技術(shù)的研究迫在眉睫?;ヂ?lián)網(wǎng)輿情分析與導控系統(tǒng)一般包括熱點、敏感話題識別、輿情主題跟蹤、自動摘要、輿情趨勢分析、突發(fā)事件分析和輿情報警等功能。目前國內(nèi)大多數(shù)網(wǎng)絡(luò)輿情分析系統(tǒng)都采用基于語法的輿情分析技術(shù),不能從語義層面對網(wǎng)絡(luò)輿情進行分析預警,可能會忽略一些熱點/敏感事件,影響了系統(tǒng)對于輿情的發(fā)現(xiàn)率。本文主要闡述基于本體的互聯(lián)網(wǎng)輿情分析預警系統(tǒng)的模型框架和關(guān)鍵技術(shù)。
系統(tǒng)模型主要包含輿情規(guī)劃、信息采集、輿情分析、輿情報警和本題庫構(gòu)建等模塊,如圖1所示。
a.輿情規(guī)劃模塊:操作員根據(jù)需要設(shè)置輿情主題和種子URL,形成定制化的輿情方案。
b.信息采集模塊:負責利用爬蟲技術(shù)從新聞網(wǎng)頁、論壇、微博、貼吧等互聯(lián)網(wǎng)社交媒體中采集信息,將采集到的文本進行格式化、預處理以及向量化,用云存儲技術(shù)保存在分布式集群中,并隨時提供信息檢索服務。
c.輿情分析模塊:以一系列最新理論技術(shù)研究成果為基礎(chǔ),涵蓋系統(tǒng)的三個核心模塊(自然語言處理、情感分析和語義分析),利用輿情分析產(chǎn)生的文本分類和情感傾向性結(jié)果產(chǎn)生輿情,為輿情服務提供基礎(chǔ)性數(shù)據(jù)分析支撐。
d.輿情服務模塊:利用輿情分析模塊的處理結(jié)果,根據(jù)系統(tǒng)的配置提供輿情服務,進行輿情可視化分析并提供輿情預警和展示。
圖1.系統(tǒng)模型框架
領(lǐng)域?qū)<以诒倔w構(gòu)建方法學的指導下,構(gòu)建網(wǎng)絡(luò)輿情領(lǐng)域本體庫。Tom Gruber給出了設(shè)計本體的基本準則: (1) 明確性和客觀性,本體應該有效地傳達所定義的術(shù)語內(nèi)涵; (2) 一致性,即由本體推斷出來的概念定義應該與本體中的概念定義一致; (3)可擴展性,指本體提供的共享詞匯集,應該在不改變原義的前提下能夠單調(diào)地進行擴展; (4) 最小編碼偏差,本體應該處于知識的層次,而與特定的符號級編碼無關(guān); (5)最小本體承諾,一個本體在提供必須的共享知識條件下,要求有最小的本體承諾[3]。本體建立的方法目前沒有統(tǒng)一的標準,一般都是參考軟件工程的方法。
參考常用的本體開發(fā)方法后,在本系統(tǒng)中采用的本體建立方法如下: (1) 確定輿情分析本體應用的目的和范圍; (2) 進行本體概念和關(guān)系的初步選取; (3) 形式化表示及評價; (4)建立本體。
由于領(lǐng)域知識龐大而復雜,不可能對其進行全面建模,在實際系統(tǒng)中應緊貼特定主題輿情分析的需要,選擇相關(guān)的領(lǐng)域建立領(lǐng)域本體庫。
構(gòu)造本體時是以O(shè)WL來進行描述的,在對Web內(nèi)容進行語義標注和基于語義的輿情分析過程中會頻繁地訪問本體中的概念、實例、屬性及各種關(guān)系,所以需要將本體存入數(shù)據(jù)庫,以實現(xiàn)對本體的快速訪問。
語義標注的目的是通過本體為輿情內(nèi)容文本增加計算機可以理解的語義信息,也就是為本體中的概念尋找文本中的實例或者為本體中的實例尋找相匹配實例的過程。在輿情分析系統(tǒng)中可以采用如下方案來實現(xiàn)網(wǎng)絡(luò)文本內(nèi)容的語義標注:
(1) 網(wǎng)絡(luò)文檔特征詞提取。在傳統(tǒng)的空間向量模型文本表示方法中,特征選擇和權(quán)值計算忽略了文本的語義信息,所以在本系統(tǒng)中通過遍歷輿情分析本體庫進行文檔特征詞選擇,形成特征詞集合。
(2) 基于輿情分析本體庫進行特征詞權(quán)值計算,形成文檔與領(lǐng)域本體的映射關(guān)系。文檔 dj表示成特征向量:
dj= { ( t1,w1j) ,…,( ts,wsj) } ,其中t1…ts表示經(jīng)過本體進行匹配后特征詞,w1j…wsj表示經(jīng)過在本體計算后得到的概念權(quán)值。
采用這種方案不僅可以揭示文檔的隱含語義信息,而且能較準確地劃分文檔與所屬類別,為輿情分析中的熱點話題發(fā)現(xiàn)提供基礎(chǔ)。
Web 文本挖掘的目的是對文本內(nèi)容進行分析,發(fā)現(xiàn)有價值的模式和規(guī)則,并進行預測。而現(xiàn)有的文本挖掘都是基于語法層面,極少進行語義層面的挖掘,準確率不高。在輿情分析系統(tǒng)中,熱點、敏感話題發(fā)現(xiàn)主要是采用文本挖掘的聚類來實現(xiàn),在本系統(tǒng)中提出基于語義的熱點、敏感話題發(fā)現(xiàn),實現(xiàn)流程如下:(1) 在上述語義標注的結(jié)果上進行基于本體庫的文檔與文檔之間的語義相似度和相關(guān)度計算; (2) 按照預設(shè)的閾值進行聚類處理,形成相應的簇; (3) 形成文檔集合的劃分后,再次利用上述基于本體的語義特征詞概念權(quán)值計算方法進行文檔集合的特征提取,從而形成輿情分析中的熱點、敏感話題,在本體庫的支持下進行情感傾向性分析。
在該過程中多次涉及到語義概念特征的相似度與相關(guān)度計算,對于概念的語義相似度
其中:α(x)是以x為起點向上可達的結(jié)點集合;α(x)∩α(y) 是以x和y為起點,向上可達的結(jié)點集合的交集;ρ∈[0,1]是可調(diào)參數(shù)。式(1) 充分考慮
了概念間的語義重合度、概念層次深度和相似度的不對稱性。
在領(lǐng)域本體中任意2個概念特征相關(guān)度
其中,ShortPath(x, y)表示從x到y(tǒng)的最短路徑距離,當x和y不相通時該值為∞,λ為可調(diào)參數(shù)。
本文闡述了互聯(lián)網(wǎng)輿情分析預警系統(tǒng)的模型框架和系統(tǒng)中使用的三個關(guān)鍵技術(shù):互聯(lián)網(wǎng)輿情領(lǐng)域本體庫的構(gòu)建、輿情內(nèi)容文本語義標注和基于語義相似度的輿情熱點/主題/話題分析,如何將這些關(guān)鍵技術(shù)和其他技術(shù)在模型框架內(nèi)整合成一套自動化的互聯(lián)網(wǎng)輿情分析預警系統(tǒng),為相關(guān)管理者、監(jiān)管部門提供一個基礎(chǔ)性平臺,是本文下一步的工作重點。