常衛(wèi)東+劉完芳
摘 要:網(wǎng)絡(luò)輿情是指在網(wǎng)絡(luò)空間中對(duì)網(wǎng)民和生活中的社會(huì)事件尤其是一些突發(fā)事件的看法和態(tài)度。網(wǎng)絡(luò)輿情通常涉及社會(huì)的熱點(diǎn)事件,因而經(jīng)常在網(wǎng)絡(luò)中快速傳播,成為人們談?wù)摰慕裹c(diǎn)。因而,對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析和正確的引導(dǎo)顯得尤為重要。文章采用大數(shù)據(jù)分析方法分析網(wǎng)絡(luò)數(shù)據(jù),通過聚類的方法發(fā)掘網(wǎng)絡(luò)輿情中的熱點(diǎn)問題。實(shí)驗(yàn)證明該分析方法具有較高的熱點(diǎn)挖掘能力和及時(shí)的能力。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;大數(shù)據(jù)分析;統(tǒng)計(jì)方法
一、輿情信息的獲取
輿情分析的第一步是要對(duì)網(wǎng)頁中的信息進(jìn)行抓取,第二步是對(duì)抓取的網(wǎng)頁的信息進(jìn)行預(yù)處理。
對(duì)網(wǎng)頁信息抓取主要采用網(wǎng)絡(luò)爬蟲,爬蟲的主要作用是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。它既可以爬取網(wǎng)頁鏈接,又可以爬取網(wǎng)頁的文本信息和圖像信息。它通過關(guān)鍵字的搜索將對(duì)應(yīng)的統(tǒng)一資源定位為相關(guān)的網(wǎng)頁頁面進(jìn)行抓取,通過對(duì)其進(jìn)行文本和圖像的解析,提取對(duì)應(yīng)網(wǎng)頁的文本和圖像信息并進(jìn)行保存。 本文中主要提取的是網(wǎng)頁的文本信息。
而中文分詞是把中文中的漢字系列分割為一個(gè)個(gè)獨(dú)立的中文詞匯。由于中文詞匯與詞匯之間的界限遠(yuǎn)不如英文單詞那樣清晰,因此,中文分詞也是一個(gè)技術(shù)難點(diǎn)。當(dāng)前中文分詞主要是從主要包括字符串匹配分詞方法和機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法。字符串匹配分詞方法是事先通過一定的方法建立一個(gè)龐大的數(shù)據(jù)庫字典,按照一定的方法把待分詞的詞匯與數(shù)據(jù)庫字典中的詞進(jìn)行匹配從而實(shí)現(xiàn)分詞的方法。機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法是通過詞匯出現(xiàn)的頻率和在文中的含義等信息對(duì)漢字的這些特征進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)分詞。字符串匹配分詞方法比較準(zhǔn)確,但缺乏靈活性,機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法能對(duì)詞的語意進(jìn)行識(shí)別,但由于算法的不完善,準(zhǔn)確率不高,因此,在實(shí)際中通常是將這兩種結(jié)合來實(shí)現(xiàn)分詞。
中文分詞的詞性主要包括名詞、動(dòng)詞、形容詞和副詞等,形容詞和副詞常表示事物的狀態(tài)和特征,因而經(jīng)常能表明作者對(duì)事件的喜怒哀樂之情;動(dòng)詞一般就是用來表示動(dòng)作或狀態(tài),它是對(duì)事物采取的動(dòng)作的直接體現(xiàn)。這些詞在輿情分析中就顯得尤為重要。
二、文檔特征的提取
一個(gè)網(wǎng)頁的文本通過分詞后會(huì)有成百上千個(gè)中文詞匯,如果直接對(duì)其分類會(huì)影響分類的效率和準(zhǔn)確性。因此,在分類前要去除一些無關(guān)的詞語,留下最能代表文檔特征的一些分詞作為文檔的特征。文檔特征提取最主要的方法是把文檔的內(nèi)容和詞頻進(jìn)行結(jié)合。
文檔特征提取的是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),從而降低向量空間維數(shù)。其中最重要的方法是分析詞頻。其基本原理是一個(gè)詞在一個(gè)文本中出現(xiàn)的次數(shù)越多,通常它在文本中就越重要。因此,可以計(jì)算詞在文檔中出現(xiàn)的概率即詞頻,來對(duì)文檔的特征進(jìn)行提取。另外,如果一個(gè)詞在很多的文檔中出現(xiàn),表明它在該文檔中的重要性越低,這個(gè)詞就不能代表該文檔的特征,文檔的貢獻(xiàn)度應(yīng)該就越小,也就是通過這個(gè)詞來區(qū)分文檔的區(qū)分度越小,可以用逆文檔頻率(idf)來度量詞在該文檔中的重要性。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。
設(shè)文檔d中詞w出現(xiàn)次數(shù)為count(w, d),文檔d中總詞數(shù)為size(d),則詞w在文檔d中的詞頻tf由下式計(jì)算。
即tf(w,d) = count(w, d) / size(d)。
詞w在整個(gè)文檔中的逆向詞頻idf為文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,d)比值的對(duì)數(shù)。
即idf = log(n / docs(w,d))。
如果要對(duì)逆向詞頻歸一化可以采用如下的公式:
idf = log((n+0.5) / docs(w,d))/log(n+1)
tf-idf模型根據(jù)tf和idf為每一個(gè)文檔d和由關(guān)鍵詞w[1]...w[k]組成的查詢串q計(jì)算一個(gè)權(quán)值,用于表示查詢串q與文檔d的匹配度
tf-idf(q, d)
= sum { i = 1...k | tf-idf(w[i],d) }
= sum { i = 1...k | tf(w[i],d) * idf(w[i])}
三、文檔特征的分類
文本特征的分類是在事先確定的分類標(biāo)準(zhǔn)下,根據(jù)文本的內(nèi)容確定待分類的文本已知文本之間的類型關(guān)聯(lián)。它和普通的數(shù)據(jù)分類方法是一致的,原則上現(xiàn)有的數(shù)據(jù)分類方法都可以實(shí)現(xiàn)這一功能。這一具體過程主要包括輸入訓(xùn)練和分類兩個(gè)步驟,對(duì)應(yīng)的數(shù)據(jù)庫包括訓(xùn)練數(shù)據(jù)庫和檢測(cè)數(shù)據(jù)庫。訓(xùn)練數(shù)據(jù)庫為帶有分類標(biāo)記的n個(gè)特征的若干個(gè)向量X組成的集合, x=(w1,... wi ...,wn,y),其中 wi 是文檔向量的一個(gè)特征,y為該文檔的分類標(biāo)記。檢測(cè)數(shù)據(jù)庫同樣是帶有n個(gè)特征的若干個(gè)向量X組成的集合只是缺少分類標(biāo)記。輸出數(shù)據(jù)為標(biāo)記號(hào)的集合即檢測(cè)數(shù)據(jù)的分類標(biāo)記。本文采用SVM分類方法對(duì)文本分類,對(duì)于一組訓(xùn)練數(shù)據(jù) x=(w1,... wi ...,wn,y),在線性可分的情況下會(huì)有一個(gè)超平面,將這兩類樣本完全分開,并且離超平面最近的向量與超平面之間的距離最大。
四、實(shí)驗(yàn)與分析
本實(shí)驗(yàn)數(shù)據(jù)來源于天涯社區(qū),它主要通過論壇、博客、微博為基礎(chǔ)提供一系列網(wǎng)友和網(wǎng)站之間,網(wǎng)友和網(wǎng)友之間互動(dòng)的虛擬綜合平臺(tái)。網(wǎng)友通過在其中發(fā)各種帖子能發(fā)表對(duì)各種事件的看法。實(shí)驗(yàn)中數(shù)據(jù)是從中獲取的1500個(gè)帖子,其中1200個(gè)帖子作為訓(xùn)練數(shù)據(jù),另外300個(gè)帖子作為測(cè)試數(shù)據(jù)。這1500個(gè)帖子包含六個(gè)話題,即經(jīng)濟(jì)、房產(chǎn)、體育、軍事、時(shí)尚和汽車,每個(gè)帖子均帶有話題類型的標(biāo)記以方便訓(xùn)練和測(cè)試。實(shí)驗(yàn)中采用SVM分類方法對(duì)文本進(jìn)行分類。
在信息檢索中通常采用召回率和精度衡量分類系統(tǒng)對(duì)數(shù)據(jù)分類的能力。召回率是檢索出的某一類型的文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,它表明該文檔類型的查全率。精度即正確率是在所有相關(guān)話題文檔中,檢索到的正確分類文檔所占的比例,它表示分類的準(zhǔn)確程度。上述六類文檔分類的召回率和精度如下表所示。
五、結(jié)束語
綜上所述,網(wǎng)絡(luò)輿情的分析在維護(hù)互聯(lián)網(wǎng)安全方面起到了重要的作用,通過網(wǎng)絡(luò)輿情分析挖掘網(wǎng)民所關(guān)心的熱點(diǎn)問題,發(fā)現(xiàn)其中的意見領(lǐng)袖,對(duì)網(wǎng)絡(luò)輿情進(jìn)行正確的引導(dǎo)是工作的重點(diǎn)。同時(shí)要根據(jù)這些數(shù)據(jù)的實(shí)際情況,采用高效的算法保證輿情分析具有較快的響應(yīng)速度和較低的誤報(bào)率。
參考文獻(xiàn):
[1]夏火松,甄化春.大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻(xiàn)綜述[J].情報(bào)雜志,2015,34(2):1-5.
[2]江華麗.中文分詞算法研究與分析 [J]. 物聯(lián)網(wǎng)技術(shù),2016(1):87-89.
[3]張鵬高,畢 曦.基于大數(shù)據(jù)的教育網(wǎng)絡(luò)輿情監(jiān)控與分析[J].中國(guó)教育信息化,2015(15):7-9.