◆蘇開益 江 偉 余詩慧
(武漢理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 湖北 430070)
一種結(jié)合情感詞頻和主題拓展的情感分析方法
◆蘇開益 江 偉 余詩慧
(武漢理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 湖北 430070)
本文針對傳統(tǒng)基于統(tǒng)計學(xué)的情感分析方法的不足,提出情感詞頻和主題拓展相結(jié)合的方法(FETE方法)。該方法關(guān)注用戶評論的完整性,提高了情感詞極性分類的準(zhǔn)確率,相對于傳統(tǒng)的方法,效果有一定提升。
情感分析;FETE;極性分類
傳統(tǒng)的基于統(tǒng)計學(xué)的情感特征提取方法受到漢語“一詞多義”的干擾較大,無法結(jié)合用戶評論的上下文,并且在某些數(shù)據(jù)較為稀疏的樣本中,很難用統(tǒng)計學(xué)的方法提取其特征。本文提出一種融合情感詞頻和主題拓展的情感分析方法(FETE)。FETE方法首先對數(shù)據(jù)集進(jìn)行分詞預(yù)處理,然后統(tǒng)計得到褒義、貶義詞頻,再將主題特征進(jìn)行拓展,并與情感詞頻結(jié)合,最后得到樣本的特征向量。該方法有效地改善了通過統(tǒng)計學(xué)方法提取特征而將評論整體性忽略模式。
先進(jìn)行分詞,然后去停用詞是對自然語言文字序列的一般預(yù)處理方法,我們使用漢語分詞系統(tǒng) NLPIR對原數(shù)據(jù)進(jìn)行分詞,具體處理步驟見圖1。
圖1 處理步驟流程圖
在該算法中,首先對原數(shù)據(jù)進(jìn)行分詞、去停詞,然后通過事先定義好的褒義詞典和貶義詞典來統(tǒng)計數(shù)據(jù)集中的情感詞詞頻,再將情感詞頻和主題維數(shù)拓展融合。
具體的算法步驟如下:
(1)對原數(shù)據(jù)集進(jìn)行分詞,去停詞。
(2)分詞結(jié)果事先準(zhǔn)備好的褒義詞典、貶義詞典進(jìn)行匹配,統(tǒng)計出數(shù)據(jù)集中褒義詞和貶義詞的詞頻,記錄為Cn和Pn。
(3)主題數(shù)K從5開始,以5為步長,增加到50,對每一個K值,使用主題模型對樣本的主題特征進(jìn)行提取。
(4)將每個K值下的主題特征作為文檔集的特征向量,再通過LIBSVM進(jìn)行二分類。
(5)把K值按照準(zhǔn)確率進(jìn)行排序,取最高的兩維向量a和b,將b的最后一維連接在a的第一維,得到向量c。
(6)再將Cn和Pn作為兩個一維向量與c向量結(jié)合,得到融合了主題維數(shù)拓展和情感詞頻的特征向量。
(7)對融合后的特征向量進(jìn)行歸一化,再使用LIBSVM進(jìn)行二分類。
圖2 融合情感詞頻和主題拓展的情感分析方法(FETE)
本文使用LDA主題模型進(jìn)行實(shí)驗和分析。LDA的參數(shù)估計分為兩種,Gibbs采樣和EM最大熵,本文使用Gibbs采樣方法。
3.1 數(shù)據(jù)集
本文使用某 VR公司的用戶對某款內(nèi)容的評論作為數(shù)據(jù)集(http://www.datatang.com/data/11857)進(jìn)行實(shí)驗,一共有 2317條評論,包括1158條正面評論和1159條負(fù)面評論。
3.2 評價指標(biāo)
本文采用精確度(Precision)、召回率(Recall)、F值(F-mean)和準(zhǔn)確率(Accuracy)四個評價指標(biāo)作為評價算法效果的指標(biāo)。具體計算公式見表1。
表1 評價指標(biāo)的計算公式和描述
3.3 實(shí)驗驗證
使用該算法在3.1中數(shù)據(jù)集上進(jìn)行實(shí)驗,如圖3所示,當(dāng)K等于15和30時,Accuracy取得極大值,實(shí)驗結(jié)果最好,當(dāng)K持續(xù)增大時,Accuracy呈下降趨勢。
圖3 實(shí)驗結(jié)果對比圖
從表2中可以看出,實(shí)驗中FETE-LDA方法比傳統(tǒng)的特征提取方法具有更高的MacroP、MacroR和F1值,取得了更好的實(shí)驗效果;在融合情感詞頻和主題維數(shù)拓展的情感分析方法上LDA作為主題提取方法取得了很好的分類效果。
表2 各分析方法對比實(shí)驗
本文提出了一種結(jié)合了情感詞頻和主題拓展的情感分析方法,在傳統(tǒng)的分析方法的基礎(chǔ)上,更加注重評論的完整性,對上下文的把握更精準(zhǔn)。
[1]周哲,商琳.一種基于動態(tài)詞典和和三支決策的情感分析方法[J].山東大學(xué)學(xué)報:工學(xué)版,2015.
[2]陳婷.基于上下文感知的個性化信息服務(wù)系統(tǒng)的研究與設(shè)計[D].北京郵電大學(xué),2013.
[3]李致.知識庫系統(tǒng)中的用戶興趣挖掘與推薦[D].北京交通大學(xué),2013.
[4]萬源.基于語義統(tǒng)計分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢理工大學(xué), 2012.