亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種結(jié)合情感詞頻和主題拓展的情感分析方法

2017-04-25 06:34:06蘇開益余詩慧

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2017年4期

關(guān)鍵詞：情感實(shí)驗方法

◆蘇開益江偉余詩慧

(武漢理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院湖北 430070)

一種結(jié)合情感詞頻和主題拓展的情感分析方法

◆蘇開益江偉余詩慧

(武漢理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院湖北 430070)

本文針對傳統(tǒng)基于統(tǒng)計學(xué)的情感分析方法的不足，提出情感詞頻和主題拓展相結(jié)合的方法（FETE方法）。該方法關(guān)注用戶評論的完整性，提高了情感詞極性分類的準(zhǔn)確率，相對于傳統(tǒng)的方法，效果有一定提升。

情感分析；FETE；極性分類

0 前言

傳統(tǒng)的基于統(tǒng)計學(xué)的情感特征提取方法受到漢語“一詞多義”的干擾較大，無法結(jié)合用戶評論的上下文，并且在某些數(shù)據(jù)較為稀疏的樣本中，很難用統(tǒng)計學(xué)的方法提取其特征。本文提出一種融合情感詞頻和主題拓展的情感分析方法（FETE）。FETE方法首先對數(shù)據(jù)集進(jìn)行分詞預(yù)處理，然后統(tǒng)計得到褒義、貶義詞頻，再將主題特征進(jìn)行拓展，并與情感詞頻結(jié)合，最后得到樣本的特征向量。該方法有效地改善了通過統(tǒng)計學(xué)方法提取特征而將評論整體性忽略模式。

1 數(shù)據(jù)預(yù)處理

先進(jìn)行分詞，然后去停用詞是對自然語言文字序列的一般預(yù)處理方法，我們使用漢語分詞系統(tǒng) NLPIR對原數(shù)據(jù)進(jìn)行分詞，具體處理步驟見圖1。

圖1 處理步驟流程圖

2 FETE算法介紹

在該算法中，首先對原數(shù)據(jù)進(jìn)行分詞、去停詞，然后通過事先定義好的褒義詞典和貶義詞典來統(tǒng)計數(shù)據(jù)集中的情感詞詞頻，再將情感詞頻和主題維數(shù)拓展融合。

具體的算法步驟如下：

(1）對原數(shù)據(jù)集進(jìn)行分詞，去停詞。

（2）分詞結(jié)果事先準(zhǔn)備好的褒義詞典、貶義詞典進(jìn)行匹配，統(tǒng)計出數(shù)據(jù)集中褒義詞和貶義詞的詞頻，記錄為Cn和Pn。

（3）主題數(shù)K從5開始，以5為步長，增加到50，對每一個K值，使用主題模型對樣本的主題特征進(jìn)行提取。

（4）將每個K值下的主題特征作為文檔集的特征向量，再通過LIBSVM進(jìn)行二分類。

（5）把K值按照準(zhǔn)確率進(jìn)行排序，取最高的兩維向量a和b，將b的最后一維連接在a的第一維，得到向量c。

（6）再將Cn和Pn作為兩個一維向量與c向量結(jié)合，得到融合了主題維數(shù)拓展和情感詞頻的特征向量。

（7）對融合后的特征向量進(jìn)行歸一化，再使用LIBSVM進(jìn)行二分類。

圖2 融合情感詞頻和主題拓展的情感分析方法（FETE）

本文使用LDA主題模型進(jìn)行實(shí)驗和分析。LDA的參數(shù)估計分為兩種，Gibbs采樣和EM最大熵，本文使用Gibbs采樣方法。

3 實(shí)驗驗證

3.1 數(shù)據(jù)集

本文使用某 VR公司的用戶對某款內(nèi)容的評論作為數(shù)據(jù)集（http://www.datatang.com/data/11857）進(jìn)行實(shí)驗，一共有 2317條評論，包括1158條正面評論和1159條負(fù)面評論。

3.2 評價指標(biāo)

本文采用精確度（Precision）、召回率（Recall）、F值（F-mean）和準(zhǔn)確率（Accuracy）四個評價指標(biāo)作為評價算法效果的指標(biāo)。具體計算公式見表1。

表1 評價指標(biāo)的計算公式和描述

3.3 實(shí)驗驗證

使用該算法在3.1中數(shù)據(jù)集上進(jìn)行實(shí)驗，如圖3所示，當(dāng)K等于15和30時，Accuracy取得極大值，實(shí)驗結(jié)果最好，當(dāng)K持續(xù)增大時，Accuracy呈下降趨勢。

圖3 實(shí)驗結(jié)果對比圖

從表2中可以看出，實(shí)驗中FETE-LDA方法比傳統(tǒng)的特征提取方法具有更高的MacroP、MacroR和F1值，取得了更好的實(shí)驗效果；在融合情感詞頻和主題維數(shù)拓展的情感分析方法上LDA作為主題提取方法取得了很好的分類效果。

表2 各分析方法對比實(shí)驗

4 總結(jié)

本文提出了一種結(jié)合了情感詞頻和主題拓展的情感分析方法，在傳統(tǒng)的分析方法的基礎(chǔ)上，更加注重評論的完整性，對上下文的把握更精準(zhǔn)。

[1]周哲,商琳.一種基于動態(tài)詞典和和三支決策的情感分析方法[J].山東大學(xué)學(xué)報:工學(xué)版，2015.

[2]陳婷.基于上下文感知的個性化信息服務(wù)系統(tǒng)的研究與設(shè)計[D].北京郵電大學(xué)，2013.

[3]李致.知識庫系統(tǒng)中的用戶興趣挖掘與推薦[D].北京交通大學(xué)，2013.

[4]萬源.基于語義統(tǒng)計分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢理工大學(xué), 2012.