亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進的情感傾向判別算法

2019-05-29 14:39:30郭汝靜南京工業(yè)大學(xué)浦江學(xué)院南京0000安陽工學(xué)院河南安陽455000

安陽工學(xué)院學(xué)報 2019年2期

吳菲，郭汝靜（.南京工業(yè)大學(xué)浦江學(xué)院，南京0000；.安陽工學(xué)院，河南安陽455000）

0 引言

隨著“互聯(lián)網(wǎng)+”時代的到來，人們可以利用微博、微信等社交平臺發(fā)布評論、商品信息，實現(xiàn)快速、及時的溝通交流。然而這些信息具有很強的隨意性，內(nèi)容發(fā)散，短小，話題廣泛，而且還包含了大量無用的信息。這些評論無論對于政府部分的輿情分析，還是企業(yè)的商業(yè)活動，都有著重大的分析價值。因此，提取評論信息中的有效內(nèi)容就顯得十分必要。

目前對于互聯(lián)網(wǎng)評論的研究還處于起步階段，針對這一現(xiàn)狀，本文參考了現(xiàn)有關(guān)于中文文本分析的相關(guān)文獻和研究成果，對現(xiàn)有的特征值提取值算法和權(quán)重計算算法進行改進，提高分類精度。

1 相關(guān)工作

目前，互聯(lián)網(wǎng)評論的情感傾向性分析是一個熱門的研究領(lǐng)域。機器學(xué)習(xí)是這一領(lǐng)域目前國內(nèi)熱門研究方向，劉志明等[1]研究了SVM等三種機器學(xué)習(xí)算法，并且對不同的特征提取方法進行了深入的研究，從而選取了信息增益方式，驗證了評論的適用性與評論的風(fēng)格和主題內(nèi)容相依賴。李澤魁[2]將目前情感分析方面已有的研究成果做出了一個全面的綜述，得出了一些比較有利的特征組合，這些研究內(nèi)容可以為后續(xù)研究提供一個非常好的研究基礎(chǔ)與理論假設(shè)。

本文針對不同類型的評論進行分類，以主觀評論的情感傾向作為重點研究內(nèi)容。首先過濾掉垃圾評論，提取主觀評論。然后通過改進的特征組合提取算法IG-S以及TF-IDF-S來構(gòu)建向量空間，提高分類精度。

2 文本表示方法

目前，向量空間模型方法（VSM）是最廣泛的文本表示方法。該模型的基本思想是將文本字符串表示成空間中的多維向量，并以詞或者詞頻等特征項作為向量空間中的一個維度，而每一個維的值對應(yīng)的是特征項在文本中的權(quán)重。向量空間模型就可以表示為特征向量，表示為V(d)=[(t1,w1),(t2,w2),…(tn,wn)]，其中ti(i=1,2,3,…,n)為文檔中特征項wi為ti的權(quán)重。

3 特征提取方法

在復(fù)雜的互聯(lián)網(wǎng)評論中包含了大量的不同特征，這些特征之間會相互影響，因此提取特征值是情感分類中的一個重要步驟[3]。在這些特征中，大多數(shù)的特征只是無用特征，只有小比例的特征對分類結(jié)果有很明顯的影響。通常采用的特征提取方法有信息增益(IG)、互信息(MI)、卡方統(tǒng)計(CHI)特征提取方法等[4][5]。

傳統(tǒng)IG的算法如下：

公式（1）中m表示所有的評論類別。P(c)表示特征c在數(shù)據(jù)集中出現(xiàn)的概率。P()表示特征c不在數(shù)據(jù)集中出現(xiàn)的概率。P(gi)表示數(shù)據(jù)集中類型gi出現(xiàn)的概率。P(gi|c)表示數(shù)據(jù)集包含特征c，且同時又是類型gi的概率。P(gi)表示數(shù)據(jù)集中不包含特征c，但為類型gi的概率。由于傳統(tǒng)的IG算法無法對情感詞進行準(zhǔn)確進行辨別，雖然在實際中可以識別出一部分特征，但是在效果上仍然不理想。針對于情感分析這個領(lǐng)域的研究應(yīng)用，通常認為對于評論極性判斷最有效的方法是使用情感詞，所以在特征詞的提取中非常有必要加入相關(guān)的挑選比例，以此來提高情感分析的準(zhǔn)確性。本文將以上IG算法進行改進，得到新的算法公式IG-S，如公式（2）所示

公式（2）中n為情感詞集合。IG(c)表示特征c的IG值，表示沒有表達情感的特征IG的平均值，并且通過α來調(diào)控挑選的情感詞。與公式（1）相比，公式（2）加大了情感詞的權(quán)重，而對于非情感詞本文作者認為不需要增加其權(quán)重，這樣也可以把出現(xiàn)頻率較高并且?guī)в忻黠@情感傾向的詞語挑選出來。通過改進的特征值提取方法計算出每個特征詞的IG值之后，將其根據(jù)值的大小進行從大到小排序，最后選取分?jǐn)?shù)最高的若干詞組成特征詞集，得到所需內(nèi)容。

4 權(quán)重計算

傳統(tǒng)的TF-IDF方法存在著一些缺陷。首先，它無法區(qū)分情感詞和普通詞，而情感詞和普通詞在區(qū)分情感所屬類別的能力上有著明顯的差異，并且沒有考慮情感詞所處的相關(guān)位置因素，比如程度副詞之后是帶有明顯情感傾向的情感詞，那么就應(yīng)該提高情感詞的權(quán)重。其次，該方法過高地估計了一些無用詞的貢獻度，從而造成不同類別之間的特征表示能力的減弱。針對這些不足，本研究改進特征權(quán)重的計算方式，提出了改進的TF-IDF-S方法，算法公式如下：

公式（3）中Q代表情感詞詞典，T代表程度副詞詞典，Si-1表示特征i前一個詞的內(nèi)容，gni,j表示在一個評論句子中情感詞后面緊接著程度副詞，則將情感詞的權(quán)重加大為1.2倍，否則保持原有的權(quán)值不變。P(nk|ci)表示在類別ci中含有特征i的概率，ni,j表示在類別ci中包含特征i的總數(shù)。P(nk)?表示不在類ci中特征i出現(xiàn)的概率。采用公式（3）的方法既可以將情感詞區(qū)分出來，還能起到減弱稀疏特征的作用。

5 實驗結(jié)果與分析

本文設(shè)計了改進的特征值提取方法和權(quán)值計算方法，以此來提高情感傾向性判斷的準(zhǔn)確率。為了驗證算法的有效性，作者進行了實驗驗證。本文選擇了幾組有效的特征組合來驗證改進的算法，并將單一的分類算法作為參照實驗，實驗結(jié)果表明本文提出的方法在分類精度上較傳統(tǒng)方法有了一定的提高。

5.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)采用通過爬蟲技術(shù)從互聯(lián)網(wǎng)評論中爬取得到的有關(guān)社會輿論的評論，在篩選直觀垃圾評論之后，形成3個話題的測試數(shù)據(jù)集。數(shù)據(jù)集1的測試集和訓(xùn)練集比較相近，數(shù)據(jù)集2的測試集和訓(xùn)練集相似度比較小，數(shù)據(jù)集3的測試集和訓(xùn)練集出于同一個數(shù)據(jù)源。具體內(nèi)容如表1所示。

表1 數(shù)據(jù)集示例

5.2 改進的特征值算法和權(quán)重計算方法的試驗結(jié)果

本實驗采取四組實驗，第一組是實驗室傳統(tǒng)的IG和TF-IDF方法，第二組使用的是改進的IG方法，第三組使用的是改進的TF-IDF方法，第四組使用的是改進的IG和TF-IDF方法。幾組實驗使用相同的特征值組合，實驗數(shù)據(jù)為第一個數(shù)據(jù)集。將該數(shù)據(jù)集分為6個標(biāo)簽，分別為POT_P、POT_R、POT_F、NET_P、NET_R、NET_F。四種方法在不同標(biāo)簽集上的實驗結(jié)果如表2所示。

從表2的實驗結(jié)果來看，改進的IG和TF-IDF方法對分類效果都有所改進，這說明本文使用的方法更有效。

使用本文的方法在三組不同的測試集上進行實驗，結(jié)果如表3所示。

表2 不同方法的比較結(jié)果

表3 不同數(shù)據(jù)集比較結(jié)果

從表3的實驗結(jié)果可以看出，測試集1和測試集2的各類指標(biāo)有很大的區(qū)別。測試集1的數(shù)據(jù)和訓(xùn)練集比較相近，測試集2的數(shù)據(jù)和訓(xùn)練集相似度較小，所以測試集1的分類效果較好。測試集3和訓(xùn)練集出于同一數(shù)據(jù)源，其結(jié)果比前兩個測試集好?？梢娡粩?shù)據(jù)源的測試集和訓(xùn)練集能取得較好的分類結(jié)果。

6 總結(jié)與展望

本文采用改進的IG算法和TF-IDF算法來提取特征值，在情感分析中能夠更好地挑選出情感詞，并且對情感詞加大權(quán)重之后加入到向量空間中去。通過實驗表明，兩種改進算法的結(jié)合能夠取得很好的效果。

本文所使用的是有監(jiān)督的機器學(xué)習(xí)方式，對于相似度較大的訓(xùn)練集可以取得較好的效果。在不同的訓(xùn)練集上的效果并不是特別理想。怎樣在不同訓(xùn)練集上取得較好的效果，這個問題有待進一步研究。