吳 菲,郭汝靜(.南京工業(yè)大學(xué)浦江學(xué)院,南京0000;.安陽工學(xué)院,河南安陽455000)
隨著“互聯(lián)網(wǎng)+”時代的到來,人們可以利用微博、微信等社交平臺發(fā)布評論、商品信息,實現(xiàn)快速、及時的溝通交流。然而這些信息具有很強的隨意性,內(nèi)容發(fā)散,短小,話題廣泛,而且還包含了大量無用的信息。這些評論無論對于政府部分的輿情分析,還是企業(yè)的商業(yè)活動,都有著重大的分析價值。因此,提取評論信息中的有效內(nèi)容就顯得十分必要。
目前對于互聯(lián)網(wǎng)評論的研究還處于起步階段,針對這一現(xiàn)狀,本文參考了現(xiàn)有關(guān)于中文文本分析的相關(guān)文獻和研究成果,對現(xiàn)有的特征值提取值算法和權(quán)重計算算法進行改進,提高分類精度。
目前,互聯(lián)網(wǎng)評論的情感傾向性分析是一個熱門的研究領(lǐng)域。機器學(xué)習(xí)是這一領(lǐng)域目前國內(nèi)熱門研究方向,劉志明等[1]研究了SVM等三種機器學(xué)習(xí)算法,并且對不同的特征提取方法進行了深入的研究,從而選取了信息增益方式,驗證了評論的適用性與評論的風(fēng)格和主題內(nèi)容相依賴。李澤魁[2]將目前情感分析方面已有的研究成果做出了一個全面的綜述,得出了一些比較有利的特征組合,這些研究內(nèi)容可以為后續(xù)研究提供一個非常好的研究基礎(chǔ)與理論假設(shè)。
本文針對不同類型的評論進行分類,以主觀評論的情感傾向作為重點研究內(nèi)容。首先過濾掉垃圾評論,提取主觀評論。然后通過改進的特征組合提取算法IG-S以及TF-IDF-S來構(gòu)建向量空間,提高分類精度。
目前,向量空間模型方法(VSM)是最廣泛的文本表示方法。該模型的基本思想是將文本字符串表示成空間中的多維向量,并以詞或者詞頻等特征項作為向量空間中的一個維度,而每一個維的值對應(yīng)的是特征項在文本中的權(quán)重。向量空間模型就可以表示為特征向量,表示為V(d)=[(t1,w1),(t2,w2),…(tn,wn)],其中ti(i=1,2,3,…,n)為文檔中特征項wi為ti的權(quán)重。
在復(fù)雜的互聯(lián)網(wǎng)評論中包含了大量的不同特征,這些特征之間會相互影響,因此提取特征值是情感分類中的一個重要步驟[3]。在這些特征中,大多數(shù)的特征只是無用特征,只有小比例的特征對分類結(jié)果有很明顯的影響。通常采用的特征提取方法有信息增益(IG)、互信息(MI)、卡方統(tǒng)計(CHI)特征提取方法等[4][5]。
傳統(tǒng)IG的算法如下:
公式(1)中m表示所有的評論類別。P(c)表示特征c在數(shù)據(jù)集中出現(xiàn)的概率。P()表示特征c不在數(shù)據(jù)集中出現(xiàn)的概率。P(gi)表示數(shù)據(jù)集中類型gi出現(xiàn)的概率。P(gi|c)表示數(shù)據(jù)集包含特征c,且同時又是類型gi的概率。P(gi)表示數(shù)據(jù)集中不包含特征c,但為類型gi的概率。由于傳統(tǒng)的IG算法無法對情感詞進行準(zhǔn)確進行辨別,雖然在實際中可以識別出一部分特征,但是在效果上仍然不理想。針對于情感分析這個領(lǐng)域的研究應(yīng)用,通常認為對于評論極性判斷最有效的方法是使用情感詞,所以在特征詞的提取中非常有必要加入相關(guān)的挑選比例,以此來提高情感分析的準(zhǔn)確性。本文將以上IG算法進行改進,得到新的算法公式IG-S,如公式(2)所示
公式(2)中n為情感詞集合。IG(c)表示特征c的IG值,表示沒有表達情感的特征IG的平均值,并且通過α來調(diào)控挑選的情感詞。與公式(1)相比,公式(2)加大了情感詞的權(quán)重,而對于非情感詞本文作者認為不需要增加其權(quán)重,這樣也可以把出現(xiàn)頻率較高并且?guī)в忻黠@情感傾向的詞語挑選出來。通過改進的特征值提取方法計算出每個特征詞的IG值之后,將其根據(jù)值的大小進行從大到小排序,最后選取分?jǐn)?shù)最高的若干詞組成特征詞集,得到所需內(nèi)容。
傳統(tǒng)的TF-IDF方法存在著一些缺陷。首先,它無法區(qū)分情感詞和普通詞,而情感詞和普通詞在區(qū)分情感所屬類別的能力上有著明顯的差異,并且沒有考慮情感詞所處的相關(guān)位置因素,比如程度副詞之后是帶有明顯情感傾向的情感詞,那么就應(yīng)該提高情感詞的權(quán)重。其次,該方法過高地估計了一些無用詞的貢獻度,從而造成不同類別之間的特征表示能力的減弱。針對這些不足,本研究改進特征權(quán)重的計算方式,提出了改進的TF-IDF-S方法,算法公式如下:
公式(3)中Q代表情感詞詞典,T代表程度副詞詞典,Si-1表示特征i前一個詞的內(nèi)容,gni,j表示在一個評論句子中情感詞后面緊接著程度副詞,則將情感詞的權(quán)重加大為1.2倍,否則保持原有的權(quán)值不變。P(nk|ci)表示在類別ci中含有特征i的概率,ni,j表示在類別ci中包含特征i的總數(shù)。P(nk)?表示不在類ci中特征i出現(xiàn)的概率。采用公式(3)的方法既可以將情感詞區(qū)分出來,還能起到減弱稀疏特征的作用。
本文設(shè)計了改進的特征值提取方法和權(quán)值計算方法,以此來提高情感傾向性判斷的準(zhǔn)確率。為了驗證算法的有效性,作者進行了實驗驗證。本文選擇了幾組有效的特征組合來驗證改進的算法,并將單一的分類算法作為參照實驗,實驗結(jié)果表明本文提出的方法在分類精度上較傳統(tǒng)方法有了一定的提高。
本文實驗數(shù)據(jù)采用通過爬蟲技術(shù)從互聯(lián)網(wǎng)評論中爬取得到的有關(guān)社會輿論的評論,在篩選直觀垃圾評論之后,形成3個話題的測試數(shù)據(jù)集。數(shù)據(jù)集1的測試集和訓(xùn)練集比較相近,數(shù)據(jù)集2的測試集和訓(xùn)練集相似度比較小,數(shù)據(jù)集3的測試集和訓(xùn)練集出于同一個數(shù)據(jù)源。具體內(nèi)容如表1所示。
表1 數(shù)據(jù)集示例
本實驗采取四組實驗,第一組是實驗室傳統(tǒng)的IG和TF-IDF方法,第二組使用的是改進的IG方法,第三組使用的是改進的TF-IDF方法,第四組使用的是改進的IG和TF-IDF方法。幾組實驗使用相同的特征值組合,實驗數(shù)據(jù)為第一個數(shù)據(jù)集。將該數(shù)據(jù)集分為6個標(biāo)簽,分別為POT_P、POT_R、POT_F、NET_P、NET_R、NET_F。四種方法在不同標(biāo)簽集上的實驗結(jié)果如表2所示。
從表2的實驗結(jié)果來看,改進的IG和TF-IDF方法對分類效果都有所改進,這說明本文使用的方法更有效。
使用本文的方法在三組不同的測試集上進行實驗,結(jié)果如表3所示。
表2 不同方法的比較結(jié)果
表3 不同數(shù)據(jù)集比較結(jié)果
從表3的實驗結(jié)果可以看出,測試集1和測試集2的各類指標(biāo)有很大的區(qū)別。測試集1的數(shù)據(jù)和訓(xùn)練集比較相近,測試集2的數(shù)據(jù)和訓(xùn)練集相似度較小,所以測試集1的分類效果較好。測試集3和訓(xùn)練集出于同一數(shù)據(jù)源,其結(jié)果比前兩個測試集好??梢娡粩?shù)據(jù)源的測試集和訓(xùn)練集能取得較好的分類結(jié)果。
本文采用改進的IG算法和TF-IDF算法來提取特征值,在情感分析中能夠更好地挑選出情感詞,并且對情感詞加大權(quán)重之后加入到向量空間中去。通過實驗表明,兩種改進算法的結(jié)合能夠取得很好的效果。
本文所使用的是有監(jiān)督的機器學(xué)習(xí)方式,對于相似度較大的訓(xùn)練集可以取得較好的效果。在不同的訓(xùn)練集上的效果并不是特別理想。怎樣在不同訓(xùn)練集上取得較好的效果,這個問題有待進一步研究。