亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進的情感傾向判別算法

        2019-05-29 14:39:30郭汝靜南京工業(yè)大學(xué)浦江學(xué)院南京0000安陽工學(xué)院河南安陽455000
        安陽工學(xué)院學(xué)報 2019年2期
        關(guān)鍵詞:特征情感實驗

        吳 菲,郭汝靜(.南京工業(yè)大學(xué)浦江學(xué)院,南京0000;.安陽工學(xué)院,河南安陽455000)

        0 引言

        隨著“互聯(lián)網(wǎng)+”時代的到來,人們可以利用微博、微信等社交平臺發(fā)布評論、商品信息,實現(xiàn)快速、及時的溝通交流。然而這些信息具有很強的隨意性,內(nèi)容發(fā)散,短小,話題廣泛,而且還包含了大量無用的信息。這些評論無論對于政府部分的輿情分析,還是企業(yè)的商業(yè)活動,都有著重大的分析價值。因此,提取評論信息中的有效內(nèi)容就顯得十分必要。

        目前對于互聯(lián)網(wǎng)評論的研究還處于起步階段,針對這一現(xiàn)狀,本文參考了現(xiàn)有關(guān)于中文文本分析的相關(guān)文獻和研究成果,對現(xiàn)有的特征值提取值算法和權(quán)重計算算法進行改進,提高分類精度。

        1 相關(guān)工作

        目前,互聯(lián)網(wǎng)評論的情感傾向性分析是一個熱門的研究領(lǐng)域。機器學(xué)習(xí)是這一領(lǐng)域目前國內(nèi)熱門研究方向,劉志明等[1]研究了SVM等三種機器學(xué)習(xí)算法,并且對不同的特征提取方法進行了深入的研究,從而選取了信息增益方式,驗證了評論的適用性與評論的風(fēng)格和主題內(nèi)容相依賴。李澤魁[2]將目前情感分析方面已有的研究成果做出了一個全面的綜述,得出了一些比較有利的特征組合,這些研究內(nèi)容可以為后續(xù)研究提供一個非常好的研究基礎(chǔ)與理論假設(shè)。

        本文針對不同類型的評論進行分類,以主觀評論的情感傾向作為重點研究內(nèi)容。首先過濾掉垃圾評論,提取主觀評論。然后通過改進的特征組合提取算法IG-S以及TF-IDF-S來構(gòu)建向量空間,提高分類精度。

        2 文本表示方法

        目前,向量空間模型方法(VSM)是最廣泛的文本表示方法。該模型的基本思想是將文本字符串表示成空間中的多維向量,并以詞或者詞頻等特征項作為向量空間中的一個維度,而每一個維的值對應(yīng)的是特征項在文本中的權(quán)重。向量空間模型就可以表示為特征向量,表示為V(d)=[(t1,w1),(t2,w2),…(tn,wn)],其中ti(i=1,2,3,…,n)為文檔中特征項wi為ti的權(quán)重。

        3 特征提取方法

        在復(fù)雜的互聯(lián)網(wǎng)評論中包含了大量的不同特征,這些特征之間會相互影響,因此提取特征值是情感分類中的一個重要步驟[3]。在這些特征中,大多數(shù)的特征只是無用特征,只有小比例的特征對分類結(jié)果有很明顯的影響。通常采用的特征提取方法有信息增益(IG)、互信息(MI)、卡方統(tǒng)計(CHI)特征提取方法等[4][5]。

        傳統(tǒng)IG的算法如下:

        公式(1)中m表示所有的評論類別。P(c)表示特征c在數(shù)據(jù)集中出現(xiàn)的概率。P()表示特征c不在數(shù)據(jù)集中出現(xiàn)的概率。P(gi)表示數(shù)據(jù)集中類型gi出現(xiàn)的概率。P(gi|c)表示數(shù)據(jù)集包含特征c,且同時又是類型gi的概率。P(gi)表示數(shù)據(jù)集中不包含特征c,但為類型gi的概率。由于傳統(tǒng)的IG算法無法對情感詞進行準(zhǔn)確進行辨別,雖然在實際中可以識別出一部分特征,但是在效果上仍然不理想。針對于情感分析這個領(lǐng)域的研究應(yīng)用,通常認為對于評論極性判斷最有效的方法是使用情感詞,所以在特征詞的提取中非常有必要加入相關(guān)的挑選比例,以此來提高情感分析的準(zhǔn)確性。本文將以上IG算法進行改進,得到新的算法公式IG-S,如公式(2)所示

        公式(2)中n為情感詞集合。IG(c)表示特征c的IG值,表示沒有表達情感的特征IG的平均值,并且通過α來調(diào)控挑選的情感詞。與公式(1)相比,公式(2)加大了情感詞的權(quán)重,而對于非情感詞本文作者認為不需要增加其權(quán)重,這樣也可以把出現(xiàn)頻率較高并且?guī)в忻黠@情感傾向的詞語挑選出來。通過改進的特征值提取方法計算出每個特征詞的IG值之后,將其根據(jù)值的大小進行從大到小排序,最后選取分?jǐn)?shù)最高的若干詞組成特征詞集,得到所需內(nèi)容。

        4 權(quán)重計算

        傳統(tǒng)的TF-IDF方法存在著一些缺陷。首先,它無法區(qū)分情感詞和普通詞,而情感詞和普通詞在區(qū)分情感所屬類別的能力上有著明顯的差異,并且沒有考慮情感詞所處的相關(guān)位置因素,比如程度副詞之后是帶有明顯情感傾向的情感詞,那么就應(yīng)該提高情感詞的權(quán)重。其次,該方法過高地估計了一些無用詞的貢獻度,從而造成不同類別之間的特征表示能力的減弱。針對這些不足,本研究改進特征權(quán)重的計算方式,提出了改進的TF-IDF-S方法,算法公式如下:

        公式(3)中Q代表情感詞詞典,T代表程度副詞詞典,Si-1表示特征i前一個詞的內(nèi)容,gni,j表示在一個評論句子中情感詞后面緊接著程度副詞,則將情感詞的權(quán)重加大為1.2倍,否則保持原有的權(quán)值不變。P(nk|ci)表示在類別ci中含有特征i的概率,ni,j表示在類別ci中包含特征i的總數(shù)。P(nk)?表示不在類ci中特征i出現(xiàn)的概率。采用公式(3)的方法既可以將情感詞區(qū)分出來,還能起到減弱稀疏特征的作用。

        5 實驗結(jié)果與分析

        本文設(shè)計了改進的特征值提取方法和權(quán)值計算方法,以此來提高情感傾向性判斷的準(zhǔn)確率。為了驗證算法的有效性,作者進行了實驗驗證。本文選擇了幾組有效的特征組合來驗證改進的算法,并將單一的分類算法作為參照實驗,實驗結(jié)果表明本文提出的方法在分類精度上較傳統(tǒng)方法有了一定的提高。

        5.1 實驗數(shù)據(jù)

        本文實驗數(shù)據(jù)采用通過爬蟲技術(shù)從互聯(lián)網(wǎng)評論中爬取得到的有關(guān)社會輿論的評論,在篩選直觀垃圾評論之后,形成3個話題的測試數(shù)據(jù)集。數(shù)據(jù)集1的測試集和訓(xùn)練集比較相近,數(shù)據(jù)集2的測試集和訓(xùn)練集相似度比較小,數(shù)據(jù)集3的測試集和訓(xùn)練集出于同一個數(shù)據(jù)源。具體內(nèi)容如表1所示。

        表1 數(shù)據(jù)集示例

        5.2 改進的特征值算法和權(quán)重計算方法的試驗結(jié)果

        本實驗采取四組實驗,第一組是實驗室傳統(tǒng)的IG和TF-IDF方法,第二組使用的是改進的IG方法,第三組使用的是改進的TF-IDF方法,第四組使用的是改進的IG和TF-IDF方法。幾組實驗使用相同的特征值組合,實驗數(shù)據(jù)為第一個數(shù)據(jù)集。將該數(shù)據(jù)集分為6個標(biāo)簽,分別為POT_P、POT_R、POT_F、NET_P、NET_R、NET_F。四種方法在不同標(biāo)簽集上的實驗結(jié)果如表2所示。

        從表2的實驗結(jié)果來看,改進的IG和TF-IDF方法對分類效果都有所改進,這說明本文使用的方法更有效。

        使用本文的方法在三組不同的測試集上進行實驗,結(jié)果如表3所示。

        表2 不同方法的比較結(jié)果

        表3 不同數(shù)據(jù)集比較結(jié)果

        從表3的實驗結(jié)果可以看出,測試集1和測試集2的各類指標(biāo)有很大的區(qū)別。測試集1的數(shù)據(jù)和訓(xùn)練集比較相近,測試集2的數(shù)據(jù)和訓(xùn)練集相似度較小,所以測試集1的分類效果較好。測試集3和訓(xùn)練集出于同一數(shù)據(jù)源,其結(jié)果比前兩個測試集好??梢娡粩?shù)據(jù)源的測試集和訓(xùn)練集能取得較好的分類結(jié)果。

        6 總結(jié)與展望

        本文采用改進的IG算法和TF-IDF算法來提取特征值,在情感分析中能夠更好地挑選出情感詞,并且對情感詞加大權(quán)重之后加入到向量空間中去。通過實驗表明,兩種改進算法的結(jié)合能夠取得很好的效果。

        本文所使用的是有監(jiān)督的機器學(xué)習(xí)方式,對于相似度較大的訓(xùn)練集可以取得較好的效果。在不同的訓(xùn)練集上的效果并不是特別理想。怎樣在不同訓(xùn)練集上取得較好的效果,這個問題有待進一步研究。

        猜你喜歡
        特征情感實驗
        記一次有趣的實驗
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達“特征”
        情感
        做個怪怪長實驗
        不忠誠的四個特征
        如何在情感中自我成長,保持獨立
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實驗的改進
        国产老熟女网站| 大量老肥熟女老女人自拍| 亚洲av推荐网站在线观看| 国精产品一区一区三区有限在线 | 熟女体下毛毛黑森林| 久久精品免费一区二区喷潮| 黄色三级视频中文字幕| 人妻一区二区三区在线看| 日韩精品无码一本二本三本色| 一本色道av久久精品+网站| 久久久国产精品ⅤA麻豆百度 | 极品熟妇大蝴蝶20p| 久久亚洲精品成人综合| 国产黄色三级一区二区三区四区| 人妻精品久久无码区| 特级毛片a级毛片在线播放www| 亚洲国产精品日韩专区av| 在教室轮流澡到高潮h免费视| 亚洲av无码乱码国产精品| 在线精品免费观看| 中文字幕在线人妻视频| 午夜一区二区三区观看| 天堂资源中文最新版在线一区| 欧美在线资源| 亚洲av大片在线免费观看| 精品香蕉99久久久久网站| 亚洲av综合色区无码一二三区| 2020亚洲国产| 99久久精品国产91| 波多野结衣的av一区二区三区| 三上悠亚精品一区二区久久| 国产精品国产三级厂七| 日韩午夜理论免费tv影院| 成年无码av片完整版| 亚洲一区精品中文字幕 | 老师开裆丝袜喷水视频| 色爱区综合五月激情| 久久久精品国产视频在线| 水蜜桃精品视频在线观看| 亚洲人成未满十八禁网站| 日本a级大片免费观看|