亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領(lǐng)域詞典的網(wǎng)絡(luò)商品評(píng)論情感分析

        2018-02-09 07:19:01孔偉俊胡廣朋
        關(guān)鍵詞:詞匯情感分析

        孔偉俊 胡廣朋

        (江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 鎮(zhèn)江 212003)

        1 引言

        隨著互聯(lián)網(wǎng)和電子商務(wù)的不斷發(fā)展,人們?cè)絹?lái)越熱衷于網(wǎng)絡(luò)購(gòu)物,商品評(píng)論急劇增加。商品評(píng)論中包含了許多有用的信息,消費(fèi)者可以通過(guò)評(píng)論了解商品的口碑,做出購(gòu)買決策。品牌商家可以通過(guò)評(píng)論發(fā)現(xiàn)產(chǎn)品的優(yōu)劣,對(duì)優(yōu)點(diǎn)進(jìn)行宣傳,對(duì)缺點(diǎn)進(jìn)行改進(jìn),進(jìn)而更好地維護(hù)商品的品牌價(jià)值。隨著線上交易的增長(zhǎng),網(wǎng)絡(luò)評(píng)論數(shù)據(jù)也越來(lái)越多。商品評(píng)論不管是對(duì)消費(fèi)者或者是品牌商家來(lái)說(shuō)都是至關(guān)重要的數(shù)據(jù),因此對(duì)網(wǎng)絡(luò)商品評(píng)論進(jìn)行情感分析有著重大的意義。

        但是,目前電商平臺(tái)上的評(píng)論僅僅分為好評(píng)和差評(píng),傳統(tǒng)的情感分析不能對(duì)情感強(qiáng)度進(jìn)行量化分析,不同領(lǐng)域?qū)η楦蟹治龅臏?zhǔn)確率影響也很大,此外中文語(yǔ)法的復(fù)雜性也大大增加了情感分析的難度[1]。因此,針對(duì)以上問(wèn)題,目前急需一種情感分析技術(shù)來(lái)更好地對(duì)評(píng)論進(jìn)行情感分析,幫助消費(fèi)者以及品牌商家更好地做出正確的決策。

        2 相關(guān)工作

        情感分析中的重要的一個(gè)環(huán)節(jié)就是情感傾向性分類的研究[2~4]。在情感傾向性分類研究中目前有兩類研究方向:第一類基于語(yǔ)義的文本傾向性分析技術(shù)[5],第二類是基于機(jī)器學(xué)習(xí)的文本傾向性分析方法[6]。

        基于語(yǔ)義的文本傾向性分析技術(shù)主要是提取產(chǎn)品評(píng)論中的觀點(diǎn)詞,以詞匯傾向性分類為基礎(chǔ),建立相應(yīng)的含有極性值的觀點(diǎn)詞詞典,對(duì)詞匯進(jìn)行傾向性評(píng)分,然后將傾向性得分進(jìn)行加權(quán)平均來(lái)判斷文本傾向性。通過(guò)對(duì)文本情感詞的提取可以通過(guò)相應(yīng)的算法或詞典得到相應(yīng)的極性。目前主要計(jì)算情感詞極性的方法主要有兩種,第一種是基于詞典的方法[7],第二種是基于語(yǔ)料庫(kù)的方法[8]。

        第二類是基于機(jī)器學(xué)習(xí)的文本傾向性分析方法,利用支持向量機(jī)、粗糙集、模糊集和貝葉斯等分類技術(shù)實(shí)現(xiàn)對(duì)文本傾向性的識(shí)別[9]。

        兩類分類方法各有優(yōu)缺點(diǎn),相比于第二種,基于語(yǔ)義的文本傾向性分析方法更為通用,無(wú)需訓(xùn)練樣本,對(duì)詞匯傾向性分類技術(shù)依賴較小,而第二種基于機(jī)器學(xué)習(xí)的分類方法需要大量訓(xùn)練的樣本,樣本越大分類效果越好。本文選取第一種方法來(lái)對(duì)網(wǎng)絡(luò)商品評(píng)論進(jìn)行情感分析,通過(guò)構(gòu)建能夠自動(dòng)擴(kuò)展的情感詞典并結(jié)合其它詞典,來(lái)量化情感強(qiáng)度,通過(guò)情感強(qiáng)度判斷情感極性。

        3 情感詞典構(gòu)建

        3.1 評(píng)論數(shù)據(jù)搜集

        本文主要針對(duì)京東商城的評(píng)論進(jìn)行分析,通過(guò)爬蟲模塊爬取某款筆記本電腦的商品評(píng)論頁(yè)面,通過(guò)利用xPath技術(shù)獲取頁(yè)面中的評(píng)論數(shù)據(jù),選取其中的1000條作為語(yǔ)料庫(kù),另取1000條作為測(cè)試庫(kù),將測(cè)試庫(kù)通過(guò)人工標(biāo)注分為正面評(píng)論和負(fù)面評(píng)論兩個(gè)部分,經(jīng)過(guò)人工標(biāo)注獲得正面評(píng)論864條,負(fù)面評(píng)論136條。

        3.2 評(píng)論數(shù)據(jù)預(yù)處理

        從互聯(lián)網(wǎng)中獲得的產(chǎn)品評(píng)論,要進(jìn)行文本的特征提取,提取出具有代表性的屬性詞以及情感詞,這個(gè)過(guò)程最開始的技術(shù)就是中文分詞技術(shù)[10]。商品評(píng)論屬于非結(jié)構(gòu)化的文本,計(jì)算機(jī)是無(wú)法對(duì)這些句子進(jìn)行處理的,無(wú)論是分類還是聚類,都需要對(duì)詞匯進(jìn)行處理[11]。本文選用中科院自主研發(fā)的Java版本的ICTCLAS2011,支持當(dāng)前廣泛承認(rèn)的分詞和詞類標(biāo)準(zhǔn),同時(shí)用戶可以將自定義的情感詞典加入分詞詞典中,也可以設(shè)置優(yōu)先級(jí),來(lái)提高系統(tǒng)分詞的準(zhǔn)確度。

        通過(guò)分詞系統(tǒng)可以對(duì)評(píng)論文本進(jìn)行分詞,將其中的形容詞作為情感詞,距離形容詞最近的名詞作為特征屬性詞,通過(guò)對(duì)特征屬性詞進(jìn)行情感分析可以更細(xì)粒度地了解消費(fèi)者對(duì)商品特征屬性的意見。將語(yǔ)料庫(kù)的1000條評(píng)論作為訓(xùn)練集,提取出其中所有的情感詞作為領(lǐng)域詞典的基準(zhǔn)詞庫(kù)。

        3.3 領(lǐng)域情感詞典的構(gòu)建

        1)基準(zhǔn)情感詞構(gòu)建

        領(lǐng)域詞典的構(gòu)建首先要有基準(zhǔn)情感詞作為基準(zhǔn)的褒貶詞匯,需要的是具有明顯褒貶情感傾向的詞匯,相同的褒貶詞匯在不同的領(lǐng)域內(nèi)的褒貶傾向程度并不一定一樣,在不同領(lǐng)域的情感強(qiáng)度可能會(huì)有所不同,本文所需要分析的是在領(lǐng)域內(nèi)具有明確情感傾向且高靈敏度的詞匯?;鶞?zhǔn)情感詞構(gòu)建流程如圖1所示。

        圖1 基準(zhǔn)情感詞生成流程

        Step1:對(duì)上文提取的基準(zhǔn)詞庫(kù)中的情感詞進(jìn)行詞頻統(tǒng)計(jì)。

        Step2:過(guò)濾掉低于設(shè)定閾值的詞匯。

        Step3:通過(guò)HowNet正負(fù)面詞匯集判定高頻詞匯的正負(fù)情感傾向。

        Step4:采用基于知網(wǎng)的語(yǔ)義相似度計(jì)算方法來(lái)計(jì)算詞匯之間的Similarity值。

        Step5:選取值靠前的詞匯組成候選詞集,并計(jì)算它們相互之間的Similarity值。

        Step6:分別隨機(jī)分組并進(jìn)行組內(nèi)Similarity值計(jì)算。

        Step7:正負(fù)基準(zhǔn)詞集相互進(jìn)行相似度計(jì)算是為了獲得該領(lǐng)域情感傾向更為鮮明的詞作為基準(zhǔn)情感詞集,更準(zhǔn)確的識(shí)別情感傾向。

        Step8:各取正負(fù)候選詞前60個(gè)組成基準(zhǔn)詞。

        2)領(lǐng)域詞典自動(dòng)擴(kuò)充

        在基準(zhǔn)詞的基礎(chǔ)上,將用上文提取到的情感詞對(duì)領(lǐng)域詞典進(jìn)行擴(kuò)充。本文用基于知網(wǎng)語(yǔ)義相似度計(jì)算方法來(lái)計(jì)算詞之間的語(yǔ)義相似性。計(jì)算公式如下所示:

        通過(guò)計(jì)算每個(gè)情感詞與基準(zhǔn)情感詞的Similarity值。當(dāng)與褒義情感詞的Similarity值大于貶義情感詞時(shí),則判斷為褒義情感詞,反之則為貶義情感詞。

        利用式(2)可以計(jì)算判斷情感詞的極性。之后可以加入領(lǐng)域詞庫(kù)中,過(guò)程如圖2所示。

        圖2 領(lǐng)域情感詞自動(dòng)識(shí)別和標(biāo)注

        3.4 基礎(chǔ)詞典的構(gòu)建

        構(gòu)建一個(gè)跨領(lǐng)域的極性詞典是十分困難的,所以在上一節(jié)本文介紹了領(lǐng)域詞典的構(gòu)建以及自動(dòng)擴(kuò)展方法。由于用于提取情感詞的語(yǔ)料庫(kù)是有限的,不可能含有所有的情感詞,所以本文需要一個(gè)基礎(chǔ)詞典來(lái)盡可能多的涵蓋各個(gè)領(lǐng)域。HowNet是目前中文領(lǐng)域中比較經(jīng)典且常用的極性詞典,本文選取HowNet作為基礎(chǔ)詞典,并對(duì)該詞典進(jìn)行優(yōu)化,并且結(jié)合了上文所構(gòu)建的領(lǐng)域詞典。基礎(chǔ)情感詞典構(gòu)建流程如圖3所示。

        Step1:加入HowNet中的褒義詞和貶義詞情感詞。

        Step2:將Step1中的獲得的情感詞過(guò)濾掉領(lǐng)域詞典中的詞匯。

        Step3:通過(guò)搜狗實(shí)驗(yàn)室互聯(lián)網(wǎng)詞庫(kù)SougoW中的詞頻信息,過(guò)濾掉一個(gè)月內(nèi)出現(xiàn)頻率在15萬(wàn)次以下的低頻詞匯,獲得基礎(chǔ)情感詞典。

        Step4:對(duì)基礎(chǔ)詞匯進(jìn)行人工標(biāo)注,褒義的情感詞匯情感強(qiáng)度設(shè)定為0.8,貶義的設(shè)定為-0.8。

        圖3 基礎(chǔ)詞典構(gòu)建流程

        通過(guò)以上基礎(chǔ)詞典構(gòu)建流程獲得正向情感詞3558個(gè),獲得負(fù)向情感詞3217個(gè)。

        3.5 修飾副詞詞典的構(gòu)建

        在對(duì)評(píng)論進(jìn)行情感分析時(shí),除了考慮其情感詞是褒義或是貶義的,還需要考慮情感強(qiáng)度,目前的大部分情感分析只對(duì)其進(jìn)行情感傾向性分析,而忽略了情感強(qiáng)度,比如“還好”和“非常好”都是屬于褒義詞,但是修飾副詞的不同導(dǎo)致了其情感強(qiáng)度的不同,所以分析其極性強(qiáng)度是非常有必要的。本文通過(guò)建立副詞詞典來(lái)計(jì)算極性強(qiáng)度。

        本文對(duì)程度副詞進(jìn)行分類,首先把程度副詞分為相對(duì)程度副詞和絕對(duì)程度副詞兩類,并在此基礎(chǔ)上再進(jìn)行細(xì)分,細(xì)分的情感強(qiáng)度范圍為(0.5,2.0),其中極量詞匯的情感強(qiáng)度最高為2.0,之后依次為高量1.5,中量1.0,低量0.5,采用不同情感強(qiáng)度,能夠有效區(qū)分情感詞強(qiáng)度的大小。

        表1 程度副詞詞典

        3.6 否定詞詞典的構(gòu)建

        在對(duì)評(píng)論進(jìn)行情感分析時(shí),如果這句評(píng)論中存在否定詞,那么該句子的極性可能就會(huì)完全相反。如“我非常不喜歡這款手機(jī)的背面”提取情感詞為“喜歡”,通過(guò)情感詞詞典得出為褒義,但是由于這句話里面有否定詞的存在,這句話的實(shí)際情感傾向是貶義的。所以提取否定詞對(duì)于情感傾向性分析是十分重要的。

        本文選取文獻(xiàn)中否定副詞范圍的界定,選取“甭、別、不、白、白白、不必、非、干、不曾、不要、不用、何必、何須、何曾、何嘗、空、沒、沒有、莫、徒、徒然、枉、未、未曾、未嘗、無(wú)須(無(wú)須乎、無(wú)需、毋須)、毋庸(無(wú)庸)、勿、瞎、休、虛”等 31個(gè)否定副詞,由于否定詞表達(dá)的情感都是相反的,所以其情感強(qiáng)度為-1,表示相反的情感傾向。

        4 商品評(píng)論情感分析策略

        前文構(gòu)建了本文所需要使用的詞典,本文在該詞典的基礎(chǔ)上通過(guò)詞典匹配計(jì)算情感詞的強(qiáng)度,通過(guò)計(jì)算情感詞的情感強(qiáng)度不僅可以區(qū)分情感傾向同時(shí)也可以更好的分析出評(píng)論表達(dá)的強(qiáng)烈程度。通過(guò)不同的情感值相乘可以得到更合理的情感強(qiáng)度。通過(guò)詞典來(lái)計(jì)算特征屬性的情感強(qiáng)度以及極性步驟如下:

        Step1:通過(guò)3.2節(jié)介紹的特征提取方法提取評(píng)論中的特征詞。對(duì)相同含義特征詞進(jìn)行合并。取出現(xiàn)次數(shù)最高的特征詞作為表達(dá)該特征的特征詞。

        Step2:提取情感詞、修飾副詞以及否定副詞提取組成四元組<特征詞F,情感詞E,修飾副詞M,否定副詞N>,若不存在副詞則為空。

        Step3:建立情感詞典,獲取每個(gè)特征詞對(duì)應(yīng)的情感詞、修飾副詞、否定副詞的情感強(qiáng)度。將情感強(qiáng)度相乘,對(duì)相同的特征詞求均值。計(jì)算公式如下所示:

        式(3)中Se是情感詞典中情感詞的情感強(qiáng)度,Sm是程度副詞的情感強(qiáng)度,若存在否定詞則Sn的值為-1。

        Step4:將獲得的情感強(qiáng)度作為該特征的用戶滿意度,若情感強(qiáng)度大于0則為褒義,小于0則為貶義。

        5 實(shí)驗(yàn)數(shù)據(jù)

        本文利用3.1節(jié)所提取的測(cè)試集對(duì)本文提出的方法進(jìn)行測(cè)試,通過(guò)對(duì)提取到的四元組進(jìn)行計(jì)算,可以細(xì)粒度地對(duì)商品評(píng)論進(jìn)行分析,通過(guò)判斷情感強(qiáng)度可以得出消費(fèi)者評(píng)論的情感傾向。

        本實(shí)驗(yàn)對(duì)比基于基礎(chǔ)詞典和加入領(lǐng)域詞典以及其他詞典的情感分析。實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)有召回率R、準(zhǔn)確率P和F值,公式如下:

        其中,TP表示實(shí)驗(yàn)結(jié)果中特征屬性詞的條數(shù),F(xiàn)P表示不準(zhǔn)確的條數(shù),F(xiàn)N表示未被檢測(cè)到的特征詞的條數(shù)。

        表2 實(shí)驗(yàn)結(jié)果

        從表2中可以看出結(jié)合其他詞典的方法相較于僅基于基礎(chǔ)詞典的方法在準(zhǔn)確率、召回率和F均值方面都有較明顯提高。通過(guò)實(shí)驗(yàn)表明本文提出的方法在網(wǎng)絡(luò)商品評(píng)論情感分析方面具有良好表現(xiàn)并有一定的實(shí)用價(jià)值。

        6 結(jié)語(yǔ)

        本文為了更好地對(duì)網(wǎng)絡(luò)商品評(píng)論進(jìn)行細(xì)粒度地情感分析,構(gòu)建領(lǐng)域詞典并加入了其它詞典,利用詞典匹配的方法進(jìn)行情感強(qiáng)度計(jì)算,和以前的僅僅依賴基礎(chǔ)詞典的方法相比,能夠自動(dòng)擴(kuò)建情感詞典,并且自動(dòng)計(jì)算新加入的詞匯的情感傾向,大大節(jié)約了時(shí)間,不需要人工標(biāo)注,通過(guò)實(shí)驗(yàn)也證明了該方法的可行性。

        在實(shí)驗(yàn)過(guò)程中也有一些不足的地方,現(xiàn)在網(wǎng)絡(luò)越發(fā)發(fā)達(dá),人們表達(dá)情感的方式更加個(gè)性化,不斷有新的網(wǎng)絡(luò)詞匯會(huì)出現(xiàn)在商品評(píng)論中,在本文的方法中對(duì)網(wǎng)絡(luò)詞匯識(shí)別并不準(zhǔn)確,所以在接下來(lái)的工作中,可以把網(wǎng)絡(luò)詞匯添加到詞典中。同時(shí)由于中文語(yǔ)法的特殊性,句法依存、上下文環(huán)境也是需要研究的地方。

        猜你喜歡
        詞匯情感分析
        本刊可直接用縮寫的常用詞匯
        隱蔽失效適航要求符合性驗(yàn)證分析
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        一些常用詞匯可直接用縮寫
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        本刊可直接用縮寫的常用詞匯
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        成人性生交大全免费看| 国产啪精品视频网站| 91视频免费国产成人| 亚洲欧美国产日产综合不卡| 亚洲色偷偷偷综合网另类小说| 小草手机视频在线观看| 久久一二区女厕偷拍图| 亚洲av高清在线观看一区二区| 女人让男人桶爽30分钟| 国产一级特黄无码免费视频| 久久青草国产免费观看| 亚洲视频在线视频在线视频| 激情视频在线观看好大| 国产98色在线 | 国产| 中文字幕精品无码一区二区| 久久精品无码一区二区2020| 日本一区二区高清视频在线| 亚洲综合色区一区二区三区| 国产成年无码v片在线| 亚洲成在人线久久综合| 激情视频在线观看国产中文| 精品人妻少妇丰满久久久免| 精品久久久久久久久午夜福利| 激情综合色五月丁香六月亚洲| 91免费永久国产在线观看| 亚洲 国产 韩国 欧美 在线| 日本老熟女一区二区三区| 亚洲乱码国产乱码精华 | 一级r片内射视频播放免费| 国产精品无码久久久久| 国产精美视频| 日韩精品av在线一区二区| 国产美女高潮流白浆免费视频| 欧美猛男军警gay自慰| 国产精品一区二区韩国AV| 日本一区二区三本视频在线观看| 风韵人妻丰满熟妇老熟女视频| 成在线人av免费无码高潮喷水| 国产美女遭强高潮网站| 亚洲欧洲国无码| 女同亚洲一区二区三区精品久久|