亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2Vec和HowNet的情感詞典構(gòu)建方法

        2018-03-14 10:21:13元海霞
        現(xiàn)代計算機 2018年4期
        關(guān)鍵詞:語義情感方法

        元海霞

        (重慶師范大學(xué)計算機與信息科學(xué)學(xué)院,重慶 401331)

        0 引言

        隨著移動互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)在我們的生活中占據(jù)了舉足輕重的地位。越來越多的人通過網(wǎng)絡(luò)購買物品,而對購買物品的滿意度,用戶又可以通過互聯(lián)網(wǎng)平臺表達(dá)自己的情感和態(tài)度。通過對這些帶著感情色彩的評論文本的分析,不僅可以使商家了解用戶最關(guān)心的問題和對商品的滿意度,明確商品的優(yōu)點和不足,根據(jù)用戶提出的不足改進(jìn)商品,提升市場競爭力;還可以為待消費者節(jié)約時間和精力,提供參考方向。

        在情感傾向性分析中,情感詞典是有利的分析工具,具有重要的研究價值。通用手工或半自動方式構(gòu)建的情感詞典,如 General Inquirer(GI)、SentiWordNet,其覆蓋范圍有限,領(lǐng)域適應(yīng)性和可靠性較差[1-2]。因此,越來越多的研究開始致力于情感詞典的自動構(gòu)建。其中一類主要方法是利用語義知識庫擴充情感詞典,如WordNet、HowNet等[3-5]。該類方法首先選擇一組已知情感傾向的詞語作為種子詞,然后利用知識庫中詞語間的同義、反義、上下位,詞語與義原的語義關(guān)系來確定候選詞的情感傾向[6]。但是這類方法存在過于依賴語義知識庫,覆蓋范圍有限,領(lǐng)域適用性較差等問題。針對以上問題,本文基于Word2Vec和HowNet進(jìn)行情感詞典的構(gòu)建。該方法對語料首先利用Word2Vec訓(xùn)練詞向量獲取與候選詞最接近的10個詞,根據(jù)候選詞與這10個相近詞的語義相似度確定候選詞的情感傾向,而對于用Word2Vec方法無法確定情感傾向的詞語,則用HowNet方法進(jìn)行判定,先從基礎(chǔ)情感詞典中選擇種子詞,然后計算詞語之間的語義相似度,相似度越大則情感傾向越相近。

        1 情感詞典構(gòu)建思路概述

        本文提出的基于Word2Vec和HowNet的情感詞典構(gòu)建方法的基本思路如圖1所示。

        (1)將HowNet情感詞典和臺灣大學(xué)構(gòu)建的NTU進(jìn)行合并作為基礎(chǔ)情感詞典。

        (2)選擇訓(xùn)練語料中的形容詞,動詞組成候選情感詞集。

        (3)基于Word2Vec判斷候選情感詞的情感傾向。應(yīng)用訓(xùn)練語料訓(xùn)練Word2Vec,得到詞的向量表示,獲取與候選情感詞最接近的10個詞,在基礎(chǔ)情感詞典中查找這10個相近詞的情感傾向,基于候選情感詞與這10個相近詞中褒貶情感詞的語義相似度確定候選情感詞的情感傾向。

        (4)對于最接近的10個詞在基礎(chǔ)情感詞典中都找不到無法確定情感傾向的候選情感詞,基于HowNet進(jìn)行情感傾向判定。從基礎(chǔ)情感詞典選擇總情感詞數(shù)量的15%左右作為種子詞[7],計算候選情感詞與種子詞的語義相似度確定候選詞的情感傾向。

        圖1 情感詞典構(gòu)建流程

        2 基于Word2Vec和HowNet的情感詞典構(gòu)建方法

        2.1 候選情感詞的提取

        情感詞指語句中具有情感傾向性的詞語,它可以是名詞、動詞、形容詞、副詞以及短語等[8]。語句的情感傾向一般情況下主要通過情感詞來表現(xiàn),因此情感詞是判斷情感傾向的重要依據(jù)之一。情感詞通常情感傾向強烈,例如表達(dá)心情的興奮、高興、悲傷、沉悶,或是表達(dá)喜好的喜歡、偏愛、厭惡、討厭等,情感詞通常分為褒義詞與貶義詞。本文通過對餐飲評論的分析,選擇語料中的形容詞和動詞作為候選情感詞。

        2.2 基于Word 2Vec判斷候選情感詞的情感傾向

        Word2Vec是2013年Google開源的一款用于詞向量計算的工具,引起了學(xué)術(shù)界的廣泛關(guān)注。它可以把詞語用向量表示,映射到向量空間進(jìn)行處理,為自然語言處理提供了便捷。Word2Vec首先在數(shù)據(jù)集上進(jìn)行高效地訓(xùn)練,然后得到訓(xùn)練結(jié)果—詞向量,利用詞向量可以很好地度量詞與詞之間的相似性。

        基于Word2Vec判斷候選情感詞的情感傾向步驟如下:

        (1)獲取與候選情感詞最近的10個詞

        利用訓(xùn)練語料訓(xùn)練Word2Vec,得到詞語的詞向量并存入vector.bin文件中。如果在基礎(chǔ)情感詞典中能找到候選情感詞,說明候選詞的情感傾向能夠確定則跳過;否則,在Word2Vec中執(zhí)行distance vector.bin獲取與候選情感詞最接近的10個詞。

        (2)判斷候選情感詞的情感傾向

        根據(jù)候選情感詞與10個相近詞中褒貶情感詞的語義相似度確定情感傾向:

        其中,sim(word1,word2)表示 word1和 word2之間的語義相似度;Pword表示褒義詞,Nword表示貶義詞;O(word)表示情感傾向,O(word)>0時,情感傾向為褒義,O(word)<0時,情感傾向為貶義。

        詞語之間的語義相似度用詞向量的余弦值來表示。余弦值越大,兩個詞語的語義相似度越高,情感傾向越相近[9]。例如兩個 n維向量 a(x11,x12,…,x1n)和 b(x21,x22,…,x·n),余弦值的計算公式如下:

        2.3 基于HowNet判斷候選情感詞的情感傾向

        基于HowNet計算詞語間語義相似度的思路是整體相似度由部分相似度加權(quán)平均進(jìn)行計算,包含三個計算過程[10]。

        (1)義原相似度計算

        兩個義原之間的語義距離計算公式如下:

        公式中,α為可調(diào)節(jié)參數(shù),p1和p2代表兩個義原,distance(p1,p2)代表兩個義原的路徑距離。

        (2)概念相似度計算

        概念相似度是義原相似度之和,得到義原之間相似度之后,計算公式如下:

        公式中,n一般取 2或 4,βi是可調(diào)節(jié)參數(shù),β1+…+βn=1且 β1≥…≥βn。

        (3)詞語語義相似度計算

        詞語語義相似度計算公式如下:

        公式中,s1i是 w1的第 i個概念,s1j是 w2的第 j個概念,sim(w1,w2)代表w1和 w2的相似度,它的值是各個概念的相似度之中的最大值。

        當(dāng)用Word2Vec獲取的最接近的10個詞在基礎(chǔ)情感詞典中都找不到而無法確定候選情感詞的情感傾向時則基于HowNet進(jìn)行判斷,步驟如下:

        (1)種子詞的選取

        基于HowNet判斷候選情感詞的情感傾向的過程中需要選取一些情感傾向明顯、強烈的詞語作為種子詞,包括褒義種子詞和貶義種子詞。與褒義種子詞語義相似度越高,則越傾向貶義,反之與貶義種子詞語義相似度越高,則越傾向貶義。柳位平等人經(jīng)實驗驗證選取種子詞的數(shù)量占總情感詞數(shù)量的15%左右時情感傾向判斷準(zhǔn)確率達(dá)到90%左右[7]。因此,本文從基礎(chǔ)情感詞典中選擇情感傾向明顯的褒義詞和貶義詞各137個。

        (2)判斷候選情感詞的情感傾向

        根據(jù)候選情感詞與兩組種子詞的語義相似度確定情感傾向,具體計算公式如下:

        其中,sim(word1,word2)表示 word1和 word2的語義相似度,用公式(5)計算;m表示褒義詞個數(shù),Pword表示褒義詞;n表示貶義詞個數(shù),Nword表示貶義詞。O(word)表示情感傾向,當(dāng) O(word)>0 時表示候選詞word為褒義詞,O(word)<0時表示候選詞word為貶義詞。

        3 實驗分析

        為了驗證本文提出的情感詞典構(gòu)建方法的有效性,從詞語情感類別判定準(zhǔn)確性進(jìn)行具體的實驗驗證。本實驗的實驗語料來自大眾點評網(wǎng)美食類別,包括各餐館的所有評論。利用八爪魚采集器從大眾點評網(wǎng)美食頻道采集5萬多條餐飲評論作為語料構(gòu)建情感詞典。采用中科院分詞工具ICTCLAS對餐飲評論進(jìn)行分詞,選擇分詞結(jié)果中的形容詞和動詞作為候選情感詞。為了保證分類結(jié)果的準(zhǔn)確性,先由兩名標(biāo)注人員進(jìn)行人工標(biāo)注,對于標(biāo)注結(jié)果不一樣的候選詞,由第三名人員進(jìn)行標(biāo)注。計算了Fleiss Fappa指標(biāo)來評價標(biāo)注結(jié)果的一致性。

        本文使用精確率(Precision)、召回率(Recall)以及F1值(F1-measure)作為評價標(biāo)準(zhǔn)[1]。計算方式為:

        其中,TP表示正確識別的情感詞個數(shù),F(xiàn)P表示被錯誤劃分為正類的情感詞個數(shù),F(xiàn)N表示被錯誤劃分為負(fù)類的情感詞個數(shù)。實驗結(jié)果如表1所示。

        表1 基于不同詞典的情感分類實驗對比

        從表1可以看出,用Word2Vec+HowNet構(gòu)建的褒義情感詞典在精確率、召回率和F1值三個評價指標(biāo)上都要高于用HowNet和Word2Vec構(gòu)建的情感詞典,雖然用Word2Vec+HowNet構(gòu)建的貶義情感詞典在召回率上沒有Word2Vec構(gòu)建的情感詞典高,但仍然高于HowNet構(gòu)建的情感詞典,而且精確率和F1值都略高于其他兩種方法。分析其原因:HowNet方法通過計算候選情感詞與兩類種子詞集中所有詞的語義相似度來確定情感詞的情感傾向,但是種子詞的選取具有較強的主觀性和領(lǐng)域性,因此影響了該方法的分類準(zhǔn)確率;Word2Vec方法是在語料庫上訓(xùn)練一個模型,得到語料庫中詞語的詞向量,計算詞語間的余弦值得到與候選詞最接近的詞,根據(jù)相近詞的情感傾向確定候選詞的情感傾向,但是有時相近詞的情感傾向也不確定,這就導(dǎo)致候選詞的情感傾向不能確定;Word2Vec+HowNet方法針對Word2Vec方法的缺點用HowNet方法進(jìn)行彌補,大大增加了情感詞典的覆蓋率。所以總體來看,本文提出的情感詞典構(gòu)建方法具有較高的準(zhǔn)確性和可利用性。

        4 結(jié)語

        本文針對基于Word2Vec構(gòu)建情感詞典的不足,提出一種基于Word2Vec和HowNet構(gòu)建情感詞典的方法。該方法首先從語料中選擇候選情感詞,然后利用Word2Vec訓(xùn)練語料得到詞向量,進(jìn)而得到與候選詞最接近的10個詞,根據(jù)候選情感詞與這10個相近詞的語義相似度確定情感傾向,而對于最接近的10詞都無法確定褒貶導(dǎo)致候選情感詞情感傾向不確定時,則用HowNet方法來判斷,即先從基礎(chǔ)情感詞典中選擇種子詞,然后計算候選詞與種子詞的語義相似度,相似度越大則情感傾向越相近。實驗結(jié)果表明,本文提出的情感詞典構(gòu)建方法在餐飲評論情感詞典構(gòu)建中具有較高的準(zhǔn)確性和可利用性。

        下一步研究中,將在其他多種語料中對本文方法進(jìn)行實驗。通過實驗發(fā)現(xiàn)種子詞的選擇對準(zhǔn)確率有一定的影響,如何選擇合適的種子詞將是后續(xù)研究的重點。

        [1]王科,夏睿.情感詞典自動構(gòu)建方法綜述[J].自動化學(xué)報,2016,42(04):495-511.

        [2]謝松縣,劉博,王挺.應(yīng)用語義關(guān)系自動構(gòu)建情感詞典[J].國防科技大學(xué)學(xué)報,2014,36(03):111-115.

        [3]Kim S M,Hovy E.Determining the Sentiment of Opinions[C].Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004.

        [4]Hassan A,Radev D.Identifying Text Polarity Using Random Walks[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:395-403.

        [5]周詠梅,楊佳能,陽愛民.面向文本情感分析的中文情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報(工學(xué)版),2013,43(06):27-33.

        [6]張璞,王俊霞,王英豪.基于標(biāo)簽傳播的情感詞典構(gòu)建方法[J/OL].計算機工程,:1-7(2017-06-01).http://kns.cnki.net/kcms/detail/31.1289.TP.20170601.1406.006.html.

        [7]柳位平,朱艷輝,栗春亮,向華政,文志強.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計算機應(yīng)用,2009,29(10):2875-2877.

        [8]陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].華中科技大學(xué),2012.

        [9]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J].計算機科學(xué),2016,43(S1):387-389.

        [10]黃時友.面向話題型微博評論的觀點識別及其情感傾向分析研究[D].杭州電子科技大學(xué),2015.

        [11]張衛(wèi).互聯(lián)網(wǎng)商品評論情感分析研究[D].重慶大學(xué),2016.

        [12]陳柯宇,何中市.基于情感詞典的酒店評論情感分類研究[J].現(xiàn)代計算機(專業(yè)版),2017,(06):3-6.

        [13]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[D].北京:中國科學(xué)院計算技術(shù)研究所,2002.

        [14]陸峰.基于Word2Vec擴充情感詞典的商品評論傾向分析[J].電腦知識與技術(shù),2017,13(05):143-145+159.

        [15]楊小平,張中夏,王良,張永俊,馬奇鳳,吳佳楠,張悅.基于Word2Vec的情感詞典自動構(gòu)建與優(yōu)化[J].計算機科學(xué),2017,44(01):42-47+74.

        猜你喜歡
        語義情感方法
        如何在情感中自我成長,保持獨立
        語言與語義
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長,保持獨立
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        大红酸枝极品老料颜色| 鲁一鲁一鲁一鲁一澡| 高清无码精品一区二区三区| 玩弄极品少妇被弄到高潮| 国产亚洲精品自在久久77| 91久国产在线观看| 今井夏帆在线中文字幕| 日本男人精品一区二区| 久久青青草原亚洲av无码麻豆| 99久久久无码国产精品试看| 三级国产女主播在线观看| 久久2020精品免费网站| 精品无码久久久久久久久水蜜桃| 久久精品国产免费观看| 日本大尺度吃奶呻吟视频| 中文字幕亚洲无线码高清| 国产女主播大秀在线观看| 亚洲综合欧美色五月俺也去| 亚洲美免无码中文字幕在线| 色综合999| 日本一区二三区在线中文| 日韩性爱视频| 欧美第一黄网免费网站| 丰满熟妇人妻av无码区 | 久久婷婷五月综合97色一本一本| 国产麻豆精品久久一二三| 亚洲欧美日韩高清中文在线| 97女厕偷拍一区二区三区| 伊人久久精品无码二区麻豆| 熟女熟妇伦av网站| 亚洲综合色一区二区三区小说| 中文字幕亚洲乱码熟女在线| 美女脱了内裤露出奶头的视频| 人人妻一区二区三区| 国产精品无码精品久久久| 国产99视频一区二区三区| 亚洲av福利院在线观看| 波多野结衣中文字幕久久| 国产经典免费视频在线观看 | 日日摸夜夜欧美一区二区| 亚洲精品中文字幕尤物综合|