亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于表情符號(hào)的情感詞典的構(gòu)建研究

        2019-06-14 07:29:26林江豪顧也力周詠梅陽愛民
        關(guān)鍵詞:詞匯情感方法

        林江豪,顧也力,周詠梅,陽愛民,陳 錦

        (1.廣東外語外貿(mào)大學(xué),廣東 廣州 510006;2.廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006;3.廣東外語外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510006)

        0 引 言

        文本情感分析有利于觀點(diǎn)挖掘、產(chǎn)品口碑分析、輿情分析等實(shí)際應(yīng)用。詞語作為用戶表達(dá)觀點(diǎn)的最小單元,富含情感信息。因此,構(gòu)建高品質(zhì)的情感詞典,能有效應(yīng)用于文本情感分析[1]。由于微博文本具有口語化的特點(diǎn),并且來自多個(gè)領(lǐng)域,導(dǎo)致用戶在微博文本中使用到的情感詞差異性非常大,加大了微博文本情感分析的難度。因此,構(gòu)建能應(yīng)用于微博文本情感分析的情感詞典具有重要的價(jià)值。情感詞是組成情感詞典的單元,其存在形式一般為情感詞,情感傾向和情感權(quán)值。如國外知名的SentiwordNet[2]分別給出情感詞的正向、中性和負(fù)向三種極性的情感權(quán)重。國內(nèi)的HowNet[3]則用+1來表示詞匯的正向情感,-1來表示負(fù)向情感。

        現(xiàn)有的情感詞典構(gòu)建方法主要有基于情感詞典的方法[4-9]、基于種子情感詞集方法[10-13]、基于機(jī)器學(xué)習(xí)的方法[11-16]、基于詞向量的方法[17-18]等。文獻(xiàn)[4]提出了基于情感詞典的情感特征提取及其在文本情感分析中的應(yīng)用方法。Dragut等[5]以多情感詞典中詞匯極性不同的現(xiàn)象,自動(dòng)構(gòu)建了領(lǐng)域情感詞典。在短文本情感特征提取中,Vo等提出了利用神經(jīng)網(wǎng)絡(luò)和情感詞典結(jié)合的方法[6]?;贖owNet中情感詞匯的情感信息,文獻(xiàn)[7]提出了語義相似度和語義相關(guān)場(chǎng)兩種計(jì)算方法,通過計(jì)算情感候選詞與HowNet中情感詞匯的語義相似度,得到詞匯的情感傾向。同樣利用HowNet,柳位平等利用義原計(jì)算的優(yōu)勢(shì),根據(jù)詞與正、負(fù)向種子詞的語義相似度差,計(jì)算獲得情感傾向[8]。文獻(xiàn)[9]結(jié)合了HowNet和SentiWordNet,對(duì)詞語進(jìn)行義元分解并計(jì)算其情感值。以情感種子詞集為基礎(chǔ),利用SO-PMI算法,在特定語料環(huán)境中,可計(jì)算獲得詞匯的情感傾向和權(quán)重[10-13]?;跈C(jī)器學(xué)習(xí)算法,在特定語料中對(duì)詞匯信息進(jìn)行統(tǒng)計(jì)和計(jì)算,也可獲得詞匯的情感信息。如文獻(xiàn)[14]提出利用頁面、頁面社區(qū)和頁面社區(qū)的所屬類別,將單詞語義特征映射到這些類別上,獲得詞匯的類別屬性。文獻(xiàn)[15]在新聞和評(píng)論中進(jìn)行對(duì)比分析,再將情感向通用領(lǐng)域擴(kuò)展,得到通用的情感特征。文獻(xiàn)[16]通過利用評(píng)論中的普通特征訓(xùn)練情感分類器,再基于spectral聚類將詞匯的情感映射到擴(kuò)展特征?,F(xiàn)有的研究為情感詞典構(gòu)建提供了新思路,特別是在微博語料中進(jìn)行情感詞典構(gòu)建,微博中的表情符號(hào)帶有明顯的情感特征,如用戶喜歡([贊])表示贊同,用([淚])表示傷心等情感,可作為有效的基礎(chǔ)情感信息,進(jìn)而拓展計(jì)算詞語的情感權(quán)值。

        因此,文中利用微博表情符號(hào)的情感表達(dá)作用,選擇情感表情符號(hào)作為基準(zhǔn)情感信息,利用TF-IDF和SO-PMI的計(jì)算優(yōu)勢(shì),實(shí)現(xiàn)情感詞的識(shí)別與情感權(quán)值的計(jì)算,并通過微博文本情感分析任務(wù),驗(yàn)證該方法的有效性。

        1 基于表情符號(hào)的情感詞典構(gòu)建方法

        1.1 SO-PMI算法

        點(diǎn)間互信息算法(pointwise mutual information,PMI)可用于計(jì)算語料庫中兩個(gè)詞語之間的語義相似度。基本思想是統(tǒng)計(jì)詞語在文本中的共現(xiàn)率,共現(xiàn)率越高其語義關(guān)聯(lián)度越高,反之則語義關(guān)聯(lián)度越低。給定語料庫中,通過PMI算法,詞語w1與w2間的PMI值可用兩個(gè)詞在語料庫中共現(xiàn)的概率P(w1&w2)和兩個(gè)詞在語料庫中單獨(dú)出現(xiàn)的概率P(w1)與P(w2)進(jìn)行表示,具體計(jì)算如式1所示。

        詞的語料庫中出現(xiàn)的概率可以使用詞的文檔頻次來計(jì)算。

        (1)

        情感傾向點(diǎn)互信息算法(semantic orientation pointwise mutual information,SO-PMI)是由PMI算法擴(kuò)展而來,通過引入計(jì)算詞語的情感信息,達(dá)到詞語情感傾向計(jì)算的目的。給出正面種子詞集WP和負(fù)面種子詞集WN,則候選情感詞wi的情感傾向值(SO)可采用式2計(jì)算。

        (2)

        SO值大于0的為正面詞匯,小于0的為負(fù)面詞匯。通常將情感傾向值進(jìn)行線性變化,使情感詞的情感權(quán)值為介于[-1,1]之間的實(shí)數(shù),如式3:

        (3)

        為了過濾掉情感表達(dá)較弱的詞匯,在式3中加入約束條件。設(shè)定情感閾值θ(0<θ<1),認(rèn)為情感強(qiáng)度在θ以外的詞匯為非情感詞匯,具體計(jì)算如式4:

        SOnew(wi)=

        (4)

        情感閾值θ的取值直接關(guān)系到情感詞典的規(guī)模和范圍。θ太小容易產(chǎn)生太多的噪音情感詞,影響情感詞典的質(zhì)量;取值過大容易過濾到太多詞匯,約束情感詞典的規(guī)模。

        文中通過大量實(shí)驗(yàn),最終設(shè)定閾值θ=0.35,可取得較好的情感詞典構(gòu)建效果。

        1.2 情感詞典構(gòu)建過程

        情感詞典構(gòu)建過程中,首先選定正、負(fù)種子表情符號(hào)集合Wp和Wn。接著對(duì)微博語料Weibo_texts進(jìn)行分詞和TF-IDF值的計(jì)算,計(jì)算結(jié)果可用W={(w1,tf-idf1),(w2,tf-idf2),…,(wm,tf-idfm)}表示;采用閾值過濾方法,選擇W中TF-IDF值高于閾值的詞匯作為候選詞集WL={(w1,tf-idf1),(w2,tf-idf2),…,(wn,tf-idfn)}(n≤m),WL是表示在語料中具有重要區(qū)分度的詞集,但詞集中詞匯的情感權(quán)重未確定。該算法主要原理是通過計(jì)算詞集WL中每一個(gè)詞wi與Wp、Wn中各個(gè)表情符號(hào)在語料中的情感傾向點(diǎn)互信息,再與詞wi的TF-IDF值tf-idfi相乘,得到詞wi的情感特征權(quán)重;最終獲得情感詞典SentiNet={(w1,wt1),…,(wm,wtm)},實(shí)現(xiàn)了對(duì)詞匯情感表達(dá)的抽象表示,方便計(jì)算機(jī)實(shí)現(xiàn)情感計(jì)算。具體過程如圖1所示。

        圖1 基于表情符號(hào)的情感詞典構(gòu)建

        根據(jù)圖1,利用TF-IDF值的重要性度量和情感表情符號(hào)的情感強(qiáng)度,實(shí)現(xiàn)了情感詞的權(quán)值計(jì)算。算法描述如下:

        算法:基于種子表情符的情感詞典自動(dòng)構(gòu)建算法。

        輸入:微博語料集Weibo_texts;正向表情符號(hào)集Wp;負(fù)向表情符號(hào)集Wn;

        輸出:SentiNet。

        步驟1:初始化Senti2vec=?;

        步驟2:將Weibo_texts進(jìn)行分詞、去標(biāo)點(diǎn)符號(hào)等預(yù)處理,計(jì)算詞匯的TF-IDF值,得到詞集W={(w1,tf-idf1),(w2,tf-idf2),…,(wm,tf-idfm)};

        步驟3:對(duì)每一個(gè)(wi,tf-idfi)((wi,tf-idfi)∈W),如果tf-idfi≥a(a∈[0,1]),則(wi,tf-idfi)→WL;得到WL={(w1,tf-idf1),(w2,tf-idf2),…,(wn,tf-idfn)}(n≤m);

        步驟4:對(duì)每一個(gè)(wi,tf-idfi)((wi,tf-idfi)∈WL),在Weibo_texts中計(jì)算獲得SO(wi);如果SO(wi)滿足式4中的情感詞范圍,則計(jì)算SOnew(wi),進(jìn)而采用式5計(jì)算獲得wti;

        wti←SOnew(wi)×tf-idfi

        (5)

        步驟5:輸出SentiNet={(w1,wt1),…,(wm,wtm)}。

        模型的輸出SentiNet,在情感權(quán)值計(jì)算過程中,一方面考慮了TF-IDF值的重要性度量,另一方面以種子表情符號(hào)的情感信息作為基礎(chǔ),實(shí)現(xiàn)更好的融合。種子表情符號(hào)不受語料的領(lǐng)域約束,使得提出的方法能在情感權(quán)值計(jì)算方面更具有適應(yīng)性。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 語料采集與預(yù)處理

        文中使用的微博語料來自北京理工大學(xué)搜索挖掘?qū)嶒?yàn)室張華平博士的微博開放語料(Weibo_texts),包含了500萬條微博語料,用于情感詞典的構(gòu)建。同時(shí),從新浪微博上采集的4 130個(gè)用戶的298 295條個(gè)人微博。過濾不含有表情符號(hào)的微博和不含情感詞的微博,最后人工篩選4 000條并對(duì)語料進(jìn)行情感極性標(biāo)注,作為微博文本情感分析實(shí)驗(yàn)語料。語料為平衡語料,其中正、負(fù)向情感的微博語料各2 000條,用于微博情感分析實(shí)驗(yàn),驗(yàn)證構(gòu)建的情感詞典在情感分析應(yīng)用中的有效性。

        2.2 種子表情符號(hào)的選擇

        種子表情符號(hào)的有效選擇是情感詞典構(gòu)建的基礎(chǔ)。文中主要采用以下兩種選擇規(guī)則:一是微博語料中的高頻表情符號(hào),有利于提高表情符號(hào)的使用覆蓋率;二是情感極性比較明顯的表情符號(hào),有利于提升情感詞極性計(jì)算結(jié)果的準(zhǔn)確性。

        通過調(diào)用新浪微博API獲取到1 999個(gè)微博表情,對(duì)采集到的微博語料中的表情符號(hào)進(jìn)行頻率統(tǒng)計(jì),選擇出現(xiàn)頻率較高并且情感明顯的表情符號(hào)作為種子表情符號(hào)集,共44個(gè)表情符號(hào),其中正、負(fù)向種子表情符號(hào)各22個(gè)(見表1)。

        表1 種子表情符號(hào)

        2.3 情感詞典構(gòu)建結(jié)果及其驗(yàn)證

        利用文中提出的算法構(gòu)建獲得情感詞匯13 814個(gè),其中正向詞匯6 885個(gè),負(fù)向詞匯6 929個(gè)。將構(gòu)建的情感詞典應(yīng)用于微博語料情感分析實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)為人工標(biāo)注的平衡微博語料,共4 000條,正負(fù)向微博文本各2 000條。隨機(jī)取正向語料100條和負(fù)向語料1 000條構(gòu)建平衡訓(xùn)練語料庫。其余的語料用于微博文本情感分類器的測(cè)試。

        基于支持向量機(jī)(SVM)這種監(jiān)督式學(xué)習(xí)的方法,構(gòu)建了微博文本情感分類器。分類過程中,首先對(duì)微博文本進(jìn)行分詞等文本預(yù)處理操作;接著基于傳統(tǒng)的向量空間模型(vector space model,VSM)對(duì)文本進(jìn)行向量表示,對(duì)出現(xiàn)在SentiNet中的詞匯用情感權(quán)重表示,其他的用0表示,向量的維度是SentiNet的長度。

        同時(shí)直接利用SentiNet中詞匯的情感權(quán)值對(duì)微博語料進(jìn)行情感分析,主要采用情感加權(quán)(SO-SUM)和情感乘積(SO-MUL)的方法,也就是將每一條微博進(jìn)行分詞等預(yù)處理后,直接掃描出現(xiàn)在SentiNet中的情感詞,將每個(gè)情感詞的權(quán)值分別進(jìn)行求和與乘積運(yùn)算,最終每條微博的情感值大于0,則分類為正向,否則為負(fù)向。

        為了進(jìn)一步驗(yàn)證情感詞典,與國內(nèi)知名的HowNet情感詞典進(jìn)行對(duì)比。評(píng)價(jià)指標(biāo)采用微平均F1值。采用折疊交叉實(shí)驗(yàn)的方式,迭代10次,最終取平均值作為實(shí)驗(yàn)結(jié)果,如表2所示。

        表2 微博文本情感分類結(jié)果

        觀察語料和實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),由于微博口語化、轉(zhuǎn)折詞、程度副詞等對(duì)分類效果也有一定的影響,為了驗(yàn)證所構(gòu)建情感詞典的有效性,對(duì)這些影響暫不考慮。因此,僅獲取了微博文本中出現(xiàn)的情感詞作為情感特征,導(dǎo)致總體的F1值偏低。采用SentiNet+SVM的方法可取得較好的分類效果(F1=63.25%)。對(duì)比分析了SentiNet和HowNet兩種情感詞典在分類中的效果,如圖2所示。

        圖2 微博情感分類結(jié)果對(duì)比

        從圖2中可以看出,同樣的分類方法SentiNet可取得比HowNet更好的分類性能。主要原因是,SentiNet是從語料中計(jì)算獲得,情感詞匯的覆蓋面更廣泛一些,能提取到更多有效的情感特征。SO-SUM方法與分類器SVM方法效果相當(dāng),說明文中的情感權(quán)重計(jì)算結(jié)果是有效的。同時(shí),SO-SUM方法具有不需要訓(xùn)練,可直接應(yīng)用于大規(guī)模的語料分類的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,文中方法能對(duì)詞匯中的情感詞匯進(jìn)行有效的表示。

        3 結(jié)束語

        基于詞匯的TF-IDF值,選擇語料中具有重要度區(qū)分的詞匯作為候選情感詞集。提出基于種子表情符號(hào)和SO-PMI算法的權(quán)重計(jì)算方法實(shí)現(xiàn)情感詞匯的情感權(quán)值計(jì)算,最終構(gòu)建情感詞典SentiNet。該方法融合了情感詞的重要度衡量優(yōu)勢(shì)和種子表情符號(hào)集的情感表達(dá)優(yōu)勢(shì),在大量微博語料中實(shí)現(xiàn)了情感詞的權(quán)值計(jì)算?;谖⒉┪谋厩楦蟹治龅膶?shí)驗(yàn)證明了該方法的可行性,構(gòu)建的SentiNet有效。下一步將研究表情符號(hào)和情感詞匯相結(jié)合的種子詞集,分析種子情感集合對(duì)情感詞典構(gòu)建的影響,進(jìn)一步提升SentiNet的規(guī)模和質(zhì)量。

        猜你喜歡
        詞匯情感方法
        本刊可直接用縮寫的常用詞匯
        如何在情感中自我成長,保持獨(dú)立
        一些常用詞匯可直接用縮寫
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        本刊可直接用縮寫的常用詞匯
        如何在情感中自我成長,保持獨(dú)立
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        日韩成人无码v清免费| 91av手机在线观看| 国产精品久久久久久麻豆一区| 91精品国产91久久久无码95| 亚洲国产精品美女久久久| 亚洲精品女人天堂av麻| 日韩中文字幕熟女人妻| 一本色道久久亚洲精品| 亚洲最全av一区二区| 日本动漫瀑乳h动漫啪啪免费 | 国产成+人+综合+亚洲欧美丁香花| 国产亚洲精久久久久久无码| 国产美女被遭强高潮露开双腿 | 丰满熟妇人妻无码区| av网页在线免费观看| 日韩日本国产一区二区| 国产亚洲精品久久午夜玫瑰园| 99在线精品视频在线观看| 3d动漫精品啪啪一区二区下载| 久久精品国产88久久综合| 中文字幕亚洲精品专区| 国产精品亚洲av三区亚洲| 国产成人无码免费视频在线| 亚洲av电影天堂男人的天堂| 99re6热在线精品视频播放6| 无码久久流水呻吟| 国产成人久久精品二区三区| 国产成人精品一区二区不卡| 医院人妻闷声隔着帘子被中出| 午夜性无码专区| 久久久久无码国产精品不卡 | 人妻丰满熟妇AV无码区HD| 亚洲国产色图在线视频| 美女在线一区二区三区视频| 无码人妻精品一区二区三区东京热| 人人妻人人澡人人爽欧美精品| 国产精品毛片无码久久| 青青草视频网站免费看| 免费视频无打码一区二区三区| 亚洲欧洲精品无码av| 美女污污网站|