亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        微博情感分析的情感詞典構(gòu)造及分析方法研究

        2019-02-25 13:22:06楊立月王移芝
        關(guān)鍵詞:新詞語(yǔ)料詞典

        楊立月,王移芝

        (北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

        0 引 言

        近年來(lái)隨著微博的廣泛應(yīng)用,微博用戶越來(lái)越多,微博成為人們關(guān)注世界、社會(huì)、記錄生活等的重要平臺(tái)之一。隨著網(wǎng)絡(luò)的發(fā)展,微博情感分析也越來(lái)越重要。通過(guò)微博情感分析,商家可以及時(shí)得到消費(fèi)者的反饋,并對(duì)下一步產(chǎn)銷(xiāo)計(jì)劃做出調(diào)整;政府機(jī)關(guān)根據(jù)微博用戶對(duì)某一熱點(diǎn)事件的評(píng)論得到大眾對(duì)熱點(diǎn)事件的觀點(diǎn),從而及時(shí)控制網(wǎng)絡(luò)輿情的發(fā)展來(lái)保證公共秩序安全;對(duì)于消費(fèi)者來(lái)說(shuō)可以通過(guò)對(duì)微博中某一商品評(píng)論的情感分析統(tǒng)計(jì),得出這一商品的優(yōu)缺點(diǎn),從而根據(jù)自身需求決定是否購(gòu)買(mǎi)此商品。此研究正是基于這樣的研究目的,在前人研究的基礎(chǔ)上改進(jìn)了微博情感詞典并創(chuàng)建了語(yǔ)氣詞詞典,利用中文語(yǔ)法規(guī)則判斷微博文本的情感傾向性。

        1 相關(guān)工作

        近年來(lái),微博的廣泛使用使得微博情感分析成為熱點(diǎn)方向,國(guó)外的微博研究較早并且相對(duì)較成熟,英文情感詞典相對(duì)較豐富,如SentiWordNet和Inquirei。而國(guó)內(nèi)對(duì)于微博的研究是近幾年才開(kāi)始的,情感詞典還不太成熟,目前主要有知網(wǎng)HowNet詞典和同義詞詞林、臺(tái)灣大學(xué)和大連理工大學(xué)等高校提供的情感詞匯庫(kù)。該研究采用分類(lèi)效果較好的HowNet詞典作為基準(zhǔn)情感詞詞典。

        目前對(duì)于微博情感分析的研究主要分為兩大類(lèi):基于情感詞典的微博情感分析和機(jī)器學(xué)習(xí)?;谇楦性~典的微博情感分析就是利用現(xiàn)有的情感詞典根據(jù)語(yǔ)義規(guī)則通過(guò)算法求出文本的情感值;機(jī)器學(xué)習(xí)是通過(guò)選取文本的一些特征標(biāo)注訓(xùn)練集和測(cè)試集,使用樸素貝葉斯(Naive Bayes)、支持向量機(jī)(support vector machine,SVM)和最大熵(maximum entropy)等分類(lèi)器進(jìn)行文本分類(lèi)。根據(jù)文獻(xiàn)[1-2],常用的分類(lèi)方法和特征選取方法有各自的適應(yīng)情況,但都無(wú)法帶來(lái)性能上實(shí)質(zhì)性的變化。還有一些基于模型及研究模型提高分類(lèi)效果的研究,如王偉等[3]提出一種基于LDA主題模型的評(píng)論文本情感分類(lèi)方法,黃發(fā)良等[4]提出一種基于多特征融合的微博主題情感挖掘模型TSMMF,證明了該模型有更好的微博主題情感檢測(cè)功能。

        國(guó)內(nèi)研究主要針對(duì)于新浪微博、騰訊微博等平臺(tái)的微博信息進(jìn)行研究。M Taboada等[5]提出了一種基于詞典的文本情感提取方法。謝麗星等[6]提出基于SVM的層次結(jié)構(gòu)多策略方法進(jìn)行分類(lèi),且引入主題相關(guān)特征進(jìn)行分類(lèi)。周劍鋒[7]提出在分析海量微博數(shù)據(jù)過(guò)程中,自動(dòng)構(gòu)建情感詞典的方法。自動(dòng)從語(yǔ)料中篩選情感詞匯,獲取情感新詞。肖江等[8]構(gòu)建的具有自動(dòng)識(shí)別和擴(kuò)展功能的領(lǐng)域情感詞典具有可行性和準(zhǔn)確率。王志濤等[9]提出基于詞典和規(guī)則集的中文微博情感分詞方法,根據(jù)規(guī)定的語(yǔ)義規(guī)則結(jié)合詞典進(jìn)行情感分析。王振宇等[10]提出一種HowNet和PMI(point mutual information)相融合的詞語(yǔ)極性計(jì)算方法。實(shí)驗(yàn)結(jié)果中微平均和宏平均性能提高了5%。

        分析以上理論,通過(guò)改進(jìn)詞典對(duì)微博進(jìn)行分析和研究是微博分析的重點(diǎn)。

        文中與傳統(tǒng)方法不同的是改進(jìn)了微博情感詞典的構(gòu)建方法,在傳統(tǒng)新詞根據(jù)點(diǎn)互信息計(jì)算進(jìn)行篩選的基礎(chǔ)上結(jié)合新詞根據(jù)積極訓(xùn)練語(yǔ)料和消極訓(xùn)練語(yǔ)料的文檔頻數(shù)差篩選出新詞并加入詞典,同時(shí)研究提出構(gòu)建語(yǔ)氣詞詞典。

        2 中文情感詞典的構(gòu)建

        2.1 分 詞

        利用NLPIR分詞系統(tǒng)進(jìn)行分詞,先構(gòu)建好開(kāi)源情感詞典、表情情感詞典和網(wǎng)絡(luò)情感詞典,在分詞系統(tǒng)中將構(gòu)建好的詞典加入系統(tǒng),從而提高分詞效果。例如,未加入詞典之前,網(wǎng)絡(luò)新詞“坑爹”得到的分詞效果是“坑/v 爹/n”,加入詞典后的分詞效果是“坑爹/a”。

        2.2 開(kāi)源情感詞典

        目前中文情感詞典中沒(méi)有成熟完整的情感詞典可供研究。文中采用情感區(qū)分較明顯的HowNet中文情感詞典和臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文情感極性詞典。知網(wǎng)的情感詞典分為正面情感詞、正面評(píng)價(jià)詞、負(fù)面情感詞、負(fù)面評(píng)價(jià)詞,程度副詞分為6個(gè)等級(jí),分別為極其、很、較、稍、欠、超。知網(wǎng)情感詞典中正面情感詞、正面情感評(píng)價(jià)詞均賦權(quán)值為1,而負(fù)面情感詞和負(fù)面情感評(píng)價(jià)詞均賦權(quán)值為-1。臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文情感極性詞典中分為兩類(lèi)詞,積極詞匯和消極詞匯,將積極詞匯賦權(quán)值為1,而消極詞匯賦權(quán)值為-1,表1是開(kāi)源詞典情感詞情況。

        表1 情感詞示例

        2.3 否定副詞詞典

        否定副詞是整理的33個(gè)常用于否定后面詞語(yǔ)的否定副詞,將否定副詞的權(quán)值全部設(shè)置為-1,否定詞如“不”、“沒(méi)”、“沒(méi)有”、“無(wú)”、“非”等。

        2.4 表情符號(hào)詞典

        文中在分析文本情感詞的基礎(chǔ)上融入分析表情符號(hào),隨著表情符號(hào)的流行人們?cè)絹?lái)越趨向于用表情符號(hào)表達(dá)自己的觀點(diǎn),所以首先加入了新浪微博中常用的默認(rèn)的表情符號(hào)并賦予相應(yīng)的權(quán)值。提取的微博語(yǔ)料中的表情詞以“[]”形式出現(xiàn),表情詞列表見(jiàn)表2。

        表2 表情詞典示例

        2.5 程度副詞情感詞典

        采用知網(wǎng)提供的程度副詞,示例見(jiàn)表3。

        2.6 網(wǎng)絡(luò)情感詞典

        網(wǎng)絡(luò)新詞:即多在網(wǎng)絡(luò)上流行的非正式語(yǔ)言。多為諧音、錯(cuò)別字改成,也有象形字詞。

        基于微博文本非正式、口語(yǔ)化的表達(dá)特點(diǎn),網(wǎng)絡(luò)新詞在微博評(píng)論中的應(yīng)用越來(lái)越廣泛。

        由于網(wǎng)絡(luò)新詞的流行使得微博語(yǔ)言更多樣化,如“我”不叫我,叫“偶”,“這樣子”不叫這樣子,叫“醬紫”,“喜歡”不叫喜歡叫“稀飯”,“新手”不叫新手叫“菜鳥(niǎo)”等。

        文中選用百度引擎和搜狐引擎里的網(wǎng)絡(luò)新詞,集合了現(xiàn)在廣為流行的網(wǎng)絡(luò)用語(yǔ),有較好的網(wǎng)絡(luò)用詞覆蓋率,網(wǎng)絡(luò)詞示例見(jiàn)表4。

        表4 網(wǎng)絡(luò)情感詞示例

        2.7 微博情感詞典構(gòu)建

        由于HowNet情感詞典并不完整,在進(jìn)行微博情感分析的過(guò)程中仍然有許多情感詞匯無(wú)法判別情感傾向,劉培玉等[11]在傳統(tǒng)詞典的基礎(chǔ)上構(gòu)建領(lǐng)域微博情感詞典,該方法在微博傾向性分析中得到了很好的效果。

        根據(jù)微博數(shù)據(jù)分詞結(jié)果對(duì)各個(gè)詞語(yǔ)按詞頻統(tǒng)計(jì)并排序,對(duì)排好序的詞語(yǔ)從上到下進(jìn)行篩選,篩選出含有明顯情感傾向且詞頻高的詞語(yǔ)作為基準(zhǔn)詞,所以分詞的好壞直接影響到排序結(jié)果。文中用的是NLPIR分詞算法并且加入了知網(wǎng)情感詞典,臺(tái)灣情感詞典,網(wǎng)絡(luò)新詞詞典,表情詞典中的詞語(yǔ),從而使得分詞效果更好,得到更準(zhǔn)確的基準(zhǔn)詞詞語(yǔ)。朱嫣嵐等[12]證明種子詞越多,詞的傾向性判斷準(zhǔn)確性越高,故文中在詞頻閾值范圍內(nèi)選取了27對(duì)種子詞,同時(shí)考慮到表情符號(hào)元素,選取了2對(duì)高頻表情符號(hào)做基準(zhǔn)詞。

        2.7.2 點(diǎn)互信息

        點(diǎn)互信息主要用于計(jì)算語(yǔ)義間的語(yǔ)義相似度,基本思想是統(tǒng)計(jì)兩個(gè)詞語(yǔ)在文本中同時(shí)出現(xiàn)的概率,概率越大相關(guān)性越緊密,關(guān)聯(lián)度越高。兩個(gè)詞語(yǔ)word1和word2的PMI計(jì)算公式如下:

        (1)

        其中,PMI(word1,word2)表示兩個(gè)詞語(yǔ)同時(shí)出現(xiàn)的概率,即word1和word2共同出現(xiàn)的文檔數(shù);PMI(word1),PMI(word2)分別表示word1,word2單獨(dú)出現(xiàn)的概率。

        褒義和貶義基準(zhǔn)詞分別用Pw和Nw來(lái)表示,基準(zhǔn)詞的選取是具有明顯情感傾向性的且極具領(lǐng)域代表性的詞語(yǔ)。則候選集中候選詞word1的情感傾向計(jì)算公式如下:

        PMI(word1,Nwi)]

        初中班主任要以科學(xué)合理的方式展開(kāi)與學(xué)生之間的交流,幫助學(xué)生健康成長(zhǎng)。能在談話中了解學(xué)生的心理傾向,深化學(xué)生的情感變化,進(jìn)而能更好的把握學(xué)生的心理情感變化,并在交流中包含學(xué)生的自尊心、自信心。

        (2)

        若SO_PMI(word1)>0,word1具有正面情感傾向,為正向情感詞;SO_PMI(word1)<0,word1具有負(fù)面情感傾向,為負(fù)向情感詞;SO_PMI(word1)=0,word1沒(méi)有情感傾向,為中性情感詞。

        中文情感詞情感傾向值計(jì)算方法首先選取基準(zhǔn)詞,通過(guò)計(jì)算基準(zhǔn)詞與候選詞間的共現(xiàn)概率來(lái)初步確定該情感詞的情感傾向值。計(jì)算情感詞點(diǎn)互信息的計(jì)算過(guò)程如下:首先根據(jù)詞頻和情感詞強(qiáng)度篩選得到基準(zhǔn)詞,其次根據(jù)程度副詞提取新詞并按詞頻閾值篩選,最后將新詞和基準(zhǔn)詞進(jìn)行PMI計(jì)算。

        2.7.3 文檔頻數(shù)

        wt=Fpos(wd)-Fneg(wd)

        (3)

        其中,wt表示詞wd在語(yǔ)料中的頻數(shù)差,其中Fpos(wd)表示詞wd在正向語(yǔ)料中出現(xiàn)的次數(shù),F(xiàn)neg(wd)表示表示詞wd在負(fù)向語(yǔ)料中出現(xiàn)的次數(shù)。當(dāng)wt為0時(shí),表示wd在正向語(yǔ)料和負(fù)向語(yǔ)料中出現(xiàn)的次數(shù)相等,直接刪除該詞。

        2.7.4 微博新詞抽取方法

        陳建美等[13]分析了不同語(yǔ)法規(guī)律對(duì)情感詞匯自動(dòng)獲取的作用大小,并且證明了情感詞匯自動(dòng)獲取方法是有效的,其中否定詞與詞性搭配規(guī)律和程度副詞修飾規(guī)律最為通用。漢語(yǔ)中程度副詞經(jīng)常修飾形容詞及部分心理動(dòng)詞,而這些詞多為情感詞,如:非常開(kāi)心,很郁悶等。所以在進(jìn)行情感詞匯抽取時(shí)選擇程度副詞和否定詞后2/3/4個(gè)詞范圍內(nèi)的詞抽取出來(lái)。然后按照這些新詞出現(xiàn)的頻率進(jìn)行排序,設(shè)定閾值,刪除掉頻率小于這個(gè)閾值的詞匯,將篩選出來(lái)的新詞和基準(zhǔn)詞做點(diǎn)互信息計(jì)算,若計(jì)算得出的點(diǎn)互信息結(jié)果為0,則不可以將該詞加入情感詞典,故刪除該詞。否則對(duì)新詞進(jìn)行文檔頻數(shù)統(tǒng)計(jì),結(jié)合點(diǎn)互信息值進(jìn)行篩選,若新詞計(jì)算的點(diǎn)互信息值和計(jì)算得出的文檔頻數(shù)同為正數(shù)或同為負(fù)數(shù),則將該新詞加入詞典,將新詞的PMI值經(jīng)處理后(若PMI值在0到10范圍內(nèi),賦權(quán)值為1,在-10到0范圍內(nèi),賦權(quán)值為-1,以此類(lèi)推)作為對(duì)應(yīng)的權(quán)值加入詞典,具體步驟如圖1所示。

        2.8 語(yǔ)氣詞詞典

        姜杰等[14]將語(yǔ)氣詞數(shù)量作為語(yǔ)義特征提取,證明了語(yǔ)氣詞在情感表達(dá)中有重要作用。語(yǔ)氣詞在中文表達(dá)中經(jīng)常會(huì)流露出感情傾向,例如“哎”,“啊”,“哇”,“耶”等。

        文中從百度百科中查找的語(yǔ)氣詞大全,如“罷了”,“哈”,“呵”,“呸”等得到76個(gè)語(yǔ)氣詞,并擴(kuò)展了沒(méi)有提到的語(yǔ)氣詞,如“哎”,“哎呀”,共22個(gè)。語(yǔ)氣詞在詞典中的權(quán)值設(shè)置和新詞加入新詞詞典的權(quán)值計(jì)算方法一樣,同樣根據(jù)點(diǎn)互信息法和文檔頻數(shù)法篩選,最后將語(yǔ)氣詞及其權(quán)值加入語(yǔ)氣詞詞典中。

        3 語(yǔ)句情感分析

        3.1 詞語(yǔ)情感值的計(jì)算

        語(yǔ)義是語(yǔ)句進(jìn)行情感分類(lèi)的重要特征[15],文檔分類(lèi)判斷應(yīng)按照詞匯、句子、微博短文的步驟進(jìn)行[16]。情感傾向情感詞前經(jīng)常有程度副詞修飾。當(dāng)情感詞前有程度副詞修飾時(shí),則會(huì)使情感詞的情感傾向加強(qiáng)或減弱。如開(kāi)心是正向情感詞,其權(quán)值為1,則很開(kāi)心使得情感詞情感傾向加強(qiáng)。而情感詞前有否定詞修飾時(shí)會(huì)使情感詞的情感傾向反轉(zhuǎn),如“傷心”表示負(fù)向情感詞,而“不傷心”表示正向情感傾向。但是存在一個(gè)問(wèn)題,形如:“否定詞+程度副詞+情感詞”的形式對(duì)情感詞的強(qiáng)度有減弱作用?!俺潭雀痹~+否定詞+情感詞”對(duì)情感詞的情感強(qiáng)度具有加強(qiáng)作用。如很不開(kāi)心和不是很開(kāi)心的情感強(qiáng)度截然不同。故需要區(qū)分兩種形式。情感詞語(yǔ)的情感值計(jì)算公式如下:

        否定詞+程度副詞+情感詞:

        w=d×a×t×0.5

        (4)

        程度副詞+否定詞+情感詞:

        w=d×a×t×2

        (5)

        其中,w表示計(jì)算得到的情感詞語(yǔ)的情感強(qiáng)度值;t表示情感詞的權(quán)值;a表示該情感詞t前的程度副詞的權(quán)值;d表示否定詞的權(quán)值。

        3.2 句間關(guān)系原則

        趙天奇等[17]在語(yǔ)義規(guī)則描述部分,基本涵蓋了漢語(yǔ)中最常用的幾種句型規(guī)則和句間關(guān)系規(guī)則,從而使得對(duì)復(fù)雜句的情感分析更加準(zhǔn)確。由于中文表達(dá)的傳統(tǒng)習(xí)慣,一個(gè)句子可能包含多個(gè)關(guān)聯(lián)詞,而這些關(guān)聯(lián)詞對(duì)句子的情感表達(dá)有很大影響。如:雖然s1但是s2,其中,s2=w5w6w7,其中wi是一些情感詞語(yǔ)。顯然句子s1表達(dá)的情感強(qiáng)度沒(méi)有s2的情感強(qiáng)度大。總結(jié)句間規(guī)則如下所述。

        3.2.1 轉(zhuǎn)折關(guān)系原則

        當(dāng)句子中出現(xiàn)轉(zhuǎn)折時(shí),如:雖然……但是……由于出現(xiàn)轉(zhuǎn)折,則強(qiáng)調(diào)轉(zhuǎn)折后的句子的情感傾向而減弱轉(zhuǎn)折前的句子的情感傾向。邸鵬等[18]提出依據(jù)已有資源,并根據(jù)轉(zhuǎn)折句式中否定詞、轉(zhuǎn)折詞、情感詞的組合規(guī)律進(jìn)行情感分析的啟發(fā)式規(guī)則,證明該方法能更好地對(duì)轉(zhuǎn)折句式進(jìn)行情感傾向性分析。轉(zhuǎn)折語(yǔ)句情感分析規(guī)則如下,因?yàn)檗D(zhuǎn)折關(guān)系連接詞并非都是成對(duì)出現(xiàn),故分為以下三種情況。

        將轉(zhuǎn)折關(guān)系連接詞分為轉(zhuǎn)折前接詞和轉(zhuǎn)折后接詞,其中轉(zhuǎn)折前接詞包括雖然、雖說(shuō)、盡管等,轉(zhuǎn)折后接詞包括但是、可是、不過(guò)等。根據(jù)中文表達(dá)習(xí)慣,轉(zhuǎn)折前接詞會(huì)削弱用戶要表達(dá)的意思,而轉(zhuǎn)折后接詞會(huì)加強(qiáng)用戶要表達(dá)的意思。

        (1)當(dāng)分句只含有轉(zhuǎn)折前接詞時(shí),設(shè)轉(zhuǎn)折前接詞出現(xiàn)在分句sk,則各句句間關(guān)系系數(shù)為:sk,sk+1,…=0.5。

        (2)當(dāng)分句只含有轉(zhuǎn)折后接詞時(shí),設(shè)轉(zhuǎn)折后接詞出現(xiàn)在sk,則句間關(guān)系系數(shù)sk,sk+1,…=1.5。

        (3)當(dāng)分句既含有轉(zhuǎn)折前接詞又含有轉(zhuǎn)折后接詞時(shí),句間系數(shù)為默認(rèn)值1不變。

        3.2.2 假設(shè)關(guān)系原則

        當(dāng)句子出現(xiàn)假設(shè)關(guān)系連接詞時(shí),句子強(qiáng)調(diào)的是條件,例如:如果s1,那么s2,則句子強(qiáng)調(diào)的是“如果”后面的內(nèi)容即s1。設(shè)假設(shè)關(guān)系后接詞如上例中的“那么”出現(xiàn)在分句si,則令s1,s2,…,si-1=1,si,si+1,…,sn=0.5。

        3.2.3 因果關(guān)系原則

        當(dāng)句子中出現(xiàn)因果關(guān)系連接詞時(shí),表示強(qiáng)調(diào)的是因果關(guān)系前接詞后的句子。例如:因?yàn)閟1,所以s2,強(qiáng)調(diào)的是子句子s1的情感傾向。設(shè)因果關(guān)系前接詞出現(xiàn)在分句si上,因果關(guān)系后接詞出現(xiàn)在分句sj上,則si,si+1,…,sj-1=1.5,sj,sj+1,…,sn=1。

        3.2.4 分句情感傾向計(jì)算公式

        E(sj)=∑E(wi)*rj

        (6)

        其中,E(sj)表示第j個(gè)句子的情感傾向值;E(wi)表示第j個(gè)句子中的情感詞的權(quán)值;rj表示第j個(gè)句子的句間關(guān)系系數(shù)。

        3.3 句型關(guān)系

        劉楠[19]將標(biāo)點(diǎn)符號(hào)作為特征進(jìn)行提取。當(dāng)一個(gè)句子以“!”結(jié)尾時(shí),該句的情感傾向明顯加強(qiáng)。例如:“海燕兒,你可長(zhǎng)點(diǎn)心吧!”表示的是加強(qiáng)句子的感嘆作用,當(dāng)句子以“!”結(jié)尾時(shí),該句的情感傾向值變成原來(lái)的兩倍。

        當(dāng)句子以“?”結(jié)尾并且該句子存在反向疑問(wèn)詞時(shí),該句子表示的是質(zhì)疑。例如:“難道你就不能開(kāi)開(kāi)心心獨(dú)立自主嗎?”,該句子中出現(xiàn)的情感詞“開(kāi)開(kāi)心心、獨(dú)立自主”均為正向情感詞,該句子以“?”號(hào)結(jié)尾,并且出現(xiàn)反向疑問(wèn)詞“難道”,故該句的情感傾向?qū)⒎聪蚣颖?。?fù)句情感傾向值計(jì)算公式如下:

        E(Ti)=∑E(sj)*Mi

        (7)

        其中,E(Ti)表示第i個(gè)復(fù)句的情感傾向值;E(sj)表示第i個(gè)復(fù)句中各個(gè)子句的情感傾向值;Mi表示句型關(guān)系系數(shù),若該復(fù)句Ti以“!”結(jié)尾,則Mi=2,若Ti以“?”結(jié)尾,且Ti中含有反向疑問(wèn)詞,則Mi=-2。

        3.4 首句和尾句

        中文表達(dá)中有開(kāi)門(mén)見(jiàn)山的表達(dá)習(xí)慣,故首句在短文本情感判斷中具有很重要的作用。如:中文表達(dá)中尾句的情感傾向在微博情感表達(dá)中占得權(quán)重很大,故設(shè)置首句的加權(quán)關(guān)系系數(shù)為2,微博語(yǔ)句的尾句具有很重要的情感傾向判斷價(jià)值,如“今年是交大120周年校慶,我很榮幸作為母校的學(xué)子。今天好開(kāi)心呀,哈哈。但是沒(méi)有和曾經(jīng)的老同學(xué)們團(tuán)聚真的太可惜了”。這段微博包含3句話,其中第1,2句表達(dá)了正向情感,而最后一句表達(dá)了負(fù)向情感。這段微博整體表達(dá)的是負(fù)向情感,以尾句的情感傾向?yàn)闇?zhǔn),所以在微博表達(dá)中尾句的情感傾向具有非常重要的作用。故設(shè)尾句的加權(quán)關(guān)系系數(shù)為2,如計(jì)算首尾句的情感傾向值為E(Ti),則E(Ti)=E(Ti)*2。

        4 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)選取NLPCC官方網(wǎng)站中Task A Annotated Training Data中的數(shù)據(jù),主題包括IphoneSE、春節(jié)放鞭炮、俄羅斯在敘利亞的反恐行動(dòng)、開(kāi)放二胎、深圳禁摩限電,同時(shí)還加入了coae2014評(píng)測(cè)數(shù)據(jù)的task3& 4任務(wù)中對(duì)蒙牛的評(píng)論。正面數(shù)據(jù)2 019條,負(fù)面數(shù)據(jù)2 139條。判斷標(biāo)準(zhǔn)如下:當(dāng)微博情感值>1時(shí),判斷該微博為正面;當(dāng)微博情感值<-1,判斷該微博為負(fù)面;當(dāng)微博情感值為0時(shí),判斷該微博為中性。實(shí)驗(yàn)結(jié)果如圖2所示。

        對(duì)比基準(zhǔn)詞詞典+語(yǔ)義規(guī)則的結(jié)果和傳統(tǒng)新詞情感詞典+基準(zhǔn)詞典+語(yǔ)義規(guī)則的結(jié)果可以發(fā)現(xiàn),加入傳統(tǒng)的新詞詞典判斷的結(jié)果有個(gè)嚴(yán)重的弊端,負(fù)面微博的分類(lèi)準(zhǔn)確率驟降,而正面微博的準(zhǔn)確率驟增,這是因?yàn)槲⒉?shù)據(jù)正面情感詞比例遠(yuǎn)遠(yuǎn)大于負(fù)面情感詞的比例。這對(duì)于分類(lèi)判斷來(lái)說(shuō)是無(wú)效的。通過(guò)新的新詞詞典+基準(zhǔn)詞典+語(yǔ)義規(guī)則的結(jié)果可以觀察到,加入新的新詞詞典后,正負(fù)面的微博分類(lèi)的準(zhǔn)確率都有不同程度的提高,這是因?yàn)楫?dāng)加入了文檔頻數(shù)篩選方法后,可以篩掉那些在負(fù)面微博中出現(xiàn)的大量正面情感詞。

        圖2 準(zhǔn)確率對(duì)比

        對(duì)比新的新詞詞典+基準(zhǔn)詞典+語(yǔ)義規(guī)則的結(jié)果和語(yǔ)氣詞詞典+新的新詞詞典+語(yǔ)義規(guī)則的結(jié)果可以發(fā)現(xiàn),加入語(yǔ)氣詞詞典后,正面微博的分類(lèi)準(zhǔn)確率沒(méi)有明顯變化,而負(fù)面微博的分類(lèi)準(zhǔn)確率有明顯的提高。

        5 結(jié) 論

        在分析已有情感詞典的基礎(chǔ)上,建立了更全面完整的微博情感詞典,在現(xiàn)有網(wǎng)絡(luò)資源的基礎(chǔ)上對(duì)微博語(yǔ)料進(jìn)行統(tǒng)計(jì)建立網(wǎng)絡(luò)情感詞典和表情情感詞典,通過(guò)詞典的構(gòu)建形成了更加完備的情感詞典,用于情感分析。建好情感詞典后根據(jù)中文的語(yǔ)義規(guī)則包括句間規(guī)則和句型規(guī)則,進(jìn)行句子級(jí)的微博情感分析。文中的特點(diǎn)是加入了首句和尾句情感分析傾向的權(quán)重系數(shù),從而提高了微博情感分析的正確率。本次研究的創(chuàng)新之處首先在傳統(tǒng)的微博情感詞典的構(gòu)造上做出了改進(jìn),對(duì)新詞通過(guò)點(diǎn)互信息和文檔頻數(shù)法進(jìn)行篩選再加入詞典。其次創(chuàng)建了語(yǔ)氣詞詞典,有了語(yǔ)氣詞詞典后負(fù)面微博分類(lèi)的準(zhǔn)確性有了明顯的提高。

        6 結(jié)束語(yǔ)

        微博情感分析的關(guān)鍵是詞典構(gòu)建,詞典的囊括范圍及準(zhǔn)確性對(duì)分類(lèi)的準(zhǔn)確率具有關(guān)鍵作用。文中構(gòu)建了開(kāi)源情感詞典、表情情感詞典、網(wǎng)絡(luò)情感詞典,并且改進(jìn)了微博情感詞典的構(gòu)造方法,創(chuàng)建了語(yǔ)氣詞詞典。利用改進(jìn)后的詞典,微博分類(lèi)的準(zhǔn)確率有了明顯提高,通過(guò)實(shí)驗(yàn)證明了該方法的準(zhǔn)確性。

        但是微博分類(lèi)還存在有待研究的方向。例如,微博文本中經(jīng)常出現(xiàn)反諷現(xiàn)象,具有反諷現(xiàn)象的微博文本的情感傾向和用算法算出來(lái)的情感分析值相反;微博用戶的情感表現(xiàn)不僅包括文本,還有微博的點(diǎn)贊信息,轉(zhuǎn)載量等;由于微博用戶發(fā)表的微博多接近于口語(yǔ)化,故微博文本經(jīng)常出現(xiàn)拼寫(xiě)錯(cuò)誤或符號(hào)省略等現(xiàn)象,如何識(shí)別這些錯(cuò)誤并在情感分析中考慮這些因素帶來(lái)的影響需要進(jìn)一步研究;文中采用基于詞典和語(yǔ)義規(guī)則的方法進(jìn)行情感分類(lèi),將其作為特征,結(jié)合深度學(xué)習(xí)方式并與社會(huì)背景結(jié)合尚需進(jìn)一步探索。

        猜你喜歡
        新詞語(yǔ)料詞典
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        《微群新詞》選刊之十四
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
        小議網(wǎng)絡(luò)新詞“周邊”
        外教新詞堂
        精品一区二区三区婷婷| 国产精品天天狠天天看| 久久久久久中文字幕有精品| 最新永久免费AV网站| 国产另类av一区二区三区| 日韩精品久久中文字幕| 无码人妻人妻经典| 色偷偷一区二区无码视频| 亚洲成AV人在线观看网址| 美利坚亚洲天堂日韩精品| 国产精品妇女一区二区三区| 免费视频爱爱太爽了| 破了亲妺妺的处免费视频国产| 亚洲AV无码AV色| 免费观看在线视频播放| 女优一区二区三区在线观看| 国产日产综合| 欧美日韩亚洲精品瑜伽裤| 宅男久久精品国产亚洲av麻豆| 国产69精品麻豆久久| 亚洲成av人在线观看网址| 波多野结衣av手机在线观看| 国产精品白浆视频一区| 日本高清无卡一区二区三区| 亚洲精品国产第一区二区| 午夜色大片在线观看| 亚洲精品国产一二三无码AV| 日韩精品中文字幕免费人妻| 精品亚洲第一区二区三区| 人妻中文字幕无码系列| 美女扒开内裤让男生桶| 日本一区二区三区资源视频| 亚洲一区二区国产一区| 国产精品久久久久久一区二区三区| 午夜福利电影| 水蜜桃在线视频在线观看| 久久这里都是精品99| 国产动作大片中文字幕| 男女边吃奶边做边爱视频| 国产毛片一区二区日韩| 国产免费人成视频网站在线18|