亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于種子詞的微博表情符情感傾向判定方法*

        2017-02-25 02:33:08周詠梅陽(yáng)愛(ài)民林江豪陳昱宏曾文俊
        數(shù)據(jù)采集與處理 2017年1期
        關(guān)鍵詞:文本情感方法

        王 偉 周詠梅,2 陽(yáng)愛(ài)民,2 林江豪 陳昱宏 曾文俊

        (1.廣東外語(yǔ)外貿(mào)大學(xué)思科信息學(xué)院,廣州,510006; 2.廣東外語(yǔ)外貿(mào)大學(xué)語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣州,510006; 3.廣東外語(yǔ)外貿(mào)大學(xué)財(cái)務(wù)處,廣州,510420)

        基于種子詞的微博表情符情感傾向判定方法*

        王 偉1周詠梅1,2陽(yáng)愛(ài)民1,2林江豪3陳昱宏1曾文俊1

        (1.廣東外語(yǔ)外貿(mào)大學(xué)思科信息學(xué)院,廣州,510006; 2.廣東外語(yǔ)外貿(mào)大學(xué)語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣州,510006; 3.廣東外語(yǔ)外貿(mào)大學(xué)財(cái)務(wù)處,廣州,510420)

        情感傾向明顯的表情符,容易通過(guò)人工進(jìn)行標(biāo)注。但是對(duì)于情感傾向不明顯的表情符,多人手工的標(biāo)注結(jié)果往往難以達(dá)成一致。因此,提出一種利用種子詞自動(dòng)判定表情符情感傾向的方法。該方法利用少量種子表情符自動(dòng)標(biāo)注情感傾向比較明顯的表情符,生成表情符標(biāo)注集;對(duì)于情感傾向不明顯的表情符,利用種子情感詞和已得到的表情符標(biāo)注集構(gòu)建模型,實(shí)現(xiàn)其情感傾向的自動(dòng)判定。實(shí)驗(yàn)結(jié)果表明,本文方法在微博表情符情感傾向的自動(dòng)判定上有很好的效果。

        情感分類;機(jī)器學(xué)習(xí);微博表情符;種子詞;自動(dòng)標(biāo)注

        引 言

        微博等社交網(wǎng)絡(luò)平臺(tái)的出現(xiàn),提供了用戶在線表達(dá)情緒、對(duì)產(chǎn)品發(fā)表評(píng)論和傳播社會(huì)事件輿論等的渠道,由此產(chǎn)生了大量包含情感信息的微博文本。針對(duì)這些在線文本的情感分析,可以幫助企業(yè)了解客戶需求,制定營(yíng)銷方案,進(jìn)而提高競(jìng)爭(zhēng)力;也可以幫助政府了解民眾對(duì)公共事件等的情緒與態(tài)度。微博作為一種新的交流方式,也推動(dòng)著網(wǎng)絡(luò)符號(hào)語(yǔ)言,尤其是表情符的發(fā)展與廣泛運(yùn)用。表情符表現(xiàn)形式簡(jiǎn)單,簡(jiǎn)潔明了,能生動(dòng)形象地展現(xiàn)個(gè)體各種各樣的表情,簡(jiǎn)化了交流互動(dòng)中語(yǔ)言文字理解和釋義的過(guò)程,因而備受青年群體的青睞[1]。微博文本中使用的表情符,往往表達(dá)了與文本內(nèi)容一致的情感傾向[2]。這為國(guó)內(nèi)外學(xué)者在分析網(wǎng)絡(luò)文本的情感傾向時(shí)提供了新的挑戰(zhàn)與思路。Yamamoto等[3]根據(jù)表情符的不同作用,將其劃分為“強(qiáng)調(diào)”“削弱”“轉(zhuǎn)換”和“添加”4種角色,提出一種基于表情符角色對(duì)Twitter文本進(jìn)行情感分類的方法。Khan等[4]提出一個(gè)融合表情符、SentiWordNet和種子情感詞的Twitter文本意見(jiàn)挖掘框架,并取得了較高的準(zhǔn)確率。Davidov等[5]選取50個(gè)Twitter標(biāo)簽和15個(gè)表情符號(hào)作為情感標(biāo)簽,提出有監(jiān)督的情感分類模型,省去了人工標(biāo)注語(yǔ)料的工作量。文獻(xiàn)[6,7]在對(duì)Twitter情感進(jìn)行分類時(shí)考慮了微博標(biāo)簽以及表情符的影響。國(guó)內(nèi)學(xué)者Jiang等[8]提出表情符空間模型(Emoticon space model, ESM),實(shí)現(xiàn)微博文本的主觀性識(shí)別、極性判別和情緒分析。龐磊等[9]利用情緒詞和表情圖片兩種情緒知識(shí)對(duì)大規(guī)模微博非標(biāo)注語(yǔ)料進(jìn)行篩選并自動(dòng)標(biāo)注,用自動(dòng)標(biāo)注好的語(yǔ)料作為訓(xùn)練集構(gòu)建微博情感文本分類器,對(duì)微博文本進(jìn)行情感極性自動(dòng)分類。劉培玉等[10]針對(duì)微博文本,利用基礎(chǔ)情感詞典、表情符詞典和網(wǎng)絡(luò)新詞,提取情感詞和表情符號(hào)作為微博的情感極性信息,有效提高了微博情感傾向性判斷的準(zhǔn)確度。張珊等[11]提出一種基于表情圖片與情感詞的中文微博情感分析方法,利用表情圖片和情感詞語(yǔ)自動(dòng)構(gòu)建微博情感語(yǔ)料庫(kù),并構(gòu)建貝葉斯分類器,實(shí)現(xiàn)微博情感傾向的判定。劉偉朋等[12]利用表情符號(hào)自動(dòng)構(gòu)建標(biāo)注語(yǔ)料庫(kù),結(jié)合機(jī)器學(xué)習(xí)方法訓(xùn)練分類器,對(duì)中文微博進(jìn)行多維情感分類。這些研究均成功利用表情符對(duì)文本情感分類模型進(jìn)行了優(yōu)化。另外表情符同樣啟發(fā)了構(gòu)建情感詞典的新方法。桂斌等[2]基于微博表情符號(hào),提出一種自動(dòng)構(gòu)建情感詞典的方法,實(shí)驗(yàn)結(jié)果表明,與人工標(biāo)注結(jié)果進(jìn)行對(duì)比,生成的情感詞典具有較高的準(zhǔn)確率。

        上述研究考慮了表情符包含的情感信息,豐富了以往的研究思路。但是,大部分模型中表情符的情感傾向以人工判定為主。本文認(rèn)為與種子表情符在語(yǔ)料庫(kù)中發(fā)生共現(xiàn)的表情符,具有明顯的情感傾向;與種子表情符不共現(xiàn)的表情符,其情感傾向不太明顯。對(duì)于情感傾向不明顯的表情符,多人手工標(biāo)注的結(jié)果往往難以達(dá)到一致。因此,本文提出一種利用種子表情符和種子情感詞自動(dòng)判定表情符情感傾向的方法。

        1 情感傾向判定方法總體結(jié)構(gòu)

        圖1 基于種子詞的微博表情符情感傾向判定方法基本框架Fig.1 Framework of sentiment determination of microblog smileys based on seed words

        本文提出的微博表情符情感傾向判定方法基本框架如圖1所示。該方法主要包括兩個(gè)部分,分別是自動(dòng)標(biāo)注情感傾向明顯和情感傾向不明顯的表情符。表情符較少與否定詞、程度副詞搭配,情感傾向一般情況下不發(fā)生遷移,而且往往與微博內(nèi)容的情感傾向一致。因此,表情符對(duì)微博的情感傾向具有較強(qiáng)的區(qū)分能力。

        本文分別對(duì)情感傾向明顯和不明顯的表情符進(jìn)行標(biāo)注。首先,結(jié)合人工的方法篩選出情感傾向較強(qiáng)烈的種子表情符和種子情感詞,同時(shí)利用種子表情符與語(yǔ)料的共現(xiàn)關(guān)系,對(duì)語(yǔ)料的情感極性進(jìn)行自動(dòng)標(biāo)注,構(gòu)建標(biāo)注語(yǔ)料庫(kù)。對(duì)于標(biāo)注語(yǔ)料庫(kù)中除了種子表情符以外的表情符,本文認(rèn)為這部分表情符與種子表情符存在共現(xiàn)關(guān)系,因此具有比較明顯的情感傾向。通過(guò)計(jì)算表情符與標(biāo)注語(yǔ)料的卡方統(tǒng)計(jì)值,得到其情感強(qiáng)度,以此篩選情感強(qiáng)度達(dá)到閾值的表情符。然后,根據(jù)表情符分別出現(xiàn)在正向和負(fù)向標(biāo)注語(yǔ)料的概率,標(biāo)注其情感傾向,最后生成表情符標(biāo)注集(Labeled smileys set,LSS)。對(duì)于與種子表情符不存在共現(xiàn)關(guān)系的表情符,本文認(rèn)為其情感傾向不明顯。本文提出以種子情感詞作為表情符向量的特征項(xiàng),構(gòu)造表情符向量空間模型;將已標(biāo)注極性的LSS作為訓(xùn)練集,利用機(jī)器學(xué)習(xí)的方法訓(xùn)練表情符情感分類器,實(shí)現(xiàn)表情符情感傾向的自動(dòng)判定。

        2 情感傾向明顯的表情符的自動(dòng)標(biāo)注方法

        2.1 種子詞選取

        本文的種子詞包括兩部分:種子表情符和種子情感詞。選取的依據(jù)主要包括兩個(gè)因素:情感傾向明顯和文檔覆蓋率高。設(shè)計(jì)程序利用正則表達(dá)式和基礎(chǔ)情感詞典分別從微博文本中提取出表情符與情感詞,統(tǒng)計(jì)詞頻TF和文檔頻率DF,計(jì)算權(quán)重w=TF*DF。將權(quán)重值較大的表情符和情感詞作為候選種子詞。然后結(jié)合經(jīng)驗(yàn)知識(shí),人工篩選得到本文的種子詞,共包含30個(gè)種子表情符和80個(gè)種子情感詞,如表1所示。

        表1 種子詞表

        2.2 標(biāo)注語(yǔ)料庫(kù)

        包含轉(zhuǎn)折邏輯的微博文本中,往往存在不止一種情感傾向。對(duì)于此類語(yǔ)料,本文暫不考慮,否則會(huì)導(dǎo)致模型過(guò)于復(fù)雜。因此對(duì)語(yǔ)料進(jìn)行自動(dòng)標(biāo)注前,過(guò)濾掉包含轉(zhuǎn)折詞的微博文本。轉(zhuǎn)折詞包括不過(guò)、但是、但、而、然而、可是、可、只是、盡管、盡管如此、即使、即使如此、雖然。

        本文提出的自動(dòng)標(biāo)注語(yǔ)料主要是利用種子表情符將微博文本標(biāo)注成兩類:正向和負(fù)向。判定方法基于微博文本的情感傾向由表情符的情感傾向決定的假設(shè),采用一票否決機(jī)制,提出以下規(guī)則:

        規(guī)則1 若語(yǔ)料中種子表情符的情感傾向只包含正負(fù)向其中一種,則該語(yǔ)料的情感傾向由該類種子表情符決定。

        規(guī)則2 若語(yǔ)料中同時(shí)包含正負(fù)向種子表情符,則舍棄該語(yǔ)料。

        本文對(duì)該投票機(jī)制進(jìn)行數(shù)學(xué)描述,如式(1)所示

        (1)

        2.3 情感傾向明顯的表情符的自動(dòng)標(biāo)注

        情感傾向明顯的表情符是指從標(biāo)注語(yǔ)料庫(kù)提取并過(guò)濾掉種子表情符的表情符。該部分表情符的自動(dòng)標(biāo)注包括兩部分:情感強(qiáng)度計(jì)算和情感傾向判定。

        利用卡方統(tǒng)計(jì)值χ2度量基礎(chǔ)表情符e與文檔類別textPi的關(guān)聯(lián)程度,得到的χ2統(tǒng)計(jì)值作為表情符的情感強(qiáng)度。通過(guò)設(shè)定閾值θ,將情感強(qiáng)度達(dá)到閾值的表情符加入到LSS。計(jì)算χ2統(tǒng)計(jì)值為

        (2)

        式中:textPi表示語(yǔ)料標(biāo)注類別;A表示包含表情符e且屬于textPi類的標(biāo)注語(yǔ)料數(shù);B表示包含e但是不屬于textPi類的標(biāo)注語(yǔ)料數(shù);C表示屬于textPi類但是不包含e的標(biāo)注語(yǔ)料數(shù);D表示既不屬于textPi類也不包含e的標(biāo)注語(yǔ)料數(shù)。

        對(duì)語(yǔ)料進(jìn)行分析,本文認(rèn)為一般情況下,正向表情符出現(xiàn)在正向文本的概率大于出現(xiàn)在負(fù)向文本的概率,同理認(rèn)為負(fù)向表情符出現(xiàn)在負(fù)向文本的概率大于出現(xiàn)在正向文本的概率。因此,自動(dòng)標(biāo)注集中表情符的情感傾向可以表示為

        (3)

        利用上述方法自動(dòng)標(biāo)注情感傾向明顯的表情符,省去了人工標(biāo)注的負(fù)擔(dān),實(shí)驗(yàn)部分通過(guò)人工進(jìn)行校對(duì),驗(yàn)證了本文方法具有較高的準(zhǔn)確率。

        3 情感傾向不明顯的表情符自動(dòng)標(biāo)注方法

        與種子表情符不存在共現(xiàn)關(guān)系的表情符,本文認(rèn)為其情感不明顯,難以通過(guò)人工方式達(dá)成一致的標(biāo)注結(jié)果。因此,本文提出利用大規(guī)模語(yǔ)料庫(kù)和表情符標(biāo)注集LSS,訓(xùn)練分類器,實(shí)現(xiàn)表情符情感傾向的判斷。分類器的構(gòu)建依賴于合理有效的表情符向量空間模型。在傳統(tǒng)文本向量空間模型中,通過(guò)提取組成文本的單元作為文本向量的特征,例如單詞、短語(yǔ)等。但是在表情符向量空間模型中,一般情況下表情符本身就是一個(gè)詞語(yǔ),難以用同樣的方式抽取特征,需要一種新的特征選擇思路。因此,本文將2.1節(jié)選得到的種子情感詞作為特征,以此構(gòu)造表情符向量e,即有

        e=

        (4)

        式中:seedWi表示表情符向量的特征,即種子情感詞,包括正向種子情感詞和負(fù)向種子情感詞;m為種子情感詞的數(shù)量。特征的權(quán)重W(seedWi)依據(jù)表情符與種子情感詞在語(yǔ)料中的共現(xiàn)關(guān)系計(jì)算得到,即有

        (5)

        式(5)對(duì)數(shù)據(jù)進(jìn)行了歸一化處理,df(e,seedWi)表示表情符e與種子情感詞seedWi共現(xiàn)的文檔數(shù)。

        圖2所示是表情符情感極性分類器的訓(xùn)練過(guò)程。訓(xùn)練集利用2.3節(jié)中通過(guò)自動(dòng)標(biāo)注方式得到的LSS,即表情符標(biāo)注集,省去了人工標(biāo)注訓(xùn)練數(shù)據(jù)的負(fù)擔(dān)。

        圖2 微博表情符情感傾向判定模型的訓(xùn)練過(guò)程Fig.2 Training process of sentiment determination model of microblog smileys

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        表2 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)來(lái)源于新浪微博4 130個(gè)用戶的個(gè)人微博,共采集298 295條微博,從中篩選出包含表情符的微博共93 131條,作為本文的基礎(chǔ)語(yǔ)料庫(kù)BaseCoprus。實(shí)驗(yàn)數(shù)據(jù)如表2所示。其中,測(cè)試集的表情符是指情感比較不明顯的表情符,通過(guò)過(guò)濾種子表情符和第2節(jié)的表情符標(biāo)注集得到。

        4.2 實(shí)驗(yàn)設(shè)置

        設(shè)計(jì)程序時(shí)利用正則表達(dá)式提取微博文本中的表情符;分詞工具采用中科院ICTCLAS;實(shí)驗(yàn)中的情感詞典通過(guò)整合HowNet的情感詞和評(píng)價(jià)詞、臺(tái)灣大學(xué)NTUSD情感詞典和大連理工大學(xué)信息檢索研究院的情感詞匯本體庫(kù)[13],并去除重復(fù)項(xiàng)得到;分類器選擇支持向量機(jī),程序代碼選取臺(tái)灣大學(xué)林智仁開(kāi)發(fā)的LibSVM。

        4.3 實(shí)驗(yàn)結(jié)果及分析

        圖3 不同θ的實(shí)驗(yàn)結(jié)果 Fig.3 Experimental results with different θ

        設(shè)置兩組實(shí)驗(yàn)對(duì)本文方法的有效性進(jìn)行驗(yàn)證,一組是設(shè)定卡方統(tǒng)計(jì)值的不同閾值θ,分析情感明顯的表情符自動(dòng)標(biāo)注的準(zhǔn)確率;另一組是對(duì)情感傾向不明顯的表情符的情感極性進(jìn)行分類,利用3個(gè)訓(xùn)練集構(gòu)造分類器,比較分析實(shí)驗(yàn)結(jié)果。3個(gè)訓(xùn)練集分別用TR1,TR2,TR3表示。TR1表示種子表情符;TR2表示表情符標(biāo)注集,由本文第2節(jié)得到;TR3表示表情符人工標(biāo)注集,即對(duì)TR2的表情符進(jìn)行人工標(biāo)注。實(shí)驗(yàn)所用種子表情符和種子情感詞如表1所示。本文采用總體準(zhǔn)確率作為分類性能的評(píng)價(jià)指標(biāo),計(jì)算公式為

        (6)

        式中:Over-accuracy代表總體準(zhǔn)確率;Correct(ci)表示分類為ci并且正確的文檔數(shù);Doc(ci)表示類別為ci的文檔總數(shù)。

        4.3.1 情感明顯的表情符自動(dòng)標(biāo)注結(jié)果分析

        利用2.2節(jié)的方法標(biāo)注基礎(chǔ)語(yǔ)料庫(kù)中的93 131條語(yǔ)料,得到33 241條正向標(biāo)注語(yǔ)料,14 367條負(fù)向標(biāo)注語(yǔ)料,以此構(gòu)建標(biāo)注語(yǔ)料庫(kù)。使用該標(biāo)注語(yǔ)料庫(kù)計(jì)算表情符的情感強(qiáng)度,以及判定其情感傾向。通過(guò)人工校對(duì)結(jié)果,分析不同閾值θ下算法的性能,實(shí)驗(yàn)結(jié)果如圖3所示。表情符計(jì)算得到的卡方統(tǒng)計(jì)值呈現(xiàn)明顯的分段現(xiàn)象,因此閾值θ取值沒(méi)有固定的間隔。由圖3可以得到,表情符情感傾向的判定取得了較高的準(zhǔn)確率,平均為80%左右,說(shuō)明了自動(dòng)標(biāo)注方式的有效性。另外,隨著閾值θ的增加,對(duì)表情符情感強(qiáng)度達(dá)到閾值的要求越高,正向準(zhǔn)確率和負(fù)向準(zhǔn)確率也有一定的提高。

        4.3.2 情感不明顯的表情符自動(dòng)標(biāo)注結(jié)果分析

        將閾值θ取值為580,TR1,TR2,TR3分別作為分類器的訓(xùn)練集,對(duì)情感傾向不明顯的表情符的情感極性進(jìn)行分類。請(qǐng)5位相關(guān)領(lǐng)域研究人員,對(duì)結(jié)果進(jìn)行手工校對(duì),得到的準(zhǔn)確率對(duì)比如表3所示??梢缘贸?,TR2訓(xùn)練得到的分類器取得了較高的總體準(zhǔn)確率77.5%,相對(duì)于TR1有了明顯的提高,說(shuō)明本文方法的有效性。TR2的負(fù)向準(zhǔn)確率70%之所以明顯低于TR1的負(fù)向準(zhǔn)確率85%,是因?yàn)楸砬榉麡?biāo)注集LSS的正負(fù)表情符比例不平衡造成的,統(tǒng)計(jì)結(jié)果表明正向表情符的數(shù)量大約為負(fù)向表情符數(shù)量的2倍。對(duì)比TR2和TR3的總體準(zhǔn)確率可以得到,利用表情符標(biāo)注集作為訓(xùn)練集方法的性能接近于人工標(biāo)注訓(xùn)練集的方法,大大減少了人工參與的負(fù)擔(dān),因此,實(shí)驗(yàn)表明了本文方法在判定表情符情感傾向上的有效性與優(yōu)越性。

        表3 不同訓(xùn)練集的實(shí)驗(yàn)結(jié)果 %

        5 結(jié)束語(yǔ)

        本文將表情符分成了兩部分進(jìn)行討論,一部分是情感傾向明顯的表情符,另一部分是情感傾向不明顯的表情符。對(duì)此,本文提出一種利用種子詞自動(dòng)判定微博表情符情感傾向的方法。種子詞包括種子表情符和種子情感詞,通過(guò)統(tǒng)計(jì)與人工結(jié)合的方法篩選得到。利用少量種子表情符計(jì)算情感傾向比較明顯的表情符的情感強(qiáng)度,并根據(jù)表情符分別出現(xiàn)在正向和負(fù)向標(biāo)注語(yǔ)料的概率判定其情感傾向,以此生成表情符標(biāo)注集。對(duì)于情感傾向不明顯的表情符,利用種子情感詞和表情符標(biāo)注集構(gòu)建模型,結(jié)合機(jī)器學(xué)習(xí)方法訓(xùn)練表情符情感分類器,實(shí)現(xiàn)其情感傾向的自動(dòng)判定。實(shí)驗(yàn)結(jié)果表明,與人工標(biāo)注結(jié)果對(duì)比,兩部分表情符情感傾向的判定都取得很好的效果,減少了人工判定的負(fù)擔(dān)。但是本文研究對(duì)于情感不明顯的表情符情感強(qiáng)度的計(jì)算還缺少討論;另外種子詞的選擇還需要人工的參與。下一步工作將針對(duì)這些問(wèn)題繼續(xù)研究,并且將表情符的情感信息應(yīng)用到文本情感分析中。

        [1] 譚文芳. 網(wǎng)絡(luò)表情符號(hào)的影響力分析[J]. 求索,2011(10):202-204.

        Tan Wenfang. The influence analysis of network emoticons[J]. Seeker,2011, (10):202-204.

        [2] 桂斌,楊小平,張中夏,等. 基于微博表情符號(hào)的情感詞典構(gòu)建研究[J]. 北京理工大學(xué)學(xué)報(bào),2014,34(05):537-541.

        Gui Bin, Yang Xiaoping, Zhang Zhongxia, et al. Research on building lexicon for sentiment analysis based on the Chinese microblogging smiley[J]. Journal of Beijing Institute of Technology,2014,34(05):537-541.

        [3] Yamamoto Y, Kumamoto T, Nadamoto A. Role of emoticons for multidimensional sentiment analysis of twitter[C]∥Proceedings of the 16th International Conference on Information Integration and Web-based Applications & Services. [S.l.]: ACM, 2014: 107-115.

        [4] Khan F H, Bashir S, Qamar U. TOM: Twitter opinion mining framework using hybrid classification scheme[J]. Decision Support Systems, 2014, 57(3): 245-257.

        [5] Davidov D, Tsur O, Rappoport A. Enhanced sentiment learning using twitter hashtags and smileys[C]∥Proceedings of the 23rd International Conference on Computational Linguistics: Posters. [S.l.]:Association for Computational Linguistics, 2010: 241-249.

        [6] Kouloumpis E, Wilson T, Moore J. Twitter sentiment analysis: The good the bad and the omg[C]∥Proceedings of ICWSM.[S.l.]: AAAI Press, 2011, 11: 538-541.

        [7] Go A, Bhayani R, Huang L. Twitter sentiment classification using distant supervision[R]. CS224N Project Report, Stanford Digital Library Technologies Project, 2009, 1: 12.

        [8] Jiang F, Liu Y, Luan H, et al. Microblog sentiment analysis with emoticon space model[M]. Berlin Heidelberg: Springer, 2014: 76-87.

        [9] 龐磊, 李壽山, 周?chē)?guó)棟. 基于情緒知識(shí)的中文微博情感分類方法[J]. 計(jì)算機(jī)工程, 2012, 38(13):156-158.

        Pang Lei, Li Shousha, Zhou Guodong. Sentiment classification method of Chinese mirco-blog based on emotional knowledge[J]. Computer Engineering, 2012, 38(13):156-158.

        [10]劉培玉, 張艷輝, 朱振方,等. 融合表情符號(hào)的微博文本傾向性分析[J]. 山東大學(xué)學(xué)報(bào):理學(xué)版, 2014, 49(11):8-13.

        Liu Peiyu, Zhang Yanhui, Zhu Zhenfang, et al. Micro-blog orientation analysis based on emotion symbol[J]. Journal of Shandong University: Natural Science, 2014, 49(11):8-13.

        [11]張珊, 于留寶, 胡長(zhǎng)軍. 基于表情圖片與情感詞的中文微博情感分析[J]. 計(jì)算機(jī)科學(xué), 2012, 39(11):146-148.

        Zhang Shan, Yu Liubao, Hu Changjun, et al. Sentiment analysis of Chinese micro-blogs based on emoticons and emotinal words[J]. Computer Science, 2012, 39(11):146-148.

        [12]劉偉朋, 陳雁翔, 孫曉. 基于表情符號(hào)的中文微博多維情感分類的研究[J]. 合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 37(7):803-807.

        Liu Weipeng, Chen Yanxiang, Sun Xiao, el al. Multidimensional sentiment classification method of Chinese micro-blog based on the emoticon[J]. Journal of Hefei University of Technology: Natural Science Edition, 2014, 37(7):803-807.

        [13]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.

        Xu Linhong, Lin Hongfei, Pan Yu, et al. Construction the affective lexicon ontology[J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(2): 180-185.

        Determination Method for Sentiment Orientation of Microblog Smileys Based on Seed Words

        Wang Wei1, Zhou Yongmei1,2, Yang Aimin1,2, Lin Jianghao3, Chen Yuhong1, Zeng Wenjun1

        (1.Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou, 510006, China; 2.Laboratory for Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou, 510006, China; 3.Financial Department, Guangdong University of Foreign Studies, Guangzhou, 510420, China)

        The smileys with obvious sentiment orientation are easily annotated manually. But the annotations of the smileys with unobvious sentiment orientation are difficult to reach a consensus. A method of automatically determining the sentiment orientation of the microblog smileys with the seed words is proposed. The method automatically annotates the corpus smileys with obvious sentiment orientation using a few seed emotions. Then these smileys are used to generate the labeled smiley set (LSS). Moreover, a model is built based on the seed emotional words and LSS to determine the smileys with unobvious sentiment orientation. Experimental results show that the presented method is effective.

        sentiment classification; machine learning; microblog smileys; seed words; automatic labeling

        國(guó)家社會(huì)科學(xué)基金(12BYY045)資助項(xiàng)目;教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃(NCET-12-0939)資助項(xiàng)目;廣東省教育廳科技創(chuàng)新項(xiàng)目(2013KJCX0067)資助項(xiàng)目;廣州市社會(huì)科學(xué)規(guī)劃項(xiàng)目(15Q16)資助項(xiàng)目;廣東外語(yǔ)外貿(mào)大學(xué)研究生科研創(chuàng)新項(xiàng)目(14GWCXXM-36)資助項(xiàng)目;廣東外語(yǔ)外貿(mào)大學(xué)校級(jí)項(xiàng)目(14Q3)資助項(xiàng)目;廣東省普通高校青年創(chuàng)新人才類項(xiàng)目(299-X5122106)資助項(xiàng)目。

        2015-06-23;

        2015-08-21

        TP391

        A

        王 偉(1991-),男,碩士研究生,研究方向:文本情感分析、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理,E-mail: 20131010007@gdufs.edu.cn。

        林江豪(1985-),男,碩士研究生,研究方向:自然語(yǔ)言處理、文本情感分析和機(jī)器學(xué)習(xí)。

        周詠梅(1971-),女,教授,研究方向:自然語(yǔ)言處理、文本情感分析和機(jī)器學(xué)習(xí)。

        陳昱宏(1993-),男,本科,研究方向:文本情感分析。

        陽(yáng)愛(ài)民(1970-),男,教授,研究方向:自然語(yǔ)言處理、文本情感分析和機(jī)器學(xué)習(xí)。

        曾文俊(1993-),男,本科,研究方向:文本情感分析。

        猜你喜歡
        文本情感方法
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产剧情国产精品一区| 国产精品久久久在线看| 国产精品成人久久一区二区| 中文字幕二区三区在线| 亚洲免费一区二区av| 日本视频在线观看一区二区| 国产精品无码一区二区三区电影 | 伊人久久大香线蕉免费视频| 日本一区二区亚洲三区| 国产精品国产自产拍高清| 亚洲天堂一区av在线| 97高清国语自产拍| 四虎在线播放免费永久视频| 大屁股少妇一区二区无码| 亚洲精品一区二区在线播放| 在线观看av不卡 一区二区三区| 国产成人精品免费久久久久| 国产精品成人国产乱| 先锋影音av资源我色资源| 视频一区精品自拍| 亚洲中文字幕免费精品| 中文字幕色偷偷人妻久久一区| 国产精品久久久久9999吃药| 国产成人无码区免费内射一片色欲 | 无码人妻丰满熟妇啪啪网不卡| 亚洲学生妹高清av| 久久亚洲精品成人| 亚洲精品精品日本日本| 久久精品亚洲94久久精品| 日本韩国男男作爱gaywww| 人妻系列无码专区久久五月天| 最新国产成人综合在线观看| 白白色福利视频在线观看| 亚洲中文字幕剧情类别| 亚洲日韩在线中文字幕综合| 欧美日韩中文国产一区| 国产在线一区二区视频免费观看| 国产日产在线视频一区| 亚洲av无码av男人的天堂| 亚洲无码一二专区| 久久精品国产亚洲av成人擦边 |