亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向微博文本的情緒標(biāo)注語(yǔ)料庫(kù)構(gòu)建

        2014-02-28 09:56:53姚源林王樹偉徐睿峰王曉龍
        中文信息學(xué)報(bào) 2014年5期
        關(guān)鍵詞:博文評(píng)測(cè)語(yǔ)料

        姚源林,王樹偉,徐睿峰,劉 濱,桂 林,陸 勤,王曉龍

        (1. 哈爾濱工業(yè)大學(xué) 深圳研究生院,廣東 深圳 518055;2.香港理工大學(xué) 電子計(jì)算學(xué)系, 香港 九龍)

        1 引言

        文本情緒的識(shí)別與分類在文本傾向性分析、輿情分析、事件預(yù)測(cè)等領(lǐng)域都有著廣泛的應(yīng)用。其識(shí)別過(guò)程中涉及到了情緒心理學(xué)、認(rèn)知心理學(xué)、生活常識(shí)、輿論導(dǎo)向等諸多因素,加之機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法等不同的研究手段,正使得文本情緒計(jì)算成為自然語(yǔ)言處理領(lǐng)域的新熱點(diǎn)。作為相關(guān)研究的基礎(chǔ),遵循統(tǒng)一的標(biāo)注規(guī)范下標(biāo)注的情緒語(yǔ)料庫(kù)對(duì)具體的語(yǔ)言現(xiàn)象分析以及情緒分類算法的設(shè)計(jì)和評(píng)估都有重要意義。

        目前,國(guó)內(nèi)外在情緒標(biāo)注語(yǔ)料庫(kù)的構(gòu)建上取得了一定的進(jìn)展。Mishne利用LiveJournal博客系統(tǒng)中作者自行標(biāo)注發(fā)布博客時(shí)的情緒信息,構(gòu)建了一個(gè)包含815 494篇博客的英文情緒標(biāo)注語(yǔ)料庫(kù)[1]。該語(yǔ)料庫(kù)標(biāo)注了132種情緒類別,例如,開(kāi)心、生氣等。Ptaszynski等人對(duì)50億字的日語(yǔ)博客進(jìn)行了情緒標(biāo)注[2]。該語(yǔ)料庫(kù)采用了10種情緒類別標(biāo)注,此外還標(biāo)注了情緒符號(hào)、情感極性等。在中文情緒語(yǔ)料庫(kù)的構(gòu)建方面,Quan C.等人提出了一套細(xì)粒度的文本情緒標(biāo)注方案,該方案采用8種基本情緒類別,對(duì)1 487篇博客進(jìn)行文檔級(jí)、段落級(jí)以及句子級(jí)三個(gè)層次的情緒標(biāo)注[3]。徐琳宏等在小學(xué)教材(人教版) 、電影劇本、童話故事、文學(xué)期刊等語(yǔ)料上進(jìn)行了句子級(jí)別的情緒標(biāo)注,采用了7大類,22小類的情緒分類體系,完成近4萬(wàn)句, 100萬(wàn)字的語(yǔ)料標(biāo)注[4]。相對(duì)于情緒標(biāo)注語(yǔ)料庫(kù),情感傾向性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建則相對(duì)較為成熟。Xu R.F等人針對(duì)中文產(chǎn)品評(píng)價(jià)中傾向性表達(dá)特點(diǎn),設(shè)計(jì)了一套細(xì)粒度傾向性標(biāo)注方案,分別在詞語(yǔ)級(jí)、句子級(jí)和文檔級(jí)進(jìn)行標(biāo)注。對(duì)于每一個(gè)傾向性評(píng)價(jià),分別標(biāo)注了觀點(diǎn)表達(dá)及其對(duì)應(yīng)的產(chǎn)品屬性。同時(shí),引入領(lǐng)域本體對(duì)評(píng)價(jià)目標(biāo)屬性進(jìn)行了概念化規(guī)約[5]。Pak A.等人利用來(lái)源于推特(Twitter)的微博建立一個(gè)包含了正負(fù)面情感的主觀文本語(yǔ)料庫(kù)[6]。

        目前情緒標(biāo)注語(yǔ)料庫(kù)構(gòu)建在國(guó)內(nèi)外取得了一定進(jìn)展,但中文微博文本情緒語(yǔ)料庫(kù)構(gòu)建仍處于初級(jí)階段。由于微博文本長(zhǎng)度較短,表達(dá)較為口語(yǔ)化,網(wǎng)絡(luò)用語(yǔ)較多,與博客等長(zhǎng)文本的情緒表達(dá)方式有著較大的差異,導(dǎo)致現(xiàn)有的面向長(zhǎng)文本的情緒標(biāo)注規(guī)范不完全適應(yīng)微博情緒標(biāo)注的需要。因此,結(jié)合微博文本特點(diǎn)設(shè)計(jì)情緒標(biāo)注規(guī)范,并構(gòu)建面向微博短文本的情緒標(biāo)注語(yǔ)料庫(kù)是十分必要的。

        本文選取新浪微博文本作為基礎(chǔ)語(yǔ)料進(jìn)行標(biāo)注。相較于其他語(yǔ)料庫(kù),本語(yǔ)料在選取時(shí)充分考慮了中文微博文本的結(jié)構(gòu)、語(yǔ)法和表達(dá)特點(diǎn),諸如表達(dá)口語(yǔ)化、情緒多樣化、情緒轉(zhuǎn)移多、事件及領(lǐng)域覆蓋面廣等,從而以符合日常人們表達(dá)習(xí)慣的特點(diǎn)出發(fā)選取數(shù)據(jù)并建立標(biāo)注語(yǔ)料庫(kù)。標(biāo)注過(guò)程中,首先在微博級(jí)和句子級(jí)上對(duì)有無(wú)情緒進(jìn)行判別,然后對(duì)有情緒的微博和句子進(jìn)行7種情緒類別的標(biāo)注,包括快樂(lè)、喜好、憤怒、悲傷、恐懼、厭惡、驚訝。此外,在句子級(jí)別上增加了包含3個(gè)情緒強(qiáng)度等級(jí)的標(biāo)注。為保持標(biāo)注結(jié)果的準(zhǔn)確性及一致性,建立了相關(guān)的評(píng)價(jià)方法和標(biāo)注流程管理。目前,該語(yǔ)料庫(kù)已完成14 000條微博、45 431個(gè)句子的情緒標(biāo)注。其中,有情緒微博7 407條,無(wú)情緒微博6 593條,其中包含有情緒句子15 688條,無(wú)情緒句子29 733條。本語(yǔ)料庫(kù)為相關(guān)科研工作人員分析微博文本的情緒表達(dá)特點(diǎn)提供了支持。應(yīng)用該語(yǔ)料庫(kù)組織了NLP&CC2013中文微博情緒分析評(píng)測(cè)任務(wù),有效促進(jìn)了相關(guān)領(lǐng)域的研究。

        本文組織結(jié)構(gòu)如下: 第2節(jié)介紹微博情緒語(yǔ)料庫(kù)標(biāo)注規(guī)范;第3節(jié)介紹語(yǔ)料庫(kù)構(gòu)建方法;第4節(jié)對(duì)已構(gòu)建情緒語(yǔ)料庫(kù)進(jìn)行了數(shù)據(jù)統(tǒng)計(jì)以及標(biāo)注一致性分析。第5節(jié)簡(jiǎn)單介紹了應(yīng)用該語(yǔ)料庫(kù)組織NLP&CC2013的中文微博情緒識(shí)別任務(wù)評(píng)測(cè)的情況。第6節(jié)給出本文結(jié)論。

        2 微博情緒語(yǔ)料庫(kù)標(biāo)注規(guī)范

        2.1 原始語(yǔ)料選擇

        本文選取新浪微博文本作為原始標(biāo)注語(yǔ)料。相對(duì)于其他語(yǔ)料庫(kù),本語(yǔ)料文本的選擇原則是領(lǐng)域無(wú)關(guān),事件分布面廣。在選取的過(guò)程中,從2011年至2012年共24個(gè)月的上億條數(shù)據(jù)中進(jìn)行隨機(jī)選取,同時(shí)每個(gè)月選取的微博數(shù)量大致相同。在對(duì)長(zhǎng)度較短、含有不規(guī)則字符或純轉(zhuǎn)發(fā)的低質(zhì)量微博過(guò)濾后,最終留下格式較為規(guī)范的微博作為原始標(biāo)注語(yǔ)料。

        2.2 標(biāo)注粒度

        微博作者要在簡(jiǎn)短的文字中表達(dá)情緒或觀點(diǎn),往往會(huì)出現(xiàn)不規(guī)范的句子表達(dá)以及較為密集的情緒分布,所以相對(duì)細(xì)致的標(biāo)注粒度很有必要。為此,本文將情緒標(biāo)注的粒度劃分為微博級(jí)和句子級(jí)。微博級(jí)的標(biāo)注從微博整體角度出發(fā),標(biāo)注了微博作者所表達(dá)的情緒,而句子級(jí)的情緒標(biāo)注則從微博中每一個(gè)句子的角度出發(fā),對(duì)作者所表達(dá)的情緒進(jìn)行標(biāo)注。

        2.3 情緒分類體系

        目前現(xiàn)有的情緒分類體系存在著不一致的情況,這是由于心理學(xué)界對(duì)情緒的劃分還沒(méi)有一個(gè)公認(rèn)標(biāo)準(zhǔn)。較為常用且適合文本情緒分類研究的分類體系是大連理工大學(xué)林鴻飛教授提出的中文情感詞匯本體[7]。該分類體系是在Ekman的6大類情緒分類體系,在6種情緒類別(“憤怒”、“厭惡”、“恐懼”、“高興”、“悲傷”、“驚訝”)的基礎(chǔ)上,增加了情緒類別“喜好”,對(duì)正面情緒進(jìn)行了更細(xì)致的劃分。本文采用該方案提出的7類情緒體系。

        2.4 多標(biāo)簽標(biāo)注

        現(xiàn)有的情緒標(biāo)注語(yǔ)料庫(kù)中大多采用單標(biāo)簽情緒標(biāo)注,也就是認(rèn)為每一個(gè)標(biāo)注文本對(duì)象只包含唯一的情緒類別。但是,在實(shí)際表達(dá)中,同一條文本作者往往會(huì)同時(shí)表達(dá)多重的情緒,如例1所示。

        例1“清明節(jié)放三天假,但是老師布置了比平時(shí)還多的作業(yè),我真是悲喜交加啊。”

        在例1中“悲喜交加”不僅表達(dá)了作者“高興”的情緒,同時(shí)也表達(dá)了“悲傷”的情緒。

        經(jīng)過(guò)對(duì)500條抽樣微博進(jìn)行情緒表達(dá)統(tǒng)計(jì)發(fā)現(xiàn),在有情緒的微博中,僅包含一種情緒的微博占到近80%,有兩種情緒的占到17%,三種及以上情緒的則只有很小的比例。為此,在標(biāo)注方案中對(duì)微博文本進(jìn)行了多標(biāo)簽情緒標(biāo)注。具體的,對(duì)每一標(biāo)注文本標(biāo)注至多兩種情緒,其中一種為主要情緒,一種為次要情緒。主要情緒和次要情緒劃分主要遵循如下方法,即首先明確微博或句子所包含的所有種類的情緒,然后對(duì)這些情緒在該微博或句子中的強(qiáng)弱程度進(jìn)行排序,取最強(qiáng)的情緒作為主要情緒,若包含多個(gè)情緒,取次強(qiáng)的情緒作為次要情緒。

        2.5 情緒強(qiáng)度標(biāo)注

        文本中包含的情緒往往在強(qiáng)度上有很大的差異。如下面兩個(gè)例子。

        例2“這令我傷心欲絕?!?/p>

        例3“這令我心情不悅?!?/p>

        例2和例3都表達(dá)了“悲傷”的情緒在內(nèi),但是“傷心欲絕”要比“心情不悅”悲傷的強(qiáng)度更大。因此,有必要在情緒類別標(biāo)注的基礎(chǔ)上標(biāo)注情緒表達(dá)強(qiáng)度。

        為了更好的體現(xiàn)句子中主次要情緒的縱向?qū)Ρ群臀⒉┲芯渥娱g情緒的橫向?qū)Ρ龋瑯?biāo)注規(guī)范中要求對(duì)每個(gè)情緒句進(jìn)行了三個(gè)強(qiáng)度等級(jí)的標(biāo)注。分別由3、2、1代表強(qiáng)、中、弱。每個(gè)情緒最終的強(qiáng)度值通過(guò)對(duì)多人標(biāo)注的強(qiáng)度的平均值獲得。

        3 情緒語(yǔ)料庫(kù)構(gòu)建

        3.1 微博文本預(yù)處理

        由于微博的表達(dá)方式較為隨意,有一些微博不適宜作為最終使用語(yǔ)料,因此在標(biāo)注前要對(duì)微博進(jìn)行數(shù)據(jù)篩選。篩選過(guò)程分為兩個(gè)步驟: 首先對(duì)過(guò)短的微博進(jìn)行篩除,包括單純轉(zhuǎn)發(fā)或@、僅有“轉(zhuǎn)發(fā)微博”字樣、純表情符或者標(biāo)點(diǎn)符號(hào)、或字?jǐn)?shù)少于5個(gè)字的微博,原因在于這些微博對(duì)于情緒表達(dá)研究意義不大。此外還去除非普通話微博(粵語(yǔ)、英語(yǔ)、日語(yǔ)等)以及各種其他類型怪異微博,如字符畫等。

        在對(duì)微博文本進(jìn)行情緒標(biāo)注之前,需要對(duì)微博進(jìn)行分句。分句時(shí)原則上按照如下規(guī)則:

        1) 括號(hào)及其之內(nèi)的文本不單獨(dú)成句。

        2) 對(duì)于較長(zhǎng)的句子且僅用空格做分隔符的,用空格作為分句依據(jù)。

        3) 純標(biāo)點(diǎn)符號(hào)不算做一句話,如全是嘆號(hào),盡管表達(dá)了一定的情緒,但不作為獨(dú)立句。

        4) 因?yàn)槭侵形恼Z(yǔ)料庫(kù),所以英文不作為單獨(dú)的句子,但可以作為一句話中的子句。

        在分句階段,由于微博文本不同于格式規(guī)整的新聞文本,很多情況下都是發(fā)布者隨意發(fā)布、格式不一,通過(guò)機(jī)器提取的規(guī)則不足以覆蓋所有的微博分句,故需要人工干預(yù)分句,以確保準(zhǔn)確度。

        3.2 標(biāo)注規(guī)則

        3.2.1 情緒有無(wú)及主客觀評(píng)價(jià)的區(qū)分

        情緒按照持有者角色屬性來(lái)說(shuō),共分為4類,即發(fā)出評(píng)價(jià)者的情緒,所屬者或被描述者的情緒,動(dòng)作、評(píng)價(jià)、事件、狀態(tài)受體的情緒,旁觀者或者讀者的情緒[8]。在本標(biāo)注體系中,僅考慮的是微博發(fā)出者的情緒狀態(tài),因而主要從第一類,即發(fā)出評(píng)價(jià)者或微博作者的情緒的角度進(jìn)行標(biāo)注。

        對(duì)事物的評(píng)價(jià)分為客觀評(píng)價(jià)和主觀評(píng)價(jià)兩種??陀^評(píng)價(jià)對(duì)客觀存在的一種描述,而非表達(dá)自己的情緒,所以本研究認(rèn)為客觀評(píng)價(jià)類的微博是沒(méi)有情緒的。相反,主觀評(píng)價(jià)類微博是有情緒的,部分主觀評(píng)價(jià)與客觀評(píng)價(jià)比較難判別彼此,通過(guò)抽樣統(tǒng)計(jì)發(fā)現(xiàn),如果形容詞前面有程度詞或副詞修飾的話,則會(huì)具有較大的概率被認(rèn)為這是一種主觀評(píng)價(jià),如下面三個(gè)例子。

        例4“宮殿是帝王朝會(huì)和居住的地方,規(guī)模宏大,形象壯麗,格局嚴(yán)謹(jǐn)?!?/p>

        例5“她的咸蛋酥,年糕椰蓉酥,叉燒酥都很不錯(cuò),超贊哦?!?/p>

        例6“她看到了這里的風(fēng)景后,高興的大呼起來(lái),非常激動(dòng)?!?/p>

        在例4中出現(xiàn)的形如“規(guī)模宏大、形象壯麗”等正面評(píng)價(jià)詞語(yǔ)都是對(duì)宮殿的客觀、嚴(yán)謹(jǐn)和正式的描述,沒(méi)有個(gè)人情緒蘊(yùn)含在內(nèi),所以不作為情緒句。在例5中則出現(xiàn)了“不錯(cuò)”,“超贊”這類褒獎(jiǎng)詞語(yǔ),含有主觀評(píng)價(jià)的成分在內(nèi),則認(rèn)為是情緒句。而在例6中盡管有著非常明顯的情緒表達(dá),但是這個(gè)情緒不屬于微博作者,而屬于對(duì)于人物或事件的陳述,在本研究中視為無(wú)情緒。

        3.2.2 微博整體情緒和句子情緒的關(guān)系

        通常一條微博由若干句子組成,對(duì)應(yīng)的情緒分布往往有兩種情況。即集中分布在一個(gè)句子上或散列分布在若干句子上。由此我們也能發(fā)現(xiàn),如果微博整體有情緒的話,微博句子中至少有一個(gè)是有情緒。多個(gè)有情緒的句子之間可以極性相反,這也符合漢語(yǔ)日常表達(dá),但同樣要遵循一個(gè)為主要情緒一個(gè)為次要情緒??紤]到微博存在轉(zhuǎn)發(fā)以及非原創(chuàng)的情況,微博整體無(wú)情緒的情況下,允許作為轉(zhuǎn)發(fā)或者引用的句子有情緒。

        在一條微博中,往往會(huì)出現(xiàn)情緒變化的情況,特別是情緒正負(fù)極性的變化。例如,

        例7“不過(guò)真好聽(tīng),一水即興的solo,真比原版好聽(tīng)??上Я?,可惜老天不作美”

        例7中第一句有著明顯的“喜好”的情緒在內(nèi),在第二句則轉(zhuǎn)為了“悲傷”的情緒。對(duì)于此類情況,在標(biāo)注過(guò)程中按照其實(shí)際情緒進(jìn)行標(biāo)注,整體情緒按照微博最大的情緒傾向性標(biāo)注。確定最大的傾向性首先利用轉(zhuǎn)折關(guān)系、篇幅長(zhǎng)度來(lái)明確微博所要講述的中心事件,然后確定中心事件的情緒及其強(qiáng)度并作為最終的最大傾向性。所以在標(biāo)注的過(guò)程中,由轉(zhuǎn)折關(guān)系可知例7中整體中心事件為“天公不作美”,主要情緒為“悲傷”,次要情緒為“喜好”。

        3.2.3 反諷,反語(yǔ)情況的標(biāo)注

        反語(yǔ),反諷的微博文本無(wú)論在人工標(biāo)注還是在機(jī)器分類中都有著標(biāo)準(zhǔn)不統(tǒng)一的情況,本文中遵循以下的原則約定反諷的概念。

        1) 言非所指。即實(shí)際內(nèi)涵與表面意義相互矛盾。

        2) 鮮明性。要避免含糊,具有明確的反語(yǔ),反諷的傾向性。

        3) 按趙毅衡先生在《新批評(píng)》一書中的劃分,“反諷”分為“克制敘述”、“夸大敘述”、“正話反說(shuō)”、“疑問(wèn)式反諷”、“復(fù)義反諷”、“悖論反諷”、“浪漫反諷”和人物主題與語(yǔ)言風(fēng)格上的“宏觀反諷”等。

        在語(yǔ)料的標(biāo)注過(guò)程中,對(duì)于符合上述反諷、反語(yǔ)的微博語(yǔ)句,按照其蘊(yùn)含的真正的內(nèi)在情緒并結(jié)合上下文語(yǔ)境、常識(shí)進(jìn)行標(biāo)注。如例8所示。

        例8“結(jié)構(gòu)主義,我們中國(guó)太缺乏這樣的思想人士了。還有窮舉法,這方法,懂得使用的人太少了。我們國(guó)民都太聰明了。所以,各種法規(guī)政策總是顧頭未顧尾,漏洞百出,而且還死不悔改!”

        在例8中,“太聰明了”實(shí)際上并不是一個(gè)贊揚(yáng)的語(yǔ)氣,作者在此使用了反諷,故而認(rèn)定為蘊(yùn)含“厭惡”的情緒在內(nèi)。

        對(duì)于不能確定是否為反諷、反語(yǔ)的其他情況則按照文本表面含義進(jìn)行標(biāo)注。

        3.2.4 表情符的處理

        表情符在微博情緒的表達(dá)中占有著重要的作用,但在數(shù)據(jù)的抽樣考察中我們發(fā)現(xiàn)表情符的使用經(jīng)常出現(xiàn)字面含義與語(yǔ)境意義不同的情況,例如,在表達(dá)特別高興的情緒的時(shí)候,有的微博使用“[大哭]”,有的使用“[大笑]”等不同情緒極性的表情符。

        例9“哈哈,我已笑哭…大家走過(guò)路過(guò),千萬(wàn)不要錯(cuò)過(guò)??! 看看人家多斯文[大哭] [大哭]用語(yǔ)多文明[大哭] [大哭] [大哭]就是靠這樣來(lái)拉粉的?!?/p>

        在例9中,微博自身主要情緒為喜好,次要情緒為高興,但是在表情的選擇時(shí)使用了大哭的表情符,借以表達(dá)一種強(qiáng)烈的喜好和高興的情緒,這是微博這一類文本中特有的語(yǔ)言現(xiàn)象,具有一定的情感增強(qiáng)的作用。故而在標(biāo)注的時(shí)候,不能直接使用表情符作為文本情緒的類別,而必須是作為情緒判斷的參考,通過(guò)上下文的理解確定最終標(biāo)注的情緒類別。

        3.3 標(biāo)注一致性控制

        語(yǔ)料庫(kù)構(gòu)建中共有4名標(biāo)注人員,在標(biāo)注前進(jìn)行了統(tǒng)一的培訓(xùn),但是由于不同人對(duì)同一件事物的理解不同,標(biāo)注結(jié)果的差異性很難避免。為了盡量減少標(biāo)注的不一致,按照如下方式,在三個(gè)階段中進(jìn)行一致性控制。

        1) 將未標(biāo)注文本分為4份,每人標(biāo)注一份。

        2) 將標(biāo)注結(jié)果隨機(jī)轉(zhuǎn)至另一名標(biāo)注人員進(jìn)行復(fù)標(biāo),同時(shí)記錄標(biāo)注結(jié)果不同的文本數(shù)量。

        3) 將四份文本合并后打亂順序,再分為兩份,每份交予兩名標(biāo)注人員同時(shí)討論復(fù)標(biāo)。

        通過(guò)如上的方法,保證了每個(gè)微博均被標(biāo)注3次,同時(shí)最少被兩名不同人員標(biāo)注,且該情況下會(huì)在步驟3)雙人標(biāo)注結(jié)果比較中再次得到統(tǒng)一,由此可以使誤標(biāo)注數(shù)量盡量降到最低。出現(xiàn)3次標(biāo)注均不相同的情況概率很小,如果發(fā)現(xiàn)這種情況,則由4名標(biāo)注人員共同討論并確定最終結(jié)果。標(biāo)注結(jié)束后,利用Kappa值作為一致性指標(biāo)的度量。

        3.4 完整標(biāo)注示例

        標(biāo)注完成后,以XML格式存儲(chǔ),圖1顯示了一條有情緒微博的標(biāo)注示例。

        圖1 有情緒微博標(biāo)注示例及存儲(chǔ)格式

        4 語(yǔ)料庫(kù)標(biāo)注結(jié)果分析

        目前語(yǔ)料庫(kù)構(gòu)建已完成14 000條微博、45 431個(gè)句子的情緒標(biāo)注。在此基礎(chǔ)上,對(duì)微博情緒表達(dá)的語(yǔ)言現(xiàn)象和語(yǔ)言規(guī)律進(jìn)行了一系列的統(tǒng)計(jì)和分析。

        4.1 情緒占比統(tǒng)計(jì)

        表1和表2分別是對(duì)微博級(jí)和句子級(jí)有無(wú)情緒的數(shù)量統(tǒng)計(jì)。

        表1 微博級(jí)有無(wú)情緒比例

        表2 句子級(jí)有無(wú)情緒比例

        從統(tǒng)計(jì)中可以看出,有情緒的微博和無(wú)情緒的微博在微博級(jí)上比例大致相同。而在句子級(jí)別上,在句子級(jí)上有情緒和無(wú)情緒的比例大致為1∶2,這與先期對(duì)微博原始語(yǔ)料進(jìn)行抽樣統(tǒng)計(jì)得到的情況基本符合。

        本語(yǔ)料對(duì)于微博級(jí)和句子級(jí)都實(shí)現(xiàn)了多情緒標(biāo)注,表3及表4是對(duì)有情緒的微博及句子進(jìn)行的數(shù)量統(tǒng)計(jì)。

        表3 有情緒微博中各情緒分布情況

        從表3和表4中可以看出,無(wú)論是有情緒微博還是有情緒句子中,各類別情緒的分布都有所差異,其中,“喜好”類所占的比例最大,而“恐懼”、“驚訝”類所占的比例則較小。

        表4 有情緒句子中各類情緒分布情況

        4.2 情緒伴隨統(tǒng)計(jì)

        通過(guò)對(duì)標(biāo)注數(shù)據(jù)的分析我們發(fā)現(xiàn),在同一條微博或句子中,當(dāng)一種情緒出現(xiàn)后,往往有些其他的情緒伴隨出現(xiàn)。例如,出現(xiàn)“喜好”的時(shí)候,“高興”也會(huì)有很大的概率隨之出現(xiàn)。同一個(gè)微博或句子中,每種可能出現(xiàn)的主要、次要情緒的組合,稱之為一種情緒的伴隨,取值范圍為7種基本情緒或無(wú)情緒的組合。同時(shí)情緒伴隨是一個(gè)有序的組合,即{高興,喜好}和{喜好,高興}是不同的情緒伴隨。理論上有情緒微博最多含有49種情緒伴隨可能。

        我們對(duì)所有含有兩種情緒的情緒表達(dá)進(jìn)行統(tǒng)計(jì),利用條件概率公式計(jì)算伴隨情緒的出現(xiàn)概率。

        (1)

        式(1)中,Emotion1表示主要情緒,Emotion2表示次要情緒。

        表5顯示了利用式(1)進(jìn)行的微博級(jí)情緒伴隨的統(tǒng)計(jì),表6顯示了句子級(jí)情緒伴隨的統(tǒng)計(jì)。

        表5 微博級(jí)別伴隨情緒統(tǒng)計(jì)

        表6 句子級(jí)別伴隨情緒統(tǒng)計(jì)

        通過(guò)統(tǒng)計(jì)可以看出,無(wú)論在句子級(jí)別還是微博級(jí)別,“高興”和“喜好”經(jīng)常同時(shí)出現(xiàn),“憤怒”則經(jīng)常同“厭惡”伴隨出現(xiàn)。其他的情緒之間也有一定的關(guān)聯(lián)。

        4.3 情緒轉(zhuǎn)移統(tǒng)計(jì)

        所謂情緒轉(zhuǎn)移指的是同一條微博中,相鄰的兩個(gè)句子之間的情緒變化。分析鄰接句間情緒的轉(zhuǎn)移規(guī)律往往也能夠更好地促進(jìn)句子的情緒分類。為此,我們對(duì)微博中句子間情緒的轉(zhuǎn)移進(jìn)行統(tǒng)計(jì)。情緒a向情緒b的轉(zhuǎn)移概率可以利用式(2)計(jì)算得出。

        式(2)中,EmotionS表示句子S的情緒;EmotionSP表示句子S的前一句的情緒。

        表7顯示了7種情緒以及無(wú)情緒之間的情緒轉(zhuǎn)移概率。

        表7 句子間情緒轉(zhuǎn)移統(tǒng)計(jì)

        通過(guò)上表可以看出,具有相同極性的情緒轉(zhuǎn)移概率往往大于不同極性的情緒之間的轉(zhuǎn)移概率。例如正面情緒“高興”到正面情緒“喜好”的轉(zhuǎn)移概率要遠(yuǎn)大于到負(fù)面情緒“憤怒”的轉(zhuǎn)移概率。通過(guò)分析情緒的轉(zhuǎn)移規(guī)律可以更好地指導(dǎo)結(jié)合上下文的情緒分類。

        4.4 情緒強(qiáng)度統(tǒng)計(jì)

        針對(duì)每個(gè)微博句子的情緒,我們?cè)O(shè)定了3個(gè)強(qiáng)度等級(jí),分別使用3,2,1表示強(qiáng)中弱不同等級(jí)的強(qiáng)度。在實(shí)際標(biāo)注中,句子的第一情緒原則上要強(qiáng)于第二情緒的強(qiáng)度,個(gè)別情況下可以相等。

        表8 情緒平均強(qiáng)度統(tǒng)計(jì)

        可以看出,對(duì)于“憤怒”等情緒,情緒強(qiáng)度較為強(qiáng)烈。而對(duì)另一些情緒,例如“悲傷”,情緒強(qiáng)度則相對(duì)弱一些,這也是符合人們情緒的客觀情況的。

        4.5 標(biāo)注一致性分析

        本研究使用Kappa值作為標(biāo)注一致性的檢驗(yàn)標(biāo)準(zhǔn),分別對(duì)微博級(jí)情緒有無(wú)、微博級(jí)情緒類別選擇、句子級(jí)情緒有無(wú)、句子級(jí)情緒類別選擇、句子級(jí)情緒強(qiáng)度進(jìn)行一致性檢驗(yàn)。表9顯示了以上6種情況下的Kappa值。

        通過(guò)表9可以看出,在情緒有無(wú)方面,各標(biāo)注者的一致性較高,而在細(xì)粒度的情緒類別選擇方面,各標(biāo)注者的一致性相對(duì)較差一些。在句子級(jí)情緒強(qiáng)度標(biāo)注中得到的一致度約為0.646,主要原因是對(duì)于同一個(gè)情緒句,不同標(biāo)注者的情緒敏感性不同,但整體上一致性仍然達(dá)到了較高的水平。

        表9 標(biāo)注一致性統(tǒng)計(jì)

        5 微博情緒分析評(píng)測(cè)

        應(yīng)用本文建立的微博情緒標(biāo)注語(yǔ)料庫(kù),組織了NLP&CC2013中文微博情緒分析評(píng)測(cè)。其中,選擇4 000條微博作為訓(xùn)練數(shù)據(jù),10 000條微博作為測(cè)試數(shù)據(jù)。該評(píng)測(cè)任務(wù)中,共有19支隊(duì)伍提交了58組有效結(jié)果,在這些參賽隊(duì)伍中提出了很多的新的思想和方法。其中,賀飛燕等人結(jié)合TF-IDF方法與方差統(tǒng)計(jì)方法,提出了一種實(shí)現(xiàn)多分類特征抽取的計(jì)算方法[9]。采用先進(jìn)行極性判斷,后進(jìn)行細(xì)粒度情緒識(shí)別的處理方法,構(gòu)建細(xì)粒度情緒分析與判別流程, 并將其應(yīng)用于微博短文本的細(xì)粒度情緒識(shí)別。張晶等以情緒因子中的常用情緒詞和情緒短語(yǔ)為基礎(chǔ)構(gòu)建情緒詞典,并針對(duì)特殊的情緒表達(dá)式,結(jié)合標(biāo)點(diǎn)符號(hào)和表情符號(hào)在情緒分析中的功能,建立情緒規(guī)則庫(kù),然后,通過(guò)對(duì)情緒詞典和情緒規(guī)則的匹配和計(jì)算,實(shí)現(xiàn)對(duì)中文微博情緒的識(shí)別和分類[10]。 歐陽(yáng)純萍等人針對(duì)中文微博的用戶情緒分析問(wèn)題,提出了一種基于多策略融合的細(xì)粒度情緒分析方法,首先采用貝葉斯算法對(duì)微博的有無(wú)情緒分類,然后構(gòu)建有情緒微博的21維特征向量,最后采用SVM和KNN算法對(duì)微博進(jìn)行細(xì)粒度情緒分類[11]。

        本次評(píng)測(cè)分別進(jìn)行Close封閉資源測(cè)試和Open開(kāi)放資源測(cè)試。其中Close封閉資源測(cè)試要求各參評(píng)單位只使用組織者提供的詞典、分詞工具等資源;Open測(cè)試則允許參評(píng)單位利用現(xiàn)有語(yǔ)言資源開(kāi)發(fā)和訓(xùn)練系統(tǒng),并用于測(cè)試結(jié)果生成。評(píng)測(cè)分別評(píng)估了Close和Open測(cè)試所取得的系統(tǒng)性能。

        表10和表11分別列出了NLP&CC2013微博級(jí)情緒有無(wú)斷任務(wù)Close和Open評(píng)測(cè)中性能較優(yōu)的部分結(jié)果。

        表10 NLP&CC2013微博級(jí)情緒有無(wú)Close評(píng)測(cè)部分結(jié)果

        表11 NLP&CC2013微博級(jí)情緒有無(wú)Open評(píng)測(cè)部分結(jié)果

        通過(guò)表10和表11可以看出,在情緒有無(wú)判斷任務(wù)中,各隊(duì)伍都取得了較高的分類性能。同時(shí),由于Open評(píng)測(cè)可以充分利用各種外部資源,分類性能相比Close評(píng)測(cè)略高。

        表12和表13分別列出了NLP&CC2013微博級(jí)情緒類別識(shí)別任務(wù)Close和Open評(píng)測(cè)中性能較優(yōu)的部分結(jié)果。

        表12NLP&CC2013微博級(jí)情緒類別識(shí)別任務(wù)Close評(píng)測(cè)部分結(jié)果

        隊(duì)伍編號(hào)正確率召回率F值130.25720.23090.2434150.21600.28100.2442190.27040.30640.2873

        表13NLP&CC2013微博級(jí)情緒類別識(shí)別任務(wù)Open評(píng)測(cè)部分結(jié)果

        隊(duì)伍編號(hào)正確率召回率F值40.28420.34800.312980.25880.29660.2595140.24740.25280.2501

        通過(guò)表12和表13可以看出,相比情緒有無(wú)判斷任務(wù),對(duì)微博級(jí)的情緒類別識(shí)別任務(wù)分類性能相對(duì)較弱。同樣,Open評(píng)測(cè)要比Close評(píng)測(cè)任務(wù)性能略高。

        表14顯示了NLP&CC2013句子級(jí)情緒類別識(shí)別任務(wù)Close和Open評(píng)測(cè)中性能較優(yōu)的部分結(jié)果。

        表14 NLP&CC2013句子級(jí)情緒識(shí)別任務(wù)部分結(jié)果

        通過(guò)表14可以看出,句子級(jí)情緒分類性能相比微博級(jí)情緒分類性能有了一定的提高。同時(shí),Open評(píng)測(cè)比Close評(píng)測(cè)性能也有一定的提升。

        應(yīng)用面向微博文本的情緒標(biāo)注語(yǔ)料庫(kù)所組織的NLP&CC2013中文微博情緒分析評(píng)測(cè)有力地促進(jìn)了中文微博情緒分析相關(guān)研究。

        5 結(jié)論

        本文在對(duì)微博情緒表達(dá)特點(diǎn)進(jìn)行觀察和分析的基礎(chǔ)上,設(shè)計(jì)了面向微博文本的情緒標(biāo)注規(guī)范。遵循這一規(guī)范,建立了微博文本情緒標(biāo)注規(guī)程以及標(biāo)注一致性控制方案。本文重點(diǎn)介紹了語(yǔ)料庫(kù)的構(gòu)建過(guò)程和構(gòu)建規(guī)則。在標(biāo)注過(guò)程中,對(duì)微博文本首先進(jìn)行了微博級(jí)情緒標(biāo)注,對(duì)微博是否包含情緒及有情緒微博所包含的情緒類別進(jìn)行多標(biāo)簽標(biāo)注。而后,對(duì)微博中的句子進(jìn)行情緒標(biāo)注,在有無(wú)情緒及情緒類別進(jìn)行標(biāo)注的基礎(chǔ)上,增加了情緒強(qiáng)度的標(biāo)注。經(jīng)過(guò)了對(duì)微博情緒標(biāo)注方案的不斷設(shè)計(jì)和完善,以及對(duì)微博語(yǔ)料的多輪標(biāo)注,該語(yǔ)料庫(kù)已完成14 000條微博,45 431句子的情緒標(biāo)注。在此基礎(chǔ)上,對(duì)語(yǔ)料庫(kù)進(jìn)行一系列的數(shù)據(jù)統(tǒng)計(jì)和分析,有助于發(fā)現(xiàn)微博情緒表達(dá)的語(yǔ)言現(xiàn)象和語(yǔ)言規(guī)律。應(yīng)用該語(yǔ)料庫(kù)作為NLP&CC2013中文微博情緒分析評(píng)測(cè)任務(wù)標(biāo)準(zhǔn)語(yǔ)料,促進(jìn)了中文微博情緒分析相關(guān)研究。

        致謝

        本文感謝先后參加語(yǔ)料采集、標(biāo)注和整理的丘橋云、袁麗、汪奕丁、周繼云、王趙煜、孔兵、曹宇慧、王帥等同學(xué)的辛勤努力。

        [1] Mishne G. Experiments with mood classification in blog posts [C]//Proceedings of ACM SIGIR 2005 Workshop on Stylistic Analysis of Text for Information Access. 2005

        [2] Ptaszynski M, Rzepka R, Araki K, et al. Automatically annotating a five-billion-word corpus of Japanese blogs for sentiment and affect analysis [J]. Computer Speech & Language, 2014, 28(1): 38-55.

        [3] Quan C, Ren F. Construction of a blog emotion corpus for Chinese emotional expression analysis [C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009: 1446-1454.

        [4] 徐琳宏, 林鴻飛, 趙晶. 情感語(yǔ)料庫(kù)的構(gòu)建和分析 [J]. 中文信息學(xué)報(bào), 2008, 22(1): 116-122.

        [5] Xu R.F, Xia Y.Q.; Wong K. F. and Li W.J. Opinion Annotation in On-line Chinese Product Reviews [C]//Proceedings of Language Resource and Evaluation Conference 2008.

        [6] Pak A. and Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining [C]//Proceedings of Language Resource and Evaluation Conference 2010: 1320-1326 .

        [7] 徐琳宏, 林鴻飛, 潘宇,等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.

        [8] 徐睿峰, 鄒承天, 鄭燕珍,等. 一種基于情緒表達(dá)與情緒認(rèn)知分離的新型情緒詞典[J]. 中文信息學(xué)報(bào), 2013, 27(6): 82-90.

        [9] 賀飛燕, 何炎祥, 劉楠,等.面向微博短文本的細(xì)粒度情感特征抽取方法 [J].北京大學(xué)學(xué)報(bào), 2014, 50(1): 48-54.

        [10] 張晶, 朱波, 梁琳琳,等.基于情緒因子的中文微博情緒識(shí)別與分類 [J] .北京大學(xué)學(xué)報(bào), 2014, 50(1): 79-84.

        [11] 歐陽(yáng)純萍,陽(yáng)小華,雷龍艷,多策略中文微博細(xì)粒度情緒分析研究 [J].北京大學(xué)學(xué)報(bào), 2014, 50(1): 67-72.

        猜你喜歡
        博文評(píng)測(cè)語(yǔ)料
        第一次掙錢
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
        攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
        誰(shuí)和誰(shuí)好
        Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        打電話2
        福利一区视频| √天堂资源中文www| 一本色道久久88精品综合 | 九九精品视频在线观看| 日韩一区二区三区中文字幕 | 国产一品二品三品精品在线| 99精品国产一区二区三区| 国产在线播放网址| 我和丰满老女人性销魂| 91九色人妻精品一区二区三区| 无码国产69精品久久久久孕妇| 亚欧AV无码乱码在线观看性色| 日本精品久久性大片日本| 黄色精品一区二区三区| 男女性杂交内射妇女bbwxz| 99久久国语露脸精品国产| 欧美人与物videos另类| 亚洲成人精品在线一区二区| 精品久久久久香蕉网| 成年视频国产免费观看| 亚洲毛片av一区二区三区| 少妇一区二区三区久久| 日本高清h色视频在线观看| 久久久久亚洲av成人网址| 国产成人久久精品二区三区| 久久国产精品亚洲婷婷片| 四川老熟妇乱子xx性bbw| 日韩人妻无码精品久久伊人| 国产自拍av在线观看| 亚洲午夜久久久久久久久电影网 | 人妻免费一区二区三区免费| 国产激情久久久久影院老熟女| 国产女高清在线看免费观看| 日本熟妇裸体视频在线| 丰满少妇弄高潮了www| 青青青国产精品一区二区| 国产小车还是日产的好| 亚洲国产国语在线对白观看| 国产精品免费看久久久8| 99久久国内精品成人免费| 久久精品国产亚洲av天美|