溫雯 吳彪 蔡瑞初 郝志峰 王麗娟
摘要:分析和研究文本讀者情緒有助于發(fā)現(xiàn)互聯(lián)網(wǎng)的負(fù)面信息,是輿情監(jiān)控的重要組成部分。考慮到引起讀者不同情緒主要因素在于文本的語(yǔ)義內(nèi)容,如何抽取文本語(yǔ)義特征因此成為一個(gè)重要問(wèn)題。針對(duì)這一問(wèn)題,提出首先使用word2vec模型對(duì)文本進(jìn)行初始的語(yǔ)義表達(dá);在此基礎(chǔ)上結(jié)合各個(gè)情緒類別分別構(gòu)建有代表性的語(yǔ)義詞簇,進(jìn)而采用一定準(zhǔn)則篩選對(duì)類別判斷有效的詞簇,從而將傳統(tǒng)的文本詞向量表達(dá)改進(jìn)為語(yǔ)義詞簇上的向量表達(dá);最后使用多標(biāo)簽分類方法進(jìn)行情緒標(biāo)簽的學(xué)習(xí)和分類。實(shí)驗(yàn)結(jié)果表明,該方法相對(duì)于現(xiàn)有的代表性方法來(lái)說(shuō)能夠獲得更好的精度和穩(wěn)定性。
關(guān)鍵詞:情感分析;情緒分類;語(yǔ)義詞簇;多標(biāo)簽學(xué)習(xí);word2vec
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
0引言
隨著Web2.0的到來(lái),在互聯(lián)網(wǎng)上獲得大量新聞?wù)Z料及讀者的評(píng)論文本和情緒標(biāo)簽已經(jīng)成為一件輕而易舉的事情。通過(guò)對(duì)文本情緒的分析,能夠讓我們更加清楚了解文本給人們?nèi)粘I顜?lái)的影響,有助于監(jiān)控和定位特殊情緒的傳播[1]。近年來(lái),大量情感文本的出現(xiàn)使得情感分析已經(jīng)成為了文本挖掘的熱點(diǎn)。整體而言,情感分析的研究分為兩大類。
一類是文本的直接情感分析,一般定義為文本直接呈現(xiàn)出的情感極性,主要是作者寫作時(shí)的情感,包括正面和負(fù)面的態(tài)度,通常采用單標(biāo)簽及極性度量表示,目前的主流方法包括:
1)簡(jiǎn)單的基于情感詞典極性詞的研究。例如,Hatzivassiloglou等[2]從大語(yǔ)料庫(kù)華爾街日?qǐng)?bào)(Wall Street Journal)中發(fā)掘出大量的形容詞性的評(píng)價(jià)詞語(yǔ);周詠梅等[3]通過(guò)新聞評(píng)論語(yǔ)料和基礎(chǔ)情感詞典獲得評(píng)論情感詞集和種子詞,判定評(píng)論情感詞集的極性并計(jì)算其強(qiáng)度,進(jìn)而構(gòu)建新聞評(píng)論情感詞典。2)較為復(fù)雜的基于情感句或篇章的研究。例如,Tang等[4-5]通過(guò)構(gòu)建情感詞典和情感三元組研究篇章集的情感分析。
另外一類是針對(duì)文本所可能引發(fā)的讀者情緒的研究。情緒分析強(qiáng)調(diào)的是個(gè)體自身的情緒變化,如喜、怒、哀、樂(lè)、悲等,在分析時(shí)需要綜合考慮多個(gè)方面的信息,相對(duì)于熱門的文本直接情感的研究,讀者情緒的研究是一個(gè)更加困難的工作,目前仍處于起步的階段,各種研究技術(shù)存在一定的缺陷,主要采用多標(biāo)簽的方式表示讀者的情緒,標(biāo)簽之間并不是互斥關(guān)系,可以同時(shí)存在。例如,2010年,Quan等[6]研究句子層面上的文本情緒分類問(wèn)題,將句子的情緒分類問(wèn)題看成是多標(biāo)簽文本分類。首先基于標(biāo)注文檔集抽取每類情緒詞集合,利用線性核函數(shù)方法計(jì)算句子與每類情緒詞集合之間的相似度,根據(jù)預(yù)設(shè)定的閾值確定句子的情緒類別。哈工大徐睿峰團(tuán)隊(duì)[7-9]認(rèn)為情緒分析、情緒歸因、情緒預(yù)測(cè)和情緒個(gè)性化建模這四個(gè)問(wèn)題之間并不是孤立的,而是相互聯(lián)系的,因此提出了基于“刺激認(rèn)知反射輸出”機(jī)制的文本情緒計(jì)算[7-8]以及用隱含狄利克雷分配(Latent Dirichlet Allocation, LDA)模型進(jìn)行多標(biāo)簽的情緒分析。
通過(guò)對(duì)讀者情緒的研究分析,可以讓我們實(shí)時(shí)監(jiān)控網(wǎng)上的文本信息,及時(shí)發(fā)現(xiàn)負(fù)面信息,趁早介入,避免負(fù)面信息給社會(huì)帶來(lái)大的影響。傳統(tǒng)的輿情監(jiān)控主要采用監(jiān)控關(guān)鍵詞以及熱點(diǎn)分析的辦法,但是這樣的方式有一定的缺陷,因?yàn)闊狳c(diǎn)事件表明該事件已經(jīng)發(fā)生,并且對(duì)社會(huì)造成了一定的影響,采用熱點(diǎn)分析的方法會(huì)有一定的延時(shí),所需要的代價(jià)也更大。相反,采用情緒分析的方法,可以更快地預(yù)測(cè)文本可能給讀者帶來(lái)的情緒,及早發(fā)現(xiàn)并解決問(wèn)題。此外,情感分析還能夠用于信息檢索中[10]。
考慮到不同的讀者在閱讀時(shí)由于個(gè)人經(jīng)歷以及思維的不同所產(chǎn)生的情緒也不盡相同,甚至同樣一篇文章可能給不同的讀者帶來(lái)完全相反的情緒,或者是同一個(gè)讀者可能同時(shí)產(chǎn)生多種情緒,包括人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂(lè)和批評(píng)、贊揚(yáng)等。顯然,僅僅從作者的角度出發(fā)采用單標(biāo)簽的方式研究人們閱讀文本后產(chǎn)生的情緒,邏輯上是不夠嚴(yán)密的。因此,本文主要關(guān)注的是讀者閱讀完新聞以后可能產(chǎn)生的情緒,采用多標(biāo)簽的方式對(duì)文本進(jìn)行情緒的分析及預(yù)測(cè)。為了更夠獲得更好的效果,我們需要做的是結(jié)合文檔的上下文信息以及標(biāo)簽信息,對(duì)文檔進(jìn)行特征提取,然后將特征放入到合適的分類器中進(jìn)行訓(xùn)練預(yù)測(cè)以及效果的評(píng)估。
1相關(guān)工作
讀者情緒受到兩個(gè)要素影響:其一是讀者閱讀的文本自身所包含的內(nèi)容;其二是讀者個(gè)體是否易激發(fā)某種情緒的特性(簡(jiǎn)稱其為“個(gè)體信息”)。由于讀者的個(gè)體信息不容易被采集和量化,當(dāng)前面向文本的讀者情緒預(yù)測(cè)通常被建模成一類特殊的文本分類問(wèn)題,認(rèn)為分類后的文本所屬的情緒類別即為讀者可能產(chǎn)生的情緒,從而完成讀者的情緒預(yù)測(cè)問(wèn)題[11-12]。采用這種方式研究讀者的情緒,需要解決兩個(gè)關(guān)鍵的問(wèn)題:第一個(gè)是如何表達(dá)文本可能引起讀者某類情緒的屬性;第二個(gè)是如何設(shè)計(jì)有效而符合顯示的分類器。 首先,構(gòu)建這種分類器需要可以量化的文本屬性,一般采用把文本轉(zhuǎn)換成特征向量。眾所周知,文本由詞組成,最直接的辦法就是采用詞來(lái)表示文本。如果用傳統(tǒng)的稀疏表示法表示詞,在解決某些任務(wù)時(shí)(比如構(gòu)建語(yǔ)言模型)會(huì)造成維數(shù)災(zāi)難[13]。人們?cè)谘芯窟^(guò)程中發(fā)現(xiàn)使用低維的詞向量就沒(méi)這樣的問(wèn)題。同時(shí)從實(shí)踐上看,高維的特征如果要套用 Deep Learning,其復(fù)雜度幾乎是難以接受的,因此低維的詞向量在這里也飽受追捧。文本的情緒其實(shí)蘊(yùn)涵在文字之間,所以一般認(rèn)為通過(guò)找出蘊(yùn)涵在詞中的情感的關(guān)系,就能夠分析出文本的情感傾向。以往大多數(shù)情感分析任務(wù)都采用詞袋模型,甚至有一種基本的假設(shè),即讀者的情緒會(huì)與新聞的某個(gè)主題相關(guān),相同或者相似的主題事件會(huì)引起讀者產(chǎn)生相似的情緒,因此也有不少研究采用基于詞袋模型改進(jìn)的主題模型[14]。詞袋模型假定對(duì)于一個(gè)文本,忽略其詞序和語(yǔ)法、句法,將其僅僅看作是一個(gè)詞的集合,或者說(shuō)是詞的一個(gè)組合,文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的,不依賴于其他詞是否出現(xiàn)。這種假設(shè)對(duì)自然語(yǔ)言進(jìn)行了簡(jiǎn)化,便于模型化,所以也被廣泛用在文本分類的一些方法當(dāng)中。當(dāng)傳統(tǒng)的貝葉斯分類被應(yīng)用到文本當(dāng)中時(shí),貝葉斯中的條件獨(dú)立性假設(shè)正是詞袋模型的基礎(chǔ)。但是,詞袋方法沒(méi)有考慮詞與詞之間的順序。隨著人們對(duì)本文處理技術(shù)的深入研究, Blei等[14]在2003年提出了主題模型。LDA基于一個(gè)常識(shí)性假設(shè):文檔集合中的所有文本均共享一定數(shù)量的隱含主題?;谠摷僭O(shè),它將整個(gè)文檔集特征化為隱含主題的集合,而每篇文本被表示為這些隱含主題的特定比例的混合。LDA是三層的貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),利用統(tǒng)計(jì)學(xué)的知識(shí),分析文檔集內(nèi)部信息,將集合映射到基于隱含主題的特征空間上,過(guò)濾噪聲等干擾信息。從文檔到詞符合Dirichlet分布,主題到詞符合多項(xiàng)式分布,它可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。由于它采用了詞袋的方法,這種方法將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息,這降低了問(wèn)題的復(fù)雜性。例如,李芳等[15]對(duì)名詞性短語(yǔ)運(yùn)用LDA模型挖掘潛在的評(píng)價(jià)主題也獲得了不錯(cuò)的效果。雖然LDA能夠考慮潛在語(yǔ)義信息,不單純從機(jī)械的詞頻統(tǒng)計(jì)角度分析文檔,但LDA模型只考慮了文本的主題分布,而主題向量的維度有限,僅利用這樣的向量來(lái)計(jì)算文本相似度,必然丟失大量的信息,區(qū)分文本的力度是不夠的。
目前流行的一種文本情感分析方法是利用word2vec模型獲得語(yǔ)料的詞向量。word2vec模型是Google在2013年提出的一個(gè)深度學(xué)習(xí)模型[16],它將詞表征成實(shí)數(shù)值向量,采用連續(xù)詞袋模型(Continuous Bag-Of-Words Model,CBOW)和Skip-Gram(continuous Skip-Gram model)兩種模型。在文本聚類的過(guò)程中,相似度計(jì)算是文本聚類中非常重要的一個(gè)步驟,對(duì)聚類結(jié)果的好壞有著直接的影響,但傳統(tǒng)的相似度計(jì)算模型僅采取詞頻統(tǒng)計(jì)來(lái)表示文本,丟失了文本間大量的語(yǔ)義信息,從而影響了相似度計(jì)算的效果。
簡(jiǎn)單地采用詞袋模型的方法則忽略了詞與詞之間的關(guān)系,往往會(huì)丟失上下文的信息,導(dǎo)致區(qū)分文本的力度不夠。而詞向量所體現(xiàn)的是語(yǔ)義和語(yǔ)法的信息,word2vec能夠結(jié)合上下文的信息,訓(xùn)練出詞向量,通過(guò)把詞映射到V維的向量空間,詞與詞之間的向量操作能夠與語(yǔ)義相對(duì)應(yīng)[17]。相當(dāng)于如果把詞當(dāng)作是特征,那么就是把特征映射到V維的向量空間,通過(guò)訓(xùn)練,可以把對(duì)文本處理的內(nèi)容簡(jiǎn)化為V維的向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。因此,word2vec輸出的詞向量可以被用來(lái)做很多自然語(yǔ)言處理相關(guān)的工作。此外,與復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)相比,word2vec去掉了十分費(fèi)時(shí)的非線性隱層,采用了Negative Sampling和隨機(jī)梯度下降算法,并且只遍歷一遍數(shù)據(jù),不需重復(fù)迭代,所以十分高效[18]。與此同時(shí),word2vec還有一些比較精細(xì)的應(yīng)用,比如計(jì)算詞的相似度、詞的類比關(guān)系以及文章的相似度等。
除此之外,由于文本的情緒分析是一個(gè)多標(biāo)簽學(xué)習(xí)的問(wèn)題,因此還需要尋找合適的多標(biāo)簽分類方法,將轉(zhuǎn)化文本得到的特征輸入到多標(biāo)簽分類器中,最終得到需要的模型。在過(guò)去,也有一些采用多標(biāo)簽分類器進(jìn)行文本處理的工作,例如,2007年,Zhang 等[19]提出基于算法名稱中大寫且不斜體?k近鄰的多標(biāo)簽(MLKNN)學(xué)習(xí)算法處理文本的標(biāo)簽信息,通過(guò)計(jì)算k近鄰的所屬的類別來(lái)確定自己所屬的類別;2009年,Cheng等[20]利用Logistics回歸進(jìn)行多標(biāo)簽分類學(xué)習(xí),Logistics回歸通過(guò)引入對(duì)數(shù),解決了因變量是不連續(xù)變量的問(wèn)題。MLKNN分類器以及Logistics回歸分類器對(duì)于不同的分類任務(wù)都獲得了不錯(cuò)的效果。
2模型定義及方法
2.1問(wèn)題定義
讀者在閱讀新聞文本之后可能產(chǎn)生多種情緒,包括喜、怒、哀、樂(lè)、悲等。在能夠采集相關(guān)語(yǔ)料及讀者情緒標(biāo)注的情況下,該問(wèn)題可以轉(zhuǎn)化為以下機(jī)器學(xué)習(xí)模型:
假設(shè)給定包N個(gè)文檔的文檔集D={D1,D2,…,DN},其對(duì)應(yīng)的情緒標(biāo)簽集為:Y={y1,y2,…,yN},且yi∈2L,L為對(duì)應(yīng)一篇文檔的不同情緒類型(例如“開(kāi)心”“憤怒”“無(wú)聊”等)的數(shù)量。情緒分類的學(xué)習(xí)模型可以定義為:根據(jù)已標(biāo)注的語(yǔ)料文檔及其標(biāo)簽,獲得多標(biāo)簽分類模型。從機(jī)器學(xué)習(xí)的角度,該問(wèn)題可以轉(zhuǎn)化為一類典型的分類問(wèn)題加以解決,其中包含兩個(gè)關(guān)鍵的步驟:
1)文本特征的抽取,即從文本集中抽取有代表性的特征,其過(guò)程可以表示為構(gòu)建一種特征映射:φ=D→x,為后續(xù)情緒分類作準(zhǔn)備。
2)分類器的設(shè)計(jì),即構(gòu)建文本特征空間到標(biāo)簽空間的映射: f=x→y。由于同一文本所引發(fā)的讀者情緒具有多種可能性,這一步所需做的工作就是構(gòu)建一個(gè)合適的多標(biāo)簽分類器(例如采用典型的多標(biāo)簽分類器,或?qū)⒃搯?wèn)題轉(zhuǎn)化為單標(biāo)簽多類問(wèn)題進(jìn)行解決)。
在以往的工作中,對(duì)不同的情緒標(biāo)簽,往往采用相同的文本特征,但考慮到文本之所以引發(fā)讀者的不同情緒,其對(duì)應(yīng)的情緒特征理應(yīng)是有差異性的。本文主要著眼于這一問(wèn)題,嘗試設(shè)計(jì)結(jié)合類標(biāo)簽的文本特征。具體思路表達(dá)如下:
步驟1針對(duì)不同的情緒標(biāo)簽,提取有差異化的文本特征,即建立φl(shuí):D→xl(l=1,2,…,L);
步驟2在差異化的文本特征基礎(chǔ)上,分別構(gòu)建針對(duì)不同標(biāo)簽的分類器fl=xl→yl(l=1,2,…,L)。
為了更好地表達(dá)文本中的主要信息,本文主要基于word2vec及語(yǔ)義詞簇的思想提取文本特征。
2.2基于多類別語(yǔ)義詞簇的情緒分類
2.2.1基于語(yǔ)義詞簇的特征提取
在語(yǔ)料中可以觀察到,對(duì)于包含不同語(yǔ)義的文本,讀者所呈現(xiàn)的情緒有所區(qū)別。例如,對(duì)于文本中出現(xiàn)與恐怖襲擊、災(zāi)難相關(guān)的信息,大多數(shù)用戶所呈現(xiàn)的情緒是悲傷或憤怒。為此,在文本特征提取方面,本文主要借助語(yǔ)義向量(word2vec)對(duì)語(yǔ)料進(jìn)行初始表達(dá)。具體做法是:如圖1所示,首先對(duì)文本進(jìn)行預(yù)處理,然后分詞,進(jìn)而采用word2vec將詞語(yǔ)映射到語(yǔ)義空間,在此基礎(chǔ)上構(gòu)建語(yǔ)義詞簇,最后通過(guò)計(jì)算文本中各個(gè)詞簇出現(xiàn)的頻率獲得可量化的文本特征。
之所以選用word2vec模型作為詞語(yǔ)的初始表達(dá),是因?yàn)樵撃P屯ㄟ^(guò)語(yǔ)料的學(xué)習(xí),可以結(jié)合上下文信息,將詞映射到V維的語(yǔ)義向量空間?;谶@個(gè)轉(zhuǎn)化,不同詞語(yǔ)語(yǔ)義相似度可以通過(guò)其在語(yǔ)義向量空間上的相似度來(lái)度量,從而有望獲得語(yǔ)義信息接近的詞簇。在此基礎(chǔ)上獲得的詞簇將比單純的詞語(yǔ)更有語(yǔ)義代表性,在一定程度上能夠解決一義多詞的問(wèn)題。另一方面,將高維度的詞向量聚集成詞簇,還有助于解決傳統(tǒng)詞向量模型中的維度過(guò)高的問(wèn)題。
2.2.2結(jié)合情緒標(biāo)簽的文本特征提取
然而,由于word2vec是一種無(wú)監(jiān)督的學(xué)習(xí)方法,在訓(xùn)練時(shí)考慮的是整個(gè)語(yǔ)料庫(kù)的信息,所有標(biāo)簽的代表詞簇被融合在一起;尤其在標(biāo)簽集本身就有不平衡性(imbalanced)時(shí),某些情緒標(biāo)簽的代表詞簇有可能被樣本數(shù)量較多的標(biāo)簽的代表詞簇所影響。為了解決這一問(wèn)題,我們?cè)谇笆龇椒ǖ幕A(chǔ)上提出了一種改進(jìn)方法——基于word2vec的多類別語(yǔ)義詞簇構(gòu)建方法mwc-word2vec(multiple word clustering based on word2vec)。
該方法基于以下假設(shè):影響讀者情緒的文本特征可以通過(guò)不同語(yǔ)義詞簇的頻率來(lái)刻畫;引起讀者不同情緒的文本中的代表詞簇有所差別。
多類別語(yǔ)義詞簇量化文本的過(guò)程如圖2所示。其第一個(gè)關(guān)鍵點(diǎn)在于將語(yǔ)料根據(jù)情緒標(biāo)簽分成L個(gè)子集,對(duì)于每個(gè)子集Ωi 分別采用word2vec模型映射成詞向量,再通過(guò)類似2.2.1節(jié)的方式得到文檔在詞簇向量上的頻率,作為最終的文本特征。
第二個(gè)關(guān)鍵點(diǎn)則是,考慮到同一個(gè)標(biāo)簽內(nèi)的簇對(duì)該標(biāo)簽的影響力有一定的區(qū)別,也有可能存在不同標(biāo)簽之間的詞簇相似度很大的問(wèn)題,這樣的詞簇并不利于情緒的分析與計(jì)算。所以通過(guò)計(jì)算簇之間的余弦距離,篩選剔除掉對(duì)情緒標(biāo)簽分類沒(méi)有實(shí)際意義的簇,即圖2中的詞簇篩選(*)。定義如下篩選原則:若任意一個(gè)簇的k近鄰的標(biāo)簽信息都與自己的標(biāo)簽不同,則該詞簇對(duì)于該標(biāo)簽沒(méi)有代表性,因此可以被剔除。
在完成詞簇的篩選以后,按照式(1)統(tǒng)計(jì)文本在每個(gè)詞簇上的頻率分布,從而完成文本的量化工作,得到結(jié)合情緒標(biāo)簽的文本特征,輸入多標(biāo)簽分類器中。
2.3針對(duì)特征進(jìn)行多標(biāo)簽分類
在完成文本的量化工作以后,將所得到的特征向量輸入多標(biāo)簽分類器中。在多標(biāo)簽分類的階段,采用MLKNN的方法進(jìn)行分類。MLKNN是基于k近鄰的多標(biāo)簽學(xué)習(xí)算法,它屬于Lazy-learning的有監(jiān)督的方法,直到給定一個(gè)測(cè)試元組才開(kāi)始構(gòu)造分類模型。采用MLKNN算法的優(yōu)勢(shì)是非常簡(jiǎn)單、易于實(shí)現(xiàn)。后續(xù)實(shí)驗(yàn)也表明,處理本文的多標(biāo)簽分類問(wèn)題時(shí),選擇MLKNN作為本文的分類器是合適且有效的。
3實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)數(shù)據(jù)來(lái)自于Yahoo Qimo的新聞?wù)Z料,共有49000篇新聞,每篇包括標(biāo)題、內(nèi)容、投票總數(shù)以及各種情緒所占的比例。其中情緒的標(biāo)簽有8個(gè),分別是:實(shí)用、感人、開(kāi)心、超扯、無(wú)聊、害怕、難過(guò)、火大。實(shí)際的數(shù)據(jù)中有少量是沒(méi)有投票的數(shù)據(jù),也有部分是投票較少的數(shù)據(jù),為了標(biāo)簽的準(zhǔn)確性,避免數(shù)據(jù)的雜亂以及人為的干擾,選用有10票及以上投票的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)數(shù)據(jù)共有22841篇新聞文本。
本文實(shí)驗(yàn)結(jié)果中采用漢明損失(HammingLoss,HL)、平均精度(AVerage Precision,AVP)、排序損失(RankingLoss,RL)、覆蓋率(Coverage,Cov)以及1-錯(cuò)誤率(OneError,OE)這五個(gè)指標(biāo)進(jìn)行評(píng)價(jià),AVP的值越大說(shuō)明分類的效果越好。HL、RL、Cov和OE的值越小說(shuō)明效果越好。具體到每個(gè)標(biāo)簽的話,還采用F1值對(duì)分類效果進(jìn)行評(píng)價(jià)。
3.1數(shù)據(jù)基本情況
選取具有相對(duì)較多讀者投票(20票及以上)的15851篇新聞文本,共6369816投票數(shù),即平均每篇新聞的投票數(shù)約為401,統(tǒng)計(jì)單標(biāo)簽情況下文本的標(biāo)簽分布情況,如表1所示。
由表1可知,單個(gè)標(biāo)簽情況下,數(shù)據(jù)存在不平衡的現(xiàn)象。某些標(biāo)簽,例如火大或者開(kāi)心,有比較多的語(yǔ)料,而某些則存在語(yǔ)料不足的情況。通過(guò)觀察數(shù)據(jù)的特點(diǎn),不斷調(diào)整閾值,最終選擇較好的分界閾值為0.23,即如果某個(gè)標(biāo)簽有23%或者以上的投票比例,則默認(rèn)該文檔有這個(gè)標(biāo)簽,且把此標(biāo)簽標(biāo)記為1,否則標(biāo)記為0,由此得到的分布情況如表2所示。
通過(guò)表2發(fā)現(xiàn),2個(gè)或以上的標(biāo)簽占了總數(shù)的52%,這也符合實(shí)際情況,同時(shí)反映了采用單標(biāo)簽分類技術(shù)來(lái)處理新聞文本的情緒分析問(wèn)題不太合理,也從側(cè)面驗(yàn)證了多標(biāo)簽是有必要的。實(shí)驗(yàn)中,將數(shù)據(jù)集分成兩部分:隨機(jī)選擇總樣本集中的2/3作為訓(xùn)練樣本,剩余的1/3作為測(cè)試樣本,并進(jìn)行4次重復(fù)實(shí)驗(yàn)求平均值后再進(jìn)行對(duì)比。
3.2實(shí)驗(yàn)對(duì)比
采用幾種不同的方法對(duì)文本進(jìn)行量化表達(dá),然后將量化后的特征放入到MLKNN分類器中進(jìn)行訓(xùn)練及測(cè)試,同時(shí)采用不同的參數(shù)進(jìn)行實(shí)驗(yàn)效果的對(duì)比,結(jié)果如表3所示,其中LDA-MLKNN是文獻(xiàn)[9]中所提出的一類方法;word2vec-mlknn及mwc-word2vec-mlknn是本文提出的方法。
固定特征數(shù)量為120時(shí),通過(guò)選取不同的k值,比較k值對(duì)于MLKNN模型平均精度的影響。由表3以發(fā)現(xiàn),當(dāng)k=8時(shí),能夠獲得相對(duì)較好的結(jié)果。但是,k值的選取對(duì)于平均精度的影響卻不是很大,所以,在后續(xù)的實(shí)驗(yàn)當(dāng)中選擇k=8進(jìn)行實(shí)驗(yàn)分析。
通過(guò)表4可以發(fā)現(xiàn),采用word2vec模型處理數(shù)據(jù)的效果明顯比LDA好,平均準(zhǔn)確度比LDA增加約3個(gè)百分點(diǎn),其他幾種評(píng)價(jià)指標(biāo)也更好。LDA的最好效果在特征維度為40時(shí)取得,最好的平均精度為77.18%;而word2vec的性能比較穩(wěn)定,最好效果在特征為200個(gè)維度時(shí)取得,平均精度約為8046%;采用多類別語(yǔ)義詞簇的方法處理文本數(shù)據(jù)得到的性能最好,平均精度約為83.14%,在word2vec的基礎(chǔ)上有所提高。隨著特征詞簇的增大,word2vec以及多類別語(yǔ)義詞簇的方法趨向穩(wěn)定,且效果比LDA好。
具體到每個(gè)標(biāo)簽的情況,比較各個(gè)方法下最優(yōu)參數(shù)的F1值,結(jié)果如表5所示。其中,LDA-MLKNN最好的F1值在特征維度為80時(shí)取得,word2vec-mlknn以及mwc-word2vec-mlknn最好的F1值都是在特征為240時(shí)取得。
我們發(fā)現(xiàn),在不同的標(biāo)簽下F1值有比較大的差異,這其中存在一定的客觀原因,包括某些標(biāo)簽語(yǔ)料不足等。但是,總的來(lái)說(shuō),在不同的方法中,mwc-word2vec-mlknn依然效果相對(duì)最好。
為了考察篩選參數(shù)對(duì)于模型的影響,給出了不同篩選參數(shù)對(duì)應(yīng)的結(jié)果如圖3所示,可以看出,選擇不同的參數(shù),對(duì)效果有不一樣的影響。這里,考慮到不同的詞簇大小應(yīng)該根據(jù)不同的k值大小進(jìn)行相應(yīng)設(shè)置,令k值為詞簇總數(shù)的百分比。結(jié)果顯示,當(dāng)篩選參數(shù)為詞簇總數(shù)的1/4時(shí),獲得的平均精度整體上最高,也更加穩(wěn)定。
更進(jìn)一步,針對(duì)mwc-word2vec-mlknn,設(shè)定篩選系數(shù)為詞簇總數(shù)的1/4,改變?cè)~簇的數(shù)量,進(jìn)行進(jìn)一步的實(shí)驗(yàn)分析,結(jié)果如圖4所示。圖4顯示隨著特征數(shù)的增大,分類的平均精度慢慢趨向平穩(wěn)。而且比較實(shí)驗(yàn)還顯示:如果不進(jìn)行過(guò)濾,在特征維度為320時(shí),精度會(huì)有所波動(dòng);但采用了過(guò)濾方法后穩(wěn)定性更好,更加健壯。這也說(shuō)明了在情緒分類時(shí)過(guò)濾一些對(duì)標(biāo)簽分類沒(méi)有明顯區(qū)分度的詞簇是有必要的。
4結(jié)語(yǔ)
本文深入研究了針對(duì)新聞文本的讀者情緒分類和學(xué)習(xí)方法。通過(guò)研究word2vec對(duì)于文本分析的作用以及實(shí)際效果,明確了word2vec對(duì)于文本的情緒分析的作用。基于數(shù)據(jù)的特點(diǎn),對(duì)word2vec作了改進(jìn),提出了多類別語(yǔ)義詞簇的方法,解決了針對(duì)不同情緒標(biāo)簽下文本語(yǔ)義詞簇的構(gòu)建和表達(dá)。在word2vec訓(xùn)練的過(guò)程中加入文本的標(biāo)簽的控制,避免不同特定情緒標(biāo)簽語(yǔ)義詞簇的干擾。同時(shí),采用啟發(fā)式的方法,對(duì)非代表性語(yǔ)義詞簇進(jìn)行過(guò)濾,強(qiáng)化了代表性詞簇的表達(dá)能力,使得針對(duì)不同的情緒標(biāo)簽,所獲得的特征具有更好的區(qū)分度。
情緒分析目前是一個(gè)熱門的話題,也是一個(gè)重要的領(lǐng)域。在未來(lái)的工作中,我們將結(jié)合讀者的評(píng)論信息以及個(gè)人信息,對(duì)文本的情緒進(jìn)行更加細(xì)粒度的分析,獲得更加完善的模型和方法。
參考文獻(xiàn):
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848. (ZHAO Y Y, QIN B, LIU T. Sentiment analysis [J].Journal of Software, 2010, 21(8): 1834-1848.)
[2]HATZIVASSILOGLOU V, MCKEOWN K R. Predicting the semantic orientation of adjectives [C]// ACL 98: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1997: 174-181.
[3]周詠梅,陽(yáng)愛(ài)民,楊佳能.一種新聞評(píng)論情感詞典的構(gòu)建方法[J].計(jì)算機(jī)科學(xué),2014,41(8):67-69. (ZHOU Y M, YANG A M, YANG J N. Construction method of sentiment lexicon for new reviews [J]. Computer Science, 2014, 41(8): 67-69.)
[4]TANG D, QIN B, LIU T. Learning semantic representations of users and products for document level sentiment classification [C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1014-1023.
[5]TANG D, QIN B, LIU T. Document modeling with convolutional-gated recurrent neural network for sentiment classification [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1422-1432.
[6]QUAN C, REN F. Sentence emotion analysis and recognition based on emotion words using Ren-CECps [J]. International Journal of Advanced Intelligence Paradigms, 2010, 2(1): 105-117.
[7]XU R, CHEN T, XIA Y, et al. Word embedding composition for data imbalances in sentiment and emotion classification [J]. Cognitive Computation, 2015, 7(2): 226-240.
[8]GUI L, YUAN L, XU R, et al. Emotion cause detection with linguistic construction in Chinese Weibo text [C]// NLPCC 2014: Proceedings of the Third CCF Conference on Natural Language Processing and Chinese Computing, Volume 496 of the series Communications in Computer and Information Science. Berlin: Springer-Verlag, 2014: 457-464.
[M]// Communications in Computer and Information Science.
[9]葉璐.新聞文本的讀者情緒自動(dòng)預(yù)測(cè)方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012:35-43. (YE L. Research on emotion prediction of news articles from readers perspective [D]. Harbin: Harbin Institute of Technology, 2012: 35-43.)
[10]HURST M F, NIGAM K. Retrieving topical sentiments from online document collections [C]// Proceedings of SPIE 5296: Document Recognition and Retrieval Ⅺ. Bellingham, WA: SPIE, 2004: 27-34.
[11]雷龍艷.中文微博細(xì)粒度情緒識(shí)別研究[D].衡陽(yáng):南華大學(xué),2014:20-36. (LEI L Y. Research on fine-grained sentiment analysis base on Chinese micro-blog [D]. Hengyang: University of South China, 2014: 20-36.)
[12]WANG S, LI D, WEI Y, et al. A feature selection method based on Fishers discriminant ratio for text sentiment classification [C]// WISM 2009: Proceedings of the 2009 International Conference on Web Information Systems and Mining, LNCS 5854. Berlin: Springer-Verlag, 2009: 88-97.
http://xueshu.baidu.com/s?wd=paperuri%3A%28a6e3d1f433b123dc1be397879e9a267e%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fwww.sciencedirect.com%2Fscience%2Farticle%2Fpii%2FS0957417411000972&ie=utf-8&sc_us=5991109085789876904
[J]. Expert Systems with Applications. Volume 38, Issue 7, July 2011, Pages 8696–8702
[13]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.
[14]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[15]李芳,何婷婷,宋樂(lè).評(píng)價(jià)主題挖掘及其傾向性識(shí)別[J].計(jì)算機(jī)科學(xué),2012,39(6):159-162. (LI F, HE T T, SONG L. Opinion topic mining and orientation identification [J]. Computer Science, 2012, 39(6): 159-162.)
[16]MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [J]. ICLR Workshop, arXiv preprint arXiv:1301.3781, 2013.
http://xueshu.baidu.com/s?wd=paperuri%3A%289b96fcef89a076065163c0793f74f68c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fadsabs.harvard.edu%2Fabs%2F2013arXiv1301.3781M&ie=utf-8&sc_us=151487362127720313
[17]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Advances in Neural Information Processing Systems 26. Cambridge, MA: MIT Press, 2013: 3111-3119.
[18]鄧澍軍,陸光明,夏龍.Deep Learning實(shí)戰(zhàn)之word2vec[Z].網(wǎng)易有道, 2014: 16-17. (DENG S J, LU G M, XIA L. Deep learning practice of word2vec [Z]. Youdao, 2014: 16-17.)
[19]ZHANG M-L, ZHOU Z-H. ML-KNN: a lazy learning approach to multi-label learning [J]. Pattern Recognition, 2007, 40(7): 2038-2048.
[20]CHENG W, HLLERMEIER E. Combining instance-based learning and logistic regression for multilabel classification [J]. Machine Learning, 2009, 76(2): 211-225.