朱憲瑩,劉箴,金煒,劉婷婷,劉翠娟,柴艷杰
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
基于特征融合的層次結(jié)構(gòu)微博情感分類(lèi)
朱憲瑩,劉箴,金煒,劉婷婷,劉翠娟,柴艷杰
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
情感分類(lèi)是觀(guān)點(diǎn)挖掘的熱點(diǎn)研究之一,微博文本情感分類(lèi)具有很高的應(yīng)用價(jià)值。鑒于傳統(tǒng)特征選擇方法存在語(yǔ)義缺陷,采用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,提出了基于概率模型的對(duì)詞向量進(jìn)行權(quán)重分配的深層特征表示方法,構(gòu)建文本語(yǔ)義向量。將文本深層特征與淺層特征融合,構(gòu)建融合語(yǔ)義信息的特征向量,彌補(bǔ)傳統(tǒng)特征選擇方法語(yǔ)義的缺陷。采用SVM層次結(jié)構(gòu)分類(lèi)模型,實(shí)現(xiàn)多種情感分類(lèi)。實(shí)驗(yàn)結(jié)果表明,采用特征融合的層次結(jié)構(gòu)情感分類(lèi)方法,能有效提高微博情感分類(lèi)的準(zhǔn)確率。
情感分類(lèi);詞向量;深層特征;特征融合;層次結(jié)構(gòu)分類(lèi)模型
近年來(lái),隨著各種網(wǎng)絡(luò)社會(huì)媒體的出現(xiàn),在眾多社會(huì)媒體中挖掘用戶(hù)情感已成為自然語(yǔ)言處理和數(shù)據(jù)挖掘領(lǐng)域中的重要內(nèi)容。微博因其開(kāi)放性、及時(shí)性、廣泛性等特點(diǎn),自問(wèn)世以來(lái),吸引了眾多研究人員的關(guān)注。針對(duì)微博的自然語(yǔ)言處理研究已成為當(dāng)前的熱門(mén),其中,情感分析技術(shù)是該領(lǐng)域的重要研究?jī)?nèi)容。
傳統(tǒng)文本情感分類(lèi)中,研究的主要內(nèi)容是特征選擇方法。傳統(tǒng)的特征選擇方法選取的特征均為文本淺層特征,沒(méi)有考慮文本的語(yǔ)義信息。2013年Google(谷歌)推出了Word2Vec,該工具是一款開(kāi)源框架,其利用深度學(xué)習(xí)思想,采用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,通過(guò)訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算。Word2Vec利用詞的上下文,使語(yǔ)義信息更加豐富。本文采用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,利用Word2Vec工具訓(xùn)練詞向量,提出WWBP方法 (word vector weighting distribution based on probabilistic model of deep features representation,基于概率模型的詞向量權(quán)重分配的深層特征表示方法),該方法通過(guò)概率模型,建立文本概率向量,采用softmax函數(shù)歸一化文本概率向量,結(jié)合文本詞向量矩陣與情感系數(shù),構(gòu)建文本語(yǔ)義向量;將文本深層特征與淺層特征融合,構(gòu)建融合語(yǔ)義信息的特征向量,彌補(bǔ)傳統(tǒng)特征選擇方法的語(yǔ)義缺陷。
傳統(tǒng)文本情感分類(lèi)主要是粗粒度的分類(lèi),如極性分類(lèi)或多種情感分類(lèi)。但語(yǔ)料中無(wú)情感的文本往往占很大比例,會(huì)降低分類(lèi)器的精度。在多分類(lèi)中,情感之間存在一定的相關(guān)性,采用全局分類(lèi)器難以達(dá)到很好的分類(lèi)效果?;谝陨蠁?wèn)題,提出基于SVM的層次結(jié)構(gòu)情感分類(lèi)模型。
本文采用WWBP方法與傳統(tǒng)特征選擇方法融合的方法,構(gòu)建含有語(yǔ)義信息的特征向量,采用層次結(jié)構(gòu)的SVM分類(lèi)器,實(shí)現(xiàn)微博情感的多分類(lèi)。
基于機(jī)器學(xué)習(xí)的文本情感分析技術(shù)在情感分析領(lǐng)域取得了很大的發(fā)展。Pang[1]首次將機(jī)器學(xué)習(xí)的方法應(yīng)用于文本情感分析中,嘗試使用N-gram詞語(yǔ)特征和詞性特征,并對(duì)比了樸素貝葉斯、最大熵、SVM這3種分類(lèi)器,實(shí)現(xiàn)對(duì)電影評(píng)論的分析,實(shí)驗(yàn)結(jié)果表明SVM分類(lèi)器分類(lèi)效果最好。2004年,Pang[2]將主、客觀(guān)句的總結(jié)引入情感分類(lèi)中,通過(guò)最小分割法選擇文本中的主觀(guān)句,對(duì)選擇出的主觀(guān)句進(jìn)行訓(xùn)練和測(cè)試,對(duì)文本進(jìn)行情感分類(lèi),提高了分類(lèi)器的準(zhǔn)確度。Alam等人[3]對(duì)神話(huà)故事進(jìn)行情感分析,使用情感詞特征、POS特征、特殊標(biāo)點(diǎn)符號(hào)特征,根據(jù)神話(huà)故事自身特點(diǎn),抽取特定的文本特征,利用SVM分類(lèi)器對(duì)文本進(jìn)行分類(lèi),實(shí)現(xiàn)6種基本情緒分類(lèi)[4]。Ghazi等人[5]采用兩層的層次模型,克服了數(shù)據(jù)集不平衡的狀況,結(jié)果表明層次結(jié)構(gòu)分類(lèi)器模型提高了分類(lèi)的準(zhǔn)確率。之后他們又提出了兩層和三層的層次結(jié)構(gòu)分類(lèi)模型[6]。
Huang等人[7]提出一種多標(biāo)簽多任務(wù)的情感分類(lèi)模型,應(yīng)用在情感分類(lèi)和話(huà)題分類(lèi)中,解決了文本多情感問(wèn)題。Liu等人[8]提出基于多標(biāo)簽的情感分析,首次將多標(biāo)簽的分類(lèi)方法應(yīng)用到微博情感分析中。Xu等人[9]提出一種基于層次情感分類(lèi)的中文微博情感分析模型,實(shí)現(xiàn)細(xì)粒度的微博情感分類(lèi),但只考慮了淺層的文本特征,且情感類(lèi)型存在冗余。Cho等人[10]構(gòu)建了一個(gè)領(lǐng)域情感詞典,通過(guò)情感詞典構(gòu)建特征向量,將情感詞作為特征,采用SVM分類(lèi)器進(jìn)行情感分類(lèi);實(shí)驗(yàn)證明,該方法提高了分類(lèi)的準(zhǔn)確率。Sun等人[11]利用微博中的表情符號(hào),采用SVM分類(lèi)器進(jìn)行情感分類(lèi),實(shí)現(xiàn)微博情感分類(lèi)。劉翠娟等人[12]采用基于依存句法和人工標(biāo)注相結(jié)合的情感分析技術(shù),對(duì)新浪微博的話(huà)題數(shù)據(jù)進(jìn)行群體情感強(qiáng)度分析,并對(duì)微博情感分析進(jìn)行了可視化。
Hinton[13]在1986年提出概念的分布式表達(dá),開(kāi)創(chuàng)了詞語(yǔ)分布式表達(dá)的先河。其基本思想是通過(guò)大量語(yǔ)料庫(kù)訓(xùn)練,將某種語(yǔ)言中的每個(gè)詞語(yǔ)映射成一個(gè)固定長(zhǎng)度的向量,得到詞向量表示方法。Word2Vec[14,15]由Google團(tuán)隊(duì)提出并實(shí)現(xiàn),該工具能夠在較短時(shí)間內(nèi),從大規(guī)模語(yǔ)料庫(kù)中學(xué)習(xí)到高質(zhì)量的詞向量。
本文提出基于概率模型的詞向量權(quán)重分配的深層特征表示方法(WWBP方法),將文本淺層特征與深層特征融合,采用層次結(jié)構(gòu)分類(lèi)器,實(shí)現(xiàn)微博情感分類(lèi)。
本節(jié)從傳統(tǒng)文本特征、基于詞向量的文本深層特征、特征融合和分類(lèi)器構(gòu)建幾個(gè)方面進(jìn)行闡述?;谔卣魅诤系膶哟谓Y(jié)構(gòu)情感分類(lèi)總體框架如圖1所示,主要有數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、特征選擇、深層特征表示、層次結(jié)構(gòu)分類(lèi)器構(gòu)建這幾部分。其中,深層特征表示和層次結(jié)構(gòu)分類(lèi)器的構(gòu)建為主要?jiǎng)?chuàng)新部分。
傳統(tǒng)的文本情感分析特征主要有以下幾種。
(1)詞典特征
包括情感詞特征、詞特征或短語(yǔ)特征。本文利用大連理工大學(xué)的情感詞典構(gòu)建情感詞特征,該情感詞典囊括7類(lèi)情感,即樂(lè)、好、怒、哀、懼、惡、驚。
圖1 基于特征融合的層次結(jié)構(gòu)情感分類(lèi)框架
(2)語(yǔ)言結(jié)構(gòu)特征
包括 N-gram特征、詞性(POS)特征。N-gram特征有unigrams、bigrams、trigrams特征,本文選取了 unigrams和bigrams特征,詞性特征選取了名詞、動(dòng)詞、形容詞等特征。
(3)微博特征
包括特殊標(biāo)點(diǎn)符號(hào)特征、表情符號(hào)特征。特殊標(biāo)點(diǎn)符號(hào),如連續(xù)出現(xiàn)的“!”“?”,該特征在情感表達(dá)中起強(qiáng)調(diào)作用。表情符號(hào)在微博中直接表達(dá)用戶(hù)情感,是評(píng)判微博情感的重要指標(biāo)。
本文利用向量空間模型與布爾權(quán)重表示法構(gòu)建基于傳統(tǒng)特征選擇方法的文本特征向量。分別使用CHI(Chi-square,卡 方 統(tǒng) 計(jì) )、IG (information gain,信 息 增 益 )、MI(mutual information,互信息)這幾種特征選擇方法,實(shí)現(xiàn)特征選擇。
在自然語(yǔ)言處理領(lǐng)域,深度學(xué)習(xí)的一個(gè)重要應(yīng)用是挖掘文本特征的分布式表示,深度學(xué)習(xí)方法將單詞用固定長(zhǎng)度的實(shí)數(shù)向量表示,即詞向量,詞向量包含了該詞在文本中的語(yǔ)義信息。傳統(tǒng)特征選擇方法存在語(yǔ)義缺陷,只考慮文本的淺層特征,沒(méi)有表達(dá)詞之間、句子之間深層的語(yǔ)義信息。本文從深度學(xué)習(xí)文本表示的角度,針對(duì)傳統(tǒng)文本特征存在語(yǔ)義缺陷的問(wèn)題,提出WWBP方法。
定義1 (全局概率模型)指每個(gè)詞或短語(yǔ)在語(yǔ)料庫(kù)中的貢獻(xiàn)度,頻率高的貢獻(xiàn)度大,反之貢獻(xiàn)度小。采用詞或短語(yǔ)在語(yǔ)料中的概率作為貢獻(xiàn)度的評(píng)價(jià)標(biāo)準(zhǔn),提出了全局概率模型,如下:
其中,sumwi表示詞wi在語(yǔ)料中出現(xiàn)的次數(shù),sumall表示語(yǔ)料中詞的總數(shù),sumwi/sumall表示詞wi在語(yǔ)料中出現(xiàn)的概率,即該詞在語(yǔ)料庫(kù)中的全局概率。該模型描述了詞wi在語(yǔ)料中的貢獻(xiàn)程度。
本文提出的WWBP方法利用全局概率模型,結(jié)合詞向量,構(gòu)建與詞向量維度相同的文本語(yǔ)義向量,其實(shí)現(xiàn)流程如下。
(1)數(shù)據(jù)預(yù)處理
使用新浪微博API采集微博數(shù)據(jù),對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理,如去除特殊符號(hào)、網(wǎng)址、話(huà)題符號(hào)等。利用中國(guó)科學(xué)院分詞系統(tǒng),對(duì)微博數(shù)據(jù)分詞,得到2 GB微博數(shù)據(jù)語(yǔ)料庫(kù)。將該語(yǔ)料庫(kù)作為訓(xùn)練詞向量的語(yǔ)料庫(kù)。
(2)詞向量訓(xùn)練
利用gensim庫(kù)的Word2Vec工具,訓(xùn)練微博數(shù)據(jù)語(yǔ)料庫(kù)的詞向量,得到每個(gè)詞的詞向量。本文分別訓(xùn)練了100、150、200、250 和 300 維的詞向量。
(3)概率語(yǔ)料庫(kù)構(gòu)建
通過(guò)全局概率模型式(1),計(jì)算語(yǔ)料庫(kù)中詞的全局概率,構(gòu)建概率語(yǔ)料庫(kù)。該概率語(yǔ)料庫(kù)共98 724個(gè)詞,每一行由詞和其對(duì)應(yīng)的概率組成。
(4)文本概率向量
結(jié)合概率語(yǔ)料庫(kù)與詞向量,構(gòu)建文本概率向量。文本概率向量表示文本中詞的貢獻(xiàn)度分布,其計(jì)算式為:
其中,Pj表示第j篇文本的概率向量,pi(i=1,2,…,n)表示第j篇文本中第i個(gè)詞的概率,n表示第j篇文本詞的數(shù)目。
在概率語(yǔ)料庫(kù)中詞的概率成指數(shù)形式,對(duì)語(yǔ)料貢獻(xiàn)度不明顯。使用該概率為詞向量分配權(quán)重,使得詞向量每個(gè)維度語(yǔ)義的信息較少,構(gòu)建的文本語(yǔ)義向量語(yǔ)義信息不明顯。為了使文本語(yǔ)義向量包含更多的語(yǔ)義信息,采用基于softmax函數(shù)的概率向量歸一化方法,利用softmax函數(shù)柔化文本概率向量,將文本概率向量每個(gè)維度的概率值歸一化為0~1之間的數(shù)值,使出現(xiàn)在文本中詞的概率和為1。其計(jì)算式為:
其中,pi(i=1,2,…,n)表示該篇文本中第i個(gè)詞的概率,n表示文本中詞的總數(shù)。通過(guò)softmax函數(shù)歸一化,得到新的文本概率向量為:Pj′=[σ(p1)σ(p2)… σ(pn)] (4)
其中,Pj′表示第 j篇文本歸一化的概率向量,σ(pi)(i=1,2,…,n)表示第j篇文本中第i個(gè)詞歸一化后的概率,
且文本概率向量歸一化后,新的文本概率向量數(shù)值間的差距縮小,更能反映每個(gè)詞對(duì)文本的貢獻(xiàn)度。
(5)文本詞向量矩陣
一條微博由多個(gè)詞構(gòu)成,每個(gè)詞均有唯一的詞向量與之對(duì)應(yīng)。文本詞向量式為:
其中,Mj表示第 j篇文本的詞向量矩陣,vik(i=1,2,…,n,k=1,2,…,K)表示第i個(gè)詞向量第k維的語(yǔ)義信息,表示第j篇文本中第i個(gè)詞的詞向量。根據(jù)式(4)得到的文本概率向量,為文本詞向量分配權(quán)值。權(quán)值分配后的文本詞向量矩陣為:
其中,σ(pi)(i=1,2,…,n)表示詞向量對(duì)應(yīng)的歸一化后的概率。
(6)情感系數(shù)設(shè)定
微博中的情感詞直接表達(dá)微博情感,為了強(qiáng)調(diào)情感詞對(duì)微博情感的影響,設(shè)定情感系數(shù)α,其中,α∈(0,1)。通常非情感詞在微博中對(duì)情感的影響比情感詞小,為了強(qiáng)調(diào)非情感詞與情感詞對(duì)文本情感貢獻(xiàn)的不同,設(shè)定非情感系數(shù)為β,其中,β∈(0,1)。對(duì)微博中每個(gè)詞設(shè)定情感系數(shù),設(shè)定規(guī)則為:
(7)文本語(yǔ)義向量
將文本詞向量矩陣中所有詞向量對(duì)應(yīng)維度相加,構(gòu)建的文本語(yǔ)義向量為:
特征選擇方法有CHI、IG、MI等,每種特征選擇方法都有其自身的優(yōu)缺點(diǎn)。CHI判定了特征項(xiàng)與類(lèi)別之間的關(guān)聯(lián)程度,關(guān)聯(lián)度越大,信息量也越多;但該方法只統(tǒng)計(jì)文本中是否出現(xiàn)詞,而不管詞出現(xiàn)的次數(shù),因此對(duì)低頻詞有所偏袒。IG是基于信息熵的特征選擇方法,文本特征越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵越高,信息熵可以更好地區(qū)分特征對(duì)于類(lèi)別區(qū)分度的貢獻(xiàn)。但是該方法只考察特征對(duì)整個(gè)系統(tǒng)的貢獻(xiàn),而不能具體到某個(gè)類(lèi)別中。MI作為特征詞和類(lèi)別之間的測(cè)度,互信息量越大,其特征類(lèi)別相關(guān)度越高,該方法不需要對(duì)特征詞和類(lèi)別之間關(guān)系的性質(zhì)作任何假設(shè),適合于文本分類(lèi)的特征選擇;但是該方法存在詞頻缺陷。
由以上可知,CHI、IG、MI方法僅選取與類(lèi)別相關(guān)的特征項(xiàng),沒(méi)有考慮文本詞之間、上下文之間的語(yǔ)義關(guān)系,存在語(yǔ)義缺陷問(wèn)題。WWBP方法結(jié)合概率模型與詞向量,抽取文本的語(yǔ)義信息,構(gòu)建文本語(yǔ)義向量;CHI、IG、MI方法選取與類(lèi)別相關(guān)的特征項(xiàng),構(gòu)建文本特征向量;因此本文提出將語(yǔ)義向量與特征向量融合的方法,構(gòu)建融合語(yǔ)義信息的文本特征向量。采用的特征融合方式分別為CHI+WWBP、IG+WWBP、MI+WWBP。
傳統(tǒng)分類(lèi)模型實(shí)現(xiàn)的是粗粒度的情感分類(lèi),沒(méi)有考慮文本之間的情感聯(lián)系。例如:a.今天很開(kāi)心;b.今天很傷心;c.今天天氣晴朗。a是積極的文本,是開(kāi)心的情感;b是消極的文本,是傷心的情感;c是沒(méi)有情感的文本。文本數(shù)據(jù)量大時(shí),沒(méi)有情感的文本會(huì)降低傳統(tǒng)分類(lèi)器的精度,且有情感的文本,由于極性不同,也會(huì)降低情感分類(lèi)的精度。因此本文構(gòu)建了一個(gè)基于SVM的層次結(jié)構(gòu)分類(lèi)器模型,首次使用層次結(jié)構(gòu)分類(lèi)模型實(shí)現(xiàn)7種情感分類(lèi),提高了情感分類(lèi)的精度。
本文構(gòu)建了具有3個(gè)層次結(jié)構(gòu)的情感分類(lèi)模型。第一層構(gòu)建主客觀(guān)分類(lèi)器,實(shí)現(xiàn)主客觀(guān)分類(lèi),剔除文本中無(wú)情感的文本,減少最終情感分類(lèi)的誤判率。第二層構(gòu)建極性分類(lèi)器,將第一層分類(lèi)得到的有情感的文本作為第二層的輸入數(shù)據(jù),實(shí)現(xiàn)文本的極性分類(lèi)。第三層分別構(gòu)建消極情感分類(lèi)器和積極情感分類(lèi)器,將第二層分類(lèi)后極性不同的文本分別作為第三層的輸入數(shù)據(jù),得到文本最終的情感類(lèi)型。層次結(jié)構(gòu)情感分類(lèi)模型如圖2所示。
本文利用自然語(yǔ)言處理與中文計(jì)算會(huì)議數(shù)據(jù)集,將近幾年該會(huì)議的數(shù)據(jù)集進(jìn)行整合,得到14 000條已經(jīng)標(biāo)注情感類(lèi)型的微博數(shù)據(jù)。主要的情感類(lèi)型有無(wú)情感、厭惡、傷心、生氣、吃驚、害怕、喜好、開(kāi)心。各情感類(lèi)型分布見(jiàn)表1。
表1 各情感類(lèi)型微博數(shù)量
對(duì)該數(shù)據(jù)集(data)進(jìn)行情感層次劃分,首先,劃分為有情感類(lèi)型的文本數(shù)據(jù)(subject)和無(wú)情感類(lèi)型的文本數(shù)據(jù)(object)。其次,對(duì)有情感數(shù)據(jù)集進(jìn)行極性劃分,將喜好和開(kāi)心劃分為積極(positive)情感,其他情感類(lèi)型,包括厭惡、傷心、生氣、吃驚、害怕劃分為消極(negative)情感。
將數(shù)據(jù)集劃分為10 000條數(shù)據(jù)的訓(xùn)練集和4 000條數(shù)據(jù)的測(cè)試集,用來(lái)訓(xùn)練全局分類(lèi)器;將data、subject、positive和negative數(shù)據(jù)集分別劃分為訓(xùn)練集和測(cè)試集,用來(lái)訓(xùn)練層次結(jié)構(gòu)分類(lèi)器。
本文采用 P(precision,準(zhǔn)確率)、R(recall,召回率)、F1
(F1-measure,F(xiàn)1 值)作為評(píng)價(jià)指標(biāo)。
文本類(lèi)別歸屬判別見(jiàn)表2。
表2 文本類(lèi)別歸屬判別
(1)準(zhǔn)確率
分類(lèi)器判別為ci類(lèi)別的文本數(shù)與實(shí)際屬于ci類(lèi)別的文本數(shù)的比值,其計(jì)算式為:
(2)召回率
實(shí)際屬于ci類(lèi)別的文本數(shù)與分類(lèi)器判別為ci類(lèi)別的文本數(shù)的比值,其計(jì)算式為:
準(zhǔn)確率和召回率分別反映分類(lèi)器不同方面的性能:準(zhǔn)確率反映分類(lèi)器的準(zhǔn)確性,召回率反映分類(lèi)器的完備性。
(3)F1 值
它綜合了準(zhǔn)確率和召回率,其計(jì)算式為:
實(shí)驗(yàn)采用LibSVM工具包和已處理好的實(shí)驗(yàn)語(yǔ)料。
圖2 層次結(jié)構(gòu)情感分類(lèi)模型
為了驗(yàn)證WWBP方法的有效性,做了以下實(shí)驗(yàn)。首先,研究了不同維度的詞向量構(gòu)建的文本語(yǔ)義向量,對(duì)有無(wú)情感分類(lèi)、極性分類(lèi)和多分類(lèi)實(shí)驗(yàn)結(jié)果的影響,選擇最佳的維度進(jìn)行WWBP方法與傳統(tǒng)方法CHI、IG、MI的對(duì)比實(shí)驗(yàn),由于MI方法存在詞頻缺陷,根據(jù)詞頻大小對(duì)選取的特征項(xiàng)進(jìn)行排序,提取詞頻較大的特征項(xiàng),計(jì)算它的互信息。其次,為了得到更好的分類(lèi)效果,提出了特征融合的方法,將 CHI、IG、MI方法分別與 WWBP方法融合,構(gòu)建包含語(yǔ)義信息的特征向量,即CHI+WWBP、IG+WWBP、MI+WWBP,分別實(shí)現(xiàn)文本有無(wú)情感分類(lèi)、極性分類(lèi)、多情感分類(lèi)。
用 2 GB 的微博語(yǔ)料訓(xùn)練 50、100、150、200、250、300維詞向量,分別用這幾種維度的詞向量,根據(jù)深層文本特征構(gòu)建文本語(yǔ)義向量,實(shí)現(xiàn)有無(wú)情感分類(lèi)(motion)、極性分類(lèi)(polarity)、多種情感分類(lèi)(positive 和 negative),實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 不同維度詞向量分類(lèi)器精度
實(shí)驗(yàn)結(jié)果表明,隨著詞向量維度的增加,分類(lèi)器精度不是線(xiàn)性變化,當(dāng)詞向量的維度由50維增加為100維時(shí),每個(gè)層次的分類(lèi)精度均有所提高;維度繼續(xù)提升時(shí),精度沒(méi)有明顯的變化。因此,在接下來(lái)的實(shí)驗(yàn)中,采用100維的詞向量。
5.1.1 有無(wú)情感分類(lèi)
數(shù)據(jù)集采用data,分類(lèi)器采用SVM,特征選擇方法采用CHI、IG、MI、WWBP和特征融合方法。實(shí)驗(yàn)結(jié)果見(jiàn)表3。
實(shí)驗(yàn)結(jié)果表明,在有無(wú)情感的二分類(lèi)中,WWBP方法的P、R、F1值均比傳統(tǒng)文本特征選擇方法高 1%~5%。特征融合方法與傳統(tǒng)方法相比,其P、R、F1值平均提高了3%左右。WWBP方法和特征融合方法與傳統(tǒng)方法相比,分類(lèi)精度均有提高,如圖4所示。
圖4 基于各特征選擇方法的有無(wú)情感分類(lèi)器精度
5.1.2 極性分類(lèi)
數(shù)據(jù)集采用subject,分類(lèi)器采用SVM,特征選擇方法采用CHI、IG、MI、WWBP和特征融合方法。實(shí)驗(yàn)結(jié)果見(jiàn)表4。
實(shí)驗(yàn)結(jié)果表明,在極性分類(lèi)中,WWBP方法的P、R、F1值均高于MI方法;積極文本分類(lèi)時(shí),WWBP方法的R值高于其他特征選擇方法;消極文本分類(lèi)時(shí),WWBP方法的P值高于其他傳統(tǒng)特征選擇方法,F(xiàn)1值高于MI和CHI方法。特征融合方法與傳統(tǒng)方法相比,其P、R、F1值平均提高了1%左右。WWBP方法得到的分類(lèi)器精度高于IG和MI方法,特征融合的方法與傳統(tǒng)方法相比,分類(lèi)器精度均得到提高,具體如圖5所示。
5.1.3 多種情感分類(lèi)
數(shù)據(jù)集采用negative,分類(lèi)器采用SVM,特征選擇方法采用 CHI、IG、MI、WWBP和特征融合方法。實(shí)驗(yàn)結(jié)果見(jiàn)表5。
表3 基于各特征選擇方法的有無(wú)情感分類(lèi)
表4 基于各特征選擇方法的極性分類(lèi)
表5 基于各特征選擇方法的消極情感多分類(lèi)
圖5 基于各特征選擇方法的極性分類(lèi)器精度
實(shí)驗(yàn)結(jié)果表明,在多情感分類(lèi)中,WWBP方法的F1值高于IG、MI方法;傷心分類(lèi)時(shí),WWBP方法分類(lèi)效果最優(yōu),其P、R、F1值均高于傳統(tǒng)方法。特征融合方法與傳統(tǒng)方法相比,其P、R、F1值均有所提高。WWBP方法得到的分類(lèi)器精度高于IG和MI方法,特征融合法與傳統(tǒng)方法相比,分類(lèi)器精度均得到提高,具體如圖6所示。
以上實(shí)驗(yàn)得出,WWBP方法的分類(lèi)效果優(yōu)于傳統(tǒng)的特征選擇,且將WWBP方法與傳統(tǒng)方法融合,在有無(wú)情感分類(lèi)、極性分類(lèi)和多分類(lèi)中分類(lèi)效果均得到一定提高,取得了更好的分類(lèi)效果。
由上述實(shí)驗(yàn)結(jié)果可知,WWBP方法與傳統(tǒng)方法融合實(shí)現(xiàn)的分類(lèi)效果優(yōu)于傳統(tǒng)方法。為了驗(yàn)證基于特征融合的層次結(jié)構(gòu)情感分類(lèi)方法的高效性,分類(lèi)器采用全局SVM分類(lèi)器和基于SVM的層次結(jié)構(gòu)分類(lèi)器,特征選擇方法采用CHI、IG、MI、WWBP和特征融合方法,對(duì)微博進(jìn)行多種情感分類(lèi)。實(shí)驗(yàn)結(jié)果見(jiàn)表6、表7。
圖6 基于各特征選擇方法的消極情感分類(lèi)器精度
由表6、表7可知,采用SVM的層次結(jié)構(gòu)分類(lèi)器,對(duì)微博進(jìn)行 8種情感分類(lèi),與全局分類(lèi)器相比,其P、R、F1值均得到了一定幅度的提高。對(duì)無(wú)情感的微博分類(lèi),其P、R、F1值達(dá)到80%以上。并且每種特征選擇方法,使用層次結(jié)構(gòu)分類(lèi)器后,其P、R、F1值均得到了提高。實(shí)驗(yàn)結(jié)果表明,采用層次結(jié)構(gòu)分類(lèi)器模型時(shí),根據(jù)每個(gè)層次分類(lèi)任務(wù)使用對(duì)應(yīng)分類(lèi)器,P、R、F1值均得到了提高。
表6 基于各特征選擇方法的全局情感多分類(lèi)
表7 基于各特征選擇方法的層次結(jié)構(gòu)情感多分類(lèi)
采用特征融合的層次結(jié)構(gòu)分類(lèi)器分類(lèi),與使用傳統(tǒng)方法的層次結(jié)構(gòu)分類(lèi)器相比,其分類(lèi)結(jié)果的P、R、F1值均得到一定的提高,與使用傳統(tǒng)方法的全局分類(lèi)器相比,其P、R、F1值均提高了8%~50%。綜合評(píng)價(jià)各種組合,采用CHI+WWBP特征融合的層次結(jié)構(gòu)分類(lèi)器分類(lèi)效果最佳。
由以上實(shí)驗(yàn)可知,采用層次結(jié)構(gòu)的分類(lèi)效果優(yōu)于全局分類(lèi),說(shuō)明對(duì)情感類(lèi)型采用對(duì)應(yīng)類(lèi)別的分類(lèi)器分類(lèi),能夠提高分類(lèi)的準(zhǔn)確率;采用特征融合方法的分類(lèi)效果優(yōu)于單個(gè)特征選擇方法分類(lèi)效果;采用特征融合的層次結(jié)構(gòu)分類(lèi)器對(duì)文本分類(lèi),其分類(lèi)效果最佳。
文本情感分類(lèi)在自然語(yǔ)言處理、數(shù)據(jù)挖掘、社會(huì)媒體中的應(yīng)用越來(lái)越廣,傳統(tǒng)的文本特征選擇方法存在語(yǔ)義缺陷,選取的特征沒(méi)有語(yǔ)義信息。Word2Vec利用詞的上下文關(guān)系,訓(xùn)練出的詞向量包含豐富的語(yǔ)義信息。因此,本文提出WWBP方法,構(gòu)建文本語(yǔ)義向量,該語(yǔ)義向量為文本深層特征;將深層特征與淺層特征融合,構(gòu)建融合語(yǔ)義信息的特征向量,彌補(bǔ)傳統(tǒng)方法語(yǔ)義缺陷問(wèn)題。實(shí)驗(yàn)結(jié)果表明,特征融合的方法與傳統(tǒng)特征選擇方法相比,在有無(wú)情感分類(lèi)中,準(zhǔn)確率、召回率和F1值平均提高了3%左右;在極性分類(lèi)中,準(zhǔn)確率、召回率和F1值平均提高了1%左右;在多分類(lèi)中,準(zhǔn)確率、召回率和F1值均有所提高。在多種情感分類(lèi)時(shí),提出基于特征融合的層次結(jié)構(gòu)情感分類(lèi)方法,采用SVM層次結(jié)構(gòu)情感分類(lèi)模型,實(shí)驗(yàn)結(jié)果表明,該方法與全局分類(lèi)器相比,其準(zhǔn)確率、召回率和F1值均提高了8%~50%,提高了微博多種情感分類(lèi)的準(zhǔn)確率。
本文采用的分類(lèi)器均為SVM分類(lèi)器,未分析不同分類(lèi)器分類(lèi)結(jié)果的優(yōu)劣;詞向量的好壞取決于語(yǔ)料庫(kù)的大小。以后將從分類(lèi)器選取和語(yǔ)料庫(kù)擴(kuò)建兩方面著手,優(yōu)化實(shí)驗(yàn)。
[1]PANG B,LEE L,VAITHYANATHAN S.Thumbs up sentiment classification using machine learning techniques[J].Computer Science,2009(10):79-86.
[2]PANG B,LEE L.Seeing stars:exploiting class relationships for sentiment categorization with respect to rating scales[J].Arxiv Cornell University Library,2004:115-124,arXiv:cs/0506075v1.
[3]ALAM C O,ROTH D,SPROAT R.Emotions from text:machine learning for text-based emotion prediction[C]//Conference on Human Language Technology and Empirical Methods in Natural Language Processing,October 6-8,2005,Vancouver,British Columbia,Canada.New York:ACM Press,2005:579-586.
[4]ECKMAN P.Universaland culturaldifferencesin facial expression of emotion [EB/OL]. [2016-05-02].https://www.researchgate.net/publication/248224937_Universal_and_cultural_differences_in_facial_expression_of_emotion.
[5]GHAZI D,INKPEN D,SZPAKOWICZ S.Hierarchical versus flat classification of emotions in text[C]//NAACL HLT 2010 Workshop on ComputationalApproachesto Analysisand Generation of Emotion in Text,June 5,2010,Los Angeles,USA.New York:ACM Press,2010:140-146.
[6]GHAZI D,INKPEN D,SZPAKOWICZ S.Hierarchical approach to emotion recognition and classification in texts[M].Berlin:Springer,2010:40-50.
[7]HUANG S,PENG W,LI J,et al.Sentiment and topic analysis on social media:a multi-task multi-label classification approach[C]//The 5th Annual ACM Web Science Conference,May 2-4,2013,Paris,France.New York:ACM Press,2013:172-181.
[8]LIU S M,CHEN J H.A multi-label classification based approach for sentiment classification[J].Expert Systems with Applications,2015,42(3):1083-1093.
[9]XU H,YANG W,WANG J.Hierarchical emotion classification and emotion component analysis on chinese micro-blog posts[J].Expert Systems with Applications,2015,42(22):8745-8752.
[10]CHO S H,KANG H B.Text sentiment classification for SNS-based marketing using domain sentiment dictionary[C]//2012 IEEE International Conference on Consumer Electronics(ICCE),Jan 13-16,2012,Las Vegas,NV,USA.New Jersey:IEEE Press,2012:717-718.
[11]SUN X,LI C,YE J.Chinese microblogging emotion classification based on support vector machine[C]//2014 International Conference on Computing,Communication and Networking Technologies (ICCCNT),July 11-13,2014,Hefei,China.New Jersey:IEEE Press,2014:1-5.
[12]劉翠娟,劉箴,柴艷杰,等.基于微博文本數(shù)據(jù)分析的社會(huì)群體情感可視計(jì)算方法研究[J].北京大學(xué)學(xué)報(bào) (自然科學(xué)版),2016,52(1):178-186.LIU C J,LIU Z,CHAI Y J,et al.Visual study on calculation method of social groups emotional based on the micro-blog post analysis [J].JournalofPeking University(NaturalScience Edition),2016,52(1):178-186.
[13]HINTON G E.Learning distributed representations of concepts[EB/OL].[2002-08-01].https://www.researchgate.net/publication/2883217_Learning_Distributed_Representations_of_Concepts
[14]MIKOLOV T,CHEN K,CORRADO G,etal.Efficient estimation of word representations in vector space[J].Computer Science,2013(9),arXiv:1301.3781v3.
[15]MIKOLOV T,SUTSKEVER I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013(26):3111-3119.
Hierarchical micro-blog sentiment classification based on feature fusion
ZHU Xianying,LIU Zhen,JIN Wei,LIU Tingting,LIU Cuijuan,CHAI Yanjie
Faculty of Information Science and Technology,Ningbo University,Ningbo 315211,China
Sentiment classification is an important issue of opinion mining.It has a high application value to classify sentiment in micro-blogs.As traditional feature selection method has semantic gap,a neural network language model was used to propose a deep feature representation method based on probability model to distribute weight to the word vector.Using this method,text semantic vector could be built.In order to avoid the semantic gap,the deep features and shallow features of text were integrated and feature vector that contained semantic information was constructed.With SVM hierarchical classification model,a variety of sentiments could be classified.Experimental results show that the hierarchical sentiment classification method based on feature fusion can improve the accuracy of sentiment classification in micro-blogs.
sentiment classification,word vector,deep feature,feature fusion,hierarchical classification model
s:The National Natural Science Foundation of China(No.61373068,No.61271399),Ningbo Science and Technology Plan Project(No.2015A610128,No.2015C50053,No.2015D10011,No.2011B81002),Specialized Research Fund for the Doctoral Program of Higher Education(No.20133305110004)
TP391
A
10.11959/j.issn.1000-0801.2016182
2016-06-16;
2016-07-05
國(guó)家自然科學(xué)基金資助項(xiàng)目 (No.61373068,No.61271399);寧波市科技計(jì)劃基金資助項(xiàng)目 (No.2015A610128,No.2015C50053,No.2015D10011,No.2011B81002);高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)科研基金資助項(xiàng)目(No.20133305110004)
朱 憲 瑩 (1991-),女 ,寧 波 大 學(xué) 信 息 科 學(xué) 與工程學(xué)院碩士生,主要研究方向?yàn)槲谋厩楦蟹治觥?/p>
劉箴(1965-),男,博士,寧波大學(xué)信息科學(xué)與工程學(xué)院教授,主要研究方向?yàn)樘摂M現(xiàn)實(shí)和社會(huì)媒體。
金煒(1969-),男,博士,寧波大學(xué)信息科學(xué)與工程學(xué)院副教授,主要研究方向?yàn)閳D像處理。
劉婷婷(1980-),女,寧波大學(xué)信息科學(xué)與工程學(xué)院博士生,主要研究方向?yàn)樘摂M現(xiàn)實(shí)和社會(huì)媒體。
劉翠娟(1979-),女,寧波大學(xué)信息科學(xué)與工程學(xué)院博士生,主要研究方向?yàn)樯鐣?huì)媒體。
柴艷杰(1968-),女,寧波大學(xué)講師,主要研究方向?yàn)樾畔z索和動(dòng)漫仿真。