時雪峰 康 鑫 廖 萍 任福繼
1(南通大學(xué)機(jī)械工程學(xué)院 江蘇 南通 226019) 2(德島大學(xué)工學(xué)部 德島縣 德島市 770-8506)
情感分析對于了解大量社交網(wǎng)絡(luò)消息中所隱藏的思想具有重要作用,并且越來越多地為解決現(xiàn)實世界中的問題提供幫助,如輿論分析[1]、股票趨勢預(yù)測[2-3]和產(chǎn)品評論[4-5]等。正確理解社交網(wǎng)絡(luò)消息中隱藏的情感信息,有助于分析相關(guān)領(lǐng)域的未來趨勢,并為下一次決策提供寶貴的建議。
與正、負(fù)兩極的情感判別不同,多情感分類研究的重點是對人類的多種情感進(jìn)行識別[6-7]。不同的研究領(lǐng)域?qū)θ祟惽楦械姆诸愐彩遣煌模鏓kman[8]認(rèn)為人類的基本情感有六種,分別是憤怒、厭惡、恐懼、幸福、悲傷和驚奇,用于心理學(xué)研究;而Ren等[9]則認(rèn)為人類的情感狀態(tài)可以細(xì)化分為八種,分別是憤怒、歡樂、悲傷、焦慮、討厭、期望、驚訝和愛。每一種分類方法,都對相關(guān)領(lǐng)域的研究起到了重要的推動作用。
在有監(jiān)督的情感分類任務(wù)中,情感語料庫是必不可少的。情感語料庫的標(biāo)注是一件耗費時間長、人工成本高的工作。主動學(xué)習(xí)(Active Learning)算法自動獲取可能性較高的樣本,緩解語料庫不足的壓力。相比于人工專家的篩選,主動學(xué)習(xí)算法抽取的樣本在情感分布上并不均勻,主要是由原始語料中的情感分布傾向性嚴(yán)重造成的。這使得主動學(xué)習(xí)算法很難根據(jù)現(xiàn)實世界的原始語料來構(gòu)建具有均衡情感標(biāo)簽的訓(xùn)練集,并限制了訓(xùn)練好的情感分類器對低頻情感標(biāo)簽的識別,如焦慮和驚奇?,F(xiàn)有主動學(xué)習(xí)算法的研究重點都集中在提高文本情感的預(yù)測準(zhǔn)確性上,而沒有考慮到語料庫中情感分布的均衡性。針對該問題,本文提出一種基于Kullback-Leibler散度構(gòu)建情感分布均衡的文本語料庫方法。
根據(jù)不同研究的需求,文本情感一般可以分為三個粒度:單詞的情感標(biāo)記,句子的情感分類,文檔的情感分析[10]。單詞情感標(biāo)記主要是從文檔中找到情感單詞并預(yù)測這些單詞的情感[11-12]。對文檔的情感分析著重于文章中情感因素的識別,以及通過各種機(jī)器學(xué)習(xí)方法對文檔中情感的進(jìn)一步預(yù)測[13]。句子的情感分類取決于對中、短文本中單詞情感的分析,并為文檔情感分析提供豐富的信息。文獻(xiàn)[14-16]提出一個句子可能同時具有多個情感狀態(tài),這表明了句子情感分類是多情感分類問題。對此,文中討論了針對中、短社交網(wǎng)絡(luò)文本情感分類而訓(xùn)練的多情感分類器。
Ren等[9]基于對單詞、主題和情感標(biāo)簽的概率依賴性假設(shè),采用分層貝葉斯網(wǎng)絡(luò)生成潛在主題和情感標(biāo)簽,以預(yù)測文檔中復(fù)雜的人類情感。通過分析情感標(biāo)簽和主題的分布,他們發(fā)現(xiàn)了不同語義主題的情感變化情況。Liu等[17]采用大規(guī)模包含內(nèi)在情感信息的現(xiàn)實世界知識來感知文本情感。這一方法有較強(qiáng)的魯棒性,可以根據(jù)對現(xiàn)實世界知識的理解,來預(yù)測文本中隱藏語義的情感。由于以前的主動學(xué)習(xí)方法無法獲得最具信息性和代表性的樣本,因此,Reyes等[18]基于基本分類器的預(yù)測和已預(yù)測標(biāo)簽集的不一致性,提出一種新的樣本選擇策略。通過與其他幾個選擇策略在多個數(shù)據(jù)集上的實驗對比,結(jié)果表明該方法具有明顯的優(yōu)勢。Kang等[19]提出包含互補(bǔ)性、信息性、代表性和多樣性四個標(biāo)準(zhǔn)的主動學(xué)習(xí)方法,用于評估候選樣本。他們將通過文獻(xiàn)[19]中方法選擇的樣本補(bǔ)充到訓(xùn)練集中,并將選擇的樣本補(bǔ)充到訓(xùn)練集中以逐步改善監(jiān)督的情感分類結(jié)果。以上這些工作的重點都集中在提高對候選樣本的預(yù)測準(zhǔn)確性上,而對已并入候選樣本的訓(xùn)練集中情感標(biāo)簽分布的均衡性關(guān)注很少,且在樣本篩選過程中,也很少通過主動學(xué)習(xí)的方法去抑制訓(xùn)練集中標(biāo)簽不均衡的現(xiàn)象。
本文提出的主動學(xué)習(xí)方法是一個包含信息性、代表性、多樣性和互補(bǔ)性四個評價策略的樣本選擇算法。
在主動學(xué)習(xí)算法中,本文構(gòu)造了一組邏輯回歸分類器φk,其中每個分類器對應(yīng)一種情感類別。在監(jiān)督學(xué)習(xí)的基礎(chǔ)上,分類器對每條文本x進(jìn)行情感預(yù)測,并給出情感類別k的預(yù)測概率yk∈[0,1]。
yk=φk(x)
(1)
本文主動學(xué)習(xí)算法從大量未標(biāo)注數(shù)據(jù)中逐步選擇最具信息性和代表性的文本樣本,并將其添加到現(xiàn)有的訓(xùn)練集,然后通過對其學(xué)習(xí)來更新情感概率預(yù)測器φk。
與文獻(xiàn)[19]中主動學(xué)習(xí)模型不同的是,本文對信息性、代表性和多樣性三個選擇準(zhǔn)則進(jìn)行重新排序;同時,算法在互補(bǔ)性準(zhǔn)則中加入抑制情感分布偏向化的機(jī)制,這使本研究可以直接控制最終輸出樣本的情感標(biāo)簽平衡屬性,并對互補(bǔ)性標(biāo)準(zhǔn)賦予更多權(quán)重。此外,本文重新設(shè)計了互補(bǔ)性標(biāo)準(zhǔn),并通過評估臨時訓(xùn)練集的情感分布與理想的均勻情感分布之間的Kullback-Leibler散度,以明確的方式評估更多原始樣本的情感標(biāo)簽平衡特性。以下是各標(biāo)準(zhǔn)的詳細(xì)推導(dǎo)過程。
(1) 利用式(1)對樣本進(jìn)行情感類別{1,2,…,K}上的概率預(yù)測,信息性準(zhǔn)則i(x)通過評估預(yù)測概率的最大交叉熵值,完成樣本考察。
(2)
式中:yk表示情感類別k的預(yù)測概率。如算法1中所示,通過最大化該準(zhǔn)則,本文可以根據(jù)候選樣本的情感預(yù)測概率,為其找出至少一種具有較大信息性的情感類別。
算法1通過主動學(xué)習(xí)構(gòu)建標(biāo)簽平衡情感語料庫
輸入:訓(xùn)練集X,未標(biāo)注數(shù)據(jù)集U,選擇標(biāo)準(zhǔn)參數(shù)λ。
1.信息性標(biāo)準(zhǔn)對全體數(shù)據(jù)進(jìn)行篩選:I={i(x)|?x∈U};
2.按比例抽取樣本:UI=argpartition(I,λI|U|);
3.代表性標(biāo)準(zhǔn)對樣本集UI進(jìn)行篩選:R={r(x)|?x∈UI};
4.按比例抽取樣本:UR=argpartition(R,λRλI|U|);
5.多樣性標(biāo)準(zhǔn)對樣本集UR進(jìn)行篩選:D={d(x)|?x∈UR};
6.按比例抽取樣本:UD=argpartition(D,λDλRλI|U|};
7.Fori=0→λC,執(zhí)行:
8.抽取散度值最小的樣本:x=argmin({c(x)|?x∈UD});
9.獲取x的情感標(biāo)簽e;
10.添加(x,e)到訓(xùn)練集X,
11.輸出樣本x;
12.從未標(biāo)注集U中刪除x;
13.完成情感標(biāo)簽平衡 。
(2) 代表性標(biāo)準(zhǔn)通過以下方法評估每個文本樣本與未標(biāo)注數(shù)據(jù)中其他文本樣本的平均相似性:
(3)
式中:U表示所有未標(biāo)注樣本的集合;兩個樣本x和x′之間歐幾里得距離值的相反數(shù)表示它們的語義相似程度。距離值的相反數(shù)越大,則說明樣本間的距離越小。通過像算法1中那樣最大化該準(zhǔn)則,本研究可以在未標(biāo)注數(shù)據(jù)集中找到在語義上最具代表性的候選樣本。
(3) 多樣性標(biāo)準(zhǔn)通過以下方法評估未標(biāo)注樣本與訓(xùn)練集中樣本之間的最小歐幾里得距離:
(4)
式中:x∈X表示訓(xùn)練集文本,X為訓(xùn)練集合。通過最大化算法1中所示的多樣性標(biāo)準(zhǔn),本研究可以找到與訓(xùn)練集文本在語義上截然不同的候選樣本。
(4) 本文提出的新的互補(bǔ)性準(zhǔn)則是通過構(gòu)造一組臨時訓(xùn)練集X∪{x},來抑制屬于高頻次情感標(biāo)簽的樣本被選入訓(xùn)練集。每個臨時訓(xùn)練集X∪{x}都是將原始樣本x∈U并入現(xiàn)有訓(xùn)練集X。通過以下方法評估臨時訓(xùn)練集的情感分布p′與理想的均衡情感分布u~unif{1,K}之間的Kullback-Leibler散度,并尋找出最小的Kullback-Leibler散度值c(x),即表示完成情感標(biāo)簽最平衡的新訓(xùn)練集的構(gòu)建。
(5)
(6)
式中:ek(x)是關(guān)于考察樣本x情感標(biāo)簽k的預(yù)測概率。
(7)
對于新訓(xùn)練集中的樣本x∈U,根據(jù)實際的情感標(biāo)注規(guī)則和觀察到的情感類別k的概率,給定情感標(biāo)簽1.0或0.0。對于未標(biāo)注數(shù)據(jù)集中的樣本x′∈U,其情感類別為k的概率由邏輯回歸情感分類器的預(yù)測結(jié)果ek(x′)=φk(x)給出。
圖1為基于互補(bǔ)性準(zhǔn)則的情感標(biāo)簽均衡化的樣本選擇過程。如圖1(a)所示,從當(dāng)前訓(xùn)練集情感標(biāo)簽分布的情況得知,算法需要尋找的情感類別為“難過”和“討厭”;圖1(b)顯示,算法在偵測到訓(xùn)練集所缺乏的情感類別后,根據(jù)選擇準(zhǔn)則,抽取出預(yù)測概率較高的“悲傷”樣本;算法從未標(biāo)注數(shù)據(jù)中選擇能夠使臨時訓(xùn)練集X∪{x}具有更均衡的情感分布的樣本,完成平衡訓(xùn)練集情感標(biāo)簽的任務(wù),如圖1(c)所示。
(a)
(b)
(c)圖1 主動學(xué)習(xí)算法平衡數(shù)據(jù)集情感分布過程
在算法1中,參數(shù)λI、λR和λD分別是基于信息性、代表性和多樣性標(biāo)準(zhǔn)選擇樣本的百分率。固定選擇比例有助于選擇標(biāo)準(zhǔn)在面對不同規(guī)模的未標(biāo)注數(shù)據(jù)集時,保持同樣的樣本選擇能力。參數(shù)λC(其中C表示互補(bǔ)性準(zhǔn)則)對應(yīng)文中主動學(xué)習(xí)算法最終選擇樣本的規(guī)模。另外,本文使用固定數(shù)字作為輸出樣本的規(guī)模,方便不同規(guī)模的未標(biāo)注數(shù)據(jù)集在文本情感分類學(xué)習(xí)過程中的實驗對比。
與一般主動學(xué)習(xí)算法相同的是,本文構(gòu)建基于邏輯回歸分類器φk的情感分類算法,用于考察所選數(shù)據(jù)的合理性。
在分類前,算法過濾掉低頻詞特征和暫停詞特征,并通過觀察到的每個單詞特征統(tǒng)計量表示微博文本,記作x。通過對訓(xùn)練集進(jìn)行5倍交叉驗證,確定邏輯回歸分類器的超參數(shù)(包括l1和l2懲罰項、正則化強(qiáng)度、每個分類器φk的類權(quán)重)。
在情感分類算法中,本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1值來評估分類結(jié)果,公式如下:
(8)
(9)
(10)
式中:TP表示真正例;FP表示假正例;FN表示假反例。
(1) 降噪。為了減少下文研究中主動學(xué)習(xí)算法的工作量,本節(jié)對原始微博數(shù)據(jù)的預(yù)處理進(jìn)行說明。由于本文的研究對象為中文短文本微博數(shù)據(jù),其中很多為不規(guī)范用語,大量的噪聲不僅增加后續(xù)研究的工作量,還容易影響抽取樣本的質(zhì)量。
通過構(gòu)建噪聲語料庫,本文從原始語料中萃取到純粹的人為短文本信息。構(gòu)建的噪聲語料庫主要成分包含以下7個方面,如表1所示。
表1 噪聲語料庫的文本類別
基于邏輯回歸分類器的預(yù)處理算法通過對噪聲語料庫的學(xué)習(xí),為原始語料庫中的文本進(jìn)行打分評價。當(dāng)文本得分超過0.5時,表明該文本有極大的可能屬于噪聲語料,故將其過濾。
(2) 標(biāo)簽數(shù)據(jù)集構(gòu)建。本研究中,首先由人工專家標(biāo)注情感分布相對均勻的小規(guī)模語料庫,然后由主動學(xué)習(xí)算法在保證其情感分布均勻的基礎(chǔ)上,逐步擴(kuò)大其規(guī)模,最后完成情感語料庫的擴(kuò)充。
為了驗證本文方法在小規(guī)模數(shù)據(jù)集上的有效性,人工專家標(biāo)注的語料庫分為訓(xùn)練集、驗證集和測試集,其分別包含文本864、1 005和1 592條,且每條文本均已由人工專家標(biāo)注有一個或多個從情感標(biāo)簽庫(憤怒、歡樂、悲傷、焦慮、討厭、期望、驚訝、愛和中立)中挑選的情感標(biāo)簽。為使主動學(xué)習(xí)模型從開始就學(xué)習(xí)到一個相對公正的情感分類器,本文訓(xùn)練集、驗證集和測試集中每類情感標(biāo)簽的規(guī)模分別約為100、100和184條。
(3) 分詞。本文采用清華大學(xué)推出的一套中文詞法分析工具包THULAC(THU Lexical Analyzer for Chinese)對所構(gòu)建的標(biāo)簽數(shù)據(jù)集進(jìn)行分詞處理,去除多余的空格、英文字符和其他特殊字符。同時,將文本“@”、“http”和阿拉伯?dāng)?shù)字形式的字符串轉(zhuǎn)為基本語言單元,分別為
本文使用驗證集和3個未標(biāo)注數(shù)據(jù)集來確定參數(shù)λI、λR和λD的值,并使用6個未標(biāo)注數(shù)據(jù)集來確定算法1中參數(shù)λC的值。
表2顯示了每個選擇參數(shù)的候選值。其中:前三個參數(shù)的候選值是用于指定選擇準(zhǔn)則選擇樣本的百分率;最后一個參數(shù)的候選值則指定最終輸出樣本量的規(guī)模。根據(jù)不同組別的參數(shù)值而更新的訓(xùn)練集,比較其在情感分類實驗結(jié)果的準(zhǔn)確率、召回率和F1值,本研究發(fā)現(xiàn)參數(shù)λI、λR、λD的最佳取值分別為0.2、0.5、0.5,且λC為40。
表2 主動學(xué)習(xí)算法中選擇準(zhǔn)則參數(shù)候選值
為了驗證本文算法在情感平衡上的有效性,本文做了多組實驗。對比了本文算法和文獻(xiàn)[19]中方法的情感分類性能,還比較了沒有情感分布均衡措施的主動學(xué)習(xí)方法。在主動學(xué)習(xí)實驗中,對于每個未標(biāo)注數(shù)據(jù)集U,本文首先將其與已有訓(xùn)練集X一起輸入算法1,以獲取更新的訓(xùn)練集;然后,基于每個訓(xùn)練集,訓(xùn)練所構(gòu)建的情感分類器(式(1)),并分別使用這些學(xué)習(xí)到的分類器在測試集上進(jìn)行情感分類實驗并評估結(jié)果;最后,逐步統(tǒng)計分類結(jié)果。結(jié)果表明:隨著訓(xùn)練集中樣本數(shù)量的增加,文本情感分類的結(jié)果也隨之改進(jìn),如圖2所示。
(a) F1值的變化趨勢
(b) 準(zhǔn)確率的變化趨勢
(c) 召回率的變化趨勢圖2 情感分類結(jié)果隨著訓(xùn)練數(shù)據(jù)增加的變化趨勢
隨著算法1迭代次數(shù)的增加,訓(xùn)練集的規(guī)模逐漸增大。實驗結(jié)果中不斷提高的微平均準(zhǔn)確率、召回率和F1值證明,情感分類模型的學(xué)習(xí)能力逐漸增強(qiáng)。具體來說,在主動學(xué)習(xí)算法迭代60次后,分類實驗結(jié)果的P、R和F1值的微平均分別提高了7.53%、7.36%和7.51%。結(jié)果表明,本文方法可有效地從未標(biāo)注數(shù)據(jù)集中找到合適的樣本,進(jìn)而顯著提高多標(biāo)簽文本情感分類模型的學(xué)習(xí)能力。
下面通過比較本文方法與對照實驗的文本情感分類結(jié)果(其主動學(xué)習(xí)算法僅由前三個準(zhǔn)則組成,即信息性、代表性和多樣性)來檢驗所提出的互補(bǔ)性標(biāo)準(zhǔn)的有效性。對照實驗中選擇的參數(shù)與本文方法相同,不同之處在于參數(shù)λD被λC取代,以保證樣本選擇的規(guī)模與算法1相同。
如圖2所示,根據(jù)本文方法得出的P、R和F1值的微平均始終高于對照實驗。兩種方法之間的平均差距為:準(zhǔn)確率1.55%,召回率0.94%,F(xiàn)1值1.30%。表明本文所提出的互補(bǔ)性準(zhǔn)則能夠以有效的方式對樣本選擇的優(yōu)先級進(jìn)行重新排序,從而更輕松地找到高質(zhì)量樣本并將其添加到訓(xùn)練集中。當(dāng)對文獻(xiàn)[19]算法的實驗結(jié)果進(jìn)行比較時發(fā)現(xiàn),準(zhǔn)確率、召回率和F1值的微平均增量分別為1.55%、2.49%和1.97%。雖然其結(jié)果也有提高,但是根據(jù)本研究提出的方法而抽取的樣本更可靠。
最后,本文探索了本文方法、對比算法、文獻(xiàn)[19]算法產(chǎn)生的情感標(biāo)簽的分布,以進(jìn)一步分析三種算法對訓(xùn)練集情感標(biāo)簽平衡性的影響。通過本文算法或?qū)Ρ人惴ㄟx擇越來越多的樣本,且將其并入訓(xùn)練集,不斷擴(kuò)大訓(xùn)練集中情感標(biāo)簽的規(guī)模。
圖3(a)、圖3(b)和圖3(c)分別為基于本文算法、對比算法和文獻(xiàn)[19]算法而逐步更新的訓(xùn)練集中情感標(biāo)簽分布情況,其中數(shù)字為情感標(biāo)簽數(shù)量的衡量刻度。算法在迭代過程中,構(gòu)建了一系列訓(xùn)練集。這些訓(xùn)練集具有比對比算法構(gòu)建的訓(xùn)練集更為均衡的情感標(biāo)簽分布。具體而言,未標(biāo)注數(shù)據(jù)集中頻次最高的中立情感標(biāo)簽在選擇過程中受到了很大的限制。同時,在通過本文方法獲得的訓(xùn)練集中,其他情感標(biāo)簽的增長速度比對比實驗中的增長快得多,并且這種增長在情感標(biāo)簽“焦慮”、“歡樂”、“討厭”和“期望”上尤其明顯。與本文方法相比,在基于文獻(xiàn)[19]算法更新的訓(xùn)練集中,“無情感”標(biāo)簽極化現(xiàn)象嚴(yán)重。其余八種情感類別的標(biāo)簽數(shù)量變化趨勢相似,但增長速度緩慢,與本文方法差距明顯。
(a) 本文算法
(b) 對比算法
(c) 文獻(xiàn)[19]算法圖3 通過主動學(xué)習(xí)算法所獲取的訓(xùn)練集中各類情感 標(biāo)簽的分布情況
以上結(jié)果表明,在未標(biāo)注數(shù)據(jù)集情感分布具有高度偏向的情況下,文中所提的互補(bǔ)性準(zhǔn)則可有效地選擇具有標(biāo)簽平衡特性的未標(biāo)注樣本,這從本質(zhì)上抑制了訓(xùn)練集中高頻次情感標(biāo)簽的增長,并促進(jìn)了低頻次標(biāo)簽的選擇。
本文提出一種平衡情感分布的主動學(xué)習(xí)互補(bǔ)性準(zhǔn)則,從可能存在情感分布高度偏向的未標(biāo)注數(shù)據(jù)集中選擇樣本以擴(kuò)充訓(xùn)練集,并在訓(xùn)練集樣本數(shù)量不斷增長的情況下,保持情感標(biāo)簽分布的平衡。實驗結(jié)果表明:所提出的基于Kullback-Leibler散度互補(bǔ)性準(zhǔn)則可以有效地平衡構(gòu)建訓(xùn)練集的標(biāo)簽分布,限制了潛在的屬于高頻情感的樣本選擇,并發(fā)現(xiàn)潛在的屬于稀少情感的樣本,一定程度上平衡了訓(xùn)練集的情感分布。同時,隨著訓(xùn)練數(shù)據(jù)的增長,文本情感分類結(jié)果也得到了穩(wěn)步提高。雖然所構(gòu)建的訓(xùn)練集情感標(biāo)簽還不能達(dá)到完全平衡,但是為情感標(biāo)簽平衡語料庫的建立提供了新的思路,且部分解決了標(biāo)簽不平衡的問題。下一步的工作將進(jìn)一步優(yōu)化模型,以期抽取到使訓(xùn)練集情感標(biāo)簽更均衡的樣本,從而提高模型在平衡情感標(biāo)簽方面的性能。