聞 彬,饒 彬,趙君喆,焦翠珍,戴文華
(湖北科技學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 咸寧 437100)
融合直推式學(xué)習(xí)和語義理解的詞語傾向性識別
聞 彬,饒 彬,趙君喆,焦翠珍,戴文華
(湖北科技學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 咸寧 437100)
目前詞語情感傾向性識別研究主要分為機(jī)器學(xué)習(xí)和語義理解,機(jī)器學(xué)習(xí)不能很好地識別通用領(lǐng)域詞語,語義理解又存在準(zhǔn)確率和召回率不夠高的問題,因此文中提出了一種融合直推式學(xué)習(xí)和語義理解的詞語傾向性識別方法。首先對HowNet知識庫體系進(jìn)行改進(jìn),在已有的四種義原的基礎(chǔ)上,提出第五義原—情感義原;然后將第五義原手工融入到HowNet知識庫中,再在此基礎(chǔ)上提出詞語情感相似度計(jì)算方法計(jì)算詞語的情感值;最后將該方法融合直推式學(xué)習(xí)以判定詞語情感傾向性。通過實(shí)驗(yàn)結(jié)果表明,與支持向量機(jī)和原語義理解方法相比,該方法在識別情感詞上取得了較好的效果。
詞語傾向性識別;機(jī)器學(xué)習(xí);語義理解;意見挖掘;情感義原;HowNet
由于越來越多用戶樂于在互聯(lián)網(wǎng)上分享自己的觀點(diǎn)和意見,使得互聯(lián)網(wǎng)中這類信息迅速膨脹,僅靠傳統(tǒng)的人工方法難以有效及時(shí)地獲取網(wǎng)上的海量信息,更難以提供準(zhǔn)確的分析和處理,因此,迫切需要相關(guān)的自然語言處理技術(shù)來處理這些相關(guān)的評價(jià)信息。意見挖掘技術(shù)在此背景下應(yīng)運(yùn)而生,并引起了廣泛的關(guān)注。
意見挖掘的目的是發(fā)現(xiàn)文本中作者所持有的主觀態(tài)度,為產(chǎn)品推薦、輿情監(jiān)控和觀點(diǎn)抽取等提供支持?,F(xiàn)有的意見挖掘技術(shù)主要分為基于語義理解的和基于機(jī)器學(xué)習(xí)的。其中基于機(jī)器學(xué)習(xí)的方法典型的有:樸素貝葉斯(Na?ve Bayes,NB)、支持向量機(jī)(Support Vector Machine,SVM)、最大信息熵(Maximum Entropy,ME)等。
機(jī)器學(xué)習(xí)方法在處理特定領(lǐng)域語料時(shí)有著較高的準(zhǔn)確率,但是分類器設(shè)計(jì)復(fù)雜,訓(xùn)練語料標(biāo)注工作繁瑣,同時(shí),當(dāng)涉及到通用語料時(shí),機(jī)器學(xué)習(xí)往往不能得到較好的效果。而基于語義理解的方法則可以解決這類問題。語義理解的方法從情感詞出發(fā),構(gòu)建文本的情感模型,從而判斷出文本的情感傾向性,因此,如何識別情感詞是語義理解方法的核心。
目前國內(nèi)外研究詞語傾向性的方法主要分為兩種—基于統(tǒng)計(jì)學(xué)的方法和基于語義理解的方法?;诮y(tǒng)計(jì)學(xué)的方法主要是利用機(jī)器學(xué)習(xí)來獲取詞語的情感傾向性。
在英文方面,Hatzivassiloglou和McKeown[1]使用監(jiān)督學(xué)習(xí)的方法對詞語進(jìn)行情感語義傾向性判別;Turney等[2]利用點(diǎn)互信息(PMI-IR)方法搜索引擎的“NEAR”操作來計(jì)算待定詞與具有強(qiáng)烈傾向性的種子詞集合的關(guān)聯(lián)程度;Yu等[3]挑選出若干極性較強(qiáng)的形容詞(情感詞)構(gòu)建一個(gè)種子詞集合,通過計(jì)算新詞和種子詞的共現(xiàn)概率來判斷新詞的語義傾向性。在文本情感分類方面,Pang等[4]利用人工標(biāo)注語料,分別使用樸素貝葉斯、最大熵和支持向量機(jī)三種分類模型對影視文本進(jìn)行分類,Sinno Jialin Pan[5]、Xavier Glorot[6]和Blitzer[7]等眾多學(xué)者利用領(lǐng)域適應(yīng)算法分析文本的情感傾向性;Wan[8]利用已有的英文情感語料庫完成中文文本的情感分類。基于語義理解的方法主要有基于現(xiàn)存的本體知識庫,例如中文的HowNet和英文的Wordnet。在英文處理方面,Jaap等[9]利用WordNet的同義詞關(guān)系確定形容詞的褒貶;Baccianella等[10]基于WordNet構(gòu)建了認(rèn)可度最高的SentiWordNet;Maks和Vossen[11]基于詞典模型進(jìn)行情感分析和意見挖掘;在中文處理方面,具有代表性的是朱嫣嵐等[12]采用基于HowNet的語義相似度和語義相關(guān)場兩種方法計(jì)算詞語的傾向性。同時(shí)國內(nèi)很多學(xué)者[13-14]研究建立情感詞典來處理觀點(diǎn)挖掘等問題,但是到目前為止還沒有一部權(quán)威的情感詞典可供借鑒。
因此文中首先在HowNet知識庫定義的四個(gè)義原的基礎(chǔ)上,人工添加HowNet第五義原—情感義原[15],然后利用改進(jìn)的HowNet知識庫計(jì)算詞語之間的情感相似度,再融合直推式學(xué)習(xí)判定情感詞極性。
2.1 基于HowNet的情感詞判別方法
HowNet語義相似度的方法反映詞語語義的相似程度,也即兩個(gè)詞語在不同上下文環(huán)境中在詞語替換的情況下不改變文本句法語義結(jié)構(gòu)的程度。因此,利用詞語的語義相似度概念計(jì)算詞語的情感值。
HowNet中若詞語有多種表達(dá)含義,則詞語有多個(gè)義項(xiàng),每個(gè)義項(xiàng)又由多個(gè)義原組成。那么詞語的語義相似度計(jì)算實(shí)際上是義原的相似度計(jì)算[16]。
對于兩個(gè)詞語Word1和Word2,假設(shè)詞語Word1有n個(gè)義項(xiàng)Y1,Y2,…,Yn,詞語Word2有l(wèi)個(gè)義項(xiàng)Z1,Z2,…,Zl,則詞語的相似度計(jì)算如式(1)所示:
(1)
將詞語相似度的計(jì)算轉(zhuǎn)換成概念之間的相似度計(jì)算。
2.2 HowNet義原相似度計(jì)算
在HowNet中用義原表示詞語概念,所以概念相似度計(jì)算就是義原相似度計(jì)算。
由于所有義原構(gòu)成了一個(gè)樹狀義原層次體系,因此可以使用公式(2)計(jì)算兩個(gè)義原p1,p2之間的語義距離。
(2)
其中,d是p1和p2在樹狀義原層次體系中的路徑距離;α是一個(gè)可調(diào)節(jié)的參數(shù)。
2.3 概念情感相似度計(jì)算
在HowNet知識庫中概念分成四個(gè)義原:“第一基本義原”、“其他基本義原”、“關(guān)系義原”和“符號義原”。但是HowNet中的這四種義原的相似度計(jì)算沒有考慮詞語的情感語義。詞語概念S1,S2之間的相似度計(jì)算如式(3)所示。
(3)
文中在計(jì)算情感相似度時(shí)引入了情感義原作為詞語概念的第五義原,并人工挑選HowNet中的情感詞加入第五義原:“desired/良”、“undesired/莠”。
(4)
(5)
2.4 基于概念情感相似度的詞語情感語義值
計(jì)算出詞語概念情感相似度之后,結(jié)合訓(xùn)練集對測試集中的詞語計(jì)算情感值。計(jì)算方法如式(6)。
(6)
其中,Sentiment(word)表示測試集中詞語word的情感值;Sim(word,Set_Pi)表示詞語word與褒義訓(xùn)練集Set_Pi的相似性;Sim(word,Set_Nj)表示詞語word與貶義訓(xùn)練集Set_Nj的相似性。
2.5 直推式學(xué)習(xí)
通過上面的基于HowNet的情感詞計(jì)算方法,可以得到每個(gè)詞語的情感值。文獻(xiàn)[15]中實(shí)驗(yàn)證明,該方法可以取得較好的實(shí)驗(yàn)效果,因此在此方法的基礎(chǔ)上進(jìn)行進(jìn)一步研究,將直推式方法融入其中。將每次判定出來的情感詞加入到訓(xùn)練集中,如果判定該詞語為褒義情感詞,則加入到褒義測試集中;如果判定為貶義情感詞,則加入到貶義訓(xùn)練集中;若屬于中性詞,則放回待測測試集中。然后用新的訓(xùn)練集和測試集重復(fù)該工作,直到所有詞的極性不再改變?yōu)橹?,顯而易見,該過程必然是收斂的,直推式算法詳細(xì)過程如下所示。
Step1:建立訓(xùn)練集和測試集;
Step2:對測試詞集利用文中提出的方法計(jì)算詞語情感值,并判定詞語的情感傾向性;
Step3:若待判定詞語判定為正面情感詞,則從測試集中移動(dòng)到正面訓(xùn)練集中;若為負(fù)面情感詞,則從測試集移動(dòng)到負(fù)面訓(xùn)練集中;若為中性詞,則將該詞放回測試集中等待下一次判定;
Step4:重復(fù)Step2-3直到測試集和訓(xùn)練集中的詞語不再改變。
首先構(gòu)造出初始訓(xùn)練集和測試集。為了達(dá)到更好的實(shí)驗(yàn)效果,盡量選擇極性較強(qiáng)的中文詞語作為訓(xùn)練集,具體訓(xùn)練集組成如表1所示,其中褒義貶義各包含20個(gè)情感詞。
表1 訓(xùn)練集
為了能夠達(dá)到較好的通用性,文中從新浪、網(wǎng)易、百度三大平臺(tái)下載新聞?wù)Z料12 854篇,然后利用中科院分詞工具ICTCLAS對文本進(jìn)行分詞處理;再根據(jù)停用詞表刪除停用詞;由于詞語中只有名詞、形容詞和動(dòng)詞才存在情感,因此抽取出所有的名詞、形容詞和動(dòng)詞,最后進(jìn)行人工調(diào)整得到測試集詞語共6 961個(gè),其中褒義情感詞1 989,貶義情感詞2 056,中性詞2 916。
對于知網(wǎng)知識庫中的詞語,人工標(biāo)注“desired/良”和“undesired/莠”,標(biāo)注數(shù)據(jù)如表2所示。
表2 良莠標(biāo)注情況
對于2.3中的參數(shù),文獻(xiàn)[15]中對θ1,θ2設(shè)置進(jìn)行了實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)當(dāng)設(shè)置為0.7和0.3時(shí)可以達(dá)到最好的實(shí)驗(yàn)效果。在HowNet中對參數(shù)β1,β2,β3,β4分別設(shè)置為:0.5,0.3,0.15,0.05。對2.4中的計(jì)算詞語情感值的閾值,文獻(xiàn)[15]也進(jìn)行了講解,并將其設(shè)置如式(7)所示。
(7)
實(shí)驗(yàn)利用三種方法進(jìn)行驗(yàn)證:支持向量機(jī)(SupportVectorMachine,SVM)、原語義理解方法(SemanticComprehension,SC)以及融合直推式學(xué)習(xí)和語義理解(TransductiveLearning&SemanticComprehension,TL&SC)。利用準(zhǔn)確率(Precision)、召回率(Recall)和F(F-measure)值作為判定準(zhǔn)則。其中SVM方法中將褒義詞、貶義詞和中性詞平均分成三部分,然后以其中一部分作為訓(xùn)練集,另外兩部分作為測試集,依次替換三部分角色。基于篇幅限制,表3列出的SVM結(jié)果是循環(huán)三次后所取得的平均值。SC和TL&SC方法的實(shí)驗(yàn)結(jié)果見表4和表5。
表3 SVM實(shí)驗(yàn)結(jié)果
表4 SC實(shí)驗(yàn)結(jié)果
表5 TL&SC實(shí)驗(yàn)結(jié)果
三個(gè)實(shí)驗(yàn)數(shù)據(jù)對比如圖1所示。
圖1 三種方法結(jié)果比較
從圖中可以很容易看出,在處理通用文本時(shí),SVM方法得分都不是很高;當(dāng)使用文中提出的SC方法時(shí),準(zhǔn)確率有明顯提升,但是不足的是召回率不能達(dá)到較高效果;最后使用TL&SC時(shí),可以看到,不管是準(zhǔn)確率、召回率還是F值,相對于其他兩種方法,都達(dá)到了較為理想的效果。
文中所提方法利用了HowNet知識庫計(jì)算詞語的情感相似度,然后根據(jù)計(jì)算得到的詞語情感值結(jié)合閾值來判斷詞語的情感傾向性,再將該方法融入直推式學(xué)習(xí)中。文中針對支持向量機(jī)、原語義理解方法和融合語義理解和直推式學(xué)習(xí)三種方法分別進(jìn)行了實(shí)驗(yàn),結(jié)果表明,針對通用領(lǐng)域獲取的詞語,第三種方法不論在準(zhǔn)確率、召回率還是在F值上都有明顯的性能提升。
當(dāng)然,文中方法也存在不足之處:由于針對單個(gè)詞語判定情感傾向性,這樣勢必忽略了特定語義環(huán)境下詞語的情感傾向性,如何獲取這些情感詞是未來的研究方向之一;同時(shí)文中利用ICTCLAS進(jìn)行分詞、詞性標(biāo)注處理,這樣會(huì)忽略掉許多網(wǎng)絡(luò)(非常態(tài))用語,而這些網(wǎng)絡(luò)用語卻表達(dá)了極強(qiáng)的極性,如果能結(jié)合網(wǎng)絡(luò)環(huán)境判定出這些詞語也是未來的重要研究方向。
[1]HatzivassiloglouV,McKeownKR.Predictingthesemanticorientationofadjectives[C]//Proceedingsofthe35thannualmeetingofassociationforcomputationallinguisticsandthe8thconferenceoftheEuropeanchapteroftheACL.[s.l.]:[s.n.],1997:174-181.
[2]PeterT,MichaelL.Measuringpraiseandcriticism:inferenceofsemanticorientationfromassociation[J].ACMTransactionsonInformationSystems,2003,21(4):315-346.
[3]YuHong,HatzivassiloglouV.Towardsansweringopinionqu-estions:separatingfactsfromopinionsandidentifyingthepo-
larityofopinionsentences[C]//ProcofEMNLP-03.Sapporo,Japan:[s.n.],2003:129-136.
[4]PangBo,LeeL,VaithyanathanS.Thumbsup?Sentimentclassificationusingmachinelearningtechniques[C]//Proceedingsofthe2002conferenceonempiricalmethodsinnaturallanguageprocessing.Philadelphia:AssociationforComputationLinguistics,2002:79-86.
[5]PanSJ,NiXiaochuan,SunJiantao,etal.Cross-domainsentimentclassificationviaspectralfeaturealignment[C]//Proceedingsofthe19thinternationalconferenceonWorldWideWeb.[s.l.]:[s.n.],2010:751-760.
[6]GlorotX,BordesA,BengioY.Domainadaptationforlarge-scalesentimentclassification:adeeplearningapproach[C]//Procof28thinternationalconferenceonmachinelearning.Bellevue,WA,USA:[s.n.],2011.
[7]BlitzerJ,DredzeM,PereiraF.Biographies,bollywood,boomboxesandblenders:domainadaptationforsentimentclassification[C]//ProcofACL.[s.l.]:[s.n.],2007:187-205.
[8]WanXiaojun.Co-trainingforcross-lingualsentimentclassification[C]//Proceedingsofthe47thannualmeetingoftheACLandthe4thIJCNLPoftheAFNLP.[s.l.]:[s.n.],2009:235-243.
[9]KampsJ,MarxM,MokkenRJ,etal.UsingWordNettomeasuresemanticorientationofadjectives[C]//Proceedingsofthe4thinternationalconferenceonlanguageresourcesandevaluation.Lisbon,Portugal:[s.n.],2004:1115-1118.
[10]BaccianellaS,EsuliA,SebastianiF.SentiWordNet3.0:anenhancedlexicalresourceforsentimentanalysisandopinionmining[C]//Proceedingsofthe7thconferenceoninternationallanguageresourcesandevaluation.Valletta,Malta:[s.n.],2010:2200-2204.
[11]MaksI,VossenP.Alexiconmodelfordeepsentimentanalysisandopinionminingapplications[J].DecisionSupportSystems,2012,53(4):680-688.
[12] 朱嫣嵐,閔 錦,周雅倩,等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.
[13] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.
[14]WenBin,DaiWenhua,ZhaoJunzhe.Sentencesentimentalclassificationbasedonsemanticcomprehension[C]//Procoffifthinternationalsymposiumoncomputationalintelligenceanddesign.[s.l.]:[s.n.],2012:458-461.
[15] 聞 彬,何婷婷,羅 樂,等.基于語義理解的文本情感分類方法研究[J].計(jì)算機(jī)科學(xué),2010,37(6):261-264.
[16] 劉 群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會(huì).臺(tái)北:出版者不詳,2002.
Identifying of Word Sentiment Orientation of Transductive Learning and Semantic Comprehension
WEN Bin,RAO Bin,ZHAO Jun-zhe,JIAO Cui-zhen,DAI Wen-hua
(College of Computer Science and Technology,Hubei University of Science and Technology,Xianning 437100,China)
At present,the research on word sentiment orientation identification is mainly divided into machine learning and semantic comprehension,but machine learning cannot handle general field words effectively,semantic comprehension also cannot get high scores at precision and recall,therefore,a new fusion method between transductive learning and semantic comprehension for judging word polarity was put forward in this paper.Firstly the HowNet knowledge base system is improved,on the basis of four primitive,the fifth primitive—sentimental primitive was proposed,which was integrated into HowNet manually,on the basis of this,then a new word sentimental similarity calculation method was proposed to compute word’s sentimental value.At last,combine this way with transductive learning for identifying word’s sentimental orientation.The performance of experiment shows that compared with SVM or traditional semantic comprehension,it can get better results.
word sentiment orientation;machine learning;semantic comprehension;opinion mining;sentimental primitive;HowNet
2015-04-20
2015-07-22
時(shí)間:2016-01-04
國家自然科學(xué)基金面上項(xiàng)目(61373108);湖北省教育廳科研項(xiàng)目(Q20112809,B20082803);湖北省教育廳人文社會(huì)科學(xué)研究項(xiàng)目(13g389)
聞 彬(1982-),男,講師,碩士,研究方向?yàn)樽匀徽Z言處理、機(jī)器學(xué)習(xí)。
http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1453.016.html
TP391.1
A
1673-629X(2016)01-0074-04
10.3969/j.issn.1673-629X.2016.01.015