胡龍茂
摘 要:消費(fèi)者在購(gòu)物網(wǎng)站上發(fā)表的購(gòu)后評(píng)論既包含對(duì)產(chǎn)品的總體評(píng)價(jià),也包含對(duì)產(chǎn)品某些特征的評(píng)價(jià),如何從評(píng)論文本中挖掘出細(xì)粒度情感信息是消費(fèi)者和企業(yè)亟待解決的問題。從中文產(chǎn)品評(píng)論的特征識(shí)別、觀點(diǎn)識(shí)別和情感詞典構(gòu)建等方面介紹了相關(guān)技術(shù)及研究進(jìn)展,并指出了各自的優(yōu)勢(shì)與不足,最后展望了中文產(chǎn)品評(píng)論細(xì)粒度情感分析未來的研究方向。
關(guān)鍵詞:中文產(chǎn)品評(píng)論;特征識(shí)別;觀點(diǎn)識(shí)別;情感詞典;細(xì)粒度情感
DOIDOI:10.11907/rjdk.171944
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)007-0213-03
0 引言
近年來,我國(guó)電子商務(wù)發(fā)展迅猛,網(wǎng)購(gòu)市場(chǎng)交易規(guī)模不斷增長(zhǎng),消費(fèi)者發(fā)表的購(gòu)后評(píng)論也越來越多。評(píng)論中往往既包含對(duì)產(chǎn)品的總體評(píng)價(jià),也包含對(duì)產(chǎn)品某些特征的評(píng)價(jià)。這些評(píng)價(jià)一方面可以為其他消費(fèi)者選購(gòu)商品提供細(xì)粒度信息,另一方面也為企業(yè)挖掘不同類別消費(fèi)者的偏好提供了可能性。
對(duì)產(chǎn)品屬性的評(píng)價(jià)也稱為細(xì)粒度情感分析,一般包含4個(gè)任務(wù):①產(chǎn)品特征識(shí)別;②與產(chǎn)品特征相關(guān)聯(lián)的觀點(diǎn)抽??;③觀點(diǎn)的極性及強(qiáng)度判斷;④觀點(diǎn)排序[1]。國(guó)外學(xué)者在較早時(shí)候即對(duì)英文評(píng)論的細(xì)粒度情感分析開展了卓有成效的研究[1-2],國(guó)內(nèi)學(xué)者隨之對(duì)中文產(chǎn)品評(píng)論開展了研究,也取得了較多研究成果。由于中英文在分詞、句法等方面的差異,本文主要從中文產(chǎn)品評(píng)論的特征識(shí)別、特征觀點(diǎn)抽取和情感詞典建設(shè)3方面介紹相關(guān)技術(shù)及研究進(jìn)展。
1 產(chǎn)品特征識(shí)別
產(chǎn)品特征描述產(chǎn)品的各個(gè)方面,Popescu等[1]認(rèn)為產(chǎn)品特征可細(xì)分為5個(gè)類別,包括產(chǎn)品的屬性、部件、部件特征、產(chǎn)品的相關(guān)概念和概念特征。如在評(píng)論“電腦不錯(cuò),顯卡也給力,玩游戲電影畫質(zhì)也毫無壓力”中,顯卡是產(chǎn)品部件,游戲是產(chǎn)品概念。
1.1 基于無監(jiān)督方法的產(chǎn)品特征識(shí)別
無監(jiān)督方法主要包括基于頻繁項(xiàng)的方法和基于主題模型的方法。
1.1.1 基于頻繁項(xiàng)的特征識(shí)別
該方法通常將評(píng)論中頻繁出現(xiàn)的名詞和名詞短語應(yīng)用某些過濾規(guī)則抽取出來作為產(chǎn)品特征。Hu和Liu[2]提取出評(píng)論中的所有名詞和名詞短語,利用關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng), 并把頻繁項(xiàng)作為產(chǎn)品特征候選集,最后通過剪枝移除冗余特征;李實(shí)等[3]從中文特點(diǎn)出發(fā),拓展了Hu提出的基于關(guān)聯(lián)規(guī)則的英文評(píng)論產(chǎn)品特征識(shí)別方法,在識(shí)別中文產(chǎn)品特征時(shí),基本達(dá)到了接近于Hu的較好效果;熊壯[4]首先利用名詞序列中的互信息識(shí)別名詞短語,然后利用關(guān)聯(lián)規(guī)則從評(píng)論語料中挖掘文本模式,并利用此文本模式對(duì)名詞和名詞短語進(jìn)行聚類,最后利用從網(wǎng)站上直接獲取的產(chǎn)品品牌和產(chǎn)品型號(hào)作為外部資源,結(jié)合人工歸納的“整體-部件”關(guān)系文本模式進(jìn)行產(chǎn)品特征識(shí)別。與Hu的方法相比,召回率降低了2%,準(zhǔn)確率提高了10%;郝玫和王道平[5]將產(chǎn)品評(píng)論面向供應(yīng)鏈建立產(chǎn)品評(píng)價(jià)概念樹,然后對(duì)此評(píng)價(jià)樹采用關(guān)聯(lián)規(guī)則進(jìn)行頻繁項(xiàng)挖掘,將最小支持度為1%的項(xiàng)轉(zhuǎn)換為客戶關(guān)注特征,查全率達(dá)到了90.5%,比僅采用關(guān)聯(lián)規(guī)則高出18.1%。
徐葉強(qiáng)等[6]首先通過30組詞性規(guī)則確定候選評(píng)價(jià)對(duì)象,然后采用特殊詞過濾、非完整性過濾及非穩(wěn)定性過濾規(guī)則過濾候選評(píng)價(jià)對(duì)象,最后利用評(píng)價(jià)短語共現(xiàn)規(guī)則及評(píng)價(jià)對(duì)象出現(xiàn)頻率進(jìn)行置信度排序,置信度高的直接認(rèn)定為評(píng)價(jià)對(duì)象,置信度低的結(jié)合擴(kuò)充規(guī)則進(jìn)行確認(rèn)。該方法取得了較好效果,F(xiàn)值達(dá)到0.681。
高磊等[7]借鑒分類的思想,在產(chǎn)品對(duì)比評(píng)論集上采用L1-norm 規(guī)則化的線性回歸方法獲取候選特征集,然后通過詞頻和點(diǎn)互信息剪枝得到最終的產(chǎn)品特征,在4種數(shù)據(jù)集上,F(xiàn)平均值達(dá)到了0.74的良好效果;李俊等[8]首先通過模板及頻率剪枝得到候選特征集,然后采用HITS算法對(duì)候選集進(jìn)行排序,從而獲得最終的產(chǎn)品特征,在5種評(píng)論集上進(jìn)行測(cè)試,F(xiàn)值可以達(dá)到77.3%;張建華等[9]首先抽取了評(píng)論中的依存句法庫(kù),進(jìn)一步分析得到名詞和名詞短語主要屬于8種依存關(guān)系,然后構(gòu)造二叉樹并進(jìn)行后序遍歷得到產(chǎn)品特征。實(shí)驗(yàn)結(jié)果表明,該方法取得了較好效果。
基于頻繁項(xiàng)的識(shí)別方式簡(jiǎn)單高效,但易于將不是產(chǎn)品特征的高頻詞識(shí)別為產(chǎn)品特征,同時(shí)容易遺漏低頻特征詞。
1.1.2 基于主題模型的特征識(shí)別
主題模型通常用于發(fā)現(xiàn)文本的話題,由于評(píng)論者通常圍繞產(chǎn)品特征發(fā)表意見,學(xué)者們開始在產(chǎn)品特征的識(shí)別中引入主題模型;馬柏樟和顏志軍[10]將評(píng)論中的名詞和名詞短語過濾掉專有名詞和品牌名詞后,采用LDA模型訓(xùn)練得到候選特征集,然后進(jìn)行同義詞詞林?jǐn)U展和遺漏詞補(bǔ)缺,得到最終的產(chǎn)品特征,該方法在兩個(gè)評(píng)論集上都明顯好于關(guān)聯(lián)規(guī)則方法;佘維軍等[11]首先提取包含名詞、動(dòng)詞或形容詞的分句,通過詞性模板獲得顯式特征并進(jìn)行聚類構(gòu)成特征語料庫(kù),然后構(gòu)建must-link 和 cannot-link約束,采用LDA進(jìn)行主題聚類,獲得產(chǎn)品特征。實(shí)驗(yàn)結(jié)果表明,該方法比僅采用句法分析或LDA的方法更有效。
為達(dá)到較高的準(zhǔn)確率和召回率,基于主題模型的識(shí)別方式需要大量評(píng)論語料。
1.2 基于半監(jiān)督方法的產(chǎn)品特征識(shí)別
郗亞輝[12]給出觀點(diǎn)種子集合,考慮了產(chǎn)品特征和觀點(diǎn)之間的直接及間接句法依存關(guān)系,利用雙向傳播算法迭代抽取特征及觀點(diǎn),引入“整體-部分”模式和“沒有”模式提高特征抽取的召回率,然后將抽取到的特征集和觀點(diǎn)集按照HITS算法排序,最后通過計(jì)算領(lǐng)域相關(guān)度進(jìn)行優(yōu)化,得到產(chǎn)品特征,取得了較好效果;楊曉燕等[13]利用詞性模板集得到候選觀點(diǎn)評(píng)價(jià)對(duì)象,采用上下文相關(guān)的方法計(jì)算候選評(píng)價(jià)對(duì)象分值,將分值高的10個(gè)對(duì)象認(rèn)定為評(píng)價(jià)對(duì)象,然后從包含初始種子集和評(píng)價(jià)對(duì)象的句子中進(jìn)一步抽取詞性模板,采用上下文相關(guān)的方法計(jì)算確定合適的模板,反復(fù)迭代抽取模板和評(píng)價(jià)對(duì)象。實(shí)驗(yàn)結(jié)果表明,和上下文無關(guān)的方法相比,該方法的性能獲得了大幅提高。endprint
基于半監(jiān)督的方式迭代抽取產(chǎn)品特征,不需要很多評(píng)論語料,但確定產(chǎn)品特征的閾值參數(shù)需要手工調(diào)整。
1.3 基于監(jiān)督方法的產(chǎn)品特征識(shí)別
余傳明等[14]針對(duì)餐館評(píng)論數(shù)據(jù),將其分為服務(wù)、口味、環(huán)境、價(jià)格4個(gè)產(chǎn)品屬性進(jìn)行標(biāo)注,利用多個(gè)一對(duì)一支持向量機(jī)進(jìn)行分類,平均F值達(dá)到87.3,大大高于最大熵方法;呂品等[15]將評(píng)價(jià)對(duì)象分為組成部分、功能及性質(zhì),將與之關(guān)聯(lián)的觀點(diǎn)分為觀點(diǎn)內(nèi)容及強(qiáng)度,然后將評(píng)論中的詞用12種標(biāo)記符號(hào)進(jìn)行標(biāo)注,最后利用CRF進(jìn)行挖掘。結(jié)果顯示,挖掘評(píng)價(jià)對(duì)象的F值接近或超過80%。
基于監(jiān)督的特征識(shí)別準(zhǔn)確率和召回率較高,對(duì)于每種訓(xùn)練集都要進(jìn)行人工標(biāo)注,需要消耗較多人力物力。
2 觀點(diǎn)識(shí)別
主要包括基于語義的方法和基于機(jī)器學(xué)習(xí)的方法。
2.1 基于語義的觀點(diǎn)識(shí)別
該方法用形容詞和副詞的褒貶含義計(jì)算產(chǎn)品特征、句子及篇章的情感傾向。史偉等[16]將情感詞匯分為評(píng)價(jià)詞語和情感詞語兩類,在此基礎(chǔ)上建立模糊情感本體,然后從HowNet中抽取70個(gè)程度詞按0.8~1.5的倍數(shù)乘以情感詞匯分值,同時(shí)考慮否定詞的作用,構(gòu)建了從特征層、句子層到文檔層的情感計(jì)算方法。實(shí)驗(yàn)結(jié)果表明,該方法具有較高準(zhǔn)確性;孫春華和劉業(yè)政[17]將評(píng)論中的特征句表示為特征詞、情感詞和修飾詞的三元組,通過上下文識(shí)別特征的等同、等級(jí)和相關(guān)關(guān)系,對(duì)句子和篇章進(jìn)行傾向性合成。該方法和人工標(biāo)注的結(jié)果存在顯著的正相關(guān)關(guān)系;陳炯等[18]從評(píng)價(jià)詞和評(píng)價(jià)對(duì)象的依存句法出發(fā),在評(píng)論語料庫(kù)中抽取出頻率較高的語法模板庫(kù),然后利用語法模板庫(kù)識(shí)別評(píng)價(jià)搭配。實(shí)驗(yàn)結(jié)果表明,該方法是有效的,F(xiàn)值達(dá)到將近70%。
基于語義的觀點(diǎn)識(shí)別簡(jiǎn)單易行,無需對(duì)評(píng)論語料進(jìn)行標(biāo)注,但識(shí)別效果不太好。
2.2 基于機(jī)器學(xué)習(xí)的觀點(diǎn)識(shí)別
張磊等[19]總結(jié)了中文評(píng)論中情感詞與特征詞的5種依存關(guān)系,設(shè)計(jì)了詞的詞性、距離及依存關(guān)系的結(jié)構(gòu)、路徑關(guān)系和距離等特征模板,采用最大熵模型抽取了特征-情感對(duì),該方法的平均F值達(dá)到75.36%;孫曉和唐陳意等[20]引入詞、詞性、語義角色及語法樹父節(jié)點(diǎn)特征,采用CRFs同步抽取情感詞和情感對(duì)象,然后引入語法、詞義等上下文信息,采用最大熵模型進(jìn)行傾向性判別。實(shí)驗(yàn)結(jié)果顯示,在情感對(duì)象-情感詞對(duì)的抽取上,F(xiàn)值達(dá)到0.831,同時(shí)大幅提高了情感分類精度;劉麗等[21]首先采用Tri-train對(duì)評(píng)論語料進(jìn)行半自動(dòng)標(biāo)注,融合詞、詞性和依存句法等多種特征,采用CRF抽取評(píng)價(jià)對(duì)象和評(píng)價(jià)詞,然后對(duì)評(píng)價(jià)對(duì)象進(jìn)行語法樹剪枝,獲得正確的評(píng)價(jià)單元,并形成可視化報(bào)告。該方法在評(píng)價(jià)對(duì)象和正負(fù)面評(píng)價(jià)詞的識(shí)別上綜合準(zhǔn)確率均達(dá)到89%左右;賈聞俊等[22]首先通過詞性模板、依存句法模板抽取出名詞實(shí)體和評(píng)價(jià)短語,然后利用分層狄利克雷過程將名詞實(shí)體聚類成產(chǎn)品屬性,然后將評(píng)價(jià)短語的權(quán)重和情感詞典作為先驗(yàn)知識(shí),采用LDA計(jì)算產(chǎn)品屬性的情感傾向,該模型具有較高的情感傾向準(zhǔn)確率;彭云等[23]提出了情感詞和特征詞的三類must-link和cannot-link語義關(guān)系,將這三類語義關(guān)系進(jìn)行融合,構(gòu)建must-link和cannot-link語義圖,然后將此語義關(guān)系圖作為約束,采用LDA進(jìn)行特征詞、情感詞和特征詞-情感詞對(duì)的提取。實(shí)驗(yàn)結(jié)果表明,該方法比AMC的準(zhǔn)確率均高出約10%。
基于機(jī)器學(xué)習(xí)的方式大多需要對(duì)語料進(jìn)行標(biāo)注,然后利用模型進(jìn)行訓(xùn)練以識(shí)別觀點(diǎn)。該類方法的準(zhǔn)確率較高,但需人工參與程度較高。
3 情感詞典構(gòu)建
目前大部分通用情感詞典是通過人工構(gòu)建的,中文情感詞典主要是知網(wǎng)(HowNet)的情感分析詞語集,其中包含了中英文的評(píng)價(jià)詞和情感詞。由于應(yīng)用領(lǐng)域的差異及新詞的不斷出現(xiàn),基于人工構(gòu)建的情感詞典在實(shí)際使用中效果不太理想,學(xué)者們開始聚焦于情感詞典的自動(dòng)構(gòu)建。
黃高峰等[24]將情感詞細(xì)分為表達(dá)情緒的7類細(xì)粒度情感詞,從知網(wǎng)中篩選出種子詞集,利用知網(wǎng)的義原層次樹設(shè)計(jì)義原相似度計(jì)算方法,計(jì)算情緒語料庫(kù)中抽取的情緒詞和種子詞的相似度,得到了具有權(quán)重的細(xì)粒度情感詞庫(kù);郗亞輝[25]首先利用雙向傳播算法獲取評(píng)論中的特征詞和情感詞,提出了情感詞之間的4種上下文約束關(guān)系,將這種約束結(jié)合情感詞種子融入標(biāo)簽傳播算法中,計(jì)算出情感詞的褒貶,最后利用上下文計(jì)算情感沖突,以識(shí)別領(lǐng)域相關(guān)的情感詞。實(shí)驗(yàn)結(jié)果表明,該方法能有效提高情感傾向計(jì)算的效果。
4 結(jié)語
本文對(duì)中文產(chǎn)品評(píng)論細(xì)粒度情感分析的3方面研究進(jìn)行了綜述,指出了各自的優(yōu)勢(shì)和不足。隨著我國(guó)電子商務(wù)的發(fā)展,評(píng)論的細(xì)粒度情感分析日益成為研究熱點(diǎn),未來需要深入研究的內(nèi)容主要有:①基于監(jiān)督的方法識(shí)別產(chǎn)品特征及觀點(diǎn)的準(zhǔn)確率較高,但需要對(duì)大量語料進(jìn)行標(biāo)注,而少量標(biāo)注或無需標(biāo)注的方式識(shí)別產(chǎn)品特征及觀點(diǎn)的準(zhǔn)確率較低,采用半自動(dòng)方式標(biāo)注語料有助于節(jié)省人力,且達(dá)到較好的識(shí)別效果;②微博或?qū)з?gòu)網(wǎng)站(如it168)上也發(fā)表了很多產(chǎn)品意見,由于這些評(píng)論者和購(gòu)物網(wǎng)站的賣家沒有直接聯(lián)系,發(fā)表的意見會(huì)更客觀。將這些產(chǎn)品評(píng)論和購(gòu)物網(wǎng)站的產(chǎn)品評(píng)論結(jié)合起來,有助于提高觀點(diǎn)識(shí)別的準(zhǔn)確率;③現(xiàn)有的評(píng)論語料庫(kù)很少,目前舉辦了八屆的中文傾向性分析評(píng)測(cè)(Chinese Opinion Analysis Evaluation, COAE)提供的測(cè)評(píng)語料中雖不少涉及了產(chǎn)品評(píng)論,但未進(jìn)行細(xì)致的分類,也沒有標(biāo)注數(shù)據(jù),無法滿足全方位的細(xì)粒度情感分析。研究要素級(jí)(產(chǎn)品特征及觀點(diǎn))的標(biāo)注規(guī)范,收集大量評(píng)論數(shù)據(jù)并設(shè)置“篇章─句子─要素級(jí)”的標(biāo)注語料將有助于細(xì)粒度情感分析的快速發(fā)展。
參考文獻(xiàn):
[1]POPESCU A-M, ETZIONI O.Extracting product features and opinions from review[C].Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA:Association for Computational Linguistics,2005.endprint
[2]HU M, LIU B. Mining opinionfeatures in customer reviews[C].Proceedings of the 19th National Conference on Artifical Intelligence. AAAI Press, 2004:755-760.
[3]李實(shí),葉強(qiáng),李一軍,等.中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報(bào),2009(2):142-152.
[4]熊壯.基于無監(jiān)督學(xué)習(xí)的產(chǎn)品特征抽取[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(10):160-163.
[5]郝玫,王道平.面向供應(yīng)鏈的產(chǎn)品評(píng)論中客戶關(guān)注特征挖掘方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(4):65-70.
[6]徐葉強(qiáng),朱艷輝,王文華,等.中文產(chǎn)品評(píng)論中評(píng)價(jià)對(duì)象的識(shí)別研究[J].計(jì)算機(jī)工程,2012,38(20):140-143.
[7]高磊,戴新宇,黃書劍,等.基于特征選擇和點(diǎn)互信息剪枝的產(chǎn)品屬性提取方法[J].模式識(shí)別與人工智能,2015(2):187-192.
[8]李俊,陳黎,王亞強(qiáng),等.面向電子商務(wù)網(wǎng)站的產(chǎn)品屬性提取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(11):2477-2481.
[9]張建華,翁鳴,李曉樂,等.基于依存句法和二叉樹模型的評(píng)價(jià)對(duì)象抽取[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(2):52-55,60.
[10]馬柏樟,顏志軍.基于潛在狄利特雷分布模型的網(wǎng)絡(luò)評(píng)論產(chǎn)品特征抽取方法[J].計(jì)算機(jī)集成制造系統(tǒng),2014,20(1):96-103.
[11]佘維軍,劉子平,楊衛(wèi)芳,等.基于改進(jìn)LDA主題模型的產(chǎn)品特征抽取[J].計(jì)算機(jī)與現(xiàn)代化,2016(11):1-6,57.
[12]郗亞輝.產(chǎn)品評(píng)論特征及觀點(diǎn)抽取研究[J].情報(bào)學(xué)報(bào),2014,33(3):326-336.
[13]楊曉燕,徐戈,廖祥文,等.上下文相關(guān)的雙向自舉觀點(diǎn)評(píng)價(jià)對(duì)象抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2015(15):143-147,178.
[14]余傳明,陳雷,張小青,等.基于支持向量機(jī)的產(chǎn)品屬性識(shí)別研究[J].情報(bào)學(xué)報(bào),2010,29(6):1038-1044.
[15]呂品,鐘珞,蔡敦波,等.基于CRF的中文評(píng)論有效性挖掘產(chǎn)品特征[J].計(jì)算機(jī)工程與科學(xué),2014,36(2):359-366.
[16]史偉,王洪偉,何紹義,等.基于語義的中文在線評(píng)論情感分析[J].情報(bào)學(xué)報(bào),2013,32(8):860-867.
[17]孫春華,劉業(yè)政.基于產(chǎn)品特征詞關(guān)系識(shí)別的評(píng)論傾向性合成方法[J].情報(bào)學(xué)報(bào),2013,32(8):844-852.
[18]陳炯,張虎,曹付元,等.面向中文客戶評(píng)論的評(píng)價(jià)搭配識(shí)別研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(3):1073-1077.
[19]張磊,李珊,彭艦,等.基于依存關(guān)系和最大熵的特征—情感對(duì)分類[J].電子科技大學(xué)學(xué)報(bào),2014(3):420-425.
[20]孫曉,唐陳意.基于層疊模型細(xì)粒度情感要素抽取及傾向分析[J].模式識(shí)別與人工智能,2015(6):513-520.
[21]劉麗,王永恒,韋航,等.面向產(chǎn)品評(píng)論的細(xì)粒度情感分析[J].計(jì)算機(jī)應(yīng)用,2015,35(12):3481-3486,3505.
[22]賈聞俊,張暉,楊春明,等.面向產(chǎn)品屬性的用戶情感模型[J].計(jì)算機(jī)應(yīng)用,2016,36(1):175-180.
[23]彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報(bào),2017,28(3):676-693.
[24]黃高峰,周學(xué)廣,李娟,等.具有權(quán)重因子的細(xì)粒度情感詞庫(kù)構(gòu)建方法[J].計(jì)算機(jī)工程,2014(11):211-214.
[25]郗亞輝.產(chǎn)品評(píng)論中領(lǐng)域情感詞典的構(gòu)建[J].中文信息學(xué)報(bào),2016,30(5):136-144.endprint