產(chǎn)品評(píng)論中領(lǐng)域情感詞典的構(gòu)建

2016-05-04 02:54:40郗亞輝

中文信息學(xué)報(bào) 2016年5期

關(guān)鍵詞：語(yǔ)料詞典約束

郗亞輝

(河北大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院，河北保定 071002)

產(chǎn)品評(píng)論中領(lǐng)域情感詞典的構(gòu)建

郗亞輝

(河北大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院，河北保定 071002)

領(lǐng)域情感詞典是情感分析最重要的基礎(chǔ)。由于產(chǎn)品評(píng)論的數(shù)量巨大、領(lǐng)域眾多，如何自動(dòng)構(gòu)建領(lǐng)域情感詞典已經(jīng)成為近年來(lái)的一個(gè)研究熱點(diǎn)。該文提出了一個(gè)兩階段的領(lǐng)域情感詞典構(gòu)建算法。第一階段，利用情感詞間的點(diǎn)互信息和上下文約束，使用基于約束的標(biāo)簽傳播算法構(gòu)造基本情感詞典；第二階段，根據(jù)情感沖突的頻率來(lái)識(shí)別領(lǐng)域相關(guān)情感詞，并根據(jù)其上下文約束以及修飾的特征完善領(lǐng)域情感詞典。實(shí)驗(yàn)結(jié)果表明，該方法在實(shí)際產(chǎn)品評(píng)論數(shù)據(jù)集上取得了較好的效果。

情感分析；領(lǐng)域情感詞典；上下文約束；基于約束的標(biāo)簽傳播算法

1 引言

飛速發(fā)展的Web技術(shù)及電子商務(wù)正在極大改變著人們的工作和生活方式，越來(lái)越多的人習(xí)慣于網(wǎng)上購(gòu)買商品，網(wǎng)絡(luò)也成為各種產(chǎn)品的重要銷售渠道。為了提高消費(fèi)者的購(gòu)物體驗(yàn)，電子商務(wù)網(wǎng)站大都允許消費(fèi)者對(duì)其購(gòu)買的產(chǎn)品發(fā)表評(píng)論。在這些產(chǎn)品評(píng)論中，包含了大量的消費(fèi)者對(duì)產(chǎn)品各方面特征的評(píng)價(jià)觀點(diǎn)信息。這些信息不僅可以幫助消費(fèi)者全面、綜合地了解其他消費(fèi)者對(duì)產(chǎn)品的評(píng)價(jià)，從而挑選出更適合自己的產(chǎn)品；還可以幫助生產(chǎn)廠商通過(guò)評(píng)論來(lái)了解自己產(chǎn)品的優(yōu)點(diǎn)以及不足，從而改進(jìn)產(chǎn)品的設(shè)計(jì)、獲得競(jìng)爭(zhēng)優(yōu)勢(shì)[1-2]。

網(wǎng)絡(luò)上存在著大量的產(chǎn)品評(píng)論，有些熱門商品可能包含成千上萬(wàn)的評(píng)論。巨大的評(píng)論數(shù)量使得消費(fèi)者和生產(chǎn)廠商很難通過(guò)人工對(duì)產(chǎn)品評(píng)論進(jìn)行分析和處理，獲取產(chǎn)品評(píng)論中包含的大量有用信息。因此，以獲取產(chǎn)品評(píng)論中有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù)——“評(píng)論挖掘”，吸引了越來(lái)越多學(xué)者的關(guān)注。

評(píng)論觀點(diǎn)的情感分析是產(chǎn)品評(píng)論挖掘的基本任務(wù)之一[1]，其目標(biāo)是準(zhǔn)確識(shí)別出消費(fèi)者對(duì)產(chǎn)品不同特征所發(fā)表評(píng)價(jià)觀點(diǎn)的情感傾向——褒義或貶義。情感詞或詞組是人們表達(dá)觀點(diǎn)的最基本的語(yǔ)言單元，情感詞典則是情感分析的基礎(chǔ)。近年來(lái)，很多學(xué)者已經(jīng)建立了一些情感詞典，例如，General Inquirer[3]，Liu提供的情感詞典[1]，SentiWordNet[4]，知網(wǎng)的情感分析用詞語(yǔ)集[5]，臺(tái)灣大學(xué)的NTU 情感詞典[6]以及大連理工大學(xué)的情感詞匯本體庫(kù)[7]。這些詞典主要是以手工或半自動(dòng)的方式編輯生產(chǎn)，其領(lǐng)域適應(yīng)性受到限制。

有些情感詞在不同領(lǐng)域中具有不同的情感傾向，甚至在同一領(lǐng)域中當(dāng)修飾不同產(chǎn)品特征時(shí)也具有不同的情感傾向。例如，在手機(jī)評(píng)論中，“高”修飾“價(jià)格”時(shí)表示褒義，而修飾“屏幕分辨率”時(shí)表示貶義。因此，使用通用的情感詞典無(wú)法準(zhǔn)確獲取這些領(lǐng)域相關(guān)情感詞的情感傾向。由于產(chǎn)品評(píng)論的數(shù)量巨大、領(lǐng)域眾多，不可能依靠領(lǐng)域?qū)＜胰斯そ㈩I(lǐng)域情感詞典。所以如何自動(dòng)或半自動(dòng)地建立領(lǐng)域情感詞典已經(jīng)成為情感分析的重要工作。

本文的主要工作是討論如何利用情感詞的共現(xiàn)信息以及情感詞上下文的先驗(yàn)知識(shí)來(lái)自動(dòng)建立領(lǐng)域情感詞典。我們的工作基于以下兩個(gè)假設(shè)： (1)在產(chǎn)品評(píng)論中，情感詞之間存在一些固有的先驗(yàn)知識(shí)。例如，并列關(guān)系的情感詞往往具有相同的情感傾向，而轉(zhuǎn)折關(guān)系的情感詞往往具有相反的情感傾向； (2)領(lǐng)域情感詞典中的情感詞可以分為領(lǐng)域無(wú)關(guān)和領(lǐng)域相關(guān)的兩部分。領(lǐng)域無(wú)關(guān)的情感詞在不同領(lǐng)域中保持相同的情感傾向，而領(lǐng)域相關(guān)的情感詞在不同領(lǐng)域中可能具有不同的情感傾向。依靠一些先驗(yàn)知識(shí)，可以通過(guò)上下文中領(lǐng)域無(wú)關(guān)情感詞的情感傾向來(lái)推測(cè)領(lǐng)域相關(guān)情感詞的情感傾向。例如，在句子“屏幕大，外觀漂亮”中，雖然我們不知道“大”的情感傾向，但我們可以通過(guò)“漂亮”來(lái)推測(cè)“大”的情感傾向。

基于上面的假設(shè)，本文在文獻(xiàn)[8]的基礎(chǔ)上提出了一個(gè)兩階段的領(lǐng)域情感詞典構(gòu)造方法。第一階段，利用情感詞間的共現(xiàn)信息和上下文約束關(guān)系，使用基于約束的標(biāo)簽傳播算法構(gòu)造基本情感詞典，為每一個(gè)情感詞分配固定的情感傾向；第二階段，識(shí)別領(lǐng)域相關(guān)情感詞，并根據(jù)其在語(yǔ)料中的上下文信息對(duì)情感詞修飾的不同特征分配不同的情感傾向。

2 相關(guān)研究

近年來(lái)，情感詞典的構(gòu)建已經(jīng)成為很多學(xué)者關(guān)注的問(wèn)題。情感詞典構(gòu)建的方式主要分為兩類：基于詞典資源的方法和基于語(yǔ)料庫(kù)的方法。

2.1 基于詞典資源的方法

基于詞典資源的方法主要利用現(xiàn)有的一些詞典資源(例如，英文的WordNet、GI，中文的HowNet、同義詞詞林)中詞之間的同義詞、反義詞等聯(lián)系以及詞的注釋來(lái)建立情感詞典。

Hu和Liu[9]人工選取了一些褒義和貶義的形容詞作為種子集，并利用WordNet的同義詞和反義詞聯(lián)系對(duì)種子集進(jìn)行擴(kuò)展建立情感詞典。Kamps等[10]利用WordNet的同義詞集構(gòu)建形容詞之間的聯(lián)系，如果兩個(gè)形容詞是同義詞則在它們之間建立一條邊，從而構(gòu)成了一張圖。情感詞的傾向由其在圖中與“good”和“bad”的最短距離決定。Rao和Ravichandran[11]利用WordNet的同義詞、上位詞聯(lián)系來(lái)構(gòu)建詞之間的邊，從而形成了一張圖。同時(shí)，給出了一個(gè)包含褒義和貶義詞的訓(xùn)練集，使用基于圖的半監(jiān)督學(xué)習(xí)算法mincuts、randomized mincuts和label propagation將圖中的點(diǎn)劃分為褒義和貶義兩類。Esuli等[4,12]人工建立了褒義詞、貶義詞、中性詞種子集，利用WordNet的同義詞聯(lián)系來(lái)擴(kuò)展種子集，然后利用擴(kuò)展結(jié)果同義詞集的注釋文本作為訓(xùn)練集建立分類器來(lái)判斷詞的情感傾向。

朱嫣嵐等[13]選擇了k對(duì)褒義、貶義的基準(zhǔn)詞，利用HowNet的語(yǔ)義相似度和語(yǔ)義相關(guān)場(chǎng)兩種計(jì)算方法，計(jì)算一個(gè)詞與褒義和貶義基準(zhǔn)詞集的相似度的差值作為該詞的情感傾向分值。路斌等[14]利用同義詞詞林中的同義詞詞群，根據(jù)褒貶義種子詞進(jìn)行擴(kuò)展，從而建立情感詞典。徐琳宏等[7]結(jié)合現(xiàn)有的一些詞典、語(yǔ)義網(wǎng)絡(luò)資源以及情感語(yǔ)料，采用手工情感分類和自動(dòng)獲取強(qiáng)度兩種方法構(gòu)建了情感詞匯本體。周詠梅等[15]首先利用HowNet獲取中文詞語(yǔ)對(duì)應(yīng)的各項(xiàng)英文義元；其次使用SentiWordNet數(shù)據(jù)庫(kù)檢索每個(gè)英文義元所處的各個(gè)同義詞集合；接著計(jì)算這些同義詞集合的平均情感強(qiáng)度值得到每個(gè)義元的情感傾向性強(qiáng)度值；最后計(jì)算各項(xiàng)義元的平均情感強(qiáng)度值，即得到中文詞語(yǔ)的情感傾向強(qiáng)度值。

2.2 基于語(yǔ)料庫(kù)的方法

基于語(yǔ)料庫(kù)的方法假設(shè)在語(yǔ)料庫(kù)中共同出現(xiàn)的情感詞擁有相同的情感傾向，利用語(yǔ)料中的共現(xiàn)信息、上下文信息等計(jì)算情感詞的情感傾向。

Turney[16]利用一些特定的語(yǔ)法模式抽取形容詞和副詞作為候選情感詞，然后計(jì)算情感詞與“excellent”和“poor”之間的點(diǎn)互信息(PMI)的差值來(lái)判別其情感傾向。PMI 使用搜索引擎 AltaVista 返回的 hits 值計(jì)算每個(gè)詞與種子情感詞的相似度。Turney和Littman[17]進(jìn)一步將初始的褒義和貶義詞種子集擴(kuò)展為七個(gè)詞，并計(jì)算詞和種子集點(diǎn)互信息的綜合值來(lái)判斷情感詞的情感傾向。Hatzivassiloglou等[18]利用大規(guī)模語(yǔ)料中的連接詞來(lái)識(shí)別形容詞的情感傾向，首先使用對(duì)數(shù)線性回歸模型(log-liner regression model)預(yù)測(cè)由不同連接詞連接的形容詞對(duì)是否具有相同或相反的情感傾向，然后根據(jù)形容詞之間的聯(lián)系利用聚類算法將形容詞聚為褒義和貶義的兩類。Kanayama和Nasukawa[19]提出了一種無(wú)監(jiān)督的算法建立領(lǐng)域情感詞典。首先，他們建立了初始的具有明確情感傾向(詞的情感傾向和領(lǐng)域無(wú)關(guān))的情感詞典，然后通過(guò)分析領(lǐng)域相關(guān)語(yǔ)料中語(yǔ)句內(nèi)部和語(yǔ)句間的文本和連接詞來(lái)獲取新詞的情感傾向從而擴(kuò)展情感詞典，最終形成特定領(lǐng)域的情感詞典。Ding和Liu[20]考慮了即使在同一領(lǐng)域中，修飾不同產(chǎn)品特征時(shí)某些情感詞也具有不同的情感傾向，利用語(yǔ)句內(nèi)和語(yǔ)句間的文本和連接詞來(lái)判斷描述特定產(chǎn)品特征的情感詞的情感傾向。Lau等[21]不僅利用了情感詞之間的上下文關(guān)系，而且利用了文檔和情感詞間的關(guān)系來(lái)建立領(lǐng)域情感詞典。Huang等[8]使用句法分析和主觀線索字典抽取情感詞，然后根據(jù)PMI建立情感詞之間的聯(lián)系圖，并抽取語(yǔ)言學(xué)規(guī)則(例如，un、dis等前綴修飾的詞一般和原詞表示相反的情感傾向)以及語(yǔ)料中的并列、轉(zhuǎn)折關(guān)系作為限制條件。結(jié)合情感詞間的聯(lián)系圖以及限制條件，利用基于約束的標(biāo)簽傳播算法來(lái)獲取情感詞的情感傾向。

王素格，李德玉等[22]在利用PMI計(jì)算中文詞的情感傾向時(shí)，除了考慮一個(gè)詞和褒義詞、貶義詞種子集的關(guān)系外，還考慮了該詞和其同義詞集的關(guān)系，同時(shí)基于詞的類別區(qū)分能力提出了特定領(lǐng)域中褒義詞和貶義詞種子集的選取方法。杜偉夫等[23]將詞語(yǔ)情感傾向計(jì)算問(wèn)題歸結(jié)為優(yōu)化問(wèn)題，首先利用HowNet相似度和PMI值構(gòu)建情感詞間的無(wú)向圖，然后利用以“最小切分”為目標(biāo)的目標(biāo)函數(shù)對(duì)該圖進(jìn)行劃分，并使用模擬退火算法進(jìn)行求解。

3 算法描述

本文提出了一個(gè)兩階段的領(lǐng)域情感詞典構(gòu)造方法。第一階段，使用情感詞間的PMI統(tǒng)計(jì)值和上下文約束關(guān)系建立情感詞間的相似性矩陣，然后利用基于約束的標(biāo)簽傳播算法在情感詞褒貶義種子集上不斷迭代來(lái)構(gòu)造基本情感詞典，為每一個(gè)情感詞分配固定的情感傾向。第二階段，根據(jù)情感詞出現(xiàn)情感沖突的頻率來(lái)識(shí)別領(lǐng)域相關(guān)情感詞，并根據(jù)其在語(yǔ)料中的上下文信息對(duì)修飾的不同產(chǎn)品特征分配不同的情感傾向。

3.1 領(lǐng)域情感詞典

領(lǐng)域情感詞典由一系列特定領(lǐng)域中的情感詞及其情感傾向構(gòu)成，我們將領(lǐng)域情感詞典的每一個(gè)元素定義為一個(gè)四元組 (D,W,F,P)。其中，D表示情感詞典的適用領(lǐng)域；W表示情感詞；F表示情感詞修飾的產(chǎn)品特征，如果情感詞在特定領(lǐng)域中表示相同的情感，則F表示為“ALL”；P表示情感詞的情感傾向(褒義為1，貶義為-1)。

3.2 產(chǎn)品特征及其情感詞的獲取

為了構(gòu)建領(lǐng)域情感詞典，需要抽取產(chǎn)品評(píng)論中所包含的產(chǎn)品特征及其對(duì)應(yīng)的情感詞。產(chǎn)品特征及其情感的抽取是產(chǎn)品評(píng)論挖掘的基本工作之一，很多學(xué)者已經(jīng)提出了各種算法來(lái)完成這項(xiàng)工作[1,24-26]。本文利用雙向傳播算法[26]完成產(chǎn)品特征及其情感詞的抽取工作。雙向傳播算法利用情感詞和產(chǎn)品特征之間、情感詞之間、產(chǎn)品特征之間的句法依存關(guān)系模式抽取產(chǎn)品特征和情感詞，不需要標(biāo)注大量的訓(xùn)練數(shù)據(jù)，只需要一部分情感詞種子，利用特定的句法依存關(guān)系模式不斷迭代來(lái)獲取新的產(chǎn)品特征和情感詞，并對(duì)抽取的產(chǎn)品特征和情感詞進(jìn)行排序以提高準(zhǔn)確率。雙向傳播算法定義了四類規(guī)則來(lái)抽取產(chǎn)品特征和情感詞(表1)。使用規(guī)則R1i利用情感詞抽取情感詞，使用規(guī)則R2i利用情感詞抽取產(chǎn)品特征，使用規(guī)則R3i利用產(chǎn)品特征抽取產(chǎn)品特征，使用規(guī)則R4i利用產(chǎn)品特征抽取情感詞。

表1中第二列是產(chǎn)品特征和觀點(diǎn)之間的句法依存關(guān)系模式，第三列是抽取規(guī)則的限制條件，最后一列是結(jié)果。箭頭代表著句法依存關(guān)系，例如，“S→S-Dep→F”表示S通過(guò)依存關(guān)系S-Dep依存于F。

表1 產(chǎn)品特征和情感詞的抽取規(guī)則

表中，s(f)表示抽取的觀點(diǎn)(產(chǎn)品特征)，{S}({F})和S-Dep(F-Dep)表示已獲取的觀點(diǎn)(產(chǎn)品特征)以及其句法依存關(guān)系，H表示任意單詞。POS(S)(POS(F))是S(F)的詞性信息。{JJ}和{NN}、{NN,VV}是觀點(diǎn)和產(chǎn)品特征應(yīng)滿足的詞性集。本文抽取形容詞作為觀點(diǎn)，名詞和動(dòng)詞作為產(chǎn)品特征。{MR}代表產(chǎn)品特征和觀點(diǎn)間可能存在的依存關(guān)系，例如，SBV，VOB，ATT等。{CONJ}表示并列連詞依存關(guān)系。

3.3 產(chǎn)品評(píng)論中情感詞的上下文約束

情感詞的上下文約束是指情感詞和其上下文的情感詞間，由于存在并列、轉(zhuǎn)折等關(guān)系，從而保持相同或相反的情感傾向。一些學(xué)者已經(jīng)將這些關(guān)系運(yùn)用到情感分析中[8，18-21]。本文提取了以下四種情感詞間的上下文約束。

(1) 并列關(guān)系

具有并列關(guān)系的兩個(gè)情感詞一般具有相同的情感傾向。例如，“外觀美麗、大方”。

(2) 轉(zhuǎn)折關(guān)系

具有轉(zhuǎn)折關(guān)系的兩個(gè)情感詞一般具有相反的情感傾向。例如，“屏幕分辨率雖然比較低，但是顯示效果不錯(cuò)。”

(3) 語(yǔ)句內(nèi)情感關(guān)系

產(chǎn)品評(píng)論中，經(jīng)常在同一句話中出現(xiàn)對(duì)多個(gè)產(chǎn)品特征的評(píng)價(jià)，這些評(píng)價(jià)的情感詞往往具有相同的情感傾向。例如，“外觀大方，屏幕分辨率很高，價(jià)格實(shí)惠。”

(4) 語(yǔ)句間情感關(guān)系

產(chǎn)品評(píng)論中，人們經(jīng)常在相鄰的句子中表達(dá)相同的情感傾向。例如，“屏幕分辨率高，色彩鮮艷。電池續(xù)航時(shí)間長(zhǎng)?！?/p>

3.4 基本情感詞典的構(gòu)造

3.4.1 情感詞聯(lián)系圖

(1)

3.4.2 約束傳播

PMI利用了兩個(gè)情感詞間的共現(xiàn)統(tǒng)計(jì)信息，但是沒(méi)有考慮兩個(gè)情感詞間的上下文語(yǔ)義約束信息(例如，并列、轉(zhuǎn)折關(guān)系等)。為了利用情感詞間的上下文語(yǔ)義約束，我們提取了四種約束：并列關(guān)系、轉(zhuǎn)折關(guān)系、語(yǔ)句內(nèi)情感關(guān)系、語(yǔ)句間情感關(guān)系。我們將一般具有相同情感傾向的并列關(guān)系、語(yǔ)句內(nèi)情感關(guān)系、語(yǔ)句間情感關(guān)系定義為正向約束關(guān)系，一般具有相反情感傾向的轉(zhuǎn)折關(guān)系定義為反向約束關(guān)系。

(2)

但這些約束關(guān)系只能影響與其相關(guān)的局部情感詞，而不能擴(kuò)展到整個(gè)情感詞集[21]。我們將抽取的上下文約束進(jìn)一步傳播，作為先驗(yàn)知識(shí)以修正情感詞間的相似性矩陣A，其算法如下：

(1) 基于相似矩陣A構(gòu)造權(quán)重矩陣W如式(3)所示。

(3)

(2) 構(gòu)造矩陣S=Z-1/2WZ-1/2，Z是對(duì)角矩陣，其第i行i列的值等于W第i行值的和。

(3) 通過(guò)式(4)進(jìn)行垂直傳播，直到收斂。

(4)

(4) 通過(guò)式(5)進(jìn)行水平傳播，直到收斂。

(5)

3.4.3 基于約束的標(biāo)簽傳播

標(biāo)簽傳播算法是一個(gè)優(yōu)秀的基于圖的半監(jiān)督學(xué)習(xí)算法，具有很好的效率和收斂性[27]。本文結(jié)合經(jīng)過(guò)約束傳播修正的情感詞相似性矩陣A和標(biāo)簽傳播算法來(lái)計(jì)算情感詞的情感傾向，構(gòu)造基本情感詞典。

結(jié)合約束傳播的結(jié)果，對(duì)相似性矩陣A進(jìn)行式(6)修正。

(6)

(7)

(1) 按如下公式更新情感傾向向量ft的值，每個(gè)情感詞的情感傾向都受其相鄰情感詞情感傾向的影響如式(8)所示。

ft+1=Tft

(8)

(2) 將情感詞種子集對(duì)應(yīng)的向量元素值復(fù)原如式(9)所示。

(9)

(3) 重復(fù)上述過(guò)程直到收斂。

收斂后，可以得到情感傾向向量ft。如果情感詞對(duì)應(yīng)的向量元素的值大于0，則認(rèn)為其情感傾向是褒義的。如果情感詞對(duì)應(yīng)的向量元素的值小于0，則認(rèn)為其情感傾向是貶義的。

3.5 領(lǐng)域相關(guān)情感詞的識(shí)別

(1) 獲取所有特征情感詞實(shí)例集合FO；

(2) 遍歷FO中的特征情感詞實(shí)例對(duì)(foi,foi+1)；

(3) 如果foi和foi+1的情感詞間不存在正向和反向約束關(guān)系，跳轉(zhuǎn)到(2)；

獲取領(lǐng)域相關(guān)情感詞集DS后，可以根據(jù)這些情感詞修飾的產(chǎn)品特征進(jìn)一步修正基本情感詞典，從而得到領(lǐng)域相關(guān)情感詞典，其算法如下。其中，集合OFS是四元組(W,F,Pos,Neg)的集合，W表示情感詞，F(xiàn)表示情感詞修飾的產(chǎn)品特征，Pos表示褒義傾向的計(jì)數(shù)，Neg表示貶義傾向的計(jì)數(shù)。

(1) 獲取所有特征情感詞實(shí)例集合FO；

(2) 遍歷FO中的特征情感詞實(shí)例foi；

(3) 如果foi的情感詞xm∈DS，尋找foi的前后實(shí)例foi-1和foi+1；

(4) 將foi-1和foi+1中優(yōu)先級(jí)較大的賦予fo′，優(yōu)先級(jí)順序?yàn)椴⒘嘘P(guān)系、轉(zhuǎn)折關(guān)系、語(yǔ)句內(nèi)情感關(guān)系、語(yǔ)句間情感關(guān)系；

(5) 如果fo′中情感詞為褒義，則在OFS中尋找與fo′的產(chǎn)品特征和情感詞對(duì)應(yīng)的四元組(W,F,Pos,Neg)，并將Pos的值加1，跳轉(zhuǎn)到(2)；

(6) 如果fo′中情感詞為貶義，則在OFS中尋找與fo′的產(chǎn)品特征和情感詞對(duì)應(yīng)的四元組(W,F,Pos,Neg)，并將Neg的值加1，跳轉(zhuǎn)到(2)；

(7) 遍歷集合OFS，根據(jù)Pos和Neg中較大的值來(lái)決定其情感傾向并加入到領(lǐng)域情感詞典中。

4 結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文的產(chǎn)品評(píng)論數(shù)據(jù)都取自一些電子商務(wù)網(wǎng)站以及評(píng)論網(wǎng)站。網(wǎng)絡(luò)上存在著大量的電子商務(wù)網(wǎng)站以及評(píng)論網(wǎng)站，經(jīng)過(guò)分析我們選擇了亞馬遜、京東商城、中關(guān)村在線、it168這四個(gè)典型的網(wǎng)站作為我們?cè)u(píng)論數(shù)據(jù)的來(lái)源。電子產(chǎn)品是網(wǎng)絡(luò)上評(píng)論數(shù)量最多的一類產(chǎn)品，本文選擇了以上網(wǎng)站中的手機(jī)、數(shù)碼相機(jī)這兩種典型電子產(chǎn)品的評(píng)論來(lái)構(gòu)造實(shí)驗(yàn)用的評(píng)論數(shù)據(jù)集。表2給出了數(shù)據(jù)集中評(píng)論和句子的數(shù)量。

表2 實(shí)驗(yàn)數(shù)據(jù)集

4.2 產(chǎn)品特征和情感詞抽取及約束關(guān)系分析

產(chǎn)品特征及其對(duì)應(yīng)情感詞的抽取是構(gòu)建領(lǐng)域情感詞典的基礎(chǔ)工作。本文利用雙向傳播算法同時(shí)抽取產(chǎn)品特征及其情感詞，抽取結(jié)果的準(zhǔn)確率和召回率見表3。

表3 產(chǎn)品特征及其情感詞的抽取結(jié)果

情感詞在上下文中的并列關(guān)系、轉(zhuǎn)折關(guān)系、語(yǔ)句內(nèi)情感關(guān)系、語(yǔ)句間情感關(guān)系是我們工作的重要基礎(chǔ)。我們?cè)谶@些關(guān)系的基礎(chǔ)上利用基于約束的標(biāo)簽傳播算法建立基本情感詞典，并進(jìn)一步利用這些關(guān)系完善了領(lǐng)域情感詞典。這四種情感詞上下文約束關(guān)系在語(yǔ)料中所占的比例以及置信度見表4。

表4 語(yǔ)料中不同上下文約束關(guān)系所占的比例及置信度

4.3 實(shí)驗(yàn)結(jié)果

本文提出了一個(gè)兩階段的領(lǐng)域相關(guān)情感詞典構(gòu)造方法。為了驗(yàn)證該方法的有效性，我們?cè)诒?中對(duì)比了幾種不同算法的結(jié)果。其中，HowNet代表文獻(xiàn)[12]中基于HowNet語(yǔ)義相似度的方法；Cilin代表文獻(xiàn)[13]中基于同義詞詞林的方法；PMI代表在當(dāng)前語(yǔ)料庫(kù)中基于PMI的方法；ChConsLP代表針對(duì)中文語(yǔ)料改進(jìn)后的文獻(xiàn)[21]中方法，但只使用了并列和轉(zhuǎn)折兩種關(guān)系；ImChConsLP代表本文提出的方法。為了便于比較，表5的結(jié)果都是基于領(lǐng)域內(nèi)選擇的十對(duì)褒貶義種子集。

表5 實(shí)驗(yàn)結(jié)果

從表5的結(jié)果中可以看出，本文提出的方法在兩個(gè)領(lǐng)域中都取得了最好的F-measure值。HowNet和《同義詞詞林》都是手工編制的詞典，包含了大量詞匯，因此HowNet和Cilin這兩種方法的召回率都比較高。但這兩種方法都沒(méi)有考慮領(lǐng)域情感詞的情感傾向，因此準(zhǔn)確率較低。PMI利用語(yǔ)料上的點(diǎn)互信息統(tǒng)計(jì)值來(lái)計(jì)算情感詞的情感傾向，相對(duì)于HowNet和Cilin來(lái)說(shuō)具有更高的準(zhǔn)確率。但對(duì)于一些語(yǔ)料中出現(xiàn)頻率較少的情感詞存在數(shù)據(jù)稀疏的問(wèn)題，因此召回率較低。ChConsLP和ImChConsLP相對(duì)于PMI在準(zhǔn)確率和召回率上都取得了更好的效果，證明了情感詞的上下文約束關(guān)系和標(biāo)簽傳播算法的有效性。同時(shí)，ImChConsLP比ChConsLP在準(zhǔn)確率和召回率上都有所提高，證明了本文提出方法的有效性。

本文使用了并列關(guān)系、轉(zhuǎn)折關(guān)系、語(yǔ)句內(nèi)情感關(guān)系、語(yǔ)句間情感關(guān)系來(lái)建立基本情感詞典以及修正領(lǐng)域情感詞典。表6對(duì)比了使用不同上下文約束關(guān)系以及修正領(lǐng)域情感詞典的效果。其中，ChConsLP使用了并列關(guān)系和轉(zhuǎn)折關(guān)系，ChConsLP1在ChConsLP的基礎(chǔ)上增加了語(yǔ)句內(nèi)情感關(guān)系和語(yǔ)句間情感關(guān)系，ImChConsLP在ChConsLP1的基礎(chǔ)上利用四種上下文約束關(guān)系以及情感詞修飾的特征進(jìn)行了領(lǐng)域情感詞典的修正。

表6 使用不同上下文約束關(guān)系及修正領(lǐng)域情感詞典的結(jié)果

從表6的結(jié)果中可以看出，加入了語(yǔ)句內(nèi)情感關(guān)系和語(yǔ)句間情感關(guān)系后準(zhǔn)確率和召回率都有所提高，證明了語(yǔ)句內(nèi)情感關(guān)系和語(yǔ)句間情感關(guān)系能有效提高情感傾向計(jì)算的效果。ImChConsLP利用四種上下文約束關(guān)系計(jì)算情感沖突頻率來(lái)識(shí)別領(lǐng)域相關(guān)情感詞，并利用情感詞在語(yǔ)料中的上下文信息對(duì)其修飾的不同特征分配不同的情感傾向，從而進(jìn)一步提高了準(zhǔn)確率。但由于修飾不同產(chǎn)品特征時(shí)具有不同情感傾向的情感詞在整個(gè)語(yǔ)料中所占比例較小，因此準(zhǔn)確率的改善較小。

表7對(duì)比了褒貶義種子數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響。從結(jié)果中可以看出： (1)隨著種子數(shù)量的增長(zhǎng)，準(zhǔn)確率和召回率都有所提高，但對(duì)召回率的影響較小。(2)當(dāng)種子由五對(duì)變成十對(duì)時(shí)，在手機(jī)語(yǔ)料中準(zhǔn)確率提高了1.7%，在數(shù)碼相機(jī)語(yǔ)料中準(zhǔn)確率提高了1.2%。當(dāng)再增加更多種子時(shí)，準(zhǔn)確率提高并不顯著。因此，本文提出的算法使用較小的種子集就可以得到較好的效果。

表7 褒貶義種子數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響

5 結(jié)論和進(jìn)一步的工作

情感詞典是進(jìn)行情感分析的基礎(chǔ)。但有些情感詞在不同領(lǐng)域中具有不同的情感傾向，甚至在同一領(lǐng)域中修飾不同產(chǎn)品特征時(shí)也具有不同的情感傾向。因此，建立領(lǐng)域情感詞典能更好地識(shí)別情感詞的情感傾向。本文提出了一個(gè)兩階段的領(lǐng)域情感詞典構(gòu)建方法，并在手機(jī)和數(shù)碼相機(jī)兩種電子產(chǎn)品評(píng)論語(yǔ)料集上驗(yàn)證了該方法的有效性。同時(shí)，使用較小的種子集就可以取得理想的準(zhǔn)確率和召回率。本文只判別了情感詞的情感傾向，如何判斷情感傾向的強(qiáng)度將是今后工作的一個(gè)重要問(wèn)題。

[1] M HU, B LIU. Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004: 168-177.

[2] A M Popescu, O Etzioni. Extracting product features and opinions from review[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing, 2005: 339-346.

[3] P Stone, D Dunphy, M Smith, et al. The General Inquirer: A Computer Approach to Content Analysis[M]. Cambridge: MIT Press, 1966.

[4] S Baccianella, A Esuli, F Sebastian. SENTIWORDNET3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining[C]//Proceedings of the Seventh Conference on International Language Resources and Evaluation, 2010: 2200-2204.

[5] 知網(wǎng), 董振東: http://www.keenage.com/[EB/OL].

[6] L W Ku, H H Chen. Mining Opinions from the Web: Beyond Relevance Retrieval[J]. Journal of the American Society for Information Science and Technology.2007, 58(12): 1838-1850.

[7] 徐琳宏,林鴻飛,潘宇，等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.

[8] S Huang, Z Niu, C Shi. Automatic Construction of Domain-specific Sentiment Lexicon Based on Constrained Label Propagation[J]. Knowledge-Based Systems, 2013, 56: 191-200.

[9] M HU, B LIU. Mining Opinion Features in Customer Reviews[C]//Proceedings of 9th National Conference on Artificial Intelligence, 2004: 755-760.

[10] J Kamps, M Marx, R J Mokken, et al. Using Wordnet to Measure Semantic Orientations of Adjectives[C]//Proceedings of the 4th International Conference on International Language Resources and Evaluation, 2004: 1115-1118.

[11] D Rao, D Ravichandran. Semi-supervised Polarity Lexicon Induction[C]//Proceedings of the 12thConference of the European Association of Computational Linguistics, 2009: 675-682.

[12] A Esuli, F Sebastiani. Sentiwordnet: A Publicly Available Lexical Resource for Opinion Mining[C]//Proceedings of the 5th Conference on Language Resources and Evaluation, 2006: 417-422.

[13] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1): 14-20.

[14] 路斌,萬(wàn)小軍,楊建武,等. 基于同義詞詞林的詞匯褒貶計(jì)算[C] . 第七屆中文信息處理國(guó)際會(huì)議論文集. 武漢, 中國(guó): 電子工業(yè)出版社, 2007: 17-23.

[15] 周詠梅,楊佳能,陽(yáng)愛民. 面向文本情感分析的中文情感詞典構(gòu)建方法[J]. 山東大學(xué)學(xué)報(bào)(工學(xué) 版), 2013,43(6): 27-33.

[16] P D Turney. Thumbs Up or Thumbs Down?: Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 417-424.

[17] P D Turney, M L Littman. Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J]. ACM Transaction on Information System, 2003, 21(4): 315-346.

[18] V Hatzivassiloglou, K R McKeown. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 8th Conference on European Chapter of the Association for Computational Ling, 1997: 174-181.

[19] H Kanayama, T Nasukawa. Fully Automatic Lexicon Expansion for Domain-Oriented Sentiment Analysis[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006: 355-363.

[20] X Ding, B Liu. The Utility of Linguistic Rules in Opinion Mining[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2007: 811-812.

[21] R Y K Lau, C L Lai, P D Bruza, et al. Leveraging Web 2.0 Data for Scalable Semi-supervised Learning of Domain-specific Sentiment Lexicons[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management, 2011: 2457-2460.

[22] 王素格, 李德玉, 魏英杰, 等. 基于同義詞的詞匯情感傾向判別方法[J]. 中文信息學(xué)報(bào), 2009,23(5): 68-74.

[23] 杜偉夫,譚松波,云曉春,等. 一種新的情感詞匯語(yǔ)義傾向計(jì)算方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(10): 1713-1720.

[24] G Qiu, B Liu, J Bu et al. Expanding domain sentiment lexicon through double propagation[C]//Proceedings of the 21st International Joint Conference on Artificial Intelligence,2009: 1199-1204.

[25] L Zhang, B Liu, S H Lim, et al. Extracting and ranking product features in opinion documents [C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010: 1462-1470.

[26] Y Xi. 產(chǎn)品評(píng)論特征及觀點(diǎn)抽取研究[J]. 情報(bào)學(xué)報(bào), 2014,33(3): 326-336.

[27] F Wang, C Zhang. Label Propagation through Linear Neighborhoods[C]//Proceedings of the 23rd International Conference on Machine Learning, 2006: 985-992.

Construction of Domain-specific Sentiment Lexicon in Product Reviews

XI Yahui

(College of Mathematics and Computer Science, HeBei University, Baoding, Hebei 071002,China)

Domain-specific sentiment lexicon plays an important role in sentiment analysis system. Due to the huge number of the product review in diverse domains , automatic construction of domain-specific sentiment lexicon is a challenging task. This paper proposes a two-phrase automatic construction algorithm of domain-specific sentiment lexicon. In the first phrase, the constrained label propagation algorithm is applied to the construction of base sentiment lexicon by using PMI and contextual constraints. In the second phrase, the domain-specific sentiment words are exacted by the frequency of sentiment conflict, and the domain-specific sentiment lexicon is improved according to the contextual constraints and the product feature modified by the sentiment word. Experiments on diverse real-life datasets show promising results.

sentiment analysis; domain-specific sentiment lexicon; contextual constraints; constrained label propagation algorithm

郗亞輝(1977-)，副教授，主要研究領(lǐng)域?yàn)槲谋就诰?、信息檢索。E?mail：xiyahui@hbu．edu．cn

1003-0077(2016)05-0136-09

2014-12-04 定稿日期： 2015-06-09

國(guó)家自然科學(xué)基金(61170039)

TP391

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

產(chǎn)品評(píng)論中領(lǐng)域情感詞典的構(gòu)建

1 引言

2 相關(guān)研究

3 算法描述

4 結(jié)果分析

5 結(jié)論和進(jìn)一步的工作