亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領(lǐng)域情感詞典特征表示的細(xì)粒度意見(jiàn)挖掘

        2019-04-02 02:55:36郁圣衛(wèi)陳文亮
        中文信息學(xué)報(bào) 2019年2期
        關(guān)鍵詞:文本情感模型

        郁圣衛(wèi),盧 奇,陳文亮

        (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

        0 引言

        細(xì)粒度意見(jiàn)挖掘的主要目標(biāo)是從觀點(diǎn)文本(如用戶評(píng)論文本等)中獲取情感要素(如觀點(diǎn)持有者、觀點(diǎn)對(duì)象、觀點(diǎn)表達(dá)等)并根據(jù)這些信息判斷觀點(diǎn)在文本中表達(dá)的情感傾向[1]。舉個(gè)例子,在觀點(diǎn)文本“我覺(jué)得質(zhì)量不錯(cuò)”中,觀點(diǎn)持有者“我”針對(duì)觀點(diǎn)對(duì)象“質(zhì)量”使用觀點(diǎn)表達(dá)“不錯(cuò)”來(lái)表達(dá)“正面”情感傾向。細(xì)粒度意見(jiàn)挖掘的結(jié)果通??蓱?yīng)用于觀點(diǎn)摘要和觀點(diǎn)檢索[2]。

        細(xì)粒度意見(jiàn)挖掘獲取的情感要素根據(jù)具體任務(wù)需求和具體領(lǐng)域而定。以電商評(píng)論文本為例,其觀點(diǎn)持有者大多為第一人稱,并且觀點(diǎn)對(duì)象以及觀點(diǎn)表達(dá)都是出現(xiàn)在文本中的連續(xù)序列片段。因此,對(duì)于這類(lèi)文本通常只獲取觀點(diǎn)對(duì)象及觀點(diǎn)表達(dá),并將其看作序列標(biāo)注問(wèn)題。但是,觀點(diǎn)表達(dá)和觀點(diǎn)對(duì)象在同一語(yǔ)句中未必是一對(duì)一的關(guān)系,同一語(yǔ)句中的情感傾向也未必是單一的。例如“產(chǎn)品實(shí)惠但不耐用”,觀點(diǎn)對(duì)象“產(chǎn)品”對(duì)應(yīng)多個(gè)觀點(diǎn)表達(dá)和多種情感傾向。如果單純使用序列標(biāo)注模型,很難準(zhǔn)確判斷情感傾向的所屬。

        為了解決上述問(wèn)題,我們采用如圖1所示的任務(wù)框架。對(duì)于觀點(diǎn)文本,我們首先使用序列標(biāo)注模型識(shí)別其中的情感要素序列,然后采用匹配算法將其整合為結(jié)構(gòu)化的情感要素組合。在序列標(biāo)注部分,序列標(biāo)簽采用IOB2標(biāo)簽體系[3],其中TGT代表觀點(diǎn)對(duì)象,XPR代表觀點(diǎn)表達(dá),對(duì)XPR使用追加標(biāo)簽P、M、N分別表示正面、中性、負(fù)面傾向的觀點(diǎn)表達(dá)。針對(duì)序列標(biāo)注的結(jié)果,我們以三元組<觀點(diǎn)對(duì)象,觀點(diǎn)表達(dá),情感傾向>來(lái)生成情感要素組合。其中,情感傾向部分使用數(shù)值1,0,-1分別表示正面、中性、負(fù)面傾向。

        圖1 本文采用的細(xì)粒度意見(jiàn)挖掘任務(wù)框架

        目前,較為常用的序列標(biāo)注模型有條件隨機(jī)場(chǎng)(CRF)[4]和雙向長(zhǎng)短期記憶—條件隨機(jī)場(chǎng)(BiLSTM-CRF)[5]。其中,CRF屬于傳統(tǒng)機(jī)器學(xué)習(xí)方法,BiLSTM-CRF屬于深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)方法的結(jié)合。Nakayama和Fujii[6]基于CRF,通過(guò)構(gòu)建豐富的特征模板,在日語(yǔ)細(xì)粒度意見(jiàn)挖掘上取得了一定效果,但是,需要人工構(gòu)建復(fù)雜的特征模板。Liu等[7]使用預(yù)訓(xùn)練詞向量,并在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的隱層輸出結(jié)果中加入了語(yǔ)言特征表示,如詞性和詞塊,在英語(yǔ)細(xì)粒度意見(jiàn)挖掘上取得了很好的效果。然而,這些特征表示僅僅用到文本中的字、詞及其語(yǔ)言信息,但缺乏豐富的情感信息。因此,如何使用外部情感詞典資源來(lái)改進(jìn)細(xì)粒度意見(jiàn)挖掘的性能是值得研究的課題。

        針對(duì)現(xiàn)有方法的不足,我們?cè)谑褂眯蛄袠?biāo)注模型進(jìn)行細(xì)粒度意見(jiàn)挖掘的基礎(chǔ)上,提出一種基于領(lǐng)域情感詞典特征表示的方法: 首先基于標(biāo)注數(shù)據(jù)構(gòu)建了一份新的電商領(lǐng)域情感詞典,然后在電商評(píng)論文本真實(shí)數(shù)據(jù)上,分別為CRF和BiLSTM-CRF這兩種常用序列標(biāo)注模型設(shè)計(jì)基于領(lǐng)域情感詞典的特征表示。實(shí)驗(yàn)結(jié)果表明,這種基于領(lǐng)域情感詞典特征表示的方法在兩種模型上都取得了良好的效果,并且超過(guò)其他情感詞典。

        本文的其余部分結(jié)構(gòu)安排如下: 第1節(jié)對(duì)相關(guān)工作進(jìn)行介紹;第2節(jié)介紹情感詞典資源;第3節(jié)詳細(xì)介紹我們提出的方法;第4節(jié)介紹實(shí)驗(yàn)和結(jié)果分析;第5節(jié)是結(jié)論介紹。

        1 相關(guān)工作

        細(xì)粒度意見(jiàn)挖掘?qū)儆谇楦蟹治雠c意見(jiàn)挖掘任務(wù)。在情感分析與意見(jiàn)挖掘相關(guān)任務(wù)被提出的早期,有關(guān)細(xì)粒度意見(jiàn)挖掘的研究工作很少。起初,較為常見(jiàn)的相關(guān)任務(wù)是對(duì)文檔級(jí)別文本進(jìn)行情感傾向分類(lèi),如Pang等[8]使用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行情感分類(lèi)。隨著相關(guān)任務(wù)的拓展研究,研究人員需要在標(biāo)注粒度更為細(xì)致的情感分析語(yǔ)料上開(kāi)展研究。Wilson等[9]構(gòu)建了短語(yǔ)級(jí)別的情感分析標(biāo)注語(yǔ)料,綜合考慮若干短語(yǔ)反映的情感傾向并對(duì)文檔實(shí)例進(jìn)行情感分類(lèi)。隨著進(jìn)一步的研究,僅進(jìn)行情感傾向分類(lèi)難以滿足檢索任務(wù)的需求,因而研究人員進(jìn)行擴(kuò)展,提出情感要素抽取任務(wù)。情感要素可以包括觀點(diǎn)持有者[10]、觀點(diǎn)對(duì)象[11]、觀點(diǎn)表達(dá)[12]、情感傾向和強(qiáng)度[13]等。情感要素抽取任務(wù)由于獲取的是情感文本中具有實(shí)際意義的細(xì)粒度要素,因此可看作細(xì)粒度意見(jiàn)挖掘。早期階段,細(xì)粒度意見(jiàn)挖掘的相關(guān)工作大多采用CRF模型進(jìn)行序列標(biāo)注[14-15]。然而,基于CRF模型的序列標(biāo)注模型通常需要人工構(gòu)建復(fù)雜的特征模板。近三年來(lái),隨著深度學(xué)習(xí)的發(fā)展,更多的研究人員采用深度學(xué)習(xí)的序列標(biāo)注方法進(jìn)行建模,如Irsoy等[16]基于RNN模型,Katiyar等[17]用到LSTM模型。目前,深度學(xué)習(xí)方法與傳統(tǒng)機(jī)器學(xué)習(xí)方法的結(jié)合模型,如BiLSTM-CRF模型、BiLSTM-CNN-CRF模型等在序列標(biāo)注任務(wù)上取得了很好的效果[18]。然而,目前基于深度學(xué)習(xí)的細(xì)粒度意見(jiàn)挖掘工作鮮有利用情感詞典資源。

        情感詞典資源的構(gòu)建對(duì)情感分析與意見(jiàn)挖掘相關(guān)任務(wù)的研究也格外重要。Kaji等[19]從大規(guī)模HTML文本中構(gòu)建用于情感分析任務(wù)的詞典資源,Jijkoun等[20]使用Bootstrapping方法構(gòu)建話題特定的情感詞典。目前,常用的英文情感詞典有SentiWordNet、LIWC、ANEW等;常用的中文情感詞典有知網(wǎng)的“情感分析用詞語(yǔ)集”(下文簡(jiǎn)記為 “知網(wǎng)情感詞典”)、大連理工大學(xué)信息檢索實(shí)驗(yàn)室的“情感詞匯本體”[21](下文簡(jiǎn)記為“大連理工情感詞典”)等。這些詞典對(duì)情感分析與意見(jiàn)挖掘任務(wù)提供了一定幫助。然而,它們的詞條較為通用,將其應(yīng)用于領(lǐng)域特定的觀點(diǎn)文本中時(shí)效果不佳。

        基于上述相關(guān)工作和不足,本文在使用序列標(biāo)注模型進(jìn)行細(xì)粒度意見(jiàn)挖掘的基礎(chǔ)上,結(jié)合情感詞典資源,提出一種基于領(lǐng)域情感詞典特征表示的方法。

        2 情感詞典資源

        2.1 電商領(lǐng)域情感詞典的構(gòu)建

        本文主要針對(duì)電商領(lǐng)域觀點(diǎn)文本進(jìn)行細(xì)粒度意見(jiàn)挖掘。依照本文提出的方法,需要面向電商領(lǐng)域的領(lǐng)域情感詞典。對(duì)于電商領(lǐng)域的觀點(diǎn)文本,其特殊之處主要有以下幾點(diǎn):

        ? 短文本居多,行文或正規(guī)或隨意。

        ? 觀點(diǎn)持有者大多為第一人稱。

        ? 通常針對(duì)電商產(chǎn)品或產(chǎn)品相關(guān)屬性,送貨服務(wù)或售后服務(wù)等觀點(diǎn)對(duì)象進(jìn)行觀點(diǎn)評(píng)價(jià)。

        ? 包含電商領(lǐng)域特有的觀點(diǎn)對(duì)象詞條及觀點(diǎn)表達(dá)詞條。

        這些特性決定了電商領(lǐng)域觀點(diǎn)文本中情感要素的構(gòu)成和分布。對(duì)于電商領(lǐng)域觀點(diǎn)文本,我們主要針對(duì)觀點(diǎn)表達(dá)和情感傾向的對(duì)應(yīng)關(guān)系構(gòu)建相應(yīng)的情感詞典。觀點(diǎn)表達(dá)可以只反映單一的情感傾向,例如“好吃”只反映正面傾向;也可以反映多種情感傾向,例如“高”在“價(jià)格高”中反映負(fù)面傾向而在“性價(jià)比高”中反映正面傾向。因此,我們將觀點(diǎn)表達(dá)按照反映出的情感傾向的不同定義為下列四個(gè)類(lèi)別:

        ? 正面觀點(diǎn)表達(dá)

        ? 中性觀點(diǎn)表達(dá)

        ? 負(fù)面觀點(diǎn)表達(dá)

        ? 多極性觀點(diǎn)表達(dá)

        其中,前三種類(lèi)別的觀點(diǎn)表達(dá)只反映單一的情感傾向,第四種類(lèi)別反映多種情感傾向。

        除上述觀點(diǎn)表達(dá)詞條以外,在構(gòu)建情感詞典時(shí)還加入了與觀點(diǎn)表達(dá)具有密切關(guān)聯(lián)的詞條。

        ? 否定詞

        否定詞的功能是讓觀點(diǎn)表達(dá)的情感傾向發(fā)生反轉(zhuǎn),其加入可使情感詞典中未出現(xiàn)的帶有否定前綴的觀點(diǎn)表達(dá)的情感信息也能夠被檢索出來(lái)。否定詞的追加間接地?cái)U(kuò)充了情感詞典的情感信息。

        電商領(lǐng)域情感詞典的構(gòu)建要點(diǎn)在于獲取電商評(píng)論文本中觀點(diǎn)表達(dá)和情感傾向的對(duì)應(yīng)關(guān)系。由于領(lǐng)域資源受限,本文直接對(duì)實(shí)驗(yàn)部分用到的訓(xùn)練數(shù)據(jù)中的情感要素組合進(jìn)行抽取,從而構(gòu)建得到電商領(lǐng)域情感詞典。首先,從情感要素組合中抽取得到觀點(diǎn)表達(dá)和情感傾向的對(duì)應(yīng)關(guān)系并進(jìn)行匯總,得到候選領(lǐng)域情感詞條。對(duì)于候選結(jié)果,我們進(jìn)行人工檢驗(yàn)并糾正了一些錯(cuò)誤。最終,將校正后的觀點(diǎn)表達(dá)詞表作為電商領(lǐng)域情感詞典。表1給出了電商領(lǐng)域情感詞典中各個(gè)類(lèi)別的詞條示例。

        表1 電商領(lǐng)域情感詞典詞條示例

        2.2 與其他情感詞典的比較

        我們選取了兩種情感詞典,分別是知網(wǎng)情感詞典和大連理工情感詞典,和本文構(gòu)建的電商領(lǐng)域情感詞典進(jìn)行比較。

        為了便于比較,我們將兩種情感詞典的條目和電商領(lǐng)域情感詞典進(jìn)行了統(tǒng)一。對(duì)于知網(wǎng)情感詞典,由于其僅將觀點(diǎn)表達(dá)分為正面傾向和負(fù)面傾向,因此我們將其等價(jià)為正面觀點(diǎn)表達(dá)和負(fù)面觀點(diǎn)表達(dá),同時(shí)將其他三類(lèi)置空。對(duì)于大連理工情感詞典,其將觀點(diǎn)表達(dá)分為正面、中性、負(fù)面以及正負(fù)都有可能這四類(lèi),因此我們將其對(duì)應(yīng)等價(jià)到定義中的四類(lèi),并將其否定詞類(lèi)別置空。

        我們分別從基于情感詞典的條目統(tǒng)計(jì)信息和條目中具體詞條這兩個(gè)方面對(duì)三種情感詞典進(jìn)行比較。表2給出了三種情感詞典的觀點(diǎn)表達(dá)類(lèi)別及相關(guān)統(tǒng)計(jì)信息。

        表2 三種情感詞典的觀點(diǎn)表達(dá)類(lèi)別及相關(guān)統(tǒng)計(jì)信息

        條目統(tǒng)計(jì)信息僅僅是衡量情感詞典的一個(gè)方面。表3給出了三種情感詞典共有詞條和電商領(lǐng)域情感詞典獨(dú)有詞條的比較結(jié)果。

        表3 情感詞典詞條異同性比較

        從表中可以看出:

        ? 電商領(lǐng)域情感詞典在各個(gè)類(lèi)別都擁有大量和電商領(lǐng)域高度相關(guān)的獨(dú)有詞條。

        ? 兩種通用詞典中和電商領(lǐng)域高度相關(guān)的詞條數(shù)量較少。

        針對(duì)上述三種情感詞典,我們?yōu)槠涠x情感詞典標(biāo)簽。表4給出了不同情感詞典的情感詞典標(biāo)簽。

        表4 不同情感詞典的情感詞典標(biāo)簽

        3 基于領(lǐng)域情感詞典特征表示的方法

        3.1 基于領(lǐng)域情感詞典的數(shù)據(jù)表示

        我們提出的細(xì)粒度意見(jiàn)挖掘方法以電商評(píng)論文本為研究對(duì)象。針對(duì)電商評(píng)論文本,我們使用第3節(jié)構(gòu)建的電商領(lǐng)域情感詞典來(lái)生成數(shù)據(jù)表示。

        對(duì)于數(shù)據(jù)表示的生成,我們采用如下方式: 首先使用領(lǐng)域情感詞典對(duì)電商評(píng)論生文本進(jìn)行最大正向匹配以得到具體觀點(diǎn)表達(dá)在生文本中的位置,然后采用IOB2標(biāo)簽體系生成情感詞典標(biāo)簽。最終將得到的情感詞典標(biāo)簽和生文本進(jìn)行結(jié)合,構(gòu)成基于情感詞典的數(shù)據(jù)表示。給出基于領(lǐng)域情感詞典的數(shù)據(jù)表示實(shí)例如表5所示。在表5的例子中,觀點(diǎn)表達(dá)“實(shí)惠”與“不耐用”都出現(xiàn)在領(lǐng)域情感詞典中。其中,DoUP代表領(lǐng)域情感詞典的正面觀點(diǎn)表達(dá)標(biāo)簽,DoN代表否定詞標(biāo)簽。

        表5 基于領(lǐng)域情感詞典的數(shù)據(jù)表示舉例

        3.2 基于領(lǐng)域情感詞典的CRF模型

        CRF是一種判別式模型,在序列標(biāo)注任務(wù)中通常采用線性鏈條件隨機(jī)場(chǎng)(Linear-chain CRF)。根據(jù)該模型的定義,可以將序列標(biāo)注任務(wù)轉(zhuǎn)化為如下形式,給定輸入序列形如:x=x1,x2,…,xn,任務(wù)目標(biāo)是預(yù)測(cè)與該輸入序列等長(zhǎng)的標(biāo)簽序列:y=y1,y2,…,yn,標(biāo)簽序列中每個(gè)位置與輸入序列相對(duì)應(yīng)。然后,由式(1)計(jì)算條件概率P(y|x)。

        (1)

        其中,Z(x)是歸一化因子,fk和gk分別是轉(zhuǎn)移特征函數(shù)和狀態(tài)特征函數(shù),它們的輸出值都為布爾值。對(duì)于fk,當(dāng)yi-1,yi,x滿足轉(zhuǎn)移特征函數(shù)的具體數(shù)值時(shí)輸出為1,否則為0;gk與其類(lèi)似。λk和μk分別是對(duì)應(yīng)特征函數(shù)的權(quán)值。在訓(xùn)練過(guò)程中,由輸入序列和標(biāo)簽序列構(gòu)成的每一組實(shí)例通過(guò)最大化式(1)的對(duì)數(shù)似然概率來(lái)訓(xùn)練模型中的各個(gè)變量。測(cè)試時(shí),給定測(cè)試數(shù)據(jù)中的一組輸入序列實(shí)例x′,選取滿足式(2)的輸出序列y*作為最佳預(yù)測(cè)標(biāo)簽序列。

        y*=arg maxP(y′|x′)

        (2)

        對(duì)于CRF模型特征模板的設(shè)計(jì),我們采用如表6所示的特征模板。

        其中,n代表與當(dāng)前位置的偏移量(0表示當(dāng)前位置),char代表字符,dict表示情感詞典標(biāo)簽取值,具體取值與3.1小節(jié)保持一致。模板F4、F5、F6生成的特征即作為情感詞典特征。以表5中的當(dāng)前位置字符“惠”為例,其按照表6生成的特征如表7所示。

        表6 CRF模型采用的特征模板

        表7 CRF模型生成特征舉例

        3.3 基于領(lǐng)域情感詞典的BiLSTM-CRF模型

        圖2是本實(shí)驗(yàn)采用的BiLSTM-CRF框架。

        圖2 BiLSTM-CRF框架

        第一層是數(shù)據(jù)表示層。其作用是將我們給出的字序列和情感詞典標(biāo)簽序列的輸入映射到向量級(jí)別的輸入表示。本實(shí)驗(yàn)中,共有兩種輸入表示,一種是字表示,另一種是情感詞典表示,分別通過(guò)事先建立的索引關(guān)系得到。然后,將字表示和情感詞典表示進(jìn)行拼接,得到最終的輸入表示。

        第二層是BiLSTM層。其作用是將第一層得到的輸入表示轉(zhuǎn)化為隱層表示輸出。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,其主要結(jié)構(gòu)如式(3)所示。

        (3)

        第三層是CRF層。假設(shè)序列標(biāo)注的標(biāo)簽個(gè)數(shù)為k,對(duì)于輸入序列x=x1,x2,…,xn,經(jīng)過(guò)前三層的計(jì)算后可以得到維數(shù)為n×k的分值矩陣P,矩陣中的某一個(gè)元素Pi,j代表第i個(gè)輸入狀態(tài)標(biāo)注為第j個(gè)標(biāo)簽的得分。對(duì)于一組預(yù)測(cè)標(biāo)簽序列y=y1,y2,…,yn,定義它的得分如式(4)所示。

        (4)

        其中,A是轉(zhuǎn)移得分矩陣,Ai,j代表從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的得分。y0和yn分別是標(biāo)簽序列中的起始和結(jié)束標(biāo)簽,需要加入到原有標(biāo)簽集合中。因此A是k+2階方陣。由此,我們得到基于所有可能的標(biāo)簽集合Yx下的條件概率P(y|x)如式(5)所示。

        (5)

        在訓(xùn)練過(guò)程中,最大化如式(5)中正確標(biāo)簽序列的對(duì)數(shù)似然概率。測(cè)試時(shí),選取滿足式(6)的結(jié)果y*作為最佳預(yù)測(cè)標(biāo)簽序列。

        (6)

        3.4 情感要素組合匹配算法

        使用上述序列標(biāo)注模型對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行標(biāo)注后,便可獲取其中含有的觀點(diǎn)對(duì)象、觀點(diǎn)表達(dá)以及情感傾向并進(jìn)行情感要素組合匹配。不同于關(guān)系抽取任務(wù)中頭實(shí)體和尾實(shí)體都不為空的情形,<觀點(diǎn)對(duì)象,觀點(diǎn)表達(dá),情感傾向>中的觀點(diǎn)對(duì)象可以為空。這樣的問(wèn)題給匹配帶來(lái)了困難。因此,本實(shí)驗(yàn)采用如表8所示的算法進(jìn)行匹配。

        表8 情感要素組合匹配算法

        對(duì)于這個(gè)算法,我們給出如圖3所示的具體實(shí)例。對(duì)于語(yǔ)句“很差勁,質(zhì)量不好”的序列標(biāo)注結(jié)果,我們首先以中間的逗號(hào)作為分隔符將其分隔為兩個(gè)短句。對(duì)于短句“很差勁”的情感要素“<差勁,XPRN>”,鎖定得到觀點(diǎn)表達(dá)“差勁”,但是其相鄰左側(cè)和相鄰右側(cè)都不存在觀點(diǎn)對(duì)象,因此返回結(jié)果“”。而對(duì)于短句“質(zhì)量不好”的情感要素“<質(zhì)量,TGT>,<不好,XPRN>”,鎖定得到觀點(diǎn)表達(dá)“不好”,其向左最近鄰匹配得到觀點(diǎn)對(duì)象“質(zhì)量”,因此返回情感要素組合結(jié)果“<質(zhì)量,不好,-1>”。

        圖3 情感要素組合匹配示例

        4 實(shí)驗(yàn)

        本節(jié)先介紹實(shí)驗(yàn)數(shù)據(jù),其次介紹情感詞典數(shù)據(jù),然后介紹實(shí)驗(yàn)設(shè)置,再介紹實(shí)驗(yàn)的評(píng)價(jià)方法,最后是實(shí)驗(yàn)結(jié)果、方法對(duì)比與實(shí)例分析。

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本次實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于BDCI2017-TASK12賽事[注]http://www.datafountain.cn/#/competitions/2681intro復(fù)賽階段的語(yǔ)料,所屬類(lèi)型為電商評(píng)論文本,共計(jì)20 000條電商評(píng)論文本的標(biāo)注實(shí)例。原始語(yǔ)料的標(biāo)注方式如表9所示。

        表9 原始語(yǔ)料標(biāo)注方式示例

        我們對(duì)原始數(shù)據(jù)進(jìn)行初步預(yù)處理。首先,我們打亂原有語(yǔ)料順序,并以8: 1: 1的比例將語(yǔ)料初步切分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。然后,我們把初步預(yù)處理結(jié)果轉(zhuǎn)化為序列標(biāo)注數(shù)據(jù)。轉(zhuǎn)化舉例如圖4所示。

        圖4 實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)化示例

        對(duì)每條實(shí)例中的原文本以短句標(biāo)點(diǎn)符號(hào)為界進(jìn)行切分得到若干短句,并將每一個(gè)情感要素組合和這些短句進(jìn)行匹配。如果存在匹配結(jié)果,則按照情感要素組合中每個(gè)元素的位置標(biāo)注于該短句上。最終得到符合序列標(biāo)注規(guī)則的實(shí)驗(yàn)數(shù)據(jù)。

        考慮到20 000條標(biāo)注實(shí)例的句長(zhǎng)參差不齊,在實(shí)際訓(xùn)練過(guò)程中,我們將訓(xùn)練集、驗(yàn)證集、測(cè)試集中的原有實(shí)例切分為短句。表10給出了它們的相關(guān)統(tǒng)計(jì)信息:

        表10 實(shí)驗(yàn)數(shù)據(jù)相關(guān)統(tǒng)計(jì)信息

        4.2 情感詞典數(shù)據(jù)

        為了進(jìn)行實(shí)驗(yàn)比較,我們又用到知網(wǎng)情感詞典和大連理工情感詞典。由于第3節(jié)提出的方法可以拓展到任意情感詞典上,因而在具體實(shí)驗(yàn)中我們使用三種情感詞典對(duì)4.1小節(jié)得到的實(shí)驗(yàn)數(shù)據(jù)追加情感詞典標(biāo)簽。不同情感詞典會(huì)生成不同情感詞典標(biāo)簽。表11給出了不同情感詞典對(duì)同一實(shí)例的情感詞典標(biāo)簽結(jié)果。

        4.3 實(shí)驗(yàn)設(shè)置

        本次實(shí)驗(yàn),我們使用兩種序列標(biāo)注模型: CRF和BiLSTM-CRF。對(duì)于CRF,我們使用3.2小節(jié)設(shè)計(jì)的特征模板,迭代次數(shù)設(shè)置為滿足收斂條件為止。對(duì)于BiLSTM-CRF,我們按照如表12所示的參數(shù)進(jìn)行實(shí)驗(yàn)。

        表11 不同情感詞典生成標(biāo)簽示例

        表12 BiLSTM-CRF參數(shù)設(shè)置

        對(duì)于BiLSTM-CRF實(shí)驗(yàn)結(jié)果的選取,我們?cè)诿看蝒poch訓(xùn)練結(jié)束后測(cè)得驗(yàn)證集的F1值,每當(dāng)?shù)玫降腇1值到達(dá)極大值時(shí)存儲(chǔ)模型。全部訓(xùn)練結(jié)束后,我們得到在驗(yàn)證集上F1值最優(yōu)的模型。使用這個(gè)模型對(duì)測(cè)試集進(jìn)行測(cè)試,得到最終的實(shí)驗(yàn)結(jié)果。

        4.4 評(píng)價(jià)方法

        本次實(shí)驗(yàn),我們分別對(duì)序列標(biāo)注結(jié)果和情感要素組合匹配結(jié)果進(jìn)行評(píng)價(jià)。對(duì)于這兩個(gè)階段的結(jié)果,采用準(zhǔn)確率(Precision)、召回率(Recall)以及F1值進(jìn)行評(píng)價(jià)。它們?cè)诠浇Y(jié)構(gòu)上相同,但在具體含義上有所不同。給出P(準(zhǔn)確率)、R(召回率)、F(F1值)的計(jì)算方式如式(7)~式(9)所示。

        對(duì)于序列標(biāo)注結(jié)果評(píng)價(jià),|A|代表預(yù)測(cè)集的情感要素序列(觀點(diǎn)對(duì)象和觀點(diǎn)表達(dá))總數(shù),|G|代表標(biāo)準(zhǔn)集的情感要素序列總數(shù),|A∩G|代表預(yù)測(cè)集與標(biāo)準(zhǔn)集完全匹配的情感要素序列總數(shù)。而對(duì)于情感要素組合匹配結(jié)果評(píng)價(jià),|A|代表預(yù)測(cè)集的情感要素組合結(jié)果總數(shù),|G|代表標(biāo)準(zhǔn)集的情感要素組合結(jié)果總數(shù),|A∩G|代表預(yù)測(cè)集與標(biāo)準(zhǔn)集完全匹配的情感要素組合結(jié)果總數(shù)。

        4.5 實(shí)驗(yàn)結(jié)果

        本次實(shí)驗(yàn),我們共進(jìn)行了兩組。每組實(shí)驗(yàn)各有4套不同的細(xì)粒度意見(jiàn)挖掘模型。兩組實(shí)驗(yàn)分別基于CRF和BiLSTM-CRF,4套模型分別為BASELINE、+HOWNET、+DUTIR、+DOMAIN。其中,BASELINE僅使用字特征表示訓(xùn)練得到、+HOWNET在使用字特征表示的基礎(chǔ)上加入知網(wǎng)情感詞典特征表示、+DUTIR加入大連理工情感詞典特征表示、+DOMAIN加入電商領(lǐng)域情感詞典特征表示。表13給出了所有結(jié)果。從實(shí)驗(yàn)結(jié)果,可以看出:

        表13 實(shí)驗(yàn)結(jié)果

        ? 加入情感詞典特征表示后的各模型相較于同一實(shí)驗(yàn)組的BASELINE,F(xiàn)1值都得到了提升,表明情感詞典的有效性。

        ? 無(wú)論是在實(shí)驗(yàn)組CRF還是在實(shí)驗(yàn)組BiLSTM-CRF上,基于領(lǐng)域情感詞典特征表示的模型+DOMAIN在各項(xiàng)性能上均優(yōu)于另外兩種加入其他情感詞典特征表示的模型,表明領(lǐng)域情感詞典可以更好地提高領(lǐng)域內(nèi)細(xì)粒度意見(jiàn)挖掘任務(wù)的性能。

        ? BiLSTM-CRF的整體性能優(yōu)于CRF,表明深度學(xué)習(xí)模型更適合本任務(wù)。

        4.6 與其他工作的對(duì)比

        我們將本文方法得到的實(shí)驗(yàn)結(jié)果與其他方法進(jìn)行了對(duì)比,對(duì)比結(jié)果如表14所示。其中,Yang,et al.基于文獻(xiàn)[14],采用Semi-Markov CRF作為序列標(biāo)注模型;Liu,et al.基于文獻(xiàn)[7],采用RNN作為序列標(biāo)注模型。由于本文用到的實(shí)驗(yàn)數(shù)據(jù)缺乏預(yù)訓(xùn)練分布式表示以及語(yǔ)言特征,實(shí)際測(cè)得性能要稍低于原作者提出的方法。Our對(duì)應(yīng)表13中性能最佳的模型BiLSTM-CRF+DOMAIN。通過(guò)對(duì)比可以看出,我們的模型取得了最好結(jié)果。

        表14 與其他方法的對(duì)比

        4.7 實(shí)例分析

        我們對(duì)各個(gè)模型在測(cè)試集上得到的序列標(biāo)注預(yù)測(cè)結(jié)果進(jìn)行分析后發(fā)現(xiàn):

        ? 在序列標(biāo)注模型中加入情感詞典特征表示的最大作用是改善原有基準(zhǔn)系統(tǒng)(BASELINE)對(duì)于低頻觀點(diǎn)表達(dá)的預(yù)測(cè)效果。

        ? 領(lǐng)域情感詞典相較其他情感詞典具有更高的覆蓋度。

        以表15給出的兩個(gè)實(shí)例對(duì)其進(jìn)行說(shuō)明。由于兩組實(shí)驗(yàn)取得了一致的預(yù)測(cè)結(jié)果,因此對(duì)其進(jìn)行了合并。

        表15 實(shí)例分析

        在第一個(gè)實(shí)例中,觀點(diǎn)表達(dá)“可靠”在訓(xùn)練數(shù)據(jù)中的出現(xiàn)頻次僅為6次,屬于低頻觀點(diǎn)表達(dá),因而兩組實(shí)驗(yàn)組的BASELINE模型都難以對(duì)其進(jìn)行識(shí)別。而“可靠”在知網(wǎng)情感詞典、大連理工情感詞典、電商領(lǐng)域情感詞典中都有出現(xiàn),因此加入情感詞典特征表示的各個(gè)模型都將其識(shí)別了出來(lái)。

        在第二個(gè)實(shí)例中,觀點(diǎn)表達(dá)“5星”是電商領(lǐng)域中產(chǎn)品的評(píng)分傾向,具有一定的領(lǐng)域特性。由于該詞條僅在電商領(lǐng)域情感詞典中出現(xiàn),因而只有+DOMAIN模型將其識(shí)別了出來(lái)。

        5 結(jié)論

        本文提出了一種基于領(lǐng)域情感詞典特征表示的細(xì)粒度意見(jiàn)挖掘方法。我們首先構(gòu)建一個(gè)新的電商領(lǐng)域情感詞典,然后基于該詞典在電商評(píng)論文本上構(gòu)建特征表示并將其加入序列標(biāo)注模型的輸入部分。該方法在不進(jìn)行復(fù)雜的特征設(shè)計(jì),不進(jìn)行過(guò)于耗時(shí)的預(yù)處理操作的前提下,充分利用情感詞典資源,豐富了序列標(biāo)注模型輸入部分的特征表示。實(shí)驗(yàn)結(jié)果表明,基于電商領(lǐng)域情感詞典的方法在CRF和BiLSTM-CRF這兩種序列標(biāo)注模型上都取得了良好的效果,并且超過(guò)其他情感詞典。本文構(gòu)建的領(lǐng)域情感詞典已經(jīng)公布在Github[注]https://github.com/zeitiempo/ECSD上,在業(yè)界共享。

        猜你喜歡
        文本情感模型
        一半模型
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        3D打印中的模型分割與打包
        男女动态91白浆视频| 在线观看免费无码专区| 中文字幕乱码亚洲精品一区| 久久精品国产网红主播| yeyecao亚洲性夜夜综合久久| 日本韩国三级aⅴ在线观看| 亚洲97成人精品久久久 | 国产人妖赵恩静在线视频| 亚洲一区二区三区综合网| 操国产丝袜露脸在线播放| 99re66在线观看精品免费| 久久亚洲国产成人精品性色| 美女裸体无遮挡免费视频的网站| 91网红福利精品区一区二| 亚洲国产综合精品一区| 久久免费看的少妇一级特黄片| 成人免费直播| 饥渴的熟妇张开腿呻吟视频| 国产成人无码精品午夜福利a| 狠狠狠色丁香婷婷综合激情| 男人天堂av在线成人av| 成人亚洲av网站在线看| 精品无码久久久久久久久水蜜桃| 欧美成免费a级毛片| 在线观看91精品国产免费免费| 99精品久久久中文字幕| 蜜桃传媒免费观看视频| 久久精品中文字幕无码绿巨人 | 欧美人妻精品一区二区三区| 国产精品公开免费视频| 国产精品丝袜一区二区三区在线| 亚洲综合日韩精品一区二区| 无码色av一二区在线播放| 日日噜噜夜夜狠狠久久无码区| 亚欧同人精品天堂| 日韩伦理av一区二区三区| 又硬又粗进去好爽免费| 精品久久久久久久久久中文字幕| 国产av一区二区三区丝袜| sm免费人成虐漫画网站| 免费一级淫片日本高清|