亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語(yǔ)組塊分析在情感分類(lèi)中的應(yīng)用研究

        2016-11-08 08:35:22杜思奇李紅蓮呂學(xué)強(qiáng)
        關(guān)鍵詞:組塊本體標(biāo)簽

        杜思奇 李紅蓮 呂學(xué)強(qiáng)

        1(北京信息科技大學(xué)信息與通信工程學(xué)院 北京 100101)2(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室 北京 100101)

        ?

        漢語(yǔ)組塊分析在情感分類(lèi)中的應(yīng)用研究

        杜思奇1李紅蓮1呂學(xué)強(qiáng)2

        1(北京信息科技大學(xué)信息與通信工程學(xué)院北京 100101)2(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室北京 100101)

        網(wǎng)絡(luò)產(chǎn)品評(píng)論的情感分析對(duì)網(wǎng)絡(luò)用戶的日常購(gòu)買(mǎi)行為有著重要的決策作用,因此,如何利用細(xì)?;奶幚矸椒ㄌ岣咔楦蟹治龅臏?zhǔn)確率,成為了一個(gè)熱門(mén)的研究話題。針對(duì)該問(wèn)題提出一種基于漢語(yǔ)組塊分析的情感識(shí)別方法,首先依靠漢語(yǔ)組塊分析對(duì)汽車(chē)評(píng)論語(yǔ)料進(jìn)行細(xì)?;奶幚聿⑻崛∏楦袠?biāo)簽,再結(jié)合情感詞本體和支持向量機(jī)模型對(duì)情感標(biāo)簽進(jìn)行分類(lèi),從而實(shí)現(xiàn)情感傾向性的判別。實(shí)驗(yàn)表明,采用漢語(yǔ)組塊分析的情感分類(lèi)方法相比其他的分類(lèi)算法平均準(zhǔn)確率提高了4%。因此,基于漢語(yǔ)組塊分析的情感分類(lèi)可以降低分類(lèi)器的輸入特征維數(shù),并有效提高分類(lèi)器的分類(lèi)性能。

        漢語(yǔ)組塊分析情感標(biāo)簽情感詞本體情感分類(lèi)

        0 引 言

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,電子商務(wù)受到了廣泛的關(guān)注,網(wǎng)絡(luò)用戶在線購(gòu)買(mǎi)行為的擴(kuò)大使各大電商的評(píng)價(jià)系統(tǒng)、口碑網(wǎng)站以及網(wǎng)絡(luò)論壇中保存的用戶在線評(píng)論的數(shù)量達(dá)到了驚人的數(shù)字。分析消費(fèi)者網(wǎng)絡(luò)購(gòu)物的模式可以發(fā)現(xiàn),在線評(píng)論對(duì)消費(fèi)者的購(gòu)買(mǎi)行為起著重要的決策作用[1]。在線評(píng)論的語(yǔ)言表達(dá)風(fēng)格自由,隱藏著用戶體驗(yàn)和個(gè)人情感信息。這些在線評(píng)論中的情感信息對(duì)于產(chǎn)品制造商和網(wǎng)絡(luò)銷(xiāo)售方改進(jìn)產(chǎn)品質(zhì)量和服務(wù)起著至關(guān)重要的作用。

        然而,隨著電子商務(wù)的不斷普及,在線評(píng)論的數(shù)量也在不斷地增長(zhǎng),依靠人工來(lái)分析每一條用戶評(píng)論顯然是不合適的。如何利用自動(dòng)化或半自動(dòng)化的方法挖掘出潛藏在用戶評(píng)論中的情感信息已經(jīng)成為了學(xué)術(shù)界和企業(yè)共同關(guān)注的問(wèn)題,情感分析也應(yīng)運(yùn)而生[2]。

        目前對(duì)于情感分析的方法主要分為基于情感詞典和基于機(jī)器學(xué)習(xí)的方法。其中基于情感詞典的情感分析方法主要是利用人工構(gòu)建的情感詞庫(kù)并結(jié)合規(guī)則來(lái)制定閾值,從而實(shí)現(xiàn)情感分類(lèi)。王曉東等[3]構(gòu)建了情感詞本體并利用詞類(lèi)信息對(duì)用戶評(píng)論進(jìn)行情感傾向性計(jì)算。董麗麗等[4]擴(kuò)展了HowNet(知網(wǎng))的情感詞集合并利用SBV算法對(duì)筆記本電腦的情感傾向性進(jìn)行分析。馮秀珍等[5]利用詞類(lèi)和詞性的相似度并根據(jù)閾值來(lái)實(shí)現(xiàn)情感分類(lèi)。

        基于機(jī)器學(xué)習(xí)的情感分析方法主要是提取評(píng)論文本中的情感特征,利用數(shù)據(jù)挖掘中的分類(lèi)算法實(shí)現(xiàn)情感分析,常用的分類(lèi)算法主要有支持向量機(jī)(SVM)和樸素貝葉斯算法。楊經(jīng)等[6]利用SVM并結(jié)合選定的基準(zhǔn)情感詞實(shí)現(xiàn)了文本情感分類(lèi)。王剛等[7]將SVM和集成學(xué)習(xí)理論相結(jié)合實(shí)現(xiàn)了對(duì)電影評(píng)論的情感分類(lèi)。鐘將等[8]利用矩陣投影并結(jié)合SVM實(shí)現(xiàn)了對(duì)汽車(chē)類(lèi)產(chǎn)品的情感傾向性計(jì)算。鐘將等[9]利用樸素貝葉斯算法并結(jié)合WordNet實(shí)現(xiàn)了對(duì)服務(wù)行業(yè)評(píng)論的褒貶極性分析。

        基于情感詞典的方法雖然對(duì)評(píng)論文本情感分類(lèi)準(zhǔn)確,但需要人工構(gòu)建完備的情感詞集合?;跈C(jī)器學(xué)習(xí)的方法在面對(duì)高維數(shù)據(jù)帶來(lái)的“高維災(zāi)難”時(shí)效果不佳。由于傳統(tǒng)的特征選擇算法[10]在選擇特征時(shí)對(duì)于降低輸入特征的維度表現(xiàn)不佳,直接影響了機(jī)器學(xué)習(xí)模型的分類(lèi)準(zhǔn)確率。

        本文從降低分類(lèi)器輸入特征的維度、提高分類(lèi)準(zhǔn)確率出發(fā),提出了一種利用漢語(yǔ)組塊分析對(duì)評(píng)論語(yǔ)料進(jìn)行細(xì)?;幚?,從而獲得情感標(biāo)簽,并結(jié)合情感詞本體與機(jī)器學(xué)習(xí)模型進(jìn)行情感傾向性分析的方法,采用如圖1所示的流程對(duì)評(píng)論文本進(jìn)行情感分類(lèi)。實(shí)驗(yàn)結(jié)果表明,這種情感分析方法能夠取得較好的分類(lèi)效果。

        圖1 基于漢語(yǔ)組塊分析的情感分析流程示意圖

        1 基于漢語(yǔ)組塊分析的細(xì)?;幚?/h2>

        1.1漢語(yǔ)組塊分析概述

        句法分析是自然語(yǔ)言處理研究領(lǐng)域的一個(gè)重點(diǎn)和難點(diǎn),它的基本任務(wù)是識(shí)別出漢語(yǔ)句子中的不同句子成分或依存關(guān)系。以獲取句子局部信息為目的的句法分析稱(chēng)為淺層句法分析,漢語(yǔ)組塊分析就是一種淺層句法分析。

        漢語(yǔ)組塊分析借助語(yǔ)言學(xué)中的語(yǔ)塊理論[11],對(duì)輸入的漢語(yǔ)句子進(jìn)行漢語(yǔ)解析,從而構(gòu)成了從詞法分析過(guò)渡到句法分析的一座橋梁。本文利用漢語(yǔ)組塊分析對(duì)評(píng)論文本進(jìn)行處理,從而提取出用戶評(píng)論中的情感標(biāo)簽。

        漢語(yǔ)組塊分析對(duì)經(jīng)過(guò)漢語(yǔ)分析和詞性標(biāo)注的漢語(yǔ)詞語(yǔ)序列處理后主要產(chǎn)生兩部分信息:1)詞界塊:將輸入的詞語(yǔ)序列中的相同句法成分劃分在同一個(gè)漢語(yǔ)塊中,這樣詞語(yǔ)序列就形成了連續(xù)的詞界塊序列;2)漢語(yǔ)塊成分標(biāo)記:類(lèi)似于詞性標(biāo)注,給每一個(gè)漢語(yǔ)塊標(biāo)記一個(gè)句法信息標(biāo)記。

        通過(guò)上面的分析可知,要進(jìn)行漢語(yǔ)組塊分析前,首先需要定義使用的漢語(yǔ)塊成分標(biāo)記。本文所使用的漢語(yǔ)塊成分標(biāo)記如表1所示。

        表1 漢語(yǔ)組塊成分標(biāo)記說(shuō)明

        通過(guò)漢語(yǔ)組塊分析對(duì)評(píng)論文本進(jìn)行漢語(yǔ)塊成分標(biāo)注處理,可以依靠漢語(yǔ)塊信息抽取出用戶評(píng)論中的情感標(biāo)簽,從而進(jìn)行細(xì)?;那楦蟹治?。

        1.2基于支持向量機(jī)的漢語(yǔ)組塊分析

        目前主要利用機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行詞界塊的識(shí)別和漢語(yǔ)塊的標(biāo)記。主要的機(jī)器學(xué)習(xí)算法有最大熵模型、Adaboost算法、條件隨機(jī)場(chǎng)模型、隱馬爾可夫模型以及錯(cuò)誤學(xué)習(xí)算法[12]等。本文利用臺(tái)灣大學(xué)資訊工程系提供的LIBSVM工具箱[13]來(lái)進(jìn)行漢語(yǔ)組塊分析。

        對(duì)漢語(yǔ)評(píng)論文本進(jìn)行組塊分析,實(shí)際上就是對(duì)分析后的漢語(yǔ)文本輸出一組漢語(yǔ)塊序列,舉例如下:

        假設(shè)輸入的漢語(yǔ)評(píng)論文本為:性?xún)r(jià)比很低,中級(jí)車(chē)中算差的。利用中國(guó)科學(xué)院計(jì)算技術(shù)研究所提供的中文分詞軟件對(duì)該漢語(yǔ)評(píng)論文本進(jìn)行二級(jí)分詞和詞性標(biāo)注后輸出:性?xún)r(jià)比/n 很/d 低/a,/w 中級(jí)車(chē)/n 中/f 算/v 差/a 的/u。/w。

        對(duì)經(jīng)過(guò)漢語(yǔ)分詞和詞性標(biāo)注等預(yù)處理操作的文本進(jìn)行漢語(yǔ)組塊分析后得到如下漢語(yǔ)塊序列:性?xún)r(jià)比/n [ ap 很/d 低/a ],/w [ sp 中級(jí)車(chē)/n 中/f ] [ ap 算/v 差/a 的/u ]。/w。

        在上面的例子中,名詞“性?xún)r(jià)比” 是用戶評(píng)論的對(duì)象,其中副詞“很”和形容詞“低”以及動(dòng)詞“算/v”、形容詞“差”和助詞“的/u”分別構(gòu)成了兩個(gè)形容詞塊“[ ap 很/d 低/a ]”和“[ ap 算/v 差/a 的/u ]”。另外,應(yīng)當(dāng)注意到名詞“中級(jí)車(chē)/n”和方位詞“中/f”構(gòu)成了空間詞塊“[ sp 中級(jí)車(chē)/n 中/f ]”。通過(guò)漢語(yǔ)組塊分析可以很清楚地發(fā)現(xiàn)該用戶所描述的對(duì)象是“性?xún)r(jià)比”,并使用了兩個(gè)具有情感信息的形容詞塊“[ ap 很/d 低/a ]”和“[ ap 算/v 差/a 的/u ]” 來(lái)描述所購(gòu)買(mǎi)的汽車(chē)的性?xún)r(jià)比。

        通過(guò)上述分析,可以發(fā)現(xiàn)漢語(yǔ)組塊分析的任務(wù)可以歸結(jié)為一個(gè)多分類(lèi)任務(wù)。支持向量機(jī)作為一種有監(jiān)督的分類(lèi)學(xué)習(xí)模型,需要提供一組實(shí)例來(lái)訓(xùn)練模型。本文在考慮了上下文關(guān)系后,選擇了詞特征、詞性特征以及漢語(yǔ)塊特征作為支持向量機(jī)的分類(lèi)依據(jù)。這樣分類(lèi)模型x可以由以下12個(gè)特征來(lái)表示:

        x=T(ωi-2,ti-2,ci-2,ωi-1,ti-1,ci-1,ωi,ti,ωi+1,ti+1,ωi+1,ti+2)

        (1)

        上述三類(lèi)特征可以做如下解釋?zhuān)?/p>

        (1) 詞特征: ωi-2、ωi-1、ωi、ωi+1、ωi+2;

        (2) 詞性特征:ti-2、ti-1、ti、ti+1、ti+2;

        (3) 漢語(yǔ)塊特征:ci-2、ci-1。

        漢語(yǔ)組塊的流程可以如圖2所示。

        圖2 漢語(yǔ)組塊分析流程圖

        為了進(jìn)行漢語(yǔ)組塊分析,本文選擇了一些上下文特征,例如:上下文中的詞、詞性和漢語(yǔ)塊。考慮到在線評(píng)論文本中的評(píng)論句長(zhǎng)度,本文采用{-5,5}為上下文窗口獲得的中心詞附近的語(yǔ)言學(xué)特征較為合適。

        由于在數(shù)據(jù)分類(lèi)中經(jīng)常遇到線性不可分的問(wèn)題,對(duì)于這些問(wèn)題可以利用核技巧理論將輸入向量通過(guò)高維函數(shù)映射到高維空間。一般而言,如果選擇的映射函數(shù)合適,絕大多數(shù)的低維不可分問(wèn)題都可以在高維空間可分。在漢語(yǔ)組塊分析的任務(wù)中,本文選擇了多項(xiàng)式核函數(shù)。

        據(jù)統(tǒng)計(jì),在實(shí)驗(yàn)語(yǔ)料中絕大多數(shù)的產(chǎn)品屬性和評(píng)價(jià)詞可以通過(guò)就近匹配的方式抽取出來(lái),所以通過(guò)這種匹配式的位置信息,可以在漢語(yǔ)組塊分析后進(jìn)一步抽取出與評(píng)論實(shí)體較近的產(chǎn)品評(píng)價(jià)。

        1.3情感標(biāo)簽抽取

        對(duì)評(píng)論文本進(jìn)行細(xì)?;那楦蟹治銮?,首先要抽取出評(píng)論中所隱藏的情感標(biāo)簽。一般而言,評(píng)論主要由評(píng)價(jià)對(duì)象以及含有褒貶傾向性的情感詞組成。因此,情感標(biāo)簽可以由如下所示的二元組組成:

        emotion_label=

        (2)

        二元組中,s表示用戶評(píng)論的對(duì)象,o表示用戶評(píng)價(jià)對(duì)象所使用的情感詞。

        由于本文所用的評(píng)論語(yǔ)料是在線汽車(chē)類(lèi)商品的評(píng)論語(yǔ)料,所以用戶評(píng)論的對(duì)象s可以由如表2所示的8個(gè)汽車(chē)類(lèi)產(chǎn)品的公有特征組成。

        表2 汽車(chē)類(lèi)產(chǎn)品公有特征

        由于實(shí)際語(yǔ)料并不是很規(guī)范,還有一些關(guān)于這8個(gè)特征的其他描述方式。本文通過(guò)對(duì)漢語(yǔ)組塊分析后的結(jié)果,進(jìn)行評(píng)價(jià)實(shí)體抽取。將不同描述方式映射為如表2所示的8個(gè)特征,映射方式如表3所示。

        表3 評(píng)論實(shí)體映射關(guān)系表

        這樣,通過(guò)上述的映射關(guān)系表,就可以對(duì)語(yǔ)料的規(guī)范化進(jìn)行處理,統(tǒng)一評(píng)論文本中的關(guān)于評(píng)論實(shí)體的說(shuō)法,方便后續(xù)的處理。

        通過(guò)上面的敘述,用戶評(píng)論對(duì)象可以表示為:

        s={s1,s2,…,s8}

        (3)

        用戶評(píng)論情感詞o是指用戶對(duì)于某一產(chǎn)品特征進(jìn)行評(píng)論時(shí),所使用的具有褒貶傾向性的描述詞匯。

        通過(guò)對(duì)在線評(píng)論文本漢語(yǔ)組塊后,分析組塊結(jié)果發(fā)現(xiàn),可以描述產(chǎn)品特征的情感詞匯主要由形容詞類(lèi)以及動(dòng)詞類(lèi)信息構(gòu)成。形容詞類(lèi)信息主要包括形容詞塊以及漢語(yǔ)塊外的自由形容詞,動(dòng)詞類(lèi)信息主要由動(dòng)詞塊以及漢語(yǔ)塊外的動(dòng)詞類(lèi)信息構(gòu)成。

        因此,對(duì)于用戶評(píng)論的褒貶信息組要抽取上述的形容詞類(lèi)信息以及動(dòng)詞類(lèi)信息。

        由于有些在線評(píng)論可能會(huì)包含多個(gè)評(píng)論實(shí)體,本文為了便于分析定義了小句的概念。小句可以描述為由漢語(yǔ)塊外的逗號(hào)、分號(hào)、句號(hào)、問(wèn)號(hào)、感嘆號(hào)等點(diǎn)號(hào)分割的漢語(yǔ)句子序列片段。通過(guò)逐一分析組成評(píng)論的每一個(gè)小句就可以提取出該評(píng)論內(nèi)的評(píng)論實(shí)體和評(píng)價(jià)詞。

        經(jīng)過(guò)漢語(yǔ)組塊分析后,每一條評(píng)論文本可以構(gòu)成類(lèi)似“大眾/nr 的/u 油耗/n [ ap 偏/d 高/a ],/w 同時(shí)/c 動(dòng)力/n 弱/a。/w”的漢語(yǔ)塊序列。根據(jù)該句子中出現(xiàn)的點(diǎn)號(hào)(,/w)可以將該漢語(yǔ)塊序列切分為兩個(gè)小句片段:s1=大眾/nr 的/u 油耗/n [ ap 偏/d 高/a ],/w和s2=同時(shí)/c 動(dòng)力/n 弱/a。/w。根據(jù)上述對(duì)于情感標(biāo)簽的分析,分別對(duì)小句片段s1和s2提取評(píng)論對(duì)象和情感詞o。

        對(duì)于小句序列s1,它的情感標(biāo)簽由產(chǎn)品特征“油耗/n”以及構(gòu)成情感傾向性的形容詞塊“[ap偏/d高]”構(gòu)成;小句序列s2的情感標(biāo)簽由產(chǎn)品特征“動(dòng)力/n”以及含有情感褒貶信息的漢語(yǔ)塊外的自由形容詞“弱/a”構(gòu)成。

        這樣,構(gòu)成該評(píng)論的情感標(biāo)簽可以描述為:

        emotion_label*=<油耗/n,[ap偏/d 高/a ];動(dòng)力/n,弱/a>

        基于上面的分析,對(duì)經(jīng)過(guò)漢語(yǔ)組塊分析后的評(píng)論文本逐一提取產(chǎn)品特征和情感詞,就可以由情感標(biāo)簽來(lái)描述每一條評(píng)論。這樣就由粗粒度的句子級(jí)情感分析縮小到了細(xì)粒度的情感標(biāo)簽級(jí)的情感傾向性識(shí)別。

        經(jīng)過(guò)上述分析,可以對(duì)評(píng)論語(yǔ)料中的情感信息進(jìn)行抽取。由于部分抽取出的信息是非情感的,但是抽取后情感信息總體抽取準(zhǔn)確率達(dá)到了77.62%,表明通過(guò)漢語(yǔ)組塊分析后對(duì)評(píng)論信息進(jìn)行抽取是可行的。

        2 評(píng)論細(xì)粒度的情感分析

        在對(duì)評(píng)論文本進(jìn)行漢語(yǔ)組塊分析,以及情感標(biāo)簽提取的基礎(chǔ)上,本文結(jié)合情感詞匯本體和機(jī)器學(xué)習(xí)算法進(jìn)行評(píng)論文本的細(xì)粒度情感分析。

        2.1情感詞本體的選擇與擴(kuò)展

        使用情感詞匯本體來(lái)進(jìn)行情感分類(lèi),可以獲得情感詞的情感分類(lèi)、情感強(qiáng)度以及情感極性等情感詞特征。這些特征可以作為基于機(jī)器學(xué)習(xí)的情感分類(lèi)的實(shí)例特征。

        本文所使用的情感詞匯本體是由大連理工大學(xué)提供的[14],該情感詞匯本體共收錄了27 476個(gè)詞,這些情感詞被分為7個(gè)情感大類(lèi)和21個(gè)情感小類(lèi)。其中,情感大類(lèi)包括:樂(lè)(happy)、好(like)、怒(anger)、哀(sad)、懼(fear)、惡(disgust)和驚(surprise)。情感小類(lèi)由:安心(PE)、快樂(lè)(PA)、喜愛(ài)(PB)、相信(PG)、贊揚(yáng)(PH)、尊敬(PD)、憤怒(NA)、內(nèi)疚(NH)、失望(NJ)、悲傷(NB)、恐懼(NI)、害羞(NG)、懷疑(NL)、嫉妒(NK)、貶責(zé)(NN)、憎惡(ND)、煩悶(NE)、驚奇(PC)等組成。

        由于本文所進(jìn)行的是對(duì)在線評(píng)論的多分類(lèi),因此7個(gè)情感大類(lèi)結(jié)合情感傾向性可以分為:

        (1) 積極(positive):樂(lè)(happy)、好(like);

        (2) 消極(negative):怒(anger)、哀(sad)、懼(fear)、惡(fear);

        (3) 中立(neutral):驚(surprise)。

        由于網(wǎng)絡(luò)在線評(píng)論中存在大量的衍生情感詞匯、網(wǎng)絡(luò)新詞以及隱含情感詞,僅僅依靠現(xiàn)有的情感詞匯本體遠(yuǎn)遠(yuǎn)不能覆蓋在線評(píng)論文本中的情感詞,所以還需要對(duì)現(xiàn)有的情感詞匯本體進(jìn)行擴(kuò)展。對(duì)于未登錄的情感詞的擴(kuò)充,需要以情感詞匯本體中的情感詞為基準(zhǔn)詞匯,通過(guò)點(diǎn)間互信息(PMI)來(lái)計(jì)算未登錄的情感詞與基準(zhǔn)情感詞之間的共現(xiàn)程度,從而達(dá)到擴(kuò)展情感詞匯本體的目的。本文以情感詞匯本體中的情感詞作為基準(zhǔn)情感詞,以漢語(yǔ)組塊分析后提取出的情感詞信息作為擴(kuò)展信息。PMI的計(jì)算公式如下所示:

        (4)

        PMI的數(shù)值共有三種狀態(tài):

        (1)PMI(word1,word2)>0:未登錄情感詞與基準(zhǔn)情感詞相關(guān);

        (2)PMI(word1,word2)=0:未登錄情感詞與基準(zhǔn)情感詞統(tǒng)計(jì)獨(dú)立;

        (3)PMI(word1,word2)<0:未登錄情感詞與基準(zhǔn)情感詞不相關(guān)。

        本文選擇與未登錄情感詞最相關(guān)的基準(zhǔn)情感詞,將該基準(zhǔn)詞的情感分類(lèi)、情感強(qiáng)度和情感極性作為該未登錄詞的屬性,從而實(shí)現(xiàn)對(duì)情感詞匯本體的擴(kuò)展。

        另外還有一些比較特殊的未登錄情感詞,這些詞匯由已知的情感詞匯和程度副詞構(gòu)成,例如:不滿意(滿意是已知的基準(zhǔn)情感詞匯)。根據(jù)對(duì)否定副詞的情感強(qiáng)烈程度,可以將相應(yīng)的情感小類(lèi)的標(biāo)簽賦給這些加了否定前綴的情感詞,如表4所示。

        表4 程度副詞實(shí)例

        通過(guò)上面的分析就可以對(duì)原有的情感詞匯本體進(jìn)行擴(kuò)展,從而構(gòu)建出利于分析汽車(chē)評(píng)論情感傾向性的情感詞匯本體。

        2.2基于機(jī)器學(xué)習(xí)的情感傾向性分析

        本文利用SVM對(duì)汽車(chē)評(píng)論文本進(jìn)行情感傾向性分類(lèi)研究。通過(guò)漢語(yǔ)組塊分析和情感標(biāo)簽抽取,實(shí)現(xiàn)了提取評(píng)論文本中的細(xì)粒度特征。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的情感分類(lèi)方法利用詞特征作為特征實(shí)例,這時(shí)往往由于輸入數(shù)據(jù)的維度過(guò)大從而削弱了機(jī)器學(xué)習(xí)模型的泛化能力。

        通過(guò)擴(kuò)展情感詞匯本體,可以查詢(xún)到情感標(biāo)簽中某一情感詞的情感分類(lèi)(c)、情感強(qiáng)度(h)以及情感極性(p)。本文將情感標(biāo)簽和這三個(gè)通過(guò)本體查詢(xún)到的擴(kuò)展信息作為SVM的特征向量,如果情感標(biāo)簽中只含有一個(gè)評(píng)論對(duì)象(單一評(píng)論對(duì)象),那么特征向量可以表示為:

        x1=T1(s1,c1,h1,p1)

        (5)

        對(duì)上述四個(gè)特征的解釋如下:

        (1) 產(chǎn)品特征s1:情感標(biāo)簽中的產(chǎn)品特征。由于本文分析的是汽車(chē)類(lèi)產(chǎn)品,所以該特征為汽車(chē)類(lèi)產(chǎn)品的8個(gè)公有特征之一。

        (2) 情感分類(lèi)特征c1:在情感詞匯本體中查詢(xún)到的情感標(biāo)簽中情感詞的類(lèi)別。由于本文使用的情感詞匯本體是大連理工大學(xué)構(gòu)建的情感詞本體,所以該特征為21個(gè)小類(lèi)中的一個(gè)。

        (3) 情感強(qiáng)度特征h1:在情感詞匯本體中查詢(xún)到的情感標(biāo)簽中情感詞的情感強(qiáng)度,情感強(qiáng)度分為{1,3,5,7,9}五檔,9表示強(qiáng)情感度最大,1表示情感強(qiáng)度最小。

        (4) 情感極性特征p1:在情感詞匯本體中查詢(xún)到的情感標(biāo)簽中情感詞的情感極性,情感極性由{0,1,2}表示,0表示中性,1表示褒義,2表示貶義。

        如果一條在線評(píng)論中包含多個(gè)產(chǎn)品特征,那么該情感標(biāo)簽就由多個(gè)單一評(píng)論對(duì)象的情感標(biāo)簽組成,該情感標(biāo)簽的特征向量可以表示為:

        x=T(x1,x2,…,xn)

        (6)

        通過(guò)抽取情感標(biāo)簽,并結(jié)合情感詞匯本體和機(jī)器學(xué)習(xí)模型,就可以將依靠本體查詢(xún)到的擴(kuò)展信息作為SVM的分類(lèi)依據(jù),從而避免了直接將詞特征作為分類(lèi)依據(jù),降低了“高維災(zāi)難”對(duì)分類(lèi)模型泛化能力的影響。另外,SVM的核函數(shù)采用了徑向基函數(shù)。

        3 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證本文所采用的情感分析的方法的有效性,本文利用汽車(chē)之家(http://www.autohome.com/cn)所提供的汽車(chē)類(lèi)產(chǎn)品的評(píng)論語(yǔ)料作為實(shí)驗(yàn)對(duì)象。該評(píng)論語(yǔ)料共包含2000條正面評(píng)價(jià)、2000條中性評(píng)價(jià)和2000條負(fù)面評(píng)價(jià)。

        本文所用的實(shí)驗(yàn)環(huán)境:計(jì)算機(jī)CPU為Intel CORE i5,內(nèi)存4 GB,操作系統(tǒng)為Windows 8.1,采用Visual studio 2010。其中情感分類(lèi)實(shí)驗(yàn)利用了新西蘭懷卡托大學(xué)機(jī)器學(xué)習(xí)小組提供的懷卡托智能分析環(huán)境(http://www.cs.waikato.ac.nz/ml/index.html)。

        為了提高情感分類(lèi)實(shí)驗(yàn)的有效性和可靠性,實(shí)驗(yàn)采用了4倍交叉驗(yàn)證法,即將實(shí)驗(yàn)數(shù)據(jù)劃分為4個(gè)相等的數(shù)據(jù)集。每一個(gè)數(shù)據(jù)集中包含500條好評(píng)、500條中評(píng)以及500條差評(píng)。每一次實(shí)驗(yàn)時(shí)利用3個(gè)數(shù)據(jù)集來(lái)訓(xùn)練分類(lèi)模型,用剩下的1個(gè)數(shù)據(jù)集來(lái)測(cè)試,每個(gè)數(shù)據(jù)集輪流測(cè)試一遍,整體的實(shí)驗(yàn)流程如圖3所示。

        圖3 實(shí)驗(yàn)流程

        本文利用宏平均準(zhǔn)確率(MP)、宏平均召回率(MR)和整體平均正確率(P)來(lái)進(jìn)行評(píng)價(jià)。本文首先和文獻(xiàn)[11]進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示。

        表5 對(duì)比實(shí)驗(yàn)1

        文獻(xiàn)[11]所采用的SVM分類(lèi)方法是利用詞特征和詞性特征作為訓(xùn)練實(shí)例;本文所采用的方法是利用漢語(yǔ)組塊分析提取評(píng)論文本中的情感標(biāo)簽,進(jìn)而進(jìn)行細(xì)?;那楦蟹诸?lèi)實(shí)驗(yàn)。文獻(xiàn)[11]的平均準(zhǔn)確率為79.43%,本文的平均準(zhǔn)確率為84.53%。實(shí)驗(yàn)1的結(jié)果表明,通過(guò)漢語(yǔ)組塊分析來(lái)進(jìn)行細(xì)粒的情感分析,對(duì)于降低SVM的輸入特征的維度從而提高分類(lèi)的準(zhǔn)確率是有效的。

        另外,本文和文獻(xiàn)[5]進(jìn)行對(duì)比實(shí)驗(yàn),文獻(xiàn)[5]由于采用了基于規(guī)則和加權(quán)的方法來(lái)實(shí)現(xiàn)情感分析,所以不能利用上述評(píng)判機(jī)器學(xué)習(xí)的方法來(lái)評(píng)價(jià)文獻(xiàn)[5]。本文利用四折后的平均準(zhǔn)確率和文獻(xiàn)[5]的平均準(zhǔn)確率比較,結(jié)果如表6所示。

        表6 對(duì)比實(shí)驗(yàn)2

        文獻(xiàn)[5]采用基于規(guī)則的詞法分析的方法來(lái)進(jìn)行情感分類(lèi),本文采用淺層句法分析的方法來(lái)進(jìn)行細(xì)?;那楦袃A向性分類(lèi)。對(duì)比實(shí)驗(yàn)2表明,利用句法分析可以有效識(shí)別句子中的成分,從而提取情感標(biāo)簽,相比基于規(guī)則的方法不會(huì)受到預(yù)先定義的規(guī)則的局限性。

        通過(guò)對(duì)比實(shí)驗(yàn)1和對(duì)比實(shí)驗(yàn)2可知,本文所采用的方法由于基于規(guī)則的方法,相比傳統(tǒng)的利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)的情感分類(lèi)算法有一定的提高,表明利用細(xì)粒度的情感分析能夠準(zhǔn)確識(shí)別用戶評(píng)論中的情感傾向性。

        4 結(jié) 語(yǔ)

        本文引入漢語(yǔ)組塊分析,對(duì)評(píng)論文本進(jìn)行細(xì)粒化處理,并提取情感標(biāo)簽,在情感分類(lèi)中利用情感詞本體和機(jī)器學(xué)習(xí)相結(jié)合的方法進(jìn)行情感傾向性判別。相比其他方法,本文方法的準(zhǔn)確率有一定的提高,同時(shí)保持了較高的召回率,說(shuō)明進(jìn)行細(xì)粒的情感分析對(duì)于提高分類(lèi)器的性能是可靠的。將來(lái),我們還將結(jié)合漢語(yǔ)組塊分析在人工智能方面進(jìn)行更深入的研究。

        [1] 嚴(yán)建援,張麗,張蕾.電子商務(wù)中在線評(píng)論內(nèi)容對(duì)評(píng)論有用性影響的實(shí)證研究[J].情報(bào)科學(xué),2012,30(5):713-716,719.

        [2] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

        [3] 王曉東,王娟,張征.基于情感詞匯本體的主觀性句子傾向性計(jì)算[J].計(jì)算機(jī)應(yīng)用,2012,32(6):1678-1681,1684.

        [4] 董麗麗,趙繁榮,張翔.基于領(lǐng)域本體、情感詞典的商品評(píng)論傾向性分析[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(12):104-108,194.

        [5] 馮秀珍,郝鵬.基于詞性分析的產(chǎn)品評(píng)價(jià)信息挖掘[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(1):283-288.

        [6] 楊經(jīng),林世平.基于SVM的文本詞句情感分析[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(9):225-228.

        [7] 王剛,楊善林.基于RS-SVM的網(wǎng)絡(luò)商品評(píng)論情感分析研究[J].計(jì)算機(jī)科學(xué),2013,40(11A):274-277.

        [8] 鐘將,楊思源,孫啟干.基于文本分類(lèi)的商品評(píng)價(jià)情感分析[J].計(jì)算機(jī)應(yīng)用,2014,34(8):2317-2321.

        [9] 鐘將,鄧時(shí)滔. 基于多特征融合的漢語(yǔ)情感分類(lèi)研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(1):98-100.

        [10] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類(lèi)實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4.

        [11] 薛小芳,施春宏.語(yǔ)塊的性質(zhì)及漢語(yǔ)語(yǔ)塊系統(tǒng)的層級(jí)關(guān)系[J].當(dāng)代修辭學(xué),2013(3):32-46.

        [12] 王天航,史樹(shù)敏,龍從軍,等. 基于錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)策略的藏語(yǔ)句法功能組塊邊界識(shí)別[J].中文信息學(xué)報(bào),2014,28(5):170-175,191.

        [13] LIN C. Libsvm——A libraty for supporter vector machines[OL].[2015-05-08]. http://www.csie.ntu.edu.tw/~cjlin/.

        [14] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.

        [15] 周杰,林琛,李弼程.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)新聞評(píng)論情感分類(lèi)研究[J].計(jì)算機(jī)應(yīng)用,2010,30(4):1011-1014.

        [16] 夏夢(mèng)南,杜永萍,左本欣.基于依存分析與特征組合的微博情感分析[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2014,49(11):22-30.

        [17] 李綱,劉廣興,毛進(jìn),等. 一種基于句法分析的情感標(biāo)簽抽取方法[J].圖書(shū)情報(bào)工作,2014,58(14):12-20.

        [18] 歐陽(yáng)純萍,陽(yáng)小華,雷龍艷,等.多策略中文微博細(xì)粒度情緒分析研究[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2014,50(1):67-72.

        [19] 賀飛艷,何炎祥,劉楠,等.面向微博短文本的細(xì)粒度情感特征抽取方法[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版,2014,50(1):48-54.

        [20] Liu B. Sentiment analysis and opinion mining[M]. USA: Morgan & Claypool,2012:1-167.

        [21] Guojon B. Text mining for opinion target detection[C]// Proceedings of the 2011 European Intelligence and Security Informatics Conference. Piscataway: IEEE Press,2011:322-326.

        [22] Pak A,Paroubek P. Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of the 2010 International Conference on Language Resources and Evaluation. Paris: European Language Resources Association,2010:17-23.

        [23] Somprasetspi G, Lalitrojwong P. Mining feature-opinion in online customer reviews for opinion summarization[J].Journal of Universal Computer Science,2010,16(6):938-955.

        ON APPLYING CHINESE CHUNK PARSING IN SENTIMENT CLASSIFICATION

        Du Siqi1Li Honglian1Lü Xueqiang2

        1(SchoolofInformationandCommunicationEngineering,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)2(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)

        The sentiment analysis of online product reviews plays an important role in decision-making of Internet users’ daily purchase behaviour, therefore, the way to well use fine-grained processing method in improving the accuracy of sentiment analysis becomes a hot research topic. Aiming at this issue, the paper proposes a Chinese chunk parsing-based emotion recognition method. First, it relies on Chinese chunk parsing to make fine-grained processing on car reviews corpus and extracts the emotion labels as well. Then, it combines sentiment words ontology and support vector machine model to classify emotion labels so as to implement the discrimination of emotional orientation. It is demonstrated by experiment that compared with other classification algorithms, the sentiment classification method using Chinese chunk parsing improves the average accuracy by 4%. Therefore the sentiment classification based on Chinese chunk parsing can reduce the input feature dimensions and effectively improve the performance of classifier.

        Chinese chunk parsingEmotion labelSentiment words ontologySentiment classification

        2015-06-30。國(guó)家自然科學(xué)基金項(xiàng)目(61271304);北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類(lèi)重點(diǎn)項(xiàng)目(KZ201311232037)。杜思奇,碩士生,主研領(lǐng)域:自然語(yǔ)言處理。李紅蓮,副教授。呂學(xué)強(qiáng),教授。

        TP391.1

        A

        10.3969/j.issn.1000-386x.2016.10.037

        猜你喜歡
        組塊本體標(biāo)簽
        Abstracts and Key Words
        橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車(chē)迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        陸豐7-2油田導(dǎo)管架平臺(tái)上部組塊低位浮托安裝關(guān)鍵技術(shù)
        標(biāo)簽化傷害了誰(shuí)
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        基于多進(jìn)制查詢(xún)樹(shù)的多標(biāo)簽識(shí)別方法
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        最近中文字幕大全在线电影视频| 国产影片免费一级内射| 日本高清视频在线观看一区二区 | 玩弄极品少妇被弄到高潮| 日本一级二级三级不卡| 久久久久无码国产精品一区| 成年女人毛片免费视频| 久久99亚洲综合精品首页| 精品国产色哟av一区二区三区| 亚洲av色香蕉一区二区三区| 欧美人与动牲猛交xxxxbbbb| 色www亚洲| 高潮av一区二区三区| 久久精品丝袜高跟鞋| 越南女子杂交内射bbwxz| 精品午夜一区二区三区久久| 成人自拍三级在线观看| 欧美激情肉欲高潮视频| 色一情一区二| 亚洲AⅤ乱码一区二区三区| 91l视频免费在线观看| 尤物在线精品视频| 国产一区二区波多野结衣| 性感人妻一区二区三区| 日韩精品第一区二区三区 | 久久久久久一本大道无码| 成人av毛片免费大全| 韩国三级中文字幕hd| 国产一及毛片| 一区二区三区少妇熟女高潮| 女优一区二区三区在线观看| 人妻丰满熟妇av无码片| 欧美色资源| 狼人精品剧情av在线观看| 午夜射精日本三级| 亚洲综合无码| 日韩av综合色区人妻| 午夜精品久久久久久久| 老少交欧美另类| 日本女优一区二区在线免费观看| 美女视频在线观看亚洲色图|