亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中文網(wǎng)絡(luò)評(píng)論情感分類(lèi)的集成學(xué)習(xí)框架

        2018-10-19 03:13:54黃佳鋒劉志煌黃英仁李萬(wàn)理
        中文信息學(xué)報(bào) 2018年9期
        關(guān)鍵詞:分類(lèi)特征文本

        黃佳鋒,薛 云,2,盧 昕,劉志煌,吳 威,黃英仁,李萬(wàn)理,陳 鑫,3

        (1. 華南師范大學(xué) 物理與電信工程學(xué)院,廣東 廣州 510006;2. 廣東省數(shù)據(jù)科學(xué)工程技術(shù)研究中心,廣東 廣州 510006;3. 深圳職業(yè)技術(shù)學(xué)院 工業(yè)中心,廣東 深圳 518055)

        0 引言

        隨著電子商務(wù)行業(yè)的發(fā)展,產(chǎn)生了大量的網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)。面對(duì)這些海量的網(wǎng)絡(luò)評(píng)論,消費(fèi)者需要快速了解評(píng)論的情感傾向,優(yōu)化自己的購(gòu)買(mǎi)決策,而商家也需要從消費(fèi)者的網(wǎng)絡(luò)評(píng)論情感傾向中總結(jié)得到商品的市場(chǎng)反饋信息,對(duì)商品進(jìn)行改善。因此,如何對(duì)評(píng)論文本進(jìn)行情感分類(lèi)已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究課題。

        文本情感分類(lèi)常用的技術(shù)分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。但是基于規(guī)則的方法所描述的語(yǔ)言規(guī)則非常有限,難以處理復(fù)雜的、非結(jié)構(gòu)化的中文網(wǎng)絡(luò)評(píng)論文本[1];而基于統(tǒng)計(jì)的方法一般很難通過(guò)單個(gè)算法構(gòu)造一個(gè)高準(zhǔn)確率的分類(lèi)模型,即某些模型可能只對(duì)一類(lèi)或幾類(lèi)問(wèn)題有效,而在其他問(wèn)題上的效果不好,泛化能力差。為了改善這些缺陷,集成學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生,并在文本情感分類(lèi)任務(wù)上驗(yàn)證了集成學(xué)習(xí)的有效性[2]。

        但是在針對(duì)中文網(wǎng)絡(luò)評(píng)論文本的情感分類(lèi)任務(wù)上,目前還存在以下三個(gè)挑戰(zhàn): 第一,中文網(wǎng)絡(luò)評(píng)論具有表達(dá)多樣化、句子長(zhǎng)度不一致的特點(diǎn),在特征提取時(shí),以TF-IDF為代表的單詞權(quán)重計(jì)算方法[3-4],容易造成文本特征語(yǔ)義信息缺失、特征向量稀疏等問(wèn)題。第二,由于中文網(wǎng)絡(luò)評(píng)論文本的復(fù)雜性,從中提取到的特征通常達(dá)到上千個(gè),經(jīng)典的Random Subspace集成學(xué)習(xí)方法[5]雖然可以解決特征繁多問(wèn)題,但是由于特征子空間是完全隨機(jī)抽取的,難以保證基分類(lèi)器的性能。第三,一個(gè)評(píng)論文本很可能包含多個(gè)產(chǎn)品屬性詞語(yǔ),這些屬性共同決定著評(píng)論的情感傾向,以往的句子級(jí)情感分類(lèi)方法通常把評(píng)論中的所有屬性都當(dāng)成一個(gè)整體,沒(méi)有單獨(dú)分析每個(gè)屬性帶有的情感信息,容易造成情感類(lèi)別誤判。

        針對(duì)上述問(wèn)題,本文提出一種針對(duì)中文網(wǎng)絡(luò)評(píng)論進(jìn)行情感分類(lèi)的集成學(xué)習(xí)框架,主要包括以下部分: ①采用詞性組合模式、頻繁詞序列模式和保序子矩陣模式作為輸入特征,使得特征攜帶更完整的語(yǔ)義信息和情感信息,并且利用語(yǔ)義相似度克服了特征向量稀疏的問(wèn)題; ②基于信息增益的隨機(jī)子空間算法,解決了評(píng)論文本復(fù)雜多樣而造成的特征繁多的問(wèn)題,并且根據(jù)重要度權(quán)值抽取特征子空間,盡量提高基分類(lèi)器的分類(lèi)性能; ③基于產(chǎn)品屬性構(gòu)造基分類(lèi)器算法,考慮不同產(chǎn)品屬性對(duì)應(yīng)不完全相同的特征集合、相同的特征在不同產(chǎn)品屬性中可能產(chǎn)生的不同影響,使得最終的分類(lèi)結(jié)果更加精確。文中的框架利用多種分類(lèi)器在ChnSentiCorp-Htl-ba-4000中文酒店評(píng)論數(shù)據(jù)集[6]上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明該框架在情感分類(lèi)任務(wù)中能達(dá)到更優(yōu)的分類(lèi)效果。

        本文的內(nèi)容安排如下: 第一部分介紹情感分類(lèi)和集成學(xué)習(xí)的相關(guān)工作;第二部分介紹本文提出的框架具體內(nèi)容;第三部分介紹本文提出的框架和其他經(jīng)典方法的對(duì)比實(shí)驗(yàn);第四部分給出結(jié)論。

        1 相關(guān)工作

        文本情感分類(lèi)任務(wù)的目標(biāo)是識(shí)別主觀(guān)文本的情感極性,即正面(positive)的贊賞和肯定、負(fù)面(negative)的批評(píng)與否定[7]。目前公認(rèn)的情感分類(lèi)研究工作始于Bo Pang等人[8]的工作,該方法以u(píng)nigram等作為輸入特征,用樸素貝葉斯、最大熵、支持向量機(jī)等分類(lèi)算法實(shí)現(xiàn)電影評(píng)論的情感分析,取得了較好的分類(lèi)效果。目前主流的文本情感分類(lèi)方法仍然是機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法,這種方法的關(guān)鍵步驟是特征提取和分類(lèi)器設(shè)計(jì)。

        在針對(duì)中文網(wǎng)絡(luò)評(píng)論的情感分類(lèi)任務(wù)中,文本的特征提取和表示是關(guān)鍵步驟之一。Salton等人[9]提出了基于詞頻和逆文檔頻率的句向量表示方法,即TF-IDF方法。這種方法通常需要利用情感詞庫(kù)來(lái)篩選特征詞,然后用TF-IDF計(jì)算特征權(quán)重,已被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。隨著深度學(xué)習(xí)研究的興起,文本特征抽取和表示的研究聚焦在詞嵌入模型(word embedding)[10-11],這種方法使用原始語(yǔ)料訓(xùn)練得到詞語(yǔ)的分散式表示(distributed representation),優(yōu)點(diǎn)是可以用稠密、低維、連續(xù)的向量來(lái)表示詞語(yǔ),并且語(yǔ)義相近的詞語(yǔ)在詞向量空間中彼此的位置也很靠近,即可通過(guò)詞向量的距離來(lái)衡量詞語(yǔ)的語(yǔ)義相似性。

        另外,分類(lèi)器設(shè)計(jì)也是文本情感分類(lèi)任務(wù)的重要環(huán)節(jié)之一,機(jī)器學(xué)習(xí)中的BP神經(jīng)網(wǎng)絡(luò)、K最近鄰、支持向量機(jī)等分類(lèi)算法被廣泛應(yīng)用到情感分類(lèi)任務(wù)中[12]。為了提高文本情感分類(lèi)的準(zhǔn)確率,一些學(xué)者開(kāi)始使用集成學(xué)習(xí)技術(shù)來(lái)融合不同的分類(lèi)模型。集成學(xué)習(xí)可以組合多個(gè)精確度一般的分類(lèi)模型,利用單個(gè)模型之間的差異性,來(lái)改善模型的泛化性能,提高分類(lèi)的精確度。近年來(lái),在文本情感分類(lèi)、數(shù)據(jù)挖掘、模式識(shí)別等眾多領(lǐng)域的研究表明,大多數(shù)通過(guò)集成學(xué)習(xí)得到的模型要明顯優(yōu)于單個(gè)模型[13]。根據(jù)個(gè)體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩大類(lèi),即以Boosting為代表的個(gè)體學(xué)習(xí)器間存在強(qiáng)依賴(lài)關(guān)系、必須串行生成的序列化方法,和以Bagging和Random Subspace為代表的個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴(lài)關(guān)系、可同時(shí)生成的并行化方法。Wang Gang等人[14]基于五種基分類(lèi)器,使用了三種經(jīng)典集成學(xué)習(xí)方法,在十個(gè)公共情感分類(lèi)數(shù)據(jù)集上,進(jìn)行了大量對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在情感分類(lèi)任務(wù)上,集成學(xué)習(xí)方法大大地提高了單個(gè)基分類(lèi)器的性能。Deriu等人[15]利用大規(guī)模的Twitter微博文本數(shù)據(jù)進(jìn)行弱監(jiān)督學(xué)習(xí),訓(xùn)練兩個(gè)結(jié)構(gòu)相同、參數(shù)和輸入不同的卷積神經(jīng)網(wǎng)絡(luò),然后將卷積神經(jīng)網(wǎng)絡(luò)的輸出作為隨機(jī)森林元分類(lèi)器的輸入,通過(guò)集成學(xué)習(xí)得到Twitter微博文本的情感極性,該方法在Semeval-2016任務(wù)4的評(píng)測(cè)中獲得了第一名的好成績(jī)。

        在復(fù)雜多樣的中文網(wǎng)絡(luò)評(píng)論中,評(píng)論的整體情感傾向通常需要綜合消費(fèi)者對(duì)評(píng)論中全部產(chǎn)品屬性的意見(jiàn),而且在情感分類(lèi)任務(wù)中不同的產(chǎn)品屬性對(duì)應(yīng)的特征集合通常不會(huì)完全相同。因此,本文在對(duì)中文網(wǎng)絡(luò)評(píng)論進(jìn)行情感分類(lèi)時(shí),首先提取評(píng)論中的產(chǎn)品屬性,然后再基于產(chǎn)品屬性對(duì)評(píng)論語(yǔ)料和對(duì)應(yīng)特征集合做進(jìn)一步劃分,并基于各屬性對(duì)應(yīng)的評(píng)論語(yǔ)料和特征集合分別訓(xùn)練分類(lèi)器,最后再結(jié)合評(píng)論中每個(gè)產(chǎn)品屬性各自對(duì)應(yīng)的情感分類(lèi)概率,得到整條評(píng)論的句子級(jí)情感傾向。

        2 本文框架

        2.1 特征工程

        在以往基于情感詞典和TF-IDF的特征提取、向量化方法中,情感詞典往往不能覆蓋語(yǔ)料中的所有情感特征。另一方面,中文網(wǎng)絡(luò)評(píng)論具有表達(dá)多樣化、句子長(zhǎng)度不一致的特點(diǎn)。因此,采用傳統(tǒng)的TF-IDF方法提取特征,容易造成文本特征語(yǔ)義信息缺失、特征向量稀疏等問(wèn)題。下文將闡述本文框架中三種特征提取方法,以解決上述問(wèn)題。

        2.1.1 詞性組合模式

        在很多文本情感分類(lèi)中,通常是將單個(gè)詞語(yǔ)作為分類(lèi)特征,再根據(jù)TF、TF-IDF等方法生成評(píng)論的特征向量。但在處理中文評(píng)論的情感分類(lèi)問(wèn)題時(shí),該方法存在著以下不足之處: 第一,在中文網(wǎng)絡(luò)評(píng)論中,該類(lèi)方法不能刻畫(huà)詞語(yǔ)之間的語(yǔ)序信息;第二,在描述不同上下文語(yǔ)境時(shí),同一情感詞有時(shí)可以表達(dá)不同的情感傾向,例如,詞組“水平高”和“價(jià)格 高”中的詞語(yǔ)“高”分別表達(dá)著積極和消極的情感傾向。

        為了解決上述問(wèn)題,本文把連續(xù)詞組作為分類(lèi)特征,使得特征能攜帶更準(zhǔn)確的情感信息。另外,在中文網(wǎng)絡(luò)評(píng)論中,大部分評(píng)論者通常使用形容詞來(lái)表達(dá)自己的主觀(guān)情感。因此,在第一種特征提取方法中,本文通過(guò)詞性組合模式來(lái)挖掘連續(xù)詞組特征。本文參考了文獻(xiàn)[16],并結(jié)合中文網(wǎng)絡(luò)評(píng)論的特點(diǎn),總結(jié)歸納了八種詞性組合規(guī)則如表1所示,其中詞語(yǔ)的詞性表示參考中科院計(jì)算所漢語(yǔ)詞性標(biāo)記集。

        表1 詞性組合規(guī)則

        綜上所述,本文首先對(duì)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注,然后通過(guò)詞性組合規(guī)則挖掘得到詞性組合模式feature_pos,將其作為情感分類(lèi)任務(wù)的輸入特征之一。

        2.1.2 頻繁詞序列模式

        面對(duì)表達(dá)口語(yǔ)化的中文網(wǎng)絡(luò)評(píng)論時(shí),詞性組合模式存在一定不足: 一方面它依賴(lài)于先驗(yàn)的語(yǔ)言學(xué)知識(shí),必須事先由專(zhuān)家設(shè)定足夠多的規(guī)則;另一方面,詞性組合模式?jīng)]有考慮詞組特征中詞語(yǔ)之間可能出現(xiàn)的間隔,例如: 詞組“交通 方便”和“交通 路線(xiàn) 方便”,只有考慮詞語(yǔ)之間的間隔,才能提取出同樣的特征“交通 方便”。因此,本文根據(jù)頻繁序列模式和中文語(yǔ)言的特點(diǎn),基于Matsumoto等人[17]提取頻繁詞語(yǔ)子序列的思想,進(jìn)行了相應(yīng)的改進(jìn)。對(duì)于一個(gè)頻繁詞序列模式p={w1,w2,…,wm},其中wi為短語(yǔ)p中的詞語(yǔ),m為短語(yǔ)p的詞語(yǔ)個(gè)數(shù),它的定義描述如下:

        (1)p在訓(xùn)練集語(yǔ)料中的支持度必須大于最小支持度閾值,即sup(p)≥min_sup;

        (2)p中任意兩個(gè)相鄰詞語(yǔ)wi和wi+1在評(píng)論中可以不連續(xù),但是一定要在評(píng)論中按照先后順序出現(xiàn);

        (3)p中相鄰兩個(gè)詞語(yǔ)在評(píng)論中的最大間隔必須小于間隔閾值max_gap,即p中任意兩個(gè)相鄰詞語(yǔ)wi和wi+1在評(píng)論中的間隔gap(i)≤max_gap;

        (4)p的區(qū)分度必須大于最小區(qū)分度閾值,即dist(p)≥min_dist,區(qū)分度dist(p)計(jì)算如式(1)所示。

        (1)

        其中,n為情感分類(lèi)任務(wù)中的情感傾向類(lèi)別數(shù)目,supi(p)為p在訓(xùn)練集第i類(lèi)語(yǔ)料中的支持度,sup(p)則為p在整個(gè)訓(xùn)練集語(yǔ)料中的總支持度。

        根據(jù)上述定義,本文采用了Pei等人[18]提出的PrefixSpan算法來(lái)挖掘頻繁詞序列模式feature_freseq,作為情感分類(lèi)任務(wù)的輸入特征之一。

        2.1.3 保序子矩陣模式

        在中文網(wǎng)絡(luò)評(píng)論中存在著以下兩個(gè)特點(diǎn): 第一,評(píng)論的表達(dá)多樣化,即不同詞匯表達(dá)相近語(yǔ)義;第二,評(píng)論的長(zhǎng)度通常不一致,評(píng)論包含的詞語(yǔ)數(shù)量相差較大。由于這些特點(diǎn),TF-IDF特征提取方法容易造成特征向量稀疏、不同評(píng)論之間權(quán)重相差較大等問(wèn)題。因此,為了解決以上問(wèn)題,本文結(jié)合基于詞嵌入的近義詞和保序子矩陣算法對(duì)該方法進(jìn)行了改進(jìn)。

        (1) 基于詞嵌入的近義詞

        本文對(duì)詞語(yǔ)進(jìn)行相似度計(jì)算,把語(yǔ)義相近的詞語(yǔ)當(dāng)成一個(gè)詞語(yǔ)處理,從而克服傳統(tǒng)TF-IDF向量的稀疏性問(wèn)題。本文采用Word2Vec[11]訓(xùn)練中文大語(yǔ)料,得到評(píng)論語(yǔ)料的詞嵌入矩陣We∈d×|V|,其中We的每一列代表一個(gè)詞向量。假設(shè)Xi和Xj是We中兩個(gè)詞向量,用余弦距離來(lái)衡量詞向量之間的相似性,計(jì)算如式(2)所示。

        (2)

        設(shè)定實(shí)驗(yàn)參數(shù)相似度閾值SimT,如果Sim(i,j)≥SimT,則表示Xi和Xj對(duì)應(yīng)的詞語(yǔ)是近義詞。接下來(lái)把近義詞都?xì)w并成同一個(gè)簇,根據(jù)簇來(lái)計(jì)算TF-IDF向量,得到評(píng)論語(yǔ)料的矩陣表示W(wǎng)tfidf,計(jì)算如式(3)所示。

        (3)

        其中,N表示語(yǔ)料庫(kù)中的評(píng)論總數(shù);tfij表示近義詞頻,即在評(píng)論j中第i個(gè)簇中詞語(yǔ)出現(xiàn)的次數(shù);dfi表示近義詞文檔頻率,即語(yǔ)料庫(kù)中含有第i個(gè)簇中詞語(yǔ)的評(píng)論個(gè)數(shù)。

        (2) 保序子矩陣

        由于網(wǎng)絡(luò)評(píng)論通常長(zhǎng)度不一,假如直接使用Wtfidf進(jìn)行分類(lèi)的話(huà),一方面會(huì)造成語(yǔ)義相近但句子長(zhǎng)度差別很大的兩個(gè)評(píng)論向量之間的距離較大,對(duì)情感分類(lèi)任務(wù)產(chǎn)生負(fù)面影響;另一方面Wtfidf中的特征是獨(dú)立的詞語(yǔ),無(wú)法體現(xiàn)詞語(yǔ)之間的語(yǔ)義相互作用。為了解決這個(gè)問(wèn)題,本文采用雙聚類(lèi)中的保序子矩陣算法來(lái)挖掘Wtfidf中的保序子矩陣模式。

        本文參考了Liu Zhiwen和Xue Yun等人[19]提出的方法,利用公共子序列挖掘得到Wtfidf的全部保序子矩陣模式,輸出滿(mǎn)足最小列閾值min_column和最小行閾值min_row要求,并且各行都來(lái)自于同一類(lèi)情感標(biāo)簽評(píng)論的保序子矩陣模式feature_opsm,并連同上文得到的詞性組合模式feature_pos和頻繁詞序列模式feature_freseq,一起作為情感分類(lèi)任務(wù)的輸入特征。

        2.2 基于信息增益的隨機(jī)子空間

        由于中文網(wǎng)絡(luò)評(píng)論文本的多樣性和復(fù)雜性,經(jīng)過(guò)上文三種特征提取方法得到有效的分類(lèi)特征后,特征數(shù)目通常會(huì)達(dá)到上千個(gè),如果直接使用的話(huà),容易造成特征向量稀疏,導(dǎo)致分類(lèi)效果不佳。因此本文借鑒了Ho等人提出的隨機(jī)子空間算法[5]。該方法是一種基于特征多樣性的集成學(xué)習(xí)方法,首先從原始特征空間中隨機(jī)抽取出若干個(gè)特征子集,然后基于每個(gè)特征子集訓(xùn)練一個(gè)基分類(lèi)器,最后集成所有基分類(lèi)器的結(jié)果,得到最終的分類(lèi)結(jié)果。但是在復(fù)雜多樣的評(píng)論文本中,不同特征對(duì)分類(lèi)的貢獻(xiàn)是不一樣的,假如隨機(jī)抽取的特征子集都是一些相對(duì)冗余、不太重要的特征,將會(huì)嚴(yán)重影響基分類(lèi)器的分類(lèi)性能,從而影響最終的分類(lèi)結(jié)果。為此,本文提出了一種基于信息增益的隨機(jī)子空間算法,在保證基分類(lèi)器間獨(dú)立性的同時(shí),盡量提高基分類(lèi)器的分類(lèi)性能。

        基于信息增益的隨機(jī)子空間算法具體描述如算法1所示。

        2.3 基于產(chǎn)品屬性構(gòu)造基分類(lèi)器

        在中文網(wǎng)絡(luò)評(píng)論中,評(píng)論的整體情感傾向通常需要綜合消費(fèi)者對(duì)評(píng)論中全部產(chǎn)品屬性的意見(jiàn),而且不同的產(chǎn)品屬性在情感分類(lèi)任務(wù)中對(duì)應(yīng)的特征集合不完全相同,即使是相同的特征,它們?cè)诓煌漠a(chǎn)品屬性中也可能蘊(yùn)涵著不同的語(yǔ)義信息,因此本文采用基于產(chǎn)品屬性構(gòu)造對(duì)應(yīng)基分類(lèi)器的算法對(duì)評(píng)論進(jìn)行情感分類(lèi)。

        算法1基于信息增益的隨機(jī)子空間算法

        2.3.1 產(chǎn)品屬性提取

        在本文框架中,采用基于類(lèi)序列規(guī)則的方法來(lái)提取產(chǎn)品屬性集合,并利用詞語(yǔ)相似度將產(chǎn)品屬性劃分到不同的屬性類(lèi)別中。

        (1) 基于類(lèi)序列規(guī)則的產(chǎn)品屬性提取

        序列模式挖掘是數(shù)據(jù)挖掘中一個(gè)重要的分支,而類(lèi)序列規(guī)則(class sequence rules,CSR)是傳統(tǒng)序列模式挖掘的變種,它在序列模式挖掘的基礎(chǔ)上考慮了類(lèi)信息,通過(guò)將模式和類(lèi)信息結(jié)合起來(lái),找到與類(lèi)信息具有高度相關(guān)性的序列模式。

        為了提取出中文網(wǎng)絡(luò)評(píng)論中的產(chǎn)品屬性,本文參考了文獻(xiàn)[20]中觀(guān)點(diǎn)特征抽取的思想,采用基于類(lèi)序列規(guī)則的方法提取產(chǎn)品屬性,即將訓(xùn)練集中已知的屬性詞和情感詞搭配信息作為類(lèi)序列規(guī)則中的類(lèi)信息,將詞性搭配作為被挖掘的序列模式,利用類(lèi)序列規(guī)則提取評(píng)論中的產(chǎn)品屬性。

        本文以酒店領(lǐng)域?yàn)楸尘埃瑥拇蟊婞c(diǎn)評(píng)網(wǎng)站上爬取了十萬(wàn)多條酒店領(lǐng)域中文網(wǎng)絡(luò)評(píng)論作為實(shí)驗(yàn)語(yǔ)料。具體地,首先將中文網(wǎng)絡(luò)評(píng)論語(yǔ)料進(jìn)行預(yù)處理、中文分詞和詞性標(biāo)注等操作后,得到序列標(biāo)注的結(jié)果,并預(yù)先給定少數(shù)的屬性詞和情感詞作為種子詞,在評(píng)論語(yǔ)料中標(biāo)注這些種子詞,使得少數(shù)樣本帶有類(lèi)信息。然后去掉詞語(yǔ),只保留詞性和類(lèi)信息,得到帶有類(lèi)信息的詞性序列。再通過(guò)改進(jìn)的PrefixSpan算法來(lái)挖掘這些帶有類(lèi)信息的詞性序列,本文在PrefixSpan頻繁序列模式挖掘算法的基礎(chǔ)上進(jìn)行改進(jìn),加入由類(lèi)信息所決定的置信度,得到滿(mǎn)足最小支持度和最小置信度的頻繁序列模式,同時(shí)篩選得出所有元素都在評(píng)論中同一分句的模式,作為提取產(chǎn)品屬性的詞性搭配規(guī)則。最后將語(yǔ)料中所有滿(mǎn)足詞性搭配規(guī)則的屬性詞提取出來(lái),得到屬性詞語(yǔ)集合?;陬?lèi)序列規(guī)則的產(chǎn)品屬性提取算法如算法2所示。

        (2) 產(chǎn)品屬性類(lèi)別劃分

        通過(guò)基于類(lèi)序列規(guī)則的產(chǎn)品屬性提取算法得到產(chǎn)品屬性詞語(yǔ)集合后,還需要將產(chǎn)品屬性集合劃分成若干個(gè)類(lèi)別。本文首先確定產(chǎn)品屬性類(lèi)別基準(zhǔn)詞,然后再通過(guò)每個(gè)屬性詞語(yǔ)與基準(zhǔn)詞的語(yǔ)義相似度來(lái)劃分該屬性詞語(yǔ)所屬的類(lèi)別。

        算法2基于類(lèi)序列規(guī)則的產(chǎn)品屬性提取算法

        通過(guò)對(duì)酒店語(yǔ)料和產(chǎn)品屬性集合的觀(guān)察,本文歸納得到“服務(wù)”“美食”“環(huán)境”“價(jià)格”“設(shè)施”“場(chǎng)館”這六個(gè)屬性類(lèi)別基準(zhǔn)詞。接下來(lái),同樣采用Word2Vec對(duì)語(yǔ)料進(jìn)行訓(xùn)練,得到產(chǎn)品屬性集合的詞嵌入矩陣W∈d×|A|,并采用余弦距離來(lái)衡量各屬性詞向量和屬性類(lèi)別基準(zhǔn)詞向量之間的語(yǔ)義相似度。然后設(shè)定實(shí)驗(yàn)超參數(shù)最小相似度min_Sim,如果屬性詞與多個(gè)屬性類(lèi)別基準(zhǔn)詞之間的相似度大于min_Sim,則選取與該屬性詞的相似度最大的屬性類(lèi)別基準(zhǔn)詞作為屬性類(lèi)別標(biāo)記;如果屬性詞語(yǔ)全部六個(gè)屬性類(lèi)別基準(zhǔn)詞之間的相似度都小于min_Sim,則將該屬性詞的屬性類(lèi)別歸類(lèi)為“其他”。最終將屬性詞集合劃分為七個(gè)屬性類(lèi)別,分別為“服務(wù)”“美食”“環(huán)境”“價(jià)格”“設(shè)施”“場(chǎng)館”“其他”。

        2.3.2 基于產(chǎn)品屬性構(gòu)造基分類(lèi)器

        在中文網(wǎng)絡(luò)評(píng)論中,評(píng)論者對(duì)產(chǎn)品意見(jiàn)的表達(dá)多種多樣。而對(duì)于一個(gè)較長(zhǎng)的評(píng)論,不能只通過(guò)其中某一個(gè)產(chǎn)品屬性來(lái)判別它的情感類(lèi)別。另外,相同的特征對(duì)于不同的屬性可能起到相反的作用。為了解決上述兩個(gè)問(wèn)題,本文采用基于產(chǎn)品屬性構(gòu)造基分類(lèi)器的算法對(duì)評(píng)論進(jìn)行集成情感分類(lèi)。一方面,根據(jù)上文得到的屬性類(lèi)別將評(píng)論數(shù)據(jù)和特征集合進(jìn)行劃分,使得不同屬性類(lèi)別對(duì)應(yīng)各自的特征集合,而且相同的特征可以在不同的屬性類(lèi)別中起到不同的情感表達(dá)作用;另一方面,將根據(jù)屬性類(lèi)別劃分好的評(píng)論數(shù)據(jù)和特征集合分別進(jìn)行訓(xùn)練得到基分類(lèi)器,然后集成不同的基分類(lèi)器來(lái)判別整個(gè)評(píng)論的情感傾向,使得分類(lèi)器在判別評(píng)論的情感傾向時(shí),能夠綜合評(píng)論中全部屬性的情感信息。基于產(chǎn)品屬性構(gòu)造基分類(lèi)器的算法具體描述如算法3所示。

        算法3基于產(chǎn)品屬性構(gòu)造基分類(lèi)器的算法

        3 實(shí)驗(yàn)

        實(shí)驗(yàn)部分將對(duì)數(shù)據(jù)集、實(shí)驗(yàn)流程、實(shí)驗(yàn)結(jié)果和分析進(jìn)行詳細(xì)介紹,實(shí)驗(yàn)的主要內(nèi)容是采用本文的框架和評(píng)測(cè)數(shù)據(jù)集實(shí)現(xiàn)中文網(wǎng)絡(luò)評(píng)論情感分類(lèi)任務(wù),并和其他相關(guān)方法進(jìn)行分析比較。

        3.1 數(shù)據(jù)集

        為了驗(yàn)證文本所提框架的有效性,本文使用了中文情感語(yǔ)料庫(kù)ChnSentiCorp[6]中的中文酒店評(píng)論數(shù)據(jù)集ChnSentiCorp-Htl-ba-4000作為實(shí)驗(yàn)評(píng)測(cè)數(shù)據(jù),數(shù)據(jù)集包括2 000個(gè)積極情感評(píng)論文本和2 000個(gè)消極情感評(píng)論文本,過(guò)濾掉重復(fù)評(píng)論文本后,剩余共3 147個(gè)評(píng)論文本。另外,本文在大眾點(diǎn)評(píng)網(wǎng)站上爬取了102 268個(gè)酒店評(píng)論文本,作為提取酒店領(lǐng)域產(chǎn)品屬性的評(píng)論語(yǔ)料。在基于詞嵌入的近義詞、產(chǎn)品屬性類(lèi)別劃分中,采用Sogou新聞?wù)Z料[21]和大眾點(diǎn)評(píng)酒店評(píng)論語(yǔ)料作為Word2Vec訓(xùn)練語(yǔ)料,語(yǔ)料大小為2.02GB。

        3.2 中文分詞和詞性標(biāo)注

        在數(shù)據(jù)預(yù)處理中,本文采用中科院ICTCLAS[22]對(duì)評(píng)論文本進(jìn)行中文分詞和詞性標(biāo)注。

        3.3 實(shí)驗(yàn)流程介紹

        根據(jù)文中的集成學(xué)習(xí)框架,本文實(shí)現(xiàn)對(duì)中文網(wǎng)絡(luò)評(píng)論的兩類(lèi)情感分類(lèi)。在情感分類(lèi)實(shí)驗(yàn)中本文采用五折交叉驗(yàn)證,語(yǔ)料的訓(xùn)練集、驗(yàn)證集和測(cè)試集比例為3∶1∶1,其中積極語(yǔ)料和消極語(yǔ)料數(shù)目基本平衡。實(shí)驗(yàn)流程如圖1所示。

        圖1 實(shí)驗(yàn)流程

        在上述實(shí)驗(yàn)的集成學(xué)習(xí)框架中,采用機(jī)器學(xué)習(xí)常見(jiàn)的分類(lèi)算法作為基分類(lèi)器中的分類(lèi)算法,包括Logistics Regression(LR),Decision Tree(DT),Support Vector Machine(SVM)這三種分類(lèi)算法。

        另外,本文的實(shí)驗(yàn)框架存在一些超參數(shù),如基于信息增益的隨機(jī)子空間算法中的特征子空間數(shù)目S,對(duì)于這些超參數(shù)的確定,本文使用控制變量法進(jìn)行調(diào)參。在確定某個(gè)超參數(shù)時(shí),首先設(shè)置一組該超參數(shù)的值,然后保持其他超參數(shù)不變,通過(guò)驗(yàn)證集在實(shí)驗(yàn)中的平均分類(lèi)準(zhǔn)確率確定最優(yōu)值。

        下面介紹頻繁詞序列模式中三個(gè)超參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響變化趨勢(shì)。

        由圖2看出,當(dāng)min_sup=30時(shí),實(shí)驗(yàn)的平均準(zhǔn)確率達(dá)到最優(yōu)值。

        圖2 平均分類(lèi)準(zhǔn)確率隨最小支持度的變化趨勢(shì)

        由圖3看出,當(dāng)max_ gap=1時(shí),實(shí)驗(yàn)的平均準(zhǔn)確率達(dá)到最優(yōu)值。

        圖3 平均分類(lèi)準(zhǔn)確率隨最大間隔閾值的變化趨勢(shì)

        由圖4看出,當(dāng)min_dist=0.65時(shí),實(shí)驗(yàn)的平均準(zhǔn)確率達(dá)到最優(yōu)值。

        圖4 平均分類(lèi)準(zhǔn)確率隨最小區(qū)分度閾值的變化趨勢(shì)

        由于超參數(shù)較多,本文只分析了上述三個(gè)超參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響。最終得到的最優(yōu)超參數(shù)值如表2所示。

        表2 最優(yōu)超參數(shù)值

        在下文的實(shí)驗(yàn)結(jié)果中,超參數(shù)按照實(shí)驗(yàn)得到的最優(yōu)值進(jìn)行設(shè)置。

        3.4 實(shí)驗(yàn)結(jié)果及分析

        本文在實(shí)驗(yàn)方案中設(shè)置了三組對(duì)比實(shí)驗(yàn),第一組將本文的方法和單分類(lèi)器進(jìn)行對(duì)比,單分類(lèi)器分別采用不同的輸入特征向量;第二組將本文的方法和經(jīng)典集成學(xué)習(xí)分類(lèi)算法進(jìn)行對(duì)比;第三組將本文和深度學(xué)習(xí)算法進(jìn)行對(duì)比。本文采用了Scikit-Learn[23]、WEKA[24]和Tensorflow[25]來(lái)實(shí)現(xiàn)方案中的對(duì)比實(shí)驗(yàn),參數(shù)統(tǒng)一取默認(rèn)值。實(shí)驗(yàn)使用文本情感分類(lèi)領(lǐng)域常用的評(píng)價(jià)指標(biāo): 平均分類(lèi)準(zhǔn)確率(Average Accuracy),其計(jì)算如式(4)所示。

        (4)

        第一組對(duì)比實(shí)驗(yàn)將不同輸入特征向量的單分類(lèi)器和本文的方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示,其中不同的輸入特征向量分別如下:

        (1) “l(fā)exicon+TF-IDF”: 表示輸入特征是基于情感詞典提取的詞語(yǔ),再使用TF-IDF方法對(duì)評(píng)論文本進(jìn)行向量化;

        (2) “Word2Vec”: 表示采用Word2Vec對(duì)評(píng)論語(yǔ)料進(jìn)行訓(xùn)練,得到詞向量,再將詞向量相加求平均得到評(píng)論的輸入特征向量;

        (3) “pos+freseq+opsm”: 表示將文中提到的三種特征進(jìn)行合并,再根據(jù)特征是否在評(píng)論中出現(xiàn)生成0/1輸入特征向量。

        表3 和單分類(lèi)器的實(shí)驗(yàn)對(duì)比結(jié)果(%)

        第二組對(duì)比實(shí)驗(yàn)將不同的經(jīng)典集成學(xué)習(xí)算法和本文的方法進(jìn)行對(duì)比,集成學(xué)習(xí)算法包括Bagging、Boosting、Random Subspace,“Random Subspace_IG”代表基于信息增益的隨機(jī)子空間算法,輸入特征向量采用“pos+freseq+opsm”形式,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 和集成分類(lèi)器的實(shí)驗(yàn)對(duì)比結(jié)果(%)

        第三組對(duì)比實(shí)驗(yàn)將三種深度學(xué)習(xí)算法和本文的方法進(jìn)行對(duì)比,深度學(xué)習(xí)算法包括Recurrent Neural Networks(RNN)、Long Short-Term Memory(LSTM)、Gated Rucurrent Unit(GRU),“our approach(LR)”代表本文框架在LR基分類(lèi)器算法上的分類(lèi)準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表5所示。

        表5 和深度學(xué)習(xí)算法的實(shí)驗(yàn)對(duì)比結(jié)果(%)

        綜合表3、表4和表5的實(shí)驗(yàn)結(jié)果可以看出: ①在單分類(lèi)器實(shí)驗(yàn)中,“pos+freseq+opsm”的分類(lèi)準(zhǔn)確率均高于“l(fā)exicon+TF-IDF”和“Word2Vec”,主要是因?yàn)榍罢卟捎萌N特征模式作為輸入特征,考慮了句子語(yǔ)序信息、句子長(zhǎng)度大小的影響、間隔詞組特征等因素,并且利用語(yǔ)義相似度克服了“l(fā)exicon+TF-IDF”的特征向量稀疏問(wèn)題; ②Random Subspace的情感分類(lèi)準(zhǔn)確率均高于單分類(lèi)器實(shí)驗(yàn)中的“pos+freseq+opsm”,主要原因是“pos+freseq+opsm”將feature_pos、feature_freseq和feature_opsm三種特征模式簡(jiǎn)單地進(jìn)行合并,造成特征向量非常稀疏,而Random Subspace則采用隨機(jī)劃分特征子空間的方法解決了特征稀疏問(wèn)題; ③“Random Subspace_IG”的情感分類(lèi)準(zhǔn)確率稍高于經(jīng)典的Random Subspace,主要原因是“Random Subspace_IG”在Random Subspace基礎(chǔ)上考慮了特征的重要度權(quán)值,根據(jù)重要度權(quán)值抽取特征子空間,在保證基分類(lèi)器之間獨(dú)立性的同時(shí),盡量提高基分類(lèi)器的分類(lèi)性能; ④本文方法的實(shí)驗(yàn)效果均好于三種經(jīng)典集成分類(lèi)算法和“Random Subspace_IG”,特別是在LR分類(lèi)算法上達(dá)到了90.3%的平均分類(lèi)準(zhǔn)確率,主要原因是本文方法考慮了不同產(chǎn)品屬性對(duì)應(yīng)不完全相同的特征集合、相同的特征在不同產(chǎn)品屬性中可能起到的不同作用,并且綜合了評(píng)論文本中不同產(chǎn)品屬性的輸出分類(lèi)概率,使得最終的分類(lèi)結(jié)果更加精確; ⑤本文方法在情感分類(lèi)任務(wù)上的準(zhǔn)確率比三種深度學(xué)習(xí)算法高,主要原因是本文方法考慮了更多中文評(píng)論語(yǔ)義信息和評(píng)論中不同產(chǎn)品屬性的情感信息。

        4 結(jié)論及未來(lái)工作

        本文提出了一種針對(duì)中文網(wǎng)絡(luò)評(píng)論情感分析任務(wù)的集成學(xué)習(xí)框架,該框架主要包含三個(gè)部分: 第一,采用詞性組合模式、頻繁詞序列模式和保序子矩陣模式作為輸入特征,使得特征攜帶更完整的語(yǔ)義信息和情感信息,并且利用語(yǔ)義相似度克服了特征向量稀疏問(wèn)題;第二,采用基于信息增益的隨機(jī)子空間算法,解決了評(píng)論文本復(fù)雜多樣而造成的特征繁多問(wèn)題,并且在保證基分類(lèi)器之間獨(dú)立性的同時(shí)能盡量提高基分類(lèi)器的分類(lèi)性能;第三,采用基于產(chǎn)品屬性構(gòu)造基分類(lèi)器的算法,考慮不同產(chǎn)品屬性對(duì)應(yīng)不完全相同的特征集合、相同的特征在不同產(chǎn)品屬性中可能起到的不同作用,并且綜合了評(píng)論文本中不同產(chǎn)品屬性的情感分類(lèi)概率,使得最終的分類(lèi)結(jié)果更加精確。實(shí)驗(yàn)結(jié)果證明本文的框架和不同特征輸入的單分類(lèi)器、經(jīng)典的集成學(xué)習(xí)方法、一些深度學(xué)習(xí)方法相比,均可以獲得更好的情感分類(lèi)效果。

        在針對(duì)中文網(wǎng)絡(luò)評(píng)論的情感分類(lèi)任務(wù)方面,未來(lái)還有很多工作需要深入研究。在隨機(jī)子空間算法中,利用中文語(yǔ)言學(xué)知識(shí)來(lái)選取特征子空間是一個(gè)可行的研究方向。另外,結(jié)合神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制,更加細(xì)致地分析不同產(chǎn)品屬性與特征對(duì)評(píng)論情感分類(lèi)的影響,也是今后的重點(diǎn)研究工作之一。

        猜你喜歡
        分類(lèi)特征文本
        分類(lèi)算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀(guān)察
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
        91av手机在线观看| 日本丰满少妇裸体自慰| 久久久久无码精品国产app | 亚洲一区二区三区四区五区黄| 亚洲人成色777777老人头| 国产精品久久国产三级国电话系列| 亚洲综合色视频在线免费观看| 美女午夜福利视频网址| 日韩人妻无码精品久久免费一 | 麻豆影视视频高清在线观看| 久久综合给日咪咪精品欧一区二区三 | 户外精品一区二区三区| 一本久道综合在线无码人妻| 亚洲肥老熟妇四十五十路在线| 日本精品久久性大片日本| 午夜免费观看国产视频| 亚洲精品tv久久久久久久久久| 久久福利青草精品免费| 扒下语文老师的丝袜美腿| h视频在线播放观看视频| 亚洲看片lutube在线观看| 国产精品一区高清在线观看| 精品女同av一区二区三区| 国产极品少妇一区二区| 亚洲午夜精品久久久久久人妖| 国产一级黄色录像| 亚洲五月天中文字幕第一页| 一区二区和激情视频| 妓院一钑片免看黄大片| 午夜无码无遮挡在线视频| 亚洲一区二区三区日韩在线观看| 大地资源中文第3页| 国产欧美日韩专区| 偷柏自拍亚洲综合在线| 先锋影音人妻啪啪va资源网站| 精品日韩欧美一区二区在线播放| 啪啪网站免费观看| 国产中文字幕免费视频一区 | 91精品综合久久久久m3u8| 尤物精品国产亚洲亚洲av麻豆| 国产无遮挡又爽又刺激的视频老师|