朱 燁,陳世平,2
1(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
2(上海理工大學(xué) 信息化辦公室,上海 200093)
E-mail:zhuye0209@foxmail.com
隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們通過(guò)微博、知乎、頭條等社交媒體發(fā)布評(píng)論表達(dá)情感或觀點(diǎn),使得社交媒體的文本數(shù)據(jù)呈爆炸式增長(zhǎng).利用社交媒體和商業(yè)新聞中的數(shù)據(jù)進(jìn)行情感分析,能了解事件的發(fā)展趨勢(shì),更能幫助人們作出判斷和決策.如何在龐大的非結(jié)構(gòu)化文本資源中進(jìn)行情感分析已經(jīng)成為當(dāng)前研究的熱點(diǎn)問(wèn)題.
文本情感分析是自然語(yǔ)言處理中的重要任務(wù)之一,主要對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理[1].文本情感分析方法主要有兩種,分別是基于詞典的方法和基于機(jī)器學(xué)習(xí)的方法[2].
基于詞典的情感分析,首先構(gòu)建情感詞典,情感詞典主要包括情感詞、否定詞、程度詞等,再對(duì)詞語(yǔ)分配相應(yīng)權(quán)重,計(jì)算文本最終得分.近年來(lái)很多專家學(xué)者都對(duì)此進(jìn)行了一系列研究.Kim[3]提出一種計(jì)算動(dòng)詞、形容詞、副詞等詞語(yǔ)的情感得分方法來(lái)判斷文本的情感取向.Ding[4]提出一種改進(jìn)的情感詞典方法,通過(guò)計(jì)算情感詞與關(guān)鍵詞的距離對(duì)情感詞進(jìn)行加權(quán),利用加權(quán)情感詞得分對(duì)文本情感分類.但是基于情感詞典的文本情感分類沒(méi)有考慮句子的語(yǔ)義以及單詞之間的關(guān)系,情感強(qiáng)弱的判斷過(guò)于簡(jiǎn)單,并且構(gòu)建情感詞典的過(guò)程需要耗費(fèi)大量工作.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的情感分析,首先對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行特征降維并提取重要特征,然后利用機(jī)器學(xué)習(xí)對(duì)文本情感進(jìn)行分類.目前常用于文本情感分析的機(jī)器學(xué)習(xí)方法有樸素貝葉斯、支持向量機(jī)、最大熵方法等.Pang[5]提出基于有監(jiān)督學(xué)習(xí)方法對(duì)電影評(píng)論進(jìn)行文本情感傾向性分類,分別使用樸素貝葉斯、最大熵、支持向量機(jī)三種方法對(duì)電影評(píng)論進(jìn)行分類.相對(duì)于情感詞典的方法,基于機(jī)器學(xué)習(xí)的方法能節(jié)省大量工作.但是傳統(tǒng)的機(jī)器學(xué)習(xí)方法中文本數(shù)據(jù)存在高維稀疏、特征表達(dá)能力較弱的缺點(diǎn).
隨著深度學(xué)習(xí)的不斷發(fā)展,許多學(xué)者通過(guò)結(jié)合神經(jīng)網(wǎng)絡(luò)解決文本情感分析問(wèn)題.其中,卷積神經(jīng)網(wǎng)絡(luò)是近年來(lái)占主導(dǎo)地位的神經(jīng)網(wǎng)絡(luò)之一.使用卷積神經(jīng)網(wǎng)絡(luò)處理文本情感分析問(wèn)題,顯著特點(diǎn)在于:充分利用特征圖的并行性,堆疊多個(gè)卷積核產(chǎn)生文本的抽象表示,更容易捕捉句子中的復(fù)雜關(guān)系;卷積核獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)使得降維速度更快,對(duì)高維數(shù)據(jù)處理無(wú)壓力.Kim[6]提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類中,首先將單詞轉(zhuǎn)化為詞向量,然后使用多個(gè)不同尺寸的卷積核對(duì)詞向量進(jìn)行卷積,最后進(jìn)行池化、分類.Ouyang[8]提出結(jié)合word2vec模型和卷積神經(jīng)網(wǎng)絡(luò)處理情感分析,首先使用word2vec表示文本矩陣,并使用三個(gè)卷積層以及池化層構(gòu)建網(wǎng)絡(luò)模型,表現(xiàn)了很好的性能.但是使用卷積神經(jīng)網(wǎng)絡(luò)模型不足之處在于卷積運(yùn)算只能獲取鄰近單詞的語(yǔ)義關(guān)系,未能提取長(zhǎng)距離相互影響的特征.
近年來(lái),注意力機(jī)制引起了學(xué)者的廣泛關(guān)注,基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型被運(yùn)用于各種自然語(yǔ)言處理任務(wù)中.注意力機(jī)制嘗試模仿人類的感知,將注意力集中在目標(biāo)區(qū)域的重要部分,以獲得目標(biāo)的關(guān)鍵特征.Yin W[9]首次提出基于三個(gè)層面上的注意力機(jī)制結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)句建模方法,分別在卷積層、池化層加入注意力機(jī)制以及卷積層和池化層同時(shí)加入注意力機(jī)制,通過(guò)注意力機(jī)制將詞語(yǔ)和語(yǔ)句間的相互關(guān)系加權(quán)到卷積神經(jīng)網(wǎng)絡(luò)模型中,并取得了不錯(cuò)的分類效果.Pappas[11]提出分層注意力機(jī)制對(duì)文本進(jìn)行分類,使用雙向門控循環(huán)單元(BiGRU)獲得文本特征,以及構(gòu)建兩個(gè)不同級(jí)別的注意力機(jī)制,獲取不同級(jí)別的信息,更好的進(jìn)行分類.使用注意力機(jī)制的網(wǎng)絡(luò)模型,主要通過(guò)計(jì)算特征圖的權(quán)重系數(shù)得到模型的注意力,但是沒(méi)有考慮相似文本實(shí)例對(duì)分類結(jié)果的影響.
從整體上來(lái)看,現(xiàn)有深度學(xué)習(xí)模型大多都采用單一的輸入文本進(jìn)行建模,而未考慮相似文本實(shí)例對(duì)整體分類效果的影響.由于文本特征之間存在依賴性,相同話題的文本之間存在更多相似的特征,而不同話題的文本相似特征較少.使用KNN算法對(duì)數(shù)據(jù)預(yù)處理,從已知標(biāo)簽的數(shù)據(jù)集中尋找相似文本,選取有意義的文本信息,使得用于分類的文本特征更加準(zhǔn)確,再根據(jù)文本相似性對(duì)文本特征進(jìn)行加權(quán),使得特征更加分明.例如,文本的整體情感傾向?yàn)檎?,但其中也包含一些?fù)類情感信息,加入相似文本后,有助于加強(qiáng)正類情感信息,弱化負(fù)類情感信息,從相似文本出發(fā)得到更有分類意義的特征.利用相似文本對(duì)象信息提取評(píng)論文本的多維特征來(lái)增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)模型的分類能力.然而現(xiàn)有的大多數(shù)模型很少?gòu)倪@個(gè)角度出發(fā)去分析文本情感,未能很好地體現(xiàn)文本的互相關(guān)聯(lián)性對(duì)分類結(jié)果的影響,故本文試圖使用來(lái)自于輸入文本和相似文本的共同特征作為模型的輸入,引入注意力機(jī)制對(duì)文本及其相似文本的特征進(jìn)行權(quán)重更新,從兩個(gè)方面篩選出分類效果最大的信息,故本文提出一種融合卷積神經(jīng)網(wǎng)絡(luò)和注意力的評(píng)論文本情感分析模型.
本文模型的創(chuàng)新之處在于:一是使用距離公式計(jì)算輸入文本的相似度,利用文本相似度對(duì)最近鄰的K個(gè)文本加權(quán),獲得加權(quán)文本矩陣,更好的提取文本多維特征.二是通過(guò)加權(quán)文本矩陣與原始文本矩陣構(gòu)建注意力,并對(duì)注意力矩陣進(jìn)行加權(quán),將上述經(jīng)過(guò)注意力機(jī)制加權(quán)后的矩陣作為模型的輸入層,傳入雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,從而更好地對(duì)文本進(jìn)行情感分析.通過(guò)三個(gè)實(shí)驗(yàn)對(duì)比,表明本文的模型比其他基準(zhǔn)的深度學(xué)習(xí)模型分類效果都有明顯的提高.
最近鄰算法是數(shù)據(jù)挖掘以及分類問(wèn)題中最流行的方法之一,分類模型簡(jiǎn)單有效,是基于實(shí)例學(xué)習(xí)的算法.該算法不會(huì)丟失任何原始數(shù)據(jù),相對(duì)于其他傳統(tǒng)的分類方法,具有更強(qiáng)的優(yōu)勢(shì),并且K的取值具有魯棒性,能很好的處理噪聲.KNN算法使用距離來(lái)衡量樣本之間的相似度,常用的距離包括歐氏距離、曼哈頓距離、馬氏距離等.
使用KNN算法找到輸入文本的K個(gè)相似文本,首先使用詞向量模型將每個(gè)文本表示為文本矩陣,然后采用距離公式計(jì)算輸入文本與訓(xùn)練集中每個(gè)文本的相似度,選出相似度最高的K個(gè)文本[12].
給定輸入文本Xi,采用距離公式計(jì)算輸入文本Xi與訓(xùn)練集中每個(gè)文本Xj的相似度sim(Xi,Xj):
(1)
式(1)中Xi是輸入文本矩陣,Xj是訓(xùn)練集N={X1,X2,…,Xm}中的一個(gè)文本矩陣,t是文本矩陣的特征維數(shù),Xiz為輸入文本矩陣Xi的第z個(gè)特征,Xjz為訓(xùn)練集文本矩陣Xj的第z個(gè)特征.
從訓(xùn)練集中找出K個(gè)最相似的文本:{X1,X2,…,Xk},其對(duì)應(yīng)的類別標(biāo)簽為:{y1,y2,…,yk}.
卷積神經(jīng)網(wǎng)絡(luò)是從傳統(tǒng)神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái)的多層網(wǎng)絡(luò)模型,可以快速訓(xùn)練模型并提取特征,常用于分類和預(yù)測(cè).卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、輸出層組成.
1)數(shù)據(jù)輸入層
本文先對(duì)每個(gè)文本進(jìn)行分詞、去停用詞,并采用Google公司Mikolov[13]提出的word2vec工具,根據(jù)給定的文本語(yǔ)料庫(kù),快速有效地將文本轉(zhuǎn)換為文本矩陣,便于計(jì)算機(jī)直接處理.本文給定訓(xùn)練集文本為:N={X1,X2,…,Xm},其對(duì)應(yīng)類別標(biāo)簽為:Y={y1,y2,…,ym}.
每個(gè)文本最大的詞語(yǔ)數(shù)為s,表示為:
Xi={Xi1,Xi2,…,Xis}
(2)
式(2)中i表示訓(xùn)練集中第i個(gè)文本.每個(gè)詞語(yǔ)的特征維數(shù)為d,組成s*d維的矩陣,傳入基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感分類模型中(如圖1所示).
2)卷積層
將經(jīng)過(guò)預(yù)處理后的文本矩陣s*d作為卷積神經(jīng)網(wǎng)絡(luò)輸入層的特征圖,利用卷積核對(duì)特征圖進(jìn)行卷積操作,進(jìn)一步提取局部特征.卷積神經(jīng)網(wǎng)絡(luò)的卷積層由不同尺寸的卷積核組成,本文使用的卷積核尺寸為h*d,卷積核高度h分別為3、4、5,每個(gè)尺寸的卷積核有128個(gè),每個(gè)文本都設(shè)有一個(gè)固定的滑動(dòng)窗口為{X1:h,X2:h+1,…,Xs-h+1:s},對(duì)文本矩陣的每個(gè)窗口Xv:v+h-1進(jìn)行卷積運(yùn)算如公式(3)所示:
ci=f(∑Wh?Xv:v+h-1+bh)
(3)
ci表示卷積核的運(yùn)算結(jié)果,Wh為卷積核的權(quán)重,Wh∈Rh*d,bh∈R為卷積核的偏置,v代表卷積核滑動(dòng)窗口的參數(shù),?為卷積計(jì)算,f(x)為激活函數(shù),本文采用Relu函數(shù)激活,Relu函數(shù)能夠更好地學(xué)習(xí)優(yōu)化.
卷積核卷積后的特征圖如公式(4)所示:
C=[c1,c2,…,cs-h+1]
(4)
圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感分類模型
3)池化層
池化層也稱為下采樣層,主要用于減少特征圖的維數(shù),但不改變特征圖的數(shù)量,用來(lái)選取最優(yōu)的特征值,加快模型的訓(xùn)練速度,也能防止模型過(guò)擬合.本文使用最大池化(Max-pooling)對(duì)不同尺寸的卷積核運(yùn)算并提取最優(yōu)特征.
C=max(C)
(5)
每個(gè)尺寸的卷積核有128個(gè),一個(gè)卷積核經(jīng)過(guò)卷積池化后提取最優(yōu)的一個(gè)特征,三個(gè)不同尺寸的卷積核共產(chǎn)生128*3=384個(gè)特征.
4)輸出層
經(jīng)過(guò)卷積運(yùn)算以及最大池化后,對(duì)樣本特征圖進(jìn)行全連接,提取最有利于樣本分類的特征進(jìn)行分類.本文將經(jīng)過(guò)全連接獲取的384個(gè)特征作為輸出層的特征圖:F=[f1,f2,…,f384],采用全連接的softmax函數(shù)進(jìn)行分類,預(yù)測(cè)第l個(gè)文本的情感類別,其中概率最大的類別即為預(yù)測(cè)文本的情感類別,具體如公式(6)、公式(7)所示:
Pl(y|F,ws,bs)=softmax(wsF+bs)
(6)
(7)
其中,ws,bs分別為權(quán)重和偏置,y為文本情感分類的類別.
大多數(shù)深度學(xué)習(xí)算法都使用單一的文本矩陣作為模型的輸入,并未考慮輸入文本的相似文本實(shí)例對(duì)分類效果的影響.為了提取更多促進(jìn)文本情感分類的特征,本文提出基于最近鄰算法的加權(quán)文本矩陣模型(如圖2所示).
本文采用歐氏距離作為衡量相似度的標(biāo)準(zhǔn),利用KNN算法從訓(xùn)練集中獲取輸入文本Xi的K個(gè)訓(xùn)練文本,則這K個(gè)訓(xùn)練文本的文本矩陣為:{X1,X2,…,Xk},其對(duì)應(yīng)標(biāo)簽為:{y1,y2,…,yk}.待分類文本Xi和K個(gè)訓(xùn)練文本的相似度如公式(8)、公式(9)所示:
Sj=sim(Xi,Xj)
(8)
S={S1,S2,…,Sk}
(9)
圖2 基于最近鄰算法的加權(quán)文本矩陣模型
其中j∈{1,2,…,k},Sj表示待分類文本Xi與訓(xùn)練集樣本Xj的相似度,K個(gè)訓(xùn)練文本組成的權(quán)重為S.使用權(quán)重S對(duì)K個(gè)訓(xùn)練文本矩陣加權(quán)構(gòu)成加權(quán)文本矩陣X′如公式(10)所示:
(10)
其中o表示K個(gè)訓(xùn)練文本中的第o個(gè)文本,Xo表示K個(gè)訓(xùn)練文本中的第o個(gè)文本矩陣,So表示相似度權(quán)重S中的第o個(gè)相似度.由于不同特征項(xiàng)對(duì)文本類別的分類能力不同,使用相似度加權(quán),可以更好地將區(qū)分能力高的特征賦予較高的權(quán)值[14].
注意力機(jī)制表示文本中單詞與輸出類別的相關(guān)性,通過(guò)計(jì)算矩陣之間的權(quán)重系數(shù)得到模型的注意力,權(quán)重越大,更能凸顯重要特征,權(quán)重越小,能排除冗余的噪聲.
考慮到相似文本詞語(yǔ)之間存在依賴性,本文首先使用3.1中介紹的基于最近鄰算法的加權(quán)文本矩陣模型得到加權(quán)文本矩陣,然后通過(guò)加權(quán)文本矩陣與原始文本矩陣構(gòu)建注意力,再利用注意力得到兩個(gè)注意力加權(quán)矩陣.通過(guò)對(duì)兩個(gè)注意力加權(quán)矩陣建模,提取更多重要特征,捕獲關(guān)鍵信息.
將原始文本矩陣中的每一維特征都對(duì)加權(quán)文本矩陣的每一維特征求相似度,得到注意力矩陣.構(gòu)建加權(quán)文本矩陣X′與原始文本矩陣X的注意力機(jī)制A∈Rs*s:
(11)
使用注意力矩陣A得到兩個(gè)注意力加權(quán)矩陣.原始文本矩陣的注意力矩陣為:T=AT·W0,加權(quán)文本矩陣的注意力矩陣為:T′=A·W1,其中W0∈Rs*d,W1∈Rs*d均為模型訓(xùn)練參數(shù).將兩個(gè)注意力矩陣T、T′作為模型的輸入層傳入雙通道卷積神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練(如圖3所示).
模型使用隨機(jī)梯度下降法Adma算法[15]進(jìn)行權(quán)重更新.定義交叉熵函數(shù)為訓(xùn)練目標(biāo)的損失函數(shù):
(12)
圖3 融合卷積神經(jīng)網(wǎng)絡(luò)和注意力的評(píng)論文本情感分析模型
實(shí)驗(yàn)環(huán)境如表1所示.
表1 實(shí)驗(yàn)環(huán)境
Table 1 Lab Environment
實(shí)驗(yàn)環(huán)境環(huán)境配置操作系統(tǒng)Windows10GPU1050ti 4 GB內(nèi)存8GB編程語(yǔ)言Python3.6分詞工具Jieba,nltk詞向量訓(xùn)練工具Word2Vec深度學(xué)習(xí)框架Tensorflow
為了測(cè)試本文模型的性能,采用中科院譚松波老師整理的中文酒店評(píng)論數(shù)據(jù)集ChnSentiCorp、英文電影評(píng)論數(shù)據(jù)集MR和自然語(yǔ)言處理和中文計(jì)算會(huì)議評(píng)測(cè)的微博情感數(shù)據(jù)集NLPCC2014,其中NLPCC2014微博數(shù)據(jù)集包含多個(gè)話題.三個(gè)數(shù)據(jù)集均常用于文本情感分析實(shí)驗(yàn),由于數(shù)據(jù)集未明確劃分訓(xùn)練集和測(cè)試集,本文采用 10 折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn).數(shù)據(jù)集的標(biāo)簽有兩類,正類和負(fù)類.具體實(shí)驗(yàn)信息如表2所示,各個(gè)數(shù)據(jù)集的樣例如表3-表5所示.
表2 數(shù)據(jù)集的統(tǒng)計(jì)信息
Table 2 Statistics of data set
名稱大小正類負(fù)類類別數(shù)句子平均長(zhǎng)度ChnSentiCorp600030003000290MR1066253315331220NLP&CC20141250062506250240
本文分別采用準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1值作為模型的評(píng)價(jià)指標(biāo),具體如下.
(13)
(14)
(15)
(16)
表3 ChnSentiCorp數(shù)據(jù)集樣例
Table 3 ChnSentiCorp sample dataset
正類負(fù)類位置離我們單位很近,從價(jià)格來(lái)說(shuō),性價(jià)比很高.我要的大床房,168元,前臺(tái)服務(wù)員態(tài)度很好,房間硬件一般,但是想想價(jià)格也就這樣了.還算干凈,就是床墊子太硬.沒(méi)有騷擾電話,這個(gè)很好.這里能夠免費(fèi)上網(wǎng),剛好上網(wǎng)加班一晚,很不錯(cuò)服務(wù)態(tài)度極其差,前臺(tái)接待好象沒(méi)有受過(guò)培訓(xùn),連基本的禮貌都不懂,竟然同時(shí)接待幾個(gè)客人;大堂副理更差,跟客人辯解個(gè)沒(méi)完,要總經(jīng)理的電話投訴竟然都不敢給.要是沒(méi)有作什么虧心事情,跟本不用這么怕.我住的是新裝修的東樓,感覺(jué)房間挺寬敞,設(shè)施也不錯(cuò),相對(duì)于隔壁的香格里拉一店都不差.只是酒店其他方面例如大堂、西餐廳的環(huán)境和食物品種還需改進(jìn).否則價(jià)格差不太遠(yuǎn),我還不如住香格里拉了.過(guò)了好久才想起來(lái)評(píng)價(jià),記得離火車站超級(jí)近,不過(guò)方便的同時(shí)必然會(huì)覺(jué)得比較吵.韓日旅游團(tuán)住這里的很多,前臺(tái)服務(wù)冷淡.兩個(gè)人住標(biāo)準(zhǔn)間,只給一張房卡,還很挑釁的看我.氣的沒(méi)心情.
表4 MR數(shù)據(jù)集樣例
Table 4 MR sample dataset
正類負(fù)類a thoughtful,provocative,in-sistently humanizing film.an odd,haphazard,and inconse-quential romantic comedy.the film makes a strong case for the importance of the musicians in creating the motown sound.the story is also as unoriginal as they come,already having been recycled more times than i′d care to count.
表5 NLPCC2014數(shù)據(jù)集樣例
Table 5 NLPCC2014 sample dataset
正類負(fù)類手感超好,而且黑色相比白色在轉(zhuǎn)得時(shí)候不容易眼花,找童年的記憶啦.今天是在中關(guān)村圖書大廈(新華書店)看到之后,專門上網(wǎng)來(lái)找,發(fā)現(xiàn)這里居然比那里太貴得多.看來(lái)也不能輕易在網(wǎng)上不常見的東西.今天突然看到卓越有賣這個(gè)的,可是韓國(guó)不是賣沒(méi)有了嗎.雖然是引進(jìn)版的,可是之前也賣沒(méi)有了.卓越從哪里找出來(lái)的啊!我買了不能說(shuō)的秘密的DVD 和原聲CD 沒(méi)想到全是盜版!!!更可笑的是制作粗劣的DVD包裝上還印著卓越亞馬遜的LO-GO卓越太讓我失望了!
其中TP表示預(yù)測(cè)為正樣本且分類正確的樣本數(shù),TN表示預(yù)測(cè)為負(fù)樣本且分類正確的樣本數(shù),F(xiàn)P表示實(shí)際為負(fù)且分類錯(cuò)誤的樣本數(shù),F(xiàn)N表示實(shí)際為正且分類錯(cuò)誤的樣本數(shù).
實(shí)驗(yàn)參數(shù)設(shè)置如下:使用word2vec工具訓(xùn)練詞向量,單個(gè)文本詞語(yǔ)最大個(gè)數(shù)300,詞向量維數(shù)200,得到文本的尺寸大小為300*200.卷積層中設(shè)置不同尺寸的卷積核,從不同維度提取不同特征.本文設(shè)置了三個(gè)尺寸的卷積核,每個(gè)尺寸的卷積核均有128個(gè).尺寸大小分別為3*200、 4*200、5*200.學(xué)習(xí)率為0.001,學(xué)習(xí)率指數(shù)衰減率為0.9,迭代次數(shù)為40,批次數(shù)為64.使用最近鄰算法獲取K個(gè)相似文本,K設(shè)置范圍為[1,20].
本文采用融合卷積神經(jīng)網(wǎng)絡(luò)和注意力的評(píng)論文本情感分析模型(ADCNN)進(jìn)行實(shí)驗(yàn),選取部分實(shí)驗(yàn)結(jié)果作為展示.通過(guò)三個(gè)不同實(shí)驗(yàn)對(duì)本文模型的結(jié)果進(jìn)行衡量,驗(yàn)證本文模型的有效性.
實(shí)驗(yàn)1.為了檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果,本文將其與基準(zhǔn)深度學(xué)習(xí)方法進(jìn)行對(duì)比.基準(zhǔn)模型包括:卷積神經(jīng)網(wǎng)絡(luò)(CNN)[6]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[16]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[17]、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)[18]、基于注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Attention-BiLSTM)[19].其中雙通道卷積神經(jīng)網(wǎng)絡(luò)模型(DCNN),表示未加入注意力機(jī)制的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,直接將原始文本矩陣與加權(quán)文本矩陣輸入到雙通道卷積神經(jīng)網(wǎng)絡(luò)模型中.表6列出了7種算法在不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果.
從表6可知,相比CNN、RNN、LSTM、BiLSTM、Attention-BiLSTM、DCNN,本文模型ADCNN在ChnSentiCorp數(shù)據(jù)集的準(zhǔn)確率達(dá)到88.97%,相比CNN方法提高了3.47%,在MR數(shù)據(jù)集的準(zhǔn)確率達(dá)到82.12%,相比CNN方法提高了1.54%,在NLPCC2014數(shù)據(jù)集的準(zhǔn)確率達(dá)到80.54%,相比CNN方法提高了3.3%,分類準(zhǔn)確率均有所提高.這是因?yàn)楸疚目紤]到相似文本對(duì)分類效果的影響,使用KNN算法找到相似文本,豐富了文本特征,從相似文本出發(fā)得到更有分類意義的特征,強(qiáng)化有利于分類的文本正向情感詞,通過(guò)獲取評(píng)論文本的多維特征來(lái)增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型的分類能力,更有助于文本情感分析.從表2可知,ChnSentiCorp、MR、NLPCC2014數(shù)據(jù)集的平均長(zhǎng)度分別為90、20、40,相比原始的CNN方法,準(zhǔn)確率分別提高3.47%、1.54%、3.3%,可知文本長(zhǎng)度對(duì)分類準(zhǔn)確率的影響不大.更進(jìn)一步,從表6可以看出,ADCNN的實(shí)驗(yàn)效果優(yōu)于DCNN,這是因?yàn)楸疚脑诳紤]相似文本的基礎(chǔ)上,引入注意力機(jī)制構(gòu)建加權(quán)矩陣,使得文本特征與輸出類別的相關(guān)性更強(qiáng),更好的提高算法的分類效果.
實(shí)驗(yàn)2.為了測(cè)試最近鄰算法中K的取值對(duì)ADCNN模型和DCNN模型分類性能的影響,本文取K的變化范圍為[1,20],測(cè)試不同的K對(duì)其準(zhǔn)確率的影響.
使用KNN算法提取相似文本,并對(duì)相似文本進(jìn)行加權(quán).如果選取的K值太大,導(dǎo)致文本特征冗余,噪聲較大;選取K值太小,導(dǎo)致用于分類的文本特征不充分.圖4分別為ADCNN、DCNN在三個(gè)數(shù)據(jù)集上的K的不同取值對(duì)效果的影響.從兩張圖中可以看出,當(dāng)K=0時(shí)為多尺寸卷積神經(jīng)網(wǎng)絡(luò)模型,酒店評(píng)論數(shù)據(jù)集ChnSentiCorp準(zhǔn)確率達(dá)到85.50%,電影評(píng)論數(shù)據(jù)集MR達(dá)到80.58%,微博情感數(shù)據(jù)集NLPCC2014達(dá)到77.24%.使用最近鄰算法提取相似文本后,兩個(gè)模型的效果都有顯著提高.數(shù)據(jù)集為ChnSentiCorp,ADCNN模型當(dāng)K取13時(shí),模型準(zhǔn)確率達(dá)到88.97%,DCNN模型當(dāng)K取10時(shí),模型準(zhǔn)確率達(dá)到88.65%.數(shù)據(jù)集為MR時(shí),ADCNN模型當(dāng)K取6或9時(shí),模型準(zhǔn)確率達(dá)到82.12%,DCNN模型當(dāng)K取7時(shí),模型準(zhǔn)確率達(dá)到81.92%.數(shù)據(jù)集為NLPCC2014時(shí),ADCNN模型當(dāng)K取8時(shí),模型準(zhǔn)確率達(dá)到80.54%,DCNN模型當(dāng)K取7時(shí),模型準(zhǔn)確率達(dá)到80.16%.本文使用基于雙通道卷積神經(jīng)網(wǎng)絡(luò)和注意力的評(píng)論文本情感分析模型,三個(gè)數(shù)據(jù)集的準(zhǔn)確率都有顯著的提升.從圖4看出,隨著K的增加,模型的準(zhǔn)確率在不斷上升,但是當(dāng)K達(dá)到一定程度時(shí),準(zhǔn)確率開始不斷下降,因?yàn)檫^(guò)多的相似文本會(huì)導(dǎo)致冗余特征,進(jìn)一步導(dǎo)致分類準(zhǔn)確率的降低.從實(shí)驗(yàn)2可以看出,合適的K可以增大模型的分類準(zhǔn)確率.
表6 7種算法在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
Table 6 Results of seven algorithms on different datasets
模型數(shù)據(jù)集AccuracyPrecisionRecallF1CNNChnSentiCorpMRNLPCC201485.5080.5877.2485.5780.5277.2685.5080.5077.2685.5380.5177.26RNNChnSentiCorpMRNLPCC201485.8079.5376.9185.9179.6076.8785.8079.5376.9085.8579.5676.89LSTMChnSentiCorpMRNLPCC201486.5380.2377.6986.5280.3077.6986.5380.2377.6086.5380.2677.64BiLSTMChnSentiCorpMRNLPCC201487.9081.6778.6787.9681.6078.6387.9081.6778.6387.9381.6378.63Attention-BiL-STMChnSentiCorpMRNLPCC201488.1081.7179.2888.2781.7379.2088.1681.7079.2988.2181.7179.24DCNNChnSentiCorpMRNLPCC201488.6581.9280.1688.6581.9580.1588.6581.9180.1288.6581.9380.14ADCNNChnSentiCorpMRNLPCC201488.9782.1280.5488.9882.0580.5488.9582.1280.5688.9682.0880.55
圖4 ADCNN和DCNN在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)3.為了驗(yàn)證ADCNN和DCNN兩個(gè)模型在不同卷積核尺寸作用下,對(duì)文本情感分類的準(zhǔn)確率影響,設(shè)置不同卷積核尺寸,計(jì)算分類準(zhǔn)確率.本文設(shè)置7組不同的卷積核進(jìn)行實(shí)驗(yàn),卷積核尺寸分別為3、4、5、(3,4)、(3,5)、(3,4,5),并比較在不同數(shù)據(jù)集上的準(zhǔn)確率.
表7為兩個(gè)模型ADCNN和DCNN在不同卷積核尺寸作用下的分類準(zhǔn)確率.由表6可知,兩個(gè)模型在卷積核尺寸為(3,4,5)作用下的分類結(jié)果均優(yōu)于其他的卷積核尺寸.這是因?yàn)槎喑叽缇矸e核的相互作用對(duì)分類準(zhǔn)確率的提高有正向促進(jìn)作用,其分類準(zhǔn)確率比單尺寸卷積核的分類準(zhǔn)確率高,證明多尺寸卷積核可以從不同維度提取出重要特征,更好的對(duì)文本情感分析.
表7 不同卷積核尺寸作用的實(shí)驗(yàn)結(jié)果
Table 7 Results of different convolution kernel sizes
卷積尺寸數(shù)據(jù)集DCNNADCNN3ChnSentiCorpMRNLPCC201485.5680.5078.7385.8780.6378.974ChnSentiCorpMRNLPCC201486.2880.7678.7086.480.9879.075ChnSentiCorpMRNLPCC201486.4581.0678.8586.9281.4379.013,4ChnSentiCorpMRNLPCC201487.4081.2378.6387.4581.8379.133,5ChnSentiCorpMRNLPCC201487.6581.7978.9287.8581.8679.114,5ChnSentiCorpMRNLPCC201488.2581.7478.8088.4681.7979.233,4,5ChnSentiCorpMRNLPCC201488.6581.9280.1688.9782.1280.54
由于大多數(shù)深度學(xué)習(xí)算法都使用單一的文本矩陣作為網(wǎng)絡(luò)模型的輸入,并未考慮相似文本實(shí)例對(duì)整體分類效果的影響,故提出了融合卷積神經(jīng)網(wǎng)絡(luò)和注意力的評(píng)論文本情感分析模型(ADCNN).實(shí)驗(yàn)結(jié)果表明,本文模型相比其他深度學(xué)習(xí)模型分類效果都有明顯的提高.
今后的研究將嘗試以下工作:1)生成對(duì)抗模型(Generative Adversarial Networks,GAN)是最具有前景的深度學(xué)習(xí)算法之一,嘗試將GAN與KNN結(jié)合進(jìn)一步提升文本情感分類的效果.2)KNN算法由于其需要計(jì)算待分類文本和每個(gè)訓(xùn)練文本的相似度,導(dǎo)致模型時(shí)間復(fù)雜度較高.嘗試使用快速且準(zhǔn)確的KD-Tree與神經(jīng)網(wǎng)絡(luò)結(jié)合或者尋找新的距離公式計(jì)算文本相似度,從而降低時(shí)間復(fù)雜度和空間復(fù)雜度.