趙亞麗,余正濤,郭軍軍,高盛祥,相 艷
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
隨著“一帶一路”倡議的提出,中國和越南在政治、經(jīng)濟(jì)等領(lǐng)域的聯(lián)系愈加緊密。在越南熱點(diǎn)事件發(fā)生后,越南社交媒體在互聯(lián)網(wǎng)上進(jìn)行報(bào)道,及時(shí)了解這些熱點(diǎn)報(bào)道中民眾的情感態(tài)度,對中越雙邊政治、貿(mào)易和文化交流有巨大影響。然而,越南語屬于小語種,缺乏大規(guī)模標(biāo)記數(shù)據(jù),漢越2種語言存在語義鴻溝,且人工標(biāo)注費(fèi)時(shí)費(fèi)力。
Table 1 An example of the COVID-19 reviews in Vietnamese and Chinese表1 新冠疫情評論漢越樣例數(shù)據(jù)示例
越南語等低資源語言缺乏標(biāo)注數(shù)據(jù),而已有的監(jiān)督學(xué)習(xí)方法仍然是基于機(jī)器翻譯[1 - 3]的跨語言情感分類方法。由于受機(jī)器翻譯性能誤差累積的影響,面向東南亞小語種語言的情感分類準(zhǔn)確率普遍較低。
對于沒有標(biāo)注數(shù)據(jù)的低資源語言的情感分類,通常的做法是借助另外一種標(biāo)記資源豐富的語言,用跨語言情感分類CLSC(Cross-Lingual Sentiment Classification)的方法輔助目標(biāo)語言進(jìn)行情感分類,借助對抗網(wǎng)絡(luò),獲得雙語語義對齊空間。傳統(tǒng)的方法僅僅是在語義空間對齊,而情感詞是情感分類的最直接有效的描述,也應(yīng)該將其作為情感分類的依據(jù)。
在跨語言情感分類的任務(wù)中,如何實(shí)現(xiàn)不同語言的句子在公共語義空間的語義對齊,如何在沒有任何標(biāo)簽的情況下去無監(jiān)督地完成情感分類是CLSC的核心難點(diǎn)。
要完成越南語的情感分類,首先要解決漢語和越南語不在同一語義空間的問題。Zhou等[4]實(shí)現(xiàn)跨語言情感分析的方式是通過機(jī)器翻譯將源語言翻譯為目標(biāo)語言,跨語言表示學(xué)習(xí)是指不同語言的詞向量表示可以共享一個(gè)向量空間,不同語言中情感語義相近的詞在該空間中的距離相近。Mikolov等[5]提出將雙語單詞進(jìn)行對齊,并訓(xùn)練得到源語言詞向量空間到目標(biāo)語言詞向量空間的線性映射。Faruqui等[6]提出將源語言和目標(biāo)語言的詞嵌入映射到同一個(gè)向量空間。Lauly等[7]提出通過自編碼器對源語言進(jìn)行編碼,同時(shí)源語言和目標(biāo)語言通過解碼來得到雙語的詞向量。Meng等[8]利用平行語料庫提升詞典覆蓋率,采用最大似然值對詞語進(jìn)行標(biāo)注,進(jìn)而提升情感分類的準(zhǔn)確率。粟雨晴等[9]通過構(gòu)建雙語詞典,進(jìn)行微博多情感分析。但這2種方法都需要構(gòu)建多語言平行語料庫,分類準(zhǔn)確率依賴于語料庫的質(zhì)量和規(guī)模大小。Wang等[10]利用因子圖模型的屬性函數(shù)從每個(gè)帖子中學(xué)習(xí)單語和雙語信息,利用因子函數(shù)來探索不同情緒之間的關(guān)系,并采用置信傳播算法來學(xué)習(xí)和預(yù)測模型。
深度學(xué)習(xí)中的生成對抗網(wǎng)絡(luò)可以很好地應(yīng)用于遷移學(xué)習(xí)任務(wù)中,使用生成對抗網(wǎng)絡(luò)構(gòu)建起源語言與目標(biāo)語言之間的橋梁,從而緩解了目標(biāo)語言中標(biāo)注數(shù)據(jù)匱乏的問題。但是,傳統(tǒng)的GAN(Generative Adversarial Networks)[11]存在不易訓(xùn)練、生成數(shù)據(jù)可解釋性差和易崩潰等缺點(diǎn)。近年來對GAN的研究主要有以下幾種改進(jìn):對抗式自編碼器AAE(Adversarial AutoEncoders),由Makhzani等[12]提出,加入自編碼器可使生成數(shù)據(jù)更接近于輸入數(shù)據(jù),從而避免無效數(shù)據(jù)的產(chǎn)生;信息生成對抗網(wǎng)絡(luò)InfoGAN(interpretable representation learning by Information maxmizing Generative Adversarial Net),Chen等[13]提出了InfoGAN模型,該模型在生成器中引入隱含編碼,利用隱含編碼對生成數(shù)據(jù)做出解釋;序列生成對抗網(wǎng)絡(luò)SeqGAN,Yu等[14]提出的SeqGAN模型把序列生成問題看作序列決策制定過程,并使用強(qiáng)化學(xué)習(xí)的思想對模型進(jìn)行訓(xùn)練;條件生成對抗網(wǎng)絡(luò)CGAN(Conditional GAN),CGAN模型由Mirza等[15]提出,該模型在對生成器和判別器建模時(shí)引入了條件變量,通過最大最小化條件變量使得生成器的輸出既與真實(shí)數(shù)據(jù)相似又受條件約束。這些改進(jìn)的GAN在文本和圖像領(lǐng)域已取得不錯(cuò)的進(jìn)展[16]。
以上對于GAN的研究多數(shù)局限在圖像以及單語文本研究領(lǐng)域。本文在基于對抗的卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution Neural Network)文本分類模型上加入了原文情感詞典的特征擴(kuò)展,經(jīng)過對抗,將高資源情感語義模型遷移到低資源語言,得到雙語情感語義對齊空間,顯著提升低資源語言情感分類任務(wù)的識別性能。
本文融合情感詞典來指導(dǎo)低資源語言的跨語言情感分類,提出了基于情感語義對抗的無監(jiān)督跨語言情感分類模型SADAN(Sentiment Adversarial Deep Averaging Network)。圖1是本文模型的基本結(jié)構(gòu),其中虛線表示無標(biāo)簽的數(shù)據(jù),實(shí)線表示有標(biāo)簽的數(shù)據(jù)。
Figure 1 Cross-language sentiment classification model based on sentiment semantic confrontation圖1 基于情感語義對抗的跨語言情感分類模型
SADAN是一個(gè)具有2個(gè)分支的前饋網(wǎng)絡(luò)。網(wǎng)絡(luò)中有3個(gè)主要模塊,分別是:
(1)融合情感詞的句子語義表征模塊:將句子和句子中的情感詞進(jìn)行拼接,對拼接后的句子進(jìn)行嵌入,用CNN進(jìn)行特征抽取,分別獲得漢越2種語言在單語語義空間下的情感語義表征。CNN作為共享特征提取器,目的是幫助情感分類器學(xué)習(xí)情感特征,并阻礙語言鑒別器辨別該特征來自于源語言還是目標(biāo)語言。
(2)雙語情感語義對齊模塊:將2種語言的語義表征進(jìn)行對抗訓(xùn)練,實(shí)現(xiàn)高資源語言到低資源語言的對齊,得到雙語情感語義對齊空間。
(3)跨語言情感分類模塊:將卷積得到的句子表征和句子中所包含的情感詞(保持維度相同)進(jìn)行拼接得到新的詞向量,實(shí)現(xiàn)句子的特征擴(kuò)展,再通過濾波器抽取得到句子特征的向量化表示。最后基于softmax激活函數(shù)[18]進(jìn)行目標(biāo)語言的情感分類。
3.2.1 情感詞拼接
句子中情感詞的獲取是跨語言情感分類任務(wù)的第1步。利用匹配算法將語料句子中的每個(gè)詞和情感詞典中的詞進(jìn)行匹配,將句子中的情感詞拼接在句子后面。
X={Xi,i=1,2,3,…,n}
(1)
X′={(Xi,Si),i=1,2,3,…,n;Si∈Rn×|S|}
(2)
Y={Yj,j=1,2,3,…,m}
(3)
Y′={(Yj,Kj),j=1,2,3…,m;Kj∈Rn×|K|}
(4)
其中,X表示源語言句子集合,Y表示目標(biāo)語言句子集合,X′表示源語言句子與句子中情感詞拼接后的句子集,Xi表示源語言句子集中的第i個(gè)句子,Si表示拼接在第i個(gè)句子后的情感詞,n表示源語言句子個(gè)數(shù),|S|表示拼接的情感詞的長度,Y′表示目標(biāo)語言句子與句子中情感詞拼接后的句子集,Yj表示目標(biāo)語言句子中第j個(gè)句子,Kj表示第j個(gè)目標(biāo)語言句子后拼接的情感詞,|K|表示拼接的情感詞的長度。
3.2.2 雙語詞嵌入
給定源語言句子輸入X′={(xi,li),j=1,2,3,…,n}和一個(gè)目標(biāo)語言句子輸入Y′={(yj,zj),j=1,2,3,…,m}。本文利用雙語詞嵌入將每個(gè)句子中的每個(gè)詞表示成z維詞向量,如式(5)和式(6)所示:
EX′=emb(Xi,Si)
(5)
EY′=emb(Yj,Kj)
(6)
其中,EX′∈Rn×|q|和EY′∈Rn×|d|分別表示嵌入函數(shù),它將每一個(gè)輸入序列中的每個(gè)詞轉(zhuǎn)化為對應(yīng)的z維詞向量; |q|和|d|表示源語言和目標(biāo)語言輸入模型的句子長度。本文所采用的詞嵌入設(shè)為50維,即z=50。
將句子和句子中的情感詞進(jìn)行拼接,用卷積神經(jīng)網(wǎng)絡(luò)對拼接后的句子進(jìn)行聯(lián)合表征,分別獲得漢越2種語言單語語義空間下的情感語義表征;然后,通過對抗網(wǎng)絡(luò)在雙語情感語義空間將帶標(biāo)簽數(shù)據(jù)與無標(biāo)簽數(shù)據(jù)的情感語義表征進(jìn)行對齊。該模塊包括共享特征提取器模塊(F)和語言鑒別器(D)。
3.3.1 CNN共享特征提取器(F)
圖1中嵌入層的輸出送給用于特征提取的卷積層。本文在對句子進(jìn)行特征提取的同時(shí),也對句子中的情感詞進(jìn)行特征提取。每個(gè)卷積層都有固定大小的滑動(dòng)窗口,每次只處理窗口內(nèi)的信息。窗口的大小設(shè)定為k,在卷積操作中有連續(xù)k個(gè)詞向量獲得新的特征向量ci,i表示第i個(gè)特征值,xi:i+k-1表示輸入評論句中第i個(gè)詞到第i+k-1個(gè)詞經(jīng)過卷積操作得到的向量表示。操作過程可以用式(7)表示:
ci=f1(w·xi:i+k-1+b)
(7)
其中,濾波器的權(quán)重矩陣w∈Rk×d,b為偏置項(xiàng),f1為激活函數(shù)。
提取出來的特征C表示為式(8):
C=[c1,c2,…,cn-k+1]
(8)
同理,情感詞抽取出的特征A表示為式(9):
A=[a1,a2,…,am]
(9)
其中,ai,1≤i≤m表示情感詞抽取出的特征向量。
3.3.2 語言鑒別器(D)
考慮源語言(src)和目標(biāo)語言(tgt)的聯(lián)合隱藏特征的分布,如式(10)和式(11)所示。
(10)
(11)
為了學(xué)習(xí)漢越雙語的語言特征,SADAN訓(xùn)練F(x)使這2個(gè)分布盡可能接近,以獲得更好的跨語言概括。由于Jensen-Shannon散度存在不連續(xù)性,Arjovsky等[19]建議將Wasserstein距離最小化,并證明了其對超參數(shù)選擇的穩(wěn)定性有所幫助。
(12)
為了使D成為Lipschitz函數(shù)(直到一個(gè)常數(shù)),D的參數(shù)總是被限制在一個(gè)固定的范圍內(nèi)。設(shè)D用θq參數(shù)化,那么目標(biāo)Jq如式(13)所示:
Jq(θf)≡
(13)
v′=w′·v+b′
(14)
其中,w′為全連接層訓(xùn)練的權(quán)重矩陣,b′為偏置項(xiàng)。v′經(jīng)過全連接層,獲得了多個(gè)特征類別范圍內(nèi)的估計(jì)值,需要做歸一化的處理,采用softmax分類函數(shù)可以決策出最大概率的類別,用式(15)表示如下:
p=softmax(v′)
(15)
其中,softmax為分類器。p表示句子最終情感特征所屬的概率,可以判別出句子的情感類別。
對于由θp參數(shù)化的情感分類器P,使用傳統(tǒng)的交叉熵?fù)p失,表示為Lp(y′,y),其中y′和y分別是預(yù)測的標(biāo)簽分布和真實(shí)的標(biāo)簽。Lp是P預(yù)測正確標(biāo)簽的負(fù)對數(shù)似然。因此,求P的以下?lián)p失函數(shù)的最小值,用式(16)表示如下:
(16)
4.1.1 漢越數(shù)據(jù)集
漢越數(shù)據(jù)集的構(gòu)建過程與文獻(xiàn)[13]中構(gòu)建CLSC漢英數(shù)據(jù)集類似,參數(shù)設(shè)置如表2所示。CLSC數(shù)據(jù)集是從新浪微博與推特平臺獲取的2020年美國疫情相關(guān)的熱門社交媒體評論數(shù)據(jù),共包含20 334條中文微博評論和11 233條越南語推特評論,經(jīng)過篩選與預(yù)處理形成json格式文件,經(jīng)過一系列數(shù)據(jù)整理和預(yù)處理后獲得漢越CLSC數(shù)據(jù)集,數(shù)據(jù)格式為:(中文句子,中文情感詞,標(biāo)簽l)和(越南語句子,越南語情感詞),其中l(wèi)∈{0,1,2,3,4}。
Table 2 Parameters setting表2 參數(shù)設(shè)置
4.1.2 英中數(shù)據(jù)集
本文的英語數(shù)據(jù)集是文獻(xiàn)[21]中的70萬條Yelp評論的平衡數(shù)據(jù)集并采用了他們的訓(xùn)練集和驗(yàn)證集分割:65萬份用于訓(xùn)練和50萬份用于驗(yàn)證。中文數(shù)據(jù)集方面,本文使用Lin等[22]的1萬條中國酒店評論用作驗(yàn)證集,另外的15萬條未標(biāo)記的中國酒店評論作為測試集。
4.2.1 評價(jià)指標(biāo)
本文的實(shí)驗(yàn)評價(jià)指標(biāo)使用準(zhǔn)確率Accuracy、精確率Precision、召回率Recall和F1值,主要使用Accuracy進(jìn)行評價(jià)。其計(jì)算公式分別如式(17)~式(20)表示為:
(17)
(18)
(19)
(20)
其中,TP表示實(shí)際為正例且被分類器劃分為正例的樣本數(shù),TN表示實(shí)際為負(fù)例且被分類器劃分為負(fù)例的樣本數(shù),FP表示實(shí)際為正例且被分類器劃分為負(fù)例的樣本數(shù),F(xiàn)N表示實(shí)際為負(fù)例且被分類器劃分為正例的樣本數(shù)。
4.2.2 模型參數(shù)設(shè)置
本文模型基于pytorch的深度學(xué)習(xí)框架,具體參數(shù)設(shè)置如表2所示。
4.3.1 基準(zhǔn)模型
本文模型與Train-on-SOURCE-only,Domain Adaptation,Machine Translation,CLD-based CLTC和ADAN等基準(zhǔn)模型做了對比實(shí)驗(yàn)。
Train-on-SOURCE-only[23]模型:Logistic Regression和DAN在源語言英語上進(jìn)行訓(xùn)練,并且只依靠雙語詞嵌入BWE(Bilingual Word Embeddings)對目標(biāo)語言進(jìn)行分類。
Domain Adaptation模型:在域自適應(yīng)中,廣泛使用Sinno等[24]的模型并不奏效,因?yàn)樗枰獦颖緮?shù)量(650 000)的二次空間。因此,本文將其與Chen等[25]提出的mSDA模型相比較,后者是對亞馬遜評論進(jìn)行跨領(lǐng)域情感分類非常有效的模型。
基于Machine Translation CLSC[26]模型: 根據(jù)機(jī)器翻譯的2種模型Logistic Regression+MT和DAN+MT評估本文模型。
CLD-based CLTC(Cross-Lingual Distillation-based Cross-Lingual Text Classification)模型:Xu等[27]提出了一種跨語言提取CLD模型,該模型利用并行語料庫上的預(yù)測來訓(xùn)練目標(biāo)語言CLD-KCNN(Cross-Lingual Distillation-Knowledge-aware Convolutional Neural Network),并進(jìn)一步提出了一種改進(jìn)的變體CLDFA-KCNN(Cross-Lingual Distillation with Feature Adaptation-Knowledge-aware Convolutional Neural Network),該變體利用對抗性訓(xùn)練來彌補(bǔ)源語言和目標(biāo)語言中標(biāo)記和未標(biāo)記文本之間的領(lǐng)域差距。
ADAN(Adversarial Deep Averaging Network)模型[28]:該模型由CNN和GAN神經(jīng)網(wǎng)絡(luò)組成,其中CNN負(fù)責(zé)提取句子中的特征,GAN負(fù)責(zé)學(xué)習(xí)雙語語言特征。
4.3.2 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)對本文所提模型的有效性進(jìn)行驗(yàn)證,在越南語數(shù)據(jù)集上證明模型的有效性。實(shí)驗(yàn)結(jié)果如表3所示。
Table 3 Experimental results on Chinese-Vietnamese data set 表3 漢越數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 %
為了驗(yàn)證本文所提出的基于情感語義對抗的無監(jiān)督跨語言情感分類模型的泛化性,本文還在文獻(xiàn)[13]中公布的公共數(shù)據(jù)集上將性能最優(yōu)的“本文模型”與上述基準(zhǔn)模型的性能作對比,對比實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)表明了情感語義對抗的有效性與泛化性。具體分析結(jié)果如下:
Table 4 Accuracy comparison of models on yelp dataset and Chinese hotel dataset表4 yelp和中文酒店數(shù)據(jù)集上模型準(zhǔn)確率對比 %
(1)Train-on-SOURCE-only基準(zhǔn)模型中的Logistic Regression使用標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)算法,此外,本文還評估了模型的一個(gè)非對抗變量,即DAN模型,它是情感分類的現(xiàn)代神經(jīng)模型之一。與SADAN相比,僅基于源語言的基線模型表現(xiàn)不佳,這表明BWE本身不足以轉(zhuǎn)移知識。
(2)mSDA的表現(xiàn)并不具有競爭力,這可能是因?yàn)榘╩SDA在內(nèi)的許多領(lǐng)域適應(yīng)模型都是為使用詞袋特征而設(shè)計(jì)的,但這種模型并不適合本文的任務(wù),因?yàn)?種語言的詞匯完全不同。這表明即使是域自適應(yīng)算法也不能在CLSC任務(wù)中使用現(xiàn)成的BWE。
(3)SADAN模型在2種語言上都顯著優(yōu)于機(jī)器翻譯基準(zhǔn)模型,這表明本文的對抗模型可以在沒有任何目標(biāo)語言注釋數(shù)據(jù)的情況下成功地進(jìn)行跨語言情感分類。
(4)與CLD-based CLTC基準(zhǔn)模型相比較,可以看出本文SADAN模型使中文準(zhǔn)確率有了顯著提升,CLD-based CLTC模型使用對抗式訓(xùn)練在單一語言中進(jìn)行領(lǐng)域適應(yīng),而本文直接使用對抗式訓(xùn)練進(jìn)行跨語言概括比較,證明了本文SADAN模型的有效性。
(5)ADAN模型僅僅得到語義對齊,而本文模型得到雙語情感語義對齊,證明了本文模型的有效性。
由此可見,本文的分類模型相對其他基準(zhǔn)模型具有更高的準(zhǔn)確率。
4.3.3 拼接是否為情感詞對模型準(zhǔn)確率的影響
為了證明本文提出的融合情感詞典來指導(dǎo)跨語言情感分類對本文模型的有效性,本文在漢越和中英數(shù)據(jù)集上進(jìn)行了一組簡單的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示,“(-)情感詞”表示未使用情感詞輔助指導(dǎo)跨語言情感分類,僅使用語句中的情感無關(guān)隨機(jī)詞。
Table 5 Ablation experimental results about the emotional words for splicing 表5 拼接是否為情感詞消融實(shí)驗(yàn)結(jié)果 %
由表5可知,在本文模型中使用情感詞拼接時(shí),較無情感詞拼接的模型準(zhǔn)確率提高了4%。由此證明,在跨語言任務(wù)當(dāng)中,拼接情感詞可以豐富短文本的表征,從而提高了模型的準(zhǔn)確率。
4.3.4 有無對抗網(wǎng)絡(luò)對模型準(zhǔn)確率的影響
為了證明本文提出的使用對抗網(wǎng)絡(luò)輔助來指導(dǎo)跨語言情感分類方法對本文模型的有效性,本文在數(shù)據(jù)集上進(jìn)行了是否應(yīng)該有對抗網(wǎng)絡(luò)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示,“(-)對抗”表示未使用對抗網(wǎng)絡(luò)輔助來指導(dǎo)跨語言情感分類。
Table 6 Ablation experimental results about the against network 表6 是否有對抗網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果 %
由表6可知,在本文模型中,當(dāng)使用對抗網(wǎng)絡(luò)時(shí),準(zhǔn)確率較高。由此證明,在跨語言任務(wù)當(dāng)中,對抗也可以在一定程度上拉近不同語言的語義空間。
4.3.5 拼接情感詞長度選擇對模型準(zhǔn)確率的影響
為了證明拼接不同長度情感詞來指導(dǎo)跨語言情感分類對本文模型的有效性,本文在漢越和中英數(shù)據(jù)集上進(jìn)行了拼接情感詞長度選擇的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示,“(mean)情感詞平均個(gè)數(shù)”表示使用訓(xùn)練中情感詞的平均長度進(jìn)行補(bǔ)齊來指導(dǎo)跨語言情感分類,“(max)情感詞個(gè)數(shù)”表示使用訓(xùn)練中情感詞的最大長度進(jìn)行補(bǔ)齊來指導(dǎo)跨語言情感分類 。
Table 7 Results of the ablation experiment on the number of emotional words表7 情感詞個(gè)數(shù)消融實(shí)驗(yàn)結(jié)果 %
由表7可知,在本文模型中,在原來評論句子的基礎(chǔ)上,加入情感詞后,準(zhǔn)確率較基準(zhǔn)ADAN模型有一定提升,說明情感詞拼接的個(gè)數(shù)可以影響模型的準(zhǔn)確率,當(dāng)情感詞拼接個(gè)數(shù)取該批次中情感詞長度的平均值時(shí),模型效果達(dá)到最佳。
情感詞拼接個(gè)數(shù)的增加會(huì)使情感相關(guān)特征得到擴(kuò)展,從而達(dá)到更好的分類效果。而情感詞增加到該批次的最大數(shù)量時(shí),準(zhǔn)確率開始逐漸下降。英文Yelp的評論數(shù)據(jù)和中文酒店相關(guān)的評論數(shù)據(jù)截然不同,但在拼接了該批次的情感詞平均長度后,模型準(zhǔn)確率也有明顯提升,準(zhǔn)確率達(dá)到了45.65%;當(dāng)拼接的情感詞數(shù)量增加到批次長度限制的時(shí)候,準(zhǔn)確率有顯著下降。這說明隨著拼接情感詞個(gè)數(shù)增加,卷積層從情感詞和評論句子拼接后的向量中學(xué)習(xí)到的特征會(huì)更分散,這時(shí)候情感詞的加入反倒產(chǎn)生了噪聲,導(dǎo)致準(zhǔn)確率在后續(xù)不再增長。因此,拼接的情感詞個(gè)數(shù)不是越多越好。
本文研究旨在提升無標(biāo)注的低資源目標(biāo)語言的情感分類的準(zhǔn)確率。針對不同語言之間存在語義鴻溝等導(dǎo)致分類準(zhǔn)確率低這一問題,本文利用有豐富標(biāo)記數(shù)據(jù)的源語言輔助無標(biāo)注數(shù)據(jù)的目標(biāo)語言,提出基于情感語義對抗的跨語言情感分類模型。本文模型在自制的漢越數(shù)據(jù)集和CLSC公共數(shù)據(jù)集上均取得了顯著效果。當(dāng)前,針對低資源語言的跨語言情感分析仍然是情感分析領(lǐng)域的研究熱點(diǎn)和難點(diǎn)。在未來工作中,將針對低資源語言信息檢索展開進(jìn)一步研究,在提高分類準(zhǔn)確率的同時(shí),在細(xì)粒度方面展開進(jìn)一步研究。