亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LAAE網(wǎng)絡(luò)的跨語(yǔ)言短文本情感分析方法①

        2021-06-28 06:28:08沈江紅廖曉東
        關(guān)鍵詞:源語(yǔ)言目標(biāo)語(yǔ)言編碼器

        沈江紅,廖曉東,3,4

        1(福建師范大學(xué) 福建省光電傳感應(yīng)用工程技術(shù)研究中心,福州 350117)

        2(福建師范大學(xué) 光電與信息工程學(xué)院,福州 350117)

        3(福建師范大學(xué) 醫(yī)學(xué)光電科學(xué)與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,福州 350117)

        4(福建師范大學(xué) 福建省光子技術(shù)重點(diǎn)實(shí)驗(yàn)室,福州 350117)

        情感分析[1,2]的主要任務(wù)是分析隱含在文本中的感情、態(tài)度、觀點(diǎn)等深層次信息.近年來(lái),互聯(lián)網(wǎng)的迅猛發(fā)展,給人們的生活帶來(lái)了巨大的變化.在世界范圍內(nèi),越來(lái)越多的網(wǎng)民在各大平臺(tái)發(fā)表自己的觀點(diǎn),互聯(lián)網(wǎng)上逐漸出現(xiàn)了不同國(guó)家和地區(qū)的語(yǔ)言文字,這些非規(guī)范的短文本蘊(yùn)含了大眾對(duì)事物的褒貶,亦或是自己的需求等信息,不僅在商業(yè)界而且在學(xué)術(shù)界備受關(guān)注.比如亞馬遜上的商品銷往全球,同時(shí)商家也會(huì)收到不同語(yǔ)言的評(píng)論,比如“This skirt is beautiful”,“這個(gè)裙子太漂亮了”,“Este vestido es hermoso”等.雖然語(yǔ)言形式不同,但都包含了人們對(duì)商家所售商品的褒貶,所以深層挖掘這些評(píng)論背后的信息,有利于商家了解市場(chǎng),并及時(shí)作出相應(yīng)地調(diào)整,所以具有很大的研究?jī)r(jià)值.由于英語(yǔ)的語(yǔ)料資源豐富且有大量的的標(biāo)注數(shù)據(jù)集,所以基于英語(yǔ)語(yǔ)境下的研究工作已漸入佳境,而對(duì)于語(yǔ)料資源相對(duì)匱乏的語(yǔ)種的研究工作則不易開(kāi)展.跨語(yǔ)言情感分析能夠借助資源豐富的源語(yǔ)言標(biāo)注數(shù)據(jù),對(duì)標(biāo)注資源相對(duì)匱乏的目標(biāo)語(yǔ)言數(shù)據(jù)進(jìn)行情感分析,所以越來(lái)越受到研究者的青睞.

        近年來(lái)許多研究者投身于跨語(yǔ)言情感分析的研究工作中,并取得了很大的進(jìn)步.傳統(tǒng)的研究方法是基于機(jī)器翻譯進(jìn)行的,然而翻譯的質(zhì)量很大程度上影響著分類效果.隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,一種基于映射的研究方法應(yīng)運(yùn)而生.該方法主要思想是利用深度學(xué)習(xí)的方法學(xué)習(xí)一種映射,將源語(yǔ)言和目標(biāo)語(yǔ)言映射到同一個(gè)向量空間,得到跨語(yǔ)言情感向量,然后再進(jìn)行特征提取和情感分析任務(wù).如何高效地學(xué)習(xí)得到這個(gè)映射并獲得高質(zhì)量的跨語(yǔ)言向量,則是該工作的核心環(huán)節(jié).

        本文在深度學(xué)習(xí)的基礎(chǔ)上,提出LAAE 網(wǎng)絡(luò)模型,并將跨語(yǔ)言情感分析任務(wù)分成兩個(gè)部分:第1 部分是通過(guò)LAAE 模型獲得含上下文情感信息的跨語(yǔ)言向量;第2 部分是進(jìn)行短文本情感分類,利用雙向GRU 進(jìn)行情感特征提取,并完成情感分類任務(wù).

        1 相關(guān)工作

        1.1 跨語(yǔ)言情感分析

        眾所周知,進(jìn)行情感分析工作的前提是收集大量的標(biāo)注數(shù)據(jù).不同于單語(yǔ)言情感分析,跨語(yǔ)言情感分析則是利用資源豐富的源語(yǔ)言標(biāo)注數(shù)據(jù)去預(yù)測(cè)資源匱乏語(yǔ)言的情感,其過(guò)程極具復(fù)雜性,目前研究方法主要有兩種,一是傳統(tǒng)的基于機(jī)器翻譯的方法,二是在深度學(xué)習(xí)基礎(chǔ)上的基于映射的方法.

        機(jī)器翻譯的方法是將目標(biāo)語(yǔ)言和源語(yǔ)言進(jìn)行互譯,建立語(yǔ)言連接,然后進(jìn)行后續(xù)的情感分析[3].機(jī)器翻譯使得跨語(yǔ)言文本之間沒(méi)有共同詞項(xiàng)特征的問(wèn)題得到解決.Duh 等[4]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),利用機(jī)器翻譯,由日文文本翻譯得到的英文文本,其與源英文文本之間的詞匯重疊率很低,所以機(jī)器翻譯的質(zhì)量還有待提升.Zhou 等[5]指出機(jī)器翻譯還有可能會(huì)改變文本的極性,例如,英文文本的“It’s too fragrant to sleep”,通過(guò)谷歌翻譯,得到的中文譯文是“睡的太香了”,屬于積極情感.但是在源語(yǔ)言中該文本表達(dá)的意思是“太香了而無(wú)法入睡”,屬于消極情感.唐曉波等[6]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)翻譯的質(zhì)量會(huì)影響分類效果.所以目前通過(guò)機(jī)器翻譯工具翻譯的語(yǔ)句,其翻譯結(jié)果的準(zhǔn)確性仍然有待提高.

        基于映射的方法[7],主要思想是利用深度學(xué)習(xí)技術(shù)學(xué)習(xí)一種映射,將源語(yǔ)言和目標(biāo)語(yǔ)言映射到同一個(gè)向量空間,進(jìn)而得到跨語(yǔ)言情感向量,然后再進(jìn)行特征提取和情感分析任務(wù),而如何高效地習(xí)得這個(gè)映射并獲得高質(zhì)量的跨語(yǔ)言向量,則是工作的核心部分.Faruqui 等[8]利用種子詞典和平行語(yǔ)料庫(kù)去學(xué)習(xí)這樣一個(gè)線性映射,但建立種子詞典和平行語(yǔ)料庫(kù)這件事本身需要耗費(fèi)大量的人力和物力.Artetxe 等[9,10]則通過(guò)一系列的線性變換,去學(xué)習(xí)這個(gè)映射.Zhang 等[11]通過(guò)對(duì)抗訓(xùn)練,獲得雙語(yǔ)詞典索引.但王坤峰等[12]指出生成對(duì)抗網(wǎng)絡(luò)(GAN)存在一些難以克服的缺點(diǎn),比如模型不易訓(xùn)練,生成的數(shù)據(jù)可解釋性不高,模型魯棒性不高等.Zhou 等[5]利用多個(gè)自動(dòng)編碼器來(lái)學(xué)習(xí)這個(gè)映射,然后進(jìn)行跨語(yǔ)言情感分析的研究.

        GAN (Generative Adversarial Network)及其變種目的都是學(xué)習(xí)從零均值、一方差的標(biāo)準(zhǔn)高斯分布到復(fù)雜樣本分布的映射.本文采用Makhzani 等[13]提出的對(duì)抗自編碼器(AAE),因?yàn)樵谏蓪?duì)抗網(wǎng)絡(luò)中加入自編碼器,可促進(jìn)生成器生成的數(shù)據(jù)更加貼合輸入的數(shù)據(jù),從而有效地避免無(wú)效數(shù)據(jù)或噪聲的產(chǎn)生,使得模型更加高效.

        1.2 深度學(xué)習(xí)

        與傳統(tǒng)的特征提取方法相比,深度學(xué)習(xí)技術(shù)擅長(zhǎng)自動(dòng)地提取特征,從而很大程度上節(jié)約了人力物力等成本.近年來(lái),因其天然的優(yōu)勢(shì),吸引了大量的研究者投身其中,并且在自然語(yǔ)言處理(NLP)領(lǐng)域,尤其是在情感分析任務(wù)中,提出了很多性能優(yōu)良的模型.

        1.2.1 長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)

        由Hochreiter 等[14]提出的長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)克服了RNN 的長(zhǎng)距離依賴的問(wèn)題,是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(RNN).LSTM 的核心結(jié)構(gòu),如圖1所示.其重要結(jié)構(gòu)是3 個(gè)門(mén),分別是輸入門(mén)、遺忘門(mén)和輸出門(mén),主要用來(lái)控制信息的更新與流動(dòng).另一個(gè)核心結(jié)構(gòu)是細(xì)胞狀態(tài)線,在結(jié)構(gòu)上方像流水線一樣地運(yùn)轉(zhuǎn),起到存儲(chǔ)記憶的作用,并進(jìn)行信息的傳播和更新.

        圖1 LSTM 結(jié)構(gòu)圖

        GRU (Gate Recurrent Unit)是LSTM 的一個(gè)很特殊的變體,其內(nèi)部結(jié)構(gòu)如圖2所示,相比較于LSTM,GRU 將輸入門(mén)和遺忘門(mén)合并為更新門(mén),使得模型更加簡(jiǎn)潔,提取特征能力更敏捷且易訓(xùn)練,多用于情感分類任務(wù).

        圖2 GRU 內(nèi)部結(jié)構(gòu)圖

        1.2.2 對(duì)抗自編碼器(AAE)

        對(duì)抗自編碼器主要由3 個(gè)模塊組成,分別是編碼器、解碼器、判別器,其內(nèi)部結(jié)構(gòu)如圖3所示.編碼器和解碼器兩者結(jié)合,構(gòu)成一個(gè)普通的自編碼器,輸入復(fù)雜樣本,并要求在解碼器的輸出端重構(gòu);判別器輸入編碼向量,判定它是來(lái)自一個(gè)真實(shí)的標(biāo)準(zhǔn)高斯分布,還是來(lái)自編碼器的輸出.判別器試圖區(qū)分編碼向量的真假,編碼器則試圖迷惑判別器,編碼器和判別器兩者相互博弈,最終導(dǎo)致判別器混淆不清,訓(xùn)練完成.

        圖3 對(duì)抗自編碼器結(jié)構(gòu)圖

        1.2.3 遷移學(xué)習(xí)

        領(lǐng)域自適應(yīng)是一種遷移學(xué)習(xí),它將不同領(lǐng)域的數(shù)據(jù)或特征映射到同一個(gè)特征空間,以便于利用其源領(lǐng)域數(shù)據(jù)或特征來(lái)加強(qiáng)目標(biāo)領(lǐng)域的訓(xùn)練,進(jìn)而達(dá)到更好的訓(xùn)練效果[15,16].Kim 等[17]在遷移學(xué)習(xí)的基礎(chǔ)上,利用不同語(yǔ)言間的共享詞向量進(jìn)行對(duì)抗訓(xùn)練,克服了訓(xùn)練過(guò)程中不同語(yǔ)言間的差異問(wèn)題.由于高質(zhì)量的標(biāo)注數(shù)據(jù)的匱乏,且人工標(biāo)注的成本頗高,遷移學(xué)習(xí)在NLP領(lǐng)域的眾多任務(wù)中發(fā)揮著重要的作用.

        2 研究方法

        本文提出的基于LAAE 網(wǎng)絡(luò)模型的跨語(yǔ)言短文本情感分析方法,主要分為兩個(gè)部分,第1 部分是跨語(yǔ)言向量的生成,具體步驟是將Word2Vec 生成的各語(yǔ)言文本向量,先經(jīng)過(guò)LSTM 網(wǎng)絡(luò),目的是獲得含上下文信息的向量,然后再通過(guò)AAE 模型學(xué)習(xí)一個(gè)高質(zhì)量的轉(zhuǎn)換矩陣M,將源語(yǔ)言和目標(biāo)語(yǔ)言轉(zhuǎn)換到同一向量空間,如圖4所示(可視化后,“愛(ài)”和“Love”轉(zhuǎn)換到同一空間),最后獲得含上下文信息的跨語(yǔ)言向量.第二部分是跨語(yǔ)言情感分類,分類器在源語(yǔ)言上被訓(xùn)練完成,然后遷移到目標(biāo)語(yǔ)言上,完成對(duì)目標(biāo)語(yǔ)言的情感分類任務(wù).圖5是本文研究方法的總體框架圖.

        圖4 向量轉(zhuǎn)換圖

        圖5 LAAE 模型框架圖

        2.1 含上下文信息的跨語(yǔ)言向量的生成模塊

        LSTM 網(wǎng)絡(luò)具有記憶功能,將文本向量通過(guò)LSTM網(wǎng)絡(luò),可獲得含上下文信息的文本向量,提高輸入向量的質(zhì)量,減少噪聲.GAN 及其變種目的都是學(xué)習(xí)從零均值、一方差的標(biāo)準(zhǔn)高斯分布到復(fù)雜樣本分布的映射.GAN 網(wǎng)絡(luò)模型生成數(shù)據(jù)可解釋性差,產(chǎn)生很多的無(wú)效數(shù)據(jù).由Makhzani 等[13]提出的對(duì)抗自編碼器(AAE),主要思想是在GAN 中加入自編碼器,從而使得生成數(shù)據(jù)更接近于輸入數(shù)據(jù),避免無(wú)效數(shù)據(jù)的產(chǎn)生,使得模型更加高效.我們利用AAE 學(xué)習(xí)到轉(zhuǎn)換矩陣M,再將M和源語(yǔ)言向量X相乘,如式(1)所示.得到轉(zhuǎn)換后的矩陣Z,此時(shí)的Z和目標(biāo)語(yǔ)言向量T在同一空間,最終建立了源語(yǔ)言和目標(biāo)語(yǔ)言之間的聯(lián)系.

        2.2 跨語(yǔ)言情感分類器的遷移模塊

        BiGRU(Bidirectional Gated Recurrent Unit)分類器模型,如圖6所示,其主要是通過(guò)兩個(gè)反向的GRU,分別是向前GRU和向后GRU,進(jìn)行特征提取工作.例如:輸入j個(gè)句子的第t個(gè)單詞的詞向量為cijt,通過(guò)BiGRU層特征提取后,可以更加充分地學(xué)習(xí)上下文之間的關(guān)系,進(jìn)行語(yǔ)義編碼成hijt,具體計(jì)算公式如式(2)所示:

        圖6 BiGRU 內(nèi)部結(jié)構(gòu)圖

        最后利用 Softmax 函數(shù)對(duì)輸出層的輸入進(jìn)行相應(yīng)計(jì)算,同時(shí)完成跨語(yǔ)言文本情感分類任務(wù).

        目標(biāo)語(yǔ)言本身可標(biāo)注資源稀缺,此時(shí)遷移學(xué)習(xí)技術(shù)恰到好處地解決這個(gè)困難.分類器在源語(yǔ)言上進(jìn)行訓(xùn)練,然后遷移到目標(biāo)語(yǔ)言上,完成目標(biāo)語(yǔ)言的情感分類任務(wù).

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        為了驗(yàn)證本文所提出的分類法的有效性,本文以英語(yǔ)為源語(yǔ)言,中文和德語(yǔ)為目標(biāo)語(yǔ)言,進(jìn)行實(shí)驗(yàn)驗(yàn)證.1)實(shí)驗(yàn)采用Prettenhofer 等[18]提供亞馬遜不同類目下的產(chǎn)品評(píng)論數(shù)據(jù)集.該數(shù)據(jù)集中包含3 個(gè)產(chǎn)品領(lǐng)域(書(shū)籍、DVD和音樂(lè))和4 種語(yǔ)言(英文、日語(yǔ)、法語(yǔ)和德語(yǔ))的用戶評(píng)論數(shù)據(jù)集.每個(gè)領(lǐng)域中的數(shù)據(jù)分為訓(xùn)練集、測(cè)試集和無(wú)標(biāo)注文本,大小分別是27 815、3200和80 000.本文選用了數(shù)據(jù)集中的英文和德語(yǔ)評(píng)論數(shù)據(jù)集.2) 通過(guò)網(wǎng)絡(luò)爬蟲(chóng)程序從亞馬遜中文站爬取書(shū)籍、音樂(lè)和DVD 類目的中文評(píng)論,并作為中文數(shù)據(jù)集.由于實(shí)驗(yàn)設(shè)備的性能,以及各領(lǐng)域無(wú)標(biāo)注文檔在數(shù)量上的差異問(wèn)題,本文在各領(lǐng)域中統(tǒng)一使用15 000 條無(wú)標(biāo)注文檔.

        3.2 對(duì)比實(shí)驗(yàn)

        (1) 基于機(jī)器翻譯,以SVM 作為分類器,簡(jiǎn)稱MTSVM:利用機(jī)器翻譯,將目標(biāo)語(yǔ)言翻譯成源語(yǔ)言,在源語(yǔ)言上訓(xùn)練分類器SVM,最后利用訓(xùn)練好的分類模型,對(duì)翻譯成源語(yǔ)言的測(cè)試集進(jìn)行情感分類.

        (2) 基于機(jī)器翻譯,以BiGRU為分類器,簡(jiǎn)稱MTBiGRU:利用機(jī)器翻譯,將目標(biāo)語(yǔ)言翻譯成源語(yǔ)言,在源語(yǔ)言上訓(xùn)練分類器BiGRU,最后利用訓(xùn)練好的分類模型,對(duì)翻譯成源語(yǔ)言的測(cè)試集進(jìn)行情感分類.

        (3) 基于映射的方法,利用AAE 模型,以BiGRU為分類器,簡(jiǎn)稱AAE-BiGRU:利用對(duì)抗自編碼器(AAE),學(xué)習(xí)源語(yǔ)言和目標(biāo)源之間的轉(zhuǎn)換矩陣,獲得跨語(yǔ)言向量,在源語(yǔ)言上訓(xùn)練分類器BiGRU,最后將訓(xùn)練好的分類器遷移到目標(biāo)語(yǔ)言上,對(duì)目標(biāo)語(yǔ)言測(cè)試集進(jìn)行情感分類.

        3.3 實(shí)驗(yàn)設(shè)計(jì)

        本實(shí)驗(yàn)是在Keras 及TensorFlow 深度學(xué)習(xí)框架下進(jìn)行.參數(shù)設(shè)置如表1所示.

        表1 參數(shù)設(shè)置表

        3.4 實(shí)驗(yàn)結(jié)果

        本文實(shí)驗(yàn)中,對(duì)比實(shí)驗(yàn)方法有MT-SVM、MTBiGRU、AAE-BiGRU,將英語(yǔ)設(shè)為源語(yǔ)言,中文和德語(yǔ)設(shè)為目標(biāo)語(yǔ)言.模型性能評(píng)估指標(biāo)為各方法在跨語(yǔ)言環(huán)境下的文本情感分類的F1 值,結(jié)果如表2所示.

        表2 不同方法的F1 值(最好的結(jié)果已加粗表示)

        從表2可以看出,基于的映射方法的F1 值明顯高于機(jī)器翻譯的方法.同樣都是基于映射的方法,本文的方法和AAE-BiGRU 相比較,平均F1 值從0.7552 提高到0.7797,可見(jiàn)高質(zhì)量的跨語(yǔ)言向量,影響分類效果.本文通過(guò)LAAE 模型得到含上下文信息的跨語(yǔ)言向量,從而極大地提高了分類效果.通過(guò)學(xué)習(xí)一個(gè)映射,將不同語(yǔ)言的評(píng)論映射到同一特征空間,從而建立不同語(yǔ)言之間聯(lián)系,可促進(jìn)兩者之間知識(shí)遷移,有利于進(jìn)行跨語(yǔ)言情感分類工作.

        4 結(jié)論與展望

        情感分析的研究在資源豐富的語(yǔ)言領(lǐng)域已經(jīng)很成熟,而在資源稀缺的語(yǔ)言領(lǐng)域則有很大的研究空間.本文以跨語(yǔ)言情感分析為任務(wù),在遷移學(xué)習(xí)基礎(chǔ)上,提出LAAE 分析方法,即通過(guò)LSTM和AAE 網(wǎng)絡(luò)模型,獲得含上下文信息的跨語(yǔ)言向量,最后利用BiGRU 進(jìn)行分類任務(wù).通過(guò)實(shí)驗(yàn)證明高質(zhì)量的含上下文信息的跨語(yǔ)言向量,可以促進(jìn)跨語(yǔ)言遷移學(xué)習(xí)的更好進(jìn)行,進(jìn)而提高模型性能.

        今后的研究工作可做以下兩方面的改進(jìn):一方面,我們將重點(diǎn)研究用于遷移學(xué)習(xí)的新方法,并將目標(biāo)語(yǔ)言擴(kuò)展到更多的語(yǔ)言.另一方面,我們會(huì)嘗試調(diào)試我們的模型做更細(xì)粒度情感分析,因?yàn)槌讼麡O、中立和積極情緒外,還有存在更多的情緒特征.

        猜你喜歡
        源語(yǔ)言目標(biāo)語(yǔ)言編碼器
        林巍《知識(shí)與智慧》英譯分析
        淺析日語(yǔ)口譯譯員素質(zhì)
        基于FPGA的同步機(jī)軸角編碼器
        教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語(yǔ)習(xí)得過(guò)程中的石化現(xiàn)象分析
        多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
        国产亚洲亚洲精品777| 伊人久久大香线蕉午夜av| 午夜无遮挡男女啪啪免费软件 | 亚洲乱码日产精品bd在线观看| 亚洲精品国产精品乱码在线观看| 国产高清av首播原创麻豆| 久久久精品国产亚洲成人满18免费网站| 精品久久久亚洲中文字幕| 综合亚洲二区三区四区在线| 久久久久久欧美精品se一二三四| 亚洲日韩精品欧美一区二区一| 久久久久久久久久免免费精品| 中文字幕乱码人妻在线| 亚洲av无码一区东京热| 又硬又粗又大一区二区三区视频 | 欧洲国产精品无码专区影院| 中文字幕人乱码中文字幕乱码在线| 亚洲色精品三区二区一区| 亚洲av一宅男色影视| 亚洲色婷婷综合开心网| 亚洲国产一区二区中文字幕| 国产超碰人人做人人爽av大片| 日本a级特黄特黄刺激大片 | 亚洲人在线观看| 久久精品中文字幕免费| 亚洲av日韩av卡二| 无码国产精品一区二区高潮| 狠狠亚洲婷婷综合色香五月| 国产精品国产三级国产an不卡| 99久久99久久久精品齐齐| 中国精学生妹品射精久久| 免费在线观看蜜桃视频| 亚洲国产综合久久天堂| 粉嫩虎白女毛片人体| 巨臀中文字幕一区二区| 日本免费影片一区二区| 中文字幕一精品亚洲无线一区| 91精选视频在线观看| 丰满人妻被猛烈进入中文字幕护士| 最新国产精品拍自在线观看| 亚洲熟女乱色一区二区三区|