亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LAAE網(wǎng)絡的跨語言短文本情感分析方法①

        2021-06-28 06:28:08沈江紅廖曉東
        計算機系統(tǒng)應用 2021年6期
        關(guān)鍵詞:源語言目標語言編碼器

        沈江紅,廖曉東,3,4

        1(福建師范大學 福建省光電傳感應用工程技術(shù)研究中心,福州 350117)

        2(福建師范大學 光電與信息工程學院,福州 350117)

        3(福建師范大學 醫(yī)學光電科學與技術(shù)教育部重點實驗室,福州 350117)

        4(福建師范大學 福建省光子技術(shù)重點實驗室,福州 350117)

        情感分析[1,2]的主要任務是分析隱含在文本中的感情、態(tài)度、觀點等深層次信息.近年來,互聯(lián)網(wǎng)的迅猛發(fā)展,給人們的生活帶來了巨大的變化.在世界范圍內(nèi),越來越多的網(wǎng)民在各大平臺發(fā)表自己的觀點,互聯(lián)網(wǎng)上逐漸出現(xiàn)了不同國家和地區(qū)的語言文字,這些非規(guī)范的短文本蘊含了大眾對事物的褒貶,亦或是自己的需求等信息,不僅在商業(yè)界而且在學術(shù)界備受關(guān)注.比如亞馬遜上的商品銷往全球,同時商家也會收到不同語言的評論,比如“This skirt is beautiful”,“這個裙子太漂亮了”,“Este vestido es hermoso”等.雖然語言形式不同,但都包含了人們對商家所售商品的褒貶,所以深層挖掘這些評論背后的信息,有利于商家了解市場,并及時作出相應地調(diào)整,所以具有很大的研究價值.由于英語的語料資源豐富且有大量的的標注數(shù)據(jù)集,所以基于英語語境下的研究工作已漸入佳境,而對于語料資源相對匱乏的語種的研究工作則不易開展.跨語言情感分析能夠借助資源豐富的源語言標注數(shù)據(jù),對標注資源相對匱乏的目標語言數(shù)據(jù)進行情感分析,所以越來越受到研究者的青睞.

        近年來許多研究者投身于跨語言情感分析的研究工作中,并取得了很大的進步.傳統(tǒng)的研究方法是基于機器翻譯進行的,然而翻譯的質(zhì)量很大程度上影響著分類效果.隨著深度學習技術(shù)的不斷發(fā)展,一種基于映射的研究方法應運而生.該方法主要思想是利用深度學習的方法學習一種映射,將源語言和目標語言映射到同一個向量空間,得到跨語言情感向量,然后再進行特征提取和情感分析任務.如何高效地學習得到這個映射并獲得高質(zhì)量的跨語言向量,則是該工作的核心環(huán)節(jié).

        本文在深度學習的基礎上,提出LAAE 網(wǎng)絡模型,并將跨語言情感分析任務分成兩個部分:第1 部分是通過LAAE 模型獲得含上下文情感信息的跨語言向量;第2 部分是進行短文本情感分類,利用雙向GRU 進行情感特征提取,并完成情感分類任務.

        1 相關(guān)工作

        1.1 跨語言情感分析

        眾所周知,進行情感分析工作的前提是收集大量的標注數(shù)據(jù).不同于單語言情感分析,跨語言情感分析則是利用資源豐富的源語言標注數(shù)據(jù)去預測資源匱乏語言的情感,其過程極具復雜性,目前研究方法主要有兩種,一是傳統(tǒng)的基于機器翻譯的方法,二是在深度學習基礎上的基于映射的方法.

        機器翻譯的方法是將目標語言和源語言進行互譯,建立語言連接,然后進行后續(xù)的情感分析[3].機器翻譯使得跨語言文本之間沒有共同詞項特征的問題得到解決.Duh 等[4]通過實驗發(fā)現(xiàn),利用機器翻譯,由日文文本翻譯得到的英文文本,其與源英文文本之間的詞匯重疊率很低,所以機器翻譯的質(zhì)量還有待提升.Zhou 等[5]指出機器翻譯還有可能會改變文本的極性,例如,英文文本的“It’s too fragrant to sleep”,通過谷歌翻譯,得到的中文譯文是“睡的太香了”,屬于積極情感.但是在源語言中該文本表達的意思是“太香了而無法入睡”,屬于消極情感.唐曉波等[6]通過實驗發(fā)現(xiàn)翻譯的質(zhì)量會影響分類效果.所以目前通過機器翻譯工具翻譯的語句,其翻譯結(jié)果的準確性仍然有待提高.

        基于映射的方法[7],主要思想是利用深度學習技術(shù)學習一種映射,將源語言和目標語言映射到同一個向量空間,進而得到跨語言情感向量,然后再進行特征提取和情感分析任務,而如何高效地習得這個映射并獲得高質(zhì)量的跨語言向量,則是工作的核心部分.Faruqui 等[8]利用種子詞典和平行語料庫去學習這樣一個線性映射,但建立種子詞典和平行語料庫這件事本身需要耗費大量的人力和物力.Artetxe 等[9,10]則通過一系列的線性變換,去學習這個映射.Zhang 等[11]通過對抗訓練,獲得雙語詞典索引.但王坤峰等[12]指出生成對抗網(wǎng)絡(GAN)存在一些難以克服的缺點,比如模型不易訓練,生成的數(shù)據(jù)可解釋性不高,模型魯棒性不高等.Zhou 等[5]利用多個自動編碼器來學習這個映射,然后進行跨語言情感分析的研究.

        GAN (Generative Adversarial Network)及其變種目的都是學習從零均值、一方差的標準高斯分布到復雜樣本分布的映射.本文采用Makhzani 等[13]提出的對抗自編碼器(AAE),因為在生成對抗網(wǎng)絡中加入自編碼器,可促進生成器生成的數(shù)據(jù)更加貼合輸入的數(shù)據(jù),從而有效地避免無效數(shù)據(jù)或噪聲的產(chǎn)生,使得模型更加高效.

        1.2 深度學習

        與傳統(tǒng)的特征提取方法相比,深度學習技術(shù)擅長自動地提取特征,從而很大程度上節(jié)約了人力物力等成本.近年來,因其天然的優(yōu)勢,吸引了大量的研究者投身其中,并且在自然語言處理(NLP)領(lǐng)域,尤其是在情感分析任務中,提出了很多性能優(yōu)良的模型.

        1.2.1 長短記憶網(wǎng)絡(LSTM)

        由Hochreiter 等[14]提出的長短記憶網(wǎng)絡(LSTM)克服了RNN 的長距離依賴的問題,是一種特殊的遞歸神經(jīng)網(wǎng)絡(RNN).LSTM 的核心結(jié)構(gòu),如圖1所示.其重要結(jié)構(gòu)是3 個門,分別是輸入門、遺忘門和輸出門,主要用來控制信息的更新與流動.另一個核心結(jié)構(gòu)是細胞狀態(tài)線,在結(jié)構(gòu)上方像流水線一樣地運轉(zhuǎn),起到存儲記憶的作用,并進行信息的傳播和更新.

        圖1 LSTM 結(jié)構(gòu)圖

        GRU (Gate Recurrent Unit)是LSTM 的一個很特殊的變體,其內(nèi)部結(jié)構(gòu)如圖2所示,相比較于LSTM,GRU 將輸入門和遺忘門合并為更新門,使得模型更加簡潔,提取特征能力更敏捷且易訓練,多用于情感分類任務.

        圖2 GRU 內(nèi)部結(jié)構(gòu)圖

        1.2.2 對抗自編碼器(AAE)

        對抗自編碼器主要由3 個模塊組成,分別是編碼器、解碼器、判別器,其內(nèi)部結(jié)構(gòu)如圖3所示.編碼器和解碼器兩者結(jié)合,構(gòu)成一個普通的自編碼器,輸入復雜樣本,并要求在解碼器的輸出端重構(gòu);判別器輸入編碼向量,判定它是來自一個真實的標準高斯分布,還是來自編碼器的輸出.判別器試圖區(qū)分編碼向量的真假,編碼器則試圖迷惑判別器,編碼器和判別器兩者相互博弈,最終導致判別器混淆不清,訓練完成.

        圖3 對抗自編碼器結(jié)構(gòu)圖

        1.2.3 遷移學習

        領(lǐng)域自適應是一種遷移學習,它將不同領(lǐng)域的數(shù)據(jù)或特征映射到同一個特征空間,以便于利用其源領(lǐng)域數(shù)據(jù)或特征來加強目標領(lǐng)域的訓練,進而達到更好的訓練效果[15,16].Kim 等[17]在遷移學習的基礎上,利用不同語言間的共享詞向量進行對抗訓練,克服了訓練過程中不同語言間的差異問題.由于高質(zhì)量的標注數(shù)據(jù)的匱乏,且人工標注的成本頗高,遷移學習在NLP領(lǐng)域的眾多任務中發(fā)揮著重要的作用.

        2 研究方法

        本文提出的基于LAAE 網(wǎng)絡模型的跨語言短文本情感分析方法,主要分為兩個部分,第1 部分是跨語言向量的生成,具體步驟是將Word2Vec 生成的各語言文本向量,先經(jīng)過LSTM 網(wǎng)絡,目的是獲得含上下文信息的向量,然后再通過AAE 模型學習一個高質(zhì)量的轉(zhuǎn)換矩陣M,將源語言和目標語言轉(zhuǎn)換到同一向量空間,如圖4所示(可視化后,“愛”和“Love”轉(zhuǎn)換到同一空間),最后獲得含上下文信息的跨語言向量.第二部分是跨語言情感分類,分類器在源語言上被訓練完成,然后遷移到目標語言上,完成對目標語言的情感分類任務.圖5是本文研究方法的總體框架圖.

        圖4 向量轉(zhuǎn)換圖

        圖5 LAAE 模型框架圖

        2.1 含上下文信息的跨語言向量的生成模塊

        LSTM 網(wǎng)絡具有記憶功能,將文本向量通過LSTM網(wǎng)絡,可獲得含上下文信息的文本向量,提高輸入向量的質(zhì)量,減少噪聲.GAN 及其變種目的都是學習從零均值、一方差的標準高斯分布到復雜樣本分布的映射.GAN 網(wǎng)絡模型生成數(shù)據(jù)可解釋性差,產(chǎn)生很多的無效數(shù)據(jù).由Makhzani 等[13]提出的對抗自編碼器(AAE),主要思想是在GAN 中加入自編碼器,從而使得生成數(shù)據(jù)更接近于輸入數(shù)據(jù),避免無效數(shù)據(jù)的產(chǎn)生,使得模型更加高效.我們利用AAE 學習到轉(zhuǎn)換矩陣M,再將M和源語言向量X相乘,如式(1)所示.得到轉(zhuǎn)換后的矩陣Z,此時的Z和目標語言向量T在同一空間,最終建立了源語言和目標語言之間的聯(lián)系.

        2.2 跨語言情感分類器的遷移模塊

        BiGRU(Bidirectional Gated Recurrent Unit)分類器模型,如圖6所示,其主要是通過兩個反向的GRU,分別是向前GRU和向后GRU,進行特征提取工作.例如:輸入j個句子的第t個單詞的詞向量為cijt,通過BiGRU層特征提取后,可以更加充分地學習上下文之間的關(guān)系,進行語義編碼成hijt,具體計算公式如式(2)所示:

        圖6 BiGRU 內(nèi)部結(jié)構(gòu)圖

        最后利用 Softmax 函數(shù)對輸出層的輸入進行相應計算,同時完成跨語言文本情感分類任務.

        目標語言本身可標注資源稀缺,此時遷移學習技術(shù)恰到好處地解決這個困難.分類器在源語言上進行訓練,然后遷移到目標語言上,完成目標語言的情感分類任務.

        3 實驗結(jié)果及分析

        3.1 實驗數(shù)據(jù)集

        為了驗證本文所提出的分類法的有效性,本文以英語為源語言,中文和德語為目標語言,進行實驗驗證.1)實驗采用Prettenhofer 等[18]提供亞馬遜不同類目下的產(chǎn)品評論數(shù)據(jù)集.該數(shù)據(jù)集中包含3 個產(chǎn)品領(lǐng)域(書籍、DVD和音樂)和4 種語言(英文、日語、法語和德語)的用戶評論數(shù)據(jù)集.每個領(lǐng)域中的數(shù)據(jù)分為訓練集、測試集和無標注文本,大小分別是27 815、3200和80 000.本文選用了數(shù)據(jù)集中的英文和德語評論數(shù)據(jù)集.2) 通過網(wǎng)絡爬蟲程序從亞馬遜中文站爬取書籍、音樂和DVD 類目的中文評論,并作為中文數(shù)據(jù)集.由于實驗設備的性能,以及各領(lǐng)域無標注文檔在數(shù)量上的差異問題,本文在各領(lǐng)域中統(tǒng)一使用15 000 條無標注文檔.

        3.2 對比實驗

        (1) 基于機器翻譯,以SVM 作為分類器,簡稱MTSVM:利用機器翻譯,將目標語言翻譯成源語言,在源語言上訓練分類器SVM,最后利用訓練好的分類模型,對翻譯成源語言的測試集進行情感分類.

        (2) 基于機器翻譯,以BiGRU為分類器,簡稱MTBiGRU:利用機器翻譯,將目標語言翻譯成源語言,在源語言上訓練分類器BiGRU,最后利用訓練好的分類模型,對翻譯成源語言的測試集進行情感分類.

        (3) 基于映射的方法,利用AAE 模型,以BiGRU為分類器,簡稱AAE-BiGRU:利用對抗自編碼器(AAE),學習源語言和目標源之間的轉(zhuǎn)換矩陣,獲得跨語言向量,在源語言上訓練分類器BiGRU,最后將訓練好的分類器遷移到目標語言上,對目標語言測試集進行情感分類.

        3.3 實驗設計

        本實驗是在Keras 及TensorFlow 深度學習框架下進行.參數(shù)設置如表1所示.

        表1 參數(shù)設置表

        3.4 實驗結(jié)果

        本文實驗中,對比實驗方法有MT-SVM、MTBiGRU、AAE-BiGRU,將英語設為源語言,中文和德語設為目標語言.模型性能評估指標為各方法在跨語言環(huán)境下的文本情感分類的F1 值,結(jié)果如表2所示.

        表2 不同方法的F1 值(最好的結(jié)果已加粗表示)

        從表2可以看出,基于的映射方法的F1 值明顯高于機器翻譯的方法.同樣都是基于映射的方法,本文的方法和AAE-BiGRU 相比較,平均F1 值從0.7552 提高到0.7797,可見高質(zhì)量的跨語言向量,影響分類效果.本文通過LAAE 模型得到含上下文信息的跨語言向量,從而極大地提高了分類效果.通過學習一個映射,將不同語言的評論映射到同一特征空間,從而建立不同語言之間聯(lián)系,可促進兩者之間知識遷移,有利于進行跨語言情感分類工作.

        4 結(jié)論與展望

        情感分析的研究在資源豐富的語言領(lǐng)域已經(jīng)很成熟,而在資源稀缺的語言領(lǐng)域則有很大的研究空間.本文以跨語言情感分析為任務,在遷移學習基礎上,提出LAAE 分析方法,即通過LSTM和AAE 網(wǎng)絡模型,獲得含上下文信息的跨語言向量,最后利用BiGRU 進行分類任務.通過實驗證明高質(zhì)量的含上下文信息的跨語言向量,可以促進跨語言遷移學習的更好進行,進而提高模型性能.

        今后的研究工作可做以下兩方面的改進:一方面,我們將重點研究用于遷移學習的新方法,并將目標語言擴展到更多的語言.另一方面,我們會嘗試調(diào)試我們的模型做更細粒度情感分析,因為除了消極、中立和積極情緒外,還有存在更多的情緒特征.

        猜你喜歡
        源語言目標語言編碼器
        林巍《知識與智慧》英譯分析
        淺析日語口譯譯員素質(zhì)
        北方文學(2018年18期)2018-09-14 10:55:22
        基于FPGA的同步機軸角編碼器
        教材插圖在英語課堂閱讀教學中的運用及實例探討
        文理導航(2017年25期)2017-09-07 15:38:18
        基于PRBS檢測的8B/IOB編碼器設計
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        JESD204B接口協(xié)議中的8B10B編碼器設計
        電子器件(2015年5期)2015-12-29 08:42:24
        以口譯實例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語習得過程中的石化現(xiàn)象分析
        多總線式光電編碼器的設計與應用
        亚洲日本欧美产综合在线| 精品亚洲a∨无码一区二区三区| 国产偷久久久精品专区| 国产三级在线观看免费| 国产91在线精品福利| 国产激情视频在线观看首页| 无码熟妇人妻av在线网站| 欧美日韩不卡合集视频| 成黄色片视频日本秘书丝袜| 亚洲图文一区二区三区四区| 中文字幕亚洲综合久久天堂av| 日本高清视频www| 亚洲片一区二区三区| 色哟哟精品中文字幕乱码| 国产一级内射视频在线观看| 久久亚洲精品11p| 国产最新一区二区三区天堂| 国产风骚主播视频一区二区| 男女肉粗暴进来动态图| 亲子乱aⅴ一区二区三区下载| 日韩美无码一区二区三区| 麻豆成人久久精品一区| 东京热久久综合久久88| 少妇人妻偷人精品无码视频| 亚洲一区二区三区中文视频| 中文字幕午夜精品久久久| 大又大粗又爽又黄少妇毛片| 国产尻逼视频| 羞涩色进入亚洲一区二区av| 国产成人精品优优av| 欧美巨大xxxx做受l| 99久久国语露脸国产精品| 国产亚洲精品精品综合伦理| 无码人妻精品一区二区| AV无码中文字幕不卡一二三区 | 日本三级欧美三级人妇视频| 久久久久亚洲AV无码专区一区| 国产一区白浆在线观看| 国产免费av片在线观看| 中文岛国精品亚洲一区| 国产成人精品久久二区二区91 |