亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于變分自編碼器的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法

        2019-04-12 06:39:04李壽山
        關(guān)鍵詞:解碼器編碼器領(lǐng)域

        劉 歡,徐 健,李壽山

        (蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室 江蘇 蘇州 215006)

        0 引言

        隨著社交媒體的興起,越來(lái)越多的用戶(hù)在網(wǎng)絡(luò)上發(fā)布帶有情感的文本(例如微博,評(píng)論等),為情感分析等研究任務(wù)提供了語(yǔ)料.本文討論的情感回歸是情感分析的一項(xiàng)子任務(wù),旨在對(duì)文本的情感自動(dòng)預(yù)測(cè)并給出實(shí)數(shù)值評(píng)分.近些年來(lái),情感回歸的重要性與日俱增[1],引起廣泛學(xué)術(shù)關(guān)注.

        現(xiàn)有關(guān)于情感回歸的研究主要集中在機(jī)器學(xué)習(xí)方法上,特別是深度學(xué)習(xí)方法[2-4].該方法利用大量的標(biāo)注樣本來(lái)訓(xùn)練回歸模型,并取得較好效果.然而,這種方法的主要缺點(diǎn)是需要大量人工標(biāo)注語(yǔ)料.在很多實(shí)際應(yīng)用中,我們?cè)谀硞€(gè)領(lǐng)域(即源領(lǐng)域)包含大量標(biāo)注樣本,但是我們感興趣的領(lǐng)域(即目標(biāo)領(lǐng)域)包含較少甚至沒(méi)有標(biāo)注樣本.例如,我們可能在書(shū)籍領(lǐng)域有大量標(biāo)注樣本,在電子產(chǎn)品領(lǐng)域只有未標(biāo)注樣本,而我們對(duì)電子評(píng)論領(lǐng)域的情感分析很感興趣.正是由于不同領(lǐng)域樣本分布的多樣性,在一個(gè)領(lǐng)域訓(xùn)練得到的回歸模型可能在其他領(lǐng)域性能不佳,而給每個(gè)感興趣的領(lǐng)域都去標(biāo)注樣本又非常耗時(shí)耗力.因此,當(dāng)目標(biāo)領(lǐng)域標(biāo)注樣本較少甚至沒(méi)有標(biāo)注樣本而只有未標(biāo)注樣本時(shí),傳統(tǒng)的基于大量標(biāo)注語(yǔ)料的情感回歸方法無(wú)法直接運(yùn)用.

        為了解決上述問(wèn)題,許多情感分析的領(lǐng)域適應(yīng)(跨領(lǐng)域)方法被提出,例如SCL[5]、SDA[6]等.領(lǐng)域適應(yīng)方法的目標(biāo)是將源領(lǐng)域的知識(shí)遷移到目標(biāo)領(lǐng)域,以提升目標(biāo)領(lǐng)域的性能.領(lǐng)域適應(yīng)方法主要分為兩類(lèi):監(jiān)督領(lǐng)域適應(yīng)方法和半監(jiān)督領(lǐng)域適應(yīng)方法.兩者在源領(lǐng)域都有大量標(biāo)注樣本,主要區(qū)別在于,監(jiān)督領(lǐng)域適應(yīng)方法在目標(biāo)領(lǐng)域只有少量標(biāo)注樣本,不能通過(guò)訓(xùn)練得到一個(gè)好的模型;而半監(jiān)督領(lǐng)域適應(yīng)方法在目標(biāo)領(lǐng)域沒(méi)有標(biāo)注樣本,只有未標(biāo)注樣本,與監(jiān)督領(lǐng)域適應(yīng)方法相比難度更大.本文著重討論情感回歸的半監(jiān)督領(lǐng)域適應(yīng)任務(wù),并提出了一個(gè)基于深度生成模型的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法.具體而言,首先使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)來(lái)實(shí)現(xiàn)回歸模型;其次我們用變分自編碼器(VAE)來(lái)實(shí)現(xiàn)生成模型;最后聯(lián)合學(xué)習(xí)LSTM回歸模型和VAE生成模型,實(shí)現(xiàn)基于變分自編碼器的半監(jiān)督情感回歸領(lǐng)域適應(yīng)方法.

        1 基于變分自編碼器的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法

        1.1 基本的自編碼器

        自編碼器是一種無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),用來(lái)獲取輸入向量的隱藏表示并重構(gòu)輸入[7].自編碼器可以被看作是一種特殊的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)共有3層:輸入層、隱藏層和重構(gòu)層,自編碼器包含編碼器和解碼器兩部分.

        編碼器f將輸入x∈Rm×1映射為隱藏表示z∈Rk×1,其中m表示輸入維度,k表示隱藏層的維度.具體公式z=f(x)=se(Wx+b),其中:se表示編碼器的非線性激活函數(shù);W是線性變換的參數(shù);b是偏差項(xiàng).

        解碼器g將隱藏表示z進(jìn)行重構(gòu),g(z)=sd(W′z+b′),與編碼器類(lèi)似,解碼器的激活函數(shù)是sd,參數(shù)是{W′,b′}.

        1.2 基于變分自編碼器的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法

        提出了一個(gè)基于變分自編碼器的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法,即VAE-R.圖1是所提出方法的框架結(jié)構(gòu).我們的方法主要由3個(gè)部分組成:回歸器qφ(y|x)、編碼器qφ(z|x,y)和解碼器pθ(x|y,z).這些部分的具體介紹如圖1.

        圖1 基于變分自編碼器的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法框架Fig.1 Framework of the semi-supervised domain adaptation method of sentiment regression on variational autoencoder

        回歸器:如圖1中的(a)所示,我們使用LSTM來(lái)獲取評(píng)論文本的語(yǔ)義表示,再通過(guò)全連接層和輸出層得到回歸值,y=ReLU(WTLSTM(x)),其中WTLSTM(x)的輸出維度是1,并且由于情感回歸值非負(fù)數(shù),所以輸出層激活函數(shù)使用修正線性單元(rectified linear units,ReLU).

        解碼器:如圖1中的(c)所示,解碼器是給定隱變量z和實(shí)數(shù)值y,生成x的概率分布的條件生成模型,pθ(x|y,z)=D(x|fdec(y,z)),其中fdec(·)是解碼函數(shù),用來(lái)參數(shù)化概率分布D,D是輸入數(shù)據(jù)的高斯概率分布.

        為了實(shí)現(xiàn)解碼器,本章采用了一種條件LSTM結(jié)構(gòu)[10],條件LSTM在每個(gè)時(shí)間步將詞嵌入和評(píng)分張量拼接.該條件LSTM已被廣泛應(yīng)用[11-13],我們將這種網(wǎng)絡(luò)稱(chēng)作C-LSTM.C-LSTM將詞嵌入和評(píng)分值作為輸入,我們修改了LSTM單元的公式,將評(píng)分y加到輸入門(mén)、遺忘門(mén)和輸出門(mén).具體公式如下:

        it=σ(Wixt+Uiht-1+Viy),

        (1)

        ft=σ(Wfxt+Ufht-1+Vfy),

        (2)

        ot=σ(Woxt+Uoht-1+Voy),

        (3)

        (4)

        (5)

        ht=ot⊙tanh(ct),

        (6)

        VAE-R模型通過(guò)源領(lǐng)域標(biāo)注樣本和目標(biāo)領(lǐng)域未標(biāo)注樣本的聯(lián)合訓(xùn)練來(lái)更新模型參數(shù).目標(biāo)函數(shù)定義為

        (7)

        其中:Ts是源領(lǐng)域標(biāo)注樣本;Tt是目標(biāo)領(lǐng)域未標(biāo)注樣本;α是一個(gè)可調(diào)超參數(shù),表示源領(lǐng)域回歸模型損失函數(shù)所占權(quán)重.

        L(x,y)是源領(lǐng)域標(biāo)注樣本的重構(gòu)損失函數(shù),L(x,y)定義為

        L(x,y)=DKL(qφ(z|x,y)||p(z))-logpθ(y)-Eqφ(z|x,y)[logpθ(x|y,z)],

        (8)

        其中:等號(hào)后面第一項(xiàng)表示先驗(yàn)分布p(z)和隱變量后驗(yàn)分布qφ(z|x,y)的KL散度(Kullback-Leibler divergence);第二項(xiàng)表示隱變量z的條件概率的期望.

        U(x)是目標(biāo)領(lǐng)域未標(biāo)注樣本的重構(gòu)損失函數(shù),U(x)定義為

        (9)

        其中:H(qφ(y|x))表示回歸器qφ(y|x)的信息熵.

        從上面的損失函數(shù)我們可以發(fā)現(xiàn)回歸器qφ(y|x)、編碼器qφ(z|x,y)和解碼器pθ(x|y,z)是VAE-R的3個(gè)關(guān)鍵組成部分.

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)設(shè)置

        數(shù)據(jù)設(shè)置:我們的實(shí)驗(yàn)數(shù)據(jù)來(lái)自Mcauley[14]收集的亞馬遜的產(chǎn)品評(píng)論語(yǔ)料.評(píng)論語(yǔ)料共有4個(gè)領(lǐng)域(book,CD,electronic,kitchen),每個(gè)領(lǐng)域的評(píng)分范圍都是1~5分.當(dāng)4個(gè)領(lǐng)域中的1個(gè)領(lǐng)域作為源領(lǐng)域時(shí),其他3個(gè)領(lǐng)域中的某一個(gè)領(lǐng)域作為目標(biāo)領(lǐng)域.我們從源領(lǐng)域和目標(biāo)領(lǐng)域的每1個(gè)評(píng)分選取2 000個(gè)樣本.我們用源領(lǐng)域80%的標(biāo)注樣本和目標(biāo)領(lǐng)域80%的未標(biāo)注樣本作為訓(xùn)練集,目標(biāo)領(lǐng)域的20%的樣本作為測(cè)試集.

        特征表示:我們采用word2vec的skip-gram算法(gensim實(shí)現(xiàn)),對(duì)整個(gè)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練以獲得詞嵌入.Embedding維度為100.

        基本預(yù)測(cè)方法:LSTM作為我們的基本預(yù)測(cè)方法,用Keras實(shí)現(xiàn).LSTM的超參數(shù)用網(wǎng)格搜索的方法在驗(yàn)證集上微調(diào)得到,其中LSTM層輸出維度為128,全連接層輸出維度為64,Dropout概率為0.5.

        評(píng)價(jià)準(zhǔn)則:本文采用決定系數(shù)(R2)作為情感回歸性能的評(píng)價(jià)標(biāo)準(zhǔn).R2也被稱(chēng)之為擬合優(yōu)度,表示自變量對(duì)因變量的解釋程度,取值范圍為小于1的實(shí)數(shù).換句話說(shuō),決定系數(shù)R2可以作為模型預(yù)測(cè)值與實(shí)際觀測(cè)值擬合程度的度量標(biāo)準(zhǔn),R2的值越接近1說(shuō)明訓(xùn)練模型的預(yù)測(cè)值與實(shí)際觀測(cè)值擬合程度越高.決定系數(shù)R2的計(jì)算方法為

        其中:yi是第i個(gè)樣本的真實(shí)標(biāo)簽值;fi是第i個(gè)樣本的預(yù)測(cè)值[15].

        2.2 實(shí)驗(yàn)結(jié)果

        為了更好分析VAE-R方法,我們實(shí)現(xiàn)了幾個(gè)情感回歸領(lǐng)域適應(yīng)方法,這些方法的介紹如下.

        Baseline: LSTM回歸模型,用源領(lǐng)域標(biāo)注樣本訓(xùn)練得到回歸器,再用目標(biāo)領(lǐng)域測(cè)試樣本進(jìn)行測(cè)試.

        SCL: 這是Blitzer等[5]提出的名為structural correspondence learning(SCL)的領(lǐng)域適應(yīng)方法.該方法的主要思想是利用目標(biāo)領(lǐng)域的未標(biāo)注數(shù)據(jù)獲得數(shù)據(jù)的低維聯(lián)合表示.

        SDA: 這是Glorot等[6]提出的名為stacked denoising auto-encoders(SDA)的領(lǐng)域適應(yīng)方法.該方法的主要思想是隨機(jī)損壞輸入數(shù)據(jù),通過(guò)SDA神經(jīng)網(wǎng)絡(luò)訓(xùn)練深度生成模型,最后該模型的中間表示作為輸入,用支持向量回歸(SVR)訓(xùn)練得到回歸器.

        VAE-R: 這是我們的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法,該方法聯(lián)合學(xué)習(xí)變分自編碼器和回歸器.

        表1展示了各個(gè)方法的R2結(jié)果,箭頭左邊表示源領(lǐng)域,右邊表示目標(biāo)領(lǐng)域.

        表1 各領(lǐng)域適應(yīng)方法的R2結(jié)果Tab.1 R2 results for adaptation methods in various domains

        由表1可知:SCL在所有的實(shí)驗(yàn)設(shè)置中都高于Baseline.這個(gè)實(shí)驗(yàn)結(jié)果表明,SCL方法不僅適用于分類(lèi)模型的領(lǐng)域適應(yīng)任務(wù),同樣適用于回歸模型的領(lǐng)域適應(yīng)任務(wù).

        SDA方法總體上好于Baseline和SCL方法,只有在設(shè)置CD→book、electronic→kitchen和kitchen→electronic中表現(xiàn)不佳.在后兩個(gè)實(shí)驗(yàn)設(shè)置中結(jié)果較差,可能是由于electronic和kitchen領(lǐng)域的情感表達(dá)方式差異較大,SDA很難學(xué)到通用情感表示.

        在所有的方法中,我們的VAE-R模型在所有的實(shí)驗(yàn)設(shè)置中都表現(xiàn)最好.與Baseline方法相比,目標(biāo)領(lǐng)域回歸性能得到大幅提高,說(shuō)明VAE-R模型能充分利用源領(lǐng)域標(biāo)注數(shù)據(jù)并學(xué)到了相關(guān)信息;與SCL方法相比,我們方法的R2平均提高約5.3%,證明了深度學(xué)習(xí)在情感回歸半監(jiān)督領(lǐng)域適應(yīng)任務(wù)的有效性;與SDA方法相比,我們方法的R2平均提高約4.3%,說(shuō)明雖然同樣使用到深度學(xué)習(xí)模型,但是SDA方法在學(xué)習(xí)輸入的隱藏表示時(shí),沒(méi)有利用源領(lǐng)域樣本的標(biāo)簽,而我們的VAE-R方法將回歸模型和生成模型聯(lián)合訓(xùn)練,充分利用了源領(lǐng)域標(biāo)注樣本的標(biāo)簽信息.

        3 結(jié)語(yǔ)

        本文提出了一個(gè)基于變分自編碼器的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法.具體實(shí)現(xiàn)為,首先使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)來(lái)實(shí)現(xiàn)回歸模型,其次用變分自編碼器(VAE)來(lái)實(shí)現(xiàn)生成模型,最后聯(lián)合學(xué)習(xí)LSTM回歸模型和VAE生成模型,實(shí)現(xiàn)基于變分自編碼器的情感回歸半監(jiān)督領(lǐng)域適應(yīng)方法.實(shí)驗(yàn)結(jié)果表明,我們的方法比幾個(gè)經(jīng)典方法性能要好.

        猜你喜歡
        解碼器編碼器領(lǐng)域
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
        日韩精品在线观看在线| 久久这里只有精品9| 九九99久久精品在免费线97| 亚洲最大成av人网站| 白色月光在线观看免费高清| 精品久久人妻一区二区| 天堂网站一区二区三区| 双腿张开被9个男人调教| 日韩精品区欧美在线一区| 一区二区三区国产视频在线观看| 亚洲av日韩精品一区二区| 亚洲精品久久蜜桃av| 国精品人妻无码一区二区三区性色| 久久精品中文字幕一区| 久久无码一二三四| 久久99精品这里精品动漫6| 日本一级三级在线观看| 免费一区二区高清不卡av| 领导边摸边吃奶边做爽在线观看| 熟女体下毛毛黑森林| 中文字幕无码不卡免费视频| 亚洲欧美日韩高清中文在线| 在线不卡中文字幕福利| 91精品久久久老熟女91精品| 亚洲成在人线在线播放无码| 久久婷婷香蕉热狠狠综合| 久久精品中文字幕久久| 日韩美女人妻一区二区三区| 国产免费三级av在线| 让少妇高潮无乱码高清在线观看| 日韩人妻无码免费视频一区二区三区| 欧美精品区| 欧美日本国产亚洲网站免费一区二区| 九一精品少妇一区二区三区| 一区二区三区美女免费视频| 亚洲综合精品伊人久久| 日本在线观看不卡| 日韩乱码精品中文字幕不卡| 久久久国产精品| 国产成人亚洲精品无码h在线| 国产AV高清精品久久|