亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制Bi-LSTM算法的雙語(yǔ)文本情感分析

        2019-12-12 07:06:52翟社平楊媛媛毋志云
        關(guān)鍵詞:子句雙語(yǔ)注意力

        翟社平 楊媛媛 邱 程 李 婧 毋志云

        1(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 陜西 西安 710121)2(陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室 陜西 西安 710121)

        0 引 言

        隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展,電商評(píng)論和社交平臺(tái)得到了有效的推廣,形成了大量包含用戶情感觀點(diǎn)的短文本信息數(shù)據(jù)。將文本中的情感及觀點(diǎn)進(jìn)行提取,可以幫助企業(yè)、政府進(jìn)行有效決策。情感分析也稱為觀點(diǎn)挖掘,是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),其關(guān)鍵任務(wù)是分析社交媒體和商品評(píng)論的文本數(shù)據(jù),進(jìn)而挖掘出用戶的情感觀點(diǎn)。目前國(guó)內(nèi)外對(duì)于文本的情感分析多為單語(yǔ)種文本的分析,但隨著中英文搭配使用在社交中的普遍化,情感分析的相關(guān)研究仍需更深一步。

        在單語(yǔ)種情感分析方面,已取得了較好的研究成果[1]。其中,深度學(xué)習(xí)模型在情感分析任務(wù)重有著優(yōu)異的表現(xiàn),可以在沒(méi)有人工標(biāo)注的特征工程前提下,提高分類的準(zhǔn)確率。Tai等[2]構(gòu)建了樹狀長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)結(jié)構(gòu),在情感分析任務(wù)中取得了進(jìn)步。Wang等[3]將遞歸神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)整合到一個(gè)統(tǒng)一的框架中,用于顯式方面和意見(jiàn)術(shù)語(yǔ)的共同提取,提升了分類準(zhǔn)確率。但此類方法未將文本中重點(diǎn)知識(shí)進(jìn)行突出,由此,注意力機(jī)制被引入情感分析任務(wù)。注意力機(jī)制可為文本分配不同權(quán)重,進(jìn)而為關(guān)鍵部分分配更多注意力,提升分類準(zhǔn)確率。譚皓等[4]考慮到表情符對(duì)文本的影響作用,提出了基于表情符注意力機(jī)制的情感分析模型。張仰森等[5]提出雙重注意力機(jī)制,構(gòu)建包含情感詞、程度副詞、否詞、表情符等情感符號(hào)庫(kù),引入注意力模型和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bilateral-LSTM,Bi-LSTM),提升情感分析的準(zhǔn)確率。胡朝舉等[6]提出深層注意力的LSTM情感分析,對(duì)文本進(jìn)行特定主題探索,分析特定主題的情感傾向。

        在雙語(yǔ)種情感分析方面,Meng等[7]利用平行語(yǔ)料庫(kù)提升詞典覆蓋率,采用最大化似然值對(duì)詞語(yǔ)進(jìn)行標(biāo)注,進(jìn)而提升情感分類準(zhǔn)確率。栗雨晴等[8]通過(guò)構(gòu)建雙語(yǔ)詞典,進(jìn)行微博多類情感分析。但這兩種方法需構(gòu)建多語(yǔ)言平行語(yǔ)料庫(kù),分類準(zhǔn)確率依賴于語(yǔ)料庫(kù)的質(zhì)量和規(guī)模大小。Wang等[9]利用因子圖模型的屬性函數(shù)從每個(gè)帖子中學(xué)習(xí)單語(yǔ)和雙語(yǔ)信息,利用因子函數(shù)來(lái)探索不同情緒之間的關(guān)系,并采用置信傳播算法來(lái)學(xué)習(xí)和預(yù)測(cè)模型。

        在中英文搭配文本中,英文單詞對(duì)文本的情感表達(dá)產(chǎn)生重要影響,甚至能改變文本的情感極性,但情感的表達(dá)并非詞語(yǔ)極性的累加。例如下面兩個(gè)例子,句①通過(guò)英文單詞更改了句子極性,句②通過(guò)英文單詞加強(qiáng)了句子極性。

        ① 玩了一下午輪滑so tired!(中性+負(fù)性=負(fù)性)

        ② 昨晚一夜沒(méi)睡,坐過(guò)了車,多么happy的一天啊。(負(fù)性+正性=負(fù)性)

        結(jié)合以上分析,本文將雙語(yǔ)文本和句中的英文子句分別作為Bi-LSTM的輸入,得到兩者的知識(shí)表示。引入注意力機(jī)制,根據(jù)英文子句為雙語(yǔ)文本分配不同權(quán)重,得到融合了英文子句特征的知識(shí)表示,進(jìn)而得到最終的情感分析模型。通過(guò)爬取新浪微博上的數(shù)據(jù)作為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),與現(xiàn)有雙語(yǔ)分析模型相比,本文所構(gòu)建模型實(shí)現(xiàn)了效率的有效提高。

        1 相關(guān)工作

        1.1 Bi-LSTM

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是前饋神經(jīng)網(wǎng)絡(luò)的改進(jìn),一個(gè)序列t時(shí)刻的輸出不僅與之后的輸出有關(guān),也與之前的輸出也有關(guān)。RNN會(huì)對(duì)前面的信息進(jìn)行記憶,保存于網(wǎng)絡(luò)的內(nèi)部狀態(tài),當(dāng)前的輸出即由該內(nèi)部狀態(tài)計(jì)算得出。RNN中隱含層的節(jié)點(diǎn)是相互連接的,隱含層的輸入由上一隱含層的輸出和輸入層的輸出兩部分組成。理論上,RNN可以對(duì)任何長(zhǎng)度的數(shù)據(jù)進(jìn)行處理,但實(shí)踐中,任意長(zhǎng)度的數(shù)據(jù)具有復(fù)雜性,為了簡(jiǎn)化運(yùn)算過(guò)程,設(shè)置當(dāng)前狀態(tài)只于前n個(gè)狀態(tài)相關(guān)。

        RNN仍然存在梯度消失和梯度爆炸問(wèn)題,為了避免該問(wèn)題,Hochreiter等[10]提出并實(shí)現(xiàn)了LSTM。在一個(gè)LSTM模型中,每個(gè)單元包含輸入門it、遺忘門ft、輸出門ot以及記憶單元ct。輸入詞向量可以表示為{x1,x2,…,xn},其中xt為一個(gè)單元的輸入,是輸入文本中一個(gè)單詞的詞向量。ht表示網(wǎng)絡(luò)中的隱藏層向量。單元中的3個(gè)門和記憶單元可由以下公式計(jì)算得出:

        (1)

        ft=σ(Wf·X+bf)

        (2)

        it=σ(Wi·X+bi)

        (3)

        ot=σ(Wo·X+bo)

        (4)

        ct=ft⊙ct-1+it⊙tanh(Wc·X+bc)

        (5)

        ct=ft⊙ct-1+it⊙tanh(Wc·X+bc)

        (6)

        ht=ot⊙tanh(ct)

        (7)

        式中:Wi、Wf、Wo∈Rd×2d為權(quán)重矩陣;bi、bf、bo∈Rd表示訓(xùn)練過(guò)程中學(xué)習(xí)到的偏置值;σ表示激活函數(shù);⊙表示點(diǎn)乘積。

        雙向循環(huán)神經(jīng)網(wǎng)絡(luò)由前向神經(jīng)網(wǎng)絡(luò)和后向神經(jīng)網(wǎng)絡(luò)構(gòu)成,前向神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)記憶上文信息,后向神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)記憶下文信息,對(duì)文本分析起到了促進(jìn)作用。Bi-LSTM由兩個(gè)LSTM構(gòu)成,且連接著同一個(gè)輸出層,為輸出層的數(shù)據(jù)同時(shí)提供上下文的信息,圖1為Bi-LSTM沿時(shí)間的展開(kāi)圖。

        1.2 注意力機(jī)制

        人腦關(guān)注事物會(huì)為關(guān)鍵部分分配更多的注意力,注意力機(jī)制即為該現(xiàn)象的抽象化。通過(guò)計(jì)算注意力概率分布,對(duì)事物的關(guān)鍵性部分分配更重的權(quán)重,進(jìn)行突出,進(jìn)而對(duì)模型起到優(yōu)化作用。注意力機(jī)制最主要的特質(zhì)是為文本中的關(guān)鍵信息分配更多的權(quán)重,使得模型更多地關(guān)注重要信息,早期多用于圖像處理領(lǐng)域,近年來(lái)自然語(yǔ)言處理領(lǐng)域也引入了該方法。根據(jù)當(dāng)前單詞為輸出矩陣分配不同權(quán)重,生成特定的上下文表示。

        根據(jù)LSTM產(chǎn)生的隱藏層特征H=[h1,h2,…,hN]構(gòu)建注意力機(jī)制的輸入,H∈Rd×N,其中:d表示隱藏層的長(zhǎng)度;N為輸入文本的長(zhǎng)度。注意力機(jī)制最終產(chǎn)生注意力權(quán)重矩陣α和特征表示v可由以下公式計(jì)算得出:

        ui=tanh(Wshi+bs)

        (8)

        (9)

        (10)

        2 基于注意力的雙語(yǔ)情感分析模型

        為了關(guān)注更多有價(jià)值信息,本文提出基于英文注意力機(jī)制的雙語(yǔ)情感分析模型,對(duì)語(yǔ)句中英文詞匯進(jìn)行抽取,并對(duì)英文詞匯和語(yǔ)句進(jìn)行向量表示與融合。采用雙向LSTM和注意力機(jī)制,更好地提取出文本中重點(diǎn)詞匯。模型構(gòu)建如圖2所示,輸入數(shù)據(jù)包含兩部分:雙語(yǔ)文本s和英文子句t,英文子句即雙語(yǔ)文本中出現(xiàn)的非中文詞匯。

        圖2 基于注意力機(jī)制的模型框圖

        模型的網(wǎng)絡(luò)結(jié)構(gòu)中主要包含4個(gè)網(wǎng)絡(luò)層:詞向量輸入層、雙向LSTM層、注意力計(jì)算層、情感預(yù)測(cè)層。詞向量層的作用是把句子中的每個(gè)詞匯映射成為低維、連續(xù)和實(shí)數(shù)的向量表示;雙向LSTM層對(duì)句子s和英文子句t進(jìn)行建模,分別生成上下文特征表示和外文特征表示;注意力計(jì)算層根據(jù)上下文和外文兩個(gè)部分的特征表示輸入,為句子中的單詞分配合適的注意力權(quán)重,生成特定的情感特征表示;情感預(yù)測(cè)層基于特定的情感特征來(lái)預(yù)測(cè)情感傾向。

        2.1 詞向量輸入層

        2.2 雙向LSTM層

        模型采用共享權(quán)重的雙向LSTM將文本和英文詞匯映射到相同向量空間。記Bi-LSTM中的前向LSTM和后向LSTM在時(shí)刻i的輸入處理分別為:

        (11)

        (12)

        2.3 注意力計(jì)算層

        根據(jù)英文詞匯對(duì)為句子中的每一個(gè)詞匯分配合適的注意力權(quán)重,從而生成特征相關(guān)的情感特征表示。經(jīng)過(guò)注意力計(jì)算層,整個(gè)句子的表示如下:

        (13)

        式中:αt表示了句子第t個(gè)詞結(jié)合英文詞匯后的重要程度,即模型表示的第t個(gè)詞在句子中的注意力權(quán)重,其定義如下:

        (14)

        式中:score為衡量詞語(yǔ)與英文詞匯組合后的重要程度的打分函數(shù),score的定義如下:

        (15)

        式中:WS、WT為權(quán)重矩陣;b為偏執(zhí)向量;v為權(quán)重向量;vT表示v的轉(zhuǎn)置。

        2.4 情感預(yù)測(cè)層

        雙語(yǔ)文本的情感傾向預(yù)測(cè)需要同時(shí)考慮上下文信息和英文詞匯對(duì)文本的影響,本文將前向LSTM和后向LSTM的最后一個(gè)時(shí)間步的隱藏狀態(tài)連接起來(lái)作為句子s的特征表示,并利用非線性變換將其和英文相關(guān)的情感特征結(jié)合起來(lái):

        dc=tanh(Wcs+bc)

        (16)

        然后,采用softmax函數(shù)來(lái)獲取其情感分布。

        (17)

        式中:C表示情感標(biāo)簽個(gè)數(shù);pc表示情感標(biāo)簽c的預(yù)測(cè)概率。

        2.5 模型訓(xùn)練

        模型采用交叉熵作為優(yōu)化的損失函數(shù),若D表示訓(xùn)練數(shù)據(jù)集,則基于英文注意力的雙語(yǔ)分析模型損失函數(shù)如下:

        (18)

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集

        為了訓(xùn)練和測(cè)試語(yǔ)料,從新浪微博抽取雙語(yǔ)微博文本信息。使用分詞器進(jìn)行分詞,替換掉微博中的網(wǎng)址、用戶及話題標(biāo)簽等,過(guò)濾掉長(zhǎng)度小于5的微博文本,獲得7 000條用于標(biāo)注的雙語(yǔ)文本。然后依照高興、悲傷、憤怒、恐懼和驚訝五類情感對(duì)文本進(jìn)行人工類別標(biāo)注。雙語(yǔ)文本表達(dá)情感共有四種可能:1) 句子沒(méi)有表達(dá)情感;2) 句中的中文子句表達(dá)情感;3) 句中的英文子句表達(dá)情感;4) 中英文共同表達(dá)情感。因此,分別對(duì)句中英文子句、中文子句和雙語(yǔ)文本進(jìn)行人工類別標(biāo)注。語(yǔ)料在各情感類別中的分布情況如表1所示。

        表1 雙語(yǔ)文本在5類情感類別中的分布

        3.2 實(shí)驗(yàn)設(shè)計(jì)

        本實(shí)驗(yàn)采用詞向量訓(xùn)練工具word2vec,設(shè)置參數(shù)為:雙語(yǔ)文本和英文子句詞向量為100維;訓(xùn)練迭代次數(shù)100;設(shè)置學(xué)習(xí)速率0.05等。采用Bi-LSTM生成文本表示,因此雙語(yǔ)文本中每個(gè)單詞的輸出表示為200維。注意力權(quán)重的維度與文本長(zhǎng)度一致。本文利用TensorFlow框架來(lái)訓(xùn)練注意力機(jī)制Bi-LSTM模型,設(shè)置LSTM的層數(shù)為64層,Bi-LSTM的層數(shù)為128層。實(shí)驗(yàn)時(shí)標(biāo)注語(yǔ)料按照8∶1∶1分別分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集。采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值來(lái)表示評(píng)估實(shí)驗(yàn)的性能。

        1) 通過(guò)設(shè)定不同輸入體現(xiàn)英文子句對(duì)雙語(yǔ)文本的影響作用。

        (1) CN-Bi-LETM,僅考慮雙語(yǔ)文本中的中文,作為Bi-LSTM網(wǎng)絡(luò)的輸入,得到的表示直接作為判斷模型的特征向量。

        (2) EN-Bi-LSTM,僅考慮雙語(yǔ)文本中的英文,作為Bi-LSTM網(wǎng)絡(luò)的輸入,得到的表示直接作為判斷模型的特征向量。

        (3) CN-EN-Bi-LSTM,將混合文本的向量表之直接作為Bi-LSTM網(wǎng)絡(luò)的輸入,得到的表示直接作為判斷模型的特征向量。

        (4) EN-Attention Bi-LSTM,為雙重LSTM模型引入注意力機(jī)制,在特征表示時(shí)為不同詞語(yǔ)分配不同權(quán)重,作為最終的特征向量。

        2) 通過(guò)與現(xiàn)有算法進(jìn)行對(duì)比,體現(xiàn)深度學(xué)習(xí)在情感分析中的高效性,以及引入注意力機(jī)制對(duì)深度學(xué)習(xí)情感分析算法的影響。

        (1) 基于平行語(yǔ)料庫(kù)的分類方法。采用平行語(yǔ)料庫(kù)與最大化似然值結(jié)合的方法擴(kuò)展詞典,進(jìn)而實(shí)現(xiàn)情感分類。

        (2) 采用情感詞典與監(jiān)督學(xué)習(xí)算法相結(jié)合,實(shí)現(xiàn)較好的分類效果。

        (3) 基于雙語(yǔ)詞典的分類方法。通過(guò)構(gòu)建雙語(yǔ)詞典,采用半監(jiān)督高斯混合模型進(jìn)行中文及雙語(yǔ)微博文本進(jìn)行分類。

        (4) 聯(lián)合因子圖模型。利用因子圖模型的屬性函數(shù)學(xué)習(xí)文本的單語(yǔ)和雙語(yǔ)信息,使用置信傳播算法進(jìn)行情感預(yù)測(cè)。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        1) 表2顯示了不同基線的實(shí)驗(yàn)結(jié)果,可以看出:

        表2 與其他基線比較

        (1) 由于雙語(yǔ)文本中存在大量由中文陳述客觀事實(shí)、英文表述情感的現(xiàn)象,CN-Bi-LSTM只考慮了中文文本同樣是不穩(wěn)定的。

        (2) 由于英語(yǔ)是我們語(yǔ)料庫(kù)中的嵌入式語(yǔ)言,EN-Bi-LSTM的結(jié)果只考慮英語(yǔ)文本是不穩(wěn)定的。

        (3) CN-EN-Bi-LSTM將雙語(yǔ)文本共同作為網(wǎng)絡(luò)輸入,忽略了英文對(duì)中文子句的影響作用。

        (4) EN-Attention Bi-LSTM引入注意力機(jī)制,明顯優(yōu)于以上算法。

        上述實(shí)驗(yàn)表明,本文所提模型由于英文子句改變或加強(qiáng)了文本的極性,同時(shí)注意力模型也發(fā)掘出了文本內(nèi)部的語(yǔ)義權(quán)重,提升了識(shí)別效果。

        2) 表3顯示了不同算法在相同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,可以看出,本文提出模型提升了分類的準(zhǔn)確率。

        表3 各分類算法F值

        4 結(jié) 語(yǔ)

        本文提出一種基于注意力機(jī)制的雙語(yǔ)文本情感分析模型,將雙語(yǔ)文本中的英文子句提取出來(lái),分別采用雙重LSTM模型進(jìn)行特征表示,利用注意力機(jī)制,根據(jù)英文子句對(duì)雙語(yǔ)文本詞匯分配不同權(quán)重,進(jìn)行特征融合,最終形成基于注意力機(jī)制的特征向量,該方法能獲取到更加精準(zhǔn)的語(yǔ)義表示。實(shí)驗(yàn)結(jié)果顯示,英文子句注意力機(jī)制能夠有效識(shí)別雙語(yǔ)文本情感極性,并且準(zhǔn)確率都超越了現(xiàn)有分類算法,取得了較好分析的結(jié)果。

        本文方法立足于新浪微博,雙語(yǔ)文本以中文為主,英文為輔,未考慮到英文所占比重對(duì)分析結(jié)果的影響,不具有普適性。此外,下一步工作可針對(duì)雙語(yǔ)文本中的詞性進(jìn)行比重劃分,對(duì)本方法進(jìn)行改進(jìn)。

        猜你喜歡
        子句雙語(yǔ)注意力
        命題邏輯中一類擴(kuò)展子句消去方法
        讓注意力“飛”回來(lái)
        命題邏輯可滿足性問(wèn)題求解器的新型預(yù)處理子句消去方法
        西夏語(yǔ)的副詞子句
        西夏學(xué)(2018年2期)2018-05-15 11:24:42
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        命題邏輯的子句集中文字的分類
        快樂(lè)雙語(yǔ)
        新晨(2013年7期)2014-09-29 06:19:50
        快樂(lè)雙語(yǔ)
        新晨(2013年5期)2014-09-29 06:19:50
        快樂(lè)雙語(yǔ)
        新晨(2013年10期)2014-09-29 02:50:54
        女女同性av一区二区三区免费看 | 91国产自拍精品视频| 欧美亚洲精品suv| 国产真实老熟女无套内射| 99久久久精品免费香蕉| av资源在线永久免费观看| 丁香婷婷激情视频在线播放| 久久综合九色综合97欧美| 中国一级毛片在线观看| av毛片一区二区少妇颜射| 漂亮人妻被强了中文字幕| 国产边摸边吃奶叫床视频| 日韩A∨精品久久久久| 国产免费人成网站在线播放| 蜜桃一区二区在线视频| 真多人做人爱视频高清免费| 乱子伦av无码中文字幕| 国产伦精品一区二区三区在线| 久久精品国产91精品亚洲| 亚洲av蜜桃永久无码精品| 97色偷偷色噜噜狠狠爱网站97| 人妻中文字幕一区二区三区| 国产成人精品免费视频大全软件| 中文字幕亚洲情99在线| 无码中文字幕av免费放| 成h视频在线观看免费| 久久精品中文字幕大胸| 欧美精品一级| 一区二区国产视频在线| 亚洲成a人网站在线看| 丝袜美腿一区在线观看| а√天堂8资源中文在线| 六月丁香婷婷色狠狠久久| 国产在线白浆一区二区三区在线| 人妻少妇精品视频一区二区三区l| 久久精品无码一区二区三区免费| 日本污视频| 精品亚洲av一区二区| 成人中文乱幕日产无线码| 国产精品99久久精品爆乳| 日本二区三区视频免费观看|