亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NLP和深度學習方法的英文情感分析方法研究

        2021-07-11 08:16:20薛雨
        電子設(shè)計工程 2021年13期
        關(guān)鍵詞:二叉樹語料卷積

        薛雨

        (商洛學院人文學院,陜西商洛 726000)

        隨著互聯(lián)網(wǎng)的普及與發(fā)展,文化、購物、社交等信息平臺產(chǎn)生了大量的文本資源,這些資源大多由用戶自主上傳,其形式多樣、結(jié)構(gòu)復雜。在這些文本信息中蘊含著豐富的數(shù)據(jù)價值,是描繪用戶畫像的直接資料[1-4]。例如,從文化信息數(shù)據(jù)庫中分析文本信息,可以輔助調(diào)查社會關(guān)系網(wǎng)絡(luò)和文化發(fā)展傾向;從購物網(wǎng)站中爬取用戶對于某件商品的評論信息,可以輔助商家更準確地獲得用戶對該商品的印象,為商家與平臺的營銷策略提供直接支持。在這些需求下,要求計算機通過智能數(shù)據(jù)處理算法準確地理解文本信息所蘊含的情感傾向,以處理海量大數(shù)據(jù)并提取特征數(shù)據(jù),即文本情感分析,是自然語言處理領(lǐng)域中研究的重要課題之一[5-9]。文中通過將文本片段化,識別出給定文本中所表達的情感傾向及強度。英語是世界通用語言,對于英文情感分析的研究具有更廣闊的應(yīng)用前景。在情感分析時,按照分析對象的不同,可以分為詞、句、篇不同的級別,不同級別的文本分析粒度不同。文中為了提升英文情感分析方法的實用價值,以英文語句為單位進行情感分析研究。

        1 理論基礎(chǔ)

        1.1 自然語言處理

        自然語言處理(NLP)是一項研究人與機器間使用自然語言進行信息交互的技術(shù)理論和方法,是一項融合計算機、語言學、數(shù)學等各個學科的智能方法。不論自然語言處理的目的如何,均要將文本信息轉(zhuǎn)化為詞向量作為模型的輸入,并進行模型的訓練。

        經(jīng)典的詞向量訓練有兩種方式:一種是基于語言模型的框架;另一種是基于主題的模型。第一種方法由于得到的詞向量信息中包含語義信息,更適合情感分析的研究[10]。

        語言模型可以描述確定文本序列下每個詞序列的出現(xiàn)概率,即對于T長度的字符串向量s為:

        P(?)是一個概率模型,將字符串序列中的第j個詞表示為wj。通過模型訓練,輸出式(1)中的條件概率。但在詞訓練的過程中,模型參數(shù)會隨著次數(shù)的增多而增長;詞向量的表述也會隨著向量維度的增長而趨向于稀疏。因此,文中引入了神經(jīng)網(wǎng)絡(luò)進行訓練,即使用Word2vec 框架。

        在文檔D中,對于當前詞wij,其上下文Ci以最大后驗概率為目標函數(shù):

        式(2)中,將D中的第j個句子標記為Tj。為了計算條件概率p(wij|Cij;θ),需要進行詞匯的映射。然后,使用層次Softmax 網(wǎng)絡(luò),進行條件概率的最大化。過程如圖1 所示[11-16]。

        圖1 層次Softmax結(jié)構(gòu)示意圖

        層次Sotfmax 結(jié)構(gòu)與一般的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似,包含輸入層、隱藏層與輸出層。

        1)輸入層

        在輸入層中,使用詞向量矩陣M記錄當前詞在上下文中的2h個詞向量作為模型的輸入,即:

        2)隱藏層

        隱藏層用于輸入層各個向量的累加,由節(jié)點wneu1完成匯聚。

        3)輸出層

        層次型Softmax結(jié)構(gòu)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的最大區(qū)別在于輸出層,其輸出層由二叉樹構(gòu)成。每一個二叉樹的葉子節(jié)點均對應(yīng)一個詞向量w,wneu1與二叉樹中的所有非葉節(jié)點連接,非葉子節(jié)點對應(yīng)一個非詞向量q。對于當前詞向量,其條件概率可以表示為:

        在訓練二叉樹時,使用了最小負對數(shù)似然函數(shù)。在誤差反向傳播的過程中,根據(jù)隨機梯度下降的原則進行參數(shù)更新。

        此時,詞向量與非詞向量的更新方法如下:

        其中,η是模型的學習率,η決定了參數(shù)在梯度下降過程中參數(shù)變化的快慢。

        1.2 基于負抽樣的模型優(yōu)化

        在分層Softmax 中,為了節(jié)省訓練二叉樹時的計算資源,可以引入負抽樣方法。負抽樣前,需要定義模型中的正樣本與負樣本。文中將wij作為正樣本,將wij替換上下文后的詞作為負樣本。此時,目標函數(shù)可以簡化為:

        此時,根據(jù)梯度下降原則:

        其中,label用于區(qū)分正負樣本。當樣本是正樣本時,lable=1;當樣本是負樣本時,lable=0。此時梯度為:

        同時在引入負抽樣后,文本內(nèi)所有的詞向量可以劃分為上下文詞、中心詞兩類。參數(shù)更新時,對上下文詞更新,中心詞保留在鄰接矩陣Rw內(nèi),此時的更新方法如下:

        1.3 情感相關(guān)詞嵌入

        上述模型可以進行詞向量的抽取,但直接抽取的詞向量僅包含少量的情感信息。通過向基礎(chǔ)語言模型內(nèi)嵌入與情感相關(guān)的詞目,可以實現(xiàn)文本的情感分析。此時,損失函數(shù)的形式如下:

        其中,正常的詞序列被標記為t,替換后的詞序列為tr。

        在該模型中,需要在原有模型的基礎(chǔ)上再增加一個Softmax 層,該層專門用于情感信息的提取。在模型的輸入層,以n-gram作為輸入。此時,式(13)可以寫成:

        2 方法實現(xiàn)

        文中對自然語言處理的詞向量提取方法結(jié)合情感分析的文本分析模型進行了介紹,接下來文中將結(jié)合具體的語料對上述模型進行仿真。

        2.1 實驗設(shè)計

        英文情感分析的實現(xiàn),最重要的是完成基于英文語料的模型訓練[17],然后通過測試數(shù)據(jù)集進行測試。流程如圖2 所示。

        圖2 情感分析方法流程

        為了更優(yōu)地發(fā)揮模型的性能,需要合理選擇情感分析時使用的語料資源。文中使用的語料資源為SemEval2013,這是學術(shù)界認可度極高的國際語義測評競賽提供的官方語料。其具體的組成包括訓練集、開發(fā)集與測試集,每個集合由包含肯定、中性和否定的3 種情感傾向組成。情感分析語料參數(shù)如表1 所示。

        表1 情感分析語料參數(shù)

        在語料的預處理中,需要根據(jù)算法需實現(xiàn)的目的對文本信息進行分詞,標注詞條的屬性以及對于英文中常用的停用詞進行過濾。

        文中在進行分詞與詞性標注時,使用中科院發(fā)布的ICTCLAS 分詞標注輔助系統(tǒng)作為依據(jù)。

        在進行模型性能評價時,文中使用的指標包括兩類,一類是機器學習算法常用的指標:準確度Accuracy、F1,其定義如下:

        其中,f(x)是模型的預測值,y(x)是模型的真實值,|X|為當前數(shù)據(jù)集的輸入值。P、R分別為模型的準確率與召回率:

        另一類是與文本分析情感強度相關(guān)的肯德爾等級系數(shù)t,其定義形式如下:

        2.2 仿真結(jié)果

        在進行算法的仿真時,為了提升算法在英文情感分析時的精度,文中使用深度學習中的卷積神經(jīng)網(wǎng)絡(luò)替代分層Softmax 中的二叉樹。根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)需要,確定使用卷積窗口的大小。為了簡化模型,文中在不同的卷積層使用長度相同的卷積核。表2 給出了模型的性能指標隨卷積核大小的變化情況。

        表2 模型指標隨卷積核大小的變化

        圖3(a)給出了模型Accuracy 與模型F1 的指標隨著卷積核增加的變化情況,圖3(b)給出了模型的訓練時間隨著卷積核增加的變化情況??梢钥闯?,模型的精度和F1 值在卷積核小于或等于100 時,隨著卷積核的增長線性提升,當卷積核大于100 后,這兩個指標不再有所改善;此時,觀察模型訓練時間曲線可以看出,模型在卷積核大于100 后,急劇增加。綜上所述,文中在模型訓練時選取的卷積核大小為100。最終確定的模型參數(shù)如表3 所示。

        圖3 卷積核大小與模型參數(shù)的關(guān)系

        表3 模型參數(shù)設(shè)置

        模型訓練完成后,將測試集輸入到模型中,測試數(shù)據(jù)經(jīng)模型運算輸出3 個不同類別的情感預測值。通過與數(shù)據(jù)集的標記進行比對,獲得測試結(jié)果。具體的測試結(jié)果如表4 所示。此外,為了評估模型的性能,文中采用基于二叉樹的分層次Softmax 模型,其結(jié)果如表4 所示。

        表4 測試結(jié)果對比

        從測試結(jié)果可知,在進行英文文本的情感分析時,對于表示否定的文本,兩個模型均有較優(yōu)的識別精度。對于中性的文本,識別精度較差;從模型的整體性能來看,文中提出的CNN-Softmax 模型由于引入更深層次的卷積結(jié)構(gòu),在模型的性能上有大幅度提升。Accuracy 與F1 分別達到了84.3%和82.3%,相較于傳統(tǒng)的基于二叉樹的模型有約5%的提升。

        3 結(jié)束語

        文本情感分析是自然語言處理領(lǐng)域研究的熱點之一,文中對詞向量模型的提取和基于深度卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析方法進行了研究[18]。對于詞向量提取的框架、文中建模方法與情感分析的流程進行了深入的介紹。其在開放的語料集上進行情感分析實驗,仿真結(jié)果證明了文中方法的優(yōu)越性。傳統(tǒng)基于二叉樹Softmax 模型的改造對于英文文本的情感分析,具有較強的實用價值。

        猜你喜歡
        二叉樹語料卷積
        CSP真題——二叉樹
        電腦報(2022年37期)2022-09-28 05:31:07
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        二叉樹創(chuàng)建方法
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        一種由層次遍歷和其它遍歷構(gòu)造二叉樹的新算法
        華語電影作為真實語料在翻譯教學中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學實證研究比較:語料類型與收集方法
        97成人精品在线视频| 在线高清精品第一区二区三区| 亚洲色无码播放| 视频国产精品| 麻豆三级视频网站在线观看 | 亚洲精品无码乱码成人| 一本久到久久亚洲综合| 中文字幕久久熟女人妻av免费| 精品国产av一区二区三四区| 国产欧美va欧美va香蕉在线| 精品av天堂毛片久久久| 国产91福利在线精品剧情尤物| 偷拍熟女亚洲另类| 免费人妖一区二区三区| 潮喷失禁大喷水aⅴ无码| 亚洲av久久无码精品九九| 少妇特殊按摩高潮惨叫无码| 香港三级日本三韩级人妇久久| 亚洲 欧美 偷自乱 图片| 国产精品v欧美精品v日韩精品 | 亚洲一区精品无码| 骚小妹影院| 国产免费看网站v片不遮挡| 日本97色视频日本熟妇视频| 日本一本免费一二区| 中文字幕熟妇人妻在线视频| 欧美综合区自拍亚洲综合| 麻豆成人久久精品一区| 成人影院yy111111在线| 色婷婷六月天| 久久久人妻一区精品久久久 | 精品人妻一区二区三区四区在线 | 虎白m粉嫩小在线播放| 亚洲加勒比久久88色综合 | 人妻精品人妻一区二区三区四五| 中文字幕av素人专区| 欧美国产综合欧美视频| 久久久精品久久波多野结衣av| 国产精品无码久久久久久蜜臀AV| 亚洲中文高清乱码av中文| 少妇被又大又粗又爽毛片久久黑人 |