亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行評(píng)論文本分析

        2020-09-04 07:56:20張益茗朱振宇劉恩彤張瀟予
        科學(xué)技術(shù)創(chuàng)新 2020年26期
        關(guān)鍵詞:準(zhǔn)確率權(quán)重神經(jīng)網(wǎng)絡(luò)

        張益茗 朱振宇 劉恩彤 張瀟予

        (1、東北電力大學(xué) 計(jì)算機(jī)學(xué)院,吉林 吉林132012 2、哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,黑龍江 哈爾濱150000 3、中央財(cái)經(jīng)大學(xué) 金融學(xué)院,北京100081)

        1 Word2vec 詞嵌入技術(shù)原理

        自然語(yǔ)言指的是自然地隨文化演化的語(yǔ)言,并形成了一個(gè)能夠表達(dá)復(fù)雜含義的系統(tǒng)。在這個(gè)系統(tǒng)中,詞或子是語(yǔ)義的基本單元。在NLP 領(lǐng)域,人們使用詞向量來(lái)表征詞的特征向量,而詞嵌入技術(shù)即是將詞映射到實(shí)數(shù)域向量的技術(shù)。

        假設(shè)一套自然語(yǔ)言系統(tǒng)中不同詞的數(shù)量為N,則每一個(gè)詞都和一個(gè)0~N-1 之間的整數(shù)一一對(duì)應(yīng),記為詞的索引。為構(gòu)建詞的獨(dú)熱編碼向量,我們構(gòu)建一個(gè)長(zhǎng)度為N 的全0 向量,并將索引為i 的詞的第i 位置1(i 是0~N-1 之間的整數(shù)),使得每個(gè)詞和一個(gè)長(zhǎng)度為N 的向量一一對(duì)應(yīng)。

        訓(xùn)練詞嵌入模型的目標(biāo)是獲取目標(biāo)本文中的周圍單詞的有用的單詞表示。即給定一系列訓(xùn)練單詞w1,w2......,wT,其目標(biāo)函數(shù)如公式(1)所示。

        其中c 表示訓(xùn)練上下文的大小,一般而言,c 越大訓(xùn)練效果越好,但是相應(yīng)的訓(xùn)練時(shí)間越長(zhǎng)。

        2 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)原理

        長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)(LSTM):

        長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)(LSTM)是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的一種,它能夠從之前的階段中記住值以供未來(lái)使用。在深入了解LSTM以前,我們需要先簡(jiǎn)單討論一下神經(jīng)網(wǎng)絡(luò)的概況。

        (1)人工神經(jīng)網(wǎng)絡(luò)

        一個(gè)神經(jīng)網(wǎng)絡(luò)至少包含三層,分別為:輸入層、隱藏層和輸出層。數(shù)據(jù)集中特征的數(shù)量決定了輸入層中的維度或者節(jié)點(diǎn)數(shù)量,這些節(jié)點(diǎn)通過(guò)叫做“突觸”的鏈接和隱藏層中創(chuàng)建的節(jié)點(diǎn)相連。對(duì)于每個(gè)輸入層的節(jié)點(diǎn),每個(gè)鏈接都帶著一些權(quán)重。這些權(quán)重主要是用來(lái)決定哪些輸入或信號(hào)可能通過(guò)或不通過(guò),同時(shí)這些權(quán)重也體現(xiàn)了隱藏層的強(qiáng)度或程度。一個(gè)神經(jīng)網(wǎng)絡(luò)主要是通過(guò)調(diào)整各個(gè)突觸的權(quán)重來(lái)進(jìn)行學(xué)習(xí)。

        (2)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)

        遞歸神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一個(gè)特例,其目標(biāo)是預(yù)測(cè)下一步相對(duì)于序列中觀察到的先前步驟,背后的思想是利用連續(xù)觀測(cè)并從早期階段學(xué)習(xí)來(lái)預(yù)測(cè)未來(lái)趨勢(shì)。因此,在猜測(cè)下一步時(shí),需要記住早期階段的數(shù)據(jù)。

        遞歸神經(jīng)網(wǎng)絡(luò)的另一大特點(diǎn)是權(quán)重值共享。在RNNs 中,隱藏層充當(dāng)內(nèi)部存儲(chǔ)器,用于存儲(chǔ)在讀取順序數(shù)據(jù)的早期階段捕獲的信息。而稱之為“遞歸”(Recurrent)是因?yàn)樗鼈儗?duì)序列的每個(gè)元素執(zhí)行相同的任務(wù),并具有利用先前捕獲的信息預(yù)測(cè)未來(lái)看不見(jiàn)的連續(xù)數(shù)據(jù)的特征。具體的向前傳播公式如下:

        其中,W1,W2,W3 是神經(jīng)網(wǎng)絡(luò)的三組參數(shù),分別表示輸入層和隱藏層間的連接權(quán)重、上一時(shí)刻隱藏層與下一時(shí)刻隱藏層間的連接權(quán)重,以及隱藏層和輸出層之間的連接權(quán)重。a 則表示匯集計(jì)算的值,b 表示激活函數(shù)計(jì)算出來(lái)的值,w 是節(jié)點(diǎn)間的連接權(quán)重,t 表示時(shí)刻,h 下標(biāo)表示隱藏層,k 下標(biāo)表述輸入層。公式(2)表示隱藏層神經(jīng)元的匯集計(jì)算,其中其意項(xiàng)是輸入層傳入的數(shù)據(jù),第二項(xiàng)則表示上一時(shí)刻的隱藏層的輸出對(duì)當(dāng)前時(shí)刻造成的影響。這一個(gè)公式是遞歸神經(jīng)網(wǎng)絡(luò)的核心,在其訓(xùn)練的算法中也有體現(xiàn)。公式(3)表示隱藏層向輸出層傳送的值,公式(4)表示輸出層的匯集計(jì)算,這兩部分和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)沒(méi)有差異。

        總之,遞歸神經(jīng)網(wǎng)絡(luò)可以通過(guò)反向傳回權(quán)重信息來(lái)進(jìn)一步訓(xùn)練網(wǎng)絡(luò),從而獲得更好的模型。但是,一般的RNN 網(wǎng)絡(luò)只記得序列中的幾個(gè)早期步驟,而不適合記憶更長(zhǎng)的數(shù)據(jù)序列,這個(gè)問(wèn)題會(huì)在下面介紹長(zhǎng)期短期記憶循環(huán)網(wǎng)絡(luò)時(shí),使用“存儲(chǔ)線”進(jìn)行解決。

        (3)長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)

        長(zhǎng)短期記憶網(wǎng)絡(luò)是一種特殊的神經(jīng)網(wǎng)絡(luò),具有記憶數(shù)據(jù)序列的功能。它可以通過(guò)一些伴隨著一條記憶線的門來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)早期趨勢(shì)的記憶。

        每個(gè)LSTM都是一套單元或系統(tǒng)模塊,并捕獲其中經(jīng)過(guò)的數(shù)據(jù)流。這些單元類似于一條輸送線,從一個(gè)模塊連接到另一個(gè)模塊,傳送過(guò)去的數(shù)據(jù)并收集當(dāng)前的數(shù)據(jù)。由于在每個(gè)單元中都使用的了一些門,所以可以對(duì)每個(gè)單元中的數(shù)據(jù)進(jìn)行處理、過(guò)濾或添加到下一個(gè)單元。因此,這些門基于sigmoid 函數(shù)的神經(jīng)網(wǎng)絡(luò)層,可以使得這些單元能夠選擇性地允許數(shù)據(jù)通過(guò)或處理數(shù)據(jù)。

        3 實(shí)驗(yàn)

        【數(shù)據(jù)來(lái)源】本文使用斯坦福大學(xué)提供的大規(guī)模電影評(píng)論數(shù)據(jù)集(Stanford's Large Movie Review Dataset,IMDb)[3],它包含了電影評(píng)論網(wǎng)站IMDB 中的50000 余條評(píng)論,其中每部電影下的評(píng)論不超過(guò)30 條,且標(biāo)記為“正面情感”和“負(fù)面情感”的評(píng)論數(shù)相等。因此,對(duì)評(píng)論進(jìn)行隨機(jī)情感分析,準(zhǔn)確率被為50%。該數(shù)據(jù)集排除了中性評(píng)價(jià),即其中的評(píng)論全部是情感高度兩極化的??偡譃?0 分,負(fù)面評(píng)價(jià)的分?jǐn)?shù)小于等于4 分,正面評(píng)價(jià)的分?jǐn)?shù)大于等于7 分。實(shí)驗(yàn)中,我們?nèi)∑渲幸话霝橛?xùn)練集,另一半為測(cè)試集。

        【構(gòu)建LSTM訓(xùn)練網(wǎng)絡(luò)】本文利用Keras 擴(kuò)展庫(kù)搭建LSTM結(jié)構(gòu)。Keras 是一個(gè)Python 深度學(xué)習(xí)框架,可以方便地定義和訓(xùn)練幾乎所有類型的深度學(xué)習(xí)模型,且具有用戶友好的API,可以快速開(kāi)發(fā)深度學(xué)習(xí)模型的原型。Keras 的主要模型是Sequential(),用戶可以通過(guò)調(diào)用add()去便捷地堆疊自己需要的網(wǎng)絡(luò)層,進(jìn)而構(gòu)成一個(gè)整體的模型。

        具體的結(jié)構(gòu)如下:

        第一層:利用word2vec 技術(shù)將詞語(yǔ)映射成128 維向量,進(jìn)行特征提取。

        第二層:LSTM模塊。具體步驟為:首先,將提取的特征放入輸入單元,再將數(shù)據(jù)流從輸入單元送入隱藏單元,同時(shí)將另一條數(shù)據(jù)流從隱藏單元送到輸出單元。隱藏單元即神經(jīng)網(wǎng)絡(luò)的記憶單元。對(duì)一個(gè)隱藏單元,使用xt表示第t 步的輸入,則目前單元的激活值s=f(Uxt+Wst-1)。其中,f 表示激活函數(shù),本實(shí)驗(yàn)中使用ReLU。第t 步的輸出經(jīng)softmax 層計(jì)算得到。

        本文的模型訓(xùn)練過(guò)程以及預(yù)測(cè)過(guò)程可以概括為:

        (1)提取相關(guān)數(shù)據(jù)的特征向量,獲得訓(xùn)練數(shù)據(jù)。

        (2)將訓(xùn)練集中的數(shù)據(jù)分批次輸入到設(shè)定好的模型中,不斷更新網(wǎng)絡(luò)機(jī)構(gòu)中各個(gè)節(jié)點(diǎn)之間的連接權(quán)重,以最小化損失函數(shù)的值為目標(biāo)來(lái)盡可能降低真實(shí)值和擬合值之間的誤差,從而學(xué)習(xí)到輸入變量和輸出變量間的非線性特征。

        (3)保存訓(xùn)練好的模型參數(shù),將測(cè)試集中的數(shù)據(jù)輸入到完成訓(xùn)練的模型中,得出相應(yīng)的預(yù)測(cè)值,并于測(cè)試集中真實(shí)標(biāo)注的結(jié)果進(jìn)行比對(duì),得到準(zhǔn)確率。

        具體的參數(shù)如表1 所示:

        表1 LSTM 電影評(píng)論文本LSTM 情感分析模型的參數(shù)

        【實(shí)驗(yàn)結(jié)果】本文按照上一章所述流程搭建了評(píng)估電影評(píng)論文本數(shù)據(jù)的LSTM模型,共迭代600 次,實(shí)驗(yàn)結(jié)果如下表2 所示:

        表2 給出了本文實(shí)驗(yàn)結(jié)果,以及在特定迭代步驟下的LSTM 模型訓(xùn)練損失值、訓(xùn)練準(zhǔn)確率和測(cè)試準(zhǔn)確率,可以看出。LSTM模型在600 次迭代內(nèi)的最高準(zhǔn)確率為86.97%,且訓(xùn)練損失和訓(xùn)練準(zhǔn)確率始終保持在正常值,說(shuō)明LSTM模型有效避免了過(guò)擬合和梯度消失的問(wèn)題。

        表2

        4 結(jié)論

        本文首先介紹了文本分析研究的背景以及相關(guān)的研究,接著介紹了詞嵌入技術(shù)和LSTM的原理,接下來(lái)基于大規(guī)模電影評(píng)論文本進(jìn)行基于LSTM模型的情感分析實(shí)驗(yàn),從實(shí)證的角度體現(xiàn)了LSTM網(wǎng)絡(luò)在情感分析問(wèn)題中的可行性和有效性,對(duì)未來(lái)深入文本分析研究和情感評(píng)估具有一定的指導(dǎo)意義。

        猜你喜歡
        準(zhǔn)確率權(quán)重神經(jīng)網(wǎng)絡(luò)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        權(quán)重常思“浮名輕”
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        亚洲日韩精品无码av海量| 中文字幕无线精品亚洲乱码一区 | 成人午夜视频在线观看高清| 亚洲av熟女中文字幕| 久久久久无码国产精品一区| 亚洲中文久久精品无码ww16| 亚洲日本国产乱码va在线观看| 成人大片在线观看视频| 欧美人与动性xxxxx杂性| 人妻熟妇乱又伦精品视频app | 又黄又爽又色视频| 无码精品人妻一区二区三区人妻斩| 精品国产福利久久久| 中文片内射在线视频播放| 久久99精品久久久大学生| 国产乱色精品成人免费视频| 欧美日韩免费一区中文字幕| 日韩一区二区av伦理| 人妻少妇久久中文字幕| 亚洲暴爽av天天爽日日碰| 久久久2019精品视频中文字幕| 青青草成人在线播放视频| 中文无码精品a∨在线观看不卡| 亚洲人成7777影视在线观看| 中文字幕乱码亚洲美女精品一区 | 黄桃av无码免费一区二区三区| 久久婷婷色综合一区二区| 久久精品国产亚洲av热九九热 | 免费无码av片在线观看| 挑战亚洲美女视频网站| 在线a亚洲视频播放在线播放| 疯狂撞击丝袜人妻| 欧美精品一区二区精品久久| 青草草视频在线观看华人免费| 国产精品久久久久高潮| 伊人久久成人成综合网222| 人妻色中文字幕免费视频| 漂亮人妻洗澡被公强 日日躁| 内射少妇36p九色| 免费国产调教视频在线观看| 久久伊人精品中文字幕有尤物|