亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行評(píng)論文本分析

        2020-09-04 07:56:20張益茗朱振宇劉恩彤張瀟予
        科學(xué)技術(shù)創(chuàng)新 2020年26期
        關(guān)鍵詞:記憶情感模型

        張益茗 朱振宇 劉恩彤 張瀟予

        (1、東北電力大學(xué) 計(jì)算機(jī)學(xué)院,吉林 吉林132012 2、哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,黑龍江 哈爾濱150000 3、中央財(cái)經(jīng)大學(xué) 金融學(xué)院,北京100081)

        1 Word2vec 詞嵌入技術(shù)原理

        自然語(yǔ)言指的是自然地隨文化演化的語(yǔ)言,并形成了一個(gè)能夠表達(dá)復(fù)雜含義的系統(tǒng)。在這個(gè)系統(tǒng)中,詞或子是語(yǔ)義的基本單元。在NLP 領(lǐng)域,人們使用詞向量來(lái)表征詞的特征向量,而詞嵌入技術(shù)即是將詞映射到實(shí)數(shù)域向量的技術(shù)。

        假設(shè)一套自然語(yǔ)言系統(tǒng)中不同詞的數(shù)量為N,則每一個(gè)詞都和一個(gè)0~N-1 之間的整數(shù)一一對(duì)應(yīng),記為詞的索引。為構(gòu)建詞的獨(dú)熱編碼向量,我們構(gòu)建一個(gè)長(zhǎng)度為N 的全0 向量,并將索引為i 的詞的第i 位置1(i 是0~N-1 之間的整數(shù)),使得每個(gè)詞和一個(gè)長(zhǎng)度為N 的向量一一對(duì)應(yīng)。

        訓(xùn)練詞嵌入模型的目標(biāo)是獲取目標(biāo)本文中的周圍單詞的有用的單詞表示。即給定一系列訓(xùn)練單詞w1,w2......,wT,其目標(biāo)函數(shù)如公式(1)所示。

        其中c 表示訓(xùn)練上下文的大小,一般而言,c 越大訓(xùn)練效果越好,但是相應(yīng)的訓(xùn)練時(shí)間越長(zhǎng)。

        2 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)原理

        長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)(LSTM):

        長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)(LSTM)是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的一種,它能夠從之前的階段中記住值以供未來(lái)使用。在深入了解LSTM以前,我們需要先簡(jiǎn)單討論一下神經(jīng)網(wǎng)絡(luò)的概況。

        (1)人工神經(jīng)網(wǎng)絡(luò)

        一個(gè)神經(jīng)網(wǎng)絡(luò)至少包含三層,分別為:輸入層、隱藏層和輸出層。數(shù)據(jù)集中特征的數(shù)量決定了輸入層中的維度或者節(jié)點(diǎn)數(shù)量,這些節(jié)點(diǎn)通過叫做“突觸”的鏈接和隱藏層中創(chuàng)建的節(jié)點(diǎn)相連。對(duì)于每個(gè)輸入層的節(jié)點(diǎn),每個(gè)鏈接都帶著一些權(quán)重。這些權(quán)重主要是用來(lái)決定哪些輸入或信號(hào)可能通過或不通過,同時(shí)這些權(quán)重也體現(xiàn)了隱藏層的強(qiáng)度或程度。一個(gè)神經(jīng)網(wǎng)絡(luò)主要是通過調(diào)整各個(gè)突觸的權(quán)重來(lái)進(jìn)行學(xué)習(xí)。

        (2)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)

        遞歸神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一個(gè)特例,其目標(biāo)是預(yù)測(cè)下一步相對(duì)于序列中觀察到的先前步驟,背后的思想是利用連續(xù)觀測(cè)并從早期階段學(xué)習(xí)來(lái)預(yù)測(cè)未來(lái)趨勢(shì)。因此,在猜測(cè)下一步時(shí),需要記住早期階段的數(shù)據(jù)。

        遞歸神經(jīng)網(wǎng)絡(luò)的另一大特點(diǎn)是權(quán)重值共享。在RNNs 中,隱藏層充當(dāng)內(nèi)部存儲(chǔ)器,用于存儲(chǔ)在讀取順序數(shù)據(jù)的早期階段捕獲的信息。而稱之為“遞歸”(Recurrent)是因?yàn)樗鼈儗?duì)序列的每個(gè)元素執(zhí)行相同的任務(wù),并具有利用先前捕獲的信息預(yù)測(cè)未來(lái)看不見的連續(xù)數(shù)據(jù)的特征。具體的向前傳播公式如下:

        其中,W1,W2,W3 是神經(jīng)網(wǎng)絡(luò)的三組參數(shù),分別表示輸入層和隱藏層間的連接權(quán)重、上一時(shí)刻隱藏層與下一時(shí)刻隱藏層間的連接權(quán)重,以及隱藏層和輸出層之間的連接權(quán)重。a 則表示匯集計(jì)算的值,b 表示激活函數(shù)計(jì)算出來(lái)的值,w 是節(jié)點(diǎn)間的連接權(quán)重,t 表示時(shí)刻,h 下標(biāo)表示隱藏層,k 下標(biāo)表述輸入層。公式(2)表示隱藏層神經(jīng)元的匯集計(jì)算,其中其意項(xiàng)是輸入層傳入的數(shù)據(jù),第二項(xiàng)則表示上一時(shí)刻的隱藏層的輸出對(duì)當(dāng)前時(shí)刻造成的影響。這一個(gè)公式是遞歸神經(jīng)網(wǎng)絡(luò)的核心,在其訓(xùn)練的算法中也有體現(xiàn)。公式(3)表示隱藏層向輸出層傳送的值,公式(4)表示輸出層的匯集計(jì)算,這兩部分和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)沒有差異。

        總之,遞歸神經(jīng)網(wǎng)絡(luò)可以通過反向傳回權(quán)重信息來(lái)進(jìn)一步訓(xùn)練網(wǎng)絡(luò),從而獲得更好的模型。但是,一般的RNN 網(wǎng)絡(luò)只記得序列中的幾個(gè)早期步驟,而不適合記憶更長(zhǎng)的數(shù)據(jù)序列,這個(gè)問題會(huì)在下面介紹長(zhǎng)期短期記憶循環(huán)網(wǎng)絡(luò)時(shí),使用“存儲(chǔ)線”進(jìn)行解決。

        (3)長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)

        長(zhǎng)短期記憶網(wǎng)絡(luò)是一種特殊的神經(jīng)網(wǎng)絡(luò),具有記憶數(shù)據(jù)序列的功能。它可以通過一些伴隨著一條記憶線的門來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)早期趨勢(shì)的記憶。

        每個(gè)LSTM都是一套單元或系統(tǒng)模塊,并捕獲其中經(jīng)過的數(shù)據(jù)流。這些單元類似于一條輸送線,從一個(gè)模塊連接到另一個(gè)模塊,傳送過去的數(shù)據(jù)并收集當(dāng)前的數(shù)據(jù)。由于在每個(gè)單元中都使用的了一些門,所以可以對(duì)每個(gè)單元中的數(shù)據(jù)進(jìn)行處理、過濾或添加到下一個(gè)單元。因此,這些門基于sigmoid 函數(shù)的神經(jīng)網(wǎng)絡(luò)層,可以使得這些單元能夠選擇性地允許數(shù)據(jù)通過或處理數(shù)據(jù)。

        3 實(shí)驗(yàn)

        【數(shù)據(jù)來(lái)源】本文使用斯坦福大學(xué)提供的大規(guī)模電影評(píng)論數(shù)據(jù)集(Stanford's Large Movie Review Dataset,IMDb)[3],它包含了電影評(píng)論網(wǎng)站IMDB 中的50000 余條評(píng)論,其中每部電影下的評(píng)論不超過30 條,且標(biāo)記為“正面情感”和“負(fù)面情感”的評(píng)論數(shù)相等。因此,對(duì)評(píng)論進(jìn)行隨機(jī)情感分析,準(zhǔn)確率被為50%。該數(shù)據(jù)集排除了中性評(píng)價(jià),即其中的評(píng)論全部是情感高度兩極化的??偡譃?0 分,負(fù)面評(píng)價(jià)的分?jǐn)?shù)小于等于4 分,正面評(píng)價(jià)的分?jǐn)?shù)大于等于7 分。實(shí)驗(yàn)中,我們?nèi)∑渲幸话霝橛?xùn)練集,另一半為測(cè)試集。

        【構(gòu)建LSTM訓(xùn)練網(wǎng)絡(luò)】本文利用Keras 擴(kuò)展庫(kù)搭建LSTM結(jié)構(gòu)。Keras 是一個(gè)Python 深度學(xué)習(xí)框架,可以方便地定義和訓(xùn)練幾乎所有類型的深度學(xué)習(xí)模型,且具有用戶友好的API,可以快速開發(fā)深度學(xué)習(xí)模型的原型。Keras 的主要模型是Sequential(),用戶可以通過調(diào)用add()去便捷地堆疊自己需要的網(wǎng)絡(luò)層,進(jìn)而構(gòu)成一個(gè)整體的模型。

        具體的結(jié)構(gòu)如下:

        第一層:利用word2vec 技術(shù)將詞語(yǔ)映射成128 維向量,進(jìn)行特征提取。

        第二層:LSTM模塊。具體步驟為:首先,將提取的特征放入輸入單元,再將數(shù)據(jù)流從輸入單元送入隱藏單元,同時(shí)將另一條數(shù)據(jù)流從隱藏單元送到輸出單元。隱藏單元即神經(jīng)網(wǎng)絡(luò)的記憶單元。對(duì)一個(gè)隱藏單元,使用xt表示第t 步的輸入,則目前單元的激活值s=f(Uxt+Wst-1)。其中,f 表示激活函數(shù),本實(shí)驗(yàn)中使用ReLU。第t 步的輸出經(jīng)softmax 層計(jì)算得到。

        本文的模型訓(xùn)練過程以及預(yù)測(cè)過程可以概括為:

        (1)提取相關(guān)數(shù)據(jù)的特征向量,獲得訓(xùn)練數(shù)據(jù)。

        (2)將訓(xùn)練集中的數(shù)據(jù)分批次輸入到設(shè)定好的模型中,不斷更新網(wǎng)絡(luò)機(jī)構(gòu)中各個(gè)節(jié)點(diǎn)之間的連接權(quán)重,以最小化損失函數(shù)的值為目標(biāo)來(lái)盡可能降低真實(shí)值和擬合值之間的誤差,從而學(xué)習(xí)到輸入變量和輸出變量間的非線性特征。

        (3)保存訓(xùn)練好的模型參數(shù),將測(cè)試集中的數(shù)據(jù)輸入到完成訓(xùn)練的模型中,得出相應(yīng)的預(yù)測(cè)值,并于測(cè)試集中真實(shí)標(biāo)注的結(jié)果進(jìn)行比對(duì),得到準(zhǔn)確率。

        具體的參數(shù)如表1 所示:

        表1 LSTM 電影評(píng)論文本LSTM 情感分析模型的參數(shù)

        【實(shí)驗(yàn)結(jié)果】本文按照上一章所述流程搭建了評(píng)估電影評(píng)論文本數(shù)據(jù)的LSTM模型,共迭代600 次,實(shí)驗(yàn)結(jié)果如下表2 所示:

        表2 給出了本文實(shí)驗(yàn)結(jié)果,以及在特定迭代步驟下的LSTM 模型訓(xùn)練損失值、訓(xùn)練準(zhǔn)確率和測(cè)試準(zhǔn)確率,可以看出。LSTM模型在600 次迭代內(nèi)的最高準(zhǔn)確率為86.97%,且訓(xùn)練損失和訓(xùn)練準(zhǔn)確率始終保持在正常值,說明LSTM模型有效避免了過擬合和梯度消失的問題。

        表2

        4 結(jié)論

        本文首先介紹了文本分析研究的背景以及相關(guān)的研究,接著介紹了詞嵌入技術(shù)和LSTM的原理,接下來(lái)基于大規(guī)模電影評(píng)論文本進(jìn)行基于LSTM模型的情感分析實(shí)驗(yàn),從實(shí)證的角度體現(xiàn)了LSTM網(wǎng)絡(luò)在情感分析問題中的可行性和有效性,對(duì)未來(lái)深入文本分析研究和情感評(píng)估具有一定的指導(dǎo)意義。

        猜你喜歡
        記憶情感模型
        一半模型
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        記憶中的他們
        3D打印中的模型分割與打包
        兒時(shí)的記憶(四)
        国产一区二区三区亚洲| 久久国产精品不只是精品 | 欧美a级毛欧美1级a大片免费播放| 7878成人国产在线观看| 白白视频在线免费观看| 免费在线视频亚洲色图| 久久青青草原精品国产app| 久久精品亚洲乱码伦伦中文| 中文字幕一区韩国三级| 国产一区二区三区的区| 中文字幕人妻第一区| 人人妻人人澡人人爽精品欧美| 一区视频在线观看免费播放.| 国产91成人精品高潮综合久久| 国产福利视频在线观看| 亚洲精品免费专区| 少妇极品熟妇人妻高清| 在线视频中文字幕一区二区三区| 无码尹人久久相蕉无码| 国产免费资源| 日本一区二三区在线中文| 欧美v国产v亚洲v日韩九九| 亚洲18色成人网站www| 久久亚洲av成人无码软件| 成人国产一区二区三区av| 久久久久久亚洲av成人无码国产| 精品国产日产av在线| 亚洲gay片在线gv网站| 丰满人妻在公车被猛烈进入电影| 国产成社区在线视频观看| 亚洲视频一区二区蜜桃 | 国产专区一线二线三线码| 五月天激情小说| 国产美女高潮流白浆免费观看| 公厕偷拍一区二区三区四区五区| 国产麻豆成人精品av| 国产一区二区三区精品久久呦| 国产尤物自拍视频在线观看 | 美女裸体无遮挡免费视频的网站| av成人资源在线观看| 麻豆亚洲av熟女国产一区二|