亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的情感分析方法研究

        2020-12-21 03:52:03翟高粵
        科學(xué)與財富 2020年29期
        關(guān)鍵詞:深度學(xué)習(xí)

        摘 要:目前,深度學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)視覺處理領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)。由于它在圖像處理方面的廣泛普及和成功應(yīng)用,幾乎所有的其他領(lǐng)域的問題都在嘗試通過深度學(xué)習(xí)找到其解決方案,在自然語言處理中的文本分析和語言建模也不例外。在情感分析中,識別用戶在文本評論中隱藏的情感是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。在本文中, 使用深度學(xué)習(xí)模型進(jìn)行基于IMDB電影評論數(shù)據(jù)集的情感分析,將基于深度學(xué)習(xí)的情感分析方法與其他傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行比較,以評估模型的性能。實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在許多方面優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。

        關(guān)鍵詞:情感分析;深度學(xué)習(xí);自然語言處理;LSTM;詞嵌入

        中圖分類號:TP183? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A

        0 引言

        在解決機(jī)器學(xué)習(xí)問題上,深度學(xué)習(xí)已經(jīng)被證明是非常成功的[1]。雖然這些深度學(xué)習(xí)算法并不能直接用來進(jìn)行情感分析,但是深度學(xué)習(xí)在圖像處理、語音處理和其他認(rèn)知方面計(jì)算領(lǐng)域上的成功,促使人們正嘗試把深度學(xué)習(xí)算法應(yīng)用在語言處理, 情感分析和意見挖掘上,但語言問題是非常復(fù)雜的,首先需要解決語言規(guī)則和語言如何表示等相關(guān)的問題。隨著詞嵌入模型word2vec的出現(xiàn),深度學(xué)習(xí)已經(jīng)開始應(yīng)用到包括情感分析在內(nèi)的許多NLP任務(wù)中。

        在本文中,使用深度神經(jīng)網(wǎng)絡(luò)將用戶的電影評論數(shù)據(jù)集分為正類和負(fù)類。為了評估建立的深度學(xué)習(xí)模型的性能,將模型與傳統(tǒng)的樸素貝葉斯和邏輯回歸方法進(jìn)行比較,結(jié)果表明,用于情感分析的深度神經(jīng)網(wǎng)絡(luò)自然語言處理(NLP)模型不僅在準(zhǔn)確率方面優(yōu)于基礎(chǔ)模型,而且在捕獲隱藏情感方面優(yōu)于基于統(tǒng)計(jì)概率的機(jī)器學(xué)習(xí)算法。

        在本文中,使用遷移學(xué)習(xí)方法并通過LSTM網(wǎng)絡(luò)來進(jìn)行情感分析,通過預(yù)訓(xùn)練word2vec模型把整個文檔轉(zhuǎn)換成向量表示,在訓(xùn)練過程中調(diào)整了神經(jīng)網(wǎng)絡(luò)的各種參數(shù),通過權(quán)值初始化和優(yōu)化,以獲得在精度以及空間和時間復(fù)雜度方面的最佳性能。調(diào)優(yōu)參數(shù)后,對IMDB數(shù)據(jù)集進(jìn)行情感分析獲得的最佳性能為93.7%。

        1 情感分析的研究

        情感分析通常被認(rèn)為是一種分類任務(wù),根據(jù)作者在文本中所表達(dá)的情感或情緒,將一段文本劃分為若干類情感中的某一類。有許多機(jī)器學(xué)習(xí)算法可以應(yīng)用于文本數(shù)據(jù)的極性學(xué)習(xí),但它不能直接應(yīng)用到文本本身, 輸入的文本需要轉(zhuǎn)換成矩陣, 矩陣中的元素代表文本的重要特性,轉(zhuǎn)換成矩陣后,矩陣中的每一行對應(yīng)于文本的n維特征向量,通過機(jī)器學(xué)習(xí)算法可以學(xué)習(xí)到文本數(shù)據(jù)的極性。目前有一些流行的特征選擇算法,如Bag of Words 、Bag of n-grams或者TF-IDF等。這些方法只是簡單地考慮了單詞的統(tǒng)計(jì)量,而完全忽略了單詞的順序和上下文,而這些對單詞的意義起著至關(guān)重要的作用。另外,因?yàn)樵~典的尺寸都非常大,所以這些方法還會產(chǎn)生稀疏和高緯度的矩陣,導(dǎo)致計(jì)算精度下降。

        2 情感分析的深度神經(jīng)網(wǎng)絡(luò)

        深度神經(jīng)網(wǎng)絡(luò)是一種包含許多隱藏層的人工神經(jīng)網(wǎng)絡(luò)[2]。最初的NLP的深度學(xué)習(xí)之旅從一個簡單隱藏層的淺層神經(jīng)網(wǎng)絡(luò)開始。在理解文本中語言隱藏結(jié)構(gòu)及其語義和句法關(guān)系的復(fù)雜性的過程中,神經(jīng)網(wǎng)絡(luò)中隱藏層的大小隨著各種超參數(shù)不斷增長,并進(jìn)行微調(diào)以得到性能最佳的模型。神經(jīng)網(wǎng)絡(luò)中許多新的激活函數(shù)的成功應(yīng)用,也為神經(jīng)網(wǎng)絡(luò)在解決語言問題方面的普及做出了重要貢獻(xiàn)。特別是在自然語言處理中,深度學(xué)習(xí)在詞性標(biāo)注、機(jī)器翻譯、語音識別、意見挖掘、文檔摘要和問題回答等方面都非常成功。接下來本文介紹一下深度神經(jīng)網(wǎng)絡(luò)在自然語言處理中的關(guān)鍵技術(shù)。

        2.1 詞嵌入向量(Word-Embedding)

        向量空間模型在NLP歷史上已經(jīng)使用了很長時間,例如支持向量機(jī)(VSM),其中所有數(shù)據(jù)點(diǎn)都表示為VSM中的一個點(diǎn),分類器必須學(xué)習(xí)最好的超平面,該超平面應(yīng)該能夠?qū)?shù)據(jù)點(diǎn)分類到兩個單獨(dú)的類中。利用這一原則的方法可以主要分為兩類:基于計(jì)數(shù)的方法和預(yù)測方法。在基于神經(jīng)網(wǎng)絡(luò)的詞向量表示模型中,國外作者提出了兩種不同的模型,一種是CBOW模型,另一種是SKIP-GRAM模型。CBOW中目標(biāo)詞的訓(xùn)練是基于上下文進(jìn)行的,而在SKIP-GRAM模型中,對于每個詞,它的上下文的詞是基于窗口大小來預(yù)測的。本文采用word2vec模型對影評文檔進(jìn)行矢量表示。word2vec模型中主要的思想是,所有詞匯出現(xiàn)在類似的環(huán)境相似的語義含義,應(yīng)該放置在向量空間模型中比較近的位置。

        2.2 遞歸神經(jīng)網(wǎng)絡(luò)(RNN)

        RNN除了它是遞歸的本身就是一個簡單的神經(jīng)網(wǎng)絡(luò),它能夠通過學(xué)習(xí)過去的信息去預(yù)測未來。RNN適合時間序列方面的學(xué)習(xí),如詞性標(biāo)注或機(jī)器翻譯等。但不能識別句子中單詞之間的長期依賴關(guān)系,即當(dāng)遞歸過程中的序列變大時,會出現(xiàn)梯度消失問題,這時網(wǎng)絡(luò)停止進(jìn)一步學(xué)習(xí)。在情感分析任務(wù)中,自word2vec模型提出以來,RNN發(fā)現(xiàn)了它的重要性。但由于word2vec模型是以向量的形式表示單詞,而RNN期望輸入的數(shù)據(jù)是固定大小的序列向量,這就使得NLP有很多任務(wù)需要解決,并且需要進(jìn)行各種變化。它在語言方面獲得的最重要的特征是它的輸出依賴于當(dāng)前輸入的單詞,同時在隱藏層中學(xué)習(xí)到包含上下文信息的權(quán)值矩陣。

        2.3 長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)

        LSTM的提出是為了解決RNN中梯度消失的問題,由于梯度消失問題,RNN無法搜索到離當(dāng)前時刻很遠(yuǎn)的信息,這是因?yàn)闄?quán)值矩陣的值的更新變得非常小,從而導(dǎo)致學(xué)習(xí)到的新權(quán)值矩陣與舊權(quán)值矩陣幾乎保持不變,經(jīng)過一段時間后就不再進(jìn)行進(jìn)一步的學(xué)習(xí)。這被認(rèn)為是RNN學(xué)習(xí)長文本序列句子的一個主要缺點(diǎn)。通過利用LSTM中的內(nèi)存單元和門的概念,RNN的這個問題得到了解決,使其適合于在確定電影評論的極性或一般文本處理中捕獲到較長的上下文信息。簡單的LSTM架構(gòu)由記憶單元、輸入門、輸出門、遺忘門和傳統(tǒng)RNN中的隱藏狀態(tài)組成。LSTM模型需要確定它所學(xué)到的哪些信息與未來無關(guān),并且需要去除這些信息。通過這樣的處理機(jī)制,LSTM能夠保存較長的信息,從而緩解RNN中梯度消失的問題。

        2.4 激活函數(shù)(Activation Function)

        在神經(jīng)網(wǎng)絡(luò)中有許多激活函數(shù)用于處理非線性的問題并能實(shí)現(xiàn)最佳的分類。其中Sigmoid, tanh和SoftMax在LSTM中用于不同的目的。它的非線性特性使其成為分類任務(wù)的合適對象,其推導(dǎo)過程使其在損失函數(shù)優(yōu)化過程中易于實(shí)現(xiàn)。這些激活函數(shù)在模型中加入了非線性,有助于在訓(xùn)練過程中獲得最佳擬合曲線。對這些激活函數(shù)進(jìn)行了實(shí)驗(yàn),并在深度神經(jīng)網(wǎng)絡(luò)模型中評估了它們在情感分析任務(wù)中的有效性。

        3 實(shí)驗(yàn)部分介紹

        本文中的實(shí)驗(yàn)是在12 GB內(nèi)存的GTX 1080i GPU上進(jìn)行,模型開發(fā)使用python3,深度神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練和測試使用了基于tensorflow的keras庫。為了提高性能,在谷歌colab jupyter notebook執(zhí)行代碼,不斷在GPU和CPU之間切換,發(fā)現(xiàn)在數(shù)據(jù)量大、矢量矩陣乘法高維的情況下更適合GPU,運(yùn)行速度也相對較快。對于輸入原始數(shù)據(jù)的許多任務(wù),使用nltk和scikitlearn python庫,對于單詞向量表示,使用word2vec預(yù)訓(xùn)練模型。

        在實(shí)驗(yàn)數(shù)據(jù)方面,使用公開可用的大型影評數(shù)據(jù)集IMDB(v1.0)。這個數(shù)據(jù)集是專門為二分類而準(zhǔn)備的,數(shù)據(jù)集中有25000條電影評論用于訓(xùn)練,25000條用于測試。實(shí)驗(yàn)按照以下步驟進(jìn)行。

        步驟1? 預(yù)處理數(shù)據(jù),去除噪聲字符和停用詞。

        步驟2? 將數(shù)據(jù)按4:1的比例把數(shù)據(jù)集分割成訓(xùn)練集和測試集。

        步驟3? 使用哈希函數(shù)對文本數(shù)據(jù)進(jìn)行編碼,為每個單詞分配唯一的數(shù)字。

        步驟4? 填充或截斷文本序列使得它們具有相同的輸入長度。

        步驟5? 構(gòu)建詞嵌入層、LSTM層和全連接層。

        步驟6? 編譯深度神經(jīng)網(wǎng)絡(luò)模型

        步驟7? 擬合(訓(xùn)練)模型

        步驟8? 評估(測試)模型

        4 模型評估

        在實(shí)驗(yàn)中,本文調(diào)整了不同的參數(shù)以獲得最佳的LSTM神經(jīng)網(wǎng)絡(luò)性能。采用遷移學(xué)習(xí)的方法,通過預(yù)先訓(xùn)練好的嵌入模型、word2vec和doc2vec得到單詞和文檔的向量,并將其輸入到LSTM中,利用LSTM的嵌入層構(gòu)建單詞嵌入。

        本文還使用不同的激活函數(shù)和正則化參數(shù)來得到最佳的結(jié)果組合。代價函數(shù)在這種情況下,因?yàn)閷?shí)驗(yàn)的數(shù)據(jù)集有正極性或負(fù)極性,本文選擇二元交叉熵。為了最小化成本函數(shù),本文使用Adam optimizer來實(shí)現(xiàn)優(yōu)化。

        使用不同模型的實(shí)驗(yàn)結(jié)果如下所示,可以看出,使用深度神經(jīng)網(wǎng)絡(luò)的方法比傳統(tǒng)的貝葉斯、隨機(jī)森林和SVM分類方法[3]在準(zhǔn)確率方面大幅提升。

        5 結(jié)論

        在本文中,通過電影評論數(shù)據(jù)集,利用深度神經(jīng)網(wǎng)絡(luò)算法對用戶評論中隱藏的情感進(jìn)行分析。使用預(yù)先訓(xùn)練好的單詞嵌入模型生成詞的低維向量表示,并使用基于LSTM的序列模型進(jìn)行情感分析。文中還試驗(yàn)了各種超參數(shù),學(xué)習(xí)這些參數(shù)的最佳可能值,使訓(xùn)練模型產(chǎn)生更高的精度,并使用GPU幫助實(shí)現(xiàn)更快的計(jì)算響應(yīng)。總體而言,在自然語言處理方面,深度學(xué)習(xí)方法不僅在準(zhǔn)確性方面優(yōu)于傳統(tǒng)方法,而且在從語言角度捕捉評論中的真實(shí)用戶情感方面也優(yōu)于傳統(tǒng)方法。

        參考文獻(xiàn):

        [1] 閆濤. 深度學(xué)習(xí)算法實(shí)踐 [M]. 電子工業(yè)出版社出版社,2020

        [2] 王曉華. TensorFlow 2.0卷積神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn) [M]. 清華大學(xué)出版社出版社,2020

        [3] 趙衛(wèi)東,董亮. 機(jī)器學(xué)習(xí)[M].人民郵電出版社,2018

        作者簡介:

        翟高粵(1975—),男,廣西欽州,副教授,碩士研究生,研究方向?yàn)檐浖こ?,人工智能?/p>

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學(xué)習(xí)的三級階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        97中文字幕一区二区| 欧美亚洲另类国产18p| 国产麻豆精品一区二区三区v视界| 在线观看一区二区三区视频 | 老鸭窝视频在线观看| 中文字幕丰满人妻被公强| 亚洲另类欧美综合久久图片区| 成人a级视频在线观看| 人妻精品在线手机观看| 漂亮人妻被强中文字幕乱码| 性一交一乱一伦一视频一二三区| 亚洲国产成人久久综合电影| 在线视频夫妻内射| 久久久熟女一区二区三区| 日本一区二区视频免费观看| 亚洲一区二区综合色精品| 欧美猛男军警gay自慰| 少妇被又大又粗又爽毛片| 免费播放成人大片视频| 精品视频一区二区杨幂| 亚洲欧美日韩高清中文在线| 国产精品成人一区二区三区| 无码视频在线观看| 国内精品免费一区二区三区| 狠狠综合久久av一区二区三区| 国产福利小视频91| 国产免费一级高清淫日本片 | 亚洲女同人妻在线播放| 国产精彩刺激对白视频| 99热这里只有精品国产99热门精品| 久久精品国产亚洲av四虎| 久久久久人妻精品一区三寸| 最新国产不卡在线视频| 亚洲一区中文字幕一区| 国产精品毛片大尺度激情| 国产精品久久久久亚洲| 91呻吟丰满娇喘国产区| 久久精品99久久香蕉国产色戒| 四川丰满妇女毛片四川话| 内射白浆一区二区在线观看| 国产极品大奶在线视频|