亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語言文本情感分析

        2023-05-30 06:27:37朱珍元張林靜
        電腦知識與技術(shù) 2023年1期
        關(guān)鍵詞:自然語言處理情感分析深度學(xué)習(xí)

        朱珍元 張林靜

        摘要:該文簡要介紹了自然語言處理領(lǐng)域中的文本情感分析,通過不同情感分析方法的對比,總結(jié)出目前文本情感分析的最佳策略是基于深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型,最后總結(jié)出自然語言情感分析領(lǐng)域的發(fā)展趨勢和有待深入研究的難點(diǎn)。

        關(guān)鍵詞:自然語言處理;情感分析;深度學(xué)習(xí);語言模型

        中圖分類號:TP183? ? ? ? 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2023)01-0038-03

        1 前言

        自然語言處理(NLP) 是人工智能領(lǐng)域非常重要的一個(gè)分支,而文本情感分析(Sentiment Analysis) 已經(jīng)逐漸成為NLP的重要內(nèi)容。自然語言處理的任務(wù)主要是研究人與計(jì)算機(jī)的交互問題,計(jì)算機(jī)既能夠理解人類的自然語言文本的意義(一般稱為自然語言理解),又能以自然語言文本的形式來表達(dá)給定的意圖、思想等(一般稱為自然語言生成)。基于算法,通過軟件,實(shí)現(xiàn)機(jī)器的自動(dòng)化處理,為人類提供有價(jià)值的結(jié)論。

        NLP的主要子問題有文本挖掘、語音識別和生成、信息過濾、信息檢索、問答系統(tǒng)、機(jī)器翻譯等。其中文本情感分析屬于文本數(shù)據(jù)挖掘。文本情感分析是帶有情感色彩的主觀性文本數(shù)據(jù)挖掘,目的是獲取用戶情感信息[1]。近年來,隨著深度學(xué)習(xí)理論的不斷發(fā)展和完善,基于深度學(xué)習(xí)的模型逐漸成為自然語言處理技術(shù)的主流研究方法[2]。

        2 文本情感分析簡介

        文本情感分析的快速發(fā)展得益于論壇、微博、微信等社交媒體的快速發(fā)展,主要對用戶的評論數(shù)據(jù)進(jìn)行文本挖掘以確定用戶對于某些特定主題的態(tài)度是積極的還是消極的。其主要內(nèi)容包括主客觀分類、情感分類、情感極性判斷等,在信息檢索、社交網(wǎng)絡(luò)、推薦系統(tǒng)、輿情監(jiān)控、虛假信息檢測等領(lǐng)域有著廣泛的應(yīng)用。如文本情感分類能夠在一定程度上解決網(wǎng)絡(luò)評論信息雜亂的現(xiàn)象,能夠幫助用戶快速找到所需要的信息;電商網(wǎng)站根據(jù)評論數(shù)據(jù)挖掘用戶的情感傾向,從而調(diào)整營銷決策;在輿情監(jiān)控方面,政府根據(jù)民眾的留言信息挖掘其對某件事情的情感傾向,對一些負(fù)面情緒及時(shí)引導(dǎo)和干涉,避免突發(fā)事件發(fā)生。

        情感分析的核心問題是情感分類,一般有二分類、三分類和多元分類,可以根據(jù)實(shí)際需要?jiǎng)澐智楦蟹N類和設(shè)置情感詞。除了情感分類還包括情感檢索和情感抽取等子問題,可以對一篇文章、一個(gè)句子、一個(gè)短語或者一個(gè)詞進(jìn)行情感分析。文本情感分析的基本流程一般包括原始文本的獲取、文本預(yù)處理、構(gòu)建語料庫和情感詞典、構(gòu)建情感分析模型、對模型進(jìn)行訓(xùn)練、使用模型對文本進(jìn)行情感分析、對分析結(jié)果進(jìn)行評價(jià)完成模型測試、必要時(shí)還需要?jiǎng)討B(tài)調(diào)整模型的參數(shù)以便訓(xùn)練出最佳學(xué)習(xí)模型。

        3 基于情感詞典的情感分析法

        首先對文檔進(jìn)行分詞,去除停用詞及與情感無關(guān)的詞;其次對分詞結(jié)果進(jìn)行分類,找出不同類型的詞(情感詞、程度副詞、否定詞),借助情感詞典賦予相應(yīng)的權(quán)重;然后根據(jù)權(quán)重匯總每一組情感詞的得分,從而計(jì)算出整篇文檔的情感得分;最后根據(jù)閾值將情感歸于正向、負(fù)向或者中性[3]。其代碼實(shí)現(xiàn)主要過程如圖1所示。

        首先對輸入的文檔采用jieba庫進(jìn)行分詞,然后基于Boson情感詞典,對三條文本實(shí)例評論計(jì)算情感得分,結(jié)果如圖2所示。

        第2條評論得分最高,情感最為積極;第3條得分最低,情感最為消極。基于情感詞典的情感分析是最為簡單的方法,但對情感詞典的依賴較大,詞典的完善程度對分析結(jié)果的準(zhǔn)確性有很大影響。在今天這樣的信息時(shí)代,每天都會(huì)產(chǎn)生新詞淘汰舊詞,每天去更新辭典不現(xiàn)實(shí)。而且該方法沒有考慮詞語之間的語義關(guān)系以及同樣的詞語在不同的語境有不同的含義,不能做到動(dòng)態(tài)調(diào)整詞語的情感值,導(dǎo)致分析結(jié)果準(zhǔn)確率下降。因此,有更多的研究者開始著手基于機(jī)器學(xué)習(xí)的情感分析研究。

        4 基于機(jī)器學(xué)習(xí)的情感分析法

        首先構(gòu)造一個(gè)模型,輸入大量帶有標(biāo)簽或者沒有標(biāo)簽的語料信息,使用機(jī)器學(xué)習(xí)的算法對模型進(jìn)行訓(xùn)練。情感分析中常用的機(jī)器學(xué)習(xí)算法有K-近鄰(KNN) 、樸素貝葉斯(NB) 和支持向量機(jī)(SVM) 。

        如基于機(jī)器學(xué)習(xí)中樸素貝葉斯分類算法的情感分析流程為:

        1) 對事先準(zhǔn)備好的語料進(jìn)行分詞。

        2) 人工加上積極或者消極的標(biāo)簽作為特征。

        3) 將帶有標(biāo)簽的語料數(shù)據(jù)劃分為訓(xùn)練集和測試集。

        4) 構(gòu)建樸素貝葉斯分類器也就是模型,并使用訓(xùn)練集進(jìn)行訓(xùn)練,使用測試集測試并得出準(zhǔn)確率。其主要代碼為:

        5) 輸入數(shù)據(jù)對模型進(jìn)行驗(yàn)證,輸出文本的情感分類和概率值。

        使用機(jī)器學(xué)習(xí)的方法對文本進(jìn)行情感分類比起構(gòu)建情感詞典有一定的進(jìn)步,分類效果較好。但對語料庫的依賴較大,對語料庫以外的領(lǐng)域文本進(jìn)行分類可能會(huì)發(fā)生錯(cuò)判;另外還需要人工對語料庫進(jìn)行特征標(biāo)記,人為主觀因素可能會(huì)影響最后的結(jié)果。其次,機(jī)器學(xué)習(xí)需要依賴大量的數(shù)據(jù),如果模型的效率不高,難以適應(yīng)如今的互聯(lián)網(wǎng)信息量指數(shù)式增長的時(shí)代,這類方法也不能充分利用上下文文本的語境信息,對最終情感分析結(jié)果的準(zhǔn)確性會(huì)造成影響[1]。因此,為了解決這些問題,研究者開始著手基于深度學(xué)習(xí)的情感分析研究。

        5 基于深度學(xué)習(xí)的情感分析方法

        深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,是一門用于學(xué)習(xí)和利用“深度”人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù),主要算法模型包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN) 、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN) 和遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Networks,RNN) [4]。深度學(xué)習(xí)的快速發(fā)展得益于當(dāng)今的信息爆炸,互聯(lián)網(wǎng)每天指數(shù)級的數(shù)據(jù)增長能夠?yàn)榫W(wǎng)絡(luò)模型提供大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)。深度學(xué)習(xí)的核心思想就是通過數(shù)據(jù)驅(qū)動(dòng)的方式,采用一系列的非線性變換,能夠從原始數(shù)據(jù)中進(jìn)行特征提取。隨著深度學(xué)習(xí)的興起,許多國內(nèi)外的學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用于自然語言生成和自然語言理解方面的研究,并取得了一些突破性的成果。以深度學(xué)習(xí)為基礎(chǔ)構(gòu)建情感詞典,或者借用已有的通用情感詞典,自動(dòng)標(biāo)引訓(xùn)練語料,可以解決訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器中的訓(xùn)練語料不足的問題。

        基于深度學(xué)習(xí)的情感分析流程一般都是先進(jìn)行數(shù)據(jù)預(yù)處理,再構(gòu)建神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,然后對模型進(jìn)行訓(xùn)練和測試。

        如使用sklearn庫的情感分析流程為:

        1) 讀取帶有標(biāo)簽的語料。

        2) 樣本數(shù)據(jù)向量化處理。

        3) 構(gòu)建網(wǎng)絡(luò)模型,設(shè)置模型參數(shù)、輸入輸出的維度、輸入詞序列長度,類別數(shù)以及隱藏層的層數(shù)和隱藏層的神經(jīng)元個(gè)數(shù)。

        4) 對模型進(jìn)行訓(xùn)練。

        5) 對訓(xùn)練好的模型進(jìn)行測試。

        6) 對模型進(jìn)行評價(jià)。

        其評價(jià)代碼為:

        實(shí)驗(yàn)結(jié)果表明,通過sklearn庫的情感分析模型的效果較好,但是仍然依賴特定的語料庫,而且后續(xù)動(dòng)態(tài)調(diào)整模型的參數(shù)對數(shù)據(jù)運(yùn)算的效率有影響。

        當(dāng)下比較火熱的是基于預(yù)訓(xùn)練模型的自然語言處理模型。所謂預(yù)訓(xùn)練模型指的是通過大量語料的輸入和大量的算力提前給出的一個(gè)參數(shù)不隨機(jī)的機(jī)器學(xué)習(xí)模型,通過在預(yù)訓(xùn)練模型中使用你所希望處理任務(wù)的目標(biāo)語料對模型進(jìn)行微調(diào),就可以在多下游任務(wù)上取得非常良好的效果[5]。預(yù)訓(xùn)練模型有很多,而當(dāng)下影響力最大的預(yù)訓(xùn)練語言模型是Transformer 的雙向深度語言模型—BERT[6]。BERT能夠有效地提取文本信息并應(yīng)用于多種NLP任務(wù),BERT模型有多個(gè)規(guī)模,其中的BERT_Base參數(shù)規(guī)模較小大概為110M。使用PyTorch包,基于具有12層Transformer的中文BERT_Base預(yù)訓(xùn)練模型完成文本情感分析[5],實(shí)驗(yàn)結(jié)果表明,基礎(chǔ)的bert_base_uncased模型可以在BERT上達(dá)到約0.9的分類成功率,超越了一眾傳統(tǒng)的語言模型。

        基于預(yù)訓(xùn)練語言模型的文本情感分析一般先采用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)合凍結(jié)和微調(diào)的技術(shù)構(gòu)建訓(xùn)練好的模型,然后根據(jù)分析任務(wù)直接使用預(yù)訓(xùn)練模型,必要時(shí)進(jìn)行微調(diào),能夠在很大程度上提高文本情感分析的效率。對預(yù)訓(xùn)練模型加微調(diào)模式使得模型的應(yīng)用更為靈活,能夠在很多任務(wù)上起到良好效果,有非常高的應(yīng)用價(jià)值。預(yù)訓(xùn)練語言模型已成為NLP中的重要里程碑。

        6 結(jié)論與展望

        本文對自然語言的情感分析方法做了簡單介紹和對比?;谇楦性~典的方法易于理解,但對特定情感詞典的依賴性較大。機(jī)器學(xué)習(xí)的方法不依賴于人工搭建的情感詞典,但是依賴于人工序列標(biāo)注,也不能理解上下文的關(guān)系,影響準(zhǔn)確性。深度學(xué)習(xí)能夠充分利用上下文的信息,使用多層神經(jīng)網(wǎng)絡(luò)能夠有效提取數(shù)據(jù)特征,學(xué)習(xí)性能更好。通過使用深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型節(jié)省了開發(fā)時(shí)間,降低了使用難度,是目前最為實(shí)用的方法。

        盡管深度學(xué)習(xí)在NLP各個(gè)子任務(wù)中取得了巨大成功,但若大規(guī)模投入使用,仍然有許多難點(diǎn)需要克服。如何縮小深度神經(jīng)網(wǎng)絡(luò)模型的大小且保持模型性能不變是未來的一個(gè)研究方向。隨著各種新興媒體的出現(xiàn),有了大量的數(shù)據(jù)可以支持深度學(xué)習(xí)使用,如何在不同的語境中準(zhǔn)確判斷文本的情感對于分析和決策有至關(guān)重要的作用。目前還沒有較好的技術(shù)處理自然語言中的反語;大部分情感分類仍然使用的是二分類:積極或者消極,對于多分類的情感分析還沒有好的效果。怎樣在預(yù)訓(xùn)練模型中加入情感的成分信息,從而引導(dǎo)模型學(xué)習(xí)更多的情感組合,實(shí)現(xiàn)更為準(zhǔn)確和高效的文本情感分析也是未來有待深入研究的難點(diǎn)。

        參考文獻(xiàn):

        [1] 王穎潔,朱久祺,汪祖民,等.自然語言處理在文本情感分析領(lǐng)域應(yīng)用綜述[J].計(jì)算機(jī)應(yīng)用,2022,42(4):1011-1020.

        [2] 金國哲.基于深度神經(jīng)網(wǎng)絡(luò)的朝鮮語文本表示及情感分析研究[D].長春:吉林大學(xué),2021.

        [3] 肖剛,張良均.Python中文自然語言處理基礎(chǔ)與實(shí)戰(zhàn)[M].北京:人民郵電出版社,2021.

        [4] Xie Y.Deep learning for natural language processing[J].Handbook of Statistics,2018,38:317-328.

        [5] 呂云翔,劉卓然. Python深度學(xué)習(xí)實(shí)戰(zhàn)——基于PyTorch[M].北京:人民郵電出版社,2021.

        [6] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]. NA ACL-HIT 2019:Annual Conference of the North American Chapter of the Association for Computational Linguistics,2019:4171-4186.

        【通聯(lián)編輯:代影】

        猜你喜歡
        自然語言處理情感分析深度學(xué)習(xí)
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動(dòng)態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        文本觀點(diǎn)挖掘和情感分析的研究
        国产福利永久在线视频无毒不卡| 亚洲啊啊啊一区二区三区| 秋霞国产av一区二区三区| 青青草视频视频在线观看| 蜜桃传媒一区二区亚洲av婷婷| 中文无码成人免费视频在线观看| 人妻经典中文字幕av| 国产成人久久精品一区二区三区| 人妻丰满熟妇无码区免费| 国产在线精品一区二区| 人妻被猛烈进入中文字幕| 久久无人码人妻一区二区三区 | 亚洲av调教捆绑一区二区三区| 国产一区二区三区在线观看完整版| 青青草国产精品一区二区| 99蜜桃在线观看免费视频网站| 国产精品黑色丝袜在线播放| 日本一区二区日韩在线| 九九久久精品国产免费av| 超碰97人人射妻| 久久人人玩人妻潮喷内射人人| 蜜桃一区二区三区在线看| 国产一区二区三区特区| 亚洲最大中文字幕熟女| 亚洲国产天堂久久综合| 日本夜爽爽一区二区三区| 国产喷白浆精品一区二区| 亚洲三级香港三级久久| 久久黄色视频| 999久久久国产精品| 国产精品久久中文字幕第一页| 国产精品区二区东京在线| 国产一区二区三区在线观看完整版| 国产一区二区三区四区五区加勒比| 亚洲影院天堂中文av色| 亚洲国产一区二区三区视频在线| av网站免费在线浏览| 扒开腿狂躁女人爽出白浆| 香蕉久久人人97超碰caoproen| 亚洲人成在线播放a偷伦| 中文字幕亚洲一二三区|