亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN-LSTM深度學習技術(shù)的知乎文本情感分析

        2024-01-26 20:52:01劉飛生魏超
        電腦知識與技術(shù) 2023年35期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡

        劉飛生 魏超

        摘要:知乎平臺作為中國主要的知識共享社區(qū),承載著海量信息,因此對其進行情感分析具有重要的現(xiàn)實意義。本研究旨在結(jié)合卷積神經(jīng)網(wǎng)絡(CNN) 與長短時記憶網(wǎng)絡(LSTM) 技術(shù),實現(xiàn)對知乎平臺上大量文本數(shù)據(jù)的情感分析。本文研究并驗證了CNN和LSTM技術(shù)在文本情感分析中的性能,通過融合兩種技術(shù)有效地提升了情感分類的精度。實驗結(jié)果表明,融合了CNN與LSTM的模型在在多個領(lǐng)域中情感分類方面呈現(xiàn)出更優(yōu)異的表現(xiàn),從而驗證了其顯著的有效性和潛力。

        關(guān)鍵詞:文本情感分析;知乎;卷積神經(jīng)網(wǎng)絡;長短時記憶;循環(huán)神經(jīng)網(wǎng)絡

        中圖分類號:TP18? ? ? ? 文獻標識碼:A

        文章編號:1009-3044(2023)35-0020-03

        開放科學(資源服務)標識碼(OSID)

        0 引言

        在信息時代的浪潮下,社交媒體和網(wǎng)絡平臺扮演著不可或缺的角色,為人們提供了一個廣泛的信息交流和表達平臺。知乎作為中國領(lǐng)先的知識分享社區(qū),吸引了4億多的注冊用戶,涵蓋了廣泛的話題、問題和觀點。隨著用戶規(guī)模的不斷擴大,知乎平臺所積累的海量文本信息數(shù)據(jù)變得豐富和多樣。這些文本數(shù)據(jù)承載著用戶對于各類話題的觀點、情感以及態(tài)度,其深層次的情感信息對于理解用戶需求、產(chǎn)品改進以及輿情分析具有重要意義。

        隨著社交媒體信息的爆炸性增長,對于海量文本數(shù)據(jù)的高效處理和情感分類需求變得更加迫切[1]。傳統(tǒng)的文本分析方法往往受限于特征工程的復雜性和規(guī)模效應,難以滿足大規(guī)模數(shù)據(jù)的處理要求。近年來,深度學習技術(shù)的興起為文本情感分析帶來了嶄新的可能性。通過構(gòu)建復雜的神經(jīng)網(wǎng)絡結(jié)構(gòu),深度學習能夠自動地從原始文本數(shù)據(jù)中提取高層次的語義特征,從而實現(xiàn)高效準確的情感分類[2]。

        深度學習在文本情感分析領(lǐng)域的應用已經(jīng)取得了顯著的成果,其中卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN) 和長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM) 等技術(shù)在文本分類任務中表現(xiàn)出色。CNN在圖像處理中的成功應用啟發(fā)了研究人員將其擴展到文本領(lǐng)域,其卓越的特征提取能力對于捕捉文本的局部特征非常有效[3];LSTM作為一種適用于序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡,能夠捕捉文本的時序信息,對于情感分析尤為重要[4]。

        本文旨在借助深度學習技術(shù),通過CNN和LSTM技術(shù)進行融合來探索并解決知乎平臺上海量文本數(shù)據(jù)的情感分類問題。本文將深入研究并驗證CNN和LSTM技術(shù)在文本情感分析中的表現(xiàn),進一步探討它們?nèi)诤系膬?yōu)勢和潛力,以期為社交媒體情感分析領(lǐng)域的研究和應用提供有力的支持。

        1 實驗環(huán)境及數(shù)據(jù)處理

        1.1 實驗環(huán)境

        本文的實驗環(huán)境如下所示:

        l 操作系統(tǒng):CentOS Linux 7.0;

        l 開發(fā)環(huán)境:TensorFlow;

        l 通用庫:numpy、scikit-learn、scipy、nltk。

        TensorFlow作為深度學習框架,為本文的實驗提供了穩(wěn)健的基礎。通過numpy、scikit-learn、scipy和nltk等通用庫的支持,我們能夠方便地進行數(shù)據(jù)處理、特征提取和模型評估。

        1.2 實驗數(shù)據(jù)集

        本文實驗數(shù)據(jù)集分為2個主要部分:

        1) 知乎網(wǎng)站數(shù)據(jù)集

        通過Python爬蟲技術(shù),筆者采集了豐富的知乎用戶評論和帖子數(shù)據(jù),作為情感分析的基礎數(shù)據(jù)集。這些數(shù)據(jù)涵蓋了多個領(lǐng)域和話題,涉及科技、文化、娛樂等多個領(lǐng)域,為我們的研究提供了豐富多樣的文本素材。

        2) 新華社新聞數(shù)據(jù)集

        引用中文新聞數(shù)據(jù)集,通常被稱為“新華社”數(shù)據(jù)集,作為補充實驗數(shù)據(jù)。這個數(shù)據(jù)集包含了大量的中文新聞文本,覆蓋了不同的新聞領(lǐng)域和主題。這樣的數(shù)據(jù)集在情感分析任務中能夠提供更多的文本樣本,豐富了研究數(shù)據(jù)。

        1.3 數(shù)據(jù)預處理

        為了準備數(shù)據(jù),采取以下步驟進行數(shù)據(jù)預處理:

        1) 中文分詞

        使用中國科學院計算所開發(fā)的中文分詞軟件包NLPIR進行中文分詞。NLPIR不僅提供了高效準確的中文分詞功能,還能進行詞性標注、命名實體識別以及用戶詞典的支持。這有助于將文本數(shù)據(jù)轉(zhuǎn)化為更加適合模型處理的詞匯序列。

        2) 文本清洗與停用詞去除

        在分詞完成后,筆者進行了文本清洗,包括去除特殊字符、標點符號和無意義的空白符。此外,還剔除了停用詞,這些停用詞通常不攜帶太多情感信息,但會占據(jù)文本中的空間。

        經(jīng)過以上數(shù)據(jù)預處理步驟,得到了分詞、清洗且剔除了停用詞之后的文本數(shù)據(jù),為接下來的特征提取和模型訓練做好了準備。

        2 融合模型設置

        為了充分發(fā)揮CNN和LSTM的優(yōu)勢,在參考Ombabi[5]的研究成果基礎上,本文針對中文語境提出了一種融合方法,將它們結(jié)合起來進行知乎平臺文本情感分析。以下是該融合方法的詳細步驟:

        2.1 文本表示

        首先,利用預訓練的詞向量模型(如Word2Vec或GloVe) 將原始文本轉(zhuǎn)換為詞向量表示。這些詞向量能夠有效地捕捉詞匯之間的語義關(guān)系,為后續(xù)的模型提供有意義的輸入。

        2.2 卷積操作

        將詞向量表示輸入一層卷積神經(jīng)網(wǎng)絡中,該網(wǎng)絡由多個卷積核和池化操作構(gòu)成。卷積核在捕捉不同大小的局部特征方面表現(xiàn)出色,而池化操作則有助于減少數(shù)據(jù)的維度,同時提取關(guān)鍵特征。

        2.3 LSTM建模

        卷積層的輸出被饋送至一個雙向LSTM層。雙向LSTM能夠同時捕捉文本的前向和后向信息,從而更好地理解文本的上下文語境。LSTM層的輸出被連接在一起,并通過全連接層進行情感分類。

        2.4 融合模型的訓練優(yōu)化

        在模型訓練過程中,使用以下實驗參數(shù)設置來優(yōu)化融合模型:

        l 優(yōu)化算法:選用常用的Adam優(yōu)化算法,以最小化交叉熵損失函數(shù)。

        l 學習率:初試學習率設定為一個較小的值0.001,通過實驗驗證找到合適的學習率調(diào)度策略,如學習率衰減。

        l 批大?。号幚泶笮δP陀柧毸俣群头€(wěn)定性具有影響,進行批大小的調(diào)整和實驗。

        l Dropout:在全連接層和LSTM層中引入Dropout層,以減少過擬合風險。

        l Epochs:設置合適的訓練迭代次數(shù),避免過擬合或欠擬合情況的出現(xiàn)。

        2.5 實驗參數(shù)設置

        為了驗證模型性能,筆者設計了一系列實驗,包括單獨使用CNN、單獨使用LSTM以及融合CNN與LSTM模型的情況,最終參數(shù)如表1所示。

        通過對不同模型的參數(shù)設置進行調(diào)整,旨在獲得最佳性能,以便在知乎平臺文本情感分析任務中取得更準確的結(jié)果。

        3 模型訓練及評估

        3.1 對比實驗

        在基于單獨使用CNN、LSTM以及融合CNN與LSTM三種方法的基礎上,筆者選擇了知乎平臺上不同領(lǐng)域內(nèi)容,包括“美食”“臺風”和“科技”,進行了模型訓練及評估,其中涉及80%的訓練數(shù)據(jù)和20%的測試數(shù)據(jù)。

        3.2 實驗評估指標

        在評估性能時使用標準評估指標進行驗證,使用accuracy準確度、precision精密度(又稱精度)、sensitivity靈敏度(又稱召回率)、specificity特異性、F-Score 綜合評估指標這5個參數(shù)進行性能評估,其值可以使用混淆矩陣及對應公式來確定。

        [準確度Accuracy=TP+TNTP+TN+FP+FN]? ?(1)

        [精度Precision=TPTP+FP] (2)

        [召回率Sensitity=TPTP+FN] (3)

        [特異性Specificity=TNTN+FP] (4)

        [F1=P*RP+R] (5)

        3.3 實驗結(jié)果與分析

        作者對知乎數(shù)據(jù)集和新華社數(shù)據(jù)集上進行了一系列的實驗,針對“美食”“臺風”“科技”三個特定領(lǐng)域進行了情感分類性能評估。實驗結(jié)果如表3所示。

        通過對表3中的美食研究領(lǐng)域進行數(shù)據(jù)分析,評估性能如圖1所示。經(jīng)過對比結(jié)果可知,本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.90、? 0.91、0.89、0.92、0.90,要比單獨的CNN模型和單獨的LSTM模型取得的評估性能更好。說明CNN與LSTM融合模型在知乎平臺的“美食”領(lǐng)域上的評估預測率更好。

        通過對表3中的臺風研究領(lǐng)域進行數(shù)據(jù)分析,評估性能如圖2所示。經(jīng)過對比結(jié)果可知,本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.82、0.85、0.8、0.87、0.82,要比單獨的CNN模型和單獨的LSTM模型取得的評估性能要好。說明CNN與LSTM融合模型在知乎平臺的“臺風”領(lǐng)域上的評估預測率更好。

        通過對表3中的科技研究領(lǐng)域進行數(shù)據(jù)分析,評估性能如圖3所示。經(jīng)過對比結(jié)果可知,本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.93、0.92、0.94、0.95、0.93,要比單獨的CNN模型和單獨的LSTM模型取得的評估性能更好。說明CNN與LSTM融合模型在知乎平臺的“科技”領(lǐng)域上的評估預測率更好。

        綜合以上可知,在3個不同領(lǐng)域中,融合了CNN與LSTM的模型在情感分類上表現(xiàn)出了更高的準確率。這表明通過將卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡相融合,能夠更好地捕捉文本中的特征和上下文信息,從而提高情感分類的準確性。

        4 結(jié)束語

        本文以知乎這個信息豐富的社交平臺為對象,探索了一種有效的文本情感分析方法。通過結(jié)合卷積神經(jīng)網(wǎng)絡(CNN) 和長短時記憶網(wǎng)絡(LSTM) 的融合模型,在不同領(lǐng)域的情感分類任務中取得了令人滿意的成果,證實了融合模型在情感分析任務中的潛力。然而,鑒于實驗設備條件的限制,本文未能在深層次上探索CNN與LSTM的融合,未來的研究可以考慮利用更強大的計算資源,進一步挖掘模型的潛力。

        參考文獻:

        [1] 杜昌順.面向細分領(lǐng)域的輿情情感分析關(guān)鍵技術(shù)研究[D].北京:北京交通大學,2019.

        [2] 鄧鈺.面向短文本的情感分析關(guān)鍵技術(shù)研究[D].成都:電子科技大學,2021.

        [3] KIM Y.Convolutional neural networks for sentence classification[EB/OL].2014:arXiv:1408.5882.https://arxiv.org/abs/1408.5882.pdf

        [4] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

        [5] OMBABI A H,OUARDA W,ALIMI A M.Deep learning CNN–LSTM framework for Arabic sentiment analysis using textual information shared in social networks[J].Social Network Analysis and Mining,2020,10(1):1-13.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡
        基于深度神經(jīng)網(wǎng)絡的微表情識別
        卷積神經(jīng)網(wǎng)絡中減少訓練樣本時間方法研究
        卷積神經(jīng)網(wǎng)絡語言模型研究
        基于卷積神經(jīng)網(wǎng)絡的車輛檢索方法研究
        基于卷積神經(jīng)網(wǎng)絡溫室智能大棚監(jiān)控系統(tǒng)的研究
        基于深度卷積神經(jīng)網(wǎng)絡的物體識別算法
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        深度學習技術(shù)下的中文微博情感的分析與研究
        軟件(2016年5期)2016-08-30 06:27:49
        基于卷積神經(jīng)網(wǎng)絡的樹葉識別的算法的研究
        精品理论一区二区三区| 大陆老熟女自拍自偷露脸| 一本久久综合亚洲鲁鲁五月天| 艳妇臀荡乳欲伦69调教视频| 欧美性受xxxx狂喷水| 精品高潮呻吟99av无码视频| 天天摸天天做天天爽天天舒服| 极品视频一区二区三区在线观看| 国产一区二区免费在线视频| 日本亚洲国产精品久久| 午夜性无码专区| 少妇内射高潮福利炮| 韩国日本亚洲精品视频| 久亚洲一线产区二线产区三线麻豆| 日本黄色3级一区二区| 日日麻批免费40分钟无码| 久久天天躁狠狠躁夜夜avapp| 四虎影视在线观看2413| 美腿丝袜一区二区三区| 久久人妻一区二区三区免费| 国产亚洲成av人片在线观看| 亚洲最大av资源站无码av网址 | 人妻少妇-嫩草影院| 白丝兔女郎m开腿sm调教室| 99久久久无码国产精品试看| 精品伊人久久香线蕉| 亚洲高清国产拍精品熟女| 亚洲女同免费在线观看| 男女做爰高清免费视频网站| 国产做无码视频在线观看浪潮| 国产视频最新| 九九久久精品一区二区三区av| 亚洲精品无码专区在线在线播放| 中文字幕人妻偷伦在线视频| 亚洲精品aⅴ无码精品丝袜足| 亚洲一本二区偷拍精品| 在线观看亚洲第一黄片| 国产精品人妻一区二区三区四| 怡春院欧美一区二区三区免费| 91在线视频视频在线| 蜜桃网站免费在线观看视频|