亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CNN-LSTM深度學習技術(shù)的知乎文本情感分析

2024-01-26 20:52:01劉飛生魏超

電腦知識與技術(shù) 2023年35期

劉飛生魏超

摘要：知乎平臺作為中國主要的知識共享社區(qū)，承載著海量信息，因此對其進行情感分析具有重要的現(xiàn)實意義。本研究旨在結(jié)合卷積神經(jīng)網(wǎng)絡（CNN）與長短時記憶網(wǎng)絡（LSTM）技術(shù)，實現(xiàn)對知乎平臺上大量文本數(shù)據(jù)的情感分析。本文研究并驗證了CNN和LSTM技術(shù)在文本情感分析中的性能，通過融合兩種技術(shù)有效地提升了情感分類的精度。實驗結(jié)果表明，融合了CNN與LSTM的模型在在多個領(lǐng)域中情感分類方面呈現(xiàn)出更優(yōu)異的表現(xiàn)，從而驗證了其顯著的有效性和潛力。

關(guān)鍵詞：文本情感分析；知乎；卷積神經(jīng)網(wǎng)絡；長短時記憶；循環(huán)神經(jīng)網(wǎng)絡

中圖分類號：TP18? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2023）35-0020-03

開放科學（資源服務）標識碼（OSID）

0 引言

在信息時代的浪潮下，社交媒體和網(wǎng)絡平臺扮演著不可或缺的角色，為人們提供了一個廣泛的信息交流和表達平臺。知乎作為中國領(lǐng)先的知識分享社區(qū)，吸引了4億多的注冊用戶，涵蓋了廣泛的話題、問題和觀點。隨著用戶規(guī)模的不斷擴大，知乎平臺所積累的海量文本信息數(shù)據(jù)變得豐富和多樣。這些文本數(shù)據(jù)承載著用戶對于各類話題的觀點、情感以及態(tài)度，其深層次的情感信息對于理解用戶需求、產(chǎn)品改進以及輿情分析具有重要意義。

隨著社交媒體信息的爆炸性增長，對于海量文本數(shù)據(jù)的高效處理和情感分類需求變得更加迫切[1]。傳統(tǒng)的文本分析方法往往受限于特征工程的復雜性和規(guī)模效應，難以滿足大規(guī)模數(shù)據(jù)的處理要求。近年來，深度學習技術(shù)的興起為文本情感分析帶來了嶄新的可能性。通過構(gòu)建復雜的神經(jīng)網(wǎng)絡結(jié)構(gòu)，深度學習能夠自動地從原始文本數(shù)據(jù)中提取高層次的語義特征，從而實現(xiàn)高效準確的情感分類[2]。

深度學習在文本情感分析領(lǐng)域的應用已經(jīng)取得了顯著的成果，其中卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，CNN）和長短時記憶網(wǎng)絡（Long Short-Term Memory，LSTM）等技術(shù)在文本分類任務中表現(xiàn)出色。CNN在圖像處理中的成功應用啟發(fā)了研究人員將其擴展到文本領(lǐng)域，其卓越的特征提取能力對于捕捉文本的局部特征非常有效[3]；LSTM作為一種適用于序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡，能夠捕捉文本的時序信息，對于情感分析尤為重要[4]。

本文旨在借助深度學習技術(shù)，通過CNN和LSTM技術(shù)進行融合來探索并解決知乎平臺上海量文本數(shù)據(jù)的情感分類問題。本文將深入研究并驗證CNN和LSTM技術(shù)在文本情感分析中的表現(xiàn)，進一步探討它們?nèi)诤系膬?yōu)勢和潛力，以期為社交媒體情感分析領(lǐng)域的研究和應用提供有力的支持。

1 實驗環(huán)境及數(shù)據(jù)處理

1.1 實驗環(huán)境

本文的實驗環(huán)境如下所示：

l 操作系統(tǒng)：CentOS Linux 7.0；

l 開發(fā)環(huán)境：TensorFlow；

l 通用庫：numpy、scikit-learn、scipy、nltk。

TensorFlow作為深度學習框架，為本文的實驗提供了穩(wěn)健的基礎。通過numpy、scikit-learn、scipy和nltk等通用庫的支持，我們能夠方便地進行數(shù)據(jù)處理、特征提取和模型評估。

1.2 實驗數(shù)據(jù)集

本文實驗數(shù)據(jù)集分為2個主要部分：

1）知乎網(wǎng)站數(shù)據(jù)集

通過Python爬蟲技術(shù)，筆者采集了豐富的知乎用戶評論和帖子數(shù)據(jù)，作為情感分析的基礎數(shù)據(jù)集。這些數(shù)據(jù)涵蓋了多個領(lǐng)域和話題，涉及科技、文化、娛樂等多個領(lǐng)域，為我們的研究提供了豐富多樣的文本素材。

2）新華社新聞數(shù)據(jù)集

引用中文新聞數(shù)據(jù)集，通常被稱為“新華社”數(shù)據(jù)集，作為補充實驗數(shù)據(jù)。這個數(shù)據(jù)集包含了大量的中文新聞文本，覆蓋了不同的新聞領(lǐng)域和主題。這樣的數(shù)據(jù)集在情感分析任務中能夠提供更多的文本樣本，豐富了研究數(shù)據(jù)。

1.3 數(shù)據(jù)預處理

為了準備數(shù)據(jù)，采取以下步驟進行數(shù)據(jù)預處理：

1）中文分詞

使用中國科學院計算所開發(fā)的中文分詞軟件包NLPIR進行中文分詞。NLPIR不僅提供了高效準確的中文分詞功能，還能進行詞性標注、命名實體識別以及用戶詞典的支持。這有助于將文本數(shù)據(jù)轉(zhuǎn)化為更加適合模型處理的詞匯序列。

2）文本清洗與停用詞去除

在分詞完成后，筆者進行了文本清洗，包括去除特殊字符、標點符號和無意義的空白符。此外，還剔除了停用詞，這些停用詞通常不攜帶太多情感信息，但會占據(jù)文本中的空間。

經(jīng)過以上數(shù)據(jù)預處理步驟，得到了分詞、清洗且剔除了停用詞之后的文本數(shù)據(jù)，為接下來的特征提取和模型訓練做好了準備。

2 融合模型設置

為了充分發(fā)揮CNN和LSTM的優(yōu)勢，在參考Ombabi[5]的研究成果基礎上，本文針對中文語境提出了一種融合方法，將它們結(jié)合起來進行知乎平臺文本情感分析。以下是該融合方法的詳細步驟：

2.1 文本表示

首先，利用預訓練的詞向量模型（如Word2Vec或GloVe）將原始文本轉(zhuǎn)換為詞向量表示。這些詞向量能夠有效地捕捉詞匯之間的語義關(guān)系，為后續(xù)的模型提供有意義的輸入。

2.2 卷積操作

將詞向量表示輸入一層卷積神經(jīng)網(wǎng)絡中，該網(wǎng)絡由多個卷積核和池化操作構(gòu)成。卷積核在捕捉不同大小的局部特征方面表現(xiàn)出色，而池化操作則有助于減少數(shù)據(jù)的維度，同時提取關(guān)鍵特征。

2.3 LSTM建模

卷積層的輸出被饋送至一個雙向LSTM層。雙向LSTM能夠同時捕捉文本的前向和后向信息，從而更好地理解文本的上下文語境。LSTM層的輸出被連接在一起，并通過全連接層進行情感分類。

2.4 融合模型的訓練優(yōu)化

在模型訓練過程中，使用以下實驗參數(shù)設置來優(yōu)化融合模型：

l 優(yōu)化算法：選用常用的Adam優(yōu)化算法，以最小化交叉熵損失函數(shù)。

l 學習率：初試學習率設定為一個較小的值0.001，通過實驗驗證找到合適的學習率調(diào)度策略，如學習率衰減。

l 批大?。号幚泶笮δＰ陀柧毸俣群头€(wěn)定性具有影響，進行批大小的調(diào)整和實驗。

l Dropout：在全連接層和LSTM層中引入Dropout層，以減少過擬合風險。

l Epochs：設置合適的訓練迭代次數(shù)，避免過擬合或欠擬合情況的出現(xiàn)。

2.5 實驗參數(shù)設置

為了驗證模型性能，筆者設計了一系列實驗，包括單獨使用CNN、單獨使用LSTM以及融合CNN與LSTM模型的情況，最終參數(shù)如表1所示。

通過對不同模型的參數(shù)設置進行調(diào)整，旨在獲得最佳性能，以便在知乎平臺文本情感分析任務中取得更準確的結(jié)果。

3 模型訓練及評估

3.1 對比實驗

在基于單獨使用CNN、LSTM以及融合CNN與LSTM三種方法的基礎上，筆者選擇了知乎平臺上不同領(lǐng)域內(nèi)容，包括“美食”“臺風”和“科技”，進行了模型訓練及評估，其中涉及80%的訓練數(shù)據(jù)和20%的測試數(shù)據(jù)。

3.2 實驗評估指標

在評估性能時使用標準評估指標進行驗證，使用accuracy準確度、precision精密度（又稱精度）、sensitivity靈敏度（又稱召回率）、specificity特異性、F-Score 綜合評估指標這5個參數(shù)進行性能評估，其值可以使用混淆矩陣及對應公式來確定。

[準確度Accuracy=TP+TNTP+TN+FP+FN]? ?（1）

[精度Precision=TPTP+FP] （2）

[召回率Sensitity=TPTP+FN] （3）

[特異性Specificity=TNTN+FP] （4）

[F1=P*RP+R] （5）

3.3 實驗結(jié)果與分析

作者對知乎數(shù)據(jù)集和新華社數(shù)據(jù)集上進行了一系列的實驗，針對“美食”“臺風”“科技”三個特定領(lǐng)域進行了情感分類性能評估。實驗結(jié)果如表3所示。

通過對表3中的美食研究領(lǐng)域進行數(shù)據(jù)分析，評估性能如圖1所示。經(jīng)過對比結(jié)果可知，本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.90、? 0.91、0.89、0.92、0.90，要比單獨的CNN模型和單獨的LSTM模型取得的評估性能更好。說明CNN與LSTM融合模型在知乎平臺的“美食”領(lǐng)域上的評估預測率更好。

通過對表3中的臺風研究領(lǐng)域進行數(shù)據(jù)分析，評估性能如圖2所示。經(jīng)過對比結(jié)果可知，本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.82、0.85、0.8、0.87、0.82，要比單獨的CNN模型和單獨的LSTM模型取得的評估性能要好。說明CNN與LSTM融合模型在知乎平臺的“臺風”領(lǐng)域上的評估預測率更好。

通過對表3中的科技研究領(lǐng)域進行數(shù)據(jù)分析，評估性能如圖3所示。經(jīng)過對比結(jié)果可知，本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.93、0.92、0.94、0.95、0.93，要比單獨的CNN模型和單獨的LSTM模型取得的評估性能更好。說明CNN與LSTM融合模型在知乎平臺的“科技”領(lǐng)域上的評估預測率更好。

綜合以上可知，在3個不同領(lǐng)域中，融合了CNN與LSTM的模型在情感分類上表現(xiàn)出了更高的準確率。這表明通過將卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡相融合，能夠更好地捕捉文本中的特征和上下文信息，從而提高情感分類的準確性。

4 結(jié)束語

本文以知乎這個信息豐富的社交平臺為對象，探索了一種有效的文本情感分析方法。通過結(jié)合卷積神經(jīng)網(wǎng)絡（CNN）和長短時記憶網(wǎng)絡（LSTM）的融合模型，在不同領(lǐng)域的情感分類任務中取得了令人滿意的成果，證實了融合模型在情感分析任務中的潛力。然而，鑒于實驗設備條件的限制，本文未能在深層次上探索CNN與LSTM的融合，未來的研究可以考慮利用更強大的計算資源，進一步挖掘模型的潛力。

參考文獻：

[1] 杜昌順.面向細分領(lǐng)域的輿情情感分析關(guān)鍵技術(shù)研究[D].北京：北京交通大學，2019.

[2] 鄧鈺.面向短文本的情感分析關(guān)鍵技術(shù)研究[D].成都：電子科技大學，2021.

[3] KIM Y.Convolutional neural networks for sentence classification[EB/OL].2014：arXiv：1408.5882.https：//arxiv.org/abs/1408.5882.pdf

[4] HOCHREITER S，SCHMIDHUBER J.Long short-term memory[J].Neural Computation，1997，9（8）：1735-1780.

[5] OMBABI A H，OUARDA W，ALIMI A M.Deep learning CNN–LSTM framework for Arabic sentiment analysis using textual information shared in social networks[J].Social Network Analysis and Mining，2020，10（1）：1-13.

【通聯(lián)編輯：唐一東】