劉飛生 魏超
摘要:知乎平臺作為中國主要的知識共享社區(qū),承載著海量信息,因此對其進行情感分析具有重要的現(xiàn)實意義。本研究旨在結(jié)合卷積神經(jīng)網(wǎng)絡(CNN) 與長短時記憶網(wǎng)絡(LSTM) 技術(shù),實現(xiàn)對知乎平臺上大量文本數(shù)據(jù)的情感分析。本文研究并驗證了CNN和LSTM技術(shù)在文本情感分析中的性能,通過融合兩種技術(shù)有效地提升了情感分類的精度。實驗結(jié)果表明,融合了CNN與LSTM的模型在在多個領(lǐng)域中情感分類方面呈現(xiàn)出更優(yōu)異的表現(xiàn),從而驗證了其顯著的有效性和潛力。
關(guān)鍵詞:文本情感分析;知乎;卷積神經(jīng)網(wǎng)絡;長短時記憶;循環(huán)神經(jīng)網(wǎng)絡
中圖分類號:TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)35-0020-03
開放科學(資源服務)標識碼(OSID)
0 引言
在信息時代的浪潮下,社交媒體和網(wǎng)絡平臺扮演著不可或缺的角色,為人們提供了一個廣泛的信息交流和表達平臺。知乎作為中國領(lǐng)先的知識分享社區(qū),吸引了4億多的注冊用戶,涵蓋了廣泛的話題、問題和觀點。隨著用戶規(guī)模的不斷擴大,知乎平臺所積累的海量文本信息數(shù)據(jù)變得豐富和多樣。這些文本數(shù)據(jù)承載著用戶對于各類話題的觀點、情感以及態(tài)度,其深層次的情感信息對于理解用戶需求、產(chǎn)品改進以及輿情分析具有重要意義。
隨著社交媒體信息的爆炸性增長,對于海量文本數(shù)據(jù)的高效處理和情感分類需求變得更加迫切[1]。傳統(tǒng)的文本分析方法往往受限于特征工程的復雜性和規(guī)模效應,難以滿足大規(guī)模數(shù)據(jù)的處理要求。近年來,深度學習技術(shù)的興起為文本情感分析帶來了嶄新的可能性。通過構(gòu)建復雜的神經(jīng)網(wǎng)絡結(jié)構(gòu),深度學習能夠自動地從原始文本數(shù)據(jù)中提取高層次的語義特征,從而實現(xiàn)高效準確的情感分類[2]。
深度學習在文本情感分析領(lǐng)域的應用已經(jīng)取得了顯著的成果,其中卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN) 和長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM) 等技術(shù)在文本分類任務中表現(xiàn)出色。CNN在圖像處理中的成功應用啟發(fā)了研究人員將其擴展到文本領(lǐng)域,其卓越的特征提取能力對于捕捉文本的局部特征非常有效[3];LSTM作為一種適用于序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡,能夠捕捉文本的時序信息,對于情感分析尤為重要[4]。
本文旨在借助深度學習技術(shù),通過CNN和LSTM技術(shù)進行融合來探索并解決知乎平臺上海量文本數(shù)據(jù)的情感分類問題。本文將深入研究并驗證CNN和LSTM技術(shù)在文本情感分析中的表現(xiàn),進一步探討它們?nèi)诤系膬?yōu)勢和潛力,以期為社交媒體情感分析領(lǐng)域的研究和應用提供有力的支持。
1 實驗環(huán)境及數(shù)據(jù)處理
1.1 實驗環(huán)境
本文的實驗環(huán)境如下所示:
l 操作系統(tǒng):CentOS Linux 7.0;
l 開發(fā)環(huán)境:TensorFlow;
l 通用庫:numpy、scikit-learn、scipy、nltk。
TensorFlow作為深度學習框架,為本文的實驗提供了穩(wěn)健的基礎。通過numpy、scikit-learn、scipy和nltk等通用庫的支持,我們能夠方便地進行數(shù)據(jù)處理、特征提取和模型評估。
1.2 實驗數(shù)據(jù)集
本文實驗數(shù)據(jù)集分為2個主要部分:
1) 知乎網(wǎng)站數(shù)據(jù)集
通過Python爬蟲技術(shù),筆者采集了豐富的知乎用戶評論和帖子數(shù)據(jù),作為情感分析的基礎數(shù)據(jù)集。這些數(shù)據(jù)涵蓋了多個領(lǐng)域和話題,涉及科技、文化、娛樂等多個領(lǐng)域,為我們的研究提供了豐富多樣的文本素材。
2) 新華社新聞數(shù)據(jù)集
引用中文新聞數(shù)據(jù)集,通常被稱為“新華社”數(shù)據(jù)集,作為補充實驗數(shù)據(jù)。這個數(shù)據(jù)集包含了大量的中文新聞文本,覆蓋了不同的新聞領(lǐng)域和主題。這樣的數(shù)據(jù)集在情感分析任務中能夠提供更多的文本樣本,豐富了研究數(shù)據(jù)。
1.3 數(shù)據(jù)預處理
為了準備數(shù)據(jù),采取以下步驟進行數(shù)據(jù)預處理:
1) 中文分詞
使用中國科學院計算所開發(fā)的中文分詞軟件包NLPIR進行中文分詞。NLPIR不僅提供了高效準確的中文分詞功能,還能進行詞性標注、命名實體識別以及用戶詞典的支持。這有助于將文本數(shù)據(jù)轉(zhuǎn)化為更加適合模型處理的詞匯序列。
2) 文本清洗與停用詞去除
在分詞完成后,筆者進行了文本清洗,包括去除特殊字符、標點符號和無意義的空白符。此外,還剔除了停用詞,這些停用詞通常不攜帶太多情感信息,但會占據(jù)文本中的空間。
經(jīng)過以上數(shù)據(jù)預處理步驟,得到了分詞、清洗且剔除了停用詞之后的文本數(shù)據(jù),為接下來的特征提取和模型訓練做好了準備。
2 融合模型設置
為了充分發(fā)揮CNN和LSTM的優(yōu)勢,在參考Ombabi[5]的研究成果基礎上,本文針對中文語境提出了一種融合方法,將它們結(jié)合起來進行知乎平臺文本情感分析。以下是該融合方法的詳細步驟:
2.1 文本表示
首先,利用預訓練的詞向量模型(如Word2Vec或GloVe) 將原始文本轉(zhuǎn)換為詞向量表示。這些詞向量能夠有效地捕捉詞匯之間的語義關(guān)系,為后續(xù)的模型提供有意義的輸入。
2.2 卷積操作
將詞向量表示輸入一層卷積神經(jīng)網(wǎng)絡中,該網(wǎng)絡由多個卷積核和池化操作構(gòu)成。卷積核在捕捉不同大小的局部特征方面表現(xiàn)出色,而池化操作則有助于減少數(shù)據(jù)的維度,同時提取關(guān)鍵特征。
2.3 LSTM建模
卷積層的輸出被饋送至一個雙向LSTM層。雙向LSTM能夠同時捕捉文本的前向和后向信息,從而更好地理解文本的上下文語境。LSTM層的輸出被連接在一起,并通過全連接層進行情感分類。
2.4 融合模型的訓練優(yōu)化
在模型訓練過程中,使用以下實驗參數(shù)設置來優(yōu)化融合模型:
l 優(yōu)化算法:選用常用的Adam優(yōu)化算法,以最小化交叉熵損失函數(shù)。
l 學習率:初試學習率設定為一個較小的值0.001,通過實驗驗證找到合適的學習率調(diào)度策略,如學習率衰減。
l 批大?。号幚泶笮δP陀柧毸俣群头€(wěn)定性具有影響,進行批大小的調(diào)整和實驗。
l Dropout:在全連接層和LSTM層中引入Dropout層,以減少過擬合風險。
l Epochs:設置合適的訓練迭代次數(shù),避免過擬合或欠擬合情況的出現(xiàn)。
2.5 實驗參數(shù)設置
為了驗證模型性能,筆者設計了一系列實驗,包括單獨使用CNN、單獨使用LSTM以及融合CNN與LSTM模型的情況,最終參數(shù)如表1所示。
通過對不同模型的參數(shù)設置進行調(diào)整,旨在獲得最佳性能,以便在知乎平臺文本情感分析任務中取得更準確的結(jié)果。
3 模型訓練及評估
3.1 對比實驗
在基于單獨使用CNN、LSTM以及融合CNN與LSTM三種方法的基礎上,筆者選擇了知乎平臺上不同領(lǐng)域內(nèi)容,包括“美食”“臺風”和“科技”,進行了模型訓練及評估,其中涉及80%的訓練數(shù)據(jù)和20%的測試數(shù)據(jù)。
3.2 實驗評估指標
在評估性能時使用標準評估指標進行驗證,使用accuracy準確度、precision精密度(又稱精度)、sensitivity靈敏度(又稱召回率)、specificity特異性、F-Score 綜合評估指標這5個參數(shù)進行性能評估,其值可以使用混淆矩陣及對應公式來確定。
[準確度Accuracy=TP+TNTP+TN+FP+FN]? ?(1)
[精度Precision=TPTP+FP] (2)
[召回率Sensitity=TPTP+FN] (3)
[特異性Specificity=TNTN+FP] (4)
[F1=P*RP+R] (5)
3.3 實驗結(jié)果與分析
作者對知乎數(shù)據(jù)集和新華社數(shù)據(jù)集上進行了一系列的實驗,針對“美食”“臺風”“科技”三個特定領(lǐng)域進行了情感分類性能評估。實驗結(jié)果如表3所示。
通過對表3中的美食研究領(lǐng)域進行數(shù)據(jù)分析,評估性能如圖1所示。經(jīng)過對比結(jié)果可知,本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.90、? 0.91、0.89、0.92、0.90,要比單獨的CNN模型和單獨的LSTM模型取得的評估性能更好。說明CNN與LSTM融合模型在知乎平臺的“美食”領(lǐng)域上的評估預測率更好。
通過對表3中的臺風研究領(lǐng)域進行數(shù)據(jù)分析,評估性能如圖2所示。經(jīng)過對比結(jié)果可知,本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.82、0.85、0.8、0.87、0.82,要比單獨的CNN模型和單獨的LSTM模型取得的評估性能要好。說明CNN與LSTM融合模型在知乎平臺的“臺風”領(lǐng)域上的評估預測率更好。
通過對表3中的科技研究領(lǐng)域進行數(shù)據(jù)分析,評估性能如圖3所示。經(jīng)過對比結(jié)果可知,本文采用的CNN與LSTM融合模型的準確度、精度、召回率、特異性、F-1分別為0.93、0.92、0.94、0.95、0.93,要比單獨的CNN模型和單獨的LSTM模型取得的評估性能更好。說明CNN與LSTM融合模型在知乎平臺的“科技”領(lǐng)域上的評估預測率更好。
綜合以上可知,在3個不同領(lǐng)域中,融合了CNN與LSTM的模型在情感分類上表現(xiàn)出了更高的準確率。這表明通過將卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡相融合,能夠更好地捕捉文本中的特征和上下文信息,從而提高情感分類的準確性。
4 結(jié)束語
本文以知乎這個信息豐富的社交平臺為對象,探索了一種有效的文本情感分析方法。通過結(jié)合卷積神經(jīng)網(wǎng)絡(CNN) 和長短時記憶網(wǎng)絡(LSTM) 的融合模型,在不同領(lǐng)域的情感分類任務中取得了令人滿意的成果,證實了融合模型在情感分析任務中的潛力。然而,鑒于實驗設備條件的限制,本文未能在深層次上探索CNN與LSTM的融合,未來的研究可以考慮利用更強大的計算資源,進一步挖掘模型的潛力。
參考文獻:
[1] 杜昌順.面向細分領(lǐng)域的輿情情感分析關(guān)鍵技術(shù)研究[D].北京:北京交通大學,2019.
[2] 鄧鈺.面向短文本的情感分析關(guān)鍵技術(shù)研究[D].成都:電子科技大學,2021.
[3] KIM Y.Convolutional neural networks for sentence classification[EB/OL].2014:arXiv:1408.5882.https://arxiv.org/abs/1408.5882.pdf
[4] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[5] OMBABI A H,OUARDA W,ALIMI A M.Deep learning CNN–LSTM framework for Arabic sentiment analysis using textual information shared in social networks[J].Social Network Analysis and Mining,2020,10(1):1-13.
【通聯(lián)編輯:唐一東】