一、前言
隨著社交媒體的快速發(fā)展,情感分析(SentimentAnalysis)已成為自然語言處理(NaturalLanguageProcessing,NLP)領(lǐng)域的重要研究方向。在社交平臺、產(chǎn)品評價、金融市場情緒預(yù)測等多個應(yīng)用場景中,高效準(zhǔn)確地分析文本情感對于輿情監(jiān)測、市場決策乃至公共安全管理具有重要意義。旨在構(gòu)建Word2vec-CNN模型和情感詞典方法,并在標(biāo)準(zhǔn)數(shù)據(jù)集上進行實驗,探討二者在情感分類任務(wù)中的性能差異。主要研究內(nèi)容包括:基于Word2vec詞向量對文本進行特征表示,并結(jié)合CNN進行情感分類;構(gòu)建情感詞典并采用傳統(tǒng)方法進行情感分析;在標(biāo)準(zhǔn)數(shù)據(jù)集上對比兩種方法的準(zhǔn)確率,以評估其優(yōu)劣勢。
通過本研究,希望能夠為情感分析任務(wù)提供更全面的技術(shù)對比,探索深度學(xué)習(xí)方法與傳統(tǒng)方法在不同場景下的適用性,為后續(xù)相關(guān)研究提供有價值的參考。
二、相關(guān)研究
情感分析作為自然語言處理(NaturalLanguageProcessing,NLP)中的重要任務(wù),已有大量研究探索了不同方法在文本情感分類中的應(yīng)用。情感詞典分析方法、機器學(xué)習(xí)方法和深度學(xué)習(xí)方法是當(dāng)前情感分析的三大主流方法。
(一)情感詞典方法研究現(xiàn)狀
情感詞典方法通過構(gòu)建情感詞典、文本預(yù)處理、情感詞匹配、情感極性計算、結(jié)果輸出等多個步驟將常見的情感詞匯進行兩級分化。
杜偉夫與譚松波合作提出了一種創(chuàng)新的詞匯情感趨向性分析方法。該方法不只展示了良好的可擴展性,還將詞匯的情感傾向處理轉(zhuǎn)化為一個可優(yōu)化處理的問題,并且通過一系列實驗驗證了其算法的有效性[。該方法為情感分析領(lǐng)域提供了新的視角,優(yōu)化了處理情感傾向的方法論,并為后續(xù)的研究提供了一個可行的改進方向。陳俊、席寧麗融合Skip-gram與R-SOPMI的教育領(lǐng)域情感詞典構(gòu)建,首次提出了融合特征領(lǐng)域的情緒詞典構(gòu)建方法,改進了情緒傾向點互信息,實現(xiàn)了多分類的情緒劃分,達(dá)到了較好的情緒分析分類的效果[2]。
(二)基于機器學(xué)習(xí)的情感分析
機器學(xué)習(xí)方法則通過訓(xùn)練好的模型來智能識別數(shù)據(jù)中的情感分類[3]。當(dāng)下較為流行的機器學(xué)習(xí)算法主要有樸素貝葉斯、SVM支持向量機、集成學(xué)習(xí)算法等[4]。這些算法并沒有優(yōu)劣上的區(qū)別,主要在于算法計算公式和原理有差別。在運用過程中只有根據(jù)實際情況選擇合適的算法,更好地發(fā)揮其優(yōu)勢達(dá)到較為理想的效果。
唐慧豐通過應(yīng)用并對比多種特征選擇技術(shù),細(xì)致地分析了樸素貝葉斯和支持向量機這兩種機器學(xué)習(xí)算法的性能。將算法放到微博分類情感的標(biāo)準(zhǔn)數(shù)據(jù)集上進行運行比對,唐慧豐及其研究團隊進行了更為深入的研究并提出了相關(guān)見解。從而為具體任務(wù)上如何選擇算法制定了科學(xué)的標(biāo)準(zhǔn)和依據(jù),為機器學(xué)習(xí)在微博數(shù)據(jù)上的有效性做出了貢獻(xiàn)[5]。
孫昊男的研究通過改進機器學(xué)習(xí)方法,尤其是樸素貝葉斯分類算法,來提高中文文本情感分析的準(zhǔn)確性。并通過引入情感詞、網(wǎng)絡(luò)新詞及關(guān)聯(lián)詞權(quán)重,提升了文本主客觀分類的效率。之后,進一步通過考慮否定詞和程度副詞的影響,為文本中的句子分配不同權(quán)重,最終形成一種新的合成算法來判斷整篇文本的情感傾向。
陳鎮(zhèn)、劉潤的研究通過對比四種機器學(xué)習(xí)方法,即支持向量回歸(SVR)、隨機森林(RF)、多層感知機(MLP)和輕量級梯度提升機(LG),最終建立MDA8-O(3)預(yù)測模型并實現(xiàn)了較好的實際效果。通過多種模型對珠三角秋季臭氧濃度進行了預(yù)測對比,通過相互的對比發(fā)現(xiàn)支持向量回歸(SVR)效果最佳。
(三)基于深度學(xué)習(xí)的情感分析
深度學(xué)習(xí)方法是人工智能領(lǐng)域中的一個子領(lǐng)域,其目標(biāo)是通過模仿人類神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能來實現(xiàn)對數(shù)據(jù)的學(xué)習(xí)和理解。深度學(xué)習(xí)方法中最為重要的是多層次的人工神經(jīng)網(wǎng)絡(luò),通過它可以有效地學(xué)習(xí)文本中的復(fù)雜結(jié)構(gòu)和規(guī)律,從而實現(xiàn)文本的分類功能。廖運春結(jié)合了加權(quán)Word2Vec和TextCNN模型。通過引人TF-IDF加權(quán)策略,優(yōu)化了Word2Vec詞向量的表示,使得重要詞匯在文本表示中獲得更高的權(quán)重,進而增強了模型對文本特征的捕捉能力。RawatAshish探討了利用文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)技術(shù)檢測藥物不良事件的方法。通過使用TF-IDF和Word2Vec模型實現(xiàn)了文本數(shù)據(jù)的特征提取,并應(yīng)用集成策略提高了系統(tǒng)的整體性能。
LiAichuan通過動態(tài)詞向量表示、雙通道特征提取、注意力機制對TextCNN模型進行了改進并用兩個公開數(shù)據(jù)集(NLPCC2014和NLPCC2015)及一個微博情感分析數(shù)據(jù)集(weibosenti100k)上的對比實驗,驗證了其方法可以有效提升算法的情感分析和預(yù)測能力。LuWei采用TextCNN和BiLSTM進行雙通道特征提取,引入注意力機制高效分配計算資源,實現(xiàn)特征融合和數(shù)據(jù)分類。注意力機制能夠讓模型聚焦于文本中最重要的部分,進而提高情感分析的準(zhǔn)確率。
三、研究方法
(一)數(shù)據(jù)集
研究采用 NLPCC 2014(Natural Language Processingamp;ChineseComputing2014)數(shù)據(jù)集,該數(shù)據(jù)集由NLPCC2014評測任務(wù)提供,是中文文本情感分析領(lǐng)域的一個標(biāo)準(zhǔn)數(shù)據(jù)集,廣泛用于社交媒體文本情感分類研究。
(二)基于情感詞典的情感分析方法
情感詞典包含了大量的情感詞匯,涵蓋了各種情感類別(如喜悅、悲傷、憤怒、恐懼等),是一種用于對數(shù)據(jù)文本進行情感分類的工具[。由于情感詞典對于初使者十分友好易上手,使得情感詞典能夠在自然語言處理和情感分析領(lǐng)域被廣泛使用。但是,情感詞典由于僅僅關(guān)注于詞匯本身,往往會忽略語言在復(fù)雜語境之中的多樣性,是其主要面臨的瓶頸。
研究使用的情感詞典是臺灣大學(xué)NTUSD簡體中文情感詞典。
(三)Word2vec-CNN模型的構(gòu)建與訓(xùn)練
研究采用Word2vec-CNN結(jié)合模型進行文本情感分析。Word2vec負(fù)責(zé)將文本轉(zhuǎn)換為密集向量表示(wordembeddings),而CNN(卷積神經(jīng)網(wǎng)絡(luò))則用于捕捉文本的局部特征,以實現(xiàn)高效的情感分類。本節(jié)詳細(xì)介紹模型的構(gòu)建過程,包括詞向量訓(xùn)練、CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計及模型優(yōu)化策略。
1.詞向量訓(xùn)練(Word2vec預(yù)訓(xùn)練)
Word2vec主要是將詞匯轉(zhuǎn)換成向量的形式。這些向量能有效標(biāo)注詞匯間的相似性、層次性和對立性等關(guān)聯(lián)程度,為后續(xù)模型的學(xué)習(xí)提供便利。詞袋模型(CBOW)和跳躍-gram模型(Skip-gram)是Word2vec最為常見的兩種模型訓(xùn)練方式。它們都將詞匯表映射到一個低維向量空間中。其中,Skip-gram模型使用當(dāng)前詞預(yù)測上下文,訓(xùn)練過程通過從中心詞推斷周圍詞來進行,允許模型自適應(yīng)調(diào)整上下文窗口的大小,特別適合于處理各類文本語料庫。而CBOW模型使用詞的上下文預(yù)測該詞本身。
模型嘗試通過上下文詞的平均來預(yù)測目標(biāo)詞,其訓(xùn)練速度更快,對于高頻詞匯的訓(xùn)練效果往往更好,能夠更快地收斂。
2.CNN結(jié)構(gòu)設(shè)計
TexTCNN是一個文本分類模型,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)。在訓(xùn)練完成后可以對文本的情感進行有效分類。該模型的幾個組件都承擔(dān)著不同的功能。
嵌入層:通過嵌入層可以將詞序列轉(zhuǎn)變?yōu)槎ㄩL的向量。使用訓(xùn)練完善的Word2Vec可以有效匹配嵌人層來完成這一工作,并且將每個詞提供的豐富語義信息提煉出來。
卷積層:在情感分析中,卷積層能夠通過大小不一的卷積核獲取詞匯間的關(guān)聯(lián)性,進而獲得文本的相應(yīng)特征。具體而言,卷積核會在卷積操作進行時對整個文本進行遍歷操作,從文本中提取有效信息來輔助理解文本語義。
池化層:該層的主要功能是簡化由卷積層生成的輸出。通過實施最大池化,這一層選出每個特征映射中的最顯著信號,從而形成一個更精簡的特征表示,減少后續(xù)處理的計算負(fù)擔(dān)。
全連接層和softmax分類器:經(jīng)過池化層處理后,得到的壓縮特征向量被送入全連接層,這里的全連接層負(fù)責(zé)將這些特征向量綜合起來,為最終的分類決策做準(zhǔn)備。隨后,通過softmax分類器進行實際的情感類別預(yù)測(判定文本的情感傾向是正面還是負(fù)面)。
3.Word2vec-TextCNN的訓(xùn)練
采用結(jié)合Word2vec和CNN模型進行的情感分析。具體流程如下。
訓(xùn)練Word2Vec模型。利用jieba庫和正則表達(dá)式以及預(yù)先準(zhǔn)備好的停用詞庫對數(shù)據(jù)進行預(yù)處理。而后使用Gensim庫中的LineSentence讀取處理后的文本文件并生成一個可迭代對象,通過不斷迭代訓(xùn)練Word2Vec模型。
訓(xùn)練TextCNN模型。將訓(xùn)練的整體數(shù)據(jù)隨機按照8 : 1 : 1 分成訓(xùn)練集、驗證集合和測試集。通過訓(xùn)練集讓TextCNN模型學(xué)習(xí)數(shù)據(jù)的相關(guān)規(guī)律并進行迭代訓(xùn)練。在訓(xùn)練的過程中需要實時反饋在每個epoch上訓(xùn)練的表現(xiàn),這個時候就需要使用到驗證集,而測試集則是用于最終評估模型的性能。測試集是從未參與過訓(xùn)練和驗證的數(shù)據(jù)集,可以用來評估模型在真實環(huán)境中的表現(xiàn)。
詞向量表示。詞向量表示可以運用訓(xùn)練好的Word2Vec模型,來完成將詞匯映射到長度相等的向量空間的任務(wù)。之后使用Tokenizer將文本進行填充確保它們的長度相同并轉(zhuǎn)換為序列。根據(jù)詞向量模型構(gòu)建詞嵌入矩陣。
構(gòu)建TextCNN模型。通過Keras來構(gòu)建TextCNN模型的嵌入層、卷積層、池化層、全連接層和輸出層結(jié)構(gòu)。每一個層結(jié)構(gòu)相互組合、配合使用,來完成對文本特征的分類。
編譯與訓(xùn)練模型。通過設(shè)定訓(xùn)練的批量大小、類別權(quán)重、訓(xùn)練周期數(shù)等超參數(shù)并指定優(yōu)化器和損失函數(shù)的相關(guān)算法,在模型的訓(xùn)練過程中監(jiān)控每個epoch中的loss和accuracy,并通過不斷對比、調(diào)整超參數(shù)來完成模型的訓(xùn)練。
四、實驗與結(jié)果分析
主要對Word2vec-CNN模型與情感詞典方法進行實驗分析與性能對比。實驗基于NLPCC2014數(shù)據(jù)集,評估不同方法在文本情感分類任務(wù)上的表現(xiàn)。
(一)Word2vec-TextCNN的訓(xùn)練模型評估
在訓(xùn)練結(jié)束后通過準(zhǔn)確率、精確度、召回率、F1分?jǐn)?shù)等指標(biāo),并通過繪制混淆矩陣、準(zhǔn)確率圖等對模型在不同類別上的預(yù)測情況進行了可視化。損失曲線和準(zhǔn)確度曲線如圖1所示。
從圖1可以看到模型在訓(xùn)練過程中訓(xùn)練和驗證損失都在下降,同時訓(xùn)練和驗證準(zhǔn)確度都在提升,最終在驗證集上的準(zhǔn)確率達(dá)到了 8 6 % 。同時,混淆矩陣中真正和真負(fù)的數(shù)量分別是535和477,遠(yuǎn)大于假正類和假負(fù)類,同樣反映了模型已經(jīng)被訓(xùn)練完善。
(二)Word2vec-TextCNN模型與情感詞典對比
Word2vec-TextCNN模型通過詞向量和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,能夠有效捕捉文本特征,提高情感分析的準(zhǔn)確性和效率。而情感詞典是由人工構(gòu)建的情感詞匯表,用于在文本中匹配情感詞并進行情感分析。Word2vec-TextCNN模型與情感詞典各有優(yōu)劣。Word2vec-TextCNN模型在處理復(fù)雜文本和新穎語境時效果更好,但需要大量標(biāo)注數(shù)據(jù)進行訓(xùn)練。情感詞典則相對簡單易用,但受限于詞典的質(zhì)量和涵蓋范圍。
采用在互聯(lián)網(wǎng)上公開的帶情感標(biāo)簽的nlpcc2014數(shù)據(jù)集對兩個情感分析程序進行分析對比,并計算正確率。正確率如圖2所示。
從圖2可以看到Word2vec-TextCNN模型的正確率達(dá)到 8 2 . 3 % ,遠(yuǎn)高于情感詞典的正確率 6 8 . 1 % 。
五、結(jié)語
通過實驗分析,得出以下主要結(jié)論。
第一,深度學(xué)習(xí)模型的情感分析效果顯著優(yōu)于基于規(guī)則的方法。Word2vec-CNN在NLPCC2014數(shù)據(jù)集上取得了 8 2 . 3 % 的準(zhǔn)確率,相比于傳統(tǒng)情感詞典方法( 6 8 . 1 % )提升了 1 4 . 2 % 。CNN結(jié)構(gòu)能夠有效提取局部文本特征,提高短文本的分類性能,而情感詞典方法受限于固定詞庫,難以識別復(fù)雜情緒表達(dá)。
第二,情感詞典方法雖然對新詞、隱喻等復(fù)雜情緒表達(dá)的處理能力有限,但在特定環(huán)境下仍具有一定應(yīng)用價值,特別是在計算資源有限、需要高可解釋性的場景下。例如,基層單位或移動端應(yīng)用,可能沒有GPU或強算力支持,難以運行深度學(xué)習(xí)模型,此時情感詞典方法因計算開銷小仍然適用。特定領(lǐng)域(如法律文本、政府公文)中,情感表達(dá)較為固定,基于詞典的規(guī)則匹配可以快速完成情感分類。
第三,與其他模型對比,Word2vec-CNN具有較好的性能平衡。CNN結(jié)構(gòu)的卷積操作能夠有效提取短文本的局部情感特征,同時具備較快的計算效率。相較于LSTM,CNN對文本順序依賴較低,更適用于短文本情感分類任務(wù)。相較于BERT,Word2vec-CNN計算成本較低,在資源受限的環(huán)境下更具實用性。
參考文獻(xiàn)
[1]杜偉夫,譚松波,云曉春,等.一種新的情感詞匯語義傾向計算方法[J].計算機研究與發(fā)展,2009,46(10):1713-1720.
[2]陳俊,席寧麗,李佳敏,等.融合Skip-gram與R-SOPMI的教育領(lǐng)域情感詞典構(gòu)建[J].應(yīng)用科學(xué)學(xué)報,2023,41(05):870-880.
[3]衛(wèi)青藍(lán),何雨,宋金寶.基于語義規(guī)則的自適應(yīng)情感詞典自動構(gòu)建算法[J].北京航空航天大學(xué)學(xué)報,2024,15(06):1-10
[4]聞彬,何婷婷,羅樂,等.基于語義理解的文本情感分類方法研究[J].計算機科學(xué),2010,37(06):261-264.
[5]唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué)報,2007,21(06):88-94,108.
[6]趙妍妍,秦兵,車萬翔,等.基于句法路徑的情感評價單元識別[J].軟件學(xué)報,2011,22(05):887-898
浙江警察學(xué)院校級科研項目“大數(shù)據(jù)背景下的‘民轉(zhuǎn)刑’防范模型與預(yù)警機制研究”(項目編號:2023XJY013)
作者單位:戴鵬、張靜,浙江警察學(xué)院信息網(wǎng)絡(luò)安全學(xué)院;麻翊晨,上海市徐匯區(qū)市場監(jiān)督管理局;裘堅杰,杭州市公安局蕭山區(qū)公安分局
責(zé)任編輯:張津平尚丹