ChatGPT可否充當(dāng)情感專家？——調(diào)查其在情感與隱喻分析的潛力

2024-01-30 03:03:12張亞洲王夢(mèng)遙戎璐俞洋趙東明秦璟

北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 2024年1期

張亞洲王夢(mèng)遙戎璐俞洋趙東明秦璟

北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第60卷第1期 2024年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

10.13209/j.0479-8023.2023.075

國(guó)家自然科學(xué)基金青年基金(62006212)、中國(guó)博士后科學(xué)基金(2023M733907)、信息物理社會(huì)可信服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室開放基金(CPSDSC202103)和Project of Strategic Importance Grant of the Hong Kong Polytechnic University (1-ZE2Q)資助

2023–05–17;

2023–07–31

ChatGPT可否充當(dāng)情感專家？——調(diào)查其在情感與隱喻分析的潛力

張亞洲1,2王夢(mèng)遙1戎璐3俞洋1趙東明4秦璟2,?

1.鄭州輕工業(yè)大學(xué)軟件學(xué)院, 鄭州 450002; 2.香港理工大學(xué)護(hù)理學(xué)院, 香港 999077; 3.鄭州輕工業(yè)大學(xué)人事處, 鄭州 450002; 4.中國(guó)移動(dòng)通信集團(tuán)天津有限公司人工智能實(shí)驗(yàn)室, 天津 3000201; ?通信作者, E-mail: harry.qin@polyu.edu.hk

為了探索 ChatGPT 情感分析能力以及對(duì)主觀性和隱喻性理解的潛力, 將 ChatGPT 在 5 個(gè)情感、幽默與隱喻基準(zhǔn)數(shù)據(jù)集上展開評(píng)估, 通過與領(lǐng)域內(nèi)最前沿的模型對(duì)比, 討論其在不同任務(wù)上的優(yōu)勢(shì)與局限。此外, 還通過對(duì)比 ChatGPT 與人類在情感分析中的性能差別, 發(fā)現(xiàn) ChatGPT 在情感、幽默與隱喻任務(wù)上與人類結(jié)果分別相差 9.52%, 16.64%和 6.69%。實(shí)驗(yàn)結(jié)果表明, 盡管 ChatGPT 在對(duì)話生成方面獲得最佳表現(xiàn), 但是其在情感理解方面仍具有改進(jìn)的潛力。最后, 通過改善提示模板, 調(diào)查 ChatGPT 在情感理解場(chǎng)景下對(duì)提示模板的敏感性。

ChatGPT; 情感分析; 幽默檢測(cè); 隱喻識(shí)別

情感是人類生命體驗(yàn)的載體, 用于感知、辨析與理解人類潛在意圖, 驅(qū)動(dòng)人類的決策與行為。情感理解能力是人與機(jī)器的主要區(qū)別之一。鑒于人類語(yǔ)言的主觀性, 人們可以通過語(yǔ)言表達(dá)各種情感狀態(tài), 如喜悅、憤怒和幽默等, 也可以通過語(yǔ)言感知他人的情感狀態(tài)[1]。情感分析旨在利用語(yǔ)言規(guī)則、語(yǔ)料庫(kù)和自然語(yǔ)言處理技術(shù)等, 幫助機(jī)器自動(dòng)識(shí)別和分析人類的情感狀態(tài), 并準(zhǔn)確地做出回應(yīng)。目前主流的范式是借助 Transformer 預(yù)訓(xùn)練語(yǔ)言模型(pre- trained language models, PLMs)優(yōu)良的上下文特征提取能力, 通過微調(diào)或提示捕捉情感線索, 快速完成情感預(yù)測(cè)[2]。

隨著預(yù)訓(xùn)練語(yǔ)言模型日趨龐大, 參數(shù)量激增, 語(yǔ)言模型在下游任務(wù)中的性能顯著提升, 自然語(yǔ)言處理領(lǐng)域開始邁入大語(yǔ)言模型時(shí)代。例如 GPT-3[3]以及 InstructGPT[4]等大型語(yǔ)言模型(large language models, LLMs)在語(yǔ)言生成、語(yǔ)言理解、文本分類以及語(yǔ)言翻譯等任務(wù)中取得顯著的進(jìn)步。2022 年11 月, 由 OpenAI 公司發(fā)行的代表性大語(yǔ)言模型ChatGPT 引起學(xué)術(shù)界與工業(yè)界的關(guān)注。ChatGPT 基于 GPT-3.5 大型語(yǔ)言模型, 通過對(duì)齊人類的真實(shí)意圖, 即采用基于人類反饋的強(qiáng)化學(xué)習(xí)(reinforcement learning from human feedback, RLHF), 在大規(guī)模無(wú)標(biāo)注語(yǔ)料庫(kù)上完成訓(xùn)練。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)相比, RLHF 利用人類提供的反饋[5]來(lái)指導(dǎo)模型進(jìn)行學(xué)習(xí)(人類通過指導(dǎo)模型的行為來(lái)提供即時(shí)反饋, 模型可以在學(xué)習(xí)過程中利用這些反饋來(lái)調(diào)整自己的行為)。這種方法使得模型學(xué)習(xí)過程更加高效, 同時(shí)也提高了學(xué)習(xí)質(zhì)量。ChatGPT 在諸多下游任務(wù)中展露最前沿的能力, 包括對(duì)人工輸入的復(fù)雜問題提供高質(zhì)量的答案, 編寫代碼[6], 識(shí)別人類情感, 在面臨敏感話題(例如暴力和政治敏感等)時(shí), 拒絕不恰當(dāng)請(qǐng)求, 甚至可以根據(jù)后續(xù)對(duì)話自我糾正先前的錯(cuò)誤, 等等。因此, 與傳統(tǒng)的語(yǔ)言模型相比, ChatGPT擁有顯著的人類語(yǔ)言理解優(yōu)勢(shì), 是實(shí)現(xiàn)通用人工智能的主要途徑之一, 已經(jīng)作為智能助手廣泛應(yīng)用于各個(gè)行業(yè)。

ChatGPT 在取得巨大成功的同時(shí), 亦引發(fā)研究者更多的思考與疑問。鑒于人類語(yǔ)言固有的主觀性與隱喻性, 對(duì) ChatGPT 情感理解能力的定量分析卻鮮有涉及。首先, 情感表達(dá)與理解是一項(xiàng)非常抽象與主觀的任務(wù), 涉及個(gè)體差異(同一個(gè)情感表達(dá)被不同個(gè)體解讀為不同情感)、情感多樣性(悲傷夾雜著憤怒)、上下文性(同樣的表達(dá)在不同語(yǔ)境下傳達(dá)不同的情感)等多種因素, ChatGPT 的情感理解能力因而需要嚴(yán)謹(jǐn)?shù)脑u(píng)估。面對(duì)更加高級(jí)的情感語(yǔ)言表達(dá)方式(例如幽默和隱喻等), 人類經(jīng)常通過隱含映射和雙關(guān)語(yǔ)等間接地表達(dá)情感, 那么 ChatGPT 如何處理語(yǔ)言的多義性、映射和隱含信息, 是否有潛力作為情感專家也亟需業(yè)界的正確評(píng)估。最后, 鑒于 ChatGPT 是根據(jù)人類設(shè)計(jì)的提示語(yǔ)生成答案, 調(diào)查ChatGPT 在情感理解場(chǎng)景下對(duì)提示模板的敏感性顯得尤為必要。

本文主要關(guān)注 3 個(gè)問題: 1) ChatGPT 是否能夠準(zhǔn)確地理解人類情感？與人類判斷情感的差距有多大？2) ChatGPT 是否能夠準(zhǔn)確地理解高級(jí)情感表達(dá)方式？3)不同的提示策略是否對(duì) ChatGPT 的判定結(jié)果產(chǎn)生影響？

本文在 5 個(gè)情感、幽默與隱喻基準(zhǔn)數(shù)據(jù)集上, 對(duì) ChatGPT(2023 年 3 月 23 版)展開評(píng)估, 通過與領(lǐng)域內(nèi) 20 個(gè)最前沿模型的對(duì)比, 討論其在不同任務(wù)中的優(yōu)勢(shì)與局限, 對(duì)比 ChatGPT 與人類在情感、幽默和隱喻分析方面的性能。此外, 還通過系統(tǒng)性地改變提示策略, 進(jìn)一步分析提示策略對(duì) ChatGPT 理解人類情感能力的影響。

1 相關(guān)研究

從谷歌的 T5 到 OpenAI GPT 系列, 大語(yǔ)言模型不斷涌現(xiàn), 例如, GPT-3, PALM[7], Galactica[8]和LLaMA[9]。這些 LLM 以包含千億參數(shù)的模型架構(gòu)為基底, 并在大量數(shù)據(jù)集上進(jìn)行訓(xùn)練。這種縮放訓(xùn)練策略提高了語(yǔ)言模型對(duì)自然語(yǔ)言的理解和生成能力, 即便不更新其參數(shù), 也在很多自然語(yǔ)言處理任務(wù)中帶來(lái)顯著的提升。例如, 在問答任務(wù)中, 這些LLM 通過理解問題和文本語(yǔ)境, 給出更加自然、流暢、準(zhǔn)確的回答[10](如 ChatGPT 模型); 在文本分類任務(wù)中, 通過對(duì) LLM 進(jìn)行微調(diào), 可以獲得比傳統(tǒng)方法更好的準(zhǔn)確率和泛化能力[11](如 BERT 模型); 在機(jī)器翻譯任務(wù)中, LLM 可用于語(yǔ)言表示和對(duì)齊, 幫助提高翻譯的質(zhì)量和效率(如 Transformer 模型)。

作為基于 GPT-3.5 的對(duì)話生成模型, ChatGPT在情感分析任務(wù)中得到廣泛應(yīng)用。例如, 在對(duì)話系統(tǒng)中, ChatGPT 可以生成更加自然的情感豐富的回復(fù), 并且可以在情感分析任務(wù)中識(shí)別用戶的情感表達(dá)。越來(lái)越多的研究人員根據(jù)各種基準(zhǔn)進(jìn)行評(píng)估, 探索 ChatGPT 的能力邊界。Zhuo 等[12]對(duì) ChatGPT的可靠性和穩(wěn)定性進(jìn)行定量分析, Jiao 等[13]對(duì)其多語(yǔ)言翻譯能力做了初步探究, Bang 等[14]從多任務(wù)、多語(yǔ)言和多模態(tài)方面評(píng)估 ChatGPT 的生成能力。與已有研究不同, 本文的重心是調(diào)查 ChatGPT 在主觀性任務(wù)中的表現(xiàn), 特別是對(duì)幽默和隱喻等復(fù)雜情感語(yǔ)言的理解能力。通過一個(gè)全面的評(píng)估, 判定ChatGPT 是否有潛力作為一個(gè)情感專家或助手, 從而促進(jìn)情感智能方向的研究。

2 評(píng)估方法

自然語(yǔ)言處理領(lǐng)域一直在追求更加智能化的算法模型, 用來(lái)模擬人類對(duì)語(yǔ)言的處理方式。本文圍繞測(cè)試任務(wù)、實(shí)驗(yàn)數(shù)據(jù)、對(duì)比模型、評(píng)價(jià)標(biāo)準(zhǔn)和實(shí)驗(yàn)結(jié)果等, 對(duì) ChatGPT 在情感分析領(lǐng)域的性能展開全面評(píng)估, 探索其在情感分析領(lǐng)域的應(yīng)用潛力。

2.1 測(cè)試任務(wù)

本文將開展以下 4 項(xiàng)代表性情感分析任務(wù)。

1)主觀性情感分析: 從主觀性文本中自動(dòng)識(shí)別和提取文本表達(dá)的情感狀態(tài), 分為積極、消極和中性 3 種。

2)方面級(jí)情感分析: 從文本中提取特定方面(如商品價(jià)格、服務(wù)質(zhì)量和用餐環(huán)境等)的情感極性, 分為正面、負(fù)面和中性 3 種。

3)幽默檢測(cè): 判斷文本中是否包含幽默元素, 將文本分為幽默和非幽默兩類。

4)隱喻識(shí)別: 對(duì)文本中的隱喻進(jìn)行識(shí)別和解釋, 并判斷句子表達(dá)的是褒義還是貶義情感。

2.2 實(shí)驗(yàn)數(shù)據(jù)

本研究選取 5 個(gè)廣泛評(píng)測(cè)的中文情感數(shù)據(jù)集: SMP2020 微博情感分類數(shù)據(jù)集(Usual 和 Virus)、SMP2020 文本幽默檢測(cè)數(shù)據(jù)集(Humor)、ASAP 中文評(píng)論分析數(shù)據(jù)集和隱喻式數(shù)據(jù)集(Metaphor)。Usual 和 Virus 數(shù)據(jù)集分別包含 6 類情緒, 將愉悅情緒(happy)歸類為積極樣本, 悲傷(sad)和憤怒(angry)情緒合并為消極樣本, 無(wú)情緒(neutral)定義為中性樣本。作為文本幽默數(shù)據(jù)集, Humor 包含幽默和非幽默標(biāo)簽, 用于幽默識(shí)別任務(wù)中。ASAP 是一個(gè)大型的中餐館評(píng)論數(shù)據(jù)集, 用于方面類別的情感分析(aspect based sentiment analysis, ABSA)。Metaphor是一個(gè)中文隱喻數(shù)據(jù)集, 包含褒義和貶義標(biāo)簽, 用于隱喻識(shí)別任務(wù)。實(shí)驗(yàn)樣本分布如表 1 所示。

本實(shí)驗(yàn)將以上 5 個(gè)數(shù)據(jù)集分別用于對(duì)比評(píng)估ChatGPT 和其他 SOTA 模型。本文調(diào)用 ChatGPTAPI進(jìn)行評(píng)測(cè)。同時(shí), 本文挑選一系列最前沿的情感分析模型用于情感、幽默和隱喻任務(wù)評(píng)測(cè)。它們分別是 CMCNN[15], Bi-LSTM+Attention[16], CapsNet-BERT[17], DMM-CNN[18], CBMA[19], ACSA-gene-ration[20], AC-MIMLLN[21], QA-BERT[22], SGCN[23], DSPN[24], XLNet[25], GCN-BERT[26], DeepMet-S[27], MGF[28], BGCN[29], KEG[30], SaGE[31], BSI[32], Transformer[33]和 IASPS[34]。其中, Bi-LSTM+ Attention, CMCNN, CapsNet-BERT, GCN-BERT, DSPN, XLNet 和 DeepMet-S 模型使用 Github 開源代碼實(shí)現(xiàn), DMM-CNN, ACSA-generation, CBMA, AC-MIMLLN, BSI 和 Transformer 根據(jù)相關(guān)文獻(xiàn)模型和參數(shù)復(fù)現(xiàn); MGF, BGCN, QA-BERT, IASPS, KEG, SaGE 和 BSI模型直接采用文獻(xiàn)結(jié)果。

2.3 評(píng)估標(biāo)準(zhǔn)

本文采用精確率(precision,)、召回率(recall,)、微觀 F1 值(Micro-F1)和準(zhǔn)確率(accuracy, Acc)作為模型的性能評(píng)估指標(biāo)。選擇微觀 F1 指標(biāo)的原因是它在計(jì)算中考慮了每個(gè)類別的數(shù)量。評(píng)估指標(biāo)的計(jì)算公式如下:

表1 數(shù)據(jù)集統(tǒng)計(jì)

其中, TP 代表真陽(yáng)性, FP 代表假陽(yáng)性, TN 代表真陰性, FN 代表假陰性。

3 實(shí)驗(yàn)結(jié)果

3.1 情感分析的實(shí)驗(yàn)結(jié)果

情感分析任務(wù)的分析結(jié)果如表 2 所示?？梢园l(fā)現(xiàn), 在測(cè)試集上, ChatGPT 在情感分析任務(wù)中的表現(xiàn)可以媲美甚至超越其他模型。在 Usual 和 Virus數(shù)據(jù)集上, 主觀性情感分析的 Macro-F1 分別為82.16%和 80.20%, 比一些傳統(tǒng)的算法(如 Bi-LSTM +Attenion 以及 DMM-CNN 等)表現(xiàn)更好, 與使用BERT 模型提供詞向量的 CMCNN 語(yǔ)言模型相比, ChatGPT 的 Macro-F1 在 Usual 和 Virus 數(shù)據(jù)集上分別提升 1.37%和 2.16%。但是與 LLM 相比, Chat-GPT 的優(yōu)勢(shì)并不明顯, 相較于 MGF 模型, Macro-F1在 Usual 和 Virus 數(shù)據(jù)集上分別落后 1.70%和0.17%。從實(shí)驗(yàn)結(jié)果來(lái)看, ChatGPT 在不同數(shù)據(jù)集的情感分析任務(wù)中表現(xiàn)穩(wěn)定。因此, ChatGPT 值得在實(shí)際應(yīng)用中進(jìn)一步探索。

作為更細(xì)粒度的情感分析任務(wù), 在進(jìn)行方面類別情感分析時(shí), 模型需要同時(shí)注意文本中的內(nèi)容特征、詞性特征和位置特征, 并同時(shí)充分學(xué)習(xí)內(nèi)容詞、方面詞和情感詞之間的聯(lián)系。從表 2 中 ASAP實(shí)驗(yàn)結(jié)果看, ChatGPT 比其他模型(如 QA-BERT 和CapsNet-BERT 等)表現(xiàn)良好, 比端到端方式的遠(yuǎn)監(jiān)督金字塔網(wǎng)絡(luò) DSPN 提升 3.57%, 但相比語(yǔ)言模型ACSA-generation 降低了 0.71%, 相比語(yǔ)言模型 AC-MIMLLN 降低 0.44%, 表明 ChatGPT 雖然能夠從長(zhǎng)文本中準(zhǔn)確識(shí)別方面詞, 有效地捕捉文本中的上下文信息和情感表達(dá), 但不能作為方面情感分析的最優(yōu)模型。

3.2 隱喻和幽默任務(wù)的實(shí)驗(yàn)結(jié)果

從文本的語(yǔ)言表達(dá)層面來(lái)說, 人類情感可劃分為顯式情感和隱式情感, 隱式情感包含隱喻型和反諷型。目前, 隱喻沒有被廣泛承認(rèn)的正式定義, 本文將隱式情感理解為: 在字面意義之外的、不包含明顯的情感詞, 但通過隱晦、間接的語(yǔ)言片段表達(dá)出主觀情感。例如, “她的樣貌也就只能做個(gè)備胎”, 雖然句中并未出現(xiàn)情感詞匯, 但“備胎”卻被隱喻為“替補(bǔ)選項(xiàng)”, 表達(dá)說話者的負(fù)面情感。在實(shí)際情況中, 語(yǔ)言模型對(duì)隱喻情感的分析可能更加復(fù)雜, 這是因?yàn)殡[喻的含義通常依賴語(yǔ)境和個(gè)人經(jīng)驗(yàn), 存在不同的解釋。因此, 對(duì)隱喻句子的情感分析需要考慮上下文、文化背景和作者意圖等因素, 是一項(xiàng)更具挑戰(zhàn)性的任務(wù)。本文采用的隱喻式數(shù)據(jù)集 Meta-phor 的情感示例如表 3 所示。

表2 情感分析任務(wù)實(shí)驗(yàn)結(jié)果(%)

ChatGPT 在隱喻情感分析任務(wù)和幽默任務(wù)中的實(shí)驗(yàn)結(jié)果如表 4 所示?？梢园l(fā)現(xiàn), 在更加復(fù)雜的隱喻情感分析任務(wù)中, 與幾個(gè)基線模型相比, ChatGPT表現(xiàn)出色, 以 85.71%的 Macro-F1 超越 CCL 中文隱喻情感識(shí)別任務(wù)第一名約 1.01%, 比基于 RoBERTa的閱讀理解(reading comprehension)式隱喻識(shí)別模型DeepMet-S 提升 1.94%。這是由于 ChatGPT 在大規(guī)模語(yǔ)料集的訓(xùn)練下, 從大量數(shù)據(jù)中學(xué)習(xí)到隱喻的模式和特征。

表3 隱喻式樣本

從表 4 可以看出, ChatGPT 在幽默任務(wù)中的表現(xiàn)相對(duì)落后于其他模型, 與基于 BERT 的強(qiáng)化語(yǔ)境與語(yǔ)義信息的幽默識(shí)別模型 BSI 相比, ChatGPT 的Macro-F1 落后 7.34%, 與基于不一致、模糊、句法特性的幽默識(shí)別模型 IASPS 相比, Macro-F1 落后7.04%。幽默識(shí)別任務(wù)涉及對(duì)語(yǔ)言上下文和語(yǔ)義的深入理解, 而 ChatGPT 對(duì)這些因素的理解不一定是最優(yōu)的。例如, 一些幽默句子中包含的網(wǎng)絡(luò)用語(yǔ)“YYDS”和“No 作 No Die”, ChatGPT 不能識(shí)別它們的真正含義。此外, BSI 等語(yǔ)言模型更專注于特定類型的情感分析任務(wù), 并且使用更好的架構(gòu)和技術(shù), 因此在幽默識(shí)別任務(wù)中表現(xiàn)更好。ChatGPT 還有很大的發(fā)展空間, 未來(lái)可以進(jìn)一步優(yōu)化模型, 以便適應(yīng)更復(fù)雜的自然語(yǔ)言處理任務(wù)。

通過實(shí)驗(yàn)還發(fā)現(xiàn), 在不改變問題線程的情況下, 隨著測(cè)試樣例的增加, ChatGPT 的性能也會(huì)相對(duì)提高(圖 1)?？梢钥闯? 準(zhǔn)確率和 Macro-F1 隨測(cè)試樣例數(shù)同步增長(zhǎng), 表明ChatGPT 在不改變線程的情況下可以有效地學(xué)習(xí)到測(cè)試樣例中的有效信息, 通過數(shù)據(jù)的反饋, 不斷改進(jìn)自身的情感分析能力, 從而不斷優(yōu)化自身模型。

表4 隱喻分析的實(shí)驗(yàn)結(jié)果(%)

圖1 ChatGPT性能指標(biāo)隨測(cè)試樣例增加的變化

4 ChatGPT 與人類判斷情感的差距

我們使用 SMP2020 微博情緒分類技術(shù)測(cè)評(píng)公開的兩個(gè)數(shù)據(jù)集 Usual 和 Humor 以及 CCL2018 隱喻數(shù)據(jù)集 Metaphor 進(jìn)行測(cè)試, 同時(shí)招募 5 名 18～35 歲不同社會(huì)身份(包括學(xué)生、工人、職員和商人等)志愿者, 經(jīng)過語(yǔ)言理解測(cè)試后, 對(duì)這 3 個(gè)數(shù)據(jù)集進(jìn)行情感、幽默和隱喻標(biāo)注, 經(jīng)過最大投票后獲得最終標(biāo)注結(jié)果。為了調(diào)查 ChatGPT 與人類情感標(biāo)注的時(shí)間效率, 統(tǒng)計(jì)兩者的分類用時(shí)(均為 5 次結(jié)果的平均值)。

如表 5 所示, ChatGPT 與人類評(píng)價(jià)在情感、幽默和隱喻數(shù)據(jù)集上均取得良好的分類結(jié)果(F1 值均超過 70%)。人類評(píng)價(jià)結(jié)果的準(zhǔn)確率與 Macro-F1 均超過 90%, 與 ChatGPT 相比, 人類情感專家在Usual, Virus 和 Metaphor 數(shù)據(jù)集上的 F1 值分別提升9.52%, 16.64%和 6.69%。這一結(jié)果表明: 1)情感、幽默與隱喻分析是挑戰(zhàn)性任務(wù); 2)盡管 ChatGPT 在文本生成和代碼生成等任務(wù)中取得令人矚目的進(jìn)步, 但其情感理解能力與人類仍然存在較大的差距。

表 6 給出幾個(gè) ChatGPT 識(shí)別錯(cuò)誤的案例。識(shí)別錯(cuò)誤的原因包括以下幾個(gè)方面。

1)上下文理解能力。ChatGPT 雖然擁有強(qiáng)大的自然語(yǔ)言處理能力, 但它的上下文理解能力比不上人類。情感分析任務(wù)需要結(jié)合上下文來(lái)理解句子或文本的情感含義, 人類可以通過背景知識(shí)、語(yǔ)境和生活經(jīng)驗(yàn), 更好地理解和識(shí)別情感, 而 ChatGPT 需要依賴已有的語(yǔ)料庫(kù)和模型訓(xùn)練數(shù)據(jù)。

表5 ChatGPT和人類在情感分析任務(wù)上的實(shí)驗(yàn)結(jié)果

表6 錯(cuò)誤舉例

2)主觀性識(shí)別。情感分析是一項(xiàng)主觀性較強(qiáng)的任務(wù), 人類在情感表達(dá)和理解方面具有很強(qiáng)的主觀能力。然而, 對(duì) ChatGPT 來(lái)說, 情感分析任務(wù)往往需要基于規(guī)則和標(biāo)注的方法進(jìn)行分類, 這種方法很難完全覆蓋所有情感表達(dá)的多樣性和主觀性。

3)跨文化和跨語(yǔ)言差異。情感分析還面臨跨文化和跨語(yǔ)言差異的問題。情感的表達(dá)和理解因不同文化和語(yǔ)言環(huán)境而異, 因此需要對(duì)不同的文化和語(yǔ)言進(jìn)行針對(duì)性的處理和訓(xùn)練。在處理跨文化和跨語(yǔ)言情感時(shí), ChatGPT 可能存在一定的困難。

4)數(shù)據(jù)不平衡和偏差。情感分析任務(wù)需要大量的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型, 但是標(biāo)注數(shù)據(jù)的質(zhì)量和平衡性對(duì)模型的性能和準(zhǔn)確度具有決定性的影響。如果數(shù)據(jù)集中的情感類別存在偏差或不平衡, 將導(dǎo)致模型對(duì)某些情感的分類能力不足, 從而影響整體性能。

綜上所述, 情感分析任務(wù)具有很強(qiáng)的主觀性和復(fù)雜性, ChatGPT 作為一種自然語(yǔ)言處理技術(shù), 還需要進(jìn)一步的改進(jìn)和優(yōu)化, 才能更好地處理這種任務(wù)。

此外, 本研究從大眾點(diǎn)評(píng)商家用戶評(píng)價(jià)中隨機(jī)選取 800 條評(píng)論, 均分為互不重疊的兩組(A 和 B)。將 A 組輸入 ChatGPT 模型中, 輸出預(yù)測(cè)情感結(jié)果, 然后讓 3 位志愿者參考此結(jié)果進(jìn)行最終標(biāo)注, 判斷該用戶對(duì)商品的情感極性。3 位志愿者能夠在 0.3小時(shí)完成 A 組 400 條評(píng)論的情感標(biāo)注, 其中 6 條評(píng)論的情感標(biāo)注錯(cuò)誤, 準(zhǔn)確率達(dá)到 98.50%。B 組不采用任何人工智能輔助工具, 由 3 位志愿者直接標(biāo)注, 經(jīng)過 1.6 小時(shí)才完成標(biāo)注, 其中 11 條評(píng)論的情感標(biāo)注錯(cuò)誤, 準(zhǔn)確率為 97.25%。上述結(jié)果表明 ChatGPT已經(jīng)可以直接輔助商家判斷用戶對(duì)商品的評(píng)價(jià), 幫助商家更好地改進(jìn)商品質(zhì)量。如果將其應(yīng)用到大規(guī)?？蛻魸M意度調(diào)研中, ChatGPT 的時(shí)效性優(yōu)勢(shì)與分析準(zhǔn)確率將會(huì)更加凸顯, 可以推動(dòng)客戶滿意度調(diào)研的智能化建設(shè)。

5 提示策略調(diào)查

ChatGPT 是一個(gè)基于“無(wú)監(jiān)督學(xué)習(xí)”的大語(yǔ)言模型, 對(duì)于自然語(yǔ)言處理任務(wù), 特定的任務(wù)提示會(huì)觸發(fā) ChatGPT 對(duì)文本的不同理解力。受文獻(xiàn)[35–36]啟示, 本文試圖通過 ChatGPT 來(lái)生成對(duì)情感分析任務(wù)的 3 個(gè)提示(圖 2)。實(shí)驗(yàn)中發(fā)現(xiàn), 不同的提示模板在任務(wù)中的表現(xiàn)存在差異, 因此需找出一種提示策略(本文只針對(duì)問答類提示和填空類提示), 使得ChatGPT 的判定結(jié)果較優(yōu)。

問答類或填空類提示策略的選擇都有可能對(duì)情感分析任務(wù)的判定結(jié)果產(chǎn)生影響。如表 7 所示, 我們?cè)O(shè)計(jì)兩個(gè)提示策略, 對(duì)于問答類提示, 本文給出精確的情感極性; 對(duì)于填空類提示, 則讓 ChatGPT填上它認(rèn)為的情感, 通過對(duì)比 ChatGPT 在兩種提示下情感分析任務(wù)的性能指標(biāo), 判定哪種提示策略對(duì)ChatGPT 實(shí)現(xiàn)情感分析任務(wù)更友好。

從表 7 可以看出, 問答類提示策略可以更清楚地填補(bǔ)問題的答案(例如情感分析中的積極、消極和中性), 只要提供足夠的上下文信息, ChatGPT 就可能做出更準(zhǔn)確的回答。問答類提示策略通常需要ChatGPT 對(duì)問題進(jìn)行理解, 然后提取相關(guān)信息, 因此 ChatGPT 只需要從問題中獲取足夠的信息, 便可在回答問題時(shí)提供最相關(guān)的情感分析結(jié)果, 這種提示方式會(huì)使 ChatGPT 更注重文本中的關(guān)鍵信息。對(duì)于填空類提示策略, 則要求 ChatGPT 根據(jù)給定的文本和填空部分進(jìn)行分析, 這種提示方式使 ChatGPT更注重上下文的理解以及對(duì)文本的整體情感的分析。在一些情況下, 填空類提示策略可能帶來(lái)更加準(zhǔn)確的情感分析結(jié)果, 因?yàn)樵谔羁疹愄崾静呗韵? ChatGPT 會(huì)更加關(guān)注文本的整體情感和上下文語(yǔ)境, 而不僅僅是某個(gè)特定的單詞或短語(yǔ)。

圖2 ChatGPT生成情感分析提示

表7 提示模板

圖 3 的實(shí)驗(yàn)結(jié)果表明, ChatGPT 使用填空類提示的性能指標(biāo)均優(yōu)于問答類提示。可以看出, 填空類提示的 F1 分值比問答類提示提高 5.41%, 表明填空類提示能提高 ChatGPT 對(duì)文本的理解力, 而不僅僅是分析文本中某個(gè)帶有情感極性的詞語(yǔ), 更適合將 ChatGPT 用于情感分析任務(wù)中。

6 結(jié)語(yǔ)

本文在 5 個(gè)情感、幽默與隱喻基準(zhǔn)數(shù)據(jù)集上, 對(duì) ChatGPT 的情感理解能力展開評(píng)估, 通過與領(lǐng)域內(nèi)最前沿模型對(duì)比, 驗(yàn)證 ChatGPT 的優(yōu)勢(shì)與局限性。實(shí)驗(yàn)結(jié)果表明, ChatGPT 能夠取得良好的情感識(shí)別結(jié)果, 獲得 86.07%的情感識(shí)別準(zhǔn)確率。此外, 本文也對(duì)比 ChatGPT 與人類在情感分析中的性能, 在情感、幽默和隱喻任務(wù)中的準(zhǔn)確率比人類結(jié)果低 9.52%, 16.64%和 6.69%。因此, 盡管 ChatGPT 在對(duì)話生成方面獲得最佳表現(xiàn), 但是其在情感理解方面仍具有改進(jìn)的潛力。最后, 本文嘗試通過改善提示模板, 表明 ChatGPT 在情感理解場(chǎng)景下對(duì)填空提示策略的適應(yīng)性更好?？偠灾? 與情感分析模型和人類情感相比, ChatGPT 在性能上尚需要進(jìn)一步改善, 但是在 80.61%的案例中獲得可接受的結(jié)果, 時(shí)間效率明顯提升, 在實(shí)時(shí)性情感分析場(chǎng)景下, 可以作為情感分析助手, 輔助人類展開情感判斷。

圖3 提示策略的實(shí)驗(yàn)結(jié)果

本文結(jié)果表明, ChatGPT 在理解語(yǔ)言方面表現(xiàn)出色, 但它僅能理解人類語(yǔ)言的表層含義, 對(duì)語(yǔ)言背后的深層含義和真正意圖的理解能力仍然有限。因此, ChatGPT 在處理復(fù)雜的語(yǔ)言任務(wù)(例如推理和隱喻理解等)時(shí), 表現(xiàn)不如人類。此外, Chat-GPT 在訓(xùn)練時(shí)僅通過海量的文本數(shù)據(jù)來(lái)學(xué)習(xí)語(yǔ)言規(guī)律和模式, 而缺乏外部知識(shí)和常識(shí)的補(bǔ)充。因此, 當(dāng)需要進(jìn)行跨領(lǐng)域或跨知識(shí)庫(kù)的任務(wù)時(shí), ChatGPT可能缺乏相關(guān)領(lǐng)域的專業(yè)知識(shí)和常識(shí), 導(dǎo)致模型輸出的錯(cuò)誤或不準(zhǔn)確。

由于算力與成本限制, 本文僅針對(duì)大語(yǔ)言模型中最具代表性的 ChatGPT 展開調(diào)查, 忽略了其他已提出的大語(yǔ)言模型, 如 GPT-4, LLaMA 和 BLOOM等。此外, 本文提出 4 種情感測(cè)試場(chǎng)景, 忽略了其他類型的情感分析任務(wù)(如諷刺識(shí)別和欲望檢測(cè)等)。對(duì)其他大語(yǔ)言模型展開全面的對(duì)比與評(píng)估, 對(duì)實(shí)現(xiàn)通用情感智能尤為必要, 也將是我們未來(lái)的研究方向。

[1] Payal M. Unexpected surprise: emotion analysis and aspect based sentiment analysis (ABSA) of user ge-nerated comments to study behavioral intentions of tourists. Tourism Management Perspectives, 2023, 45: 101063

[2] Wang T, Roberts A, Hesslow D, et al. What language model architecture and pretraining objective works best for zero-shot generalization? // International Conference on Machine Learning. Baltimore, 2022: 22964–22984

[3] Tom B, Benjamin M, Nick R, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, 33: 1877–1901

[4] Long Ouyang, Jeff W, Xu Jiang, et al. Training lan-guage models to follow instructions with human feed-back. Advances in Neural Information Processing Systems, 2022, 35: 27730–27744

[5] Cao Z, Wong K C, Lin C T. Weak human preference supervision for deep reinforcement learning. IEEE Transactions on Neural Networks and Learning Sys-tems, 2021, 32(12): 5369–5378

[6] Xu F F, Alon U, Neubig G, et al. A systematic eva-luation of large language models of code // Pro-ceedings of the 6th ACM SIGPLAN International Symposium on Machine Programming. New York, 2022: 1–10

[7] Chen T, Allauzen C, Huang Y, et al. Large-scale language model rescoring on long-form data // 2023 IEEE International Conference on Acoustics. Rhodes Island, 2023: 1–5

[8] Taylor R, Kardas M, Cucurull G, et al. Galactica: a large language model for science [EB/OL]. (2022–11–16)[2023–05–30]. https://doi.org/10.48550/arXiv.2211. 09085

[9] Touvron H, Lavril T, Izacard G, et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023–02–27) [2023–05–30]. https://doi.org/10.48550 /arXiv.2302.13971

[10] Wang Zengzhi, Xie Qiming, Ding Zixiang, et al. Is ChatGPT a good sentiment analyzer? A preliminary study [EB/OL]. (2023–04–10) [2023–05–30]. https:// doi.org/10.48550/arXiv.2304.04339

[11] Li Wenchang, Chen Yixing, John P L. Stars are all you need: a distantly supervised pyramid network for document-level end-to-end sentiment analysis [EB/ OL]. (2023–05–02)[2023–05–30]. https://doi.org/10.4 8550/arXiv.2305.01710

[12] Zhuo T Y, Huang Yuyin, Chen Chunyang, et al. Exp-loring AI ethics of ChatGPT: a diagnostic analysis [EB/OL]. (2023–05–29) [2023–05–30]. https://doi.org/ 10.48550/arXiv.2301.12867

[13] Jiao Wenxiang, Wang Wenxuan, Huang J, et al. Is ChatGPT a good translator? A preliminary study [EB/OL]. (2023–03–19) [2023–05–30]. https://doi.org/ 10.48550/arXiv.2301.08745

[14] Bang Yejin, Cahyawijaya S, Lee N, et al. A multitask, multilingual, multimodal evaluation of ChatGPT on reasoning, hallucination, and interactivity [EB/OL]. (2023–02–28)[2023–05–30]. https://doi.org/10.48550/ arXiv.2302.04023

[15] Liu Chang, Wang Jie, Liu Xuemeng, et al. Deep CM-CNN for spectrum sensing in cognitive radio. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2306–2321

[16] 李衛(wèi)疆, 漆芳. 基于多通道雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的情感分析. 中文信息學(xué)報(bào), 2019, 33(12): 119–128

[17] Jiang Q, Chen L, Xu R, et al. A challenge dataset and effective models for aspect-based sentiment analysis // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, 2019: 6280–6285

[18] Mao Longbiao, Yan Yan, Xue Jinghao, et al. Deep multi-task multi-label CNN for effective facial attri-bute classification. IEEE Transactions on Affective Computing, 2020, 13(2): 818–828

[19] Wang Bingkun, Shan Donghong, Fan Aiwan, et al. A sentiment classification method of web social media based on multidimensional and multilevel modeling. IEEE Transactions on Industrial Informatics, 2022, 18(2): 1240–1249

[20] Liu Jian, Teng Zhiyang, Cui Leyang, et al. Solving aspect category sentiment analysis as a text generation task // Proceedings of the 2021 Conference on Empi-rical Methods in Natural Language Processing. Punta Cana, 2021: 4406–4416

[21] Li Yuncong, Yang Zhe, Yin Cunxiang, et al. A joint model for aspect-category sentiment analysis with shared sentiment prediction layer // China National Conference on Chinese Computational Linguistics. Hainan, 2020: 388–400

[22] Jia S, Cao J. The method for plausibility evaluation of knowledge triple based on QA // China Conference on Knowledge Graph and Semantic Computing. Singa-pore, 2022: 228–235

[23] 方澄, 李貝, 韓萍, 等. 基于語(yǔ)法依存圖的中文微博細(xì)粒度情感分類. 計(jì)算機(jī)應(yīng)用, 2023, 43(4): 1056–1061

[24] Amoroso F. Adaptive A/D converter to suppress CW interference in DSPN spread-spectrum communica-tions. IEEE Transactions on communications, 1983, 31(10): 1117–1123

[25] Yang Z, Dai Z, Yang Y, et al. XLNet: generalized autoregressive pretraining for language understanding. Advances in Neural Information Processing Systems, 2019, 32: 5754–5764

[26] Liu B. GCN-BERT and memory network based multi-label classification for event text of the Chinese government hotline. IEEE Access, 2022, 10: 109267–109276

[27] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521: 436–444

[28] 楊春霞, 姚思誠(chéng), 宋金劍. 一種融合字詞信息的中文情感分析模型. 計(jì)算機(jī)工程與科學(xué), 45(3): 512–519

[29] 方澄, 李貝, 韓萍. 基于全局特征圖的半監(jiān)督微博文本情感分類. 信號(hào)處理, 2021, 37(6): 1066–1074

[30] Khan S, Naseer M, Hayat M, et al. Transformers in vision: a survey. ACM Computing Surveys (CSUR), 2022, 54(10): 1–41

[31] 張聲龍, 劉穎, 馬艷軍. SaGE: 基于句法感知圖卷積神經(jīng)網(wǎng)絡(luò)和ELECTRA的中文隱喻識(shí)別模型// 第二十屆中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì). 呼和浩特, 2021: 667–677

[32] Deepa M D. Bidirectional encoder representations from transformers (BERT) language model for senti-ment analysis task. Turkish Journal of Computer and Mathematics Education, 2021, 12(7): 1708–1721

[33] Cao H, Wang Y, Chen J, et al. Swin-Unet: Unet-like pure transformer for medical image segmentation // European conference on computer vision. Cham, 2022: 205–218

[34] 趙一鳴, 潘沛, 毛進(jìn). 基于任務(wù)知識(shí)融合與文本數(shù)據(jù)增強(qiáng)的醫(yī)學(xué)信息查詢意圖強(qiáng)度識(shí)別研究. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7(2): 38–47

[35] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, 33: 1877–1901

[36] Wei J, Wang Xuezhi, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 2022, 35: 24824–24837

Can ChatGPT Be Served as the Sentiment Expert? An Evaluation of ChatGPT on Sentiment and Metaphor Analysis

ZHANG Yazhou1,2, WANG Mengyao1, RONG Lu3, YU Yang1, ZHAO Dongming4, QIN Jing2,?

1. School of Software Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002; 2. School of Nursing, The Hong Kong Polytechnic University, Hong Kong 999077; 3. Human Resources Office, Zhengzhou University of Light Industry, Zhengzhou 450002; 4. Artificial Intelligence Laboratory, China Mobile Communication Group Tianjin Co, Tianjin 300020; ? Corresponding author, E-mail: harry.qin@polyu.edu.hk

To explore the potential for subjective understanding, the subjectivity and metaphorical nature of ChatGPT, this paper evaluates ChatGPT on five sentiment, humor, and metaphor benchmark datasets and discusses its strengths and limitations on different tasks by comparing it with the most cutting-edge models in the field. In addition, this paper also compares the performance of ChatGPT and humans in sentiment analysis, with gaps of 9.52%, 16.64% and 6.69% in human results on sentiment, humor and metaphor tasks. The results suggest that although ChatGPT achieves the best performance in dialogue generation, it still has potential for improvement in sentiment understanding. Finally, this paper investigates ChatGPT’s sensitivity to cueing templates in an emotion understanding scenario by improving the cueing templates.

ChatGPT; sentiment analysis; humor detection; metaphor recognition

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

ChatGPT可否充當(dāng)情感專家？——調(diào)查其在情感與隱喻分析的潛力

1 相關(guān)研究

2 評(píng)估方法

2.1 測(cè)試任務(wù)

2.2 實(shí)驗(yàn)數(shù)據(jù)

2.3 評(píng)估標(biāo)準(zhǔn)

3 實(shí)驗(yàn)結(jié)果

3.1 情感分析的實(shí)驗(yàn)結(jié)果

3.2 隱喻和幽默任務(wù)的實(shí)驗(yàn)結(jié)果

4 ChatGPT 與人類判斷情感的差距

5 提示策略調(diào)查

6 結(jié)語(yǔ)