Subjective knowledge dialogue response generation model based on ABSA and dynamic few-shot prompting
Rao Dongning,Zhuang Jietao (School ofComputers,Guangdong UniversityofTechnology,Guangzhou 51ooo6,China)
Abstract:Inthelatest task-oriented dialoguesystem challenges,efectivelyutilizing subjective knowledge(e.g.,personal opinions)iscrucialforaddresingusers’specificneeds.However,duetotheiherentlysubjectivenatureofsuchknowledge, howto efectively integrate and leveragethis information hasbecome a key focus of research.This paper proposeda method called DynSense,aimedataddresing thechallngeof generatingcomprehensiveand generalizedresponsesfrommultiplerelevant subjective user opinions.DynSense firstlyemployedaspect-basedsentiment analysis (ABSA)to parse the aspects and sentiment polarities withinsubjective knowledge snippets,aligning them with theuser’squery.Then,it utilizedanadvanced dialoguemodel thatcombined thedialoguecontext withABSA-enhanced information to generateresponses.AspeciallydesignedDynMatchalgorithm guidedthe model to generate morerelevantresponses bydynamicallselecting high-quality knowledgefragmentsmost similartothecurrentqueryasfew-shot prompts.The experimental resultsdemonstrate thatDynSense exhibits exceptionalabilityincapturing latentsemantic featuresand emotional tendencies,generating precise,comprehensive, andhighlyalignedresponses basedonpastuserreviews.Compared toexisting models,DynSenseshowssignificantimprovements across various evaluation metrics on the SK-TOD benchmark.
Key words:task-oriented dialogue systems;subjectiveknowledge;aspect-based sentiment analysis (ABSA);dynamic fewshot prompts
0引言
經(jīng)典的任務導向型對話系統(tǒng)主要依賴于事實性知識,例如文獻[1\~4]中所使用的常見問題(FAQ)數(shù)據(jù)庫。然而,Majumder等人[5]的研究表明,對話建模正在向融入主觀信息的方向轉變。這包括個性化的數(shù)據(jù),如用戶體驗、個人見解及用戶偏好,從而使對話更具情境相關性和吸引力。通過整合主觀知識,現(xiàn)代對話系統(tǒng)旨在增強其響應性和個性化能力,進而提升用戶滿意度及對話整體質量。這一轉變不僅克服了純事實性互動的局限,還滿足了對更細膩、更人性化對話不斷增長的需求。
第十一屆對話系統(tǒng)技術挑戰(zhàn)賽(The11thDialogSystemTechnologyChallenge,DSTC11)作為最新的國際對話系統(tǒng)技術競賽,發(fā)布了首個結合主觀知識與客觀知識的任務導向型對話系統(tǒng)基準數(shù)據(jù)集——SK-TOD(subjective knowledge-groundedtask-orienteddialogue)[6]。該數(shù)據(jù)集標志著對話系統(tǒng)研究領域的一大進步,因為它首次將用戶評論等主觀信息與FAQ等客觀信息融合在一起,用于構建更加情境化和人性化的對話系統(tǒng)。圖1展示了一個SK-TOD的具體實例,系統(tǒng)需要根據(jù)包含“cozyambiance”在內的用戶評論(主觀知識)以及FAQ(客觀知識),綜合生成對“environmentandatmosphere”這一詢問(即對話中的最后一個提問)的回答。藍色詞“environmentand at-mosphere”是用戶詢問的方面。主觀知識片段中,紅色詞語表示正面評價,棕色詞語表示負面短語(見電子版)。
文獻[7\~11]表明,盡管預訓練對話模型或通過提示工程引導的大規(guī)模語言模型在經(jīng)典對話生成任務中展現(xiàn)了令人滿意的表現(xiàn),但在SK-TOD基準測試中,如何有效地引導這些模型從眾多主觀知識中提煉出相關要素,并生成能全面反映過往評價的綜合性回復,依然是一個艱巨的挑戰(zhàn)。此外,由于主觀知識通常包含大量與當前詢問無關的信息,處理這些噪聲成為了一個需要解決的問題,并且模型生成的回復在情感準確性方面與預期標準之間仍存在差距[12]。這表明,要在保持對話自然流暢的同時,確保回復的情感契合度,還需要進一步的技術創(chuàng)新和方法探索。
為此,本文提出了一種面向SK-TOD基準的動態(tài)少樣本提示與基于ABSA增強的回復生成(dynamicfew-shotpromptingandABSA-enhanced response generation,DynSense)方法。首先引入了基于方面的情感分析(ABSA)[13]技術,以精確捕捉知識片段中不同方面的情感分布,并為后續(xù)生成過程提供更多語義支持。此外,為實現(xiàn)用戶詢問與相關知識片段的方面對齊,本文運用相同技術抽取并構建方面項,以此引導模型聚焦關鍵信息,濾除無關內容。隨后,本文提出了基于相似對齊的動態(tài)樣本選擇(dynamic sample selection via similarity alignment,Dyn-Match)。該算法通過動態(tài)選取與當前詢問最為匹配的對話樣本構建少樣本提示(few-shotprompts),有效引導模型學習合適的回復風格,縮小生成回復與標準回復之間的差距。最終,利用先進的對話系統(tǒng)模型生成基于對話上下文和經(jīng)ABSA增強的知識片段的回復。
本文的貢獻如下:a)通過ABSA捕捉主觀知識片段的情感傾向和方面信息以進行數(shù)據(jù)增強;b)提出DynMatch算法用于動態(tài)選擇最相似的樣本構建少樣本提示;c)系統(tǒng)性評估了所提方法在預訓練模型和大型語言模型中的有效性,驗證了其廣泛的適用性和優(yōu)越性能。
1背景知識
1.1SK-TOD基準:第十一屆對話系統(tǒng)技術挑戰(zhàn)賽賽題五
最近,任務導向型對話研究領域意識到,使對話系統(tǒng)能夠利用主觀知識(如用戶評論或反饋)變得尤為重要。因此,自2013年以來一直為對話研究提供通用測試平臺的DSTC(對話系統(tǒng)技術挑戰(zhàn)賽),在其最近舉辦的第十一屆比賽中(DSTC11)將SK-TOD挑戰(zhàn)設為第五賽道。此次發(fā)布的SK-TOD數(shù)據(jù)集是首個包含主觀知識的任務導向型對話的基準數(shù)據(jù)集,這種類型的知識在其他自然語言處理應用中也有研究,例如意見挖掘[14]和問答系統(tǒng)[15]
值得關注的是,經(jīng)典的任務導向型對話系統(tǒng)幫助用戶完成特定目標,例如,將用戶輸入轉換為語義表示,包括領域、意圖、槽位等,但其受限于領域API或數(shù)據(jù)庫等事實性知識。而SK-TOD旨在突破這一限制,通過整合外部的主觀知識,來增強對話系統(tǒng)的響應能力。這種方法不僅提升了對話的自然度和信息量,還使得系統(tǒng)能夠更好地理解和適應用戶的個性化需求。然而,這也引入了新的挑戰(zhàn),例如如何有效地篩選和聚合不同來源的主觀信息,確保生成的回復既準確又具代表性。此外,面對眾包數(shù)據(jù)的質量參差不齊,確保模型生成的回復在保持信息完整性的同時,還能維持高精度和高召回率,成為了SK-TOD研究中的關鍵議題。
在競賽中涌現(xiàn)出了許多杰出的想法,例如Ke等人[16]利用模型集成策略來應對生成任務中未見過的實例。此外,大語言模型在競賽中也有大量的應用,比如Jung等人[1]使用大語言模型進行主觀知識數(shù)據(jù)增強,Krause等人[17]使用瀑布式提示技術生成回復。值得注意的是,大語言模型的生成效果在基于n-gram匹配的評測指標下并未表現(xiàn)出超過預訓練模型的效果,本文也將在后續(xù)篇幅和實驗中討論這個問題。
1.2基于方面項的情感分析:捕捉用戶傾向的重要工具
鑒于SK-TOD著重于處理主觀知識,準確分析評論者的情感傾向顯得尤為關鍵。情感分析作為一項廣受青睞的技術,在此領域內發(fā)揮著重要作用。更進一步地,基于方面的情感分析(ABSA)不僅能夠有效地識別文本中的情感極性,而且還能夠精細地提取出具體提及的各個方面。當前最為先進的技術之一便是InstructABSA[13],它通過在每個訓練樣本中引入正面、負面以及中立的例子來進行指令優(yōu)化。
在本文中,進一步強調了ABSA在對齊用戶查詢與主觀知識片段方面的作用,這有助于剔除無關的知識要素,從而減少其對生成結果的潛在影響。此外,更細粒度的情感分析結果能夠指導模型生成更具情感概括性的回復。
1.3提示工程:大模型時代的新范式
在對話系統(tǒng)中,提示工程(promptengineering)的應用日益凸顯其重要性,尤其是在提升人機交互質量和自然度方面。提示工程通過精心設計輸入給模型的提示信息,能夠顯著改善模型生成輸出的質量與相關性[18]
本文著重強調了利用相似對齊策略動態(tài)構建少樣本提示(few-shotprompts)的方法,旨在增強模型響應的一致性,并實現(xiàn)用戶輸入與系統(tǒng)預期響應模式的有效對齊,從而消除非相關反饋,提高對話流程的效率與準確性。
2 問題定義
在SK-TOD中,對話上下文被表示為一個對話序列 U 令u∈U 為對話中的第 i 個對話序列,設 Φt 為當前時間步,則 Ut= u1,…,ut 。此外,對于給定的對話,有 n 個( n∈N) 知識片段,即 K={k1,…,kn} 。對話系統(tǒng)應基于 Ut 以及所有相關知識片段 K ,生成一條回復 ,即
3 DynSense
3.1 總體框架
SK-TOD挑戰(zhàn)在通用知識的基礎上引入了主觀知識,但如何有效引導模型捕捉主觀觀點,以賦予對話系統(tǒng)更為精細的情感感知能力,依然是一項巨大的挑戰(zhàn)。為了解決這一問題,
DynSense提出了一種創(chuàng)新的知識增強方法,結合了ABSA技術與領域知識庫,能夠有效地為每個知識候選項添加情感極性、方面和觀點信息,從而為生成模型提供更加精細和情感豐富的輸入。在此基礎上,DynSense引入了DynMatch算法,通過示例提示引導模型學習如何基于ABSA增強后的主觀知識和上下文片段生成回復。DynMatch不僅通過動態(tài)選擇與當前對話相關的高質量示例,幫助模型更好地理解用戶的情感需求,還能夠引導模型學習特定的回復風格,使得生成的回復更具一致性和個性化。
如圖2所示,DynSense的整體架構包含ABSA知識增強模塊和回復生成模塊,這兩個模塊在流水線中依次運行。
在ABSA知識增強模塊中,系統(tǒng)首先從對話上下文中識別出相關實體,并從無結構的領域知識庫中收集與對應實體相關的主觀知識作為候選知識。隨后,系統(tǒng)通過方面情感分析技術(ABSA)為每個知識候選項添加相關的方面條目、觀點條目以及情感極性信息,以便提供更全面的知識表示。這種基于ABSA的知識增強有助于更準確地捕捉用戶的意圖和情感,從而提升模型的表現(xiàn)。
在回復生成模塊中,系統(tǒng)將對話上下文與ABSA增強后的知識片段進行結構化拼接,構造語義豐富的上下文輸入。隨后,系統(tǒng)利用基于相似對齊的示例選擇方法(DynMatch)動態(tài)構建少量高相關性的示例提示,以引導生成過程。最后,系統(tǒng)通過BARTGPT-4或LLaMA-3等強大的生成模型生成最終回復,確保輸出內容不僅符合用戶的語境需求,還能夠整合相關的主觀知識和用戶情感。
3.2 ABSA知識增強模塊
ABSA知識增強模塊通過InstructABSA實現(xiàn),旨在通過指令提示來執(zhí)行ABSA中的方面情感對提?。╝spectsentimentpair extraction,ASPE)任務。
給定一個句子 Si=(w1i,…,wni) ,其中 n 是句子中的詞匯數(shù),ASPE的目標是識別并提取句子中的方面項及其對應的情感極性。具體來說,對于每個輸入樣本,通過添加特定任務指令提示 InstASPE 微調語言模型。 InstASPE 的結構如下:
InstASPE=Definition+2×PosEx+2×NegEx+2×NeuEx (2)其中:Definition是ASPE任務描述; PosEx,NegEx 和 NeuEx 分別表示正面例子、負面例子和中立例子。
因此,基于InstructABSA實現(xiàn)的ASPE任務可以描述為
[Ai,SPi]=LMASPE(Si∣InstASPE)
其中 是 Si 中的方面項集合,且 m?n;SPi= (sp1i,…,spmi) 是每個方面項對應的情感極性集合, spki∈{ posi-tive,negative,neutral; LMAPSE 是專門為ASPE任務訓練或微調的語言模型。
本文進一步構建了一個增強知識庫,通過擴展原有知識片段的方面項和對應情感傾向,顯著豐富了其知識的表現(xiàn)形式。
對于原始知識片段 ,經(jīng)過InstructABSA的處理后,得到新的知識片段集合 K'={k1′,…,kn′} ,其中每個
包含了原知識片段 ki 擴展后的信息。具體而言,每個擴展后的知識片段
可以表示為
k′i=ki∪{(Aj,SPj)}j=1m
其中 ?j 指的是第 j 組方面情感對,共有 ?m 組。
構建增強知識庫的過程可以描述為
K′=∪i=1n(ki∪{(Aj,SPj)}j=1m)
此外,對于用戶詢問句,本文特別關注其與知識片段中方面項的精準對齊。在提取過程中,采用了與知識片段處理相似的流程,但僅保留方面項信息,忽略情感極性標簽。這樣的雙重用途設計,使得ABSA增強模塊在知識提取和情感分析任務中展現(xiàn)出更高的靈活性與實用性。實驗顯示用戶查詢和知識片段中總共包含2277個方面項,涵蓋多種實體和情感主題。
3.3DynMatch算法
DynMatch算法(算法1)通過從候選集中動態(tài)選擇與當前用戶詢問最相似的 n 組對話,并利用這些對話中的知識片段和參考回復來構建少樣本提示(few-shotprompt)。
算法1DynMatch算法
輸入:候選對話樣本集合CS,其中上下文的最后一句被稱為查詢;所有知識片段的集合 KB ;當前用戶詢問句 q ;需要選取的最相似案例數(shù) n
輸出 knmm{Ω,rn}{ :
選取的最相似案例及其對應的知識片段和參考回復
1將 q 編碼為 eq ,并將每個查詢 q′∈CS 編碼為 eq′
2將所有 eq′ 保存到向量數(shù)據(jù)庫中
3使用Faiss找到與 eq 最相似的前 n 個查詢句 q1* *,q2*,…,qn*
4初始化 s 為空列表
5for i=1 到 n do
6 獲取 qi* 對應的所有知識片段 {ki1,ki2,…,kimi} 和參考回復 ri
7 將 添加到 s 中
8 end for
9 return
DynMatch算法首先從SK-TOD數(shù)據(jù)集的訓練集構造一個少量示例候選集(CS),隨后,它將 中所有用戶詢問句進行編碼,得到對應的嵌入表示并構建向量數(shù)據(jù)庫(第1、2行)。對于當前用戶的詢問,通過查詢向量數(shù)據(jù)庫,找到最相似的前n 個查詢 q1* …,qn* 。最后,遍歷這 Ωn 個最相似的詢問案例,獲取每個案例對應的所有知識片段及參考回復,形成最終結果集s (第3\~9行)。
根據(jù)文獻[19],相似度得分定義如式(6)所示,即給定兩個 d 維向量 X 和 Y ,使用Faiss中的IndexFlatL2計算得到相似度分數(shù)并獲取索引信息。
3.4基于DynMatch及ABSA增強的回復生成模塊
通過將實體-方面-情感作為知識的一部分(即ABSA增強后的知識),同時,多個相似案例在提示模板中的示例部分得以層次化構建,從而引導模型學習生成具有針對性的輸出模式。
如圖3所示,基于當前對話上下文和知識片段,根據(jù)Dyn-Match算法動態(tài)獲取與其最相似的 n 個案例之后,DynSense構建了一個結構化的提示promptDynSense:
FormatCurCase(q,K′)
其中:Definition是任務描述;FormatCase和FormatCurCase是格式化函數(shù),分別用于將相似案例和當前用戶案例整合成結構化文本,兩者不同之處在于后者的回復由模型生成。
之后,模型接收 promptDynSense 并生成對當前用戶查詢的回復:
其中 ?f 是生成模型; θ 是模型參數(shù): 是模型輸出文本。
為使生成的回復 盡可能接近真實的目標回復 r ,本文使用交叉熵損失(cross-entropyloss)來優(yōu)化模型參數(shù) θ
其中: T 是回復的長度(即目標回復的詞數(shù)); yt 是目標回復 r 中第 Φt 個詞的真實分布; 是生成模型 fθ 在第 Φt 個時間步上生成的詞的概率分布。
4 實驗與分析
4.1數(shù)據(jù)集策略
本文使用的數(shù)據(jù)集來自于DSTC11track5賽事數(shù)據(jù)集SK-TOD,該數(shù)據(jù)集是MultiWOZ2.1的增強版本,該版本數(shù)據(jù)集引入了一個額外的主觀知識庫(reviews/faqs),是目前唯一一個面向主觀知識融入的多領域任務型對話基準數(shù)據(jù)集。
此外,對于DynMatch算法,本文將訓練集劃分為兩個子集:一個較大的子集用于訓練,另外一個較小的子集用于選擇少樣本示例。這兩個子集在知識片段標簽數(shù)量方面具有相同的分布。具體數(shù)據(jù)分布可見表1、2。
4.2 實驗設置
本研究選用BART-Large作為預訓練語言模型,并選用了包括GPT、Claude 、Llama、DeepSeek、Qwen 在內的主流大規(guī)模語言模型進行對比分析。同時,以InstructABSA-2作為ABSA增強模塊的核心模型,并利用SBERTall-MiniLM-L6-V2與Faiss-gpu 1.5.3 構建向量數(shù)據(jù)庫。所有實驗均在兩塊RTX3090(24GB內存)顯卡上運行,整個項目基于PyTorch框架開發(fā)。
本文使用生成任務常見的評估指標來評估生成回復的質量,包括METEOR(M)[20]、GLEU(G)[21]、BERTScore(B)[22]CIDEr(C)[23]、Interesting(I)[24]、Entailment(E)[25]。此外,考慮到對話系統(tǒng)的特殊性,引入了專門為此類系統(tǒng)設計的評價標準[26]。本文利用大語言模型(LLM)為基礎的評估方法(例如GPT3.5),對生成回復的恰當性、正確性和情感準確性進行評估。圖4提供了大模型評估的范例。
4.3 實驗結果與分析
為了全面評估本文方法在SK-TOD基準測試中的性能提升,本文選擇賽事官方baseline(表3中的DSTCbaseline,微調BART-base模型)作為對比基線之一。此外,選取了賽事中表現(xiàn)最優(yōu)的三個方案作為基準進行對比(第一名:team13;第二名:teaml4;第三名:team7):
a) tan13[27] :引入偽標簽機制標識包含正負評價的知識片段,并使用大型語言模型(如GPT-3)進行數(shù)據(jù)增強以生成更多樣化的訓練樣本,從而提升模型處理混合意見的能力。
b) tan14[28] :通過集成BART、Long-T5和LLaMA等多個大型語言模型,并采用低秩適應(LoRA)技術優(yōu)化資源利用,同時使用GPT-4對生成的回復進行評分排序,最終實現(xiàn)了一個高效且性能優(yōu)越的回復生成系統(tǒng)。
c) 1eam7[16] :提出了一種差異感知集成方法(difference-awareensemblemethod),通過組合不同專長的模型(如處理已見實例、未見實例以及噪聲環(huán)境的專家模型)的優(yōu)勢,來優(yōu)化最終的回復生成。
此外,為了進一步驗證DynSense方法的通用性,本文進行了廣泛的實驗,將多種先進的語言模型作為DynSense架構的主干組件,包括但不限于BART[29]、 GPT[30,31] 、LLaMA[32,33]Claude Qwen[33] 、DeepSeek[34]和 ChatGLM[35]
如表3所示,DynSense在1-shot設置下其性能達到最優(yōu),全面超越了所有基線方法。通過1-shot(DynMatch)與1-shot(Rnd)及 0-shot 的消融實驗可以看出,DynMatch算法構建的動態(tài)少樣本提示,有效地引導模型學習輸出模式,表現(xiàn)出顯著的性能優(yōu)勢。
另一方面,隨著Few-Shot樣本數(shù)量的增加,整體性能呈現(xiàn)出非線性變化的趨勢:從1-shot到2-shot,階段性能出現(xiàn)一定程度的下降,但在 3-shot 設置下則有所回升。在1-shot設置中,由于單一樣本的信息明確且結構化,模型能夠有效提取關鍵特征;然而,2-shot設置下,樣本之間可能存在語義沖突或冗余信息,增加了模型對關鍵信息聚焦的難度,進而影響性能表現(xiàn)。當樣本數(shù)量進一步增加到3-shot時,更多的語義和上下文信息為模型提供了額外的支持,緩解了樣本間潛在的矛盾,并顯著提升了模型的整體性能。
表4進一步表明,在SK-TOD基準上,使用BART作為預訓練模型進行微調,比采用大語言模型作為骨干模型更為有效。值得關注的是,基于大語言模型的基線方案在Entailment(E)[25]分數(shù)上表現(xiàn)突出,這表明了大語言模型對于主觀知識的學習理解更為深刻。然而,大部分情況下,大語言模型傾向于生成更長的回復,導致在METEOR(M)[20]、GLEU(G)[21]等以 n -gram為基礎的評價指標上表現(xiàn)不佳。通過采用DynSense方法,可以在保持大語言模型強大的學習能力的同時,引導其生成更短的回復,這些回復更接近于參考回復,從而在多個評價指標上實現(xiàn)顯著提升。此外觀察到,ChatGLM在對ABSA增強型主觀知識的理解能力上存在一定的局限性,其輸出結果未能超越簡單的復述層面,未能提供深人的情感傾向總結或有價值的回復內容,這使得輸出對于實際應用來說效用有限。值得注意的是,在涉及其他大語言模型的基準實驗中也偶有類似現(xiàn)象出現(xiàn)。然而,通過引入DynSense,所有參與測試的大語言模型均能夠有效依據(jù)示例提示,學習相關知識片段中的ABSA背景信息,并生成更為綜合且富有洞見的回復。
表5展示了基于大型語言模型對回復質量的評估結果,評估維度包括恰當性、正確性和情感準確性。在這些評估指標上,Dyn-Sense在結合不同語言模型時表現(xiàn)出了顯著的性能優(yōu)勢,表明其在引導模型生成更符合實際需求的回復方面具有強大的能力。此外,通過對比基準大模型實驗與應用了DynSense方法的大模型實驗結果,進一步驗證了DynSense在與不同語言模型結合時所展現(xiàn)出的穩(wěn)定性和適應性。
此外,圖5通過100個樣本可視化了用戶詢問的嵌人表示,表明大多數(shù)樣本對之間的語義距離較近,進一步驗證了DynMatch算法的有效性。
最后,表6提供了對圖1案例多模型生成結果的對比分析。結果顯示, DynSenseBART-large 的回復與參考回復最為接近;GPT-4o的回復雖然保留了充分的過往評論細節(jié),但略顯冗長;通過引人DynSense、GPT-4o的回復,在語言上變得更加簡練,并且風格更貼近參考回復。相比之下,DSTCbaseline模型的回復最為概括,但在細節(jié)和情感表達方面有所不足。
5結束語
主觀知識對話系統(tǒng)在電子商務平臺(如淘寶和天貓)、旅游服務平臺(如攜程和去哪兒)以及餐飲服務平臺(如美團和餓了么)的評論自動回復中,展現(xiàn)出巨大的應用潛力。這類系統(tǒng)不僅能夠處理以往難以量化的主觀性問題,例如統(tǒng)計用戶好評的比例,還能顯著減少人工客服的介人,提供即時且成本效益高的響應機制,從而為用戶提供精準且極具參考價值的反饋。此外,這些系統(tǒng)能夠快速識別并回應顧客的情感傾向和具體關切,無須人類干預即可保持高效運作,確保全天候的支持。這不僅提升了客戶滿意度,還優(yōu)化了運營效率。
為了進一步提升這種系統(tǒng)的性能,本文提出了DynSense方法,該方法融合了ABSA技術,并引入了動態(tài)構建少量樣本提示(few-shotprompts)的DynMatch算法,在主觀知識驅動的對話系統(tǒng)任務中取得了顯著進展。廣泛的實驗證明,DynSense不僅能夠有效地識別并利用關鍵信息元素,還能引導模型學習與目標輸出相匹配的模式,且其在不同的語言模型上表現(xiàn)出良好的適應性和兼容性。在未來的工作中,筆者計劃進一步拓展DynSense的能力,包括探索更多的外部知識源(例如電影評論、書籍評價等)及多語言語料的應用,以期構建更加豐富多元
的主觀知識庫,進而促進 SK-TOD 基準測試的持續(xù)發(fā)展與完善。
參考文獻:
[1]Vath D, VanderlynL, VuNT. Conversational tre search:anewhybrid dialog task [C]//Proc of the 17th Conference of the European Chapter of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2O23:1264- 1280.
[2]徐愷,王振宇,王旭,等.基于強化學習的任務型對話策略研究 綜述[J].計算機學報,2024,47(6):1201-1231.(Xu Kai, Wang Zhenyu,Wang Xu,etal. A survey of task-oriented dialogue policies based on reinforcement learning[J]. Chinese Journal of Computers,2024,47(6):1201-1231.)
[3]羅紅,陸??。惥昃?,等.基于雙層解碼的多輪情感對話生成 模型[J].計算機應用研究,2024,41(6):1778-1783.(Luo Hong,Lu Haijun,Chen Juanjuan,et al.Multi-turn emotion dialogue generation model based on dual-decoder[J].Application Research of Computers,2024,41(6): 1778-1783.)
[4]汪紅松,葉浩賢,李嘉展.融合背景知識和常識感知的對話生成 [J].計算機應用研究,2024,41(10):2993-299.(Wang Hongsong,Ye Haoxian,Li Jiazhan.Integration of background knowledge and common sense perception for dialogue generation[J]. Application Research ofComputers,2024,41(10):2993-2999.)
[5]Majumder BP,Jhamtani H,Berg-Kirkpatrick T,et al.Achieving conversational goals with unsupervised post-hoc knowledge injection [C]//Proc of the 6Oth Annual Meting of the Assciation for Computational Linguistics(Volume1:Long Papers). Stroudsburg,PA:Association for Computational Linguistics, 2022: 3140-3153.
[6]Kim S,Gella S,Zhao C,et al.Task-oriented conversational modeling with subjective knowledge track in DSTC11[C]// Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023:274-281.
[7]He Wanwei,Dai Yinpei, Zheng Yinhe,et al. GALAXY:a generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2022:10749- 10757.
[8]Guo Shuyu,Zhang Shuo,Sun Weiwei,et al.Towards explainable conversational recommender systems [C]//Proc of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press,2023:2786-2795.
[9]Wang Xi,Rahmani H,Liu Jiqun,et al. Improving conversational recommendation systems via biasanalysis and language-modelenhanced data augmentation [C]//Findings of the Association for Computational Linguistics: EMNLP 2O23. Stroudsburg,PA: Association for Computational Linguistics,2023:3609-3622.
[10]Lee Y J,Lim C G,Choi H J.Does GPT-3generate empathetic dialogues?A novel in-context example selection method and automatic evaluation metric for empathetic dialogue generation [C]//Proc of International Conference on Computational Linguistics.2022.
[11] Jung H, Yeen H, Lee J,et al. Enhancing task-oriented dialog system with subjective knowledge:a large language model-based data augmentation framework[C]//Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023:150-165.
[12] Zhao Chao,Gella S,Kim S,et al.“What do others think?”: Taskoriented conversational modeling with subjective knowledge[C]// Proc of the 24th Meeting of the Special Interest Group on Discourse and Dialogue. Stroudsburg,PA:Association for Computational Linguistics,2023: 309-323.
[13]Scaria K,Gupta H,Goyal S,et al. InstructABSA:instruction learning for aspect based sentiment analysis [C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg,PA:Association for Computational Linguistics,2024:720-736.
[14] Zhao He,Huang Longtao,Zhang Rong,et al. SpanMlt:a spanbasedmulti-task learning framework forpair-wise aspect and opinion termsextraction[C]//Proc of the58th Annual Meetingof the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics,2020:3239-3248.
[15]Bjerva J,Bhutani N,Golshan B,et al. SubjQA:a dataset for subjectivity and review comprehension[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2020: 5480-5494.
[16]Ke Changxin,Sun Churui,Ma Longxuan,et al.A diffrence-aware ensemble method for task-oriented dialoguewith subjectiveknowledge [C]//Proc of the11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023: 216-225.
[17]Krause L, Santamarfa SB,Van der Meer M, et al. Leveraging fewshot data augmentation and waterfall prompting for response generation [C]//Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023: 193-205.
[18]Liu Pengfei,Yuan Weizhe,F(xiàn)u Jinlan,etal.Pre-train,prompt,and predict:a systematic survey of prompting methods in natural language processing[J]. ACM Computing Surveys,2023,55(9):195.
[19]Sun Yiyou,Ming Yifei,Zhu Xiaojin,et al. Out-of-distribution detection with deep nearest neighbors[EB/OL].(2022-12-08).https://arxiv.org/abs/2204.06507.
[20]Banerjee S,Lavie A.METEOR:an automatic metric for mt evaluation with improved correlation with human judgments[C]//Proc of ACLWorkshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA:Association for Computational Linguistics,20o5:65-72.
[21] Wu Yonghui, Schuster M, Chen Z,et al. Google’s neural machine translation system:bridging the gap between human and machine translation[EB/OL].(2016-09-27)[2024-11-04].http://arxiv. org/abs/1609.08144.
[22] Zhang Tianyi,Kishore V,Wu F,et al.BERTScore:evaluating text generation with BERT[C]//Proc of International Conferenceon Learning Representations.2020.
[23] Vedantam R, Zitnick C L,Parikh D. CIDEr:consensus-based image description evaluation [C]//Proc of IEEE Conference on Computer Vision and Patern Recognition. Piscataway,NJ: IEEE Press, 2015: 4566-4575.
[24]Prasad A,Saha S,ZhouXiang,et al.ReCEval:evaluating reasoning chains via correctness and informativeness[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics,2023:10066-10086.
[25]Mehri S,Eskenazi M.Unsupervised evaluationof interactive dialog with DialoGPT[C]//Proc of the 21st Annual Meeting of the Special Interest Group on Discourse and Dialogue,the 1st Virtual Meeting. Stroudsburg,PA:Association for Computational Linguistics,2020: 225-235.
[26]Jiang Zhihua,Ye Guanghui,Rao Dongning,et al.IM2:an interpretable and multi-category integrated metric framework for automatic dialogue evaluation [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2022:11091-11103.
[27]Joo S,LeeKIl,Min K,etal.Leveraging ensemble techniques and metadata for subjective knowledge-grounded conversational systems [C]//Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023: 206-215.
[28]Huang Xin,TanKM,Duan Richeng,et al.Ensemble method via ranking model for conversational modeling with subjective knowledge [C]//Procof the1th Dialog System Technology Challnge. Stroudsburg,PA:Association for Computational Linguistics,2023: 177-184.
[29]Lewis M,Liu Yinhan,Goyal N,et al.BART:denoising sequenceto-sequence pre-training for natural language generation,translation, and comprehension[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Associationfor Computational Linguistics,2O20:7871-7880.
[30]Achiam J,Adler S,Agarwal S,et al. GPT-4 technical report [EB/ OL].(2023-03-15)[2025-01-03].http://arxiv.org/abs/2303. 08774.
[31]Hurst A,Lerer A,Goucher A P,et al.GPT-4o system card[EB/ OL].(2024-08-08)[2025-01-03]. http://arxiv.org/abs/2410. 21276.
[32]Touvron H,Martin L,Stone K,et al.LLaMA 2:open foundation and fine-tuned chat models[EB/OL].(2023-07-19)[2024-11- 04].http://arxiv.org/abs/2307.09288.
[33]Yang An,Yang Baosong,Zhang Beichen,et al.Qwen2.5 technical report[EB/OL].(2024-12-19)[2025-01-03].http://arxiv. org/abs/2412.15115.
[34]Liu Aixin,F(xiàn)eng Bei, Xue Bing,et al. DeepSeek-V3 technical report [EB/OL].(2024)[2025-01-03].http://arxiv.org/abs/2412. 19437.
[35]Zeng Aohan,XuBin,WangBowen,et al.ChatGLM:a familyof large language models from GLM-130B to GLM-4 all tools [EB/OL]. (2024)[2025-01-03].htp://arxiv.org/abs/2406.12793.