高瑋軍,劉健,毛文靜
(蘭州理工大學(xué) 計算機與通信學(xué)院,蘭州 730050)
對話摘要旨在將會話濃縮成一段包含重要信息的簡短文本,使人們不用回顧歷史對話就可以快速捕捉到半結(jié)構(gòu)化和多參與者對話的重點。近年來,隨著移動電話、電子郵件和社交軟件的普及,人們越來越多地使用對話形式分享信息,特別是新冠肺炎疫情在全球大范圍的傳播,在線多人聊天或會議已成為人們?nèi)粘9ぷ鞯闹匾糠帧R虼?,利用文本摘要技術(shù)快速準(zhǔn)確地將大量的對話類數(shù)據(jù)組織成簡短、自然和信息豐富的文本成為研究熱點。
目前,對話摘要的研究方法通常分為抽取式摘要和生成式摘要。抽取式摘要方法是從給定的源對話中抽取若干重要的話語,并將它們重新組合排序形成摘要[1-2]。這種方法形成的摘要只是重要語句的機械拼接,語義不連貫,不符合人類的摘要習(xí)慣。而生成式摘要方法是對原文內(nèi)容進行語義理解和重構(gòu),并用新的語句表達原文信息,從而使生成的結(jié)果更像是人類編寫的摘要[3]。隨著深度學(xué)習(xí)的發(fā)展,生成式摘要方法已經(jīng)成為目前研究的主流。
現(xiàn)有的文本摘要研究大多都集中在單一參與者的文檔上,如新聞以及科學(xué)論文摘要等,這些文檔通常以第三人稱的角度闡述內(nèi)容,通過段落或章節(jié)使得信息流更清晰。與這些結(jié)構(gòu)化文本不同,對話是一種動態(tài)的信息流交換過程,通常是非正式的、冗長的和重復(fù)的,并伴隨著錯誤的開始、主題漂移和參與者打斷[4]。為了總結(jié)非結(jié)構(gòu)化和復(fù)雜的對話,文獻[5]直接將文檔摘要方法應(yīng)用于對話總結(jié)中。盡管指針生成網(wǎng)絡(luò)、強化學(xué)習(xí)、預(yù)訓(xùn)練語言模型等在結(jié)構(gòu)化文檔上取得了重大的進展,但是文檔和對話類數(shù)據(jù)存在固有差異,直接應(yīng)用文檔摘要模型來總結(jié)對話面臨諸多挑戰(zhàn)。
為解決上述問題,研究人員采用圖結(jié)構(gòu)對會話進行建模,以打破對話的順序位置,直接將相關(guān)的遠距離話語相連接,解決遠距離依賴問題,并且建模額外的知識。為此,本文提出一種基于T-HDGN(Topic-word guided Heterogeneous Dialogue Graph Network)模型的對話摘要生成方法,基于圖到序列的框架通過圖神經(jīng)網(wǎng)絡(luò)挖掘話語內(nèi)和話語間的語義關(guān)系,在解碼階段融入主題詞引導(dǎo)摘要生成。本文利用從會話中顯式提取的行動三元組(Who,Doing,What)構(gòu)建對話圖以融入說話人與其動作之間正確的對應(yīng)關(guān)系。將行動三元組和話語作為異質(zhì)數(shù)據(jù)進行建模,從而得到異質(zhì)對話圖。異質(zhì)圖網(wǎng)絡(luò)可以更有效地融合信息并捕獲句間豐富的語義關(guān)系,從而更好地對會話進行編碼[6]。此外,在異質(zhì)對話圖網(wǎng)絡(luò)中使用信息融合模塊和節(jié)點位置嵌入2 個特殊模塊。信息融合模塊旨在幫助話語節(jié)點更好地聚合說話人和行動三元組的信息,而位置嵌入模塊使話語節(jié)點能感知其位置信息。
與抽取式摘要方法相比,生成式摘要方法被認為更具挑戰(zhàn)性。為此,研究人員設(shè)計各種方法生成文檔摘要。文獻[7]提出將序列到序列模型用于生成式文本摘要。文獻[8]提出指針生成器網(wǎng)絡(luò),允許從源文本復(fù)制單詞,在解決 OOV(Out Of Vocabulary)問題的同時又可以避免生成重復(fù)內(nèi)容。文獻[9]利用強化學(xué)習(xí)選擇摘要所需的正確內(nèi)容,該方法被證明可以有效提升生成效果。文獻[10]使用大規(guī)模預(yù)訓(xùn)練語言模型BERT 作為文本上下文編碼器以獲取更多的語義信息,進一步提高摘要的生成質(zhì)量。隨著圖變得越來越普遍,信息更豐富,圖神經(jīng)網(wǎng)絡(luò)受到越來越多的關(guān)注,特別是它非常適用于在自然語言處理,如序列標(biāo)注[11]、文本分類[12]、文本生成[13]等任務(wù)中表示圖結(jié)構(gòu)。對于摘要任務(wù),最近也有研究基于圖模型的方法探索文檔摘要,如抽取實體類型[14],利用知識圖[15]以及額外的事實[16]校正模塊。此外,文獻[17]通過Transformer 編碼器創(chuàng)建1個完全連接圖,學(xué)習(xí)成對句子之間的關(guān)系。然而,如何構(gòu)建有效的圖結(jié)構(gòu)以獲取豐富的語義表示來生成摘要仍然面臨挑戰(zhàn)。
對話摘要研究主要集中在會議、閑聊、客戶服務(wù)、醫(yī)療對話等領(lǐng)域。然而,由于缺乏公開可用的資源,因此在各領(lǐng)域只是進行了一些初步工作。早期的研究人員基于模板或使用多句壓縮的方法來抽取對話摘要[18],但這些方法很難生成簡潔自然的摘要,尤其是面對會話這種特殊的文本結(jié)構(gòu)。而生成式對話摘要方法能夠有效解決這些問題。文獻[19]根據(jù)會議數(shù)據(jù)集AMI 構(gòu)建1 個新的對話摘要數(shù)據(jù)集,并通過句子門控機制來聯(lián)合建模交互行為和摘要之間的顯式關(guān)系。文獻[5]提出1 個新的生成式對話摘要數(shù)據(jù)集,并且基于序列的模型驗證其性能。由于參與者的多重性和頻繁出現(xiàn)的共指現(xiàn)象,因此模型生成的對話摘要存在事實不一致的問題。為此,文獻[20]通過說話人感知的自注意力機制來處理參與者和他們的相關(guān)人稱代詞之間的復(fù)雜關(guān)系。一些研究還利用對話分析生成對話摘要,如利用主題段[21]、會話階段[22]或關(guān)鍵點序列[23]。
綜上所述,現(xiàn)有的對話摘要模型主要基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的序列到序列模型進行優(yōu)化改進。盡管相關(guān)的研究已經(jīng)取得了一定成果,但是對話具有多參與者以及突出信息分散在整個會話中的特點,使得摘要模型難以集中在許多信息性的話語上。此外,當(dāng)前模型對識別不同說話者的行為以及他們?nèi)绾蜗嗷プ饔没蛳嗷ヒ玫年P(guān)注較少,難以將說話者及其對應(yīng)的動作聯(lián)系起來,從而產(chǎn)生錯誤的推理。為了緩解這些問題,受基于圖方法的啟發(fā),本文基于圖模型的方法進一步探索對話摘要。
對于給定的會話C={u0,u1,…,un},將異質(zhì)對話圖定義為1 個有向圖G=(V,E,A,R),其中,V是節(jié)點集合,包含3 種節(jié)點V=Vu∪Va∪Vs,E是邊集合。不同類型的節(jié)點和邊分別有各自的類型映射函數(shù),節(jié)點類型的映射函數(shù)為τ(v):V→A,邊類型的映射函數(shù)為φ(e):E→R。
完全依賴神經(jīng)模型很難從對話中獲得具體的事實特征,為了幫助模型更好地理解會話中說話人與其行為之間正確的聯(lián)系,本文從會話中提取行動三元組(Who,Doing,What),將其作為先驗知識構(gòu)建對話圖。
首先,基于以下規(guī)則將第一人稱的話語轉(zhuǎn)換為第三人稱觀點的形式:1)用當(dāng)前說話人或周圍說話人的名字替換第一或第二人稱代詞;2)根據(jù)斯坦福CoreNLP 檢索會話中的共指簇以替換第三人稱代詞,例如,Amanda 對Jerry 說:“I'll bring it to you tomorrow”被轉(zhuǎn)換為“Amanda'll bring cakes to Jerry tomorrow”。
然后,使用開源信息抽取系統(tǒng)OpenIE 對轉(zhuǎn)換后的對話提取行動三元組(Who,Doing,What),即主謂賓信息。行動三元組如圖1 所示。
圖1 行動三元組Fig.1 Action triplets
話語-行動圖如圖2 所示,通過將話語和各行動三元組視為不同類型的節(jié)點以構(gòu)建話語-行動圖。本文考慮到出現(xiàn)具體事實特征的話語以及其周圍話語往往是重要話語,將抽取出的各行動三元組作為行動節(jié)點,并且將它與出現(xiàn)該具體動作的話語以及下一位說話人的話語相連接,使得模型關(guān)注重要話語并理解說話人與其對應(yīng)動作的正確聯(lián)系。此外,本文將話語和行動節(jié)點之間的邊定義為action邊。
圖2 話語-行動圖Fig.2 Utterance-action graph
由于會話包含多個對話者以及各自對應(yīng)的話語,因此將對話者和話語視為不同類型的節(jié)點。將說話人與其對應(yīng)的話語通過talk 邊進行連接。話語-對話者圖如圖3 所示。
圖3 話語-對話者圖Fig.3 Utterance-speaker graph
本文綜合上述話語-行動圖以及話語-對話者圖,構(gòu)建最終的異質(zhì)對話圖。此外,為了促進信息流在整個圖上的傳播,本文添加2 種反向邊rev-action 和rev-talk。異質(zhì)對話圖具有對話者、話語和行動節(jié)點3種,以及action、talk、rev-action 和rev-talk 4 種類型的邊。異質(zhì)對話圖如圖4 所示。
圖4 異質(zhì)對話圖Fig.4 Heterogeneous dialogue graph
主題詞引導(dǎo)的異質(zhì)對話圖網(wǎng)絡(luò)(T-HDGN)結(jié)構(gòu)如圖5 所示。T-HDGN 主要由節(jié)點編碼器、圖編碼器以及主題詞引導(dǎo)的解碼器3 部分組成。節(jié)點編碼器旨在初始化每個圖節(jié)點;圖編碼器用來捕獲會話結(jié)構(gòu)信息并得到更高級的節(jié)點表示;主題詞引導(dǎo)的解碼器在指針機制和覆蓋機制中融入主題詞特征以輔助摘要的生成。
圖5 T-HDGN 模型結(jié)構(gòu)Fig.5 Structure of T-HDGN model
在得到各節(jié)點的初始表示后將它們輸入到1 個圖編碼器中,利用圖編碼器捕獲會話結(jié)構(gòu)信息并得到更高級的節(jié)點表示。本文使用文獻[24]提出的Heterogeneous Graph Transformer 作為圖編碼器,針對異質(zhì)性問題,采用與類型相關(guān)的參數(shù)進行建模。異質(zhì)圖Transformer 層結(jié)構(gòu)如圖6 所示。
圖6 異質(zhì)圖Transformer層Fig.6 Transformer layer of heterogeneous graph
Heterogeneous Graph Transformer 主要包括3 個模塊:1)異質(zhì)相互注意力用來計算源節(jié)點和目標(biāo)節(jié)點的注意力得分Attention(s,e,t);2)異質(zhì)消息傳遞為每個源節(jié)點生成消息向量MMsg(s,e,t),并傳播特定類型的信息;3)特定目標(biāo)的信息聚合使用注意力分數(shù)作為權(quán)重來聚合從源節(jié)點到目標(biāo)節(jié)點的信息。本文通過1 個消息融合過程和節(jié)點位置編碼使異質(zhì)圖上的學(xué)習(xí)過程更有效。
3.2.1 異質(zhì)相互注意力
3.2.2 異質(zhì)消息傳遞
3.2.3 特定目標(biāo)的聚合
基于目標(biāo)節(jié)點的類型,該過程分為2 種情況:1)當(dāng)目標(biāo)節(jié)點不是話語節(jié)點時,首先使用注意力得分加權(quán)求和消息向量2)當(dāng)目標(biāo)節(jié)點是話語節(jié)點時,本文通過消息融合過程將信息更有效地聚合到話語節(jié)點中。在消息融合過程中,由于注意力是1 個歸一化的分布,因此當(dāng)目標(biāo)為話語類型的節(jié)點聚合來自行動和對話者類型的源節(jié)點信息時,話語節(jié)點可能會更傾向于對話者節(jié)點而忽視行動節(jié)點。為此,本文使用行動節(jié)點的注意力權(quán)重加權(quán)對應(yīng)的消息向量并添加對話者信息。其計算式如下:
最終,在得到聚合后的消息向量后,根據(jù)目標(biāo)節(jié)點類型,本文通過1 個線性映射把它映射回目標(biāo)節(jié)點類型,并采用殘差連接得到更新后的節(jié)點表示
3.2.4 位置編碼
由于對話本質(zhì)上是連續(xù)序列,因此部分上下文信息也將沿著這個順序流動,而原始異質(zhì)圖不能直接建模話語之間的時間順序。為了節(jié)點能夠感知其位置信息,本文添加節(jié)點位置信息。對于對話者和行動節(jié)點其位置都置為0。對于話語節(jié)點vi,將其位置pvi與源對話中的話語順序相關(guān)聯(lián)。最終本文為每個節(jié)點添加位置信息表示1個可學(xué)習(xí)的位置參數(shù)矩陣。
在得到添加位置信息的節(jié)點表示之后,將其與對應(yīng)的初始詞語表示拼接,并進一步映射得到最終的詞語表示
主題關(guān)鍵詞是主題信息常見的表示形式,體現(xiàn)了文檔的關(guān)鍵內(nèi)容。因此,本文在解碼過程中使用主題關(guān)鍵詞引導(dǎo)摘要的生成。
傳統(tǒng)的編碼器-解碼器模型只使用源文本作為輸入,導(dǎo)致生成的摘要中缺乏主題詞信息。為此,本文在指針機制和覆蓋機制中注入主題詞以增強摘要中的主題關(guān)鍵詞信息。
本文將1 次會話中所有行動三元組的Who、Doing 和What 作為主題關(guān)鍵詞K={k1,k2,…,km},并且將所有主題關(guān)鍵詞表示ki的均值作為主題信息表示。此外,本文用圖中所有節(jié)點詞語表示hvi,n的均值作為解碼器的初始狀態(tài)s0。具體計算式如下:
3.3.1 覆蓋機制
由于注意力機制會反復(fù)關(guān)注輸入序列中的某些單詞,因此會出現(xiàn)摘要自我重復(fù)的現(xiàn)象,尤其是對話者的名字和重要動作。因此,本文引入覆蓋機制來解決這個問題,通過歷史注意力來影響當(dāng)前注意力計算,首先將注意力分布at之和作為覆蓋向量ct,ct表示單詞從注意力機制受到的覆蓋程度。傳統(tǒng)的覆蓋機制只涉及解碼器狀態(tài)st和編碼器隱藏狀態(tài)hvi,n,難以關(guān)注到主題詞信息。因此,本文修改了注意力的構(gòu)成部分,將主題詞添加到覆蓋機制中,計算式如式(9)和式(10)所示:
其中:v、Wh、Ws、Wc、Wk和bAttention是可學(xué)習(xí)參數(shù)。通過注意力得分加權(quán)編碼器隱藏狀態(tài),得到上下文向量
在解碼步驟t時刻,解碼器狀態(tài)st、上下文向量和主題向量通過2 個線性層產(chǎn)生詞匯分布Pvocab,計算式如式(12)所示:
其中:V′、V、b和b′是可學(xué)習(xí)參數(shù)。
3.3.2 指針機制
受固定詞匯表的限制,在生成摘要時可能會丟失一些主題詞信息。因此需要引入指針機制來擴展目標(biāo)詞匯表使其包含主題詞,通過指針網(wǎng)絡(luò)決定從固定詞匯表生成1 個單詞還是根據(jù)注意力分布at直接從輸入序列復(fù)制1 個單詞。為此,本文將主題詞添加到開關(guān)的計算中,使解碼器根據(jù)狀態(tài)st、主題向量、上下文向量和解碼器輸入xt共同計算指針開關(guān)pgen。具體計算式如式(13)所示:
其中:σ為Sigmoid 激活函數(shù);均為可學(xué)習(xí)參數(shù);bptr為偏置項。最終,在擴展詞匯上的概率分布如式(14)所示:
為驗證所提模型的可行性和有效性,本文在SAMSum 數(shù)據(jù)集上進行相關(guān)實驗。SAMSum 數(shù)據(jù)集是1 個關(guān)于現(xiàn)實生活中各種場景下的英文對話數(shù)據(jù)集,包括閑聊、安排會議、討論事件以及與同學(xué)討論大學(xué)作業(yè)等話題。
數(shù)據(jù)集中源對話的平均對話長度為126.7(Token 數(shù)),平均話語數(shù)為11.1。每句話語均包含對話者的名字,大多數(shù)對話只有2 個對話人(約占所有對話的75%),其余是3 個或更多人之間的對話。表1 所示為SAMSum 數(shù)據(jù)集的相關(guān)信息,包括每次會話中對話者數(shù)、話語數(shù)以及行動三元組這三者的平均數(shù),“#”表示對應(yīng)的統(tǒng)計總數(shù),長度是指Token數(shù)。
表1 SAMSum 數(shù)據(jù)集相關(guān)信息Table 1 Related information of SAMSum dataset 單位:個
本文實驗平臺使用開源的深度學(xué)習(xí)框架PyTorch,編譯語言為Python3.6 版本。由于深度學(xué)習(xí)模型對計算資源的要求相對較高,因此采用GPU 進行訓(xùn)練來提高效率。
在訓(xùn)練階段,使用Adam 優(yōu)化器對模型進行優(yōu)化,并使用最大梯度范數(shù)為2 的梯度裁剪。節(jié)點編碼器和指針解碼器的維度都設(shè)為300。在測試過程中,使用集束搜索(Beam Search)方法生成最終的結(jié)果。集束搜索衡量了搜索空間和得到最優(yōu)解概率的雙重因素,每步會根據(jù)集束寬度K保留概率最大的K個結(jié)果并繼續(xù)按照詞表搜索,直到生成過程結(jié)束。在模型測試階段,本文設(shè)置Beam Search 的束寬為5。具體實驗參數(shù)如表2 所示。
表2 實驗參數(shù)設(shè)置Table 2 Experimental parameter settings
本文實驗采用自動文本摘要領(lǐng)域常用的評價工具ROUGE 中的ROUGE-1、ROUGE-2 以及ROUGE-L這3 類評價指標(biāo)的F1 值來評估摘要質(zhì)量。其中,ROUGE-1 代表了自動文本摘要的信息量,ROUGE-2側(cè)重于評估對話摘要的流暢性,而ROUGE-L 則基于最長公共子序列,可以認為是摘要對原文信息的覆蓋量。ROUGE 值度量了生成的摘要與目標(biāo)摘要的接近程度。
4.4.1 基準(zhǔn)實驗對比分析
為驗證所提方法在生成式對話摘要任務(wù)中的效果,本文選取了7 種基線模型進行對比實驗。
1)Longest-3 是一種提取式摘要方法,選取最長的三句話語按長度排序作為摘要。
2)Seq2Seq+Attention 是由RUSH等[7]提出,使用基于Attention 機制的編碼器來學(xué)習(xí)輸入文本的潛在軟對齊,以提供摘要信息。
3)PGN[8]是指針生成網(wǎng)絡(luò),使用指針機制和覆蓋機制解決了生成式文本摘要中的OOV 和摘要重復(fù)問題。
4)Transformer是由VASWANI等[25]提出,是一種利用Self-Attention 機制實現(xiàn)快速并行的序列到序列模型。
5)Fast Abs RL[9]是一種基于兩階段式的摘要模型,首先由抽取器選擇重要句子,然后生成器對抽取出的句子重寫得到最終摘要。
6)Fast Abs RL Enhanced 是Fast Abs RL 的變形,由于原模型可能會選擇1 個人的話語而沒有關(guān)于其他對話者的信息,因此它將所有其他對話者的名字添加到話語的結(jié)尾。
7)T-GAT 是本文模型的變形,將異質(zhì)圖層替換為同質(zhì)圖層的圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[26]。
考慮到計算資源有限,本文沒有使用預(yù)訓(xùn)練語言模型(如BERT)。因此,為了公平起見,本文只和未使用預(yù)訓(xùn)練語言模型的方法進行比較。不同模型的實驗結(jié)果對比如表3 所示,Separator 是人為添加的1 個標(biāo)記來分隔話語。
表3 不同模型的實驗結(jié)果對比Table 3 Experiment results comparison among different models %
從表3 可以看出,與原模型相比,使用了分隔符(Separator)使得對應(yīng)模型的性能有所增加,這是因為通過人工添加特殊標(biāo)記改善了語篇結(jié)構(gòu)。與傳統(tǒng)的抽取式方法Longest-3 相比,T-HDGN 在ROUGE評價指標(biāo)上獲得了較大的提高,說明生成式方法具有明顯的優(yōu)勢。與表現(xiàn)較優(yōu)的Fast Abs RL Enhanced模型相比,在不需要使用強化學(xué)習(xí)策略和簡化訓(xùn)練過程的情況下,T-HDGN 模型在ROUGE 得分上依然具有優(yōu)勢。與同質(zhì)網(wǎng)絡(luò)T-GAT 相比,基于異質(zhì)圖網(wǎng)絡(luò)的T-HDGN 模型在ROUGE-1、ROUGE-2、ROUGE-L上分別提升了0.70、0.98 和0.61 個百分點,表明異質(zhì)性建模具有一定的有效性。此外,T-HDGN 模型的性能均優(yōu)于其他生成式方法Seq2Seq+Attention、PGN 和Transformer,說明通過圖結(jié)構(gòu)對會話進行建模時,異質(zhì)圖網(wǎng)絡(luò)可以有效地融合信息并捕獲語句間豐富的語義關(guān)系,解決了對會話上下文理解不充分的問題。此外,使用行動三元組有助于模型理解說話人與其對應(yīng)動作之間的正確關(guān)系,提高摘要的生成質(zhì)量。
4.4.2 消融實驗
為驗證該模型中主要模塊對生成對話摘要的有效性,本文進行消融實驗,驗證對話圖中行動節(jié)點和對話者節(jié)點這2 種不同類型節(jié)點的有效性。消融實驗結(jié)果如表4 所示,T-HDGN w/o action 表示移除對話圖中的行動三元組節(jié)點,T-HDGN w/o speaker 表示移除對話圖中的對話者節(jié)點。
表4 消融實驗結(jié)果Table 4 Ablation experimental results %
缺失行動三元組節(jié)點和對話者節(jié)點均降低了模型生成摘要的效果。其中,移除行動三元組節(jié)點使得ROUGE-1、ROUGE-2、ROUGE-L 評分分別降低了0.48、0.67 和0.71 個百分點,這表明加入行動三元組(Who,Doing,What)有助于模型更充分地對會話上下文建模。此外,如果直接移除圖中的對話者節(jié)點,將造成話語沒有對應(yīng)的說話人。因此,本文首先在話語前面加上說話人,然后移除對話者節(jié)點。實驗結(jié)果表明,移除對話者節(jié)點也導(dǎo)致了模型性能下降,說明異質(zhì)性建模對話者節(jié)點能夠更充分地學(xué)習(xí)到會話的上下文表示,有利于最終摘要的生成。
此外,為了驗證在指針機制和覆蓋機制中融入主題詞對生成摘要的有效性,同樣進行消融實驗,結(jié)果如表5所示。T-HDGN w/o TP表示移除主題詞的指針機制,T-HDGN w/o TC 表示移除主題詞的覆蓋機制。
表5 消融實驗對比結(jié)果Table 5 Comparison results of ablation experiments %
從表5 可以看出,在移除了覆蓋機制和指針機制中的主題詞后,模型性能都不如完整的T-HDGN 模型,說明對于關(guān)鍵信息分散在不同話語中的會話,主題關(guān)鍵詞有利于模型生成信息豐富且真實的對話摘要。
4.4.3 對話者數(shù)和轉(zhuǎn)換數(shù)對模型的影響
為了探究會話中對話人數(shù)和轉(zhuǎn)換數(shù)對ROUGH指標(biāo)的影響,本文在表現(xiàn)最佳的T-HDGN 模型上進行實驗分析,其可視化結(jié)果如圖7 所示。實驗結(jié)果表明,隨著對話人數(shù)和轉(zhuǎn)換數(shù)的增加,ROUGH 指標(biāo)呈逐漸下降趨勢,表明在生成式對話摘要任務(wù)中隨著會話參與人數(shù)和話語數(shù)的增加,總結(jié)對話的難度就越大。
圖7 參與者數(shù)和轉(zhuǎn)換數(shù)對模型性能之間的影響Fig.7 The impact of the number of participants and conversions on model performance
4.4.4 泛化性實驗
為驗證模型是否具有較優(yōu)的泛化能力,本文直接在由人類編寫的辯論對話摘要數(shù)據(jù)集ADSC 上進行泛化性實驗測試,結(jié)果如表6 所示。
表6 在ADSC 數(shù)據(jù)集上不同模型的ROUGE 結(jié)果Table 6 ROUGE results among different models on the ADSC dataset %
從表6 可以看出,T-HDGN 模型在ADSC 數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他基線模型,說明本文模型可以更充分理解新領(lǐng)域中的對話,在生成式對話摘要任務(wù)中具有較優(yōu)的應(yīng)用價值。其原因為在生成摘要時,一方面通過顯式建?!癢ho,Doing,What”信息以幫助模型更好地理解說話者和話語內(nèi)行動之間的關(guān)系;另一方面,通過1 個異質(zhì)圖網(wǎng)絡(luò)來建模不同類型的數(shù)據(jù),合理地編碼會話結(jié)構(gòu)。同時,基于T-HDGN 模型的對話摘要生成模型也可以應(yīng)用于其他領(lǐng)域,如在線醫(yī)療問診的總結(jié)以及人機對話的下游任務(wù)。
4.4.5 摘要實例對比分析
不同模型針對如下對話生成的摘要示例對比如表7 所示。
表7 不同模型生成的摘要示例Table 7 An example of summary generated by different models
Lilly:sorry,I'm gonna be late.
Lilly:don't wait for me and order the food.
Gabriel:no problem,shall we also order something for you?
Gabriel:so that you get it as soon as you get to us?
Lilly:good idea!
Lilly:pasta with salmon and basil is always very tasty there.
從表7 可以看出,傳統(tǒng)的抽取式摘要模型Longest-3 與生成式摘要模型的效果差距明顯,這主要是因為與新聞等文本不同,對話類數(shù)據(jù)的信息比較分散,前幾句很少涉及關(guān)鍵信息,導(dǎo)致抽取的摘要效果不佳。對于Fast Abs RL Enhanced 模型,由于事先在每句話語之后添加了其他對話者的名字,因此模型在生成摘要時能正確包含說話人的名字。然而,F(xiàn)ast Abs RL Enhanced 模型在決定動作由誰做出時出現(xiàn)錯誤,這可能與該模型的兩階段式生成過程有關(guān),再加上對話的特殊文本結(jié)構(gòu),導(dǎo)致對話的上下文范圍縮小,從而生成不正確的內(nèi)容。與其他的序列到序列模型相比,T-HDGN 模型能正確決定動作由誰做出。這是因為本文明確建模“Who,Doing,What”信息有助于模型更好地理解說話者和話語內(nèi)行動之間的關(guān)系。此外,在譯碼階段還使用主題詞來引導(dǎo)解碼器生成摘要,使得摘要中包含更多的關(guān)鍵信息。
本文建立一種主題詞引導(dǎo)的異質(zhì)對話圖網(wǎng)絡(luò)(T-HDGN)模型,以圖到序列的框架自動生成對話摘要。利用從話語中抽取的“Who,Doing,What”信息構(gòu)建對話圖,將圖中的話語、對話者和行動節(jié)點作為異質(zhì)節(jié)點,通過1 個異質(zhì)圖網(wǎng)絡(luò)對會話圖進行編碼。此外,在生成階段融入主題信息以輔助摘要生成。實驗結(jié)果表明,與傳統(tǒng)的文檔摘要模型相比,T-HDGN 模型可以正確地將對話者與其對應(yīng)動作相關(guān)聯(lián),并且生成的摘要中包含更多的關(guān)鍵信息,更接近目標(biāo)摘要。后續(xù)將使用預(yù)訓(xùn)練語言模型更好地編碼會話表示,還將針對具體的應(yīng)用領(lǐng)域改進對話總結(jié)模型以適用于各個領(lǐng)域,如醫(yī)療對話、客服對話、辯論以及可能涉及更長話語和更多非同步參與者的對話。