結(jié)合問題類型及懲罰機制的問題生成

2021-05-27 05:31:24武愷莉朱朦朦朱鴻雨張熠天洪宇

中文信息學報 2021年4期

武愷莉，朱朦朦，朱鴻雨，張熠天，洪宇

(1.蘇州大學計算機科學與技術學院，江蘇蘇州 215006；2.國家工業(yè)信息安全發(fā)展研究中心，北京 100043)

0 引言

問題生成(question generation，QG)是智能問答領域一個重要的任務。問題生成任務有多種輸入形式，比如自由文本、表格數(shù)據(jù)等。本文研究答案可知的句子級問題生成任務，即輸入為陳述句和目標答案，自動生成對應的問句。如例1所示(選自SQuAD測試集)，通過理解陳述句和目標答案的語義，自動生成疑問句。問題生成任務可以應用于醫(yī)療、教育、對話等領域。此外，該任務還可以生成大量問答對，用于擴充問答系統(tǒng)的語料資源，協(xié)助自動問答系統(tǒng)構建[1-2]。

本文對答案可知的問題生成(answer-aware question generation)任務展開研究，對現(xiàn)有基于神經(jīng)網(wǎng)絡的問題生成模型進行改進，以優(yōu)化該任務的性能。特別地，本文主要關注以下兩個問題：其一是提高疑問句對應問題類型的準確率；其二是減輕生成問題與目標答案重復詞的現(xiàn)象。如例1、例2所示，例1中疑問句的問題類型為“what”，例2為“when”。問題類型標識該疑問句提問的目標，對一個疑問句來說這是很重要的。所以，提高問題類型的準確率有助于生成正確的疑問句，保證與目標答案匹配。另一方面，從語言學角度，疑問句中包含要回答的答案的現(xiàn)象很少見。據(jù)觀測，在現(xiàn)有研究生成的問句中不存在上述現(xiàn)象。因此，本文提出一種融合問題類型和懲罰機制的問題生成模型來改進上述問題。

例1

源端陳述句：Antibiotics revolutionized medicine in the 20th century,and have together with vaccination led to the near eradication of diseases such as tuberculosis in the developed world.<譯文：抗生素在20世紀使醫(yī)學發(fā)生了革命性的變化，并與疫苗一起使發(fā)達國家的結(jié)核病等疾病幾乎根除。>

目標答案：20th <譯文：20世紀>

疑問句：In what century did antibiotics revolutionized medicine?<譯文：抗生素在哪個世紀徹底改變了醫(yī)學？>

例2

源端陳述句：By 1139,Portugal had established itself as a kingdom independent from León.<譯文：到1139年，葡萄牙已經(jīng)建立了一個獨立于里昂的王國。>

目標答案：1139

疑問句：By what year had Portugal established itself as an independent kingdom?<譯文：葡萄牙在哪一年建立了自己的獨立王國？>

本文在斯坦福閱讀理解數(shù)據(jù)集(Stanford question answering dataset，SQuAD)[3]上進行實驗，使用Du等[4]的數(shù)據(jù)劃分方式。實驗結(jié)果顯示，本文所提方法能取得較好的性能。

本文的主要貢獻包括：

(1) 通過BERT[5]模型訓練問題類型分類器，得到每個輸入的問題類型表示。利用門控機制在編碼端融入問題類型，得到具有問題類型信息的源端陳述句表示。

(2) 提出一種懲罰機制，即在損失函數(shù)中加入對生成目標答案中詞的懲罰，用于減輕從目標答案生成詞的情況。

本文組織形式如下，第1節(jié)簡要介紹問題生成任務的相關工作；第2節(jié)給出本文所研究的答案可知的問題生成任務的定義；第3節(jié)詳細描述本文所提方法的細節(jié)；第4節(jié)介紹本文所用的數(shù)據(jù)集、實驗配置以及評價指標；第5節(jié)展示和分析實驗結(jié)果；第6節(jié)總結(jié)全文并展望未來工作。

1 相關工作

目前，問題生成的研究思路主要分為兩種，其一是基于人工編寫的問題模板轉(zhuǎn)換得到疑問句，其二是基于端到端的神經(jīng)網(wǎng)絡將陳述句編碼后解碼生成疑問句。

基于規(guī)則的問題生成依賴于深層的語言知識，以及精心設計的陳述句到疑問句的轉(zhuǎn)換規(guī)則。Lindberg等[6]結(jié)合語義標記信息提出一種復雜的基于模板的方法。將基于語義的方法的好處與基于模板的方法的表面形式靈活性相結(jié)合，最重要的一點是不受語法的嚴格約束。Heilman等[7]重復使用人工編寫的規(guī)則將陳述句轉(zhuǎn)換為疑問句，然后使用邏輯斯蒂回歸模型將重復生成的疑問句進行排序，按比例保留排序靠前的疑問句。

隨著神經(jīng)網(wǎng)絡以及大規(guī)模數(shù)據(jù)集的出現(xiàn)，基于神經(jīng)網(wǎng)絡的問題生成研究逐漸被關注。Du等[4]首次將神經(jīng)網(wǎng)絡模型應用在問題生成任務中，使用基于注意力機制的端到端模型，實驗表明生成的疑問句在自動評價方法上可取得不錯的性能，人工評價也優(yōu)于基于規(guī)則的問題生成方法。由于Du等[4]未使用答案信息，這類研究也稱為答案不可知的問題生成(answer-agnostic question generation)。Scialom等[8]將Transformer[9]框架應用于答案不可知的問題生成任務，并提出三種解決未登錄詞的策略。為了使生成的疑問句用于提問某個答案的，出現(xiàn)了答案可知的問題生成(answer-aware question generation)任務。Zhou等[10]加入詞匯特征以及目標答案的信息，幫助模型生成更為具體的疑問句，并且使用拷貝機制[11]拷貝一些詞表中沒有的源端單詞。Dong等[12]利用問題類型的語義特征，通過使用問題分類模型對目標答案的類型進行預測，加入到問題生成過程，生成具體的問句。Zhou等[13]將語言模型作為輔助任務，通過多任務學習提升性能。

基于規(guī)則的方法領域性較強，普適性較低。而且問題模板更注重于句子的結(jié)構信息，忽略句子的語義信息。與此相比，基于端到端神經(jīng)網(wǎng)絡的方法可以使模型自適應學習，省去人工構造規(guī)則。此外，大規(guī)模閱讀理解數(shù)據(jù)集的開放，也為問題生成任務提供了更多的語料資源，推動了基于端到端神經(jīng)網(wǎng)絡方法的發(fā)展。

2 任務定義

(1)

其中，P(y|X,A)表示給定X和A的條件下，預測問句的對數(shù)條件概率。

3 方法

本文基于編碼器-解碼器框架，結(jié)合問題類型以及懲罰機制，對現(xiàn)有答案可知的問題生成架構進行優(yōu)化。使用預訓練模型BERT[5]微調(diào)問題類型分類器，得到問題類型的表示。在原有編碼端產(chǎn)生的語義表示上，通過門控機制與問題類型表示進行融合，用于提高生成的問句對應類型的準確率。此外，在解碼生成疑問句時，加入對復制目標答案詞的懲罰項，減輕從目標答案生成問句的現(xiàn)象。本文的模型總體架構如圖1所示。

圖1 模型總體架構圖

3.1 編碼層

因此，經(jīng)過編碼層得到X對應的隱狀態(tài)表示為o={o1,o2,…,om}。

3.2 問題類型分類器

本文定義了常見的7種問題類型(“what”“who”“how”“which”“when”“where”“why”)以及其他類“others”。根據(jù)疑問句中是否出現(xiàn)上述問題類型詞，給出對應的問題類型標記；若都未出現(xiàn)，則標記為“others”。

本文使用BERT模型[5]在問題類型分類任務上進行微調(diào)。考慮到同一個源端陳述句可能包含多個目標答案，從而生成不同問題類型的疑問句。所以，本文輸入為源端陳述句X和目標答案A，輸出為對應問題類型。

(5)

3.3 交互層

其中，wo、wq、bgate為模型參數(shù)，σ表示sigmoid激活函數(shù)。

3.4 解碼層

3.4.1 初始化解碼狀態(tài)

本文使用單層Bi-LSTM對目標答案A單獨編碼，得到隱狀態(tài)表示，并用最后一個時刻的隱狀態(tài)han初始化解碼狀態(tài)h0，如式(8)所示。

h0=han

(8)

3.4.2 注意力機制

注意力機制的作用是在當前解碼時刻生成問句中詞的時候，注意到源端陳述句中有關的部分，從而生成更好的問句。本文用Bahdanau等[15]提出的注意力計算方式。在解碼的每個時刻t，計算當前時刻對源端表示s的注意力分布at，加權求和得到語義向量ct。計算過程如式(9)～式(11)所示。

其中，v，Ws，Wh，battn為可訓練的模型參數(shù)，ht指當前時刻的隱狀態(tài)。

3.4.3 拷貝機制

拷貝機制的作用是讓模型能從源端陳述句中生成詞。本文使用的拷貝機制繼承自See等[16]的工作，通過計算從詞表中生成詞的概率pgen來實現(xiàn)，則從源端拷貝單詞的概率為1-pgen。計算過程如式(12)所示。

(12)

其中，wc、wh、wx、bp為可訓練的參數(shù)。

3.4.4 生成器

解碼生成詞的概率分布由兩部分組成，其一，從詞表生成詞對應的概率分布Pvocab；其二，使用注意力分布at直接從源端陳述句拷貝生成詞。利用公式(12)中的生成概率pgen計算最終的概率分布P(W)，計算如式(13)～(14)所示。

Pvocab(wt)=softmax(V(V′[ht,ct]+b)+b′)

(13)

(14)

其中，V、V′、b、b′為可訓練的模型參數(shù)。利用最終的概率分布即可得到當前時刻生成的單詞。當解碼生成的單詞為“”時，表示疑問句生成完成，停止解碼過程。

3.5 損失函數(shù)與懲罰機制

本文使用交叉熵作為損失函數(shù)，計算模型生成的疑問句與目標疑問句的損失，如式(15)所示。

(15)

其中，T為目標疑問句的長度，P(wt)為當前時刻目標疑問句中的單詞對應的生成概率。

本文在損失函數(shù)中加入懲罰機制，用于抑制模型從目標答案中生成詞，本文在損失函數(shù)中加入罰項Lans，計算如式(16)所示。

(16)

其中，n為目標疑問句的長度，P(wt)為目標答案中的詞對應的生成概率。即，當前目標答案中詞對應的概率P(wt)越大，則對應的損失值越大。

最終的損失函數(shù)為兩部分損失加權求和，如式(17)所示。

Lall=λL+(1-λ)Lans

(17)

其中，λ為權重因子。

4 實驗配置

4.1 數(shù)據(jù)集

本文在SQuAD問題生成數(shù)據(jù)集上進行實驗，來驗證所提方法的有效性。該數(shù)據(jù)集來源于閱讀理解數(shù)據(jù)集SQuAD，數(shù)據(jù)劃分方法和Du等[4]相同。

原始SQuAD數(shù)據(jù)集是從維基百科的536篇文檔的段落中構建的問答對，這些問答對由眾包工作者提供，并且要求答案是段落的一部分，共有超過100k的問答對。Du等人將包含答案的句子抽取出來作為問題生成語料的源端陳述句，問題則為要生成的疑問句。因為原始SQuAD數(shù)據(jù)集的測試集不公開，所以Du等重新劃分訓練集、開發(fā)集和測試集，數(shù)量分別為70 484、10 570和11 877條。由于Du等人沒有使用目標答案，本文根據(jù)原始SQuAD 數(shù)據(jù)集從陳述句中抽取目標答案。表1列出了該數(shù)據(jù)集源端陳述句、目標答案以及目標疑問句對應的平均長度。

表1 平均長度統(tǒng)計表

本文所使用的問題類型分類器數(shù)據(jù)集輸入為陳述句和目標答案。輸出為問題類型標簽，通過構造規(guī)則從目標疑問句中抽取，規(guī)則如下：

(1) 定義問題類型標記列表[“what” “who”“how”“which”“when”“where”“why”]。

(2) 查找疑問句中是否包含上述某個標記，若有，則對應問題類型為此標記；若無，則對應問題類型標記為“others”。

(3) 對訓練集、開發(fā)集以及測試集進行問題類型標記，得到問題類型分類數(shù)據(jù)集。

經(jīng)統(tǒng)計，每個類別對應的數(shù)量如表2所示。

表2 問題類型統(tǒng)計表

續(xù)表

4.2 超參數(shù)設置

4.2.1問題類型分類器超參數(shù)設置

本文使用BERT-Base模型(12-layer,768-hidden,12-heads)進行微調(diào)，最大長度設置為150，訓練階段batch_size為16，學習率(learning_rate)為5e-5。

本文使用驗證集上性能最好的模型作為分類器，對所有數(shù)據(jù)抽取問題類型進行表示。

4.2.2 問題生成模型超參數(shù)設置

本文在源端和目標端使用相同的詞表，詞表大小為47 385。預訓練詞向量來源于GloVe[17]，其維度為300。位置向量是隨機初始化的向量，其維度為16。編碼層和解碼層的LSTM隱含層單元(hidden size)為256維。模型優(yōu)化器為Adam[18]，其學習率(learning rate)為0.000 5。批量數(shù)據(jù)大小(batch size)為16。測試階段，使用集束搜索(beam search)，其大小(beam width)為4。源端陳述句最大長度為100，目標答案最大長度為5，解碼生成疑問句的長度為30。損失函數(shù)的權重因子λ取0.5。

4.3 評價指標

4.3.1問題類型分類器評價指標

本文使用準確率(accuracy,A)評價問題類型分類器，即正確預測的數(shù)量/樣本總數(shù)。

4.3.2 問題生成模型評價指標

本文使用和Du等[4]相同的評價指標評價生成的疑問句，包括BLEU[19]、METEOR[20]以及ROUGEL[21]，使用現(xiàn)有開源的評價方法包[22]計算上述值。BLEU用來評價候選文檔在一組參考文檔上的平均n-gram精度，并對過短的句子進行懲罰。BLEU-n表示計算BLEU值使用n-grams統(tǒng)計共同出現(xiàn)的次數(shù)，常用計算值有BLEU-1、BLEU-2、BLEU-3以及BLEU-4。METEOR是一種基于召回率的評價指標，通過考慮同義詞、詞干和釋義來計算生成的句子和參考答案的相似度。ROUGE(recall-oriented understudy for gisting evaluation)是一種面向n元詞召回率的評價方法。本文使用ROUGEL進行評價，該值基于最長公共子序列統(tǒng)計共現(xiàn)詞的次數(shù)。