亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于預(yù)訓(xùn)練語(yǔ)言模型的關(guān)鍵詞感知問(wèn)題生成

        2022-02-24 05:06:30于尊瑞毛震東張勇東
        計(jì)算機(jī)工程 2022年2期
        關(guān)鍵詞:分類(lèi)文本模型

        于尊瑞,毛震東,王 泉,張勇東

        (1.中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,合肥 230000;2.北京百度網(wǎng)訊科技有限公司,北京 100000)

        0 概述

        隨著自動(dòng)對(duì)話機(jī)器人、電子客服、問(wèn)答式智能搜索等技術(shù)的廣泛應(yīng)用,人與機(jī)器之間的交流變得越來(lái)越自然流暢,然而,計(jì)算機(jī)準(zhǔn)確理解和使用自然語(yǔ)言的水平仍有待進(jìn)一步提高。問(wèn)題生成技術(shù)在對(duì)話機(jī)器人[1]、教育[2-4]、搜索[5]等領(lǐng)域具有重要的應(yīng)用價(jià)值,例如:訓(xùn)練問(wèn)答模型、智能搜索模型等系統(tǒng)需要大量的“段落-問(wèn)題-答案”數(shù)據(jù),人工標(biāo)注數(shù)據(jù)需要耗費(fèi)巨大的人力、物力以及財(cái)力,而互聯(lián)網(wǎng)(如百度百科、新華網(wǎng)等)中擁有海量的無(wú)標(biāo)注文本數(shù)據(jù),利用問(wèn)題生成技術(shù)可以從無(wú)標(biāo)注的文本段落中生成海量的“段落-問(wèn)題-答案”數(shù)據(jù)[6-8],從而完成自動(dòng)問(wèn)答系統(tǒng)訓(xùn)練[9]。因此,提升問(wèn)題生成技術(shù)的性能具有重要的實(shí)用與科研價(jià)值。

        早期的問(wèn)題生成研究多數(shù)采用基于語(yǔ)法規(guī)則和模板的方法,將問(wèn)題生成任務(wù)拆分為“問(wèn)什么”和“怎么問(wèn)”2 個(gè)子任務(wù)[10]。具體步驟為:利用語(yǔ)言學(xué)知識(shí)設(shè)計(jì)規(guī)則和模板,根據(jù)輸入文本的語(yǔ)法結(jié)構(gòu)等信息自動(dòng)從文本中提取出所需要的內(nèi)容,然后填入預(yù)先構(gòu)建好的問(wèn)題句模板中,形成問(wèn)句[11-13]。然而,此類(lèi)方法依賴既定規(guī)則,不能根據(jù)數(shù)據(jù)自適應(yīng)不同的文本領(lǐng)域,遷移成本過(guò)高,難以被廣泛應(yīng)用。

        隨后,“序列到序列”編碼器-解碼器神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于問(wèn)題生成任務(wù)。文獻(xiàn)[4]利用“序列到序列”編碼器-解碼器神經(jīng)網(wǎng)絡(luò)模型,根據(jù)所給的一個(gè)句子生成問(wèn)題,但其不能輸入給定答案信息,導(dǎo)致適用范圍受限。文獻(xiàn)[14]將答案信息添加到輸入中,根據(jù)給定的段落和答案實(shí)現(xiàn)問(wèn)題生成。在文獻(xiàn)[14]研究成果的基礎(chǔ)上,針對(duì)問(wèn)題生成任務(wù)所進(jìn)行的模型設(shè)計(jì)取得發(fā)展,例如:文獻(xiàn)[15]根據(jù)特定的疑問(wèn)詞捕捉答案中的關(guān)鍵信息;文獻(xiàn)[16]采用復(fù)制機(jī)制、占位符機(jī)制和上下文單詞嵌入機(jī)制等多種策略實(shí)現(xiàn)問(wèn)題生成;文獻(xiàn)[17-19]使用段落線索、問(wèn)題類(lèi)型、問(wèn)題風(fēng)格等信息作為輔助信息進(jìn)行問(wèn)題生成;文獻(xiàn)[20-21]控制問(wèn)題的提問(wèn)角度和難度。在此之后,強(qiáng)化學(xué)習(xí)策略在該領(lǐng)域的應(yīng)用也取得了進(jìn)展,例如:文獻(xiàn)[22]在生成對(duì)抗框架下增加潛在變量和觀察變量;文獻(xiàn)[23]在生成評(píng)價(jià)框架下將所生成問(wèn)題的語(yǔ)義評(píng)分和語(yǔ)法結(jié)構(gòu)評(píng)分作為獎(jiǎng)勵(lì);文獻(xiàn)[24]使用語(yǔ)義評(píng)分和問(wèn)答系統(tǒng)評(píng)分作為獎(jiǎng)勵(lì);文獻(xiàn)[25-27]將問(wèn)題生成任務(wù)和問(wèn)答任務(wù)作為對(duì)偶任務(wù)進(jìn)行聯(lián)合訓(xùn)練。上述方法在問(wèn)題生成任務(wù)中取得的性能提升,使得問(wèn)題生成技術(shù)在構(gòu)建大規(guī)模問(wèn)答數(shù)據(jù)集等研究中得到廣泛應(yīng)用。

        近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型(如BERT[28]、ERNIE[29]等)在多項(xiàng)自然語(yǔ)言理解任務(wù)中表現(xiàn)突出。預(yù)訓(xùn)練語(yǔ)言模型通過(guò)“預(yù)訓(xùn)練-微調(diào)”框架來(lái)實(shí)現(xiàn):“預(yù)訓(xùn)練”是指在海量無(wú)標(biāo)注文本數(shù)據(jù)上,通過(guò)多種任務(wù)預(yù)先訓(xùn)練好模型參數(shù);“微調(diào)”是指針對(duì)特定的下游任務(wù),調(diào)整模型結(jié)構(gòu)并在標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,從而完成特定下游任務(wù)。在預(yù)訓(xùn)練模型中添加自注意力掩碼,將雙向語(yǔ)言模型改造成序列到序列語(yǔ)言模型,可以實(shí)現(xiàn)生成任務(wù)。該方法在問(wèn)題生成任務(wù)中的性能表現(xiàn)已經(jīng)遠(yuǎn)超傳統(tǒng)的序列到序列編碼器-解碼器神經(jīng)網(wǎng)絡(luò)。

        然而,現(xiàn)有方法仍無(wú)法避免問(wèn)題生成任務(wù)中長(zhǎng)期存在的2 個(gè)問(wèn)題:一是“誤差累積”問(wèn)題,每個(gè)問(wèn)題都由很多個(gè)連續(xù)的詞組成,生成時(shí)需要一個(gè)詞接一個(gè)詞地連續(xù)迭代生成,因?yàn)槟P筒痪邆浼m正錯(cuò)誤的能力,所以在該過(guò)程中一旦有一個(gè)詞生成錯(cuò)誤,后續(xù)的詞會(huì)根據(jù)錯(cuò)誤的詞繼續(xù)生成,誤差將進(jìn)一步擴(kuò)大;二是“一對(duì)多”問(wèn)題,給定一個(gè)文本段落和一個(gè)答案,文本段落中會(huì)蘊(yùn)含多種多樣的信息,人類(lèi)可以提出多個(gè)問(wèn)題,也可以判斷出哪些問(wèn)題更具價(jià)值,而對(duì)于模型而言,難以找到全局最優(yōu)解,原因是逐個(gè)詞地連續(xù)迭代生成傾向于找到局部最優(yōu)解。

        本文提出一種帶有關(guān)鍵詞感知的問(wèn)題生成方法,用以克服問(wèn)題生成過(guò)程中僅依賴局部最優(yōu)解的不足,減少“誤差累積”與“一對(duì)多”現(xiàn)象的發(fā)生,提升問(wèn)題生成的質(zhì)量。具體地,采用“兩步走”的流水線式框架,基于預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)關(guān)鍵詞分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)和帶有關(guān)鍵詞信息感知的問(wèn)題生成網(wǎng)絡(luò)結(jié)構(gòu),

        關(guān)鍵詞分類(lèi)模型從輸入段落中提取關(guān)鍵詞特征,在經(jīng)過(guò)后處理之后將其作為全局信息融合到問(wèn)題生成網(wǎng)絡(luò)的輸入中,最終完成問(wèn)題生成過(guò)程。

        1 問(wèn)題生成任務(wù)定義

        問(wèn)題生成任務(wù)的定義是:給定一個(gè)文本段落C和一個(gè)答案A,答案A是文本段落C中的一部分連續(xù)文本,計(jì)算機(jī)根據(jù)段落C和答案A自動(dòng)生成對(duì)應(yīng)的問(wèn)題Qˉ。問(wèn)題生成數(shù)據(jù)示例如表1 所示。

        表1 問(wèn)題生成數(shù)據(jù)示例Table 1 Question generation data example

        問(wèn)題生成模型θ的目標(biāo)是在生成問(wèn)題時(shí),使得數(shù)據(jù)集中真實(shí)的問(wèn)題Q出現(xiàn)的概率盡量大,表示如下:

        其中:Q1,Q2,…,QLQ是構(gòu)成問(wèn)題Q的詞;LQ是組成問(wèn)題Q的詞數(shù)量。

        2 本文方法

        本文帶有關(guān)鍵詞感知的問(wèn)題生成采用“兩步走”的流水線式框架,包括關(guān)鍵詞分類(lèi)、問(wèn)題生成2 個(gè)步驟:關(guān)鍵詞分類(lèi)模型針對(duì)輸入的文本段落中的每個(gè)詞,預(yù)測(cè)其為關(guān)鍵詞還是非關(guān)鍵詞并作為特征;問(wèn)題生成的輸入數(shù)據(jù)中融合上述特征,經(jīng)過(guò)問(wèn)題生成模型生成問(wèn)題。關(guān)鍵詞分類(lèi)模型和問(wèn)題生成模型的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)均基于預(yù)訓(xùn)練語(yǔ)言模型ERNIE[29]。

        2.1 預(yù)訓(xùn)練語(yǔ)言模型ERNIE

        預(yù)訓(xùn)練語(yǔ)言模型ERNIE[29]在自然語(yǔ)言理解任務(wù)中表現(xiàn)突出,在16 個(gè)公開(kāi)數(shù)據(jù)集上性能領(lǐng)先,在國(guó)際通用語(yǔ)言理解評(píng)估基準(zhǔn)GLUE 上率先突破90 分,在全球語(yǔ)義評(píng)測(cè)SemEval 2020 中摘得5 項(xiàng)世界冠軍。基于ERNIE[29]的突出表現(xiàn),本文選取ERNIE 作為基線模型。

        ERNIE 的網(wǎng)絡(luò)結(jié)構(gòu)由嵌入向量層(輸入)、雙向自注意力編碼器、下游任務(wù)層(輸出)3 個(gè)部分組成,如圖1 所示。

        圖1 ERNIE 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 ERNIE network structure

        ERNIE 等預(yù)訓(xùn)練模型在預(yù)訓(xùn)練過(guò)程中使用的詞表是子詞(Sub-Token)表,“子詞”即將一個(gè)英文單詞拆分為幾個(gè)具有一定意義的小單元,以更好地對(duì)子詞語(yǔ)義嵌入向量進(jìn)行預(yù)訓(xùn)練,例如:將單詞“eating(正在吃)”拆分為“eat(吃)”和“ing(正在)”。

        在預(yù)訓(xùn)練過(guò)程中,輸入文本數(shù)據(jù)的格式是:“[CLS]句子1[SEP]句子2[SEP]…”,其中:[CLS]表示開(kāi)始;[SEP]表示一個(gè)句子結(jié)束,兩者均為子詞表中的特殊標(biāo)志子詞。輸入文本數(shù)據(jù)經(jīng)過(guò)嵌入向量層后被轉(zhuǎn)化為嵌入向量(Embedding Vector),具體過(guò)程為:嵌入向量層根據(jù)輸入的編號(hào)查表映射為向量,例如輸入的編號(hào)為2,則從表中取出第2 個(gè)向量。嵌入向量由4 個(gè)部分相加組成,分別是子詞語(yǔ)義嵌入(Sub-Token Embedding)、位置嵌入(Position Embedding)、句子嵌入(Sentence Embedding)、任務(wù)嵌入(Task Embedding):子詞語(yǔ)義嵌入以子詞在詞表中的順序位置作為編號(hào),學(xué)習(xí)子詞本身到向量的映射,例如某子詞在詞表中的第521 個(gè)位置,其編號(hào)即為521;位置嵌入學(xué)習(xí)子詞在輸入文本中的位置到向量的映射,例如某子詞在輸入數(shù)據(jù)中的第4個(gè)位置,其編號(hào)即為4;句子嵌入學(xué)習(xí)子詞所屬的句子(或文本片段)的位置到向量的映射,例如某子詞在第1 個(gè)句子(或文本片段)中,其編號(hào)即為1;任務(wù)嵌入學(xué)習(xí)任務(wù)類(lèi)型到向量的映射。嵌入向量在雙向自注意力編碼器層進(jìn)行計(jì)算(雙向自注意力編碼器層采用Transformer[30]結(jié)構(gòu)),計(jì)算后的向量傳給下游任務(wù)層以實(shí)現(xiàn)特定的下游任務(wù)。

        2.2 關(guān)鍵詞分類(lèi)

        2.2.1 關(guān)鍵詞分類(lèi)任務(wù)定義

        在輸入的文本段落中有很多實(shí)詞(如動(dòng)詞、名詞),在生成問(wèn)題的過(guò)程中,為了確保問(wèn)題與原文語(yǔ)義上的一致性,往往需要“拷貝”一些重要的實(shí)詞,在本文中稱這些需要被拷貝的詞為“關(guān)鍵詞”。關(guān)鍵詞分類(lèi)任務(wù)的定義是:給定一個(gè)文本段落C和一個(gè)答案A,答案A是文本段落C中的一部分連續(xù)文本,C由連續(xù)的詞C={C1,C2,…,CLC}構(gòu)成(LC是段落C中的詞數(shù)量),計(jì)算機(jī)根據(jù)段落C和答案A預(yù)測(cè)段落C中的每一個(gè)實(shí)詞Ci(1≤i≤LC)是否為關(guān)鍵詞。

        2.2.2 數(shù)據(jù)標(biāo)注

        實(shí)現(xiàn)關(guān)鍵詞分類(lèi)任務(wù)需要在訓(xùn)練集中標(biāo)注關(guān)鍵詞,具體操作是:遍歷文本段落中的單詞,如果該單詞不在停詞表(包含常用的高頻虛詞,使用開(kāi)源工具spaCy 和NLTK 獲取)中,并且該單詞也出現(xiàn)在問(wèn)題中,則將其視為關(guān)鍵詞。標(biāo)注關(guān)鍵詞的算法描述如下:

        算法1標(biāo)注關(guān)鍵詞

        該算法的運(yùn)算過(guò)程包括對(duì)問(wèn)題中所有詞的一次遍歷運(yùn)算、對(duì)停詞表的查表運(yùn)算、對(duì)問(wèn)題詞集合的查表運(yùn)算、對(duì)關(guān)鍵詞集合的插入運(yùn)算。算法的空間復(fù)雜度為O(n),時(shí)間復(fù)雜度為O(n)。

        2.2.3 關(guān)鍵詞分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)

        關(guān)鍵詞分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。輸入數(shù)據(jù)的格式為“[CLS],C1,C2,…,CLC,[SEP]”。在嵌入向量層中,子詞語(yǔ)義嵌入的編號(hào)設(shè)定方式與ERNIE 預(yù)訓(xùn)練過(guò)程中的設(shè)定方式相同,子詞語(yǔ)義嵌入所需要的編號(hào)由子詞在詞表中的順序位置決定;因?yàn)椋跜LS]和[SEP]需要2 個(gè)位置,所以位置嵌入所需要的編號(hào)按順序設(shè)置為0,1,…,LC,LC+1,LC+2;因?yàn)檩斎氲闹挥幸粋€(gè)文本段落,所以統(tǒng)一將句子嵌入所需要的句子編號(hào)設(shè)置為0;因?yàn)樵撊蝿?wù)沒(méi)有在預(yù)訓(xùn)練過(guò)程中使用過(guò),所以將任務(wù)嵌入所需要的任務(wù)編號(hào)設(shè)置為默認(rèn)值0。

        圖2 關(guān)鍵詞分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Keyword classification network structure

        嵌入向量在經(jīng)過(guò)雙向自注意力編碼器與全連接層后,利用Softmax 層執(zhí)行二分類(lèi)任務(wù),將每一個(gè)子詞分成關(guān)鍵詞或非關(guān)鍵詞,表達(dá)如下:

        2.2.4 后處理

        為了提升問(wèn)題生成的效果,關(guān)鍵詞分類(lèi)模型輸出的結(jié)果PKC(Ci)需要經(jīng)過(guò)后處理,原因有以下兩點(diǎn):

        1)由于問(wèn)題生成任務(wù)固有的“一對(duì)多”的特點(diǎn),關(guān)鍵詞分類(lèi)任務(wù)不可能實(shí)現(xiàn)準(zhǔn)確率和召回率都逼近100%的結(jié)果。例如:

        段落:學(xué)術(shù)性刊物《計(jì)算機(jī)工程》于1975 年創(chuàng)刊。

        答案:1975 年

        問(wèn)題1:《計(jì)算機(jī)工程》是哪年創(chuàng)刊?

        問(wèn)題2:學(xué)術(shù)性刊物《計(jì)算機(jī)工程》是哪年創(chuàng)刊?

        在該例中,問(wèn)題1 與問(wèn)題2 都是正確的,但問(wèn)題1中不包含“學(xué)術(shù)性刊物”,問(wèn)題2 中包含“學(xué)術(shù)性刊物”,因此,“學(xué)術(shù)性刊物”可以是關(guān)鍵詞也可以是非關(guān)鍵詞。

        如果將準(zhǔn)確率和召回率都不夠高的特征輸入到問(wèn)題生成模型中,必然引入大量噪聲,影響問(wèn)題生成的結(jié)果。為解決該問(wèn)題,可以降低判定為關(guān)鍵詞的概率閾值,將特征調(diào)整為高召回率的特征,高召回率的直觀理解是:對(duì)于判定為關(guān)鍵詞的子詞,問(wèn)題生成模型應(yīng)該進(jìn)行復(fù)制;對(duì)于判定為非關(guān)鍵詞的子詞,問(wèn)題生成模型應(yīng)該自適應(yīng)地計(jì)算是否復(fù)制。

        2)原文段落相對(duì)較長(zhǎng),問(wèn)題相對(duì)較短,原文段落中存在大量無(wú)關(guān)詞匯,導(dǎo)致數(shù)據(jù)標(biāo)注過(guò)程中被標(biāo)注為關(guān)鍵詞與非關(guān)鍵詞的比例不均衡??梢酝ㄟ^(guò)降低關(guān)鍵詞的判定概率閾值來(lái)解決該問(wèn)題。

        基于以上兩點(diǎn)原因,后處理至關(guān)重要,其能影響關(guān)鍵詞特征的質(zhì)量以及問(wèn)題生成的效果。后處理的具體方法是:設(shè)定一個(gè)關(guān)鍵詞閾值T,如果關(guān)鍵詞分類(lèi)模型輸出的關(guān)鍵詞概率大于等于閾值T,則將其判定為關(guān)鍵詞;否則,判定為非關(guān)鍵詞。公式描述如下:

        經(jīng)過(guò)后處理的關(guān)鍵詞分類(lèi)結(jié)果將作為特征融合到問(wèn)題生成模型MQG的輸入中,并要保持問(wèn)題生成模型MQG在訓(xùn)練和預(yù)測(cè)過(guò)程中接收到的特征具有一致性。預(yù)測(cè)過(guò)程中的特征是由關(guān)鍵詞分類(lèi)模型MKC得出的,因此,在問(wèn)題生成模型MQG的訓(xùn)練過(guò)程中,也應(yīng)該使用關(guān)鍵詞分類(lèi)模型MKC預(yù)測(cè)得出的特征,而不是數(shù)據(jù)集標(biāo)注的真實(shí)特征。具體做法是:在訓(xùn)練集上訓(xùn)練好關(guān)鍵詞分類(lèi)模型MKC后,用MKC在訓(xùn)練集和測(cè)試集上均執(zhí)行一遍預(yù)測(cè)過(guò)程,然后執(zhí)行調(diào)整關(guān)鍵詞分類(lèi)閾值的后處理操作,將結(jié)果作為問(wèn)題生成模型MQG的輸入特征。

        2.3 帶有關(guān)鍵詞感知的問(wèn)題生成

        帶有關(guān)鍵詞感知的問(wèn)題生成網(wǎng)絡(luò)在結(jié)構(gòu)設(shè)計(jì)時(shí)主要考慮三點(diǎn):一是在輸入層中融合關(guān)鍵詞特征;二是在編碼器層中添加自注意力掩碼,將雙向自注意力機(jī)制改為序列到序列的自注意力機(jī)制;三是在輸出層實(shí)現(xiàn)訓(xùn)練階段的并行訓(xùn)練與預(yù)測(cè)階段的迭代生成。

        基于ERNIE 的問(wèn)題生成網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。問(wèn)題生成任務(wù)訓(xùn)練過(guò)程的輸入文本數(shù)據(jù)格式為“[CLS],是問(wèn)題,問(wèn)題的長(zhǎng)度LQ是定值,對(duì)于數(shù)據(jù)中長(zhǎng)于LQ的問(wèn)題,在LQ處截?cái)?,?duì)于數(shù)據(jù)中短于LQ的問(wèn)題,用特殊標(biāo)志子詞[PAD]填充至LQ長(zhǎng)度。對(duì)文本段落也做同樣處理。在預(yù)測(cè)過(guò)程中,所有的問(wèn)題子詞均以[PAD]作為輸入,目的是保持問(wèn)題在訓(xùn)練和預(yù)測(cè)的過(guò)程中所處位置不變。

        圖3 問(wèn)題生成網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Question generation network structure

        在嵌入向量層,子詞語(yǔ)義嵌入、位置嵌入、任務(wù)嵌入的設(shè)置方法與關(guān)鍵詞分類(lèi)所用ERNIE 方法相同。對(duì)于句子嵌入,需要進(jìn)行特殊處理以區(qū)分段落、答案以及問(wèn)題部分,具體為:將問(wèn)題的句子嵌入所需編碼設(shè)置為0,將輸入文本段落中非答案部分的句子嵌入所需編碼設(shè)置為1,將答案部分的句子嵌入所需編碼設(shè)置為2。

        在嵌入向量層,添加關(guān)鍵詞特征嵌入并與原來(lái)的4 種嵌入向量相加。對(duì)于關(guān)鍵詞,其關(guān)鍵詞嵌入的編碼設(shè)置為1,對(duì)于非關(guān)鍵詞,其關(guān)鍵詞嵌入的編碼設(shè)置為0。在此,將關(guān)鍵詞分類(lèi)模型及后處理得到的特征信息融合進(jìn)問(wèn)題生成模型的輸入中,以實(shí)現(xiàn)問(wèn)題生成模型的關(guān)鍵詞感知能力。

        在編碼器層,預(yù)訓(xùn)練語(yǔ)言模型ERNIE 的自注意力是雙向的,即在計(jì)算每個(gè)子詞的向量時(shí),根據(jù)其上文和下文2 個(gè)方向的子詞進(jìn)行向量計(jì)算。對(duì)于問(wèn)題生成任務(wù),不能使用雙向的自注意力,這是因?yàn)樵谟?xùn)練過(guò)程中要保持并行訓(xùn)練效率,一個(gè)問(wèn)題中的所有子詞并行參與訓(xùn)練,不能讓問(wèn)題中后邊的子詞“看到”前邊的子詞;另外,問(wèn)題中所有子詞的向量計(jì)算均需要“看到”所有文本段落部分的子詞,不能讓文本段落部分的子詞“看到”問(wèn)題部分的子詞,以防數(shù)據(jù)泄露。如圖4 所示,本文采用類(lèi)似UniLM[31]中提出的自注意力掩碼機(jī)制,實(shí)現(xiàn)問(wèn)題生成任務(wù)所需的序列到序列自注意力編碼器。在編碼器中計(jì)算向量時(shí),問(wèn)題中的子詞可以“看到”問(wèn)題中前邊的子詞和文本段落中的子詞,文本段落中的子詞僅可以“看到”文本段落中的子詞。自注意力掩碼結(jié)構(gòu)的設(shè)計(jì),使得一條數(shù)據(jù)問(wèn)題中包含的所有詞可以并行訓(xùn)練,不會(huì)發(fā)生數(shù)據(jù)泄露,提升了訓(xùn)練效率。在預(yù)測(cè)過(guò)程中,為了保持和訓(xùn)練過(guò)程的一致性,也使用該自注意力掩碼機(jī)制。

        圖4 自注意力掩碼示意圖Fig.4 Schematic diagram of self-attention mask

        帶有自注意力掩碼的編碼器輸出的向量經(jīng)過(guò)全連接層后,用問(wèn)題部分前一個(gè)子詞Ci-1位置的向量乘以子詞嵌入矩陣的逆矩陣,得到的子詞編碼對(duì)應(yīng)的子詞作為當(dāng)前子詞Ci的預(yù)測(cè)輸出,用公式表示如下:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)代碼在開(kāi)源深度學(xué)習(xí)框架PaddlePaddle[32]上實(shí)現(xiàn),在V100 GPU 上訓(xùn)練與測(cè)試。使用預(yù)訓(xùn)練模型ERNIE 初始化參數(shù),并設(shè)置所有參數(shù)為可訓(xùn)練狀態(tài)。設(shè)置問(wèn)題的最大長(zhǎng)度LQ為40,文本段落的最大長(zhǎng)度LC為341。優(yōu)化器為Adam,dropout 比率為0.1。使用指數(shù)滑動(dòng)平均(Exponential Moving Average,EMA)進(jìn)行評(píng)估,衰減率設(shè)置為0.999 9。學(xué)習(xí)率使用線性warm up 和decay,warm up 步數(shù)設(shè)置為總訓(xùn)練步數(shù)的10%。最大學(xué)習(xí)率為2e-5,批大小(batch size)為16,關(guān)鍵詞分類(lèi)的訓(xùn)練輪數(shù)(epoch)為4,問(wèn)題生成的訓(xùn)練輪數(shù)(epoch)為5。

        3.2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        現(xiàn)有的問(wèn)題生成研究主要在英文問(wèn)答數(shù)據(jù)集SQuAD[33]上進(jìn)行評(píng)價(jià),SQuAD 中的數(shù)據(jù)由段落、問(wèn)題、答案3 個(gè)部分組成,其中:段落和問(wèn)題從維基百科中獲取;答案由人工標(biāo)注。但是SQuAD 數(shù)據(jù)集中官方?jīng)]有提供測(cè)試集,只提供了訓(xùn)練集和驗(yàn)證集。為解決該問(wèn)題,文獻(xiàn)[34]將原始的訓(xùn)練集劃分為新的訓(xùn)練集和新的驗(yàn)證集,將原始的驗(yàn)證集劃分為新的測(cè)試集,這種劃分方式在問(wèn)題生成領(lǐng)域被廣泛使用,為了對(duì)比實(shí)驗(yàn)的公平性,本文同樣使用文獻(xiàn)[34]中的數(shù)據(jù)劃分方式。

        BLEU-4[35]是目前問(wèn)題生成領(lǐng)域常用的評(píng)價(jià)指標(biāo)。BLEU 通過(guò)計(jì)算數(shù)據(jù)集真實(shí)數(shù)據(jù)和模型生成數(shù)據(jù)中共同出現(xiàn)的n-gram 占所有n-gram 的比率,以此來(lái)衡量生成質(zhì)量的高低。BLEU 還引入長(zhǎng)度懲罰因子,避免過(guò)長(zhǎng)或過(guò)短的句子獲得過(guò)高的分?jǐn)?shù)。

        3.3 問(wèn)題生成實(shí)驗(yàn)

        問(wèn)題生成實(shí)驗(yàn)結(jié)果如表2 所示。其中,選擇3 個(gè)具有代表性的模型作為對(duì)比模型:帶有復(fù)制機(jī)制的問(wèn)題生成模型[34]帶有最大值指針與門(mén)控結(jié)構(gòu)復(fù)制機(jī)制,在段落級(jí)的問(wèn)題生成中取得了突破性的進(jìn)展與性能提升;帶有語(yǔ)義監(jiān)督的問(wèn)題生成模型[24]用問(wèn)答任務(wù)來(lái)監(jiān)督問(wèn)題生成任務(wù),在效能上具有較大的提升;帶有序列到序列預(yù)訓(xùn)練的問(wèn)題生成模型UniLM[31]在“序列到序列”預(yù)訓(xùn)練之后進(jìn)行“微調(diào)”,是首個(gè)將預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用于問(wèn)題生成任務(wù)的方法,在該領(lǐng)域具有很大的影響力。不帶關(guān)鍵詞感知的問(wèn)題生成模型是本文的基線模型,其在問(wèn)題生成模型的嵌入向量層沒(méi)有添加關(guān)鍵詞特征的嵌入向量。從表2 可以看出,本文帶有關(guān)鍵詞感知的問(wèn)題生成模型的性能優(yōu)于基線模型以及對(duì)比問(wèn)題生成模型。

        表2 問(wèn)題生成實(shí)驗(yàn)結(jié)果Table 2 Question generation experiment results

        3.4 關(guān)鍵詞分類(lèi)閾值對(duì)問(wèn)題生成的影響

        用準(zhǔn)確率和召回率評(píng)估關(guān)鍵詞分類(lèi)及后處理之后的問(wèn)題生成質(zhì)量,多組關(guān)鍵詞分類(lèi)閾值下的實(shí)驗(yàn)結(jié)果如表3 所示。從表3 可以看出,準(zhǔn)確率和召回率無(wú)法同時(shí)達(dá)到很高水平,這是由于問(wèn)題生成任務(wù)固有的“一對(duì)多”特點(diǎn)所造成的,需要采用后處理的方法調(diào)整關(guān)鍵詞分類(lèi)閾值T來(lái)解決該問(wèn)題。

        表3 關(guān)鍵詞分類(lèi)實(shí)驗(yàn)結(jié)果Table 3 Keyword classification experiment results

        為進(jìn)一步探究后處理中關(guān)鍵詞分類(lèi)閾值T對(duì)問(wèn)題生成質(zhì)量的影響,本文評(píng)估多組閾值設(shè)置下的問(wèn)題生成BLEU-4 指標(biāo),結(jié)果如圖5 所示。

        圖5 關(guān)鍵詞分類(lèi)閾值對(duì)BLEU-4 的影響Fig.5 Influence of keyword classification threshold on BLEU-4

        從圖5 可以看出:當(dāng)閾值設(shè)置為0.01 時(shí),BLEU-4指標(biāo)結(jié)果與基線模型持平;當(dāng)閾值設(shè)置為0.50 時(shí),BLEU-4 指標(biāo)略高于基線模型;當(dāng)閾值設(shè)置為0.20時(shí),BLEU-4 指標(biāo)明顯優(yōu)于基線模型。由此可見(jiàn),關(guān)鍵詞后處理操作具有有效性。

        3.5 應(yīng)用場(chǎng)景

        帶有關(guān)鍵詞感知的問(wèn)題生成方法已經(jīng)借助千萬(wàn)級(jí)規(guī)模的數(shù)據(jù)平臺(tái)——百度百科實(shí)現(xiàn)了大規(guī)模工業(yè)應(yīng)用。一條百度百科數(shù)據(jù)由一個(gè)“詞條名”和對(duì)該詞條名的文字介紹構(gòu)成,例如,詞條“紅嘴鷗”中有大量文字系統(tǒng)性地介紹了紅嘴鷗的形態(tài)特征、棲息環(huán)境、生活習(xí)性等信息。將百度百科數(shù)據(jù)中的某一個(gè)段落以及標(biāo)記的答案作為問(wèn)題生成的輸入,將詞條名作為關(guān)鍵詞,通過(guò)帶有關(guān)鍵詞感知的問(wèn)題生成方法生成包含詞條名的問(wèn)題,將問(wèn)題加入搜索引擎的問(wèn)題庫(kù),當(dāng)用戶使用搜索引擎搜索該問(wèn)題時(shí),即可將該段落和答案作為搜索結(jié)果。

        4 結(jié)束語(yǔ)

        本文基于預(yù)訓(xùn)練語(yǔ)言模型ERNIE,提出一種帶有關(guān)鍵詞感知功能的問(wèn)題生成方法。利用關(guān)鍵詞分類(lèi)模型提取關(guān)鍵詞信息,經(jīng)過(guò)后處理操作后將其作為全局信息來(lái)引導(dǎo)問(wèn)題生成過(guò)程。在SQuAD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠顯著提升問(wèn)題生成效果,BLEU-4 指標(biāo)值可達(dá)24。目前,該方法的有效性已在大規(guī)模工業(yè)應(yīng)用中得到驗(yàn)證,下一步將探索其在摘要抽取、標(biāo)題生成等其他自然語(yǔ)言生成任務(wù)中的適用性。

        猜你喜歡
        分類(lèi)文本模型
        一半模型
        分類(lèi)算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        3D打印中的模型分割與打包
        中国少妇久久一区二区三区| 婷婷综合缴情亚洲| 国产午夜精品理论片| 中文乱码字幕高清在线观看| 一二三四中文字幕日韩乱码| 我也色自拍俺也色自拍| 日本不卡一区二区三区久久精品| 一本色道久久亚洲综合| 亚洲av无码乱码在线观看性色| 亚洲欧美日韩国产精品一区二区 | 成人一区二区三区蜜桃| 国产一区二区在线免费视频观看| 日本熟妇另类一区二区三区| 一本一道vs无码中文字幕| 欧美裸体xxxx极品少妇| 精品久久久无码中文字幕| 中年人妻丰满AV无码久久不卡| 无码精品一区二区三区免费16| 日韩一区二区中文字幕| 亚洲av迷人一区二区三区| 天堂中文а√在线| 免费国精产品自偷自偷免费看| 国产亚洲精品国产福利在线观看| 亚洲美女av一区二区| 日韩一级137片内射视频播放| 三级国产精品久久久99| 最新日本一道免费一区二区| 中国丰满熟妇av| 对白刺激的老熟女露脸| 成人性生交大片免费看i| 亚洲国产中文字幕无线乱码| 人人妻人人做人人爽| 久久aⅴ人妻少妇嫩草影院| 亚洲av无码av在线播放| 2021久久精品国产99国产| 国产人妖直男在线视频| 户外精品一区二区三区| 色婷婷五月综合久久| 国产乱理伦片在线观看| 精品国产亚欧无码久久久| 日本人妖一区二区三区|