扆雅欣,孫欣伊,譚紅葉,2
(1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
機(jī)器閱讀理解作為一項(xiàng)綜合的自然語(yǔ)言處理任務(wù),受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。該任務(wù)需要模型深度分析文章語(yǔ)義以及文章與問(wèn)題之間的聯(lián)系,并準(zhǔn)確回答問(wèn)題。當(dāng)前,絕大多數(shù)機(jī)器閱讀理解模型利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行建模和優(yōu)化[1-2],已在多個(gè)數(shù)據(jù)集上接近甚至超過(guò)人類表現(xiàn)。然而已有多項(xiàng)研究表明,閱讀理解模型傾向于利用數(shù)據(jù)集偏見(jiàn)[3-5],不需要理解原文進(jìn)行推理就能獲得高性能。
為了消除數(shù)據(jù)偏見(jiàn)對(duì)模型產(chǎn)生的不良影響,前人已進(jìn)行許多研究[3,6-10]。現(xiàn)有方法可以分為兩類:①面向數(shù)據(jù)集的偏見(jiàn)消除方法,該類方法通過(guò)移除數(shù)據(jù)集中含偏樣例的方式生成無(wú)偏數(shù)據(jù)集,從而避免模型獲取有偏的先驗(yàn)知識(shí),如Yu 等[6]面向閱讀理解多項(xiàng)選擇任務(wù)中隨機(jī)猜測(cè)引起的數(shù)據(jù)偏見(jiàn),提出對(duì)模型設(shè)置多個(gè)隨機(jī)種子,并移除模型在所有情況下預(yù)測(cè)正確的樣例,得到無(wú)偏數(shù)據(jù)集;②面向模型的偏見(jiàn)消除方法,有研究者通過(guò)調(diào)整模型對(duì)訓(xùn)練集中每個(gè)樣例的學(xué)習(xí)強(qiáng)度以阻止模型利用偏見(jiàn),降低數(shù)據(jù)偏見(jiàn)對(duì)模型的影響,如Mahabadi 等[3]提出兩階段的學(xué)習(xí)策略訓(xùn)練模型,通過(guò)捕捉數(shù)據(jù)集中的有偏樣例并降低其權(quán)重,減少模型對(duì)偏見(jiàn)的依賴。
近年來(lái),反事實(shí)推理作為因果推理的一種重要手段[11],被引入偏見(jiàn)消除任務(wù)中。反事實(shí)推理是指對(duì)過(guò)去已發(fā)生的事實(shí)進(jìn)行否定,進(jìn)而構(gòu)建一種可能性假設(shè)的思維活動(dòng)[12]?;诜词聦?shí)推理的消偏方法嘗試借助因果關(guān)系解釋反事實(shí)事件,分析模型中存在的偏見(jiàn),并通過(guò)調(diào)整模型的預(yù)測(cè)輸出以減輕數(shù)據(jù)偏見(jiàn)對(duì)模型的影響。該方法不需要重新訓(xùn)練模型,只在測(cè)試時(shí)調(diào)整模型的輸出,便可實(shí)現(xiàn)無(wú)偏預(yù)測(cè)。
本文提出一種基于反事實(shí)推理的閱讀理解去偏方法。首先在原始訓(xùn)練集上訓(xùn)練模型,形成有偏的閱讀理解模型;再基于問(wèn)題和選項(xiàng)構(gòu)建反事實(shí)輸入,生成對(duì)應(yīng)的反事實(shí)輸出,反應(yīng)模型捕捉到的偏見(jiàn);最后結(jié)合模型的原始輸出和反事實(shí)輸出消除偏見(jiàn),實(shí)現(xiàn)無(wú)偏預(yù)測(cè)。在典型的中英文閱讀理解數(shù)據(jù)集C3與Dream 上的相關(guān)實(shí)驗(yàn)結(jié)果表明,本文提出的去偏方法能夠有效降低數(shù)據(jù)集中的問(wèn)題導(dǎo)向偏見(jiàn)和選項(xiàng)導(dǎo)向偏見(jiàn)對(duì)模型的影響,提升模型性能。
當(dāng)前主流閱讀理解方法主要基于注意力機(jī)制和預(yù)訓(xùn)練語(yǔ)言模型[13],這些方法在一些數(shù)據(jù)集上的性能已經(jīng)接近甚至超過(guò)了人的預(yù)期表現(xiàn)。如:BERT[14]模型在SQuAD[15]數(shù)據(jù)集上F1值高達(dá)93.2%,超越人類表現(xiàn)(F1值91.2%)。
然而有研究表明,模型的閱讀理解能力遠(yuǎn)不及人類。如Yu 等[8]在構(gòu)建邏輯推理閱讀理解數(shù)據(jù)集Reclor 時(shí),指出其中包含隨機(jī)猜測(cè)選中答案、特定詞匯指示正確答案等偏見(jiàn),這些偏見(jiàn)會(huì)降低模型泛化能力;Sugawara 等[7]以SQuAD、DuoRC[14]等多個(gè)數(shù)據(jù)集為基礎(chǔ)研究閱讀理解任務(wù),根據(jù)問(wèn)題句主題詞是否指示答案類型、答案是否出現(xiàn)在與問(wèn)題最相似的句子中,將數(shù)據(jù)集劃分為簡(jiǎn)單子集和困難子集,發(fā)現(xiàn)模型在多個(gè)困難子集上的性能均明顯下降,表明模型存在偏見(jiàn)。因此,偏見(jiàn)消除是一個(gè)亟待解決的問(wèn)題。
現(xiàn)有的偏見(jiàn)消除方法針對(duì)閱讀理解、自然語(yǔ)言推理和常識(shí)推理等自然語(yǔ)言處理任務(wù)進(jìn)行研究,研究思路包括面向數(shù)據(jù)集的偏見(jiàn)消除和面向模型的偏見(jiàn)消除。
(1)面向數(shù)據(jù)集的偏見(jiàn)消除。該類方法通過(guò)一定的策略移除數(shù)據(jù)集中的有偏樣例,并形成無(wú)偏數(shù)據(jù)集,避免模型在訓(xùn)練階段捕獲偏見(jiàn)。如Yu 等[8]為消除多項(xiàng)選擇任務(wù)中模型隨機(jī)猜測(cè)答案的影響,對(duì)模型設(shè)置多個(gè)隨機(jī)種子,并移除模型在所有情況下都預(yù)測(cè)正確的樣例;Zellers 等[17]提出對(duì)抗性過(guò)濾算法,將人類可識(shí)別的詞聯(lián)想轉(zhuǎn)化為機(jī)器可識(shí)別的向量聯(lián)想,過(guò)濾數(shù)據(jù)集中可能存在的詞匯選擇、假設(shè)句長(zhǎng)度特征等引起的數(shù)據(jù)偏見(jiàn);Sakaguchi 等[18]在文獻(xiàn)[17]的基礎(chǔ)上提出可減少迭代次數(shù)的輕量對(duì)抗過(guò)濾算法,去除僅基于向量表示就能得出正確答案的樣例,形成一個(gè)新的無(wú)偏或少偏的數(shù)據(jù)集。
(2)面向模型的偏見(jiàn)消除。目前,該類方法主要通過(guò)調(diào)整模型對(duì)訓(xùn)練集中的有偏樣例和無(wú)偏樣例的學(xué)習(xí)權(quán)重,以阻止模型利用數(shù)據(jù)偏見(jiàn)。如Mahabadi 等[3]提出利用兩階段學(xué)習(xí)策略訓(xùn)練模型,先找到數(shù)據(jù)集中的有偏樣例并調(diào)整訓(xùn)練集中各類樣例的權(quán)值,使模型訓(xùn)練時(shí)重點(diǎn)學(xué)習(xí)無(wú)偏樣例,降低數(shù)據(jù)偏見(jiàn)對(duì)模型的影響;Liu 等[19]對(duì)于機(jī)器學(xué)習(xí)模型在現(xiàn)實(shí)應(yīng)用中出現(xiàn)的性別和種族歧視等問(wèn)題,提出基于強(qiáng)化學(xué)習(xí)的去偏框架,并采用去偏獎(jiǎng)勵(lì)函數(shù)和KL 值,降低了數(shù)據(jù)集中的政治偏見(jiàn)對(duì)模型的影響。
反事實(shí)推理是一種新的面向模型的消偏方法。反事實(shí)推理與因果推理密切相關(guān),是個(gè)體對(duì)不真實(shí)的條件或可能性進(jìn)行替換的一種思維過(guò)程[12]。該方法被應(yīng)用于視覺(jué)問(wèn)答[20]、文本分類[21]和推薦系統(tǒng)[10]等機(jī)器學(xué)習(xí)模型偏見(jiàn)消除任務(wù)中。如Niu 等[20]基于反事實(shí)推理分析視覺(jué)問(wèn)答系統(tǒng)中存在的語(yǔ)言偏見(jiàn);Wei 等[10]利用反事實(shí)推理,通過(guò)多任務(wù)訓(xùn)練得到反事實(shí)輸出,消除物品流行度對(duì)推薦系統(tǒng)的影響;Chen 等[22]在文本分類去偏任務(wù)中引入反事實(shí)推理調(diào)整模型輸出,消除偏見(jiàn)。
已有的面向數(shù)據(jù)集的偏見(jiàn)消除方法需要一對(duì)一構(gòu)建無(wú)偏數(shù)據(jù)集,經(jīng)濟(jì)成本高昂,且可移植性較差,很難遷移到其他領(lǐng)域。本文受文獻(xiàn)[20]、文獻(xiàn)[22]的啟發(fā),提出一種基于反事實(shí)推理的面向模型的閱讀理解去偏方法。本文與他們的不同之處在于:文獻(xiàn)[20]、文獻(xiàn)[22]分別面向視覺(jué)問(wèn)答和文本分類任務(wù),而本文面向閱讀理解任務(wù)進(jìn)行偏見(jiàn)消除研究,并根據(jù)任務(wù)特點(diǎn)消除問(wèn)題導(dǎo)向偏見(jiàn)和選項(xiàng)導(dǎo)向偏見(jiàn)對(duì)模型預(yù)測(cè)的影響。此外,文獻(xiàn)[20]對(duì)原始輸出和反事實(shí)輸出進(jìn)行非線性組合得到去偏輸出,而本文與文獻(xiàn)[22]均采用線性組合調(diào)整模型輸出,實(shí)現(xiàn)無(wú)偏預(yù)測(cè),這種方法具有模型簡(jiǎn)單、訓(xùn)練速度快等優(yōu)勢(shì),有效節(jié)約了時(shí)間成本。
2.1.1 相關(guān)定義
(1)因果推理與反事實(shí)推理。因果推理是研究如何科學(xué)地識(shí)別變量間因果關(guān)系的理論。反事實(shí)推理與因果推理密切相關(guān),通常指人們對(duì)已發(fā)生事件進(jìn)行否定的心理活動(dòng),一般以反事實(shí)條件句的形式出現(xiàn),可以表示為“如果不......,那么.......”。如人們遲到時(shí),會(huì)想“如果早點(diǎn)動(dòng)身,那么就不會(huì)遲到了”。具體到模型去偏中,反事實(shí)推理可以用于分析如果某些變量采用不同的值(也稱反事實(shí)輸入),結(jié)果會(huì)如何改變,進(jìn)而評(píng)估模型捕獲到的偏見(jiàn)。
(2)因果圖。反事實(shí)推理在具體應(yīng)用中可以抽象化為如圖1 所示的因果示意圖。其中,節(jié)點(diǎn)X、Y和C分別表示原因、結(jié)果和中間變量(又稱混淆因子),當(dāng)X直接作用于Y,則X到Y(jié)存在一條有向邊(如X→Y),稱為前門路徑。如果X和Y在變量C的作用下具有因果關(guān)系(如X→C→Y),稱為后門路徑[19],這種情況很可能涉及到虛假的因果關(guān)系。為了正確分析X和Y之間的因果關(guān)系,需要消除混淆因子C的作用,阻斷后門路徑(如圖1(b)所示)。
Fig.1 Causal diagram圖1 因果示意圖
2.1.2 模型架構(gòu)
本文提出一種基于反事實(shí)推理的閱讀理解去偏方法。利用圖1 中因果示意圖的原理,基于閱讀理解任務(wù)特點(diǎn)構(gòu)造圖2 虛線框所示的反事實(shí)因果圖,其中篇章p、問(wèn)題q和候選選項(xiàng)o均為原因節(jié)點(diǎn),Y表示相應(yīng)的模型輸出,對(duì)應(yīng)結(jié)果節(jié)點(diǎn),中間變量C表示模型捕捉到的多種偏見(jiàn)。
如圖2 所示,該方法包括偏見(jiàn)提取和偏見(jiàn)消除兩個(gè)模塊。
(1)偏見(jiàn)提取模塊。該模塊通過(guò)構(gòu)建反事實(shí)輸入提取問(wèn)題導(dǎo)向偏見(jiàn)和選項(xiàng)導(dǎo)向偏見(jiàn)。①問(wèn)題導(dǎo)向偏見(jiàn):通過(guò)在篇章、選項(xiàng)基礎(chǔ)上,僅保留問(wèn)題疑問(wèn)詞構(gòu)建反事實(shí)輸入得到反事實(shí)輸出以獲得;②選項(xiàng)導(dǎo)向偏見(jiàn):通過(guò)僅為模型提供選項(xiàng)而不提供篇章和問(wèn)題構(gòu)造反事實(shí)輸入得到反事實(shí)輸出,以此反映模型捕捉到的相應(yīng)偏見(jiàn)。
(2)偏見(jiàn)消除模塊。基于模型的原始輸出和反事實(shí)輸出得到無(wú)偏預(yù)測(cè),本文通過(guò)從原始輸出中移除模型捕捉到的問(wèn)題導(dǎo)向偏見(jiàn)和選項(xiàng)導(dǎo)向偏見(jiàn)以調(diào)整模型預(yù)測(cè),實(shí)現(xiàn)偏見(jiàn)消除。
傳統(tǒng)的閱讀理解模型通?;跀?shù)據(jù)集得到的先驗(yàn)知識(shí),在推理階段最大化先驗(yàn)概率預(yù)測(cè)答案,但數(shù)據(jù)中存在的偏見(jiàn)會(huì)導(dǎo)致模型預(yù)測(cè)的置信度不高。本文借助貝葉斯公式表示偏見(jiàn)對(duì)模型預(yù)測(cè)的影響,如式(1)所示。
Fig.2 Reading comprehension debiasing method frame based on counterfactual reasoning圖2 基于反事實(shí)推理的閱讀理解去偏方法框架
在多項(xiàng)選擇閱讀理解任務(wù)中,X表示篇章p、問(wèn)題q和候選選項(xiàng)o等模型輸入,Y表示模型的預(yù)測(cè)輸出,c∈C表示混淆因子。
消除X→C→Y后門路徑的常用方法是采用do(·)操作,得到X和Y之間真正的因果關(guān)系。do(·)操作形式化如式(2)所示。
(1)基于問(wèn)題導(dǎo)向的反事實(shí)輸入。本文通過(guò)只提供問(wèn)題q中的疑問(wèn)詞,保持篇章p、選項(xiàng)o不變,構(gòu)建基于問(wèn)題導(dǎo)向的反事實(shí)輸入,獲得模型相應(yīng)的反事實(shí)輸出f()。具體操作可以形式化為式(3)。
其中,qw表示問(wèn)題中的疑問(wèn)詞部分,[MASK]表示屏蔽某個(gè)詞的特殊標(biāo)記。對(duì)于問(wèn)題q中的第i個(gè)詞,如果屬于疑問(wèn)詞qw則保留,否則用[MASK]進(jìn)行標(biāo)記。
(2)基于選項(xiàng)導(dǎo)向的反事實(shí)輸入。本文通過(guò)僅提供選項(xiàng)o,不提供篇章p和問(wèn)題q,構(gòu)建基于選項(xiàng)導(dǎo)向的反事實(shí)輸入,并通過(guò)模型獲得對(duì)應(yīng)的反事實(shí)輸出f()。具體操作如式(4)所示。
對(duì)模型的反事實(shí)輸出進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),基于問(wèn)題導(dǎo)向與選項(xiàng)導(dǎo)向的反事實(shí)輸出準(zhǔn)確率分別為83%和73%,表明模型存在相應(yīng)偏見(jiàn)。
本文通過(guò)從原始輸出中移除模型捕捉到的問(wèn)題導(dǎo)向偏見(jiàn)和選項(xiàng)導(dǎo)向偏見(jiàn)調(diào)整模型預(yù)測(cè),實(shí)現(xiàn)偏見(jiàn)消除。該過(guò)程可形式化為:
其中,c(x)和f(x)表示調(diào)整后的模型輸出,f(x)表示原始模型輸出,f()表示基于問(wèn)題導(dǎo)向的反事實(shí)輸出,f()表示基于選項(xiàng)導(dǎo)向的反事實(shí)輸出,λ1和λ2是兩個(gè)獨(dú)立的參數(shù),用于平衡兩類反事實(shí)輸出對(duì)模型的影響。該函數(shù)的目標(biāo)是找到一組最優(yōu)的參數(shù)組合,在優(yōu)化參數(shù)的過(guò)程中不斷降低問(wèn)題導(dǎo)向偏見(jiàn)和選項(xiàng)導(dǎo)向偏見(jiàn)對(duì)模型預(yù)測(cè)的影響,最終得到最優(yōu)的去偏輸出。
具體應(yīng)用中,在二維空間中采用網(wǎng)格搜索最佳的參數(shù)組合[20],形式化表示如下:
其中,?表示評(píng)價(jià)指標(biāo),評(píng)價(jià)模型在驗(yàn)證集Ddev上的性能,本文選擇準(zhǔn)確率作為評(píng)價(jià)指標(biāo)表示使模型性能最優(yōu)的參數(shù)組合,[a,b]是搜索區(qū)間,具體實(shí)驗(yàn)中設(shè)置為[-2,2]。
3.1.1 數(shù)據(jù)集
本文選擇漢語(yǔ)閱讀理解數(shù)據(jù)集C3 和英文閱讀理解數(shù)據(jù)集Dream 進(jìn)行實(shí)驗(yàn)。主要原因?yàn)椋孩賰蓚€(gè)數(shù)據(jù)集均為公開(kāi)發(fā)布的閱讀理解數(shù)據(jù)集,被很多研究者用作基準(zhǔn)數(shù)據(jù)集;②兩個(gè)數(shù)據(jù)集任務(wù)形式為多項(xiàng)選擇題,便于設(shè)計(jì)反事實(shí)輸入,探索本文所提思路的有效性。未來(lái)還將針對(duì)閱讀理解其他任務(wù)形式進(jìn)行拓展研究;③C3 和Dream 數(shù)據(jù)集風(fēng)格相同,但語(yǔ)種不同,前者為漢語(yǔ),后者為英語(yǔ),可以更好地探究本文所提方法在不同語(yǔ)種上的效果與普適性。
(1)C3 數(shù)據(jù)集。漢語(yǔ)多項(xiàng)選擇數(shù)據(jù)集,包含13 369 個(gè)對(duì)話或普通文本、19 557 道多項(xiàng)選擇題。數(shù)據(jù)來(lái)源于漢語(yǔ)第二語(yǔ)言考試。
(2)Dream 數(shù)據(jù)集。英語(yǔ)閱讀理解數(shù)據(jù)集,包含6 444個(gè)對(duì)話和10 197 個(gè)多項(xiàng)選擇問(wèn)題。數(shù)據(jù)來(lái)源于英語(yǔ)第二語(yǔ)言考試。
3.1.2 模型
本文選擇3 種代表性閱讀理解模型Bert、Ernie[26]和XLNet[27]進(jìn)行實(shí)驗(yàn)。
(1)Bert。該模型采用多層雙向Transformer 架構(gòu),利用掩碼語(yǔ)言模型(Masked Language Model,MLM)和句子預(yù)測(cè)(Next Sentence Prediction)兩項(xiàng)預(yù)訓(xùn)練任務(wù)在大規(guī)模文本語(yǔ)料上進(jìn)行訓(xùn)練得到。該模型在多個(gè)自然語(yǔ)言任務(wù)上取得最佳性能,包括閱讀理解任務(wù)。
(2)Ernie。其由百度提出,在基于Bert 模型的基礎(chǔ)上改進(jìn)了預(yù)訓(xùn)練MLM 任務(wù),將對(duì)字掩蓋變?yōu)閷?duì)詞、實(shí)體等語(yǔ)義單元進(jìn)行掩蓋,使模型可以學(xué)習(xí)完整概念的語(yǔ)義表示,對(duì)先驗(yàn)語(yǔ)義知識(shí)單元進(jìn)行建模,增強(qiáng)了模型的語(yǔ)義表示能力。該模型在中文閱讀理解任務(wù)上超越Bert。
(3)XLNet。該模型作為Bert 的改進(jìn)版,是一種通用的自回歸預(yù)訓(xùn)練模型。其利用排列語(yǔ)言建模,結(jié)合了自回歸語(yǔ)言模型和自編碼語(yǔ)言模型的優(yōu)點(diǎn),克服了Bert 掩碼語(yǔ)言模型帶來(lái)的預(yù)訓(xùn)練和微調(diào)效果存在差異的缺點(diǎn),在10 多項(xiàng)任務(wù)上(如閱讀理解任務(wù)、自然語(yǔ)言推理任務(wù)等)的性能已經(jīng)超過(guò)Bert。
3.1.3 準(zhǔn)確率
C3 和Dream 問(wèn)題的形式為多項(xiàng)選擇式,屬于客觀題,測(cè)評(píng)以準(zhǔn)確率(Accuracy)作為評(píng)測(cè)標(biāo)準(zhǔn)。
3.2.1 模型去偏結(jié)果分析
C3 和Dream 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1 所示??梢钥闯觯c原始Bert、Ernie 和XLNet 模型相比,去偏后的模型在C3 和Dream 數(shù)據(jù)集上的性能均有提升。其中,Bert 去偏效果最好,與原始模型相比,去偏后的模型在C3 驗(yàn)證集和測(cè)試集上的性能分別提升2.69%和2.31%,在Dream 驗(yàn)證集和測(cè)試集上的性能分別提升3.12%和1.21%。
Table 1 Results of C3 and Dream datasets表1 C3和Dream數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
同時(shí),本文為了分析實(shí)驗(yàn)結(jié)果的合理性,根據(jù)原始模型的答題結(jié)果,將C3 和Dream 測(cè)試集劃分為正確子集(如C3_true、Dream_true)和錯(cuò)誤子集(如 C3_wrong、Dream_wrong)。原始模型在正確子集和錯(cuò)誤子集上的性能分別為100%和0,去偏模型在錯(cuò)誤子集和正確子集上的實(shí)驗(yàn)結(jié)果如表2、表3所示。
Table 2 Results of debiasing models on wrong subsets表2 去偏模型在錯(cuò)誤子集上的實(shí)驗(yàn)結(jié)果
Table 3 Results of debiasing models on right subsets表3 去偏模型在正確子集上的實(shí)驗(yàn)結(jié)果
從表2 可以看出,去偏后的模型在C3 與Dream 錯(cuò)誤子集上的性能均有大幅度提升。其中,XLNet 去偏后的模型在C3_wrong 和Dream_wrong 數(shù)據(jù)集上的性能分別提升45.67%和38.72%,表明模型經(jīng)過(guò)優(yōu)化后,在錯(cuò)誤樣例上的表現(xiàn)有極大提升。如表4 所示,樣例1 為原始模型預(yù)測(cè)錯(cuò)誤而去偏模型預(yù)測(cè)正確的題目。
樣例1 的選項(xiàng)分布如圖3 所示??梢钥闯?,原始模型的事實(shí)輸出和問(wèn)題導(dǎo)向偏見(jiàn)的反事實(shí)輸出皆為A 選項(xiàng)正確,選項(xiàng)導(dǎo)向偏見(jiàn)的反事實(shí)輸出為B 選項(xiàng)正確。當(dāng)λ1=0.2,λ2=-0.3 時(shí),通過(guò)式(5)進(jìn)行模型優(yōu)化后,去偏模型的輸出為B 選項(xiàng)正確,同時(shí)也是正確答案。
Table 4 Example of debiasing model表4 模型去偏樣例
Fig.3 Option distribution for example 1圖3 樣例1選項(xiàng)分布
結(jié)合表1 和表2 可以看出,優(yōu)化后的模型在所有數(shù)據(jù)上的提升幅度不如錯(cuò)誤子集上的提升幅度,主要原因在于優(yōu)化后的模型在正確子集上的性能相比原始模型(100%)有所下降(見(jiàn)表3),可能是由于原始模型利用了數(shù)據(jù)集偏見(jiàn)作出正確決策,當(dāng)引入消偏方法后,模型會(huì)對(duì)決策方法進(jìn)行修正,因此模型性能會(huì)有一定幅度的下降,這也表明去偏后的模型更為合理。具體如表5中樣例2所示。
Table 5 Example of debiasing model表5 模型去偏樣例
3.2.2 消融實(shí)驗(yàn)
由于去偏后的Bert 模型效果最好,因此本文針對(duì)Bert進(jìn)行消融實(shí)驗(yàn)以分析問(wèn)題導(dǎo)向偏見(jiàn)消除和選項(xiàng)導(dǎo)向偏見(jiàn)對(duì)模型的貢獻(xiàn),結(jié)果如表6所示,其中Δ 表示模型準(zhǔn)確率的增量。
從表6 可以看出,與原始Bert 模型在C3 數(shù)據(jù)集上的性能相比,引入問(wèn)題導(dǎo)向偏見(jiàn)消除操作后模型性能提升3.70%,引入選項(xiàng)導(dǎo)向偏見(jiàn)消除操作后模型性能提升1.33%,表明問(wèn)題導(dǎo)向偏見(jiàn)對(duì)模型影響更大。當(dāng)同時(shí)引入兩種類型的偏見(jiàn)消除操作后,模型性能在平衡參數(shù)的作用下提升2.74%,有效減少了偏見(jiàn)對(duì)模型的影響。
Table 6 Ablation results of Bert表6 Bert消融實(shí)驗(yàn)結(jié)果(%)
3.2.3 不同手段對(duì)去偏結(jié)果的影響
有研究者將反事實(shí)推理引入到其他自然語(yǔ)言推理去偏任務(wù)中,采用非線性組合的方式將反事實(shí)輸出和原始事實(shí)輸出結(jié)合起來(lái)[18]優(yōu)化模型,而本文采用線性組合的方式實(shí)現(xiàn)閱讀理解任務(wù)的偏見(jiàn)消除。線性和非線性去偏方法對(duì)比結(jié)果如表7所示。
Table 7 Comparison of results表7 對(duì)比試驗(yàn)結(jié)果(%)
從表7 可以看出,非線性去偏方法在閱讀理解任務(wù)中的效果低于本文方法,兩個(gè)方法在C3 測(cè)試集上的準(zhǔn)確率相差4.64%。
本文提出了一種基于反事實(shí)推理的閱讀理解任務(wù)去偏方法,首先在原始數(shù)據(jù)集上訓(xùn)練得到包含多種偏見(jiàn)的基礎(chǔ)模型,然后構(gòu)建模型的反事實(shí)輸入并獲得反事實(shí)輸出,提取模型中的問(wèn)題導(dǎo)向偏見(jiàn)和選項(xiàng)導(dǎo)向偏見(jiàn),最后結(jié)合模型的原始輸出和反事實(shí)輸出調(diào)整模型預(yù)測(cè),降低偏見(jiàn)對(duì)模型的影響。本文在C3 和Dream 閱讀理解數(shù)據(jù)集上做了大量實(shí)驗(yàn),結(jié)果表明,本文所提方法能夠降低偏見(jiàn)對(duì)模型預(yù)測(cè)的影響,有效消除數(shù)據(jù)偏見(jiàn),極大提升了模型能力。未來(lái)還將探索閱讀理解數(shù)據(jù)集中的多種偏見(jiàn),并采用不同的手段消除偏見(jiàn),提升模型性能。