亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力平衡列表的溯因推理模型

        2023-02-24 05:00:48李林昊齊巧玲王利琴
        計算機(jī)應(yīng)用 2023年2期
        關(guān)鍵詞:集上列表注意力

        徐 銘,李林昊*,齊巧玲,王利琴

        (1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.河北省大數(shù)據(jù)計算重點(diǎn)實(shí)驗(yàn)室(河北工業(yè)大學(xué)),天津 300401;3.河北省數(shù)據(jù)驅(qū)動工業(yè)智能工程研究中心(河北工業(yè)大學(xué)),天津 300401)

        0 引言

        人們使用各種知識和推理來幫助理解語言的含義。例如,思考Minsky[1]說的這些句子:“杰克需要一些錢,所以他去搖了搖他的存錢罐。存錢罐沒有發(fā)出任何聲音,他很失望?!睂⑦@兩句話分別作為起始觀測事件以及最終觀測事件,在這兩個觀測事件中可以推斷出一個合理的假設(shè)——存錢罐中并沒有錢。這種使用常識性推理[2]獲取觀測事件之間最合理假設(shè)的過程被稱為溯因推理。

        Bhagavatula 等[3]從語言的蘊(yùn)含[4-5]、邏輯[6]和常識性推理[7]中獲得靈感并建立了溯因自然語言推理(abductive Natural Language Inference,aNLI)任務(wù);此外,還發(fā)布了一個新的挑戰(zhàn)數(shù)據(jù)集,即敘事文本中的溯因推理(Abductive Reasoning in narrative Text,ART)。

        圖1 展示了一個來自ART 數(shù)據(jù)集的真實(shí)案例,其中,H1和H2為正確假設(shè),H3和H4為錯誤假設(shè),O1和O2分別為起始觀測和最終觀測,S(H)表示對于H的分?jǐn)?shù)。L2R2(Learning to Rank for Reasoning)模型[8]根據(jù)假設(shè)在數(shù)據(jù)中出現(xiàn)的次數(shù)將其標(biāo)記為正確的、更正確的、錯誤的以及更錯誤的進(jìn)行訓(xùn)練;但是這種使用排名的方式忽略了合理假設(shè)與不合理假設(shè)之間的相對性,會導(dǎo)致部分合理假設(shè)與不合理假設(shè)的距離過于接近。此外,傳統(tǒng)模型缺少對于事件中重要單詞的捕捉能力。

        圖1 L2R2與ABL模型的對比Fig.1 Comparison of L2R2 and ABL models

        針對以上問題,本文提出下面3 個觀點(diǎn):1)在實(shí)際中引起觀測變化的原因是多種多樣的,合理假設(shè)往往不唯一,因此可以解釋觀測變化的假設(shè)都為合理的,不需要進(jìn)行區(qū)分;2)一個假設(shè)是不合理的,因?yàn)樗荒芙忉尦跏加^測到最終觀測的原因,即在構(gòu)建推理模型的過程中,不需要對不合理假設(shè)進(jìn)行排序區(qū)分;3)假設(shè)與觀測中存在詞語之間的深層語義聯(lián)系,這些聯(lián)系對于推理結(jié)果有至關(guān)重要的影響,應(yīng)當(dāng)更加關(guān)注于帶有語義聯(lián)系的單詞。

        基于以上觀點(diǎn),本文提出注意力平衡列表(Attention Balance List,ABL)的溯因推理模型,該模型主要有以下兩點(diǎn)創(chuàng)新:1)考慮到合理假設(shè)與不合理假設(shè)的差異性和相對性約束,設(shè)計平衡列表損失,將多個一對一的訓(xùn)練方式改進(jìn)為多對多的訓(xùn)練方式,拉大不同類別假設(shè)的差異;2)考慮到事件表達(dá)過程中單詞重要性的差異,設(shè)計特征信息注意層獲取權(quán)重矩陣,使用注意力機(jī)制增強(qiáng)對模型中關(guān)鍵單詞信息特征的捕獲。

        1 相關(guān)工作

        aNLI 起源于針對兩個句子之間語義關(guān)系的自然語言推理(Natural Language Inference,NLI),與之不同的是aNLI 任務(wù)需要在3 個事件之間判斷兩兩事件之間的因果性。近年來,aNLI 引起了越來越多的關(guān)注,它使得自然語言處理(Natural Language Processing,NLP)工具更易于解釋和理解。到目前為止,aNLI 任務(wù)典型的應(yīng)用有知識圖譜的補(bǔ)全[9-10]、常識性問答[11]、句子填充[12]以及知識整合[13]等。

        NLI 與aNLI 任務(wù)進(jìn)行的對比如表1 所示。對于NLI 而言,給出前提狀態(tài)P以及假設(shè)H,它的任務(wù)是根據(jù)給出的前提P來判斷P和H之間存在何種關(guān)系。P和H的關(guān)系可以為蘊(yùn)含(E)、無關(guān)(N)與矛盾(C)。對于aNLI 任務(wù),給出起始觀測O1和最終觀測O2以及一些假設(shè)(比如在例子中給出的H1和H2)。aNLI 的任務(wù)是推斷H1和H2哪個可以解釋O1到O2的情景變化的原因。除了構(gòu)建aNLI 任務(wù),Bhagavatula 等[3]還通過直接使用或再訓(xùn)練一些NLI 的先進(jìn)模型展示了aNLI 的綜合基線性能,比如ESIM(Enhanced Sequential Inference Model)+ELMo(Embeddings from Language Models)[14],使用了最新的語言模型如GPT(General Pre-Training)[15]、BERT(Bidirectional Encoder Representations from Transformers)[16]展示了一些測試結(jié)果,但是基線模型與人類的表現(xiàn)之間仍有相當(dāng)大的差距。

        表1 NLI與aNLI任務(wù)對比Tab.1 Comparison of NLI and aNLI tasks

        然而,僅僅區(qū)分正確與錯誤并不能衡量一個假設(shè)的合理性。因此,為了充分模擬這些假設(shè)的合理性,Zhu 等[8]從排名的角度出發(fā),提出L2R2模型,并使用BERT、RoBERTa(Robustly optimized BERT pretraining approach)[17]和ESIM[18]作為預(yù)先訓(xùn)練的模型進(jìn)行測試,并根據(jù)假設(shè)發(fā)生的可能性對這些假設(shè)進(jìn)行排序,使用Ranking SVM[19]、RankNet[20]以及LambdaRank[21]作為成對排名損失,ListNet[22]、ListMLE[23]以及ApproxNDCG[24]作為列表排序損失進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,將aNLI 任務(wù)重新定義為排序任務(wù)確實(shí)帶來了明顯的改進(jìn)。在此之后Paul 等[25]提出一種新的多頭注意模型(Multi-Head Knowledge Attention,MHKA),該模型對半結(jié)構(gòu)化的常識推理規(guī)則進(jìn)行轉(zhuǎn)碼,并將它們合并到一個基于轉(zhuǎn)換器的推理單元中,還通過建立反事實(shí)無方差預(yù)測任務(wù)(Counterfactual Invariance Prediction,CIP)證明了使用反事實(shí)推理的模型對于預(yù)測溯因推理任務(wù)是有效的。

        2 任務(wù)定義

        aNLI 的任務(wù)包括觀測和假設(shè)兩個主要概念。觀測描述了場景的狀態(tài),而假設(shè)是將一個觀測轉(zhuǎn)化為另一個觀測可能的原因。具體來說,給出兩個觀測O1,O2∈O,其中O表示所有可能觀測結(jié)果的空間,觀測O1的發(fā)生時間早于O2。aNLI的任務(wù)目標(biāo)是預(yù)測最合理的假設(shè)H*∈H,其中H是所有假設(shè)的集合。

        假設(shè)被認(rèn)為是直接蘊(yùn)含于起始觀測并且受限于最終觀測。最合理的假設(shè)可以公式化如下所示:

        其中:Hj依賴于起始觀測O1,最終觀測O2依賴于O1和Hj。

        最合理的假設(shè)H*需要最大化P(O2|O1,Hj)和P(Hj|O1)這兩部分的得分。它可以通過一個將O1、O2和H j作為輸入的評分函數(shù)來進(jìn)行建模,并且輸出一個真實(shí)的值sj。

        為了模型適應(yīng),aNLI 任務(wù)最初被定義為一個雙項(xiàng)選擇問題,其目標(biāo)是從兩個候選的H1和H2中選擇最合理的假設(shè)。從分類的角度來看,它可以表示為一個區(qū)分s1?s2類別的鑒別任務(wù):結(jié)果為正表示s1比s2更可信,而負(fù)表示相反。這是一種不完全的一對一的方法,它只考慮了平衡列表中多對多方法的一部分。

        本文從列表的角度重新定義了這個任務(wù),并使用了均方誤差與交叉熵?fù)p失函數(shù)進(jìn)行驗(yàn)證。在平衡列表中,觀測O1和O2可以看作是一個查詢,它們的候選假設(shè)Η=可以看作是相應(yīng)的候選文檔集,標(biāo)記有可信分?jǐn)?shù)y=,其中N是候選假設(shè)的數(shù)量。

        3 ABL模型

        傳統(tǒng)的溯因推理模型僅僅考慮成對假設(shè)之間的關(guān)系,為了捕捉更多假設(shè)之間的語義關(guān)系,本文采用平衡列表的訓(xùn)練方式,并在模型上增加了注意力機(jī)制來關(guān)注假設(shè)與觀測之間關(guān)聯(lián)度較高的單詞。

        3.1 模型設(shè)計

        如圖2 所示,模型總體分為輸入層、上下文編碼層以及特征信息注意層:輸入層主要對觀測和假設(shè)進(jìn)行格式化處理,使用不同的向量來表示文本中包含的各類信息;在上下文碼層中,本文使用RoBERTa 獲取對于輸入的上下文表示;在特征信息注意層中,使用注意力機(jī)制對上下文表示中重要區(qū)域進(jìn)行捕獲。

        輸入層 本文使用[O1;H j;O2]作為模型的原始輸入,其中“;”表示句子的拼接。為了更好地區(qū)分句子開頭與結(jié)尾的位置,需要使用不同的占位符來進(jìn)行標(biāo)識。模型輸入中使用[CLS]來作為段落的開頭,使用[SEP]作為每個句子的結(jié)尾。標(biāo)識后的輸入SInput 可表示為[[CLS];O1;[SEP];H j;[SEP];O2]。對于所有的SInput 都進(jìn)行嵌入并得到HInput,其中HInput 中包含詞向量(如E[Doug])、文本向量(如Ea)以及位置向量(如Ei)三個不同的向量進(jìn)行表示。對于這三個嵌入向量的描述如表2 所示。

        表2 HInput中向量的描述Tab.2 Description of vectors in HInput

        上下文編碼層 該層是對輸入的詞向量使用RoBERTa模型進(jìn)行特征提取。RoBERTa 是雙向訓(xùn)練的語言模型,與word2vec、GloVe(Global Vectors)等靜態(tài)詞嵌入模型相比,可以得到與語境相關(guān)的詞向量(即詞向量會跟隨上下文而發(fā)生變化),提取語料特征更加有效。由于RoBERTa 可以用于各種自然語言處理(NLP)的任務(wù),且可以使用標(biāo)記的語料進(jìn)行有監(jiān)督的訓(xùn)練模型,因此本文使用基于RoBERTa 的微調(diào)分類模型。

        將SInput 中標(biāo)記詞嵌入、片段詞嵌入以及位置詞嵌入拼接得到每個單詞的信息表示向量Ei,并將Ei輸入到RoBERTa模型并通過串聯(lián)的Transformer 塊進(jìn)行編碼,生成深度的雙向語言表征,得到對于HInput 中每個標(biāo)識的特征表示hi,如式(2)所示:

        其中RoBERTa 表示使用RoBERTa 預(yù)訓(xùn)練模型對Ei進(jìn)行編碼。RoBERTa 使用大規(guī)模文本數(shù)并采用標(biāo)記語言模型(Masked Language Model,MLM)的方式來構(gòu)建預(yù)訓(xùn)練任務(wù)。

        特征信息注意層 對于人們而言,在尋找更合理的假設(shè)時,并不會關(guān)注于所有的單詞,而是會更加注意某些單詞之間的聯(lián)系。舉例來說,對于圖2 中的輸入,分析時會更加關(guān)注 于O1中 的“l(fā)onely”到O2中“no”“l(fā)onely”的變化,而對于“was”“l(fā)onger”等詞并不需要太多關(guān)注。對于H j而言,會更加關(guān)注于“made”和“friends”。

        為了捕捉假設(shè)與觀測中哪些單詞對模型起了重要作用,本文使用了注意力機(jī)制。對于上下文編碼層得到的hi,首先使用修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)進(jìn)行去線性化處理,減少參數(shù)的相互依存關(guān)系。定義了鍵值對中鍵的表示如下:

        由于每句話的長度不同,所以不同hi的大小也不同,導(dǎo)致使用鍵值對不相等的注意力機(jī)制較為困難,因此本文采用鍵值相等的形式,具體定義如下所示:

        由于觀測和假設(shè)中單詞的重要程度取決于注意力權(quán)重,本文采用點(diǎn)擊的方式來計算注意力權(quán)重,然后通過值與注意力權(quán)重對應(yīng)相乘得到帶有注意力權(quán)重的特征表示Ai。

        其中:Q∈RM×d(M表示一句話中單詞的長度,d表示隱藏層的大?。?,Q為可訓(xùn)練的參數(shù),將鍵的表示矩陣映射到不同的空間中,?表示點(diǎn)積,MatMul 函數(shù)表示對應(yīng)相乘。

        經(jīng)過注意力層之后,使用均值的方式對特征表示進(jìn)行降維,最后經(jīng)過一個全連接層(Fully Connected layer,F(xiàn)C)將分布式特征表示映射到樣本標(biāo)記空間得到對于每個假設(shè)的分?jǐn)?shù)sj。為了計算效率,本文采用線性回歸公式預(yù)測分?jǐn)?shù)。

        其中:Wi∈R2d×d,bi∈Rd,*表示矩陣乘法,Wi、bi表示可訓(xùn)練參數(shù)。

        為了在損失函數(shù)中使用平衡列表的訓(xùn)練方式,當(dāng)在不同的HInput 中觀測相同時,本文將這些觀測相同的HInput 作為同一組進(jìn)行輸入,每組內(nèi)最少有兩個不同的假設(shè),將一組HInput 作為一個列表同時輸入上下文編碼層。

        3.2 損失函數(shù)設(shè)計

        本文使用均方誤差(Mean Square Error,MSE)損失和交叉熵(Cross Entropy,CE)兩種損失函數(shù)來驗(yàn)證模型的有效性。在計算損失時,采用平衡列表的方式,將所有觀測相同的潛在假設(shè)都加入到同一樣本中作為一組,可以得到對于不同假設(shè)的分?jǐn)?shù),將分?jǐn)?shù)作為一組并計算損失。其中標(biāo)定所有正確假設(shè)的標(biāo)簽都是相同的,所有錯誤假設(shè)標(biāo)簽也為相同值,以保持正樣本內(nèi)部和負(fù)樣本內(nèi)部的平衡性。

        1)交叉熵(CE)損失函數(shù)。交叉熵可看成是兩個概率系統(tǒng)之間的信息量差異,主要用于描述真實(shí)樣本分布與訓(xùn)練后模型的預(yù)測標(biāo)記分布的相似性。本文首先使用softmax 函數(shù)將樣本分?jǐn)?shù)映射到(0,1)區(qū)間,如式(8)所示:

        然后使用交叉熵函數(shù)對模型輸出的分?jǐn)?shù)列表計算損失,具體公式如式(9)所示:

        其中:?CE表示交叉熵?fù)p失函數(shù),yj表示樣本標(biāo)簽,N表示一組樣本中假設(shè)的數(shù)量。由于真實(shí)值中可能存在多個正確假設(shè),本文采用傳統(tǒng)的交叉熵對預(yù)測值與真實(shí)值之間的差值進(jìn)行計算。

        2)均方誤差(MSE)損失函數(shù),主要用于回歸損失,描述目標(biāo)變量和預(yù)測變量之間差異絕對值之和,不考慮方向,如式(10)所示:

        4 實(shí)驗(yàn)與分析

        早期的語言推理方法是由一些簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來發(fā)現(xiàn)語言中有用的特征,如word2vec[26]、GloVe[27]等,最近的工作已經(jīng)開發(fā)了上下文表示模型。例如,Peters 等[28]的對于語言模型的嵌入ELMO 和Devlin 等[16]的BERT。BERT 的原始實(shí)現(xiàn)和架構(gòu)已經(jīng)被一些變體和其他基于Transformer 的模型所超越,如RoBERTa、DeBERTa 和UNIMO(Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning)等。RoBERTa 取代了BERT 的訓(xùn)練方法,并使用更大的批次和更多的數(shù)據(jù)進(jìn)行訓(xùn)練;DeBERTa[29]使用分散的注意力機(jī)制和增強(qiáng)的掩碼解釋器來改進(jìn)BERT模型。為了有效地適應(yīng)單模式和多模式的理解任務(wù),Li 等[30]提出統(tǒng)一模態(tài)學(xué)習(xí)模型UNIMO。由于設(shè)備資源的限制,本文選擇RoBERTa 作為預(yù)訓(xùn)練語言模型。

        4.1 數(shù)據(jù)集

        aNLI 任務(wù)使用ART 數(shù)據(jù)集,這是第一個用于敘事文本中的外展推理的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集。它由大約2 萬項(xiàng)觀察結(jié)果和大約20 萬對假設(shè)組成。觀察結(jié)果來自一套手工策劃的故事集,訓(xùn)練集包括所有通過眾包收集的可信和不可信的假設(shè),而驗(yàn)證集和測試集包括通過以BERT-Large 對抗性過濾算法選擇每個敘事上下文的候選假設(shè)。關(guān)于ART 的統(tǒng)計數(shù)據(jù)如表3 所示,其中:h+表示合理的假設(shè),h-表示不合理假設(shè);測試集未對標(biāo)簽進(jìn)行公開,需要在網(wǎng)絡(luò)上進(jìn)行提交,且有提交限制。

        表3 ART數(shù)據(jù)集的統(tǒng)計信息Tab.3 Statistics of ART dataset

        4.2 評價指標(biāo)

        本實(shí)驗(yàn)采用AUC(Area Under Curve)和準(zhǔn)確率(Accuracy,Acc)兩種廣泛適用的評價指標(biāo)。Acc 用來描述模型對假設(shè)選擇的準(zhǔn)確程度,當(dāng)合理假設(shè)標(biāo)簽被模型預(yù)測為正類的樣本時,認(rèn)為是正確的,反之認(rèn)為是錯誤的。由于原有的Acc 評價指標(biāo)不能更好地評估遠(yuǎn)離測試數(shù)據(jù)的模型,因此本文將AUC 作為一個額外的評估指標(biāo)來處理偏態(tài)樣本分布。AUC 被定義為ROC(Receiver Operating Characteristic)曲線下與坐標(biāo)軸圍成的面積,是一種統(tǒng)計上一致且比Acc 更具鑒別性的測量方法。Acc 計算公式如下所示:

        其中:TP(True Positive)表示合理假設(shè)被模型預(yù)測為正類的樣本數(shù)量;FP(False Positive)表示不合理假設(shè)被模型預(yù)測為正類的樣本數(shù)量;FN(False Negative)表示合理假設(shè)被預(yù)測為負(fù)類的樣本數(shù)量;TN(True Negative)表示不合理假設(shè)被預(yù)測為負(fù)類的樣本數(shù)量。

        4.3 超參數(shù)設(shè)置

        特征提取層 使用預(yù)訓(xùn)練RoBERTa-Large 模型,模型由24 個Transformer 模塊串接而成,16 個注意力頭,1 024 個隱藏節(jié)點(diǎn)數(shù),輸入句子HInput 的最大長度為72,在O1和O2相同的一組內(nèi),也就是一個批次大小內(nèi),限制最多有22 個HInput 作為樣本的數(shù)量。

        注意力層 注意力層中使用ReLU 作為激活函數(shù),設(shè)置隱藏層的大小為1 024,為了防止過擬合,Dropout 值設(shè)置為0.6。

        由于數(shù)據(jù)量的差異,對于不同訓(xùn)練數(shù)據(jù),選擇在驗(yàn)證集中產(chǎn)生最佳性能的超參數(shù)。具體來說,學(xué)習(xí)率固定在1E-6,學(xué)習(xí)率不進(jìn)行衰減,使用交叉熵作為損失函數(shù),使用Adam 優(yōu)化器更新參數(shù),固定批大小為1,訓(xùn)練的輪數(shù)會隨著訓(xùn)練數(shù)據(jù)的量而變化。對于驗(yàn)證集,使用Acc和AUC進(jìn)行評估。

        4.4 基準(zhǔn)模型

        本文使用以下4 個基準(zhǔn)模型進(jìn)行比較:

        1)BERT 是一種預(yù)訓(xùn)練語言模型,它使用掩蔽語言模型,并預(yù)測下一個句子作為目標(biāo)訓(xùn)練。例如,它遮住輸入中的某些單詞,然后訓(xùn)練并預(yù)測被遮住的單詞。

        2)RoBERTa 與BERT 具有相同的結(jié)構(gòu),但沒有對下一句話的預(yù)測(Next Sentence Prediction,NSP)。RoBERTa-Base 和RoBERTa-Large 使用更多的數(shù)據(jù)和更大的批次進(jìn)行培訓(xùn)。

        3)L2R2是一種學(xué)習(xí)推理排名模型。L2R2使用1 個包括1個分?jǐn)?shù)函數(shù)和1 個損失函數(shù)的學(xué)習(xí)排名框架,將aNLI 任務(wù)重新定義為一個排名問題。

        4)MHKA 是一種新的多頭知識注意模型,并采用了一種新的知識集成技術(shù)。由于MHKA 未公開CIP(Counterfactual Invariance Prediction)訓(xùn)練數(shù)據(jù)集(MHKA 論文中使用CIP 進(jìn)行預(yù)先訓(xùn)練,然后再進(jìn)行ART 數(shù)據(jù)集的訓(xùn)練),因此在準(zhǔn)確率中借鑒MHKA 論文中的結(jié)果,MHKA 中未使用AUC 評價指標(biāo),在AUC 結(jié)果中不與MHKA 進(jìn)行對比。

        在4 個基準(zhǔn)模型中,使用成對的假設(shè)作為輸入,其余參數(shù)設(shè)置與ABL 模型中一致。具體來說,學(xué)習(xí)率固定為1E-6,使用交叉熵作為損失函數(shù),使用Adam 優(yōu)化器更新參數(shù),固定批大小為1,Dropout 值設(shè)置為0.6,訓(xùn)練的輪數(shù)會隨著訓(xùn)練數(shù)據(jù)的量而變化。

        4.5 實(shí)驗(yàn)與結(jié)果分析

        為了證明注意力機(jī)制平衡列表模型的有效性,在ART數(shù)據(jù)集上將本文提出的模型與其他當(dāng)下比較流行的模型和基線進(jìn)行了對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果中本文提出的訓(xùn)練方式在Acc 和AUC 上均有所提升,表明了本文模型的有效性。實(shí)驗(yàn)結(jié)果如表4 所示,使用帶有注意力機(jī)制的平衡列表方式在驗(yàn)證集上和測試集上均有提升,相對于L2R2,在驗(yàn)證集上Acc提升了0.46 個百分點(diǎn),AUC 提升了1.36 個百分點(diǎn),表明本文模型可以更好地處理偏態(tài)樣本分布。在測試集上本文模型有較小的提升,分析原因可能是測試集需要在網(wǎng)上進(jìn)行測試,本模型在測試時,并沒有將驗(yàn)證集加入訓(xùn)練過程進(jìn)行訓(xùn)練。表4 中ABL 表示本文模型,其中使用帶有注意力機(jī)制的交叉熵平衡列表損失。

        表4 不同模型的實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Experimental results of different models unit:%

        4.6 消融實(shí)驗(yàn)

        為了進(jìn)一步觀察本文模型中平衡列表訓(xùn)練方式和注意力機(jī)制分別對模型的影響,進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。借鑒MHKA 中使用{1%,2%,5%,10%,100%}的訓(xùn)練集作為低資源數(shù)據(jù),即{1 700,3 400,8 500,17 000,169 000}的數(shù)據(jù)進(jìn)行訓(xùn)練,驗(yàn)證本文模型在aNLI 任務(wù)中稀疏數(shù)據(jù)上的穩(wěn)健性,其中k表示1 000 條數(shù)據(jù)。在保持模型結(jié)構(gòu)和大部分超參數(shù)不變的情況下,只改變訓(xùn)練數(shù)據(jù)集的規(guī)模以及訓(xùn)練時間,在低資源數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明使用平衡列表的方式以及增加注意力機(jī)制分別對模型有較好的效果,并且在低資源數(shù)據(jù)上穩(wěn)健性要優(yōu)于其他模型。

        為了證明本文平衡列表訓(xùn)練方式的有效性,使用平衡列表與其他主流模型進(jìn)行對比。本文使用MSE 和CE 兩種不同的損失函數(shù)在低資源數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)來更好地對比不同損失函數(shù)對平衡列表的影響。實(shí)驗(yàn)結(jié)果表明,相較于RoBERTa、L2R2以及MHKA 等模型,平衡列表的訓(xùn)練方式可以捕捉更多的組內(nèi)信息,因此精度也有所提升。

        添加平衡列表后在低資源設(shè)置上與其他模型準(zhǔn)確率的對比表現(xiàn)如圖3 所示。其中,ABL-A 表示去掉特征信息注意層即僅使用平衡列表方式的實(shí)驗(yàn)結(jié)果,ABL-A 使用交叉熵作為損失函數(shù)。MSE 表示將ABL-A 方法中的交叉熵?fù)p失函數(shù)替換為均方誤差損失函數(shù),ABL-A(MSE)在低資源數(shù)據(jù)集上平均有0.6 個百分點(diǎn)的提升,ABL-A 在低資源數(shù)據(jù)集上平均有1.1 個百分點(diǎn)的提升。由于均方誤差主要應(yīng)用于預(yù)測數(shù)值,也就是線性回歸任務(wù),因此在分類任務(wù)場景中效果較差,但是平均效果仍高于其他模型,可以體現(xiàn)出平衡列表的有效性。

        圖3 平衡列表與其他模型在Acc上的對比Fig.3 Comparison of balanced list and other models on Acc

        使用平衡列表在低資源設(shè)置上AUC 的表現(xiàn)如圖4 所示,與Acc 一樣使用了MSE 以及CE 損失函數(shù)進(jìn)行實(shí)驗(yàn),其中ABL-A(MSE)在低資源數(shù)據(jù)集上平均有0.9 個百分點(diǎn)的提升,ABL-A 在低資源數(shù)據(jù)集上平均有1.8 個百分點(diǎn)的提升。表明平衡列表對于分類器的效果有較大提升。由于MHKA中未對CIP 數(shù)據(jù)集進(jìn)行公開,因此在AUC 評價指標(biāo)中未與MHKA 對比。

        圖4 平衡列表與其他模型在AUC上的對比Fig.4 Comparison of balanced list and other models on AUC

        為了探索注意力機(jī)制對于模型的影響,本文在平衡列表的基礎(chǔ)上增加了對注意力機(jī)制的消融實(shí)驗(yàn)。表5 和表6 分別展示了注意力機(jī)制在低資源數(shù)據(jù)集上Acc 與AUC 的效果。在平衡列表基礎(chǔ)上增加注意力機(jī)制的Acc 結(jié)果如表5 所示,平均約有0.6 個百分點(diǎn)的提升,實(shí)驗(yàn)結(jié)果表明增加注意力機(jī)制捕捉輸入句子中每個單詞的重要程度可以提高對模型對因果關(guān)系的判斷。

        表5 增加注意力機(jī)制在Acc上的結(jié)果 單位:%Tab.5 Results of adding attention mechanism on Acc unit:%

        在平衡列表基礎(chǔ)上增加注意力機(jī)制的AUC 結(jié)果如表6所示,增加注意力機(jī)制對AUC 平均約有1 個百分點(diǎn)的提升,在稀疏數(shù)據(jù)上有更好的提升效果。實(shí)驗(yàn)結(jié)果表明在低資源數(shù)據(jù)集上增加注意力機(jī)制可以提高分類器的性能。

        表6 增加注意力機(jī)制在AUC上的結(jié)果 單位:%Tab.6 Results of adding attention mechanism on AUC unit:%

        基于上述實(shí)驗(yàn),訓(xùn)練數(shù)據(jù)的規(guī)模對模型的分類效果有較大的影響,大量高質(zhì)量的訓(xùn)練數(shù)據(jù)集可以提高模型對特征的捕捉能力。使用平衡列表的訓(xùn)練方式以及增加注意力機(jī)制在低資源數(shù)據(jù)集上也可以取得較好效果。

        5 結(jié)語

        本文針對傳統(tǒng)溯因推理任務(wù)中沒有考慮到正確假設(shè)和錯誤假設(shè)整體之間影響的問題,構(gòu)建了基于RoBERTa 平衡列表的訓(xùn)練方式,并且為了捕獲關(guān)鍵詞之間的強(qiáng)聯(lián)系對模型增加了注意力機(jī)制,證明了帶有注意力機(jī)制的平衡列表模型有較強(qiáng)的表征學(xué)習(xí)能力。通過與L2R2、MHKA 等主流模型進(jìn)行對比,由實(shí)驗(yàn)結(jié)果可知本文模型在所有低資源數(shù)據(jù)集Acc和AUC 的評價指標(biāo)上平均有1.2 個百分點(diǎn)和2.7 個百分點(diǎn)的提升,表明帶有注意力機(jī)制的平衡列表損失的溯因推理模型可以高效地提取觀測與假設(shè)之間的語義關(guān)系。

        猜你喜歡
        集上列表注意力
        巧用列表來推理
        讓注意力“飛”回來
        學(xué)習(xí)運(yùn)用列表法
        Cookie-Cutter集上的Gibbs測度
        擴(kuò)列吧
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        不含3-圈的1-平面圖的列表邊染色與列表全染色
        欧美老肥婆牲交videos| 亚洲精品国产av一区二区| 色小姐在线视频中文字幕| 人妻少妇偷人精品免费看| 熟女少妇在线视频播放| 最新国产午夜福利| 韩国女主播一区二区三区在线观看| 玖玖色玖玖草玖玖爱在线精品视频| 国产av无码专区亚洲av中文| 2021国产视频不卡在线| 人妻少妇喷水意淫诱惑| 一区二区三区日韩亚洲中文视频| 亚洲精品无码久久久| 亚洲欧美另类自拍| 亚洲精品一区二区视频| 日韩av一区二区网址| 久久亚洲精品11p| 精品91亚洲高清在线观看| 亚洲免费一区二区av| 欧美黑人又大又粗xxxxx| 丰满爆乳一区二区三区| 日韩中文字幕无码av| 在线观看国产视频午夜| 48久久国产精品性色aⅴ人妻| 欧美激情区| 亚洲天堂一区二区精品| 中文区中文字幕免费看| 欧美日韩亚洲国内综合网| 丰满少妇棚拍无码视频| 一区二区三区视频亚洲| 亚洲综合激情五月丁香六月| 婷婷九月丁香| 黄页免费人成网址大全| 狠狠躁18三区二区一区| 久久精品亚洲乱码伦伦中文| 国产亚洲精品综合99久久| 在线观看视频日本一区二区| 中国农村熟妇性视频| 亚洲日本在线va中文字幕| 日本九州不卡久久精品一区| 久久99精品国产麻豆不卡|