亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        顯式融合詞法和句法特征的抽取式機(jī)器閱讀理解模型①

        2022-09-20 04:12:04閆維宏李少博單麗莉孫承杰劉秉權(quán)
        關(guān)鍵詞:詞法句法機(jī)器

        閆維宏, 李少博, 單麗莉, 孫承杰, 劉秉權(quán)

        1(人民網(wǎng) 傳播內(nèi)容認(rèn)知國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100733)

        2(哈爾濱工業(yè)大學(xué) 計(jì)算學(xué)部, 哈爾濱 150006)

        對(duì)于機(jī)器而言, 自動(dòng)地閱讀并理解文本是一項(xiàng)頗具挑戰(zhàn)的任務(wù), 它需要機(jī)器能夠依照現(xiàn)實(shí)世界中的事實(shí)和常識(shí)來(lái)剖析自然語(yǔ)言所表述的內(nèi)容[1]. 機(jī)器閱讀理解(machine reading comprehension, MRC)旨在以問(wèn)答的形式來(lái)理解文章, 其輸入是自然語(yǔ)言形式的問(wèn)題, 以及包含了能夠支撐該問(wèn)題回答的證據(jù)文章, 輸出則是問(wèn)題對(duì)應(yīng)的答案. 抽取式機(jī)器閱讀理解規(guī)定問(wèn)題的正確答案會(huì)以文本片段的形式出現(xiàn)在輸入文章中, 要求在文章中“抽取”出正確的答案片段.

        在以GPT[2]和BERT[3]為代表的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)之前, 該類任務(wù)通常的解決方法是通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)輸入問(wèn)題和文章進(jìn)行編碼并交互, 其模型結(jié)構(gòu)主要包括4個(gè)部分, 分別是嵌入層、編碼層、交互層和輸出層. 問(wèn)題和文章以詞序列的形式分別輸入到模型中, 嵌入層首先將問(wèn)題和文章的輸入序列轉(zhuǎn)換為詞向量序列, 編碼層對(duì)詞向量序列進(jìn)行編碼后得到自然語(yǔ)言序列對(duì)應(yīng)的上下文編碼, 交互層負(fù)責(zé)將問(wèn)題和文章的上下文編碼進(jìn)行交互, 加強(qiáng)問(wèn)題和文章之間的相互感知, 最后由輸出層計(jì)算出答案片段在文章中的具體位置. 在這一經(jīng)典結(jié)構(gòu)的基礎(chǔ)上, 許多工作對(duì)其進(jìn)行了修改. Attentive Reader[4]將細(xì)粒度注意力機(jī)制應(yīng)用到模型中來(lái)加強(qiáng)交互層的理解能力. Match-LSTM[5]將 Match-LSTM 以及 Answer Pointer 模型相結(jié)合, 將Pointer Net中指針的思想首次應(yīng)用于閱讀理解任務(wù).BiDAF[6]通過(guò)雙流注意力機(jī)制來(lái)提高問(wèn)題與文章的交互能力. QA-NET[7]利用自注意力機(jī)制和CNN[8]來(lái)進(jìn)行文本的編碼, 相比于RNN[9], 其并行運(yùn)算能力提高了訓(xùn)練速度, 也取得了當(dāng)時(shí)在SQuAD[1]數(shù)據(jù)集上的最優(yōu)預(yù)測(cè)精度.

        盡管上述各類方法使得機(jī)器閱讀理解模型性能逐漸提高, 但是這些模型僅僅使用固定的檢索表(look-up table)映射得到詞編碼的方式具有一些無(wú)法避免的缺陷, 例如無(wú)法解決一詞多義等問(wèn)題[10]. 而BERT[3]等預(yù)訓(xùn)練模型引入動(dòng)態(tài)編碼的方式, 利用大規(guī)模語(yǔ)料來(lái)獲取更深層且更加匹配上下文的語(yǔ)義表征, 極大地提高了各類模型的性能, 在機(jī)器閱讀理解數(shù)據(jù)集SQuAD 1.0[1]和SQuAD 2.0[11]上的表現(xiàn)甚至超越了人類. BERT做到如此出色的性能提高引起很多相關(guān)領(lǐng)域研究者的興趣, Jawahar等人[12]通過(guò)探測(cè)任務(wù)挖掘BERT中的語(yǔ)言學(xué)信息, 實(shí)驗(yàn)表明BERT的低層網(wǎng)絡(luò)學(xué)習(xí)到了短語(yǔ)級(jí)別的信息表征, 中層網(wǎng)絡(luò)學(xué)習(xí)到了豐富的語(yǔ)言學(xué)特征, 而高層則學(xué)習(xí)到了豐富的語(yǔ)義信息特征. 而針對(duì)閱讀理解任務(wù), Si等人[13]的工作表明對(duì)BERT的微調(diào)主要學(xué)習(xí)到文本中的關(guān)鍵詞如何引導(dǎo)模型進(jìn)行正確的預(yù)測(cè), 而非學(xué)習(xí)語(yǔ)義理解和推理. Albilali等人[14]則通過(guò)對(duì)抗樣例表明基于預(yù)訓(xùn)練的語(yǔ)言模型僅僅依靠表面的線索, 如詞匯重疊或?qū)嶓w類型匹配, 就能獲得有競(jìng)爭(zhēng)力的性能; 同時(shí), 預(yù)測(cè)的錯(cuò)誤可以由BERT的低層網(wǎng)絡(luò)所識(shí)別. Aken等人[15]的工作則從BERT不同編碼層的粒度揭示了BERT回答問(wèn)題的過(guò)程, 作者將問(wèn)答模型由低層至高層的輸出分別表示為語(yǔ)義聚類, 聚類后語(yǔ)義與問(wèn)題中相關(guān)實(shí)體的鏈接, 對(duì)于支持問(wèn)題事實(shí)的抽取以及答案片段抽取4個(gè)階段, 并將該過(guò)程與人類閱讀理解的過(guò)程進(jìn)行了類比.

        目前的工作大都關(guān)注于為什么BERT的內(nèi)部表征能夠如此有效地完成機(jī)器閱讀理解任務(wù), 對(duì)顯式地在BERT引入額外的特征的研究則較少. 類似工作是SemBERT[16], 該模型通過(guò)將BERT輸出的上下文特征與語(yǔ)義角色特征相拼接, 顯式地利用這兩種特征對(duì)來(lái)抽取答案片段, 在SQuAD 2.0數(shù)據(jù)集上, SemBERT取得了優(yōu)于原始BERT模型的表現(xiàn).

        受此啟發(fā), 語(yǔ)義角色之外其他的詞法或句法特征同樣值得我們關(guān)注. 人類在理解文本的過(guò)程中是先驗(yàn)地知道某些詞法或者文法特征的, 例如, CMRC2018中的問(wèn)題“前秦對(duì)前燕發(fā)動(dòng)的滅國(guó)戰(zhàn)爭(zhēng)是誰(shuí)主導(dǎo)的?”中,我們可以通過(guò)問(wèn)題中的疑問(wèn)代詞“是誰(shuí)”, 推斷出問(wèn)題的答案是“人名”, 從而更加關(guān)注文章中命名實(shí)體特征為“人名”的文本片段“慕容垂”. 而對(duì)于類似這樣的詞法、句法特征, 人類同樣具有對(duì)其理解的能力, 但是在當(dāng)前的主流模型中并未體現(xiàn). 為了填補(bǔ)這部分工作的缺失, 我們提出融合詞法和句法特征的抽取式機(jī)器閱讀理解模型. 我們的主要工作如下:

        (1) 在BERT輸出的上下文表示的基礎(chǔ)上, 顯式地引入多詞法和句法特征, 來(lái)探究這些特征是否能夠在BERT預(yù)訓(xùn)練語(yǔ)言模型所提供上下文特征的基礎(chǔ)上, 進(jìn)一步增強(qiáng)機(jī)器閱讀理解的性能. 其中詞法特征包括命名實(shí)體特征和詞性特征, 句法特征則包括依存分析特征.

        (2) 設(shè)計(jì)基于注意力機(jī)制的自適應(yīng)特征選擇方法對(duì)各類特征進(jìn)行融合, 并探究不同文本特征對(duì)BERT模型的影響.

        (3) 在公開數(shù)據(jù)集CMRC2018上, 與基準(zhǔn)模型進(jìn)行對(duì)比, 本文所提出的顯式融合詞法和句法特征的抽取式機(jī)器閱讀理解模型在F1和EM指標(biāo)上分別取得了0.37%和1.56%的提升.

        1 顯式融合詞法和句法特征的抽取式機(jī)器閱讀理解模型

        在本節(jié)中, 我們首先對(duì)本文方法進(jìn)行概述, 隨后對(duì)基于BERT的抽取式閱讀理解模型進(jìn)行詳細(xì)介紹, 并闡述我們使用到的詞法句法特征, 最后描述各類特征融合的動(dòng)態(tài)融合方法, 并得到最終的輸出.

        1.1 概述

        抽取式機(jī)器閱讀理解可以形式化地定義為: 給定一個(gè)包含 m 個(gè)字符的問(wèn)題q =(q1,q2,···,qm), 一個(gè)包含n 個(gè)字符的文章 p=(p1,p2,···,pn) 以及一個(gè)包含l個(gè)字符的答案 a =(a1,a2,···,al) , 其為 p中的一個(gè)子序列. 我們的目標(biāo)是學(xué)習(xí)一個(gè)機(jī)器閱讀理解模型f, 來(lái)根據(jù)輸入文章 p 和 問(wèn)題q 得 到輸出答案a, 如式(1)所示:

        本文工作的結(jié)構(gòu)如圖1所示, 我們利用已有的模型對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理, 得到文本特征. 我們的問(wèn)答模型首先使用BERT對(duì)問(wèn)題和文章進(jìn)行編碼得到編碼后的輸出 HC. 接下來(lái), 將HC與表征為向量的文本特征通過(guò)自適應(yīng)的注意力機(jī)制進(jìn)行融合, 再使用多層Transformer encoder進(jìn)行編碼, 得到融合特征的編碼表示HF. 將二者通過(guò)自適應(yīng)的注意力特征融合層, 得到我們最終的輸出H , 并利用一個(gè)答案位置分類器得到最終的答案開始位置得分和結(jié)束位置得分.

        圖1 融合詞法和句法特征的抽取式機(jī)器閱讀理解模型結(jié)構(gòu)

        1.2 基于BERT的抽取式閱讀理解模型

        本文使用BERT作為基準(zhǔn)模型來(lái)解決閱讀理解問(wèn)題. 本文任務(wù)輸入的問(wèn)題和文章是一串字符, 神經(jīng)網(wǎng)絡(luò)無(wú)法直接處理這樣的數(shù)據(jù). 在預(yù)訓(xùn)練模型出現(xiàn)前通常的做法是使用靜態(tài)詞向量將不同的詞映射為對(duì)應(yīng)的高維向量, 例如基于局部上下文窗口編碼單詞的Word2Vec[17]和引入全局統(tǒng)計(jì)信息的GloVe[18]. 而BERT則使用基于注意力機(jī)制的Transformer encoder, 利用大規(guī)模語(yǔ)料通過(guò)其強(qiáng)大編碼能力將文本編碼為具有上下文信息的文本向量.

        針對(duì)本文所涉及的問(wèn)答任務(wù)這類的上下句任務(wù),BERT通常會(huì)將分字后的問(wèn)題的詞序列和文章的詞序列連接起來(lái), 輸入序列如式(2)所示:

        其中, qi表 示問(wèn)題的詞序列中第i 個(gè) 字符, pi表示文章的詞序列中第i 個(gè)字符; [ CLS] 和[ SEP]為BERT中定義的特殊標(biāo)記, [ CLS]表 示序列開始, [ SEP]則是分隔標(biāo)記, 用來(lái)分隔問(wèn)題和文章以及標(biāo)識(shí)輸入序列的結(jié)束. 隨后, 我們利用BERT的Embedding層將輸入序列分別映射為詞向量(token embedding)、類型向量(segment embedding)和位置向量(position embedding), 將三者相加即為BERT的最終輸入特征. 接著通過(guò)多層Transformer encoder進(jìn)行編碼, 進(jìn)而獲得問(wèn)題與文章交互的向量表示HC:

        其中, l 表示輸入序列長(zhǎng)度, d表示BERT輸出的每個(gè)詞對(duì)應(yīng)的向量的維度, 在本文中d =768,表示經(jīng)由BERT編碼后的第i個(gè)詞對(duì)應(yīng)的上下文表征.

        接下來(lái), 通常的做法是使用一個(gè)全連接層作為分類器得到答案開始位置和結(jié)束位置的得分向量, 如式(4)和式(5):

        在后續(xù)的特征融合模塊中, 我們將利用BERT輸出的上下文向量HC與詞法和句法特征進(jìn)行融合.

        1.3 詞法與句法特征

        當(dāng)前的數(shù)據(jù)集僅僅包括文本形式的問(wèn)題和文章,并未包含所需的額外詞法和句法特征, 為了獲取額外特征, 我們利用現(xiàn)有模型進(jìn)行標(biāo)注, 并將這些特征進(jìn)行組合, 其中詞法特征包括詞性特征和命名實(shí)體特征, 句法特征包括依存分析特征. 為了使得我們的文本特征閱讀模型盡可能地與BERT閱讀模型在輸入層的分布相同, 我們以單字粒度進(jìn)行分詞, 使得各個(gè)特征構(gòu)建的向量與BERT預(yù)訓(xùn)練模型最大長(zhǎng)度相同, 以便直接進(jìn)行拼接. 文本的特征示例如圖2所示.

        圖2 文本特征標(biāo)注示例

        詞性(part of speech, POS)特征: 我們使用詞性標(biāo)注的CTB規(guī)范[19], 包括37個(gè)詞性標(biāo)簽. 以單字切分文本后, 使用BIO規(guī)則對(duì)特征進(jìn)行重構(gòu), 即某個(gè)詞w 的詞性為 P, 按字切分后為{ z1,z2,···,zn}, 我們將其標(biāo)注為{B-P,I-P,···,I-P}. 對(duì)于BERT中的3種特殊標(biāo)簽[ CLS]、[SEP]和[ UNK], 我們標(biāo)記為O. 共計(jì)75種標(biāo)簽, 我們將其轉(zhuǎn)換為75維的one-hot向量.

        命名實(shí)體(named entity, NE)特征: 我們使用MSRA的命名實(shí)體標(biāo)注規(guī)范, 該規(guī)范源于中文文本標(biāo)注規(guī)范(5.0 版), 其中包括專有名詞(NAMEX)、時(shí)間表達(dá)式(TIMEX)、數(shù)字表達(dá)式(NUMEX)、度量表達(dá)式(MEASUREX)和地址表達(dá)式(ADDREX)五大類及其下屬的31個(gè)子類. 我們同樣使用BIO規(guī)則進(jìn)行標(biāo)注, 并將其轉(zhuǎn)換為63維的one-hot向量.

        依存分析(dependency parse, DEP)特征: 該特征用來(lái)表示句法結(jié)構(gòu)中各項(xiàng)之間的依賴關(guān)系[20], 共44項(xiàng).我們同樣使用BIO規(guī)則進(jìn)行標(biāo)注, 并將其轉(zhuǎn)換為89維的one-hot向量.

        1.4 特征融合模塊

        在處理這些特征標(biāo)簽時(shí), 我們需要將其轉(zhuǎn)換為向量的形式. 首先, 我們對(duì)詞性、命名實(shí)體和依存標(biāo)簽分別通過(guò)一個(gè)嵌入層映射為固定維度的向量, 并分別將這些特征與上下文特征 HC通過(guò)相加的方式融合, 從而將不同的特征融入上下文表示, 見圖3. 接著我們使用單個(gè)淺層的特征編碼器對(duì)特征向量進(jìn)行編碼, 該編碼器同樣是Transformer encoder.

        圖3 實(shí)體特征輸入模塊

        編碼后我們便得到了詞性特征的向量表示HP(POS),命名實(shí)體識(shí)別特征的向量表示 HN(NE), 以及依存分析特征的向量表示 HD(DEP), 編碼過(guò)程可以如式(6)-式(8)所示:

        其中, Emb和 T ransformer分別表示嵌入層和編碼層. 每個(gè)詞 xi最 終對(duì)應(yīng)的融合特征hi則通過(guò)對(duì)3種不同層次的特征進(jìn)行加權(quán)求和得到, 注意力權(quán)重使用雙線性注意力機(jī)制[21]得到, 如式(9)-式(11):

        根據(jù)上下文編碼對(duì)各個(gè)特征的注意力權(quán)重, 將所有特征進(jìn)行加權(quán)融合, 得到最終的融合了詞法與句法特征的問(wèn)題與文章交互向量表示 H , 如式(12)-式(15),我們使用全連接層對(duì) H 進(jìn)行二分類, 分別得到每個(gè)詞作為答案開始位置和結(jié)束位置的概率, 并使用Softmax得到歸一化后的起止位置的最終得分.

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)

        本文使用的數(shù)據(jù)是哈工大訊飛聯(lián)合實(shí)驗(yàn)室機(jī)器閱讀理解組(HFL-RC)于2018年發(fā)布的中文篇章片段抽取型閱讀理解數(shù)據(jù)集CMRC2018[22], 由近20 000個(gè)由人類專家在維基百科段落中注釋的真實(shí)問(wèn)題組成. 我們使用其給出的訓(xùn)練數(shù)據(jù)集來(lái)進(jìn)行模型的訓(xùn)練, 用其驗(yàn)證數(shù)據(jù)集來(lái)對(duì)模型進(jìn)行評(píng)估. 圖4是該數(shù)據(jù)集的樣例, 包括1篇文章以及2個(gè)問(wèn)題, 其中藍(lán)色文字表示與問(wèn)題1相關(guān)的內(nèi)容, 紅色文字表示與問(wèn)題2相關(guān)的內(nèi)容.

        圖4 CMRC2018數(shù)據(jù)集示例

        針對(duì)基于BERT模型的機(jī)器閱讀理解任務(wù), 我們對(duì)數(shù)據(jù)進(jìn)行了一些預(yù)處理來(lái)使得其符合BERT的輸入限制. 首先我們對(duì)數(shù)據(jù)進(jìn)行字粒度的切分, 并將問(wèn)題和文章進(jìn)行拼接, 并固定輸入的序列長(zhǎng)度為512. 若輸入的數(shù)量超出這個(gè)長(zhǎng)度, 則利用128的滑動(dòng)窗口來(lái)切分為多份數(shù)據(jù).

        而對(duì)于文本特征, 我們則利用已有的模型對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了詞性標(biāo)注、命名實(shí)體識(shí)別以及依存分析的預(yù)處理. 接著以BIO規(guī)則進(jìn)行標(biāo)注, 以適應(yīng)字符級(jí)別的輸入粒度.

        2.2 評(píng)價(jià)指標(biāo)

        對(duì)于抽取式機(jī)器閱讀理解模型, 我們需要評(píng)估答案預(yù)測(cè)值和真實(shí)答案之間的字面匹配程度, 本文采用了文獻(xiàn)[1]中的EM和F1兩個(gè)指標(biāo). EM為模型預(yù)測(cè)的驗(yàn)證數(shù)據(jù)集中的答案與真實(shí)答案完全一致的百分比,而F1為機(jī)器學(xué)習(xí)中常用的指標(biāo), 是精確率與召回率的調(diào)和平均. 在本文場(chǎng)景下, 將答案的預(yù)測(cè)字符串與真實(shí)值各自按字符切分后, 分別視作詞袋, 并計(jì)算二者的F1值來(lái)粗粒度地評(píng)估它們的匹配程度.

        2.3 實(shí)驗(yàn)設(shè)置

        算法模型的搭建使用深度學(xué)習(xí)框架PyTorch[23]實(shí)現(xiàn), 其中的基準(zhǔn)模型使用針對(duì)中文語(yǔ)料進(jìn)行預(yù)訓(xùn)練的Chinese-roBERTa-wwm-ext模型[24], 相較于最初的中文預(yù)訓(xùn)練模型BERT-base-Chinese[6], 該模型將掩碼語(yǔ)言模型(masked language model)的訓(xùn)練策略由遮蓋單個(gè)字變更為遮蓋整個(gè)中文詞, 且使用了更大規(guī)模的中文語(yǔ)料, 其在相關(guān)下游任務(wù)上有更強(qiáng)的表現(xiàn).

        我們使用最后一層的輸出作為上下文表示特征,Aken等人[15]和Cai等人[25]的工作也分別展示了在機(jī)器閱讀理解任務(wù)上, BERT中越高層的編碼輸出越有效. 模型的主要參數(shù)設(shè)置如下: batch size設(shè)置為4, 學(xué)習(xí)率為3E-5, 并采用學(xué)習(xí)率預(yù)熱的策略[26], dropout設(shè)置為0.2, 使用訓(xùn)練集微調(diào)兩個(gè)輪次后, 在驗(yàn)證集上取得了不錯(cuò)的基準(zhǔn)效果.

        接下來(lái)我們分別嘗試將BERT的輸出與文本特征的輸入進(jìn)行交互. 共設(shè)置了5組實(shí)驗(yàn), 分別基準(zhǔn)模型的實(shí)驗(yàn), 在基準(zhǔn)模型基礎(chǔ)上分別融合詞性特征、命名實(shí)體特征和依存分析特征的實(shí)驗(yàn)以及融合全部特征的實(shí)驗(yàn). 如表1所示.

        表1 對(duì)照實(shí)驗(yàn)組別與模型

        對(duì)于每組實(shí)驗(yàn), 我們分別設(shè)置了5個(gè)隨機(jī)種子進(jìn)行多次實(shí)驗(yàn), 使用5次不同隨機(jī)種子實(shí)驗(yàn)中性能的最佳結(jié)果以及平均結(jié)果作為該組模型實(shí)驗(yàn)的最終結(jié)果,以排除一些訓(xùn)練過(guò)程中的隨機(jī)性.

        2.4 實(shí)驗(yàn)結(jié)果與分析

        (1) 模型閱讀理解能力. 在數(shù)據(jù)集CMRC2018上的實(shí)驗(yàn)結(jié)果見表2, 其中加粗行分別是添加單特征的最優(yōu)實(shí)驗(yàn)結(jié)果和添加全部特征的實(shí)驗(yàn)結(jié)果.

        表2 在數(shù)據(jù)集CMRC2018上的實(shí)驗(yàn)結(jié)果 (%)

        表2展示了基準(zhǔn)模型Chinese-roBERTa-wwmext經(jīng)微調(diào)后, 最高可以達(dá)到86.21%的F1匹配率和67.85%的精確匹配率. 在此基礎(chǔ)上分別添加詞性特征、命名實(shí)體特征、依存句法特征進(jìn)行實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明每一種特征的融合都能夠帶來(lái)模型的精度的提升, 且對(duì)于EM值上的提高要明顯高于F1值. 其中詞性特征帶來(lái)的匹配率提升效果最為顯著, 可以達(dá)到85.85%的平均F1匹配率和67.46%的平均EM匹配率, 相較于基準(zhǔn)模型分別可以提升0.3%和0.6%, 而最優(yōu)輪次的EM相較于基準(zhǔn)模型提高0.87%.實(shí)體特征和依存分析特征也同樣在兩個(gè)評(píng)估標(biāo)準(zhǔn)上相較基準(zhǔn)模型有一定的提高, 但較詞性特征而言并不顯著.

        同時(shí)添加3項(xiàng)特征后, 實(shí)驗(yàn)結(jié)果可以達(dá)到85.91%的平均F1匹配率和68.27%的平均EM匹配率, 相較于基準(zhǔn)模型分別可以提高0.35%和1.43%, 相較于只融合單特征的實(shí)驗(yàn)結(jié)果, EM值得到了接近一個(gè)百分點(diǎn)的提升. 而我們的最優(yōu)模型達(dá)到了86.58%的F1匹配率和69.41%的EM匹配率, 相較于只使用預(yù)訓(xùn)練BERT模型, 分別可以得到0.37%和1.56%的提升.

        基于上述實(shí)驗(yàn)結(jié)果以及分析, 我們的方法可以在預(yù)訓(xùn)練模型的基礎(chǔ)上得到1.5%左右的EM匹配率提升, 證明了提出方法的有效性, 并且在3種特征中, 詞性特征更加能夠幫助閱讀理解模型進(jìn)行預(yù)測(cè). 實(shí)驗(yàn)結(jié)果也驗(yàn)證了在BERT等預(yù)訓(xùn)練模型中引入顯式的語(yǔ)言學(xué)知識(shí)同樣能夠幫助機(jī)器進(jìn)行閱讀理解. 至于EM值的提升如此顯著, 我們分析認(rèn)為顯式的語(yǔ)言特征本身就是更加結(jié)構(gòu)化的特征, 因此能夠更有效地幫助機(jī)器歸納總結(jié)出更加精確的答案起始位置.

        (2) 效率. 我們對(duì)“對(duì)預(yù)訓(xùn)練模型進(jìn)行改進(jìn)”與“引入顯示語(yǔ)言學(xué)特征”這兩種方法的細(xì)節(jié)進(jìn)行比較, 包括訓(xùn)練的數(shù)據(jù)規(guī)模與算力成本, 以及各自在CMRC2018數(shù)據(jù)集上帶來(lái)的性能提升百分比, 對(duì)比結(jié)果見表3. 其中,B表示10億.

        表3 對(duì)預(yù)訓(xùn)練模型改進(jìn)與引入顯示語(yǔ)言學(xué)特征兩種方法的比較

        預(yù)訓(xùn)練模型改進(jìn): Cui等人[24]提出的BERT-wwmext在BERT的基礎(chǔ)上, 將詞掩碼方式設(shè)置為中文全詞覆蓋, 并引入了包括百科、新聞以及問(wèn)答頁(yè)面的訓(xùn)練文本, 詞量高達(dá)5.4 B. 訓(xùn)練步數(shù)的數(shù)量級(jí)也高達(dá)百萬(wàn),在TPU v3上通常需要數(shù)周. 最終在CMRC2018驗(yàn)證集上分別可以得到0.8%和0.1%的EM和F1指標(biāo)提升. 而RoBERTa-wwm-ext進(jìn)一步移除了下句預(yù)測(cè)任務(wù), F1和EM分別提升了1.1%和1.6%.

        引入顯式語(yǔ)言學(xué)特征: 本文方法引入詞法和句法特征, 在遠(yuǎn)小于0.1 B詞量的數(shù)據(jù)集上利用現(xiàn)有模型進(jìn)行標(biāo)注, 融合了分詞結(jié)果和各類特征的訓(xùn)練集大小為107 MB, 以4為batch size在3080Ti上訓(xùn)練2個(gè)輪次,共需要20 min, 而EM和F1指標(biāo)最高可以提升1.56%和0.37%.

        本文方法相較對(duì)預(yù)訓(xùn)練模型進(jìn)行改進(jìn), 使用遠(yuǎn)少于后者的數(shù)據(jù)與算力成本, 在閱讀理解數(shù)據(jù)集上獲得了持平甚至更優(yōu)的指標(biāo)提升. 可見本文方法較為高效,同時(shí)也證明了引入顯式的詞法句法等語(yǔ)言特征能夠?yàn)樘囟ǖ南掠稳蝿?wù)帶來(lái)較大的性能提升.

        3 結(jié)論與展望

        本文提出一種融合多種特征的抽取式機(jī)器閱讀理解模型, 顯式地引入包括詞性、命名實(shí)體的詞法特征以及依存分析的句法特征, 同時(shí)設(shè)計(jì)了基于注意力機(jī)制的自適應(yīng)特征選擇模塊, 進(jìn)一步提升了機(jī)器閱讀理解模型的性能. 在抽取式機(jī)器閱讀理解數(shù)據(jù)集CMRC2018的實(shí)驗(yàn)上表明, 本文提出的機(jī)器閱讀理解模型能夠通過(guò)極低的算力成本, 在F1和EM指標(biāo)上取得0.37%和1.56%的提升.

        實(shí)驗(yàn)結(jié)果驗(yàn)證了我們方法的有效性. 對(duì)于閱讀理解模型而言, 詞性特征相較命名實(shí)體特征和句法依存分析特征更能夠幫助模型理解文本. 同時(shí)也說(shuō)明了對(duì)于機(jī)器閱讀理解這類難度較高的自然語(yǔ)言處理任務(wù),盡管BERT等預(yù)訓(xùn)練模型帶來(lái)的表征能力是突破性的,但是語(yǔ)言本身的一些特征也具有不可忽視的作用. 在未來(lái)的研究中包括但不限于詞法、句法等各類語(yǔ)言學(xué)特征同樣值得更多的關(guān)注, 它們?cè)谂c預(yù)訓(xùn)練模型的結(jié)合中究竟起到了怎樣的作用以及這些特征的重要程度都是值得關(guān)注的研究課題, 同時(shí)在二者的結(jié)合中也可以進(jìn)一步幫助我們了解BERT等預(yù)訓(xùn)練模型對(duì)于語(yǔ)言的理解機(jī)制.

        猜你喜歡
        詞法句法機(jī)器
        詞法 名詞、代詞和冠詞
        機(jī)器狗
        機(jī)器狗
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        未來(lái)機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        應(yīng)用于詞法分析器的算法分析優(yōu)化
        談對(duì)外漢語(yǔ)“詞法詞”教學(xué)
        亚洲成人av一区免费看| 久青草国产在线观看| 欧美日韩激情在线一区二区| 我的极品小姨在线观看| 国产激情久久久久久熟女老人| 欧美bbw极品另类| 日韩av在线毛片| 久久精品国产精品青草色艺| 色窝综合网| 中文字幕高清不卡视频二区| 日韩人妻无码一区二区三区久久| 精品乱码久久久久久久| 日韩区在线| 亚洲国产成人av第一二三区| 精品亚洲国产成人av色哟哟| 影音先锋女人av鲁色资源网久久| 久久久久国产一级毛片高清版A | 久久av一区二区三区下| 亚洲自拍偷拍色图综合| 无码人妻精品一区二区| 99视频全部免费精品全部四虎| 国产日韩乱码精品一区二区| 免费看av网站在线亚洲| 亚洲国产美女精品久久久久∴| 蜜桃精品免费久久久久影院| 91在线无码精品秘 入口九色十| 国产在线观看午夜视频| 狠狠躁天天躁中文字幕| 精品久久久久一区二区国产| 久久精品亚洲成在人线av| 久久影院午夜理论片无码| 人成午夜免费大片| 在线视频一区二区亚洲| 国产av剧情刺激对白| 亚洲男人av天堂午夜在| 国产免费看网站v片不遮挡| 凹凸世界视频a一二三| 国产精品国产三级第一集| 日韩人妻无码免费视频一区二区三区| 色婷婷资源网| 在线视频播放观看免费|