亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ALBERT+BiLSTM+CRF的事件抽取模型

        2022-06-09 00:59:26張昊洋
        關(guān)鍵詞:論元實(shí)驗(yàn)模型

        韓 娜, 張昊洋

        (黑龍江科技大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 哈爾濱 150022)

        0 引 言

        目前,事件抽取是自然語言處理研究的熱點(diǎn)和難點(diǎn)。事件抽取是從非結(jié)構(gòu)化的自然語言文本中自動(dòng)抽取用戶感興趣的事件信息并以結(jié)構(gòu)化的形式表示[1]。事件抽取得到的優(yōu)質(zhì)結(jié)構(gòu)化知識(shí)信息,能指導(dǎo)智能模型進(jìn)行深層次的事物理解和精準(zhǔn)的任務(wù)查詢及一定的邏輯推理[2]。事件抽取在信息收集、信息檢索、文檔合成和金融趨勢(shì)預(yù)測(cè)[3]等方面有著廣泛應(yīng)用。事件被自動(dòng)內(nèi)容抽取(Automatic content extraction, ACE)國際評(píng)測(cè)會(huì)議定義為:發(fā)生在某個(gè)特定時(shí)間點(diǎn)或時(shí)間段,某個(gè)特定地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的一個(gè)或者多個(gè)動(dòng)作組成的事情或者狀態(tài)的改變[4]。事件抽取的技術(shù)方法可以分為基于模式匹配的方法和基于機(jī)器學(xué)習(xí)方法兩大類,前者需要在特定模式指導(dǎo)下進(jìn)行事件識(shí)別和抽取,在特定領(lǐng)域表現(xiàn)出色;而后者將深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)作為主要手段,成為目前的主流研究方向。Feng等[5]提出用雙向長短期記憶網(wǎng)絡(luò)進(jìn)行事件監(jiān)測(cè),但沒有研究事件元素的抽取方法。Nguyen等[6]利用雙向LSTM抽取句子的語義特征,聯(lián)合句子結(jié)構(gòu)特征同時(shí)抽取事件觸發(fā)詞和事件元素。Zeng等[7]使用雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)抽取句子特征,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)抽取上下文語義特征完成中文事件抽取,提高了性能。武國亮等[8]提出了基于命名實(shí)體識(shí)別任務(wù)反饋增強(qiáng)的中文突發(fā)事件抽取方法,以解決多任務(wù)聯(lián)合學(xué)習(xí)產(chǎn)生的損失不平衡問題。季忠祥等[9]采用CNN-BiLSTM-CRF模型抽取中文事件。劉輝熊[10]抽取研究了特定的司法數(shù)據(jù)事件和生物醫(yī)學(xué)事件。上述學(xué)者或是僅關(guān)注事件抽取的某個(gè)子任務(wù),或是針對(duì)特定領(lǐng)域事件進(jìn)行抽取,對(duì)通用事件抽取任務(wù)的效果無法評(píng)價(jià)。而針對(duì)中文事件的事件抽取模型則未能考慮模型的開銷、性能和算力等方面的平衡,且測(cè)試數(shù)據(jù)集(ACE、CEC[9])規(guī)模相對(duì)較小,在大規(guī)模數(shù)據(jù)集上應(yīng)用效果不明確。

        針對(duì)現(xiàn)有研究的不足,筆者提出基于ALBERT+BiLSTM+CRF的事件抽取模型,通過與多種模型進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證其在大規(guī)模中文事件抽取中的有效性。

        1 ALBERT+BiLSTM+CRF的事件抽取

        1.1 事件抽取

        事件抽取按照ACE的定義包含事件觸發(fā)詞和事件元素等子任務(wù)。事件抽取通?;谑录|發(fā)詞識(shí)別出文本中的事件和事件類型,并進(jìn)一步從事件中識(shí)別出事件元素并確定元素角色,事件抽取依賴于命名實(shí)體識(shí)別、關(guān)系抽取等底層自然語言處理任務(wù)的結(jié)果,同時(shí),還需要結(jié)合上下文的語義分析才能完成。

        隨著語料數(shù)量的增加和機(jī)器計(jì)算能力的提高,事件抽取越來越多采用深度學(xué)習(xí)的各類模型,尤其是預(yù)訓(xùn)練語言模型BERT[11]、RoBERT[12]和ALBERT[13]的提出推動(dòng)了事件抽取的研究和發(fā)展。事件抽取可以分為由觸發(fā)詞識(shí)別,以及由事件類型分類構(gòu)成的事件識(shí)別。事件元素(論元)識(shí)別和角色分類組成了角色分類的兩個(gè)子任務(wù)。按照事件抽取子任務(wù),文中擬采取聯(lián)合標(biāo)注策略,利用ALBERT作為編碼器,同時(shí),識(shí)別事件元素及其對(duì)應(yīng)事件類型,并在大規(guī)模中文數(shù)據(jù)集DuEE上進(jìn)行實(shí)驗(yàn),驗(yàn)證模型的有效性。

        1.2 ALBERT+BiLSTM+CRF模型構(gòu)建

        文中提出的ALBERT+BiLSTM+CRF模型結(jié)構(gòu)如圖1所示。模型由三個(gè)層次構(gòu)成,ALBERT層將輸入的文本經(jīng)過預(yù)訓(xùn)練生成詞向量,將得到的詞向量作為BiLSTM層的輸入。通過BiLSTM層雙向訓(xùn)練,提取特征信息,經(jīng)過CRF層確定全局最優(yōu)序列。

        ALBERT層中使用多層的Transformer Encoder模型(圖1中簡寫為Trm),通過注意力機(jī)制將任意位置的兩個(gè)單詞的距離轉(zhuǎn)換成1。

        圖1 ALBERT+BiLSTM+CRF模型Fig. 1 ALBERT+BiLSTM+CRF Model

        ALBERT預(yù)訓(xùn)練模型

        2018年,Google團(tuán)隊(duì)結(jié)合不同語言模型的優(yōu)點(diǎn),提出BERT模型[11-12],該模型在命名實(shí)體識(shí)別等11個(gè)NLP任務(wù)上取得了最好效果。該模型基于雙向Transformer Encoder神經(jīng)網(wǎng)絡(luò)編碼器構(gòu)建,增強(qiáng)了預(yù)訓(xùn)練詞向量的泛化能力,解決了一詞多義的問題。但BERT模型中詞嵌入?yún)?shù)E與隱層大小H相等,實(shí)際詞匯表的大小V很大,導(dǎo)致出現(xiàn)模型訓(xùn)練時(shí)間過長,算力要求過高的問題。2019年,Google實(shí)驗(yàn)室的Lan等[13]提出了ALBERT(A Lite BERT)預(yù)訓(xùn)練語言模型,在維持性能的前提下,獲得了更好的模型擴(kuò)展性。

        為控制BERT中參數(shù)規(guī)模問題,ALBERT從減少模型參數(shù)量的角度進(jìn)行了改進(jìn),模型示意如圖2所示。

        圖2 ALBERT模型Fig. 2 ALBERT model

        ALBERT模型通過因式分解以達(dá)到減少參數(shù)的目標(biāo),即將嵌入詞矩陣的維度先映射到大小為E的低維度空間,然后通過高維映射變換到隱藏層的方式,既保證了與上下文相關(guān)的隱層大小H增大,又使整體的復(fù)雜度從O(V×H)降低到O(V×E+E×H)的目的。同時(shí),ALBERT實(shí)現(xiàn)了全連接層與注意力層之間全部參數(shù)的共享策略,即將全連接層和注意力層間的參數(shù)減為單頭,壓縮了參數(shù)總量。減少參數(shù)的同時(shí),為了保證性能不變甚至更優(yōu),ALBERT引入了一個(gè)自監(jiān)督損失函數(shù),提出用SOP取代NSP,保證模型學(xué)習(xí)時(shí)關(guān)注句子的連貫性,以實(shí)現(xiàn)下一句預(yù)測(cè)任務(wù)更加符合實(shí)際情況。

        BiLSTM+ CRF 特征提取

        H=[h1,h2,…,hn] 。

        (1)

        由式(1)可知,H中的每一行hi都代表將前向和后向的隱向量拼接得到的句子特征。

        由于BiLSTM沒有考慮標(biāo)簽間的關(guān)聯(lián)性,所以需要在BiLSTM的輸出層加上一個(gè)CRF(條件隨機(jī)場(chǎng))模型,利用CRF中的轉(zhuǎn)移矩陣表示標(biāo)簽間的相關(guān)性。對(duì)BiLSTM輸出的給定句子x,其標(biāo)簽序列為y的概率為

        (2)

        s=∑iPE(xi,yi)+PT(yi-1,yi),

        (3)

        式中:PE——發(fā)射概率,即BiLSTM輸出的概率;

        PT——對(duì)應(yīng)CRF轉(zhuǎn)移概率,即轉(zhuǎn)移矩陣對(duì)應(yīng)的數(shù)值。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 數(shù)據(jù)集選擇及評(píng)價(jià)方法

        事件抽取模型的驗(yàn)證需要事件抽取數(shù)據(jù)集的支撐,目前,使用比較廣泛的數(shù)據(jù)集包括ACE 2005、TAC KBP和中文突發(fā)事件語料庫(CEC)。ACE 2005是多語言語料庫,包含英語、阿拉伯語和中文數(shù)據(jù),使用最廣泛;TAC KBP也提供英語、西班牙語和中文數(shù)據(jù)。CEC是專門為中文事件抽取設(shè)計(jì)的涵蓋五種突發(fā)事件類型的小數(shù)據(jù)集。上述數(shù)據(jù)集規(guī)模均相對(duì)較小,大規(guī)模數(shù)據(jù)集相對(duì)匱乏。在此基礎(chǔ)上,百度公司推出了由19 640個(gè)事件組成的DuEE數(shù)據(jù)集[16],該數(shù)據(jù)集可以映射到121個(gè)論元角色,包含41 520個(gè)事件論元。該數(shù)據(jù)集劃分了65種事件類型,由人工眾包審核的方式完成標(biāo)注,保證其標(biāo)注準(zhǔn)確率高于95%,數(shù)據(jù)來源于百度搜索的熱門話題,更接近真實(shí)世界場(chǎng)景。由于該數(shù)據(jù)集規(guī)模、數(shù)據(jù)質(zhì)量和對(duì)中文的支持程度都優(yōu)于常用的數(shù)據(jù)集,故文中使用DuEE作為實(shí)驗(yàn)數(shù)據(jù)集,該數(shù)據(jù)集以事件為例,訓(xùn)練集、測(cè)試集、驗(yàn)證集的占比分別為69%、22%和9%。具體標(biāo)注示例如下:

        文本實(shí)例 8月20日消息,據(jù)騰訊新聞《一線》報(bào)道,知情人士表示,為了控制成本支出,蔚來計(jì)劃將美國分公司的人員規(guī)模除自動(dòng)駕駛業(yè)務(wù)相關(guān)人員外,減少至200人左右。截至美國時(shí)間8月16日,蔚來位于美國硅谷的分公司已裁減100名員工。

        標(biāo)注結(jié)果 [ {

        "event_type": "組織關(guān)系-裁員",

        "trigger": "裁減",

        "arguments": [

        { "role": "時(shí)間",

        "argument": "8月16日"},

        {"role": "裁員方",

        "argument": "蔚來"},

        { "role": "裁員人數(shù)",

        "argument": "100名員工"} ]

        class": "組織關(guān)系"

        } ]。

        實(shí)例標(biāo)注了事件類型(event_type)、事件觸發(fā)詞(trigger)、事件關(guān)系(class)和事件的論元列表(arguments)。事件論元列表中根據(jù)事件關(guān)系標(biāo)識(shí)出特定事件類型中的論元,如本示例中標(biāo)識(shí)出事件的時(shí)間、事件的參與方(裁員方和裁員人數(shù))。

        事件抽取的評(píng)價(jià)方法一般采用正確率P、召回率R和F1值,三者的計(jì)算公式為

        (4)

        (5)

        (6)

        式中:Tp——正確抽取的事件個(gè)數(shù);

        Fp——將負(fù)例事件預(yù)測(cè)為正確事件的個(gè)數(shù);

        Fn——將正確事件預(yù)測(cè)為負(fù)例事件(即未抽取出事件)的個(gè)數(shù)。

        3個(gè)評(píng)價(jià)指標(biāo)數(shù)值越高,代表模型性能越好。

        2.2 實(shí)驗(yàn)環(huán)境和模型參數(shù)

        本實(shí)驗(yàn)環(huán)境配置為Ubuntu18.04.5的Linux操作系統(tǒng),GPU為Tesla K80。實(shí)驗(yàn)中batch_size設(shè)置為16,epochs為10,采用adam作為優(yōu)化器,ALBERT模型編碼向量為128,隱藏層的大小為1 024,學(xué)習(xí)率為1×10-3。

        2.3 實(shí)驗(yàn)結(jié)果與對(duì)比

        實(shí)驗(yàn)采用DuEE數(shù)據(jù)集進(jìn)行事件抽取的訓(xùn)練,多輪訓(xùn)練后在對(duì)應(yīng)測(cè)試集上進(jìn)行測(cè)試。以事件抽取的時(shí)間、地點(diǎn)、觸發(fā)詞和論元為評(píng)測(cè)對(duì)象,實(shí)驗(yàn)結(jié)果如表1所示。

        表1 事件抽取模型實(shí)驗(yàn)結(jié)果Table 1 Experiment results of Event Extraction model

        從表1可以看出,事件元素地點(diǎn)F1值最高,其次是觸發(fā)詞和時(shí)間。論元的F1值相對(duì)較低。通過分析數(shù)據(jù)集可以發(fā)現(xiàn),地點(diǎn)和觸發(fā)詞在標(biāo)注集中相對(duì)比較完善和具體,出現(xiàn)次數(shù)較多,而論元在不同的事件中其語法相對(duì)復(fù)雜,且種類豐富多樣,導(dǎo)致論元的F1值偏低。

        目前事件抽取模型主要仍以深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)為主。本模型的預(yù)訓(xùn)練模型采用ALBERT,特征抽取采用BiLSTM+CRF完成。為了對(duì)比本模型在事件抽取中的有效性,選擇RoBERT替換ALBERT,特征提取則用循環(huán)神經(jīng)網(wǎng)絡(luò)模型變體BiGRU替換BiLSTM,結(jié)合CRF完成。對(duì)比模型中的RoBERT是BERT到ALBERT發(fā)展過程中的改進(jìn)模型。由于事件抽取過程中對(duì)多個(gè)時(shí)間、地點(diǎn)、觸發(fā)詞和論元進(jìn)行多要素評(píng)價(jià),這里采用個(gè)模型的宏平均值進(jìn)行比較說明。宏平均是對(duì)每個(gè)模型中所有不同類型評(píng)價(jià)要素統(tǒng)計(jì)其指標(biāo),再計(jì)算所有類的算術(shù)平均值。本模型與其他模型在事件抽取中的實(shí)驗(yàn)結(jié)果對(duì)比如表2所示。

        表2 不同事件抽取模型實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of different event extraction models

        由表2可知,在事件抽取中,特征提取使用BiGRU+CRF的兩個(gè)模型(②和③)其F1值均低于使用BiLSTM+CRF的模型;特征提取為BiLSTM+CRF的模型(①和④)效果更好,究其原因是減少了人為干預(yù),同時(shí)保證模型輸出的標(biāo)簽序列最優(yōu),從而增加準(zhǔn)確率。在預(yù)訓(xùn)練模型RoBERT(①)和ALBERT(④)的模型實(shí)驗(yàn)結(jié)果中,可以看出模型④的準(zhǔn)確率遠(yuǎn)高于模型①,但召回率則是模型①略高于模型④,最終模型④的F1值比模型①高一個(gè)百分點(diǎn)。綜合來看,文中采用的模型④仍然是多個(gè)不同模型中的最優(yōu)算法。

        3 結(jié) 論

        文中提出以訓(xùn)練語言模型ALBERT作為編碼器,通過對(duì)事件句子進(jìn)行標(biāo)注,使用BiLSTM與CRF結(jié)合句子特征提取并獲得最優(yōu)序列的方式完成中文事件抽取模型。文中提出的模型在大規(guī)模中文事件抽取數(shù)據(jù)集DuEE上F1值為85.7%,表明了該方案的有效性。但本模型僅在句子級(jí)別的事件抽取中有較好的效果,下一步需要研究如何將其應(yīng)用到篇章級(jí)文本的事件抽取中。

        猜你喜歡
        論元實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長實(shí)驗(yàn)
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
        基于論元結(jié)構(gòu)和題元指派對(duì)漢語處置義“把”字句的句法語義分析
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        97精品国产91久久久久久久| 国产成人精品无码一区二区三区| 爽爽精品dvd蜜桃成熟时电影院 | 国产午夜激无码av毛片| 亚洲AV无码日韩综合欧亚| 一个人午夜观看在线中文字幕| 亚洲av中文无码乱人伦在线视色| 无码综合天天久久综合网| 久久中文字幕久久久久| 日韩亚洲一区二区三区在线 | 亚洲av一区二区三区网站| 亚洲精品国产精品乱码视色| 欧美黑人xxxx又粗又长| 无码一区二区三区AV免费换脸 | 蜜臀av午夜一区二区三区| 中文字幕影片免费在线观看| 国产裸体AV久无码无遮挡| 亚洲女同av在线观看| 亚洲av日韩aⅴ无码色老头| japanese无码中文字幕 | 中文字幕人妻被公喝醉在线| 欧洲女人与公拘交酡视频| 久久亚洲精品无码va大香大香 | 最近日韩激情中文字幕| 丰满人妻无奈张开双腿av| 亚洲av不卡免费在线| 久久人妻内射无码一区三区| 国产亚洲sss在线观看| 在线观看二区视频网站二区| 97se亚洲国产综合在线| 精品一区二区三区在线观看视频| 日韩午夜在线视频观看| 国产91色综合久久免费| 亚洲色精品aⅴ一区区三区| 91爱爱视频| 九一精品少妇一区二区三区| 久久综合九色综合久99| 国产在线丝袜精品一区免费| 色视频日本一区二区三区 | 熟妇人妻中文av无码| 亚洲国产一区久久yourpan|