亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合上下文詞匯匹配和圖卷積的材料數(shù)據(jù)命名實(shí)體識別

        2022-11-12 09:02:50陳茜武星
        關(guān)鍵詞:全局實(shí)體向量

        陳茜武星

        (1.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444;2.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444;3.之江實(shí)驗(yàn)室,浙江杭州311100)

        材料領(lǐng)域的文獻(xiàn)數(shù)據(jù)中蘊(yùn)含了豐富的知識,如何采用機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)進(jìn)行文獻(xiàn)數(shù)據(jù)挖掘尤為重要.其中命名實(shí)體識別(named entity recognition,NER)是使用最為廣泛的方法[1].文獻(xiàn)數(shù)據(jù)含有豐富的語義,利用NER能從非結(jié)構(gòu)化的材料數(shù)據(jù)中抽取出材料的名稱、性質(zhì)、應(yīng)用等有意義的實(shí)體,且相同含義的實(shí)體合并起來能使不同時(shí)期的材料文獻(xiàn)具有關(guān)聯(lián)性.NER對非結(jié)構(gòu)化數(shù)據(jù)的分析與數(shù)據(jù)挖掘,可有助于關(guān)聯(lián)文獻(xiàn)數(shù)據(jù)、檢索基于知識的信息,以及構(gòu)建知識圖譜等.

        在基于深度學(xué)習(xí)的NER過程中,輸入通常是將詞轉(zhuǎn)換為詞的向量表示,常用的詞向量(如Word2vec[2]和GloVe[3]詞向量),語義上相似或相關(guān)的詞在詞向量特征上也更為接近,但此類詞向量是通過語料庫詞語的共現(xiàn)性訓(xùn)練每個(gè)詞的單一向量,對不同語句中的相同詞語僅能賦予相同含義,是相對靜態(tài)的,故無法解決不同語境下一詞多義的問題.另外,NER模型由長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[4]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5]等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練逐步轉(zhuǎn)變?yōu)橥ㄟ^大規(guī)模語料庫訓(xùn)練的預(yù)訓(xùn)練語言模型后再根據(jù)具體任務(wù)微調(diào),如基于Transformers的雙向編碼器表示(bidirectional encoder representation from Transformers,BERT)[6]、穩(wěn)健優(yōu)化的BERT方法(robustly optimized BERT approach,RoBERTa)[7]、XLNet[8]等,但這些模型更多注重于增強(qiáng)上下文的深度雙向表示,在一定程度上忽略了序列的全局特征.本工作使用預(yù)訓(xùn)練語言模型XLNet,根據(jù)不同的上下文語義生成深度上下文動(dòng)態(tài)特征,雙向LSTM網(wǎng)絡(luò)進(jìn)一步增強(qiáng)語義信息,并在文本序列結(jié)合上下文匹配詞匯構(gòu)筑的圖結(jié)構(gòu)上,利用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)模型進(jìn)一步得到語句的全局特征.

        1 相關(guān)研究

        最初,NER作為信息抽取的子任務(wù),在MUC-6(the Sixth Message Understanding Conferences)會(huì)議上被提出[9].當(dāng)時(shí)雖未明確定義命名實(shí)體識別的概念,但規(guī)定了評測需要識別的3大類實(shí)體(命名實(shí)體、時(shí)間表達(dá)式和數(shù)量表達(dá)式)、7小類實(shí)體(人名、地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比).近年來,隨著深度學(xué)習(xí)在圖像和語音領(lǐng)域的成功應(yīng)用以及預(yù)訓(xùn)練語言模型的改進(jìn),深度學(xué)習(xí)也被越來越多地應(yīng)用到自然語言處理任務(wù)中.深度學(xué)習(xí)可以自動(dòng)學(xué)習(xí)句子特征而不需要人工的干預(yù),因此基于深度學(xué)習(xí)的命名實(shí)體識別方法受到廣泛關(guān)注.

        對于中文NER,Zhang等[10]提出的Lattice LSTM模型,顯式地利用了詞與詞序列信息,避免分詞被錯(cuò)誤傳遞,在微軟亞洲研究院(Microsoft Research Asia,MSRA)語料上取得了較高的F1值;Wu等[11]提出了聯(lián)合分詞與CNN-BiLSTM-CRF模型共同訓(xùn)練,增強(qiáng)中文NER模型實(shí)體識別邊界的能力,同時(shí)又提出了一種從現(xiàn)有標(biāo)記數(shù)據(jù)中生成偽標(biāo)記樣本的方法,進(jìn)一步提高了實(shí)體識別的性能;武惠等[12]將遷移學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用到中文NER上,也取得了較好的成果;王紅斌等[13]和王銀瑞等[14]利用遷移學(xué)習(xí)來進(jìn)行實(shí)體識別,該方法相較于監(jiān)督學(xué)習(xí)方法很大程度上減少了人工標(biāo)注語料的工作量;王棟等[15]針對中文NER中長短期記憶網(wǎng)絡(luò)識別模型缺乏并行性的問題,提出了一種融合雙向準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional quasi recurrent neural network,BQRNN)與條件隨機(jī)場的中文NER模型,通過BQRNN網(wǎng)絡(luò)在序列維度和特征維度上并行獲取序列化文本的內(nèi)部特征,由條件隨機(jī)場(conditional random field,CRF)層選取最終的標(biāo)簽序列,并在模型中添加注意力機(jī)制,增強(qiáng)BQRNN網(wǎng)絡(luò)輸出的特征信息.

        國外對NER的研究起步相對較早.Huang等[16]在雙向LSTM-條件隨機(jī)場(BiLSTMCRF)模型的基礎(chǔ)上融入人工設(shè)計(jì)的拼寫特征,在CoNLL2003語料上達(dá)到了88.83%的F1值;Peng等[17]定義了一種PU學(xué)習(xí)算法,這里P(positive)代表已標(biāo)記的實(shí)體單詞數(shù)據(jù),U(unlabeled)代表其余未標(biāo)記的數(shù)據(jù),PU算法僅使用未標(biāo)記的數(shù)據(jù)和命名的實(shí)體字典來執(zhí)行NER任務(wù);Liu等[18]提出了一個(gè)利用全局上下文增強(qiáng)的深度轉(zhuǎn)換架構(gòu),將該架構(gòu)用于序列標(biāo)注任務(wù),通過設(shè)計(jì)特有的門控單元,加深句子中的每個(gè)詞位置的狀態(tài)轉(zhuǎn)換路徑,并進(jìn)一步利用句子級的全局信息來增強(qiáng)每個(gè)詞的局部表示;Lison等[19]提出了一種弱監(jiān)督NER模型,該模型使用了廣泛的標(biāo)簽功能(包括數(shù)據(jù)驅(qū)動(dòng)的NER模型、地名詞典、啟發(fā)式功能和實(shí)體之間的文檔級關(guān)系),標(biāo)簽功能可以專門識別特定的標(biāo)簽而忽略其他的標(biāo)簽.此外,不同于以前弱監(jiān)督方法,標(biāo)簽功能可以產(chǎn)生概率預(yù)測.Lin等[20]針對NER中存在的需要大量耗時(shí)耗力的人工標(biāo)注工作提出了TriggerNER方法,利用一種能夠幫助人們找到實(shí)體的觸發(fā)器(entity trigger),通過觸發(fā)器匹配網(wǎng)絡(luò)學(xué)習(xí)到相關(guān)觸發(fā)器的信息以及觸發(fā)器跟句子之間的匹配程度,從而更有利于標(biāo)注.

        2 XBGCN模型

        2.1 模型理論

        2.1.1 XLNet

        近年來,預(yù)訓(xùn)練語言模型在許多自然語言處理任務(wù)中取得了較好的成果,推動(dòng)了相關(guān)技術(shù)的發(fā)展,引發(fā)了廣泛的關(guān)注.針對BERT模型在預(yù)訓(xùn)練時(shí)加入掩碼,導(dǎo)致預(yù)訓(xùn)練和微調(diào)時(shí)數(shù)據(jù)存在差異從而影響模型的效果的問題,Dai等[21]提出了XLNet模型,該模型將Transformer-XL作為主干模型,利用排列語言模型、雙流自注意力和循環(huán)機(jī)制,克服了自編碼語言模型的缺點(diǎn),在涉及長上下文的語言任務(wù)中表現(xiàn)出較好的性能.

        XLNet模型的核心方法是全排列語言模型,即在保留原有自回歸模型單向形式的基礎(chǔ)上,使用輸入序列的隨機(jī)排列來獲得雙向上下文信息.設(shè)長度為T的序列x共有T!個(gè)全排列組合,則排列語言模型目標(biāo)定義為

        式中:ZT為長度為T的索引序列[1,2,···,T]不同順序的所有排列組成的集合;zt和z<t分別為一個(gè)排列組合z∈ZT的第t個(gè)詞和前1~t-1個(gè)詞;θ為參數(shù).

        考慮全排列時(shí)詞位置順序不同,重新定義分布計(jì)算方法感知目標(biāo)位置,

        式中:gθ(xz<t,zt)是把位置信息zt額外作為輸入的新表示形式.

        XLNet模型使用雙流自注意力來解決定義gθ(xz<t,zt)所產(chǎn)生的問題.對于每個(gè)自注意層m=1,2,···,M,使用一組共享參數(shù)對2個(gè)表示流進(jìn)行更新:

        式中:g(m)zt為使用zt但看不到xzt的查詢流;h(m)zt為使用zt和xzt的內(nèi)容流;Q、K、V分別為查詢、鍵和值.

        為加快收斂速度,以c為分割點(diǎn),最大化以非目標(biāo)子序列z≤c為條件的目標(biāo)子序列z>c的對數(shù)似然為

        XLNet模型還利用了Transformer-XL的相對位置編碼和片段循環(huán)機(jī)制,將循環(huán)機(jī)制整合到所提出的排列組合設(shè)置中,并使模型能夠重用之前片段的隱藏狀態(tài).假設(shè)有2個(gè)來自長序列s的片段=s1:T和x=sT+1:2T,和z分別為[1,2,···,T]和[T+1,T+2,···,2T]的排列.基于排列組合處理第一個(gè)片段,然后為每個(gè)m層緩存獲得的內(nèi)容表示,對于下一個(gè)片段x,帶有記憶的注意力更新為

        2.1.2 GCN

        CNN網(wǎng)絡(luò)的核心是使用不同卷積核在數(shù)據(jù)上移動(dòng)提取數(shù)據(jù)的特征,數(shù)據(jù)內(nèi)部結(jié)構(gòu)保持不變,但對于非歐式空間數(shù)據(jù),CNN卷積核無法有效提取結(jié)構(gòu)信息,而圖卷積網(wǎng)絡(luò)可處理非歐式空間數(shù)據(jù)[22].圖可用于表示具有抽象意義的拓?fù)潢P(guān)系網(wǎng)絡(luò),圖中的節(jié)點(diǎn)表示網(wǎng)絡(luò)中的個(gè)體,邊表示個(gè)體間的連接關(guān)系.因此,圖神經(jīng)網(wǎng)絡(luò)可以有效處理復(fù)雜的圖型結(jié)構(gòu)數(shù)據(jù).圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)卷積主要有2種方法:基于譜域的圖卷積方法和基于空域的圖卷積方法.這里僅介紹所使用的基于譜域的GCN方法.

        圖可以定義為G=(V,E),其中V表示為節(jié)點(diǎn)的集合,E表示為邊的集合.設(shè)N為圖中的節(jié)點(diǎn)數(shù),D為每個(gè)節(jié)點(diǎn)的特征維度,GCN層與層之間的傳播公式為

        式中:第l+1層的輸入為H(l)∈RN×D,初始輸入H(0)=X,X為初始的特征向量矩陣;A為鄰接矩陣,且在整個(gè)網(wǎng)絡(luò)共享.如果節(jié)點(diǎn)i與節(jié)點(diǎn)j相連,則Aij=1;否則Aij=0.通過鄰接矩陣可知圖的整體結(jié)構(gòu).

        圖中第l+1層輸出特征H(l+1)的具體計(jì)算方式為

        2.2 模型設(shè)計(jì)

        2.2.1 總體模型

        為充分融合上下文特征與全局特征,本工作提出了一種結(jié)合上下文詞匯匹配和圖卷積的命名實(shí)體識別模型XBGCN(XLNet+BiLSTM+GCN),整體框架如圖1所示.圖1中,在輸入層通過XLNet獲取動(dòng)態(tài)上下文詞嵌入.編碼層包含2個(gè)子模塊:用于提取上下文特征的雙向LSTM網(wǎng)絡(luò)模塊和用于提取全局特征的圖卷積網(wǎng)絡(luò)模塊.利用BiLSTM對文本序列的深層語義信息進(jìn)行充分挖掘獲取上下文特征,并使用文本序列結(jié)合上下文詞典匹配詞匯,構(gòu)建雙圖GCN獲取全局特征,拼接2類特征輸入到CRF層,計(jì)算輸入的文本特征進(jìn)行序列標(biāo)注,輸出最優(yōu)標(biāo)簽.

        圖1 XBGCN模型框架圖Fig.1 Framework of XBGCN model

        2.2.2 上下文特征

        基于深度學(xué)習(xí)的NER模型,常通過詞向量法將文本序列轉(zhuǎn)化為向量序列.傳統(tǒng)的獨(dú)熱編碼(one-hot)表示不能有效表示句子中上下文關(guān)系,且數(shù)據(jù)稀疏嚴(yán)重,近年來逐步轉(zhuǎn)換為如Word2vec、GloVe這類低維、稠密向量表示.從不同文本中相同詞具有不同含義的詞語歧義性問題考慮,詞向量表示出現(xiàn)了如ELMo等隨語境變化的詞嵌入表示.而基于Transformer-XL的XLNet模型,通過循環(huán)機(jī)制和相對位置編碼等機(jī)制,解決了之前的自回歸語言模型單向或單向拼接傳遞信息的不足,可訓(xùn)練出含有更完整的上下文語義信息的詞向量表示.鑒于XLNet模型在語言表義方面的優(yōu)勢,在雙向LSTM網(wǎng)絡(luò)模塊中將XLNet預(yù)訓(xùn)練語言模型作為嵌入層,對文本序列進(jìn)行向量化表示,解決一詞多義等問題.本工作使用XLNet-Base預(yù)訓(xùn)練語言模型得到文本向量表示,再利用BiLSTM網(wǎng)絡(luò)獲取句子的前向和后向語義特征信息,捕獲長距離序列信息,拼接后得到隱藏層特征表示,可增強(qiáng)上下文語義關(guān)聯(lián).

        2.2.3 基于雙圖GCN的全局特征

        在一些命名實(shí)體識別文獻(xiàn)中,精確的邊界標(biāo)記會(huì)使用包含豐富詞匯邊界信息與語義信息的詞典[23-24],在不依賴于外部NLP工具的情況下有效提升了NER效果.同理將領(lǐng)域性詞典應(yīng)用在英文命名實(shí)體識別數(shù)據(jù)集中,同樣具有確定實(shí)體邊界信息的用途.如CoNLL2003英文數(shù)據(jù)集[25]是由新聞文章組成,每篇文章的上下文通常會(huì)存在相同或相近的詞匯,不同性質(zhì)相似的文章同樣會(huì)擁有相同的詞匯.而由材料文獻(xiàn)構(gòu)建的MatData數(shù)據(jù)集[26],材料領(lǐng)域中?,F(xiàn)的材料名稱、性質(zhì)和合成方法等實(shí)體往往會(huì)多次出現(xiàn)并具有相同含義,因此利用詞典匹配到的數(shù)據(jù)集文本序列中的詞匯,可能會(huì)多次出現(xiàn)在上下文中,再通過雙圖GCN構(gòu)建的上下文與詞典匹配詞匯關(guān)聯(lián)的圖結(jié)構(gòu),隱式地捕獲全局信息,充分利用了詞典數(shù)據(jù),有助于實(shí)體識別.

        在雙圖GCN模塊中,輸入表示特征與上下文特征一致,同為XLNet預(yù)訓(xùn)練模型的詞向量.雙圖模塊含有2個(gè)子圖,分別為詞匯匹配圖和序列圖.詞匯匹配圖模擬了匹配詞匯與相應(yīng)子詞之間的語義聯(lián)系,而序列圖是模擬句子中每個(gè)詞和匹配詞匯的序列關(guān)系,通過雙圖結(jié)構(gòu)可以較好地互補(bǔ)得到文本的序列信息以及全局信息.設(shè)模型的輸入句子為“the defect chemistry and domain structure were studied systematically”,句子表示為S={W1,W2,···,W9},經(jīng)過XLNet模型得到句子的向量表示為{X1,X2,···,X9}.由于2個(gè)圖頂點(diǎn)集和邊集各不相同,故根據(jù)句子S分別分析詞匯匹配圖和序列圖的構(gòu)造方法.

        (1)詞匯匹配圖Gl.

        圖2為詞匯匹配圖,模擬了匹配詞匯與相應(yīng)子詞之間的語義聯(lián)系.句子S來自MatData數(shù)據(jù)集,該數(shù)據(jù)集由材料科學(xué)摘要文獻(xiàn)構(gòu)成.圓形圖標(biāo)內(nèi)的詞為句子中的每個(gè)詞,矩形圖標(biāo)內(nèi)的詞匯為材料領(lǐng)域詞典在這句話中匹配到的對應(yīng)詞匯“defect chemistry”“chemistry”“domain structure”和“structure”,4個(gè)詞匯均為材料性質(zhì)實(shí)體.對于節(jié)點(diǎn)集,是以每個(gè)詞和在詞典中匹配到的詞匯作為Gl的節(jié)點(diǎn).邊集引入鄰接矩陣Al,鄰接矩陣中的元素表示2個(gè)節(jié)點(diǎn)是否相連.如果節(jié)點(diǎn)Xi與節(jié)點(diǎn)Xj相連,則Ali,j=1;否則為0.在詞匯匹配圖中,相鄰詞之間每2個(gè)節(jié)點(diǎn)添加一條邊,即Ali,j=1,其中i<j.對于匹配詞匯及其子詞,如果一個(gè)匹配詞匯m包含句子中某個(gè)詞k,則對應(yīng)的Alk,m為1.圖2中,匹配詞匯“defect chemistry”含有子詞“defect”與“chemistry”,則節(jié)點(diǎn)“defect chemistry”分別與“defect”與“chemistry”節(jié)點(diǎn)互連.構(gòu)建匹配詞匯和相應(yīng)子詞間的語義關(guān)聯(lián),同時(shí)有利于確定實(shí)體邊界.

        圖2 詞匯匹配圖Fig.2 Matching diagram of lexical words

        (2)序列圖GS.

        序列圖顯示了句子中每個(gè)詞和匹配詞匯的有向序列關(guān)系(見圖3),能直接捕捉最近詞的序列信息.句子中的每個(gè)詞作為GS的節(jié)點(diǎn),節(jié)點(diǎn)集為句子中每個(gè)詞和在詞典中匹配到的詞匯.圖3中顯示了S經(jīng)上下文表示變化為V={X1,X2,···,X9}和匹配詞匯嵌入表示E={M1,M2,···,M4}.對于邊集,在序列圖中,句子S按詞的位置順序每2個(gè)節(jié)點(diǎn)之間添加一條有向邊,即=1,其中1≤i<j≤9.另外每個(gè)節(jié)點(diǎn)在自身添加一條自環(huán)邊,以增強(qiáng)本身的語義信息.對于匹配詞匯與句子的關(guān)聯(lián)性,增加匹配詞匯與最近前后詞的序列信息,如圖中匹配詞匯“defect chemistry”對應(yīng)句子S中的“defect”與“chemistry”,距離“defect”與“chemistry”節(jié)點(diǎn)最近的詞匯為“the”和“and”,構(gòu)建匹配詞匯和最近前后詞的有向邊,增強(qiáng)匹配詞匯與上下文的序列關(guān)系.

        圖3 序列圖Fig.3 Sequence diagram

        如圖3所示的序列圖為有向圖,而GCN為無向圖,故根據(jù)每個(gè)節(jié)點(diǎn)的輸入邊和輸出邊將有向GCN分為2個(gè)無向GCN,分別表示每個(gè)節(jié)點(diǎn)的輸入和輸出.

        僅考慮每個(gè)節(jié)點(diǎn)的輸入邊的GCN網(wǎng)絡(luò)為

        式中:i為圖中節(jié)點(diǎn);為節(jié)點(diǎn)i的相鄰節(jié)點(diǎn)j在第l層的嵌入;為所有邊輸入到節(jié)點(diǎn)i的相鄰節(jié)點(diǎn)的集合,自環(huán)包括節(jié)點(diǎn)i;W和b為權(quán)重和偏差.

        僅考慮每個(gè)節(jié)點(diǎn)的輸出邊的GCN網(wǎng)絡(luò)為

        經(jīng)過n層GCN后,序列圖的最終輸出是2個(gè)無向GCN的拼接:在雙圖GCN模塊中通過詞匯匹配圖Gl得到特征Hl,與通過序列圖GS得到特征HS拼接,拼接后的Hc表示詞嵌入經(jīng)過雙圖獲取的全局特征:

        2.2.4 特征融合

        特征融合是用于融合來自2個(gè)子模塊的不同特征信息.在雙向LSTM網(wǎng)絡(luò)模塊通過BiLSTM得到上下文特征Hb,再與通過雙圖GCN模塊得到的全局特征Hc直接拼接:

        此時(shí),特征Ht同時(shí)包含序列的上下文深層信息與融合了上下文匹配詞匯的全局信息.最后將編碼輸出Ht輸入到CRF模塊,獲取最優(yōu)標(biāo)簽序列.

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)環(huán)境

        操作系統(tǒng)Ubuntu 18.04,GPU型號NVIDIA V100.采用Python 3.7編程語言進(jìn)行編寫,Pytorch作為深度學(xué)習(xí)框架構(gòu)建與訓(xùn)練神經(jīng)網(wǎng)絡(luò).

        3.2 實(shí)驗(yàn)數(shù)據(jù)與標(biāo)注策略

        為了驗(yàn)證模型的有效性和泛化性,實(shí)驗(yàn)選取了2種不同的領(lǐng)域數(shù)據(jù)集:CoNLL2003數(shù)據(jù)集和MatData數(shù)據(jù)集,分別對模型進(jìn)行評估和實(shí)驗(yàn).

        3.2.1 數(shù)據(jù)集與詞典

        CoNLL2003是經(jīng)典的命名實(shí)體識別任務(wù)數(shù)據(jù)集,主要提供了4種語言的數(shù)據(jù):西班牙語、荷蘭語、英語和德語.本工作僅選用英語數(shù)據(jù),數(shù)據(jù)由1 393篇英語新聞文章組成.在CoNLL2003中,實(shí)體被標(biāo)注為4種類型:人名(PER)、地名(LOC)、組織機(jī)構(gòu)名(ORG)和其他(MISC).

        另外,將Weston等[26]手工標(biāo)注的800篇材料文獻(xiàn)摘要作為材料科學(xué)摘要數(shù)據(jù)集(以下用MatData數(shù)據(jù)集指代).實(shí)體標(biāo)注了7種類型:材料名稱(MAT)、材料應(yīng)用(APL)、對稱/相位標(biāo)簽(SPL)、材料性質(zhì)(PRO)、合成方法(SMT)、樣品描述(DSC)和表征方法(CMT).標(biāo)注實(shí)體的詳細(xì)含義如表1所示.實(shí)體標(biāo)簽的選擇參照了材料科學(xué)四面體:處理加工、結(jié)構(gòu)、特性和性能.800篇摘要數(shù)據(jù)按照8∶1∶1分割為訓(xùn)練集、驗(yàn)證集和測試集.因此,訓(xùn)練集、驗(yàn)證集和測試集中分別有640、80和80篇摘要.

        表1 MatData 7類實(shí)體標(biāo)簽含義Table 1 Meanings of the seven types of entity labels of MatData

        CoNLL2003數(shù)據(jù)集和MatData數(shù)據(jù)集是不同領(lǐng)域的數(shù)據(jù)集,本工作分別結(jié)合搜狗詞庫、PubChem數(shù)據(jù)庫以及Tshitoyan等[27]的材料數(shù)據(jù)制定常用人名、地名、組織機(jī)構(gòu)等名稱的詞典,以及與常用材料相關(guān)的名稱詞典.

        3.2.2 標(biāo)注策略

        為避免不同的標(biāo)注規(guī)則對實(shí)驗(yàn)結(jié)果的影響,2個(gè)數(shù)據(jù)集均使用BIO[28]標(biāo)注格式,這里B表示一個(gè)實(shí)體的起始位置,I表示一個(gè)實(shí)體的中間位置,O表示非實(shí)體.MatData數(shù)據(jù)集的實(shí)體分類及標(biāo)注方法如表2所示.

        表2 MatData數(shù)據(jù)實(shí)體標(biāo)注策略Table 2 MatData entity annotation rules

        3.3 評價(jià)指標(biāo)與參數(shù)設(shè)置

        本實(shí)驗(yàn)選取精確率、召回率和F1值(F1-score)這3個(gè)指標(biāo)作為實(shí)驗(yàn)結(jié)果的評測指標(biāo):

        式中:Precision為精確率;Recall為召回率;F1為精準(zhǔn)率和召回率的調(diào)和平均值;Tp為真陽性數(shù),即正類預(yù)測為正類的實(shí)例個(gè)數(shù);Fp為假陽性數(shù),即負(fù)類預(yù)測為正類的實(shí)例個(gè)數(shù);Fn假陰性數(shù),即正類預(yù)測為負(fù)類的實(shí)例個(gè)數(shù).

        本實(shí)驗(yàn)使用XLNet-Base網(wǎng)絡(luò)預(yù)訓(xùn)練語言模型作為輸入向量表示層.XLNet模型共有12層,隱層維度為768維,多頭注意力中頭數(shù)為12.實(shí)驗(yàn)中設(shè)定句子的最大長度為128,長度不足的句子填充<PAD>標(biāo)簽.此外,命名實(shí)體識別模型使用Adam優(yōu)化算法,根據(jù)數(shù)據(jù)集的驗(yàn)證集優(yōu)化參數(shù).為防止過擬合,在特征融合后設(shè)置dropout為0.5.其余參數(shù)設(shè)置如表3所示.

        表3 XLNet-base網(wǎng)絡(luò)參數(shù)設(shè)置Table 3 Parameter settings of XLNet-base network

        3.4 實(shí)驗(yàn)結(jié)果分析

        3.4.1 XBGCN模型的有效性驗(yàn)證

        本工作在CoNLL2003數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)并與不同的模型進(jìn)行了對比.各模型識別結(jié)果如表4所示.

        表4 不同模型在CoNLL2003數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different models on CoNLL2003 dataset

        表4中,BiLSTM-CNN模型由Chiu等[29]提出,模型主要改進(jìn)在表示層,將通過CNN模型獲取的字符特征拼接詞向量和附加特征輸入到BiLSTM網(wǎng)絡(luò);BiLSTM-CRF+ELMo模型由Peters等[30]提出,ELMo模型將BiLSTM作為預(yù)訓(xùn)練模型結(jié)構(gòu),獲取動(dòng)態(tài)詞向量;BERT模型由Devlin等[6]提出,該模型是預(yù)訓(xùn)練語言模型,通過添加一個(gè)額外輸出層即可將大量文本數(shù)據(jù)上預(yù)先訓(xùn)練好的BERT模型,再根據(jù)相應(yīng)任務(wù)微調(diào),其中BERT base和BERT large是BERT的2個(gè)模型;Stack LSTM模型由Martins等[31]提出,將實(shí)體識別與實(shí)體匹配任務(wù)共同訓(xùn)練;XBGCN則為本工作所提出的模型.

        從表4可以看出,XBGCN模型在CoNLL2003數(shù)據(jù)集上的F1值達(dá)到了92.46%,在6個(gè)模型中僅次于BERT large模型.對比模型1和6可知,相比于使用靜態(tài)詞向量的模型1,使用上下文動(dòng)態(tài)詞向量的XBGCN模型效果更好;對比模型2和6,模型2使用的ELMo詞向量同樣是動(dòng)態(tài)詞向量,其F1值為92.22%,低于模型6,說明全局特征在一定程度上能增強(qiáng)上下文特征,提高準(zhǔn)確率;對比模型3和6,二者的結(jié)果非常接近,而BERT模型是在預(yù)訓(xùn)練語言模型上微調(diào)的結(jié)果,XBGCN模型僅是基于特征的實(shí)體識別,說明模型結(jié)合文本上下文匹配詞匯的圖卷積網(wǎng)絡(luò),特征抽取能力更高.但模型在識別精度上低于BERT large,因?yàn)锽ERT large是更大的預(yù)訓(xùn)練語言模型,有3.4億個(gè)參數(shù),所以模型性能更好.

        XBGCN模型在CoNLL2003測試集上4類實(shí)體的精確率、召回率和F1值如表5所示.表5中,地名(LOC)、組織機(jī)構(gòu)(ORG)和人名(PER)的F1值均在90%以上,識別效果更好.而其他類實(shí)體(MISC)的F1值最低,僅82.07%,這是因?yàn)槠渌麑?shí)體(MISC)在訓(xùn)練集中出現(xiàn)的次數(shù)最少,導(dǎo)致預(yù)測效果不佳.

        表5 XBGCN模型在CoNLL2003數(shù)據(jù)集上4類實(shí)體標(biāo)簽的預(yù)測F1值Table 5 F1-scores for four types of entity labels on CoNLL2003 dataset using XBGCN model %

        CoNLL2003是通用領(lǐng)域公開數(shù)據(jù)集,訓(xùn)練后的NER模型無法有效識別材料領(lǐng)域的實(shí)體.在證明XBGCN模型在CoNLL2003數(shù)據(jù)集的有效性后,對不同模型在材料數(shù)據(jù)上的泛化性進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果如表6所示.表6中,模型1是Weston等[26]在300多萬篇材料科學(xué)文獻(xiàn)上將Word2vec預(yù)訓(xùn)練的詞向量,輸入到BiLSTM-CRF模型的訓(xùn)練結(jié)果;模型2是XLNet提取詞向量輸入到BiLSTM-CRF模型訓(xùn)練,相較于模型3去除了雙圖GCN模塊.對比模型1和2,在相同的編碼層與解碼層的模型結(jié)構(gòu)下,二者僅輸入表示不同,XLNet-BiLSTM-CRF模型的F1值更高,相比僅用Word2vec詞向量的F1值提高了1.48%,進(jìn)一步說明動(dòng)態(tài)詞向量根據(jù)不同上下文可獲取更為準(zhǔn)確的詞向量特征.對比模型2和3,二者在編碼層的結(jié)構(gòu)不同,本模型在精確率、召回率和F1值上均高于模型2(在3個(gè)模型中最高),分別達(dá)到了90.05%、88.67%和89.36%,F1值提高了0.84%,與常用基線模型BiLSTM-CRF相比提升了2.32%.說明全局特征可表示全局信息,豐富了BiLSTM捕獲的上下文特征.MatData數(shù)據(jù)集中的實(shí)體均是材料研究領(lǐng)域的重要概念和技術(shù),XBGCN模型在該數(shù)據(jù)集上取得不錯(cuò)結(jié)果,說明本模型可有效應(yīng)用于材料數(shù)據(jù)實(shí)體識別.

        表6 不同模型在MatData數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 6 Experimental results of different models on MatData %

        3.4.2 消融實(shí)驗(yàn)

        為了研究不同特征對模型的影響,本工作進(jìn)一步對比了去除不同特征的XBGCN模型在CoNLL2003數(shù)據(jù)集的結(jié)果(見表7).表7中,“w/o”表示不含某特征;模型1“w/oGl&GS”表示去除雙圖的全局特征;模型2“w/oGl&LSTM”表示去除詞匯匹配圖和BiLSTM模型;模型3“w/oGS&LSTM”表示去除序列圖和BiLSTM模型;模型4“w/o LSTM”表示去除BiLSTM即去除上下文特征;模型5“w/oGl”表示去除詞匯匹配圖;模型6“w/oGS”表示去除序列圖;模型7為完整模型.

        表7 XBGCN模型在CoNLL2003數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果Table 7 Ablation results of XBGCN model on CoNLL2003 %

        從表7可以看出,當(dāng)該模型去除上下文特征僅保留全局特征時(shí),F1值可達(dá)89.11%,說明基于雙圖GCN結(jié)構(gòu)提取全局特征進(jìn)行實(shí)體識別的結(jié)果較好,證明雙圖GCN結(jié)構(gòu)結(jié)合詞典匹配詞匯信息結(jié)構(gòu)的有效性.在去除全局特征僅保留上下文特征時(shí),F1值為91.45%,而XBGCN模型的F1值為92.46%,相差1.01%,說明去除全局特征的模型識別效果被削弱.模型2(僅使用序列圖)高于模型3(僅使用詞匯匹配圖),F1值高了1.1%,可見二者都融合了詞典信息,但序列圖融合了句子有向性以及匹配詞匯與最近前后文的序列信息,有更好的全局特征抽取力.當(dāng)序列圖與詞匯匹配圖融合時(shí),效果好于單一圖結(jié)構(gòu),雙圖互補(bǔ)增強(qiáng)了實(shí)體識別能力.對比模型5和6中BiLSTM分別與雙圖結(jié)合的結(jié)果可以看出,二者提升效果相近,可見詞匯匹配圖與序列圖對上下文特征均有所提升.最后,融合了所有特征的XBGCN模型的精確率、召回率和F1值均最高,分別達(dá)到了92.08%、92.85%和92.46%,說明將全局特征與上下文特征融合,同時(shí)利用雙圖結(jié)構(gòu)抽取全局特征,可較好地提升實(shí)體識別效果.

        4 總結(jié)與展望

        機(jī)器學(xué)習(xí)方法結(jié)合材料大數(shù)據(jù),可加速新材料的設(shè)計(jì)和研發(fā)進(jìn)程.命名實(shí)體識別是機(jī)器學(xué)習(xí)的關(guān)鍵技術(shù),能從海量的文獻(xiàn)數(shù)據(jù)中快速提取關(guān)鍵數(shù)據(jù),可為材料數(shù)據(jù)庫提供大量的結(jié)構(gòu)化數(shù)據(jù).本工作針對文本中存在一詞多義以及NER模型忽略全局特征的問題,提出了一種結(jié)合上下文詞匯匹配和圖卷積的命名實(shí)體識別模型XBGCN.該模型使用XLNet獲取動(dòng)態(tài)詞向量后,將其輸入到由BiLSTM和雙圖GCN構(gòu)成的編碼層中,以獲取上下文特征和全局特征,最后經(jīng)過CRF輸出標(biāo)簽序列.該模型在CoNLL2003數(shù)據(jù)集上的F1值達(dá)到92.46%,在材料數(shù)據(jù)集MatData上的精確率、召回率和F1值分別達(dá)到了90.05%、88.67%和89.36%,證明其在公開數(shù)據(jù)集和領(lǐng)域數(shù)據(jù)集上都具有較好的泛化性,能對材料數(shù)據(jù)進(jìn)行有效的實(shí)體識別.

        目前,本模型僅采用XLNet模型提取詞向量,未來可將更多的語言模型應(yīng)用于該方法,同時(shí)拓展實(shí)體類型,并抽取實(shí)體間的關(guān)系構(gòu)建知識圖譜,在擴(kuò)充材料數(shù)據(jù)的同時(shí)進(jìn)一步挖掘材料領(lǐng)域文獻(xiàn)中的隱含知識.

        猜你喜歡
        全局實(shí)體向量
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        向量的分解
        量子Navier-Stokes方程弱解的全局存在性
        聚焦“向量與三角”創(chuàng)新題
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        向量垂直在解析幾何中的應(yīng)用
        无码国产精品一区二区免费16| 国产三a级三级日产三级野外| 国产欧美日韩精品丝袜高跟鞋 | 污污污国产免费网站| 最新日本久久中文字幕| 亚洲欧洲av综合色无码| 色欲人妻综合网| 亚洲精品亚洲人成在线下载| 久久精品国产亚洲av成人网 | 亚洲av成人精品日韩在线播放| 最新四色米奇影视777在线看| 亚洲中文字幕无码不卡电影| 亚洲视频一区二区免费看| 韩国三级大全久久网站| 欧美日韩精品一区二区在线视频 | 中文字幕欧美一区| 亚洲av成人一区二区三区不卡| 国语对白免费观看123| 少妇高潮流白浆在线观看| 日本免费不卡一区| 免费av在线视频播放| 国产成人精品无码免费看| a级毛片100部免费看| 国产美女高潮流白浆在线观看| av天堂手机在线看片资源| 中文字幕在线亚洲精品| 99久热re在线精品99 6热视频| 国产日韩午夜视频在线观看| 九九久久精品国产免费av| 无码人妻久久一区二区三区app| 久久精品国产热| 国产亚洲精品免费专线视频| 成人国成人国产suv| 欧美婷婷六月丁香综合色| 亚洲成人av一区二区麻豆蜜桃| 我要看免费久久99片黄色| 久久露脸国产精品| 日韩av二区三区一区| 韩国三级黄色一区二区| 亚洲精品久久久久avwww潮水| 免费成人毛片|