亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向政府公文的關(guān)系抽取方法研究

        2022-01-09 05:19:38崔從敏施運梅李云漢李源華周楚圍
        計算機技術(shù)與發(fā)展 2021年12期
        關(guān)鍵詞:實體膠囊分類

        崔從敏,施運梅,袁 博,李云漢,李源華,周楚圍

        (1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101;2.北京信息科技大學(xué),北京 100101)

        0 引 言

        隨著政務(wù)大數(shù)據(jù)化的快速發(fā)展,公文文本數(shù)據(jù)存在量大、增速快、類型多、處理復(fù)雜的特點,但是目前處理數(shù)據(jù)主要依賴于傳統(tǒng)的人工方式,效率低、準(zhǔn)確率低,具有時延性,為政府辦公帶來許多挑戰(zhàn),消耗了巨大的人力財力,所以如何準(zhǔn)確挖掘出其中的關(guān)鍵信息愈加重要。

        現(xiàn)階段在政府公文領(lǐng)域中應(yīng)用NLP技術(shù),可以將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化為結(jié)構(gòu)化的信息,從而挖掘出文本中潛藏的有價值的內(nèi)容,減輕人工壓力。NLP的一個重要的子任務(wù)就是實體關(guān)系抽取,將非結(jié)構(gòu)的文本語句轉(zhuǎn)換為知識三元組,用簡單的數(shù)據(jù)結(jié)構(gòu)解釋文本中的實體關(guān)系。基于監(jiān)督學(xué)習(xí)的方法雖然可以通過訓(xùn)練數(shù)據(jù)抽取特征,但過程中要達到期望的準(zhǔn)確率和召回率需要大量的人工標(biāo)注數(shù)據(jù)來輔助訓(xùn)練。在現(xiàn)如今數(shù)據(jù)量大、類型多的大背景下,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法因其省去了大量的人工標(biāo)注加上其能夠在不同領(lǐng)域適用的特性,已成為目前研究熱點。

        近年來,深度學(xué)習(xí)方法被廣泛應(yīng)用到實體關(guān)系抽取任務(wù)中,其通過對實體的位置信息進行向量化表示,來提供神經(jīng)網(wǎng)絡(luò)自動提取的文本特征,繼而預(yù)測實體中的關(guān)系類型?;赗NN、CNN、LSTM的方法為其中三種代表方法,但這些神經(jīng)網(wǎng)絡(luò)模型通常在關(guān)系分類中沒有充分考慮標(biāo)記實體及其位置信息,而實際上實體的位置信息在關(guān)系分類中起到非常重要的作用。此外,CNN還需要大量的人工標(biāo)注語料庫進行訓(xùn)練才能達到良好的分類效果。因此,有研究將膠囊網(wǎng)絡(luò)應(yīng)用于實體關(guān)系抽取,其不需要大量標(biāo)注的數(shù)據(jù)集就可以取得不錯的效果。同時隨著對自注意力機制的深入研究,有研究將Transformer架構(gòu)應(yīng)用在關(guān)系抽取任務(wù)上,以及利用語言模型BERT進行關(guān)系抽取的工作,都取得了良好效果。

        針對預(yù)訓(xùn)練語言模型的研究近年來發(fā)展迅猛[1-3],預(yù)訓(xùn)練語言模型能夠捕捉兩個目標(biāo)實體的信息,并且基于上下文信息捕捉文本的語義信息。在數(shù)據(jù)量足夠大的規(guī)模下,預(yù)訓(xùn)練能夠獲取文本的上下文的特征表示,應(yīng)用于下游任務(wù)中,無需大規(guī)模的訓(xùn)練數(shù)據(jù)就能取得更好的效果。

        由于中文與英文存在語言特性差異,且目前公文領(lǐng)域標(biāo)注數(shù)據(jù)集少,所以現(xiàn)有的方法不能很好地解決政府公文領(lǐng)域中的關(guān)系抽取問題。因此,該文提出基于ALBERT預(yù)訓(xùn)練語言模型和膠囊網(wǎng)絡(luò)相結(jié)合的遠(yuǎn)程監(jiān)督關(guān)系抽取方法(Albert_Capnet)。針對政府公文領(lǐng)域中的人事任免信息,通過基于遠(yuǎn)程監(jiān)督的關(guān)系抽取技術(shù),抽取人名和職務(wù)之間的關(guān)系。首先使用ALBERT預(yù)訓(xùn)練模型對文本進行特征表示,獲取文本深層語義信息;然后將其特征向量輸入到膠囊網(wǎng)絡(luò)中傳輸?shù)蛯拥礁邔拥奶卣?,用向量的長度對關(guān)系進行分類,判斷所屬職務(wù)是上任還是卸任;最后使用訓(xùn)練完成的關(guān)系抽取模型對待抽取的文本語料進行抽取。

        主要貢獻在于:(1)提出一種基于ALBERT預(yù)訓(xùn)練語言模型和膠囊網(wǎng)絡(luò)相結(jié)合的關(guān)系抽取方法,適用于小樣本數(shù)據(jù)集,提高了關(guān)系抽取質(zhì)量;(2)將遠(yuǎn)程監(jiān)督關(guān)系抽取技術(shù)應(yīng)用到政府公文領(lǐng)域,構(gòu)建人名-職務(wù)知識庫,并按該方法實現(xiàn)人名職務(wù)關(guān)系的實例抽取的迭代擴充,解決公文領(lǐng)域中標(biāo)記數(shù)據(jù)集少的問題,大大減輕人工標(biāo)注成本。

        1 相關(guān)工作

        關(guān)系抽取作為信息抽取的一項關(guān)鍵技術(shù),在知識庫自動構(gòu)建、問答系統(tǒng)等領(lǐng)域有著極為重要的意義?,F(xiàn)有的關(guān)系抽取方法可以分為4類,分別是有監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取、遠(yuǎn)程監(jiān)督關(guān)系抽取和無監(jiān)督關(guān)系抽取[4]。

        有監(jiān)督實體關(guān)系抽取將關(guān)系抽取任務(wù)視為分類任務(wù),將標(biāo)記好的數(shù)據(jù)作為訓(xùn)練集輸入到分類模型中進行訓(xùn)練,能得到較高的準(zhǔn)確率和召回率,但在構(gòu)造訓(xùn)練集的過程中會耗費大量人工成本。為此,Mintz等人[5]提出基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法,首先構(gòu)建外部知識庫,將待標(biāo)注文本與外部知識庫進行實體對齊,自動標(biāo)注關(guān)系,然后通過分類任務(wù)實現(xiàn)關(guān)系抽取,大大減少了人工標(biāo)注的成本。

        現(xiàn)階段半監(jiān)督和無監(jiān)督的關(guān)系抽取技術(shù)還不發(fā)達,遠(yuǎn)程監(jiān)督關(guān)系抽取方法可以極大地減少人工標(biāo)注成本,并解決因缺乏標(biāo)記中文知識庫導(dǎo)致的問題,因而近年來受到了學(xué)者們的關(guān)注。

        由于遠(yuǎn)程監(jiān)督的強假設(shè),目前主要采取多示例學(xué)習(xí)[6-9]和注意力機制[10-14]來緩解數(shù)據(jù)噪聲問題。PCNN(Piece-Wise-CNN)模型[8]在池化層將兩個實體位置分為三段進行池化,并且將具有相同實體對和關(guān)系標(biāo)注的所有句子看成一個包,將標(biāo)注的關(guān)系作為整個包的標(biāo)簽進行訓(xùn)練,從而能夠更好地捕捉兩個實體間的結(jié)構(gòu)化信息。但是PCNN可能會舍棄多個正確標(biāo)注的句子,造成數(shù)據(jù)浪費,從而導(dǎo)致提取到的特征可能是片面的,這種數(shù)據(jù)處理方式對小數(shù)據(jù)樣本并不友好。隨后清華大學(xué)劉知遠(yuǎn)團隊提出了PCNN+ATT(Piece-Wise-CNN-ATTention)模型[10],其在句子間特征提取上運用了自注意力機制,為包內(nèi)每個句子賦予權(quán)重,可以更全面提取包的信息,是目前常用的中文遠(yuǎn)程監(jiān)督關(guān)系抽取模型。

        1.1 預(yù)訓(xùn)練語言模型

        在NLP任務(wù)中,隨著近年來算力的不斷提升,基于深度學(xué)習(xí)的訓(xùn)練方法成為業(yè)界的主流方法,但是大多依賴于大量標(biāo)注數(shù)據(jù)。預(yù)訓(xùn)練模型通過基于特征集成的方式和基于模型微調(diào)的方式將語言模型學(xué)習(xí)到的文本表示當(dāng)做下游任務(wù)的輸入特征進行應(yīng)用,有效減輕了任務(wù)對于標(biāo)注數(shù)據(jù)的依賴。

        預(yù)訓(xùn)練模型的發(fā)展分為淺層的詞嵌入到深層編碼兩個階段。在淺層詞嵌入階段,研究目標(biāo)主要聚焦在基于特征的方法上,并不注重上下文的語義關(guān)系,其代表方法為NNLM、word2vec等。深層編碼通過一個預(yù)訓(xùn)練編碼器輸出上下文相關(guān)的詞向量,解決一詞多義的問題,如Peter等人提出的ELMo模型及Devlin等人提出的BERT模型,使得模型能夠?qū)W習(xí)到句子與句子間的關(guān)系。

        BERT的問世證明了預(yù)訓(xùn)練語言模型對下游的NLP任務(wù)有很大的提升,可以幫助提高關(guān)系抽取效果。Shi P等人[15]簡單地使用BERT預(yù)訓(xùn)練語言模型方式,將句子輸入到BERT模型中獲取文本的語義表征,再連接一個全連接層作分類,完成關(guān)系抽取任務(wù),通過實驗結(jié)果表明其取得了不錯的效果。Wu等人[16-17]將BERT模型應(yīng)用于關(guān)系抽取任務(wù),使用BERT學(xué)習(xí)到實體的位置信息及語義特征,從而提高模型對實體的表征能力。Livio等人[18]也證明通過BERT提取實體的位置及句子的語義信息能夠提高關(guān)系抽取任務(wù)性能。

        但是由于BERT模型過大,在參數(shù)和梯度的同步上消耗大量訓(xùn)練時間,因此,Lan等人[19]提出ALBERT模型,通過對嵌入層的參數(shù)進行分解、層間參數(shù)共享來大幅減少預(yù)訓(xùn)練模型參數(shù)量,加快BERT的訓(xùn)練速度。此外ALBERT還提出用句子順序預(yù)測任務(wù)代替BERT中的預(yù)測下一個句子任務(wù),使得模型能學(xué)習(xí)到更細(xì)粒度的關(guān)于段落級的一致性的區(qū)別,提高了下游任務(wù)中多句編碼任務(wù)的性能。

        Google在閱讀理解、文本分類等13項NLP任務(wù)中進行了大量對比實驗,結(jié)果表明,有233 M參數(shù)量的ALBERT_xxlarge模型,全面優(yōu)于有1 270 M參數(shù)的BERT_xlarge模型。另外,ALBERT中的albert_tiny模型,其隱藏層僅有4層,模型參數(shù)量約為1.8 M,非常輕便。相對于BERT,ALBERT不僅提升了訓(xùn)練速度、推理預(yù)測速度約10倍,且基本保留了精度。

        1.2 關(guān)系抽取與膠囊網(wǎng)絡(luò)

        關(guān)系抽取任務(wù)可被定義為關(guān)系分類任務(wù),傳統(tǒng)的機器學(xué)習(xí)算法如支持向量機(SVM)、邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)等,僅適用于小規(guī)模的數(shù)據(jù)訓(xùn)練,且隨著數(shù)據(jù)量增大,處理海量數(shù)據(jù)過程會費時費力。

        近年來,將CNN或RNN與注意力機制結(jié)合的方法成為解決關(guān)系分類問題的最新方式,但是CNN或RNN難以提取不同卷積核所獲得的特征之間的關(guān)系。Sabour等人[20]提出基于動態(tài)路由算法的膠囊網(wǎng)絡(luò)模型,彌補了CNN的缺陷,并在MNIST數(shù)據(jù)集上驗證了該模型在圖像分析領(lǐng)域具有很好的效果。

        此后,膠囊網(wǎng)絡(luò)被引入到文本領(lǐng)域解決NLP問題,如文本分類[21]、情感分析[22-23]、機器翻譯[24]等任務(wù)。目前,在分類模型中,膠囊網(wǎng)絡(luò)通常被應(yīng)用到分類模型的最后一層,以取代最大池化層來完成分類任務(wù)。特別是趙等人2018年首次將膠囊網(wǎng)絡(luò)應(yīng)用在文本分類任務(wù)中,提出基于膠囊網(wǎng)絡(luò)的文本分類模型,其性能超過CNN和LSTM,從而證實了膠囊網(wǎng)絡(luò)能夠有效地提升分類任務(wù)的準(zhǔn)確性。Peng等人[25]將膠囊網(wǎng)絡(luò)應(yīng)用到中文實體關(guān)系分類中,提出結(jié)合自注意力機制和膠囊網(wǎng)絡(luò)的實體關(guān)系分類模型,該模型僅需要少量的訓(xùn)練語料,就能有效地捕捉詞位置信息。

        中文關(guān)系抽取依賴于文本分類技術(shù)。膠囊網(wǎng)絡(luò)提供一種基于聚類的思想來代替池化層來完成特征的整合的方案,在分類任務(wù)中,能夠?qū)W習(xí)到文本局部和整體之間的關(guān)聯(lián)信息,克服CNN池化時信息丟失的局限性,從而更好地進行分類、提取文本段落與全文之間關(guān)聯(lián)特征信息,最終達到提高關(guān)系抽取效果的目的。

        2 Albert_Capnet關(guān)系抽取模型

        對政府公文中領(lǐng)導(dǎo)人職務(wù)關(guān)系抽取的框架如圖1所示。通過遠(yuǎn)程監(jiān)督的思想,構(gòu)建關(guān)系示例公文集,將其劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,輸入到Albert_Capnet關(guān)系抽取模型中進行關(guān)系分類訓(xùn)練,最終得到關(guān)系抽取結(jié)果。從而實現(xiàn)將非結(jié)構(gòu)化的人事信息轉(zhuǎn)化為結(jié)構(gòu)化的三元組信息,描述政府公文領(lǐng)域的人名職務(wù)關(guān)系,并進行存儲,具體步驟如下:

        圖1 關(guān)系抽取框架

        (1)構(gòu)建職務(wù)任免示例集。

        職務(wù)任免示例集用于關(guān)系抽取模型的訓(xùn)練,由公文集中存在人事任免關(guān)系的句子和人名職務(wù)三元組共同構(gòu)成。公文集中存放的是來自于政府網(wǎng)站的人事任免信息,公文領(lǐng)域知識庫是通過對公文集進行詞法和句法分析,得到的實體對集合V。實體對(E1,E2)∈V,其中E1為人名,E2為職務(wù)?;谶h(yuǎn)程監(jiān)督的思想,將公文領(lǐng)域知識庫中的實體對和公文集進行實體對齊,為實體對匹配關(guān)系標(biāo)簽,得到人名職務(wù)三元組。

        (2)關(guān)系抽取模型訓(xùn)練與測試。

        將職務(wù)任免示例集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,其中,訓(xùn)練數(shù)據(jù)集用于訓(xùn)練關(guān)系抽取模型,測試數(shù)據(jù)集用于評估模型的準(zhǔn)確率。

        (3)職務(wù)關(guān)系抽取。

        將待抽取公文輸入到Albert_Capnet關(guān)系抽取模型中,對職務(wù)任免關(guān)系進行預(yù)測,得到關(guān)系抽取結(jié)果。

        2.1 Albert_Capnet模型結(jié)構(gòu)

        Albert_Capnet模型用于抽取公文中人名-職務(wù)關(guān)系,模型由四部分組成,分別為輸入層、ALBERT預(yù)訓(xùn)練語言模型層、膠囊網(wǎng)絡(luò)層和輸出層。模型具體結(jié)構(gòu)如圖2所示。

        圖2 Albert_Capnet關(guān)系抽取模型

        (1)輸入層。

        輸入層中接收的數(shù)據(jù)是職務(wù)任免示例集X,輸入文本采用如式(1)所示的形式化方式表示,其中Xi表示職務(wù)任免示例集中的第i個詞。

        X=(X1,X2,…,XN)

        (1)

        (2)ALBERT層。

        該層對句子中的詞進行編碼并提取深層語義特征。ALBERT是以單個漢字作為輸入的,輸出為向量形式E,如式(2)所示,其中Ei表示單個字的向量。

        E=(E1,E2,…,EN)

        (2)

        經(jīng)過多層雙向的Transformer編碼器的訓(xùn)練,最終輸出文本的特征表示T,如式(3)所示,其中Ti表示文本中第i個詞的特征向量。

        T=(T1,T2,…,TN)

        (3)

        (3)膠囊網(wǎng)絡(luò)層。

        本層用于傳輸?shù)蛯拥礁邔拥奈谋咎卣?,實現(xiàn)實體關(guān)系分類。該層的輸入是ALBERT的特征向量輸出。首先構(gòu)建出低級膠囊網(wǎng)絡(luò)層,經(jīng)由動態(tài)路由的方法將低層特征輸入到高層膠囊網(wǎng)絡(luò)層中,最終得到與分類結(jié)果相匹配的輸出膠囊。

        (4)輸出層。

        從膠囊網(wǎng)絡(luò)的輸出向量中選擇長度最大的類別,作為最終模型預(yù)測的關(guān)系分類類別。

        2.2 ALBERT層

        Albert-Capnet關(guān)系抽取模型使用ALBERT預(yù)訓(xùn)練語言模型進行特征提取,采用詞嵌入和位置嵌入的方法,將數(shù)據(jù)之間的關(guān)聯(lián)性融入到數(shù)據(jù)中,使輸入詞學(xué)習(xí)到文本的語義信息和位置信息,解決特征提取中誤差傳播問題,從而達到提高關(guān)系抽取效能的目的。

        ALBERT與BERT相同,使用Transformer的編碼器來提取輸入序列的特征信息,自注意力機制將模型上下層直接全部連接,使詞嵌入具有更豐富的語義信息。ALBERT模型結(jié)構(gòu)如圖3所示。其中Ei表示單個詞或字的向量輸入,Trm即Transformer,Ti表示最終隱藏層的輸出,通過編碼器中的注意力矩陣和注意力加權(quán)后,每個Ti都具有整句話上下文的語義信息。

        圖3 ALBERT層的結(jié)構(gòu)

        為了使ALBERT模型定位到兩個實體間的位置信息,在文本中插入實體定位字符。在每個輸入句子的開頭添加[CLS]字符,在頭實體前后添加[E11]和[E12]字符,尾實體前后添加[E21]和[E22]字符,對位置進行標(biāo)記。將頭實體、尾實體用向量表示,作為實體特征。

        自注意力機制公式如式(4),其中Q、K、V分別代表輸入序列中每個詞的query、key和value向量,dk是K矩陣的維度。

        (4)

        將提取到的全局語義特征和實體特征進行拼接融合,共同作為膠囊網(wǎng)絡(luò)層的輸入。

        2.3 膠囊網(wǎng)絡(luò)層

        膠囊網(wǎng)絡(luò)是基于聚類的思想,利用動態(tài)路由機制實現(xiàn)低層特征與高層特征的融合,提取豐富的文本信息和詞位置信息,在實體關(guān)系分類中起到重要作用。膠囊網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,分為低層膠囊網(wǎng)絡(luò)層、動態(tài)路由層和高層膠囊網(wǎng)絡(luò)層。

        圖4 膠囊網(wǎng)絡(luò)結(jié)構(gòu)

        (5)

        通過對輸入向量加權(quán)并求和得到向量S,S是高層膠囊網(wǎng)絡(luò)的輸入,公式如式(6)所示。

        (6)

        用非線性函數(shù)squash對高層膠囊網(wǎng)絡(luò)輸出的向量S進行壓縮,如公式(7)所示。

        (7)

        低層膠囊網(wǎng)絡(luò)通過動態(tài)路由算法將信息傳輸?shù)礁邔幽z囊網(wǎng)絡(luò)中,將臨時變量bij初始化為0,以公式(8)和公式(9)進行迭代更新,值保存到cij。

        (8)

        (9)

        膠囊網(wǎng)絡(luò)通過傳輸?shù)蛯拥礁邔又g的特征,學(xué)習(xí)到文本局部和整體之間的關(guān)聯(lián)信息,其最終輸出為向量長度,值為類別概率值。

        3 實 驗

        3.1 實驗環(huán)境

        實驗環(huán)境設(shè)置如表1所示。

        表1 實驗環(huán)境配置

        3.2 數(shù)據(jù)集

        實驗數(shù)據(jù)選取從中國政府網(wǎng)站獲取的中央、地方、駐外、其他四類人事信息,構(gòu)成公文集,共4 698篇公文文本。從實驗數(shù)據(jù)中劃分出訓(xùn)練集4 000條,測試集698條。該文利用哈工大的LTP(Language Technology Platform)進行詞法和句法分析,對候選實體進行篩選,最終得到實體897例,包括804例人名和93例職務(wù)。采用遠(yuǎn)程監(jiān)督學(xué)習(xí)的方式為實體對自動標(biāo)注關(guān)系類型,并構(gòu)建人名-職務(wù)知識庫。人名-職務(wù)知識庫格式和部分內(nèi)容如圖5所示。

        圖5 部分人名-職務(wù)知識庫

        3.3 模型中的參數(shù)設(shè)置

        在實驗參數(shù)方面,該文通過多次實驗并對實驗結(jié)果進行驗證,最終選定最優(yōu)的實驗參數(shù)。在預(yù)訓(xùn)練語言模型的選擇中,采用albert_tiny中文預(yù)訓(xùn)練模型。采用Adam優(yōu)化器調(diào)整學(xué)習(xí)率,交叉熵?fù)p失函數(shù)對模型參數(shù)進行調(diào)優(yōu),模型具體的參數(shù)設(shè)置如表2所示。

        表2 實驗參數(shù)設(shè)置

        3.4 實驗結(jié)果與分析

        3.4.1 不同分類器效果比較

        為驗證膠囊網(wǎng)絡(luò)在政府公文領(lǐng)域的分類效果,使用ALBERT提取文本特征,不同的機器學(xué)習(xí)分類器進行對比實驗,包括:邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)和支持向量機(SVM)。

        表3為使用ALBERT提取特征,不同機器學(xué)習(xí)分類器的關(guān)系抽取實驗結(jié)果。

        表3 不同分類器關(guān)系抽取效果 %

        根據(jù)實驗結(jié)果分析,Albert-Capnet關(guān)系抽取模型在政府公文領(lǐng)域數(shù)據(jù)集上的分類效果優(yōu)于Logistic Regression、Naive Bayes和SVM的傳統(tǒng)機器學(xué)習(xí)分類器的分類效果。同時,實驗也證明了膠囊網(wǎng)絡(luò)能提取豐富的文本信息和詞位置信息,在小樣本數(shù)據(jù)集上具有良好的分類效果。

        Naive Bayes假設(shè)文本中的詞是彼此獨立的,詞之間不具有關(guān)聯(lián)性,并且只有訓(xùn)練樣本數(shù)量非常多的情況下才能達到非常準(zhǔn)確的效果,因此不適合做小樣本數(shù)據(jù)集上的文本分類器。Logistic Regression和SVM在分類結(jié)果上取得了很大的優(yōu)勢,而且分類的時間較深度學(xué)習(xí)來說縮短了很多,但是需要人工進行特征構(gòu)造,可擴展性差。Logistic Regression適合處理二分類問題,但是不能解決非線性問題。SVM把高維空間的復(fù)雜性問題轉(zhuǎn)化為求核函數(shù)問題,在小樣本訓(xùn)練集上能夠取得不錯的效果,但是需要大量的存儲空間。

        3.4.2 不同關(guān)系抽取方法的比較

        為對比不同關(guān)系抽取方法的抽取效果,選擇兩種在遠(yuǎn)程監(jiān)督關(guān)系抽取中被廣泛應(yīng)用的模型作為對比實驗?zāi)P停碢CNN和PCNN-ATT。PCNN是常用的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,PCNN-ATT是目前已知遠(yuǎn)程監(jiān)督中文關(guān)系抽取數(shù)據(jù)集上效果最好的模型,也是基準(zhǔn)模型。不同關(guān)系抽取方法結(jié)果對比如表4所示。

        表4 不同關(guān)系抽取方法的對比效果 %

        實驗結(jié)果表明,PCNN提取的文本特征是片面的,在小樣本數(shù)據(jù)集上的效果不好,PCNN-ATT通過提高包中正確標(biāo)注句子的注意力權(quán)重,提高了關(guān)系抽取效果。而Albert_Capnet關(guān)系抽取方法能夠有效提取文本中的深層語義信息和詞位置信息,在準(zhǔn)確率、召回率、F1值上均遠(yuǎn)高于PCNN和PCNN-ATT方法。

        通過以上兩個實驗,表明Albert_Capnet關(guān)系抽取模型在政府公文領(lǐng)域的小樣本數(shù)據(jù)集上具有更好的抽取性能。

        4 結(jié)束語

        通過分析政府公文領(lǐng)域特點,該文提出了基于ALBERT預(yù)訓(xùn)練模型和膠囊網(wǎng)絡(luò)相結(jié)合的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,針對抽取人名-職務(wù)間的職務(wù)關(guān)系,進行分類,大大減少了人工對數(shù)據(jù)標(biāo)記所耗費的時間和精力,解決了公文領(lǐng)域標(biāo)注數(shù)據(jù)集少的問題。ALBERT通過字嵌入和位置嵌入的方式,提取文本中深層的語義信息,解決特征提取中的誤差傳播問題。對比實驗結(jié)果表明,膠囊網(wǎng)絡(luò)在公文領(lǐng)域的小樣本數(shù)據(jù)集上具有良好的分類效果,可以有效提高分類精確度。

        對于政府網(wǎng)站日益增加的政府公文,采用遠(yuǎn)程監(jiān)督的關(guān)系抽取方法可以減少人工標(biāo)注成本,提高關(guān)系抽取效率,進而保證了獲取重要信息的質(zhì)量和實效性。該方法所獲實例可擴充現(xiàn)有公文領(lǐng)域知識庫,輔助政府工作人員在書寫公文時快速獲取人事信息。

        該文聚焦于單一的實體關(guān)系抽取,未來將著眼于能否同步抽取多個實體間的多類關(guān)系等信息。

        猜你喜歡
        實體膠囊分類
        膠囊可以打開吃嗎?
        Shugan Jieyu capsule (舒肝解郁膠囊) improve sleep and emotional disorder in coronavirus disease 2019 convalescence patients: a randomized,double-blind,placebo-controlled trial
        Shumian capsule(舒眠膠囊)improves symptoms of sleep mood disorder in convalescent patients of Corona Virus Disease 2019
        分類算一算
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        国产精品综合女同人妖| 国产精品99久久精品爆乳| 国产精品一区二区资源| 日韩在线中文字幕一区二区三区| 青青草视频在线观看入口| 亚洲国产欧美在线观看| 亚洲精品无码人妻无码| 久久久久久岛国免费网站| 国产精品女丝袜白丝袜美腿| 97久久婷婷五月综合色d啪蜜芽| 国产精品无圣光一区二区| 无码之国产精品网址蜜芽| 蜜桃精品国产一区二区三区 | 亚洲综合国产成人丁香五月激情| 欧洲女人性开放免费网站| 亚洲片一区二区三区| 亚洲男女视频一区二区| 国产一品二品三品精品在线| 西西人体444www大胆无码视频| 国产精品乱一区二区三区| 国产精品美女自在线观看| 国产欧美综合一区二区三区| 国内精品久久久久影院一蜜桃| 久久亚洲高清观看| 偷拍熟女露出喷水在线91| 无人区乱码一区二区三区| 亚洲一区二区三区成人网站| 青青草综合在线观看视频| 亚洲性日韩一区二区三区| 亚洲乳大丰满中文字幕| 97精品伊人久久大香线蕉app| 国产成人综合久久三区北岛玲| 国产三级国产精品国产专区50| 日本中文字幕一区二区高清在线| 久久青草免费视频| 日韩伦理av一区二区三区| 婷婷五月六月激情综合色中文字幕| 亚洲日本va午夜在线电影| 黄 色 成 年 人 网 站免费| 国产传媒精品成人自拍| 日韩毛片无码永久免费看|