亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向科技情報(bào)分析的知識(shí)庫(kù)構(gòu)建方法

        2022-11-20 13:57:20王紅濱
        關(guān)鍵詞:選擇器分類(lèi)器實(shí)體

        王 勇,江 洋,王紅濱,侯 莎

        1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001

        2.中國(guó)船舶集團(tuán)有限公司 第七一四研究所,北京 100101

        信息時(shí)代的計(jì)算機(jī)技術(shù)迅猛發(fā)展,利用網(wǎng)絡(luò)能獲取大量的信息,這些信息包含方方面面,數(shù)據(jù)量大,結(jié)構(gòu)多變,很難直接進(jìn)行理解和應(yīng)用,如何從這些信息中快速而準(zhǔn)確地分析出有用的信息顯得尤為重要。信息抽取技術(shù)[1]在一定程度上解決了海量數(shù)據(jù)的提取問(wèn)題,但是抽取出來(lái)的信息仍然很難進(jìn)行人為的分析和管理,而知識(shí)庫(kù)(knowledge base)[2-4]作為知識(shí)的集合體,在智能信息處理中起著十分重要的作用。知識(shí)庫(kù)構(gòu)建的核心之一就是針對(duì)大量的信息進(jìn)行實(shí)體抽取和實(shí)體關(guān)系抽取。

        1 相關(guān)工作

        傳統(tǒng)的實(shí)體抽取方法有基于規(guī)則的方法。規(guī)則采用手工編寫(xiě)的方式,將文本與規(guī)則進(jìn)行匹配來(lái)進(jìn)行實(shí)體的識(shí)別。但是這種方式需要大量的語(yǔ)言學(xué)知識(shí)才能構(gòu)建規(guī)則,費(fèi)時(shí)費(fèi)力。其次,有基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。這種方法將實(shí)體抽取視作序列標(biāo)注任務(wù),利用大規(guī)模語(yǔ)料學(xué)習(xí)出標(biāo)注模型,從而對(duì)句子進(jìn)行標(biāo)注。

        隨著硬件技術(shù)的提升和詞的分布式表示的出現(xiàn),神經(jīng)網(wǎng)絡(luò)成為有效解決自然語(yǔ)言處理任務(wù)的模型。實(shí)體抽取大多轉(zhuǎn)化為序列標(biāo)注任務(wù),通俗來(lái)講就是從一段自然語(yǔ)言文本中找出相關(guān)實(shí)體,并且標(biāo)注出其位置和類(lèi)型。Pappu等[5]提出了一個(gè)輕量級(jí)的多語(yǔ)言實(shí)體抽取方式,實(shí)現(xiàn)了高精度的實(shí)體抽取,并且降低了內(nèi)存占用。Bartoli等[6]考慮從非結(jié)構(gòu)化文本中以正則表達(dá)式的形式自動(dòng)生成實(shí)體提取器,提出了一種主動(dòng)學(xué)習(xí)方法,可以最大限度地減少用戶(hù)注釋的工作量。Yadav等[7]基于生物醫(yī)學(xué)語(yǔ)料對(duì)實(shí)體進(jìn)行抽取,利用深度學(xué)習(xí)和粒子群優(yōu)化的概念,提出了一種新穎的用于實(shí)體抽取的特征選擇方法。馮蘊(yùn)天等[8]利用深度信念網(wǎng)絡(luò)對(duì)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行了擴(kuò)展,提出了一種可用于命名實(shí)體識(shí)別的深層架構(gòu)。

        關(guān)系抽取的主要任務(wù)是從文本中對(duì)實(shí)體進(jìn)行識(shí)別并抽取實(shí)體間的語(yǔ)義關(guān)系。主流的關(guān)系抽取技術(shù)有:有監(jiān)督的學(xué)習(xí)方法、半監(jiān)督的學(xué)習(xí)方法和無(wú)監(jiān)督的學(xué)習(xí)方法。與其他兩種方法相比,有監(jiān)督的學(xué)習(xí)方法準(zhǔn)確率和召回率更高,能夠?qū)W習(xí)更有效的特征。有監(jiān)督的學(xué)習(xí)方法將實(shí)體間的關(guān)系抽取視為分類(lèi)任務(wù),根據(jù)訓(xùn)練語(yǔ)料學(xué)習(xí)各分類(lèi)模型,然后使用訓(xùn)練好的模型對(duì)關(guān)系進(jìn)行抽取。

        Dewi等[9]對(duì)關(guān)系抽取中的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進(jìn)行改進(jìn),提出了Deep-CNN模型,擴(kuò)展了CNN的深度。Miwa等[10]提出了在LSTMRNN(long short term memory-recurrent neural network)上堆疊樹(shù)狀結(jié)構(gòu)的LSTM-RNN的端到端的模型,同時(shí)提取實(shí)體與實(shí)體之間的關(guān)系。Xu等[11]提出一個(gè)基于神經(jīng)網(wǎng)絡(luò)的關(guān)系提取器,并將其用于知識(shí)問(wèn)答系統(tǒng)上。Gupta等[12]引入表格填充多任務(wù)回歸神經(jīng)網(wǎng)絡(luò)(table filling multi-task recurrent neural network,TF-MTRNN)模型,將實(shí)體識(shí)別和關(guān)系分類(lèi)任務(wù)簡(jiǎn)化為填表問(wèn)題并模擬它們的依賴(lài)關(guān)系。對(duì)遠(yuǎn)程監(jiān)督容易受到嘈雜標(biāo)簽影響的局限性,遠(yuǎn)程監(jiān)督假設(shè)擁有相同實(shí)體對(duì)的句子都描述同一種關(guān)系,這種方法只能進(jìn)行袋級(jí)分類(lèi),而不能抽取出實(shí)體與句子之間的映射。

        2 基于神經(jīng)網(wǎng)絡(luò)的實(shí)體抽取

        對(duì)中文實(shí)體抽取的研究大多在詞級(jí)別,受近期深度學(xué)習(xí)的啟發(fā),基于字的序列標(biāo)注在不降低性能的情況下簡(jiǎn)化了任務(wù)。但是字的語(yǔ)義信息往往比詞的語(yǔ)義信息薄弱,在保留字信息的同時(shí)又引入了詞的語(yǔ)義信息,即把詞向量作為字的附加特征,這樣可以加強(qiáng)字的語(yǔ)義信息。Encoder-Decoder是深度學(xué)習(xí)中常見(jiàn)的一個(gè)模型框架,應(yīng)用非常廣泛。采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BiLSTM)[13-15]對(duì)文本進(jìn)行編碼,用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTMd)進(jìn)行解碼。為了提高模型的性能,采用了Attention機(jī)制,不要求編碼器將所有輸入信息都編碼成一個(gè)固定長(zhǎng)度的向量之中,只需要將輸入編碼成一個(gè)向量的序列。綜上,提出了CWATTBiLSTM-LSTMd(character word attention-bidirectional long short-term memory-long short-term memory)模型。圖1給出了該模型的基本結(jié)構(gòu)圖。

        由圖1可以看出,CWATT-BiLSTM-LSTMd模型包含一個(gè)BiLSTM層來(lái)對(duì)輸入句子進(jìn)行編碼和一個(gè)加入Attention機(jī)制的LSTMd解碼層。采用BILOU標(biāo)注策略,B即Begin,表示開(kāi)始,I即Inside,代表中間,L即Last,代表結(jié)尾,O即Outside,用于標(biāo)記無(wú)關(guān)字符,U即Unit,代表單元字符。每個(gè)實(shí)體標(biāo)簽代表實(shí)體類(lèi)型和字在實(shí)體中的位置。模型的輸入是一串字的序列,需要對(duì)句子進(jìn)行分詞,通過(guò)嵌入層將每個(gè)字映射為低維稠密的實(shí)數(shù)值向量,并且將其與字所在詞的詞向量拼接起來(lái),將拼接之后的向量作為字的最終嵌入。之后經(jīng)過(guò)一個(gè)BiLSTM層,自動(dòng)提取句子特征,將正向LSTM輸出的隱狀態(tài)序列和反向LSTM輸出的隱狀態(tài)序列通過(guò)激活函數(shù)得到完整的隱狀態(tài)序列。最后通過(guò)加入Attention機(jī)制的LSTMd解碼層來(lái)生成標(biāo)簽序列。下面將詳細(xì)講解如何用這個(gè)模型進(jìn)行實(shí)體抽取。

        2.1 嵌入層

        在自然語(yǔ)言處理中,詞嵌入是一種流行的技術(shù),它將單詞映射到相對(duì)較低維的空間中。用詞嵌入表示連續(xù)低維空間中的詞,可以捕獲詞的語(yǔ)義或者語(yǔ)法屬性:相似的詞具有類(lèi)似的低維向量表示?;谧中蛄泻突谠~序列是實(shí)體抽取的兩種方法,這兩種方法各有優(yōu)劣?;谧值膶?shí)體抽取簡(jiǎn)化了任務(wù),但字的語(yǔ)義信息不如詞的語(yǔ)義信息豐富;基于詞的實(shí)體抽取需要預(yù)先對(duì)句子進(jìn)行分詞處理,比較依賴(lài)分詞的準(zhǔn)確率。同時(shí)引入字向量和詞向量,在保留字信息的同時(shí)又附加了詞的語(yǔ)義信息,將經(jīng)過(guò)分詞后訓(xùn)練得到的詞向量作為字信息的附加特征。模型對(duì)當(dāng)前字序列進(jìn)行標(biāo)注時(shí),詞向量的加入可以告知其附加的語(yǔ)義信息,這樣增強(qiáng)了字序列中字的語(yǔ)義信息,在一定程度上減少了一字多義產(chǎn)生的語(yǔ)義混淆。

        給定一觀測(cè)序列c={c1,c2,…,ct,ct+1,…,cn},序列長(zhǎng)度為n。首先對(duì)觀測(cè)序列進(jìn)行分詞處理,對(duì)于觀測(cè)序列第t個(gè)字ct,將ct所在詞wt作為字ct的特征。定義embct為第t個(gè)字ct的字嵌入,embwt為該字所在詞wt的詞嵌入,然后將首尾拼接得到的向量[embct,embwt]作為最終結(jié)果嵌入xt。

        2.2 BiLSTM編碼層

        嵌入層將獨(dú)熱(one-hot)表示的字轉(zhuǎn)換為嵌入向量。編碼層使用來(lái)自嵌入層的向量用線(xiàn)性序列表示字序列,該層可以表示語(yǔ)義上下文信息。一個(gè)字序列可以表示為X={x1,x2,…,xt,xt+1,…,xn},其中xt∈Rd對(duì)應(yīng)于句子中第t個(gè)字的d維向量嵌入,n是給定句子的長(zhǎng)度。在嵌入層之后緊接著編碼層,編碼層有兩個(gè)平行的LSTM層:前向LSTM層和后向LSTM層。LSTM體系結(jié)構(gòu)由一組循環(huán)連接的子網(wǎng)組成,稱(chēng)為記憶塊,每個(gè)時(shí)間步是一個(gè)LSTM記憶塊。BiLSTM編碼層中的LSTM記憶塊被用來(lái)計(jì)算當(dāng)前隱藏向量ht。

        第t個(gè)字的LSTM記憶塊由一組n維矢量組成:輸入門(mén)it、遺忘門(mén)ft、輸出門(mén)ot、記憶單元ct和隱藏向量ht。LSTM記憶塊接收n維的輸入向量xt、前一時(shí)刻的隱藏向量ht-1和前一時(shí)刻的記憶單元ct-1,然后用以計(jì)算當(dāng)前隱藏向量ht。計(jì)算當(dāng)前隱藏向量ht的詳細(xì)操作如式(1)~(6)所示。

        其中,σ表示sigmoid函數(shù),⊙表示點(diǎn)乘,W是權(quán)值矩陣,b是偏差向量。it、ft和ot分別表示輸入門(mén)、遺忘門(mén)和輸出門(mén),輸入門(mén)和遺忘門(mén)的輸入都是[xt,ht-1,ct-1],輸出門(mén)的輸入是[xt,ht-1,ct],然后要經(jīng)過(guò)一個(gè)激活函數(shù),把值縮放到[0,1]附近,使用tanh作為激活函數(shù)。ct是記憶單元,由t時(shí)刻遺忘門(mén)的輸出、t-1時(shí)刻記憶單元的輸出、t時(shí)刻輸入門(mén)的輸出和經(jīng)過(guò)激活函數(shù)計(jì)算的zt得到。如果遺忘門(mén)ft取值為0,那么前一時(shí)刻的狀態(tài)就會(huì)被全部清空,只關(guān)注此時(shí)刻的輸入。輸入門(mén)it決定是否接受此時(shí)刻的輸入,最后輸出門(mén)ot決定是否輸出單元狀態(tài)。

        對(duì)于每個(gè)字xt,前向LSTM層將通過(guò)考慮從字x1到xt的上下文信息來(lái)編碼xt,其被記為,以類(lèi)似的方式,后向LSTM層將基于從xn到xt的上下文信息來(lái)編碼xt,其被記為,最后,連接和來(lái)作為第t個(gè)字的編碼信息,記為ht=[],并將其傳入下一層。

        2.3 LSTMd解碼層

        在BiLSTM編碼層,d1維隱藏向量ht=[h→t;h←t]表示輸入序列X中第t個(gè)字的編碼輸出。令Mt為包含序列X中每個(gè)字的連接雙向BiLSTM輸出的矩陣。Mt是一個(gè)ln×d2矩陣,其中l(wèi)n是序列X中字的數(shù)目,d2是BiLSTM中連接隱藏向量的維度。令mit表示Mt的第i行,令P是d1×d2維的參數(shù)矩陣,p是長(zhǎng)度為d2的偏差向量。通過(guò)式(7)~(9)計(jì)算Attention上下文向量at。

        計(jì)算得出Attention上下文向量at之后,將其附加到隱藏向量ht以獲得連接向量ut,連接向量ut=[at;ht]。使用LSTM結(jié)構(gòu)來(lái)顯式建模標(biāo)簽交互。當(dāng)生成字xt的標(biāo)簽時(shí),LSTMd解碼層的輸入是:從BiLSTM編碼層并經(jīng)過(guò)Attention機(jī)制獲得的連接向量ut,前一個(gè)預(yù)測(cè)標(biāo)簽矢量Tt-1,前一個(gè)記憶單元c(2)t-1和解碼層中前一個(gè)隱藏向量h(2)t-1。解碼層LSTMd內(nèi)存塊的結(jié)構(gòu)圖如圖2所示。

        LSTMd的內(nèi)存塊也擁有三個(gè)門(mén),分別是輸入門(mén)、遺忘門(mén)和輸出門(mén)。解碼層的詳細(xì)操作如式(10)~(15)所示。

        其中,σ表示sigmoid函數(shù),⊙表示點(diǎn)乘,W是權(quán)值矩陣,b是偏差向量。i(2)t、f(2)t和o(2)t分別表示輸入門(mén)、遺忘門(mén)和輸出門(mén),輸入門(mén)和遺忘門(mén)的輸入都是[ut,h(2)t-1,Tt-1],輸出門(mén)的輸入是[ut,h(2)t-1,c(2)t]。ut表示Attention連接向量,h(2)t-1表示解碼層中前一個(gè)隱藏向量,Tt-1表示前一個(gè)預(yù)測(cè)標(biāo)簽矢量,c(2)t表示當(dāng)前記憶單元。當(dāng)前隱藏向量h(2)t由輸出門(mén)o(2)t和經(jīng)過(guò)tanh激活函數(shù)的記憶單元c(2)t得到。預(yù)測(cè)標(biāo)簽矢量Tt從隱藏向量h(2)t的變換如式(16)所示。

        其中,W是權(quán)值矩陣,b是偏差向量。得到預(yù)測(cè)標(biāo)簽矢量Tt之后,最終經(jīng)過(guò)一個(gè)softmax層來(lái)計(jì)算標(biāo)準(zhǔn)化的實(shí)體標(biāo)簽概率pit,通過(guò)式(17)和式(18)計(jì)算。

        其中,Wy是softmax矩陣,Nt是實(shí)體標(biāo)簽總數(shù)。在解碼過(guò)程中,使用當(dāng)前字的預(yù)測(cè)標(biāo)簽來(lái)預(yù)測(cè)下一個(gè)字的標(biāo)簽,以便將標(biāo)簽依賴(lài)性考慮在內(nèi),比如標(biāo)簽O之后不可能跟標(biāo)簽I-LOC。因?yàn)門(mén)與標(biāo)簽嵌入類(lèi)似,并且LSTM能夠?qū)W習(xí)長(zhǎng)期依賴(lài)性,這種方式可以模擬標(biāo)簽交互。

        3 基于強(qiáng)化深度學(xué)習(xí)的實(shí)體關(guān)系抽取

        關(guān)系抽取也是構(gòu)建知識(shí)庫(kù)的重要環(huán)節(jié),在實(shí)體抽取完成之后需要對(duì)實(shí)體之間的關(guān)系進(jìn)行抽取以構(gòu)建三元組。針對(duì)遠(yuǎn)程監(jiān)督的局限性,提出了RL-TreeLSTM模型,這是一個(gè)采用強(qiáng)化深度學(xué)習(xí)的實(shí)體關(guān)系抽取模型,能夠有效降低數(shù)據(jù)噪聲。RL-TreeLSTM模型不從傳統(tǒng)的袋級(jí)層面考慮問(wèn)題,而從句子層面來(lái)考慮問(wèn)題,它包含一個(gè)選擇器和一個(gè)分類(lèi)器,選擇器通過(guò)強(qiáng)化學(xué)習(xí)的方式選擇高質(zhì)量的句子,并將所選語(yǔ)句輸入到關(guān)系分類(lèi)器中,分類(lèi)器進(jìn)行句級(jí)測(cè)評(píng)并向選擇器回饋獎(jiǎng)勵(lì)(reward)。分類(lèi)器采用TreeLSTM來(lái)實(shí)現(xiàn),通過(guò)句法分析和LSTM結(jié)合的方式來(lái)進(jìn)行實(shí)體關(guān)系的抽取。與傳統(tǒng)的自底向上的TreeLSTM不同,采用雙向的TreeLSTM結(jié)構(gòu),即加入了自頂向下的方向,這種結(jié)構(gòu)不僅傳播來(lái)自葉子的信息,還傳播來(lái)自根的信息。

        將實(shí)體關(guān)系抽取分解成兩個(gè)子問(wèn)題:實(shí)例選擇和關(guān)系分類(lèi)。在選擇器中,每個(gè)句子di都有相應(yīng)的動(dòng)作ai來(lái)指定是否將句子di選作分類(lèi)器的訓(xùn)練實(shí)例。狀態(tài)si由當(dāng)前句子di表示,{d1,d2,…,di-1}是已經(jīng)被選作訓(xùn)練實(shí)例的句子,句子di包含實(shí)體對(duì)e1i和e2i。選擇器根據(jù)隨機(jī)策略對(duì)給定當(dāng)前狀態(tài)的動(dòng)作進(jìn)行采樣。分類(lèi)器選擇TreeLSTM來(lái)確定給定句子中實(shí)體對(duì)的語(yǔ)義關(guān)系。選擇器將訓(xùn)練數(shù)據(jù)提取到分類(lèi)器以訓(xùn)練TreeLSTM網(wǎng)絡(luò),同時(shí),分類(lèi)器向選擇器提供反饋以改進(jìn)策略函數(shù)。在選擇器的幫助下,模型直接過(guò)濾掉有噪聲的句子,分類(lèi)器在過(guò)濾后的數(shù)據(jù)上進(jìn)行句子級(jí)別的訓(xùn)練和測(cè)試。模型的基本結(jié)構(gòu)如圖3所示。

        由圖3可以看出,實(shí)例選擇器根據(jù)策略函數(shù)選擇語(yǔ)句,然后使用這些選擇的語(yǔ)句來(lái)訓(xùn)練關(guān)系分類(lèi)器,之后從分類(lèi)器中計(jì)算出獎(jiǎng)勵(lì),通過(guò)獎(jiǎng)勵(lì)(reward)函數(shù)對(duì)選擇器的參數(shù)進(jìn)行更新。

        3.1 選擇器

        關(guān)于實(shí)例選擇問(wèn)題表述如下:定義D={(d1,r1),(d2,r2),…,(dn,rn)},(di,ri)是<句子,關(guān)系標(biāo)簽>對(duì)。其中,di是擁有實(shí)體對(duì)(e1i,e2i)的句子,ri是由遠(yuǎn)程監(jiān)督產(chǎn)生的有噪關(guān)系標(biāo)簽。選擇器的目標(biāo)是確定哪個(gè)句子真正描述了這種關(guān)系,且應(yīng)該被選作訓(xùn)練實(shí)例。關(guān)于關(guān)系分類(lèi)問(wèn)題表述如下:給定句子di和句子di所提及的實(shí)體對(duì)(e1i,e2i),關(guān)系分類(lèi)的目標(biāo)是預(yù)測(cè)句子di中的語(yǔ)義關(guān)系ri。

        將實(shí)例選擇作為強(qiáng)化學(xué)習(xí)問(wèn)題。選擇器是agent,agent與環(huán)境互相交互,環(huán)境由數(shù)據(jù)和分類(lèi)器組成。選擇器的agent遵循一個(gè)策略,來(lái)決定每個(gè)狀態(tài)(state)的動(dòng)作(action)。狀態(tài)包含當(dāng)前語(yǔ)句、所選句子集合和實(shí)體對(duì)。動(dòng)作是選擇當(dāng)前語(yǔ)句與否,當(dāng)所有的實(shí)例選擇結(jié)束時(shí),從最終狀態(tài)的關(guān)系分類(lèi)器向agent返回一個(gè)獎(jiǎng)勵(lì)(reward)。只有當(dāng)所有訓(xùn)練實(shí)例的選擇都完成時(shí),agent才能從分類(lèi)器獲得延遲獎(jiǎng)勵(lì)。因此,當(dāng)掃描完整個(gè)訓(xùn)練實(shí)例時(shí),只能更新一次策略函數(shù),這顯然很低效。

        為了提高訓(xùn)練過(guò)程的效率,得到更多的反饋信息,將訓(xùn)練句子實(shí)例D={d1,d2,…,dn}分解為N袋B={B1,B2,…,BN},完成一個(gè)袋的語(yǔ)句選擇時(shí)計(jì)算獎(jiǎng)勵(lì)(reward)。每一袋對(duì)應(yīng)著不同的實(shí)體對(duì),每個(gè)袋Bk是具有相同關(guān)系標(biāo)簽rk的句子的序列{d1k,d2k,…,d|k Bk|},但是關(guān)系標(biāo)簽是有噪聲的。根據(jù)策略函數(shù)定義動(dòng)作(action)為是否選擇當(dāng)前語(yǔ)句,一旦一個(gè)袋子完成了選擇就計(jì)算獎(jiǎng)勵(lì)(reward)。當(dāng)實(shí)例選擇器的訓(xùn)練過(guò)程完成時(shí),將每個(gè)袋子中的所有選擇句子合并以獲得清潔的數(shù)據(jù)集X^。然后,清理后的數(shù)據(jù)將用于訓(xùn)練句子級(jí)別的分類(lèi)器。下面從強(qiáng)化學(xué)習(xí)的狀態(tài)(state)、動(dòng)作(action)和獎(jiǎng)勵(lì)(reward)三方面來(lái)介紹其中某個(gè)袋的學(xué)習(xí)過(guò)程。

        (1)狀態(tài)

        當(dāng)對(duì)袋B的第i個(gè)句子進(jìn)行決策時(shí),狀態(tài)si代表當(dāng)前語(yǔ)句、所選句子集合和實(shí)體對(duì)。將狀態(tài)表示為連續(xù)實(shí)值向量F(si)。F(si)編碼了以下信息:

        ①用于關(guān)系分類(lèi)的當(dāng)前句子的向量表示;

        ②所選句子集的表示,它是所有選定句子的向量表示的平均值;

        ③句子中兩個(gè)實(shí)體的向量表示,從預(yù)訓(xùn)練的查找表中獲得。

        (2)動(dòng)作

        定義一個(gè)動(dòng)作ai={0,1},用以指示選擇器是否選擇袋B的第i個(gè)句子,ai取值為1表示選擇這個(gè)句子,ai取值為0表示過(guò)濾掉這個(gè)句子。通過(guò)其策略函數(shù)πΘ(si,ai)來(lái)對(duì)ai的取值進(jìn)行選擇,其中Θ是要學(xué)習(xí)的參數(shù)。在這項(xiàng)實(shí)例選擇的任務(wù)中,定義的策略函數(shù)如式(19)所示。

        其中,F(xiàn)(si)是狀態(tài)特征向量,σ(·)是sigmoid函數(shù),參數(shù)是Θ={W,b}。

        (3)獎(jiǎng)勵(lì)

        獎(jiǎng)勵(lì)函數(shù)是所選句子效用的指標(biāo)。對(duì)于某個(gè)袋B={d1,d2,…,d||B},模型為每個(gè)句子選取一個(gè)動(dòng)作,以確定是否應(yīng)該選擇當(dāng)前句子。假定該模型在完成所有選擇時(shí)具有最終獎(jiǎng)勵(lì),因此只有在最終狀態(tài)時(shí)才會(huì)收到延遲獎(jiǎng)勵(lì),其他狀態(tài)的獎(jiǎng)勵(lì)為0。獎(jiǎng)勵(lì)函數(shù)的定義如式(20)所示。

        其中,^是已選語(yǔ)句的集合,是B的子集,r是袋B的關(guān)系標(biāo)簽。p(r|dj)表示句子dj的關(guān)系分類(lèi)標(biāo)簽為r的概率,取值由分類(lèi)器來(lái)計(jì)算。對(duì)于特殊情況B^=?,即袋B中所有句子中實(shí)體對(duì)的關(guān)系均與袋子的關(guān)系標(biāo)簽不符合,將獎(jiǎng)勵(lì)設(shè)置為訓(xùn)練數(shù)據(jù)中所有句子的平均似然值,這使得實(shí)例選擇器模型能夠有效地排除噪聲包。

        3.2 分類(lèi)器

        在RL-TreeLSTM模型中,實(shí)體關(guān)系的抽取由分類(lèi)器來(lái)實(shí)現(xiàn)。選擇器通過(guò)策略函數(shù)決定是否選擇當(dāng)前句子,之后將選擇的句子傳入分類(lèi)器,在關(guān)系分類(lèi)器中,用依存樹(shù)和LSTM結(jié)合的TreeLSTM模型來(lái)預(yù)測(cè)關(guān)系。TreeLSTM模型用以抽取依存樹(shù)中的一對(duì)目標(biāo)詞之間的關(guān)系,如圖4所示。

        由圖4可知,輸入句子通過(guò)句法分析構(gòu)造成一棵依存樹(shù),每個(gè)樹(shù)節(jié)點(diǎn)是一個(gè)LSTM單元。箭頭表示沿著依存樹(shù)的自底向上和自頂向下的計(jì)算,模型會(huì)得到來(lái)自?xún)蓚€(gè)方向的隱藏向量↑ha、↑hb、↓ha和↓hb。

        該模型主要關(guān)注依存樹(shù)中一對(duì)目標(biāo)詞之間的最短路徑,即兩個(gè)目標(biāo)詞之間擁有最小公共節(jié)點(diǎn)的路徑。采用雙向樹(shù)狀結(jié)構(gòu)的LSTM,通過(guò)捕獲目標(biāo)詞對(duì)周?chē)囊来娼Y(jié)構(gòu)來(lái)表示一個(gè)關(guān)系候選。雙向即自底向上和自頂向下兩個(gè)方向,這種雙向結(jié)構(gòu)不僅傳播來(lái)自葉子的信息,還傳播來(lái)自根的信息。對(duì)于樹(shù)狀結(jié)構(gòu)的LSTM模型而言,在關(guān)系抽取中尤為重要的一點(diǎn)就是利用靠近依存樹(shù)底部的參數(shù)節(jié)點(diǎn)。與標(biāo)準(zhǔn)的自底向上的TreeLSTM模型不同,提出的自頂向下的TreeLSTM將樹(shù)頂部的信息發(fā)送到近葉節(jié)點(diǎn)中。

        實(shí)體關(guān)系抽取解決了原始文本中目標(biāo)實(shí)體對(duì)之間的關(guān)系分類(lèi)問(wèn)題,它也是構(gòu)建復(fù)雜知識(shí)庫(kù)的重要處理步驟。對(duì)于每個(gè)關(guān)系候選者,通過(guò)實(shí)體對(duì)之間的路徑形成依存樹(shù)結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)接收從依存樹(shù)層輸出的關(guān)系候選向量,并且預(yù)測(cè)其關(guān)系標(biāo)簽。當(dāng)檢測(cè)到實(shí)體錯(cuò)誤或者實(shí)體對(duì)沒(méi)有關(guān)系時(shí),將這一實(shí)體對(duì)作為“NA”處理。

        通過(guò)TreeLSTM從兩種序列中提取特征。每個(gè)LSTM單元的輸入是三部分的串聯(lián),輸入wt通過(guò)式(21)計(jì)算。

        其中,ht表示相應(yīng)序列層中的隱藏向量,v(d)t表示依存類(lèi)型的嵌入向量,是對(duì)父項(xiàng)的依存類(lèi)型,v(T)t表示實(shí)體標(biāo)簽嵌入向量。沿著自底向上序列所計(jì)算的最后LSTM單元輸出表示為↑ha和↑hb,沿著自頂向下序列所計(jì)算的最后LSTM單元輸出表示為↓ha和↓hb,目標(biāo)詞的順序?qū)?yīng)著關(guān)系的方向,而不是句子中的位置。

        和實(shí)體抽取的網(wǎng)絡(luò)類(lèi)似,也是用一個(gè)具有n維的隱藏層h(r)和softmax層的兩層神經(jīng)網(wǎng)絡(luò),輸入源的所有矢量被拼接在一起,然后在隱藏層中計(jì)算輸出h(r),softmax層計(jì)算關(guān)系預(yù)測(cè)的概率p(r|d),通過(guò)式(22)和式(23)計(jì)算。

        其中,W表示權(quán)值矩陣,b表示偏差向量。在預(yù)測(cè)時(shí)為每個(gè)實(shí)體對(duì)分配兩個(gè)標(biāo)簽,因?yàn)榭紤]了從上到下和從下到上兩個(gè)方向。當(dāng)預(yù)測(cè)標(biāo)簽不一致時(shí),選擇正面且更可靠的標(biāo)簽。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 數(shù)據(jù)集選取和評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)采用搜狗實(shí)驗(yàn)室搜集的來(lái)自若干新聞網(wǎng)站的科技頻道的新聞數(shù)據(jù)來(lái)驗(yàn)證模型的有效性,數(shù)據(jù)集保存了科技情報(bào)新聞的正文文體,主要是非結(jié)構(gòu)化數(shù)據(jù)文本。實(shí)驗(yàn)以6∶2∶2的比例將其分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用來(lái)建立模型,設(shè)置相應(yīng)的分類(lèi)器參數(shù),訓(xùn)練分類(lèi)模型。當(dāng)利用訓(xùn)練集訓(xùn)練出多個(gè)模型后,為了找出效果最佳的模型,使用各個(gè)模型,利用驗(yàn)證集中的數(shù)據(jù)來(lái)確定網(wǎng)絡(luò)結(jié)構(gòu)和控制模型復(fù)雜程度的參數(shù)。采用準(zhǔn)確率(precision,P)、召回率(recall,R)和F值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),其中F值能夠體現(xiàn)整體測(cè)試效果。

        4.2 參數(shù)設(shè)置

        本文提出的CWATT-BiLSTM-LSTMd模型包含一個(gè)BiLSTM編碼層和一個(gè)引入Attention機(jī)制的解碼層。編碼部分所使用的嵌入向量是通過(guò)運(yùn)行word2vec軟件預(yù)訓(xùn)練得到的。具體的參數(shù)設(shè)置如表1所示。

        表1 實(shí)體抽取參數(shù)設(shè)置表Table 1 Parameter setting of entity extraction

        本文提出的RL-TreeLSTM模型包含一個(gè)選擇器和一個(gè)分類(lèi)器。在聯(lián)合訓(xùn)練模型之前對(duì)選擇器和分類(lèi)器進(jìn)行了預(yù)訓(xùn)練。因?yàn)樾枰鶕?jù)分類(lèi)器的TreeLSTM模型來(lái)計(jì)算反饋獎(jiǎng)勵(lì),所以需要先在整個(gè)訓(xùn)練集上預(yù)訓(xùn)練TreeLSTM模型。然后固定TreeLSTM模型的參數(shù),從固定的TreeLSTM模型得到獎(jiǎng)勵(lì)用以預(yù)訓(xùn)練選擇器中的策略函數(shù)。最后再對(duì)兩個(gè)模型進(jìn)行聯(lián)合訓(xùn)練。參數(shù)的設(shè)置如表2所示。

        表2 實(shí)體關(guān)系抽取參數(shù)設(shè)置表Table 2 Parameter setting of entity relation extraction

        4.3 結(jié)果及分析

        實(shí)驗(yàn)1驗(yàn)證CWATT-BiLSTM-LSTMd(C-B-L)模型的有效性。

        為了驗(yàn)證提出的CWATT-BiLSTM-LSTMd模型的有效性,與CRF模型、BiLSTM模型、BiLSTM+CRF模型和Stanford-NER模型進(jìn)行了對(duì)比。

        Stanford-NER模型是由斯坦福大學(xué)研發(fā)的實(shí)體抽取模型,這個(gè)模型是基于詞向量的實(shí)體抽取模型,不僅可以抽取英文的實(shí)體,還可以對(duì)中文的實(shí)體進(jìn)行抽取。采用的分詞系統(tǒng)是由中科院研發(fā)的NLPIR漢語(yǔ)分詞系統(tǒng)。由于斯坦福大學(xué)也研發(fā)了基于中文的分詞系統(tǒng)Stanford-SEG,使用這兩種分詞系統(tǒng)在Stanford-NER模型上進(jìn)行實(shí)驗(yàn)以對(duì)比分詞對(duì)模型的影響。

        實(shí)驗(yàn)結(jié)果如圖5所示。

        CRF在實(shí)驗(yàn)中取得了79.05%的F值,而B(niǎo)iLSTM在實(shí)驗(yàn)中取得了77.85%的F值。對(duì)出現(xiàn)這種情況的原因進(jìn)行分析:首先,神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)比較復(fù)雜,需要較大規(guī)模的語(yǔ)料對(duì)其進(jìn)行訓(xùn)練,在所用的數(shù)據(jù)集下,BiLSTM的性能受到了約束。當(dāng)數(shù)據(jù)規(guī)模在較小的范圍內(nèi)時(shí),CRF的實(shí)驗(yàn)效果要略?xún)?yōu)于BiLSTM,但是當(dāng)數(shù)據(jù)規(guī)模在較大的范圍內(nèi)時(shí),BiLSTM的效果將會(huì)超過(guò)CRF。其次,CRF在對(duì)文本進(jìn)行序列標(biāo)注時(shí)考慮了標(biāo)簽的依賴(lài)性,而B(niǎo)iLSTM對(duì)序列的標(biāo)注是相互獨(dú)立的。因此此次實(shí)驗(yàn)的CRF模型的F值要略高于BiLSTM模型的F值。

        BiLSTM+CRF模型結(jié)合了BiLSTM模型和CRF模型,在輸出端將softmax與CRF結(jié)合起來(lái),這樣既考慮了長(zhǎng)遠(yuǎn)的上下文信息,又考慮了標(biāo)簽的依賴(lài)問(wèn)題,因此取得了優(yōu)于BiLSTM模型和CRF模型的80.25%的F值。

        Stanford-NER模型在Stanford-SEG分詞系統(tǒng)上取得了61.81%的F值,在NLPIR分詞系統(tǒng)上取得了68.45%的F值,識(shí)別效果相對(duì)較差,是因?yàn)榛谠~序列的實(shí)體抽取更容易丟失有效信息。Stanford-NER模型在兩種分詞系統(tǒng)中都能取得較高的準(zhǔn)確率,但是召回率都偏低,主要因?yàn)閿?shù)據(jù)集是基于科技新聞?wù)Z料的,一些詞出現(xiàn)的頻率低,訓(xùn)練集沒(méi)有訓(xùn)練過(guò)的詞出現(xiàn)在了測(cè)試樣本中,所以往往不能取得理想的效果。從Stanford-NER模型較低的召回率可以看出,分詞模型的準(zhǔn)確率將直接影響實(shí)體抽取的效果。

        本文提出的CWATT-BiLSTM-LSTMd模型取得了89.23%的準(zhǔn)確率,雖然準(zhǔn)確率的提升不明顯,但是召回率卻有大幅度的提升,從而取得了比對(duì)比模型更好的F值。因?yàn)锽iLSTM能學(xué)習(xí)長(zhǎng)期依賴(lài)的問(wèn)題,解碼層LSTMd能模擬標(biāo)簽依賴(lài)的問(wèn)題,為了提升模型的性能,還引入了帶詞向量的字向量來(lái)解決字向量邊界模糊的問(wèn)題,引入Attention機(jī)制對(duì)解碼層進(jìn)行優(yōu)化。

        實(shí)驗(yàn)2驗(yàn)證RL-TreeLSTM模型的性能。

        選擇器過(guò)濾掉有噪聲的句子,選擇有效的句子傳入分類(lèi)器。分類(lèi)器預(yù)測(cè)了每個(gè)句子的關(guān)系標(biāo)簽,而不是每個(gè)袋的關(guān)系標(biāo)簽。它是一個(gè)句子級(jí)別的實(shí)體關(guān)系抽取模型。因?yàn)橐赃h(yuǎn)程監(jiān)督方式獲取的數(shù)據(jù)是嘈雜的,所以隨機(jī)從數(shù)據(jù)集中選取1 000個(gè)句子并手動(dòng)標(biāo)記每個(gè)句子的關(guān)系類(lèi)型來(lái)評(píng)估分類(lèi)器的性能。將提出的RL-TreeLSTM模型與RNN模型、CNN模型和PCNN+ATT模型進(jìn)行了對(duì)比,對(duì)比實(shí)驗(yàn)結(jié)果如圖6所示。

        從圖6中可以看出,CNN模型要優(yōu)于RNN模型。RNN引入了句法分析,但是RNN無(wú)法像LSTM一樣學(xué)習(xí)長(zhǎng)期依賴(lài)問(wèn)題,詞語(yǔ)在句子中的位置越靠后,越對(duì)RNN模型不利。

        PCNN+ATT模型的F值低于CNN模型,它在所使用的數(shù)據(jù)集上并未取得優(yōu)于CNN模型的成果。CNN是一個(gè)句子級(jí)的模型,而PCNN+ATT是袋級(jí)的模型,這說(shuō)明袋級(jí)模型在句子級(jí)的預(yù)測(cè)中表現(xiàn)不佳。

        本文提出的RL-TreeLSTM模型是句子級(jí)別的模型,要優(yōu)于CNN模型,因?yàn)镃NN模型不考慮數(shù)據(jù)的噪聲問(wèn)題,這顯示了采用強(qiáng)化學(xué)習(xí)的實(shí)例選擇的有效性。

        實(shí)驗(yàn)3評(píng)估選擇器的性能。

        為了測(cè)量通過(guò)選擇器所選句子的質(zhì)量,對(duì)所選句子進(jìn)行了關(guān)系分類(lèi)實(shí)驗(yàn)。首先使用選擇器從原始數(shù)據(jù)中選擇高質(zhì)量的句子,之后采用CNN模型和TreeLSTM模型設(shè)置兩種對(duì)比實(shí)驗(yàn)。

        (1)采用原始數(shù)據(jù)對(duì)關(guān)系進(jìn)行分類(lèi),分別命名為CNN(ori)和TreeLSTM(ori);

        (2)使用選擇器對(duì)原始數(shù)據(jù)進(jìn)行選擇,選取高效的句子對(duì)實(shí)體之間的關(guān)系進(jìn)行分類(lèi),分別命名為CNN(sel)和TreeLSTM(sel)。

        實(shí)驗(yàn)結(jié)果如圖7所示。

        從圖7中可以看出,使用相同模型的情況下,采用選擇器的F值要優(yōu)于使用原始數(shù)據(jù)的F值。結(jié)果表明選擇器能有效過(guò)濾有噪聲的句子并準(zhǔn)確提取高質(zhì)量的句子,從而獲取更好的實(shí)體關(guān)系抽取性能。

        5 結(jié)束語(yǔ)

        本文主要面向科技情報(bào)分析對(duì)實(shí)體抽取和實(shí)體關(guān)系抽取的方法進(jìn)行了改進(jìn),針對(duì)實(shí)體抽取提出了一種CWATT-BiLSTM-LSTMd模型。在實(shí)體抽取的基礎(chǔ)上進(jìn)行實(shí)體關(guān)系的抽取,為解決實(shí)體關(guān)系抽取中遠(yuǎn)程監(jiān)督的局限性,提出一種基于強(qiáng)化深度學(xué)習(xí)的RL-TreeLSTM模型。經(jīng)實(shí)驗(yàn)驗(yàn)證,提出的模型取得了比基準(zhǔn)模型更好的F值。在未來(lái)的工作中,在實(shí)體抽取已經(jīng)取得了較好結(jié)果的基礎(chǔ)上,對(duì)關(guān)系抽取研究還有待改進(jìn)。關(guān)系抽取很大程度上依賴(lài)句法分析,然后實(shí)際應(yīng)用中句法分析的結(jié)果可能出錯(cuò),是否可以依據(jù)上層應(yīng)用來(lái)自動(dòng)調(diào)整句法分析的結(jié)果,也就是基于動(dòng)態(tài)變化的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行學(xué)習(xí)。

        猜你喜歡
        選擇器分類(lèi)器實(shí)體
        靶通道選擇器研究與優(yōu)化設(shè)計(jì)
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
        四選一數(shù)據(jù)選擇器74LS153級(jí)聯(lián)方法分析與研究
        電腦與電信(2017年6期)2017-08-08 02:04:22
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
        結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
        雙四選一數(shù)據(jù)選擇器74HC153的級(jí)聯(lián)分析及研究
        穿着白丝啪啪的av网站| 欧美老妇交乱视频在线观看| 无码精品人妻一区二区三区漫画 | 国产精品186在线观看在线播放| 无码人妻丰满熟妇区五十路| 性色做爰片在线观看ww| 亚洲精品你懂的在线观看| 国产真实露脸4p视频| 亚洲综合精品在线观看中文字幕| 白白色福利视频在线观看| 女同恋性吃奶舌吻完整版| 国产精品一区二区黄色| 色妞色视频一区二区三区四区| chinese国产乱在线观看| 日本啪啪一区二区三区| 国产精品成人av一区二区三区| 真实国产精品vr专区| 色一情一乱一伦一区二区三欧美| 99久久国语露脸国产精品| 精品人妻av一区二区三区不卡| 国产亚洲一二三区精品| 女人无遮挡裸交性做爰| 男男性恋免费视频网站| 亚洲综合偷自成人网第页色| 国产视频免费一区二区| 成熟了的熟妇毛茸茸| 亚洲无亚洲人成网站77777| 亚洲人成综合网站在线| WWW拍拍拍| 国产精品一区二区三区av在线| 欧美亚洲日本国产综合在线美利坚| 欧美白人最猛性xxxxx| 成人午夜无人区一区二区| 亚洲av色在线观看网站| av在线免费观看网站免费| 国产乡下三级全黄三级| 国产大学生粉嫩无套流白浆| 久久99精品免费一区二区| 亚洲一区二区三区一区| 无码精品一区二区三区在线| 无码三级在线看中文字幕完整版|