亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向LSTM和自注意力機(jī)制的中文關(guān)系抽取研究

        2020-04-01 05:17:48劉鑒張怡張勇
        關(guān)鍵詞:機(jī)制監(jiān)督模型

        劉鑒,張怡,張勇

        (華中師范大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430079)

        0 引言

        隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)規(guī)模不斷增大,信息過載的問題日益嚴(yán)重,因此快速準(zhǔn)確地獲取關(guān)鍵信息有著重大意義。實(shí)體關(guān)系抽取作為文本挖掘和信息抽取[1]的核心任務(wù),其任務(wù)是識別句子中兩個(gè)命名實(shí)體之間的語義關(guān)系。實(shí)體關(guān)系抽取作為自然語言處理(NLP)的一項(xiàng)基本任務(wù),近年來對海量信息處理、中文信息檢索、知識圖譜、自動問答、機(jī)器翻譯和自動文摘等領(lǐng)域提供了技術(shù)支持。根據(jù)論元個(gè)數(shù)不同,關(guān)系一般可以分為二元關(guān)系和多元關(guān)系,目前主要研究為二元關(guān)系,二元關(guān)系是兩個(gè)實(shí)體之間存在某種語義關(guān)系。兩個(gè)實(shí)體加上關(guān)系,則構(gòu)成一個(gè)三元組[2]。

        關(guān)于經(jīng)典的實(shí)體關(guān)系抽取方法主要有四類,分別是有監(jiān)督、半監(jiān)督、弱監(jiān)督和無監(jiān)督。傳統(tǒng)的有監(jiān)督實(shí)體關(guān)系抽取主要分為基于特征和基于核函數(shù)的方法。Zhou[3]和郭喜躍[4]等人利用支持向量機(jī)(SVM)作為分類器分別研究詞匯、句法和語義特征對實(shí)體語義關(guān)系抽取的影響,取得了一定的成果。但有監(jiān)督的方法需要手工標(biāo)注大量的訓(xùn)練數(shù)據(jù),要花費(fèi)大量的時(shí)間和精力。因此人們提出了基于半監(jiān)督[5]、弱監(jiān)督和無監(jiān)督的關(guān)系抽取方法來解決人工標(biāo)注語料問題。其中Brin[6]利用Bootstrapping方法對命名實(shí)體之間的關(guān)系進(jìn)行抽取。在研究從文本中抽取結(jié)構(gòu)化數(shù)據(jù)、建立生物學(xué)知識庫的過程中,Craven等人[7]首次提出了弱監(jiān)督機(jī)器學(xué)習(xí)思想。Hasegawa等人[8]在ACL會議上首次提出了一種無監(jiān)督的命名實(shí)體關(guān)系抽取方法。在這些經(jīng)典的方法中,有監(jiān)督的方法在標(biāo)注語料完善的情況下綜合利用各種特征對關(guān)系分類的模型進(jìn)行改進(jìn),可以獲得較好的效果,但標(biāo)注語料十分耗費(fèi)人力。其他的方法雖然在一定程度上解決了標(biāo)注數(shù)據(jù)的問題,但在效果上仍然不太理想。

        為在較少人工干預(yù)的條件下得到高性能的關(guān)系抽取模型,基于遠(yuǎn)程監(jiān)督[9]的關(guān)系抽取方法開始得到廣泛關(guān)注。該方法假設(shè)“如果兩個(gè)實(shí)體間具有關(guān)系,那么至少有一個(gè)包含該實(shí)體對的句子描述了這個(gè)關(guān)系[10]”,利用現(xiàn)有知識庫中所包含的具有關(guān)系的實(shí)體對,對文本中包含該實(shí)體對的句子進(jìn)行回標(biāo),以自動獲取大量訓(xùn)練實(shí)例,較好地解決了缺少標(biāo)注訓(xùn)練數(shù)據(jù)的問題。然而,由于遠(yuǎn)程監(jiān)督的假設(shè)并不嚴(yán)密,自動構(gòu)建的訓(xùn)練語料中存在大量噪聲數(shù)據(jù),對關(guān)系抽取的效果具有一定的影響。

        近年來,隨著深度學(xué)習(xí)中的注意力機(jī)制快速發(fā)展,對遠(yuǎn)程監(jiān)督數(shù)據(jù)的處理研究工作已經(jīng)被大量提出,并取得顯著的進(jìn)展。Lin[11]等人提出實(shí)例級的注意力機(jī)制,通過對各個(gè)訓(xùn)練實(shí)例的權(quán)重進(jìn)行動態(tài)地調(diào)整來降低噪音,使模型效果得到了顯著提升。Yang[12]等人采用了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)加上詞級和句級注意力機(jī)制,用基于詞的注意力機(jī)制來學(xué)習(xí)模型在各個(gè)詞上的權(quán)重分布,得到更好的面向?qū)嶓w對的上下文表示。用基于句子的注意力機(jī)制來學(xué)習(xí)各實(shí)例上的權(quán)重分布,給有效的實(shí)例更高的權(quán)重,給嘈雜的實(shí)例較低的權(quán)重。在紐約時(shí)報(bào)(NYT)數(shù)據(jù)集上取得了很好的效果。這些深度學(xué)習(xí)模型主要解決兩個(gè)問題:(1)從實(shí)例中學(xué)習(xí)更好的面向?qū)嶓w對的上下文表示;(2)從多個(gè)實(shí)例上選擇更好的實(shí)例。

        在以往的遠(yuǎn)程監(jiān)督任務(wù)研究中,采用的詞級注意力機(jī)制都是簡單的一維向量,一維向量的缺點(diǎn)在于它只關(guān)注一個(gè)句子的某一方面,結(jié)果導(dǎo)致句子的不同語義方面不能被有效利用。

        本文提出一種結(jié)構(gòu)化自注意力機(jī)制和雙向LSTM結(jié)合的模型,在詞級注意力機(jī)制上采用二維矩陣。它包含多個(gè)向量,每個(gè)向量都聚焦于句子的不同方面以便更好地學(xué)習(xí)面向?qū)嶓w對的上下文表示。而由于遠(yuǎn)程監(jiān)督的單個(gè)實(shí)體對的實(shí)例數(shù)量不多,所以在句子級別依然采用傳統(tǒng)的句級注意力機(jī)制。同時(shí)針對中文的特點(diǎn),在詞向量表示階段采用結(jié)合HowNet中的義原訓(xùn)練的詞向量資源。利用遠(yuǎn)程監(jiān)督的方法在在線知識庫,百度百科等資源獲取的中文人物關(guān)系語料庫進(jìn)行實(shí)驗(yàn)。

        目前對遠(yuǎn)程監(jiān)督數(shù)據(jù)的研究大多集中在對數(shù)據(jù)進(jìn)行去噪,主要是學(xué)習(xí)一個(gè)句子的表示向量,然后選擇一個(gè)或多個(gè)有效的實(shí)例進(jìn)行關(guān)系分類。Zeng[13]等人提出了一種分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)方法自動學(xué)習(xí)句子級特征,并選擇一個(gè)有效的實(shí)例進(jìn)行關(guān)系分類。由于單句選擇策略沒有充分利用多個(gè)實(shí)例之間的信息,Lin[11]和Ji[14]等人提出實(shí)例級的注意力機(jī)制,通過對各個(gè)訓(xùn)練實(shí)例的權(quán)重進(jìn)行動態(tài)的調(diào)整來降低噪音,使效果得到顯著提升。然而他們的注意機(jī)制只關(guān)注到句子層面,沒有包含詞匯層面的注意機(jī)制。Zhou[15]提出一種基于Bi-LSTM的詞級注意力機(jī)制模型,在有監(jiān)督的數(shù)據(jù)集上取得了很好的效果,但這個(gè)模型不是針對遠(yuǎn)程監(jiān)督數(shù)據(jù)集。Yang[12]等人采用了雙向RNN加上詞級和句級注意力機(jī)制模型,在NYT數(shù)據(jù)集上取得了很好的效果。但是詞級和句級注意力機(jī)制模型都是一維向量,沒有關(guān)注句子的多個(gè)方面。

        目前關(guān)系抽取技術(shù)主要是針對英文,對中文關(guān)系抽取的研究較少,但依舊有一些進(jìn)展。如Li等[16]提出一種基于特征的中文實(shí)體關(guān)系抽取方法, 選取特征時(shí)不僅考慮實(shí)體的特征,上下文特征和單詞列表特征, 還定義了兩個(gè)實(shí)體之間的位置結(jié)構(gòu)特征,以及基于關(guān)系層次和共同參考信息提出的校正和推理機(jī)制。肜博輝等[17]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取模型。該方法采用不同的詞向量來表示語句, 輸入到模型的不同通道, 使用卷積神經(jīng)網(wǎng)絡(luò)來提取句子的特征信息, 最后通過softmax分類器得到關(guān)系類型。

        本文提出一種基于雙向LSTM和結(jié)構(gòu)化自注意力機(jī)制模型,用于中文文本人物關(guān)系抽取,模型圖如圖1所示。首先對句子進(jìn)行分詞,將結(jié)合義原訓(xùn)練的詞向量輸入到雙向LSTM,提取句子的語義特征,對句子進(jìn)行編碼。然后利用詞級結(jié)構(gòu)化的自注意力機(jī)制,獲得面向?qū)嶓w對的句子表示,再加上句級注意力機(jī)制,對各個(gè)訓(xùn)練實(shí)例的權(quán)重進(jìn)行動態(tài)的調(diào)整。最后通過softmax分類器輸出關(guān)系類型。

        1 模型

        本文提出的Bi_LSTM_SATT模型見圖1,其結(jié)構(gòu)主要是:

        (1)輸入層:將句子輸入到模型;

        (2)向量映射層:將句子的詞語映射成低維向量;

        (3)雙向LSTM 層:通過雙向LSTM獲取句子的語義特征;

        (4)自注意力機(jī)制層:分為結(jié)構(gòu)化詞級注意力機(jī)制和句級注意力機(jī)制;

        (5)輸出層:通過softmax函數(shù)輸出關(guān)系類型。

        1.1 向量映射層

        向量映射層主要是將原始的輸入語句轉(zhuǎn)換為模型需要的向量形式,以便進(jìn)行后面的特征抽取等操作。它主要包括兩個(gè)部分:詞向量表示、位置向量表示。

        1.1.1 詞向量表示

        相對于傳統(tǒng)的one-hot編碼,由Mikolov[18]等人提出的分布式詞向量表示方法經(jīng)過模型訓(xùn)練可以將每個(gè)詞映射成低維的實(shí)數(shù)向量。由于分布式詞向量都包含了豐富的語義信息,在多種自然語言處理任務(wù)中都取得了優(yōu)越的效果。目前大部分任務(wù)都采用分布式詞向量。

        由于大量的中文詞都有多種語義,詞向量表示不夠準(zhǔn)確,而義原是詞義的最小語義單位,每個(gè)詞的意義通常由幾個(gè)義原組成。本文采取Niu等人[19]利用Sogou-T語料庫以及HowNet中詞語包含的義原訓(xùn)練的詞向量。對于一個(gè)包含t個(gè)詞語的輸入句子s={w1,w2,…,wt},每個(gè)詞語wi都被轉(zhuǎn)換為一個(gè)dw維度的實(shí)數(shù)向量x(wi)。

        圖1 Bi_LSTM_SATT模型圖Fig.1 Model diagram

        1.1.2 位置向量表示

        在關(guān)系抽取任務(wù)中,句子中的詞到命名實(shí)體的距離能夠影響關(guān)系抽取的結(jié)果。采用位置特征來指定句子中的詞,即當(dāng)前單詞到實(shí)體一和實(shí)體二的相對距離的組合。舉例來說,句子“蔡加贊父親是香港玩具大王蔡志明,其父親身家過百億,有三個(gè)姐姐,是家中獨(dú)子?!睂?shí)體蔡加贊和實(shí)體蔡志明分別是實(shí)體一和實(shí)體二,詞“父親”到這兩個(gè)實(shí)體的相對距離分別是1和-5。所以詞語wi到兩個(gè)實(shí)體的相對距離會被分別映射轉(zhuǎn)換成dr維度的向量d1,d2。通過組合得到詞的位置向量pwi=[d1,d2]。

        最終我們將詞語表示和位置表示連接起來作為網(wǎng)絡(luò)的輸入ei=(x(wi),pwi)。

        1.2 雙向LSTM層

        LSTM網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的變形,最早是由Hochreiter[20]為了克服梯度消失的問題提出來的,其主要思想是引入一種自適應(yīng)門控機(jī)制,這種門控機(jī)制控制了LSTM單元保留以前狀態(tài)的程度以及記住當(dāng)前數(shù)據(jù)輸入的提取特征。LSTM神經(jīng)網(wǎng)絡(luò)模型有3個(gè)門:輸入門、遺忘門和輸出門。輸入門用于控制保留多少當(dāng)前時(shí)刻的輸入信息到當(dāng)前時(shí)刻的單元狀態(tài),遺忘門用于控制保存多少上一時(shí)刻的單元狀態(tài)到當(dāng)前時(shí)刻的單元狀態(tài);輸出門用于控制當(dāng)前時(shí)刻的單元狀態(tài)有多少輸出。LSTM網(wǎng)絡(luò)前向傳播的公式見式(1-6)。

        g(t)=φ(Wgxx(t)+Wghh(t-1)+bg)

        (1)

        i(t)=σ(Wixx(t)+Wihh(t-1)+bi)

        (2)

        f(t)=σ(Wfxx(t)+Wfhh(t-1)+bf)

        (3)

        o(t)=σ(Woxx(t)+Wohh(t-1)+bo)

        (4)

        s(t)=g(t)·i(t)+s(t-1)·f(t)

        (5)

        h(t)=s(t)·o(t)

        (6)

        對于大量的序列建模任務(wù)來說,同時(shí)訪問過去和未來的上下文對于提高模型的準(zhǔn)確率都是有益的。然而,標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)按時(shí)間順序處理序列,忽略了未來的上下文。雙向LSTM網(wǎng)絡(luò)通過引入第二層LSTM,對單向LSTM網(wǎng)絡(luò)進(jìn)行擴(kuò)展,其中一個(gè)采取正向?qū)W習(xí),另外一個(gè)采取反向?qū)W習(xí)的方式,最后將正向和反向的輸出向量連接起來。因此,雙向LSTM能夠充分利用過去和未來的信息。

        將句子向量輸入到雙向LSTM網(wǎng)絡(luò)后,輸出如式7。

        (7)

        1.3 注意力機(jī)制

        最近幾年,注意力機(jī)制在深度學(xué)習(xí)的各個(gè)領(lǐng)域取得了成功,無論是圖像處理、語音識別、還是自然語言處理的各種任務(wù)。從本質(zhì)上講,深度學(xué)習(xí)中的注意力機(jī)制和人類的選擇性注意力類似,都是從繁多的信息中選擇出對當(dāng)前任務(wù)目標(biāo)更重要的信息。各種實(shí)驗(yàn)證明,加入了注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率有了明顯提升。因此在本文中我們將采用注意力機(jī)制。

        設(shè)由雙向LSTM網(wǎng)絡(luò)產(chǎn)生的輸出向量H組成矩陣[h1,h2,h3,…,hT],其中T是句子的長度,每個(gè)單向LSTM的大小為u,那么H的大小為2u。

        基于詞級的自注意力機(jī)制的句子表示由公式(8-9)得到。

        M=tanh(ws1H)

        (8)

        α=softmax(ws2M)

        (9)

        其中ws1權(quán)重矩陣的大小為da×2u,da是注意力網(wǎng)絡(luò)中神經(jīng)元的數(shù)量。ws2的權(quán)重矩陣大小為r×da,r表示二維注意力矩陣中向量多少的超參數(shù),r的大小是根據(jù)需要關(guān)注句子多少的不同方面來定義的??紤]到句子的長度較長,我們這里將其設(shè)置為9。

        將不同詞的權(quán)重和Bi_LSTM的隱狀態(tài)H相乘,如公式10所示。

        f=αHT

        (10)

        將f的每一行連接起來形成一個(gè)扁平的結(jié)構(gòu)化句子表示向量fFT。

        最后基于詞級別的結(jié)構(gòu)化注意力機(jī)制的句子表示如公式11所示:

        X=ReLU(wofFT+bo)

        (11)

        在基于詞的結(jié)構(gòu)化注意力機(jī)制的句子表示上加入基于句子級別的注意力機(jī)制如公式12所示:

        (12)

        其中βi是句子級的注意力機(jī)制的權(quán)重。

        1.4 輸出層

        (13)

        y=argmaxp(Y/S)

        (14)

        損失函數(shù)采用交叉熵來計(jì)算模型輸出結(jié)果分布和真實(shí)結(jié)果分布的差距,如公式15所示:

        (15)

        其中λ是L2正則化參數(shù),ti是用one-hot表示的真實(shí)標(biāo)簽,yi是通過softmax函數(shù)得到的每個(gè)類別的概率。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)收集

        由于公開的中文關(guān)系抽取語料庫的缺乏,目前還沒有較為通用且權(quán)威的中文遠(yuǎn)程監(jiān)督關(guān)系抽取數(shù)據(jù)集,本文基于在線知識庫復(fù)旦知識工廠確定實(shí)體對,借助百度百科,互動百科等資源,獲得包含實(shí)體對的句子。將其經(jīng)過整理,構(gòu)建了人物關(guān)系語料,并將該語料作為實(shí)驗(yàn)數(shù)據(jù),其中共包含12類關(guān)系,8 492個(gè)人物的關(guān)系。實(shí)驗(yàn)隨機(jī)選取了人物關(guān)系語料中的16 000個(gè)實(shí)例作為訓(xùn)練集,2 400個(gè)實(shí)例作為驗(yàn)證集,1 200個(gè)實(shí)例作為測試集。關(guān)系類別如下表1所示。

        表1 人物關(guān)系類別

        2.2 結(jié)果分析

        為了驗(yàn)證加入結(jié)構(gòu)化自注意力機(jī)制的雙向LSTM網(wǎng)絡(luò)模型在中文關(guān)系抽取上的效果,本文設(shè)置了4組實(shí)驗(yàn):CNN_ATT,Bi_LSTM,Bi_LSTM_ATT,Bi_LSTM_SATT,分別是結(jié)合注意力機(jī)制的CNN模型,傳統(tǒng)的雙向LSTM模型,結(jié)合了注意力機(jī)制的雙向LSTM模型以及本文提出的結(jié)合了結(jié)構(gòu)化自注意力機(jī)制的LSTM模型,同時(shí)將F1值作為各個(gè)模型效果的評價(jià)標(biāo)準(zhǔn)。通過這幾種模型效果的對比,來驗(yàn)證本文提出模型的有效性。

        我們將各個(gè)模型在測試集上的準(zhǔn)確性,召回率和F1值匯總到表2,將實(shí)驗(yàn)的具體參數(shù)匯總到表3中。

        表2 實(shí)驗(yàn)的結(jié)果

        表3 實(shí)驗(yàn)的參數(shù)

        從實(shí)驗(yàn)結(jié)果看,由于注意力機(jī)制能夠使模型關(guān)注到句子更重要的部分,加上注意力機(jī)制的CNN模型比沒加上注意力機(jī)制的雙向LSTM模型效果要好。但是由于LSTM在處理序列數(shù)據(jù)上的天然優(yōu)勢,加上了注意力機(jī)制的雙向LSTM效果比加上注意力機(jī)制的CNN模型要好。而加上結(jié)構(gòu)化注意力機(jī)制的雙向LSTM由于關(guān)注了句子更多方面,效果優(yōu)于以上這些深度學(xué)習(xí)模型。

        3 結(jié)論

        本文提出了一種結(jié)構(gòu)化注意力機(jī)制和雙向LSTM網(wǎng)絡(luò)用于中文人物關(guān)系抽取,實(shí)驗(yàn)結(jié)果表明由于關(guān)注了詞和句子的更多方面,結(jié)構(gòu)化的注意力機(jī)制相對于一般注意力機(jī)制的網(wǎng)絡(luò)模型效果有了明顯提升。

        猜你喜歡
        機(jī)制監(jiān)督模型
        一半模型
        重要模型『一線三等角』
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        3D打印中的模型分割與打包
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        国产精品日本一区二区三区在线| 国产精品-区区久久久狼| 亚洲AⅤ无码片一区二区三区| 在线免费观看国产视频不卡| 熟女人妻在线中文字幕| 亚洲日韩欧美一区、二区| 欧美亚洲精品一区二区| 国产亚洲精品综合在线网址| 国内偷拍精品一区二区| 国产国语亲子伦亲子| 日本高清aⅴ毛片免费| 中文字幕精品一区二区2021年| 亚洲经典三级| 红杏性无码免费专区| 国产精品女主播在线播放| 国产精久久一区二区三区| 欧美老妇与禽交| 中文字幕一区二区三区在线不卡 | 99久久精品在线视频| 亚洲国色天香卡2卡3卡4| 国产亚洲欧美在线观看的| 精品少妇白浆一二三区| 丰满女人猛烈进入视频免费网站 | 久久伊人影院| 日韩av他人妻中文字幕| 性人久久久久| 国产在线精品一区二区| 99视频这里有精品| 青草青草久热精品视频国产4| av在线不卡免费中文网| 性无码专区无码| 一国产区在线观看| 美女被搞在线观看一区二区三区| 小池里奈第一部av在线观看| 免费观看18禁无遮挡真人网站| 亚洲国产成人精品无码区在线观看 | 欧美日韩一区二区三区在线观看视频| 亚洲av成人一区二区三区在线观看| 日本最新一区二区三区免费看| 亚洲国产91高清在线| 久久久久亚洲av片无码|