亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本化簡(jiǎn)的實(shí)體屬性抽取方法

        2020-11-10 07:10:30王朝坤王沐賢
        關(guān)鍵詞:元組解碼器化簡(jiǎn)

        吳 呈,王朝坤,王沐賢

        1.清華大學(xué) 軟件學(xué)院,北京 100084

        2.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,哈爾濱 150001

        1 引言

        隨著信息技術(shù)的發(fā)展,電子數(shù)據(jù)日益增多。為了更好地組織和維護(hù)信息,Google 在2012 年提出知識(shí)圖譜的概念。知識(shí)圖譜是知識(shí)庫(kù)的一種組織形式,具有很強(qiáng)的數(shù)據(jù)描述能力,尤其是在描述現(xiàn)實(shí)世界中的實(shí)體及實(shí)體間的關(guān)系上。

        基于非結(jié)構(gòu)化文本構(gòu)建知識(shí)圖譜,需要從文本中抽取實(shí)體、實(shí)體屬性以及實(shí)體關(guān)系。目前,實(shí)體[1-2]和實(shí)體關(guān)系[3-6]抽取的研究工作已有很多,但實(shí)體屬性抽取則相對(duì)較少。雖然一些實(shí)體屬性可以以實(shí)體關(guān)系的形式體現(xiàn)(如出生地屬性可以表示為人物實(shí)體和地點(diǎn)實(shí)體間的關(guān)系),然而很多屬性是對(duì)實(shí)體的直接描述,不宜將對(duì)應(yīng)的屬性值視為實(shí)體(如人物的職位屬性和年齡屬性),因此需要專門研究針對(duì)實(shí)體屬性的抽取方法。

        開放信息抽取[7]旨在基于文本的語(yǔ)法和語(yǔ)義信息,根據(jù)一定規(guī)則從開放領(lǐng)域文本中抽取關(guān)系三元組。本文嘗試采用類似想法進(jìn)行實(shí)體屬性抽取。不同之處在于,在抽取屬性時(shí),不僅關(guān)注文本中的動(dòng)詞,還考慮與實(shí)體相關(guān)的形容詞,這使得屬性的抽取規(guī)則更復(fù)雜。而且由于文本中長(zhǎng)難句的存在和文本表述的多樣性,適用于某一場(chǎng)景的規(guī)則可能在另一種場(chǎng)景下并不適用。為了解決這個(gè)問(wèn)題,本文引入文本化簡(jiǎn)作為實(shí)體屬性抽取的預(yù)處理過(guò)程:對(duì)于待抽取信息的文本,先使用一個(gè)針對(duì)文本化簡(jiǎn)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)將其轉(zhuǎn)化為一系列的簡(jiǎn)單句,再用簡(jiǎn)潔的規(guī)則從簡(jiǎn)單句中抽取實(shí)體的屬性信息。

        本文的主要貢獻(xiàn)包括:

        (1)針對(duì)實(shí)體屬性抽取問(wèn)題提出先化簡(jiǎn)后抽取的策略,并設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)新的基于遞歸神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器文本化簡(jiǎn)模型。模型采用常用詞匯表、詞性標(biāo)注和化簡(jiǎn)評(píng)分函數(shù)的優(yōu)化策略。

        (2)針對(duì)化簡(jiǎn)后的文本設(shè)計(jì)了信息元組抽取算法和實(shí)體屬性抽取算法。這兩個(gè)算法以簡(jiǎn)潔的規(guī)則從文本中抽取信息。

        (3)設(shè)計(jì)實(shí)驗(yàn)對(duì)所提文本化簡(jiǎn)方法和信息抽取方法進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明先化簡(jiǎn)再抽取的流程能夠有效提升實(shí)體屬性的抽取效果。

        2 相關(guān)工作

        2.1 開放信息抽取

        開放信息抽?。∣pen Information Extraction,Open IE)是一種面向開放領(lǐng)域的信息抽取方式。與傳統(tǒng)信息抽取方法不同,Open IE 無(wú)需預(yù)先指定詞典,僅利用文本的語(yǔ)法和語(yǔ)義信息,即可從不同領(lǐng)域的大量語(yǔ)料中抽取關(guān)系三元組[7]。

        經(jīng)典的Open IE系統(tǒng)大多是圍繞英文設(shè)計(jì)的,包括TextRunner[8]、WOE[9]、Reverb[10]、DepIE[11]、OLLIE[12]、ClauseIE[13]等。因?yàn)橹杏⑽恼Z(yǔ)言模型存在差異,所以上述系統(tǒng)均無(wú)法直接用于中文信息抽取。

        目前存在少量專門針對(duì)中文的Open IE 系統(tǒng)[14-15],然而這些系統(tǒng)所用方法適用范圍有限,在長(zhǎng)難句和復(fù)雜句上的效果并不理想。

        2.2 文本化簡(jiǎn)

        文本化簡(jiǎn)(Text Simplification,TS)旨在通過(guò)長(zhǎng)句拆分、句法刪簡(jiǎn)和釋義轉(zhuǎn)換等方法對(duì)復(fù)雜難懂的文本進(jìn)行化簡(jiǎn)。現(xiàn)有主流方法將TS建模為從復(fù)雜句到簡(jiǎn)單句的單語(yǔ)言翻譯過(guò)程,并借用機(jī)器翻譯技術(shù)加以實(shí)現(xiàn)[16-17]。然而,由于缺乏中文TS數(shù)據(jù)集,尚未見這類方法用于中文文本化簡(jiǎn)的報(bào)道。

        目前已有個(gè)別針對(duì)中文文本拆分的研究工作,包括基于逗號(hào)的中文句子分割[18]和文言文斷句[19]。然而,還遠(yuǎn)遠(yuǎn)不能滿足中文文本化簡(jiǎn)的需求。

        2.3 序列到序列神經(jīng)網(wǎng)絡(luò)

        序列到序列(sequence to sequence,seq2seq)神經(jīng)網(wǎng)絡(luò)模型用于將一種序列轉(zhuǎn)化為另一種序列。最經(jīng)典的seq2seq模型采用基于兩個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的編碼器-解碼器架構(gòu)[20]。為了克服RNN網(wǎng)絡(luò)無(wú)法并行訓(xùn)練的缺點(diǎn),文獻(xiàn)[21]和[22]分別提出基于CNN和注意力機(jī)制的編碼器-解碼器模型。相關(guān)實(shí)驗(yàn)結(jié)果表明這兩個(gè)模型在機(jī)器翻譯上的訓(xùn)練開銷及效果均優(yōu)于RNN網(wǎng)絡(luò)。

        3 基本定義和處理流程

        3.1 基本定義

        定義1(信息元組)信息元組為一個(gè)三元組,形如“(s,v,o)”。其中s為主語(yǔ)項(xiàng),表示信息描述的主體;v為謂語(yǔ)項(xiàng),表示主體的動(dòng)作或狀態(tài);o為賓語(yǔ)項(xiàng),表示主體動(dòng)作的作用對(duì)象。

        信息元組分為合規(guī)和噪聲兩種。合規(guī)的元組需滿足以下條件:

        (1)元組的主語(yǔ)項(xiàng)和謂語(yǔ)項(xiàng)不能為空。

        (2)元組的每一項(xiàng)(若存在)需是短語(yǔ),不能為句子。

        (3)元組每一項(xiàng)(若存在)的描述必須明確,不能含有指示代詞,也不能缺乏限定詞。

        不滿足合規(guī)元組條件的信息元組即為噪聲元組。

        合規(guī)元組舉例:“(秋田美術(shù)館,位于,日本秋田縣)”“(門德里西奧建筑師學(xué)院,于1996年在瑞士成立,)”。

        噪聲元組舉例:①“(首都,是,羅馬)”不合規(guī),因?yàn)橹髡Z(yǔ)項(xiàng)不明確,缺乏限定詞;②“(,威廉·安德斯于1963年被選中,)”不合規(guī),其主語(yǔ)項(xiàng)為空,且謂語(yǔ)項(xiàng)不為短語(yǔ)。

        定義2(實(shí)體屬性)實(shí)體E的屬性記為A(E)=(As(E),Ad(E))。其中,As(E)為E的表征屬性集合,即實(shí)體特征描述詞的集合;Ad(E) 為E的鍵值屬性集合。鍵值屬性形如“k→V”,k表示屬性的類別,V為一個(gè)集合,表示實(shí)體在類別k下的屬性值集合。

        如信息元組主語(yǔ)“小學(xué)教師張三”中的“小學(xué)教師”即為“張三”的表征屬性。信息元組“(張三,1980年出生于,北京)”中,關(guān)于實(shí)體“張三”可以抽出“出生于”→“{1998年”,“北京”}的鍵值屬性。再如信息元組“(張三的國(guó)籍,是,中國(guó))”中,可以抽出“張三”的鍵值屬性:“國(guó)籍”→ “{中國(guó)”}。

        3.2 處理流程

        基于文本化簡(jiǎn)的實(shí)體和實(shí)體屬性抽取的處理流程如圖1所示。對(duì)于一段輸入的文本,先進(jìn)行文本化簡(jiǎn)轉(zhuǎn)化為一系列的簡(jiǎn)單句,再進(jìn)行信息元組抽取和實(shí)體及實(shí)體屬性抽取,得到一系列的實(shí)體及對(duì)應(yīng)的表征屬性集合與鍵值屬性集合。

        圖1 處理流程

        在圖1中,文本化簡(jiǎn)和信息抽取是決定實(shí)體及屬性抽取效果的關(guān)鍵模塊。下面兩章分別闡述針對(duì)文本化簡(jiǎn)模塊和信息抽取模塊的具體設(shè)計(jì)。

        4 文本化簡(jiǎn)

        本文將文本化簡(jiǎn)視為一個(gè)序列到序列的轉(zhuǎn)換過(guò)程,并使用一個(gè)基于RNN 的編碼器-解碼器模型來(lái)實(shí)現(xiàn)。此外,針對(duì)文本化簡(jiǎn)任務(wù)的特點(diǎn),本文嘗試對(duì)該模型進(jìn)行不同層面的改進(jìn)。

        4.1 基本模型

        基于RNN編碼器-解碼器(seq2seq-RNN)模型[20],本文給出的文本化簡(jiǎn)基本模型如圖2所示(相關(guān)符號(hào)說(shuō)明見表1)。該模型主要包括編碼器、解碼器和預(yù)測(cè)器三個(gè)部分。

        圖2 基本模型

        表1 圖2相關(guān)符號(hào)說(shuō)明

        (1)編碼器。編碼器對(duì)輸入的詞序列{x1,x2,…,xn}進(jìn)行編碼。首先,構(gòu)造詞匯表對(duì)訓(xùn)練集和測(cè)試集中的詞進(jìn)行編號(hào)。為了限制詞匯表的規(guī)模,出現(xiàn)的詞按詞頻降序排序后保留前Nv個(gè),余下的統(tǒng)一編為特定序號(hào),表示未知詞。每個(gè)詞有對(duì)應(yīng)的序號(hào)后,通過(guò)Embedding 層(詞向量矩陣)獲取對(duì)應(yīng)的詞向量。然后,將詞序列對(duì)應(yīng)的詞向量序列依次輸給遞歸神經(jīng)網(wǎng)絡(luò)(雙層LSTM 網(wǎng)絡(luò)),獲取對(duì)應(yīng)的輸出和隱藏狀態(tài)。

        (2)解碼器。解碼器由LSTM網(wǎng)絡(luò)和注意力機(jī)制層組成。解碼器中的LSTM 網(wǎng)絡(luò)與編碼器中的基本類似。不同的是,解碼器中LSTM網(wǎng)絡(luò)的第k步輸入為當(dāng)前目標(biāo)詞的詞向量與解碼器第k-1 步輸出,連接后的向量(k為1 時(shí)與編碼器的輸出連接)。注意力機(jī)制層使用的是全局注意力機(jī)制[23]。

        (3)預(yù)測(cè)器。預(yù)測(cè)器包括全連接層和LogSoftmax層。對(duì)解碼器的每一步輸出,預(yù)測(cè)器輸出詞匯表中每個(gè)詞作為輸出序列下一個(gè)詞的對(duì)數(shù)概率。

        訓(xùn)練時(shí),輸入序列經(jīng)編碼器編碼后,由解碼器進(jìn)行解碼,再通過(guò)預(yù)測(cè)器計(jì)算對(duì)數(shù)概率,根據(jù)其與目標(biāo)序列的 NLL Loss(Negative Log Likelihood Loss[24])值,對(duì)模型進(jìn)行反饋調(diào)節(jié)。

        化簡(jiǎn)時(shí),輸入序列由編碼器編碼后(h3),與句子起始符號(hào)()一同傳給解碼器解碼,解碼結(jié)果輸給預(yù)測(cè)器得到第一個(gè)輸出詞(t1);而后t1與解碼器當(dāng)前隱藏狀態(tài)(h1′)一起輸?shù)浇獯a器,再由預(yù)測(cè)器預(yù)測(cè)下一個(gè)輸出詞(t2);如此遞歸直到預(yù)測(cè)出句子結(jié)束符號(hào)(),結(jié)束化簡(jiǎn)過(guò)程。為了得到更好的化簡(jiǎn)序列,采用集束搜索(BeamSearch[20])策略進(jìn)行序列預(yù)測(cè)。

        此外,由于限定了詞匯量的大小,一些詞語(yǔ)會(huì)被識(shí)別為未知詞(unk)。于是,用輸出unk 時(shí)注意力最大的輸入詞替換unk,得到最后的輸出詞序列。

        為使seq2seq-RNN 進(jìn)一步捕獲文本化簡(jiǎn)中的句法轉(zhuǎn)換,第4.2、4.3、4.4 節(jié)分別引入常用詞匯表、詞性標(biāo)注和化簡(jiǎn)評(píng)分函數(shù)。

        4.2 預(yù)訓(xùn)練詞向量和常用詞匯表

        預(yù)訓(xùn)練詞向量能夠有效提升模型的學(xué)習(xí)效果,因此本文在基本模型的基礎(chǔ)上引入詞向量模型。

        為緩解特殊詞過(guò)擬合的現(xiàn)象,本文考慮從給定語(yǔ)料中抽取前N個(gè)詞形成常用詞匯表,并用于不同數(shù)據(jù)集的文本化簡(jiǎn)。該語(yǔ)料包含100 萬(wàn)個(gè)句子,詞匯量為932 597。對(duì)該語(yǔ)料中的詞按詞頻降序排序,得到的不同詞匯表規(guī)模及在中文WikiEdit 數(shù)據(jù)集(詳見6.1.1 節(jié))的覆蓋率如表2所示。其中,選擇前50 000個(gè)詞時(shí)即可達(dá)到90%以上的覆蓋率。于是,本文選這50 000個(gè)詞作為常用詞匯表。

        表2 常用詞匯表的覆蓋率

        使用常用詞匯表后,特殊詞均被映射為unk。因此,seq2seq-RNN主要學(xué)習(xí)常用詞間的映射關(guān)系,緩解了特殊詞過(guò)擬合的情況。然而序列中的unk詞也因此增加,且彼此間缺乏區(qū)分度,容易出現(xiàn)模型預(yù)測(cè)輸出一直為unk的情況。對(duì)此,本文提出如下解決方法:

        (1)合并輸入詞序列中相鄰的unk 詞,確保序列中無(wú)連續(xù)的unk詞,防止出現(xiàn)unk預(yù)測(cè)unk的情況。

        (2)引入位置編碼,使合并后的序列中不同的unk詞有區(qū)分度。編碼方式為詞向量與正弦函數(shù)及余弦函數(shù)相乘[21]。

        4.3 詞性標(biāo)注的引入

        為進(jìn)一步捕獲語(yǔ)法轉(zhuǎn)換信息,本節(jié)將詞性標(biāo)注引入到模型中。詞性標(biāo)注(Part-Of-Speech tagging,POS tagging)指識(shí)別序列中詞語(yǔ)的詞性,并進(jìn)行編碼標(biāo)注,如“a(形容詞)”“n(名詞)”“v(動(dòng)詞)”“vn(動(dòng)名詞)”等。中文文本的詞性可以通過(guò)pyhanlp 工具(https://github.com/hankcs/pyhanlp)獲得。

        引入詞性標(biāo)注后的seq2seq-RNN 模型及相關(guān)符號(hào)分別見圖3 和表3。首先,對(duì)詞性序列進(jìn)行嵌入來(lái)獲得對(duì)應(yīng)的詞性向量,將其與詞向量連接后作為編碼器和解碼器的輸入,以使LSTM 網(wǎng)絡(luò)能夠捕獲詞性信息。然后,修改模型的預(yù)測(cè)器,使用兩個(gè)不同的LogSoftmax層分別用于輸出不同詞作為下一個(gè)輸出的對(duì)數(shù)概率,及該詞為不同詞性的概率(ti和qi分別表示概率最大的詞及對(duì)應(yīng)的詞性)。最后,使用NLL Loss[24]將詞性的預(yù)測(cè)差異反饋到網(wǎng)絡(luò)中。

        圖3 引入詞性標(biāo)注的seq2seq-RNN模型

        表3 圖3相關(guān)符號(hào)說(shuō)明

        針對(duì)化簡(jiǎn)階段,本文提出詞性替換機(jī)制,即在獲取預(yù)測(cè)詞及對(duì)應(yīng)的詞性時(shí),若該詞在輸入序列中出現(xiàn),則用輸入序列中對(duì)應(yīng)的詞性替換預(yù)測(cè)的詞性。通過(guò)這種自引導(dǎo)方式進(jìn)行化簡(jiǎn),可在BLEU 指標(biāo)上獲得1.5 的提升(見6.4節(jié))。

        4.4 化簡(jiǎn)評(píng)分函數(shù)

        為進(jìn)一步優(yōu)化文本化簡(jiǎn)效果,本節(jié)提出化簡(jiǎn)評(píng)分函數(shù)。該函數(shù)能對(duì)4.3節(jié)中seq2seq-RNN模型預(yù)測(cè)出的詞性序列的簡(jiǎn)化程度進(jìn)行打分,并將復(fù)雜的序列以loss的形式反饋給化簡(jiǎn)網(wǎng)絡(luò),以加速化簡(jiǎn)網(wǎng)絡(luò)的收斂過(guò)程,使模型傾向于輸出更簡(jiǎn)化的句子。

        化簡(jiǎn)評(píng)分函數(shù)采用一個(gè)二分類神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)現(xiàn)。該網(wǎng)絡(luò)接受一個(gè)詞性序列,輸出其為簡(jiǎn)單句和復(fù)雜句的概率。本文將序列為復(fù)雜句的概率作為簡(jiǎn)化程度的評(píng)分,分值越高,句子越復(fù)雜,對(duì)化簡(jiǎn)網(wǎng)絡(luò)產(chǎn)生的loss越大。

        分類網(wǎng)絡(luò)的結(jié)構(gòu)如圖4 所示(相關(guān)符號(hào)說(shuō)明見表4)。輸入的詞性序列經(jīng)過(guò)embedding 層后轉(zhuǎn)換成對(duì)應(yīng)的詞性向量,再依次輸入到一個(gè)單層LSTM 中進(jìn)行編碼。編碼后的向量經(jīng)過(guò)兩個(gè)全連接層后,輸出一個(gè)長(zhǎng)度為2 的向量。該向量經(jīng)sigmoid 函數(shù)激活后得到輸入序列為簡(jiǎn)單句或復(fù)雜句的概率。最后,根據(jù)BCELoss(Binary Cross-Entropy Loss,二分類交叉熵?fù)p失函數(shù))用隨機(jī)梯度下降(SGD)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

        圖4 化簡(jiǎn)評(píng)分函數(shù)的網(wǎng)絡(luò)模型

        表4 圖4相關(guān)符號(hào)說(shuō)明

        化簡(jiǎn)評(píng)分函數(shù)的二分類網(wǎng)絡(luò)是獨(dú)立預(yù)先訓(xùn)練的,且訓(xùn)練好的分類器在不同的數(shù)據(jù)集之間可以復(fù)用。實(shí)驗(yàn)結(jié)果表明,化簡(jiǎn)評(píng)分函數(shù)能正確找出部分復(fù)雜序列,并反饋給化簡(jiǎn)網(wǎng)絡(luò)(見6.3節(jié)和6.4節(jié))。

        5 信息抽取

        5.1 信息元組抽取

        經(jīng)典的開放信息抽取系統(tǒng)是基于語(yǔ)法和語(yǔ)義規(guī)則的。由于抽取的效果依賴于規(guī)則的完備性,這些系統(tǒng)往往具有龐大的規(guī)則庫(kù)。本節(jié)給出一個(gè)規(guī)則簡(jiǎn)潔且有效的針對(duì)化簡(jiǎn)文本的信息抽取算法。

        算法1信息關(guān)系抽取

        Input:待抽取的信息元組的句子sentence

        Output:信息元組列表tuples

        1.tuples=[]

        2.dep_zh=pyhanlp.parseDependency(sentence)

        3.verb_list=[dep_zh.核心詞]

        4.i=0

        5.while i

        6.verb_list.extend(verb_list[i].并列關(guān)系詞列表)

        7.i+=1

        8.for v in verb_list://尋找主謂賓結(jié)構(gòu)

        9.tuples.append((v.主語(yǔ),v,v.賓語(yǔ)))

        10.for t in tuples://處理共同主語(yǔ)

        11.if t.主語(yǔ)為空and t有父節(jié)點(diǎn):

        12.t.主語(yǔ)=t.父節(jié)點(diǎn).主語(yǔ)

        13.return tuples

        如算法1所示,信息抽取算法的步驟為:

        (1)使用pyhanlp對(duì)文本進(jìn)行依存關(guān)系分析(第2行)。

        (2)找到依存關(guān)系的核心詞(第3 行),并遞歸查找所有與核心詞并列的詞,構(gòu)成謂語(yǔ)列表(第4~7行)。

        (3)對(duì)謂語(yǔ)列表中的每一個(gè)謂語(yǔ),根據(jù)依存關(guān)系尋找其主語(yǔ)和賓語(yǔ)(若存在),構(gòu)成信息元組(第8~9行)。

        (4)對(duì)于沒(méi)有主語(yǔ)的信息元組t,尋找與其謂語(yǔ)并列且存在主語(yǔ)的父級(jí)信息元組tf(由直接并列到間接并列遞歸尋找父級(jí)元組)。若tf存在,則將t的主語(yǔ)設(shè)為tf的主語(yǔ)(第10~12行);否則不做處理。

        (5)結(jié)束抽取過(guò)程,返回抽取結(jié)果(第13行)。

        上述算法抽取文本中的主謂賓結(jié)構(gòu),且處理了并列謂語(yǔ)的情形,適用于絕大多數(shù)文本的信息元組抽取。算法時(shí)間復(fù)雜度為O(ns),其中ns為句子長(zhǎng)度。需要注意,雖然該算法存在抽取信息粒度較大,無(wú)法處理復(fù)雜句式的情況,但是考慮到本文信息抽取針對(duì)的是化簡(jiǎn)后的文本,因此其足以滿足抽取需要。

        5.2 實(shí)體屬性抽取

        實(shí)體屬性是基于信息元組抽取的。在抽取屬性前,本文使用pyltp(語(yǔ)言技術(shù)平臺(tái)的python接口,由哈工大社會(huì)計(jì)算與信息檢索研究中心研發(fā))中的命名實(shí)體識(shí)別工具進(jìn)行實(shí)體抽取。Pyltp 能夠識(shí)別文本中的人物實(shí)體、地點(diǎn)實(shí)體及組織實(shí)體。本文用pyltp 從信息元組的主語(yǔ)中抽取人物實(shí)體(地點(diǎn)和組織實(shí)體類似,本文只關(guān)注人物實(shí)體),將人物實(shí)體及對(duì)應(yīng)的信息元組作為實(shí)體屬性抽取算法的輸入。

        算法2實(shí)體屬性抽取

        Input:實(shí)體e,信息元組(s,v,o)

        Output:實(shí)體e的表征屬性集合args與鍵值屬性集合kwargs

        1.args={}//即As(e)

        2.kwargs={} //即Ad(e)

        3.dep_s=pyhanlp.parseDependency(s)

        4.if dep_s.核心詞==e:

        5.args.extend(e.定語(yǔ)) //定語(yǔ)為表征屬性

        6.dep_v=pyhanlp.parseDependency(v)

        7.// 謂語(yǔ)與其狀語(yǔ)和賓語(yǔ)形成鍵值屬性

        8.kwargs[dep_v.核心詞].extend(dep_v.核心詞.狀語(yǔ)列表)

        9.kwargs[dep_v.核心詞].append(o)

        10.else if e 為dep_s.核心詞k的形容詞:

        11.// 主語(yǔ)核心詞與謂語(yǔ)賓語(yǔ)形成鍵值屬性

        12.if v為“是”或“為”等:kwargs[k].append(o)

        13.else:kwargs[k].append(v+o)

        14.return args,kwargs

        如算法2所示,實(shí)體屬性抽取算法的關(guān)鍵步驟為:

        (1)用pyhanlp 對(duì)信息元組的主語(yǔ)進(jìn)行依存關(guān)系分析(第3行)。若輸入實(shí)體為核心詞,則跳轉(zhuǎn)到步驟2(第4~9行);若輸入實(shí)體為核心詞的形容詞,則跳轉(zhuǎn)到步驟4(第10~13行);否則結(jié)束抽取,返回空表征屬性集合和空鍵值屬性集合。

        (2)檢查實(shí)體是否有定語(yǔ)。若有,則將其加入實(shí)體的表征屬性集合中(第5行)。然后跳轉(zhuǎn)到步驟3。

        (3)對(duì)信息元組的謂語(yǔ)進(jìn)行依存關(guān)系分析(第6行)。將核心詞作為鍵值屬性的鍵,將核心詞的狀語(yǔ)(若存在)加入該鍵對(duì)應(yīng)的值的集合(第8行)。若信息元組的賓語(yǔ)存在,則將賓語(yǔ)也加入該鍵對(duì)應(yīng)的值的集合(第9行)。結(jié)束抽取過(guò)程,返回對(duì)應(yīng)的表征屬性集合和鍵值屬性集合。

        (4)將信息元組主語(yǔ)的核心詞作為實(shí)體鍵值關(guān)系中的鍵。若信息元組的謂語(yǔ)不為簡(jiǎn)單解釋詞(如“是”、“為”等),則將信息元組的謂語(yǔ)和賓語(yǔ)連接后加入該鍵的值集合(第12 行);否則將信息元組的賓語(yǔ)作為值加入該鍵的值集合(第13 行)。結(jié)束抽取過(guò)程,返回對(duì)應(yīng)的表征屬性結(jié)合和鍵值屬性集合。

        上述算法的時(shí)間復(fù)雜度為O(nt),其中nt為信息元組主語(yǔ)和謂語(yǔ)的長(zhǎng)度之和。

        以上是從單個(gè)信息元組抽取實(shí)體及屬性的方法。針對(duì)一段文本(通??沙槌龆鄠€(gè)信息元組)抽取時(shí),需要將所有信息元組的實(shí)體及對(duì)應(yīng)的屬性進(jìn)行集合的“并”操作,以獲得所有的實(shí)體及屬性。

        實(shí)踐中,由于文本表述的多樣性,實(shí)體對(duì)應(yīng)的形容詞與動(dòng)詞未必是實(shí)體的屬性,需進(jìn)行篩選或限定。如提取實(shí)體的出生地時(shí),僅關(guān)注“出生”和“誕生”之類的動(dòng)詞。

        6 實(shí)驗(yàn)

        6.1 實(shí)驗(yàn)配置

        6.1.1 數(shù)據(jù)集

        鑒于目前尚無(wú)中文文本化簡(jiǎn)數(shù)據(jù)集,本文采用翻譯的方法進(jìn)行構(gòu)造。然而,現(xiàn)有英文文本化簡(jiǎn)數(shù)據(jù)集(PWKP[25]、SWKP[26]、Newsela[27])側(cè)重于通過(guò)句法刪減和用詞簡(jiǎn)化來(lái)提高句子的可讀性和易讀性,因此不宜用于信息抽取??紤]到信息抽取需盡可能多地保留句子中的有用信息,不能因化簡(jiǎn)而丟失信息。于是,本文選擇兩個(gè)英文文本拆分的數(shù)據(jù)集作為原始數(shù)據(jù)集,利用百度翻譯的接口翻譯后獲得中文WikiEdit 數(shù)據(jù)集和中文SPRP數(shù)據(jù)集。

        (1)中文WikiEdit 數(shù)據(jù)集。該數(shù)據(jù)集由Google 的WikiSplit 數(shù)據(jù)集[28]翻譯而來(lái)。原數(shù)據(jù)集根據(jù)維基百科公開的編輯歷史記錄自動(dòng)構(gòu)建形成。數(shù)據(jù)集中存在一些固有噪聲。

        (2)中文SPRP數(shù)據(jù)集。該數(shù)據(jù)集由“Split and Rephrase”[29]論文中使用的基準(zhǔn)(benchmark)數(shù)據(jù)集翻譯而來(lái)。原數(shù)據(jù)集從WebNLG 挑戰(zhàn)(網(wǎng)頁(yè)自然語(yǔ)言生成挑戰(zhàn))的數(shù)據(jù)中提取形成,是一個(gè)較為理想的文本化簡(jiǎn)數(shù)據(jù)集。然而,該數(shù)據(jù)集的規(guī)模較小,復(fù)雜句只有5 546句(一個(gè)復(fù)雜句對(duì)應(yīng)多個(gè)簡(jiǎn)單句),且涉及的詞匯量只有4 107個(gè)。

        兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表5 所示。其中“復(fù)雜句”表示不同的復(fù)雜句的數(shù)量。

        表5 數(shù)據(jù)集的統(tǒng)計(jì)信息 103

        6.1.2 評(píng)估指標(biāo)

        針對(duì)文本化簡(jiǎn),實(shí)驗(yàn)使用精確率指標(biāo)和BLEU指標(biāo)進(jìn)行評(píng)估。其中,精確率指化簡(jiǎn)句子中正確的詞語(yǔ)(即在目標(biāo)句子中出現(xiàn)的詞語(yǔ))占化簡(jiǎn)句子中所有詞語(yǔ)的百分比。精確率可以從用詞層面衡量文本化簡(jiǎn)的效果,但無(wú)法評(píng)估化簡(jiǎn)句子在句子長(zhǎng)度、詞語(yǔ)順序關(guān)系和用詞完整性上的效果。BLEU[30]是IBM 于2002 年提出的機(jī)器翻譯評(píng)估指標(biāo),經(jīng)過(guò)多次改良升級(jí)后,其數(shù)值的高低能較為準(zhǔn)確地反映人類對(duì)翻譯效果評(píng)估的好壞。BLEU對(duì)序列到序列轉(zhuǎn)換過(guò)程中的用詞完整性,詞語(yǔ)順序及句子長(zhǎng)度等進(jìn)行了綜合評(píng)估,能夠作為良好的文本化簡(jiǎn)評(píng)估指標(biāo)。

        針對(duì)信息抽取,采用人工評(píng)估的方式對(duì)信息元組抽取的數(shù)量及合規(guī)性進(jìn)行衡量。方法如下:

        (1)選定測(cè)試句子,對(duì)原始句子和化簡(jiǎn)句子分別進(jìn)行信息元組抽取。

        (2)對(duì)所抽信息元組進(jìn)行人工評(píng)估,統(tǒng)計(jì)合規(guī)且表達(dá)意思不脫離原句的信息元組的數(shù)量。

        (3)計(jì)算抽取的精確率,召回率和F1 值。

        6.2 不同文本化簡(jiǎn)模型的對(duì)比

        本節(jié)對(duì)不同神經(jīng)機(jī)器翻譯(NMT)模型在文本化簡(jiǎn)上的效果進(jìn)行對(duì)比。選用模型如下:

        (1)Seq2seq-RNN:seq2seq-RNN基本模型(見第4.1節(jié))。

        (2)Seq2seq-CNN:Facebook 于2017 年提出的基于CNN的編碼器-解碼器翻譯模型[21]。

        (3)Seq2seq-ATTN:Google于2017年提出的基于注意力機(jī)制的Transformer模型[22]。

        具體實(shí)驗(yàn)在中文WikiEdit數(shù)據(jù)集上進(jìn)行,結(jié)果如表6所示。得益于遞歸神經(jīng)網(wǎng)絡(luò)對(duì)序列長(zhǎng)期依賴的捕獲能力,seq2seq-RNN 模型更好地捕捉了化簡(jiǎn)中的句法變換,在兩個(gè)文本化簡(jiǎn)指標(biāo)上均優(yōu)于其他兩個(gè)模型,化簡(jiǎn)效果最好。同時(shí),該模型參數(shù)規(guī)模較小,訓(xùn)練時(shí)間也較短。這表明Seq2seq-RNN是一個(gè)良好的文本化簡(jiǎn)模型。

        表6 NMT模型在文本化簡(jiǎn)上的實(shí)驗(yàn)結(jié)果

        6.3 不同seq2seq-RNN模型的對(duì)比

        本節(jié)嘗試對(duì)比以下不同改進(jìn)層面的seq2seq-RNN模型的化簡(jiǎn)效果:

        (1)Seq2seq-RNN:seq2seq-RNN基本模型(見4.1節(jié))。

        (2)Seq2seq-RNN-P:seq2seq-RNN+詞性標(biāo)注。

        (3)Seq2seq-RNN-PE:seq2seq-RNN-P+預(yù)訓(xùn)練詞向量和簡(jiǎn)單詞匯表。

        (4)Seq2seq-RNN-PES:seq2seq-RNN-PE+化簡(jiǎn)評(píng)分函數(shù)。

        不同模型在中文WikiEdit 數(shù)據(jù)集上進(jìn)行50 次迭代訓(xùn)練,其中詞向量維度和LSTM 的隱藏層大小均設(shè)為128。如表7所示,實(shí)驗(yàn)結(jié)果表明第4章中所提使用常用詞匯表、引入詞性標(biāo)注、設(shè)計(jì)化簡(jiǎn)評(píng)分函數(shù)的文本化簡(jiǎn)改進(jìn)思路能夠提升模型的化簡(jiǎn)效果,且包含所有改進(jìn)的seq2seq-RNN-PES效果最好。此外,雖然改進(jìn)使得參數(shù)規(guī)模變大,但所有模型的訓(xùn)練時(shí)間均為8~10 s,這表明上述改進(jìn)沒(méi)有引入過(guò)多的時(shí)間開銷。

        表7 不同seq2seq-RNN模型的實(shí)驗(yàn)結(jié)果

        另外,對(duì)比表6 可見,參數(shù)規(guī)模減小會(huì)導(dǎo)致模型效果下降。因此,條件允許時(shí)可適當(dāng)增加詞向量維度及LSTM隱藏層大小來(lái)提升化簡(jiǎn)效果。

        6.4 化簡(jiǎn)評(píng)分函數(shù)的效果

        本節(jié)探索化簡(jiǎn)評(píng)分函數(shù)在文本復(fù)雜度判定上的正確性?;?jiǎn)評(píng)分函數(shù)的二分類神經(jīng)網(wǎng)絡(luò)使用中文SPRP數(shù)據(jù)集訓(xùn)練。數(shù)據(jù)集中的復(fù)雜句標(biāo)記為(1,0),簡(jiǎn)單句標(biāo)記為(0,1),數(shù)值依次表示為復(fù)雜句和簡(jiǎn)單句的概率。

        充分訓(xùn)練后,二分類網(wǎng)絡(luò)在測(cè)試集上的分類結(jié)果如表8所示。數(shù)據(jù)表明,化簡(jiǎn)評(píng)分函數(shù)對(duì)簡(jiǎn)單句的召回率高達(dá)99.9%,說(shuō)明化簡(jiǎn)函數(shù)基本不會(huì)將簡(jiǎn)單句誤判為復(fù)雜句。此外,其能識(shí)別出51.5%的復(fù)雜句。這表示化簡(jiǎn)評(píng)分函數(shù)可以在不引入噪聲的前提下,改善模型的效果。

        表8 化簡(jiǎn)評(píng)分函數(shù)效果

        6.5 優(yōu)化策略的作用

        本節(jié)對(duì)比seq2seq-RNN、seq2seq-RNN-E(seq2seq-RNN+預(yù)訓(xùn)練詞向量)與seq2seq-RNN-P(seq2seq-RNN+詞性標(biāo)注)在中文SPRP數(shù)據(jù)集的化簡(jiǎn)效果,以探索不同優(yōu)化策略的作用。

        如表9 所示,在實(shí)驗(yàn)結(jié)果中,使用預(yù)訓(xùn)練詞向量的seq2seq-RNN-E的效果最好。此外,雖然seq2seq-RNN-P的精確率低于seq2seq-RNN,但其BLEU 高于seq2seq-RNN。這說(shuō)明引入詞性標(biāo)注后,模型對(duì)詞語(yǔ)對(duì)應(yīng)關(guān)系的學(xué)習(xí)能力減弱,對(duì)句法轉(zhuǎn)換的學(xué)習(xí)能力增強(qiáng)。

        表9 不同優(yōu)化策略的實(shí)驗(yàn)結(jié)果

        為進(jìn)一步闡述不同優(yōu)化策略的作用,本文對(duì)部分模塊在seq2seq-CNN 和seq2seq-ATTN 上的優(yōu)化效果進(jìn)行評(píng)估。需注意,這兩個(gè)模型的設(shè)計(jì)初衷是去除文本長(zhǎng)期依賴,所以它們的訓(xùn)練單位為詞語(yǔ)(token),而非文本(text)。在缺乏詞語(yǔ)順序的情況下,無(wú)法直接獲取模型對(duì)整個(gè)文本(token 序列)的輸出,化簡(jiǎn)評(píng)分函數(shù)難以引入。因此,本文只對(duì)其余兩個(gè)優(yōu)化策略在seq2seq-CNN和seq2seq-ATTN上的效果進(jìn)行評(píng)估(分別記為seq2seq-CNN-PE和seq2seq-ATTN-PE)。

        對(duì)比表10與表6可見,引入常用詞匯表與詞性標(biāo)注后,seq2seq-CNN和seq2seq-ATTN的文本化簡(jiǎn)效果有所提升。這表明論文所提的優(yōu)化策略是有效的。

        表10 Seq2seq-CNN和seq2seq-ATTN上的實(shí)驗(yàn)結(jié)果

        6.6 信息抽取效果

        本節(jié)對(duì)信息元組抽取算法(見5.1節(jié))在原始句子及化簡(jiǎn)句子上的抽取效果進(jìn)行對(duì)比。實(shí)驗(yàn)在72個(gè)測(cè)試句子上進(jìn)行,人工評(píng)估后的結(jié)果如表11所示。易知,文本化簡(jiǎn)能有效提升信息抽取的效果。

        表11 信息抽取的實(shí)驗(yàn)結(jié)果

        下面展示一個(gè)基于文本化簡(jiǎn)的實(shí)體屬性抽取(見5.2節(jié))例子。

        原句:1955年畢業(yè)于德州大學(xué)奧斯汀分校的美國(guó)試飛員艾倫·比恩1932年3月15日出生于德克薩斯州惠勒市:

        化簡(jiǎn):艾倫·比恩的國(guó)籍是美國(guó)。飛行員艾倫·比恩出生于1932 年3 月15 日。艾倫·比恩的出生地是德克薩斯州惠勒。艾倫·比恩1955年畢業(yè)于德州大學(xué)奧斯汀分校。

        信息元組:(艾倫·比恩的國(guó)籍,是,美國(guó))、(飛行員艾倫·比恩,出生于,1932年3月15日)、(艾倫·比恩的出生地,是,德克薩斯州惠勒),(艾倫·比恩,1955 年畢業(yè)于德州大學(xué)奧斯汀分校,)

        實(shí)體:艾倫·比恩

        表征屬性:飛行員

        鍵值屬性:

        國(guó)籍:“美國(guó)”

        出生于:“1932年3月15日”

        出生地:“德克薩斯州惠勒”

        畢業(yè):“1995年”,“德州大學(xué)奧斯汀分校”

        上述例子表明論文所提方法能夠有效提取出文本中的實(shí)體及屬性信息。

        7 結(jié)束語(yǔ)

        為了在知識(shí)圖譜構(gòu)建過(guò)程中更好地抽取實(shí)體及屬性,本文提出一種基于文本化簡(jiǎn)在中文文本上進(jìn)行實(shí)體屬性抽取的方法。本文工作只是相關(guān)研究的開始。在化簡(jiǎn)文本上抽取信息時(shí),還可以考慮跳過(guò)信息元組抽取,而基于神經(jīng)網(wǎng)絡(luò)直接抽取實(shí)體及屬性的方法。這要求有對(duì)應(yīng)的高質(zhì)量中文數(shù)據(jù)集,且網(wǎng)絡(luò)本身的設(shè)計(jì)也是一個(gè)挑戰(zhàn)。

        猜你喜歡
        元組解碼器化簡(jiǎn)
        靈活區(qū)分 正確化簡(jiǎn)
        科學(xué)解碼器(一)
        Python核心語(yǔ)法
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
        基于減少檢索的負(fù)表約束優(yōu)化算法
        的化簡(jiǎn)及其變式
        判斷分式,且慢化簡(jiǎn)
        亚洲综合一区二区三区天美传媒| 国产综合久久久久| 久久天天躁夜夜躁狠狠躁2022 | 2021精品国产综合久久| 一区二区三区在线日本| 蜜臀一区二区三区精品| 国产肥熟女视频一区二区三区| 国产中老年妇女精品| 美女高潮流白浆视频在线观看 | 2021国产最新在线视频一区| 国产精品98福利小视频| 女人天堂国产精品资源麻豆| 国产a∨天天免费观看美女| 国产成人精品av| 最新国产成人综合在线观看 | av一区二区在线网站| 蜜臀性色av免费| 91精品一区国产高清在线gif| 欧美亚洲国产人妖系列视| 精品中文字幕久久久人妻| 加勒比色老久久爱综合网| 国产欧美一区二区精品仙草咪| 精品无人区无码乱码大片国产| 女主播啪啪大秀免费观看| 国产综合色在线精品| 日韩精品无码久久一区二区三| 亚洲啊啊啊一区二区三区| aa日韩免费精品视频一| 中文字幕精品一区二区精品| 好大好硬好爽免费视频| 中文字幕一区,二区,三区 | a级国产乱理伦片| 韩国三级中文字幕hd久久精品| 中文字幕五月久久婷热| 日本av一区二区三区在线| 中国人妻被两个老外三p| 国产成人久久蜜一区二区| 激情五月开心五月啪啪| 乱人妻中文字幕| 99精品热6080yy久久| 久久久精品国产三级精品|