亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向新聞?lì)I(lǐng)域的中文實(shí)體關(guān)系抽取*

2021-02-25 10:12:04王成剛劉威鵬黃慧榮

電訊技術(shù) 2021年1期

王博，王侃，王成剛，劉然，劉威鵬，黃慧榮

(1.北京信息技術(shù)研究所，北京 100093；2.中國(guó)西南電子技術(shù)研究所，成都 610036；3.西北工業(yè)大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院，西安 710129)

0 引言

由于互聯(lián)網(wǎng)普及度提高和互聯(lián)網(wǎng)媒體平臺(tái)的不斷發(fā)展，新聞事件可以快速地通過各種媒體平臺(tái)被網(wǎng)絡(luò)用戶獲取。除了用戶量大、傳播速度快的特點(diǎn)外，互聯(lián)網(wǎng)新聞文本在信息抽取和文本數(shù)據(jù)結(jié)構(gòu)化方面還面臨信息內(nèi)容的海量性、內(nèi)容多樣性和新鮮詞匯層出不窮的挑戰(zhàn)。

隨著互聯(lián)網(wǎng)新聞平臺(tái)和自媒體的發(fā)展，人們從海量的互聯(lián)網(wǎng)新聞數(shù)據(jù)中獲取有用信息和針對(duì)互聯(lián)網(wǎng)輿情管控的難度也越來越大，在此背景下僅僅對(duì)關(guān)鍵詞搜索已經(jīng)不能滿足人們的很多需求；為了更方便地從互聯(lián)網(wǎng)信息源中挖掘出人們需要的信息，需要把無結(jié)構(gòu)的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)[1]。在上述實(shí)際要求背景下，人們針對(duì)互聯(lián)網(wǎng)新聞數(shù)據(jù)進(jìn)行實(shí)體關(guān)系抽取，計(jì)算機(jī)以關(guān)系三元組(實(shí)體1、關(guān)系、實(shí)體2)的方式對(duì)文本形式信息數(shù)據(jù)的存儲(chǔ)、查詢以及管理。實(shí)體關(guān)系抽取目的就是識(shí)別文本中的實(shí)體與實(shí)體之間的語(yǔ)義關(guān)系，并將關(guān)系抽取結(jié)果描述為三元組。實(shí)體定義為文本中特定的事實(shí)信息，有三種形式：命名性指稱、名詞性指稱以及代詞性指稱[2-3]。實(shí)體關(guān)系抽取也可以描述為對(duì)給定的文本數(shù)據(jù)中存在的信息載體的關(guān)系抽取。

實(shí)體關(guān)系抽取作為信息抽取任務(wù)之一，是信息抽取的研究熱點(diǎn)。實(shí)體關(guān)系抽取的研究范圍從最初的特定領(lǐng)域的語(yǔ)料庫(kù)，到目前對(duì)海量的互聯(lián)網(wǎng)文本；研究方法也是從基于規(guī)則的方法[4]發(fā)展到現(xiàn)在基于機(jī)器學(xué)習(xí)的方法和開放式實(shí)體關(guān)系抽取方法[5-6]；實(shí)體關(guān)系抽取對(duì)象包含句子內(nèi)實(shí)體關(guān)系抽取[7-9]、兩個(gè)句子之間的實(shí)體關(guān)系抽取[10]以及文檔級(jí)別的實(shí)體關(guān)系抽取[11]，目前研究的熱點(diǎn)是句子內(nèi)的實(shí)體關(guān)系抽取。結(jié)合深度學(xué)習(xí)的發(fā)展，把深度學(xué)習(xí)應(yīng)用到實(shí)體關(guān)系抽取是研究方向之一。

國(guó)外關(guān)于實(shí)體關(guān)系抽取的研究工作是在1997年最后一次消息理解會(huì)議(Message Understand Conference，MUC-7)上提出的，在該評(píng)測(cè)會(huì)議上實(shí)體關(guān)系分為三類：位置關(guān)系(location_of)、雇傭關(guān)系(employee_of)和生產(chǎn)關(guān)系(product_of)，使用的關(guān)系抽取方法是基于規(guī)則的[2]。在此之后，2000年出現(xiàn)的自動(dòng)內(nèi)容抽取(Automatic Content Extraction，ACE)評(píng)測(cè)會(huì)議把關(guān)系抽取列為重要任務(wù)之一，ACE-2004會(huì)議上將實(shí)體關(guān)系擴(kuò)充到7種；ACE-2005提出多語(yǔ)言版本的語(yǔ)料庫(kù)用于實(shí)體識(shí)別、關(guān)系抽取和事件抽取任務(wù)，本文在實(shí)驗(yàn)中使用該語(yǔ)料庫(kù)；ACE-2008關(guān)系抽取任務(wù)中把實(shí)體關(guān)系的7種類型又細(xì)分為18個(gè)子類。ACE會(huì)議自2009年被歸入文本分析會(huì)議(Text Analysis Conference，TAC)，TAC會(huì)議把實(shí)體關(guān)系抽取并入知識(shí)庫(kù)構(gòu)建領(lǐng)域任務(wù)中。在英文方面實(shí)體關(guān)系抽取的另外一個(gè)國(guó)際評(píng)測(cè)會(huì)議是SemEval評(píng)測(cè)會(huì)議，其中SemEval-2010任務(wù)8是句子中名詞對(duì)關(guān)系識(shí)別，關(guān)系種類有9種，包含原因-影響、器械-操作員、產(chǎn)品-廠家、內(nèi)容-容器、實(shí)體-產(chǎn)地、實(shí)體-目的地、組件-整體、成員-集體、消息-話題和一個(gè)其他類[12]。

在自然語(yǔ)言問題評(píng)測(cè)會(huì)議中，主要針對(duì)各種特定的數(shù)據(jù)集，使用的方法主要是集中基于機(jī)器學(xué)習(xí)的方法。基于機(jī)器學(xué)習(xí)的方法依據(jù)對(duì)語(yǔ)料庫(kù)的依賴程度劃分，可以分有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)算法使用的語(yǔ)料庫(kù)是完全標(biāo)注的，該算法使用標(biāo)注語(yǔ)料庫(kù)對(duì)關(guān)系分類模型進(jìn)行訓(xùn)練，然后在測(cè)試數(shù)據(jù)集上識(shí)別實(shí)體關(guān)系，包含基于特征向量算法[13]和基于核函數(shù)算法[13-14]?；诎氡O(jiān)督學(xué)習(xí)算法使用的數(shù)據(jù)集是部分?jǐn)?shù)據(jù)進(jìn)行了標(biāo)注，包含自舉算法[15]和遠(yuǎn)程監(jiān)督學(xué)習(xí)算法[16-17]。該算法具有適應(yīng)性強(qiáng)、人工標(biāo)注數(shù)據(jù)少的特點(diǎn)。無監(jiān)督學(xué)習(xí)算法[18]是完全不依賴于數(shù)據(jù)標(biāo)注信息，但是需要大量的語(yǔ)料數(shù)據(jù)，通常利用聚類的方法，把同一關(guān)系的文本數(shù)據(jù)聚合在一起，不能針對(duì)一對(duì)實(shí)體進(jìn)行劃分實(shí)體關(guān)系。

關(guān)于中文的實(shí)體關(guān)系識(shí)別起步比較晚，目前關(guān)于中文的實(shí)體關(guān)系抽取研究主要工作集中在基于機(jī)器學(xué)習(xí)的算法和開放式關(guān)系抽取算法，但是缺乏大規(guī)模的標(biāo)準(zhǔn)中文實(shí)體關(guān)系抽取數(shù)據(jù)集，因而關(guān)于利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)中文實(shí)體關(guān)系抽取研究比較少。關(guān)于中文的實(shí)體關(guān)系抽取方面的會(huì)議也比較少，有自然語(yǔ)言處理與中文計(jì)算(Natural Language Processing and Chinese Computing,NLPCC)會(huì)議、中文傾向性分析評(píng)測(cè)(Chinese Opinion Analysis Evaluation,COAE)會(huì)議。除此之外，ACE-2004/2005多語(yǔ)言語(yǔ)料庫(kù)中包含中文實(shí)體關(guān)系識(shí)別內(nèi)容。

中英文之間的差別使得適用于英文的關(guān)系抽取算法不能直接移植到中文上面。中英文之間的差別主要在于以下四點(diǎn)：一是中文沒有明顯的分隔符；二是中文中的詞比英語(yǔ)存在更多的歧義語(yǔ)義；三是中文的詞語(yǔ)由字組合而成，常用漢字有3 000個(gè)，復(fù)雜程度很高；四是中文的詞法語(yǔ)態(tài)信息沒有英語(yǔ)豐富，比如中文沒有時(shí)態(tài)、字母大小寫等特征。

1 面向中文實(shí)體識(shí)別的雙向樹形LSTM模型

面向中文實(shí)體識(shí)別的雙向樹形LSTM(Long Short-Term Memory)是建立在依存關(guān)系樹上的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)變體模型。標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)輸入特征向量是按照句子的字序輸入，即從句子中的第一個(gè)漢字依次輸入特征向量。雙向LSTM網(wǎng)絡(luò)由正向的LSTM和反向的LSTM組成，其中的反向LSTM是從句尾依次輸入特征向量。雙向樹形LSTM網(wǎng)絡(luò)的輸入特征向量是按照依存句法樹的結(jié)構(gòu)依次輸入特征向量，正向的樹形LSTM從葉子節(jié)點(diǎn)到根節(jié)點(diǎn)，反向的樹形LSTM從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)。該模型建立依賴于句子的依存句法分析結(jié)果。樹形LSTM模型和標(biāo)準(zhǔn)LSTM模型比較，改進(jìn)的模型可以提取詞語(yǔ)與詞語(yǔ)之間依存關(guān)系特征和句法特征，樹形LSTM神經(jīng)元三個(gè)控制門的輸入數(shù)據(jù)不僅僅是該漢字相鄰的漢字的LSTM神經(jīng)元狀態(tài)值和輸出值，還包含在依存句法分析中存在依存關(guān)系的詞語(yǔ)的狀態(tài)和輸出值。Aguilar等人[18]在英文依存句法樹上建立的正向樹形LSTM模型，Jie等人[19]使用英文依存句法特征實(shí)現(xiàn)實(shí)體識(shí)別，但是基于依存句法樹的中文樹形LSTM模型和英文樹形LSTM模型存在的差別。圖1是以簡(jiǎn)單句子“西北工業(yè)大學(xué)位于古都西安”的中文和依存句法分析結(jié)果。

圖1 “西北工業(yè)大學(xué)位于古都西安”依存句法樹

圖1中的中文依存句法樹是用哈工大LTP得到的，英文依存句法樹是用Stanford NLP工具得到的。圖1(b)的依存關(guān)系樹中是以單詞為節(jié)點(diǎn)，英文的實(shí)體識(shí)別標(biāo)注對(duì)象也是單詞；圖1(a)的依存關(guān)系樹中是以中文詞語(yǔ)為節(jié)點(diǎn)，但是中文實(shí)體識(shí)別的標(biāo)注對(duì)象是漢字。例如Northwestern標(biāo)注為B-ORG，而在中文依存句法分析中“西北”在句子中作數(shù)據(jù)標(biāo)注的是“西：B-ORG”和“北：I-ORG”；相比較于基于英文的樹形LSTM網(wǎng)絡(luò)結(jié)構(gòu)，中文的樹形LSTM網(wǎng)絡(luò)模型比較復(fù)雜。本文提出的面向中文的正向和反向樹形LSTM模型如圖2所示，在結(jié)構(gòu)示意圖中依然是以簡(jiǎn)單的句子“西北工業(yè)大學(xué)位于古都西安”為例。

(a)正向樹形LSTM結(jié)構(gòu)圖

(b)反向樹形LSTM結(jié)構(gòu)圖

圖2中雙向樹形LSTM網(wǎng)絡(luò)神經(jīng)元標(biāo)注為TLSTM Cell，在正向樹形LSTM網(wǎng)絡(luò)中每個(gè)TLSTM Cell的輸入特征包含兩部分：第一部分是依存句法樹中當(dāng)前節(jié)點(diǎn)的所有子節(jié)點(diǎn)的神經(jīng)元輸出值和狀態(tài)值，第二部分是當(dāng)前節(jié)點(diǎn)中，上一個(gè)漢字的神經(jīng)元輸出值和狀態(tài)值，例如在圖 2(a)中漢字“學(xué)”的輸入向量包含該字的詞向量和漢字“大”“工”“業(yè)”三個(gè)字的神經(jīng)元狀態(tài)值和輸出值。中文實(shí)體識(shí)別的正向樹形LSTM神經(jīng)元的數(shù)學(xué)表達(dá)式為

(1)

式中：hj表示所有當(dāng)前漢字子節(jié)點(diǎn)神經(jīng)元輸出值hk的求和；chiildnode(j)表示節(jié)點(diǎn)j所有子節(jié)點(diǎn)的集合；cj表示所有子節(jié)點(diǎn)的狀態(tài)值和當(dāng)前節(jié)點(diǎn)中上一個(gè)漢字的狀態(tài)值cj,t-1的拼接結(jié)果；hj,t-1表示上一個(gè)漢字神經(jīng)元的輸出值；n表示子節(jié)點(diǎn)所有漢字的數(shù)量；fj,t表示遺忘門控制變量；ot表示輸出門控制變量；ij,t表示輸入門控制變量；Wf,Wi,Wo表示神經(jīng)元中當(dāng)前漢字輸入特征在控制門中的權(quán)重矩陣；Uf,1、Ui,1、Uo,1表示子節(jié)點(diǎn)漢字的神經(jīng)元輸出值在控制門中的權(quán)重矩陣，Uf,2、Ui,2、Uo,2表示上一個(gè)漢字的神經(jīng)元輸出值在控制門中的權(quán)重矩陣；bf、bi、bo表示表示神經(jīng)元控制門的偏置向量；ct表示當(dāng)前漢字神經(jīng)元的狀態(tài)值；ht表示當(dāng)前漢字神經(jīng)元的輸出值。

正向樹形和標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)的神經(jīng)元相比，在控制門中加入了依存句法樹中子節(jié)點(diǎn)特征信息，模型能夠提取長(zhǎng)距離的依存關(guān)系特征和句法特征。在三個(gè)控制門中，遺忘門的計(jì)算方式和輸出門、輸入門不同。輸入門和輸出門使用輸出值hj和hj,t-1的求和，而遺忘門對(duì)每個(gè)字符輸出值計(jì)算各自的遺忘門值。這種遺忘門計(jì)算方式對(duì)于不同的漢字，控制對(duì)當(dāng)前漢字的影響程度，即輸入門控制當(dāng)前輸入特征對(duì)神經(jīng)元狀態(tài)值的影響和輸出門控制狀態(tài)值cj和cj,t-1對(duì)輸出向量的影響。

反向樹形LSTM神經(jīng)元和正向樹形LSTM相比，將子節(jié)點(diǎn)神經(jīng)元的狀態(tài)值和輸出值改為父節(jié)點(diǎn)神經(jīng)元狀態(tài)值和輸出值，其他部分是一致的，即在公式(1)中第二個(gè)式子改為

(2)

式中：cj表示父節(jié)點(diǎn)的狀態(tài)值和當(dāng)前節(jié)點(diǎn)中上一個(gè)漢字的狀態(tài)值cj,t-1的拼接結(jié)果,n表示父節(jié)點(diǎn)所有漢字的數(shù)量。

雙向樹形LSTM網(wǎng)絡(luò)建立在依存句法樹上，在控制門中加入了依存句法樹中子節(jié)點(diǎn)特征信息，能夠獲取來自于依存關(guān)系樹中父節(jié)點(diǎn)和子節(jié)點(diǎn)的特征信息。正向樹形LSTM網(wǎng)絡(luò)獲取依存關(guān)系樹中當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)特征信息，反向樹形LSTM網(wǎng)絡(luò)提取父節(jié)點(diǎn)的特征信息。雙向樹形LSTM網(wǎng)絡(luò)的輸入特征中可以包含詞向量、詞性特征等，網(wǎng)絡(luò)的輸出向量是依存關(guān)系特征、句法特征和輸入特征的融合特征。雙向樹形LSTM網(wǎng)絡(luò)的輸出特征由正向樹形LSTM網(wǎng)絡(luò)輸出特征H1和反向樹形LSTM網(wǎng)絡(luò)的輸出特征H2拼接而成。

本文提出的基于雙向樹形LSTM網(wǎng)絡(luò)模型和條件隨機(jī)場(chǎng)模型主要包含三個(gè)數(shù)據(jù)處理模塊：雙向樹形LSTM、Bi-LSTM和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)。雙向樹形LSTM網(wǎng)絡(luò)模型提取融合長(zhǎng)距離的依存關(guān)系特征和句法特征，正向樹形LSTM網(wǎng)絡(luò)獲取依存關(guān)系樹中當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)特征信息，反向樹形LSTM網(wǎng)絡(luò)提取父節(jié)點(diǎn)的特征信息；Bi-LSTM可以有效提取當(dāng)前漢字的過去特征和未來特征，正向LSTM網(wǎng)絡(luò)記錄過去時(shí)刻的特征信息，反向LSTM提取將來時(shí)刻的特征信息；CRF是在神經(jīng)網(wǎng)絡(luò)提取特征的基礎(chǔ)上對(duì)中文漢字進(jìn)行標(biāo)注實(shí)現(xiàn)實(shí)體識(shí)別。圖3是基于雙向樹形LSTM網(wǎng)絡(luò)模型和條件隨機(jī)場(chǎng)模型的結(jié)構(gòu)示意圖。

圖3 算法流程圖

2 實(shí)驗(yàn)測(cè)試

本文在ACE 2005語(yǔ)料庫(kù)上訓(xùn)練并測(cè)試基于雙向樹形LSTM實(shí)體識(shí)別算法模型的有效性。

操作系統(tǒng)為ubantu 18.04，依存句法分析工具為哈工大LTP3.4.0，Python版本3.7.0。

2.1 實(shí)體識(shí)別語(yǔ)料庫(kù)數(shù)據(jù)預(yù)處理

基于雙向樹形LSTM和條件隨機(jī)場(chǎng)的實(shí)體識(shí)別模型在識(shí)別實(shí)體的過程中是將實(shí)體識(shí)別問題轉(zhuǎn)化為數(shù)據(jù)標(biāo)注的問題，要求對(duì)每個(gè)漢字標(biāo)注一個(gè)標(biāo)簽。但是在使用的新聞?wù)Z料庫(kù)中數(shù)據(jù)的標(biāo)簽格式不滿足模型的需求；除此之外，本文是針對(duì)句子中的實(shí)體識(shí)別，使用的語(yǔ)料庫(kù)中文本數(shù)據(jù)是段落的形式，因此還需要對(duì)數(shù)據(jù)進(jìn)行段落分割。數(shù)據(jù)預(yù)處理實(shí)現(xiàn)數(shù)據(jù)標(biāo)簽格式的轉(zhuǎn)化和段落分割為句子。

ACE 2005語(yǔ)料庫(kù)是國(guó)際評(píng)測(cè)會(huì)議ACE在2005年發(fā)布的數(shù)據(jù)集，目前可以在語(yǔ)言聯(lián)盟中獲取。ACE RDC是多語(yǔ)言數(shù)據(jù)集，包含中文、英文和阿拉伯語(yǔ)，該語(yǔ)料庫(kù)主要針對(duì)自然語(yǔ)言問題的三項(xiàng)基本任務(wù)——實(shí)體識(shí)別，值、事件表達(dá)式，關(guān)系和事件。中文語(yǔ)料庫(kù)的數(shù)據(jù)采集來自于廣播新聞(298篇)、新聞專線(238篇)和微博(93篇)，文檔總數(shù)量是629篇。

ACE 2005語(yǔ)料庫(kù)中包含四類文件，在實(shí)體識(shí)別和關(guān)系抽取任務(wù)中，主要是使用源文本文件和注釋文件。圖4和圖5分別是該語(yǔ)料庫(kù)中廣播新聞?wù)Z料庫(kù)的源文本文件和實(shí)體數(shù)據(jù)的注釋示例。

圖4 ACE 2005語(yǔ)料庫(kù)源文本文件示例

圖5 ACE 2005語(yǔ)料庫(kù)標(biāo)注文件

圖4所示語(yǔ)料庫(kù)中的中文源文本文件數(shù)據(jù)存在大量的空格和換行標(biāo)識(shí)符，需要對(duì)源文本文件進(jìn)行正則化處理，即在數(shù)據(jù)預(yù)處理階段需要消除源文本文件中的空格和換行標(biāo)識(shí)符，否則在實(shí)體標(biāo)注文件中，會(huì)導(dǎo)致實(shí)體位置信息出現(xiàn)誤差。而且由于本文主要研究針對(duì)句子中的實(shí)體關(guān)系抽取，因此實(shí)體識(shí)別也是主要針對(duì)以句子為單位，識(shí)別單個(gè)句子中的實(shí)體關(guān)系。與此同時(shí)依據(jù)句子標(biāo)識(shí)符(“。”“？”“！”)將段落轉(zhuǎn)化為單個(gè)句子。

圖5所示語(yǔ)料庫(kù)標(biāo)注文件主要是XML文件，在該文件中標(biāo)注了實(shí)體在源文本文件中的位置信息和對(duì)這個(gè)實(shí)體類別、子類別的注釋，在該語(yǔ)料庫(kù)中定義實(shí)體種類有七種。在數(shù)據(jù)預(yù)處理過程，將源文件的段落轉(zhuǎn)化為句子，同時(shí)也需要把實(shí)體標(biāo)簽信息轉(zhuǎn)化為相對(duì)應(yīng)的句子中。本文使用Python語(yǔ)言和xml.etree工具包實(shí)現(xiàn)數(shù)據(jù)解析。ACE 2005語(yǔ)料庫(kù)數(shù)據(jù)預(yù)處理的流程如下：

輸入語(yǔ)料庫(kù)源文本文件.sgm為S0，注釋文件.apf.xml，正則化后的源文本為S1

1：讀取注釋文件，使用xml.etree找到實(shí)體的類別、子類、位置和內(nèi)容信息S2

2：讀取源文件，清除源文本中節(jié)點(diǎn)標(biāo)志信息，便于與實(shí)體注釋位置信息對(duì)應(yīng)

3：使用python正則化模塊re對(duì)源文本數(shù)據(jù)的空格和換行符進(jìn)行替換

4：for entity inS2：

5：利用實(shí)體在S0的位置更新實(shí)體在S1位置信息

6： ifS1[entity[start]:entity[end]]== entity[content] then

7：校驗(yàn)在S1中entity位置所在詞語(yǔ)是否與entity中的內(nèi)容一致

8： else:

9：從新校驗(yàn)該文件實(shí)體位置信息

10：for char inS2：

11： if char in set(‘?！ⅰ?？’、‘！’)

12：獲取單個(gè)句子sentence，依據(jù)該句子在S2位置信息找到該句子中所有實(shí)體

13： for char_ in sentence:

14：依據(jù)SBIOE標(biāo)簽格式和實(shí)體位置信息對(duì)句子sentence中的每個(gè)漢字打上標(biāo)簽

15： else:

16：當(dāng)前句子中添加當(dāng)前漢字

在數(shù)據(jù)預(yù)處之后，數(shù)據(jù)的表示為每個(gè)漢字均有唯一對(duì)應(yīng)位標(biāo)簽，標(biāo)簽的格式是位置標(biāo)簽和類別標(biāo)簽的復(fù)合標(biāo)簽格式。圖6和表1是針對(duì)語(yǔ)料庫(kù)中廣播新聞數(shù)據(jù)預(yù)處理后的文本數(shù)據(jù)的實(shí)體統(tǒng)計(jì)。

圖6 ACE 2005 語(yǔ)料庫(kù)實(shí)體長(zhǎng)度分布

表1 ACE 2005 語(yǔ)料庫(kù)實(shí)體數(shù)量統(tǒng)計(jì)

在實(shí)體長(zhǎng)度分布統(tǒng)計(jì)中，大部分的是數(shù)據(jù)是小于等于4的；實(shí)體長(zhǎng)度大于4的數(shù)據(jù)中，實(shí)體數(shù)目是1 468，大約占總數(shù)量的5.46%。因此在模型的局部注意力機(jī)制模塊中，使用的窗口長(zhǎng)度是5，該窗口長(zhǎng)度可以使得大部分實(shí)體中間的漢字也可以覆蓋實(shí)體周圍區(qū)域的非實(shí)體漢字。

在上述各種類別的實(shí)體中，實(shí)體分布是不均衡的，例如人名的實(shí)體數(shù)量特別多，達(dá)到了11 656個(gè)，但是關(guān)于武器的這種數(shù)量?jī)H僅是380個(gè)，數(shù)量差距比較大。這會(huì)導(dǎo)致模型對(duì)武器類的實(shí)體識(shí)別能力較差。

2.2 實(shí)驗(yàn)設(shè)計(jì)

在雙向樹形LSTM網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)標(biāo)注的過程中，雙向樹形LSTM和標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)的作用是對(duì)使用的詞向量等特征進(jìn)行融合，用條件隨機(jī)場(chǎng)實(shí)現(xiàn)數(shù)據(jù)標(biāo)注。但是在不同的語(yǔ)料庫(kù)中，由于實(shí)體的種類不一致，因此在條件隨機(jī)場(chǎng)中概率轉(zhuǎn)移矩陣的尺寸不一樣，而且相比于每個(gè)語(yǔ)料庫(kù)中標(biāo)簽的種類，條件隨機(jī)場(chǎng)的概率轉(zhuǎn)移矩陣需要加上句子填充標(biāo)簽和概率開始/結(jié)束標(biāo)簽。模型的實(shí)驗(yàn)參數(shù)見表2。

表2 網(wǎng)絡(luò)參數(shù)設(shè)置

2.3 實(shí)驗(yàn)結(jié)果

自然語(yǔ)言問題中模型的評(píng)價(jià)指標(biāo)一般用準(zhǔn)確率(Precision，P)、召回率(Recall，R)和F1值。準(zhǔn)確率代表著正確識(shí)別的實(shí)體在標(biāo)注樣本實(shí)體中的比例；召回率表示正確分類的實(shí)體在所有識(shí)別的實(shí)體中的比例；F1值為準(zhǔn)確率和召回率的一個(gè)調(diào)和平均值，是一個(gè)綜合指標(biāo)。各指標(biāo)具體計(jì)算方法如下：

(3)

(4)

(5)

式(3)～(5)中：TP表示正確實(shí)體標(biāo)注正確，F(xiàn)P表示正確實(shí)體標(biāo)注錯(cuò)誤，TN表示非實(shí)體標(biāo)注為實(shí)體。

在ACE 2005語(yǔ)料庫(kù)中采用條件隨機(jī)場(chǎng)實(shí)現(xiàn)數(shù)據(jù)標(biāo)注，使用LSTM網(wǎng)絡(luò)實(shí)現(xiàn)特征融合，使得輸入條件隨機(jī)場(chǎng)中的特征更加具有上下文特征，且沒有使用注意力機(jī)制條件和無殘差網(wǎng)絡(luò)的條件下實(shí)體識(shí)別效果。

實(shí)驗(yàn)1是在無詞性標(biāo)注的條件下使用單層Bi-LSTM網(wǎng)絡(luò)實(shí)現(xiàn)特征融合,實(shí)驗(yàn)2是使用單層Bi-LSTM和詞性標(biāo)注，實(shí)驗(yàn)3使用雙層Bi-LSTM和詞性標(biāo)注特征,實(shí)驗(yàn)4是在詞性標(biāo)注的條件下使用雙向樹形LSTM和Bi-LSTM融合特征。實(shí)驗(yàn)結(jié)果見表3。

表3 ACE 2005多語(yǔ)種語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)1和實(shí)驗(yàn)2結(jié)果相比，驗(yàn)證了在使用詞性標(biāo)注的條件下對(duì)于實(shí)體的識(shí)別效果是有很大提高的。實(shí)驗(yàn)3和實(shí)驗(yàn)4是在詞性標(biāo)注條件下使用雙層LSTM網(wǎng)絡(luò),實(shí)驗(yàn)3中使用的是雙層Bi-LSTM，與實(shí)驗(yàn)2和實(shí)驗(yàn)4相比，模型的準(zhǔn)確率、召回率和F1值均是比較差的，LSTM網(wǎng)絡(luò)在處理較長(zhǎng)的句子容易出現(xiàn)梯度消失，無法對(duì)第一層LSTM網(wǎng)絡(luò)的參數(shù)進(jìn)行指導(dǎo)性調(diào)整。實(shí)驗(yàn)4中雙向樹形LSTM和Bi-LSTM的模型是本文提出的模型，該模型的各項(xiàng)指標(biāo)在實(shí)驗(yàn)中是最好的。圖7是四個(gè)實(shí)驗(yàn)在ACE 2005語(yǔ)料庫(kù)中各個(gè)類別實(shí)體的F1值。

圖7 無注意力機(jī)制的模型對(duì)各個(gè)實(shí)體類別F1值

在圖7中，本文模型表示的在詞性標(biāo)注信息下的雙向樹形LSTM+Bi-LSTM模型。在本文的改進(jìn)模型中，在地理政治類別的F1值改變不明顯，在其他類別中F1值均有顯著提高。

3 結(jié) 論

基于雙向樹形長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)的中文實(shí)體識(shí)別模型，雙向樹形LSTM網(wǎng)絡(luò)可以提取句子中的長(zhǎng)距離依存關(guān)系特征和句法特征信息，其中正向樹形LSTM網(wǎng)絡(luò)獲取依存關(guān)系樹中當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)特征信息，反向樹形LSTM網(wǎng)絡(luò)提取父節(jié)點(diǎn)的特征信息。雙向樹形LSTM提取依存句法樹中動(dòng)詞和介詞的特征，推斷它們的主語(yǔ)或者賓語(yǔ)是否為實(shí)體，判斷實(shí)體的類別和邊界。實(shí)驗(yàn)也表明,基于雙向樹形LSTM網(wǎng)絡(luò)比雙層Bi-LSTM網(wǎng)絡(luò)能夠提取長(zhǎng)距離依存關(guān)系特征和句法特征信息,提高條件隨機(jī)場(chǎng)對(duì)中文實(shí)體的識(shí)別能力。