亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BiLSTM_Att的軍事領(lǐng)域?qū)嶓w關(guān)系抽取研究

        2019-09-12 10:41:42朱珊珊唐慧豐

        朱珊珊 唐慧豐

        摘 要:軍事領(lǐng)域中實(shí)體關(guān)系的抽取是該領(lǐng)域相關(guān)體系知識(shí)圖譜建設(shè)的重要步驟。本文設(shè)計(jì)了基于BiLSTM和注意力模型(Attention)的實(shí)體抽取模型,該模型分為詞向量表示、句子上下文特征提取以及關(guān)系分類(lèi)三個(gè)階段。在詞向量表示階段,模型創(chuàng)新性地加入詞性特征。在對(duì)相關(guān)語(yǔ)料進(jìn)行實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上,結(jié)果顯示該模型對(duì)軍事類(lèi)實(shí)體關(guān)系抽取有較好的F值。

        關(guān)鍵詞:關(guān)系抽取; BiLSTM_Att; 向量表示; 詞性特征

        文章編號(hào):2095-2163(2019)04-0096-04 中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

        0 引 言

        作為國(guó)家政治集體的軍事武裝力量,軍隊(duì)有著嚴(yán)格的組織關(guān)系,且具有分工明確、又可以聯(lián)合聯(lián)動(dòng)的關(guān)系特性。對(duì)于軍事類(lèi)實(shí)體進(jìn)行關(guān)系抽取是豐富軍隊(duì)軍事結(jié)構(gòu)資料庫(kù),構(gòu)成完整明晰關(guān)系網(wǎng)的重要組成部分。

        近年來(lái),F(xiàn)reeBase、DBpedia、百度百科等知識(shí)庫(kù)的建設(shè)為諸多互聯(lián)網(wǎng)應(yīng)用提供了可靠的數(shù)據(jù)來(lái)源。知識(shí)圖譜作為一種智能、高效的信息組織形式,能夠?qū)?shí)體本身以及實(shí)體的各類(lèi)關(guān)系以網(wǎng)狀連接的圖譜形式完整地描述出來(lái),并進(jìn)行可視化的展示,是一種清晰明了的數(shù)據(jù)內(nèi)容及其內(nèi)部關(guān)系展示形式。

        知識(shí)圖譜的發(fā)展經(jīng)歷了3個(gè)時(shí)代。知識(shí)圖譜早期被稱為本體時(shí)代。2001 年隨著Wikipedia出現(xiàn),知識(shí)圖譜進(jìn)入語(yǔ)義網(wǎng)時(shí)代。前期2個(gè)階段的知識(shí)圖譜構(gòu)建方式包括人工編輯和自動(dòng)抽取,但自動(dòng)抽取方法主要是基于在線百科中結(jié)構(gòu)化信息而忽略了非結(jié)構(gòu)化文本,而互聯(lián)網(wǎng)中大部分的信息恰恰是以非結(jié)構(gòu)化的自由文本形式呈現(xiàn)。與鏈接數(shù)據(jù)發(fā)展的同期,許多知識(shí)獲取的方法被提出,這些方法大多基于信息抽取技術(shù),用以構(gòu)建基于自由文本的開(kāi)放域知識(shí)圖譜。隨著信息抽取技術(shù)的不斷進(jìn)步,2012年Google Knowledge graph上線,自此進(jìn)入了知識(shí)圖譜時(shí)代。

        早期的實(shí)體和關(guān)系抽取,包括實(shí)體關(guān)系的特征設(shè)計(jì)、語(yǔ)料的標(biāo)注等,基本都是由人工完成的。但是由于自然語(yǔ)言處理的標(biāo)注工具使用因人而異,并且人工選擇的特征會(huì)直接影響到關(guān)系抽取和分類(lèi)的效果,因此即使耗費(fèi)巨大的人力物力,關(guān)系抽取的效果也并非十分理想。而基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型則可以通過(guò)多層次網(wǎng)絡(luò)分析對(duì)大規(guī)模文本語(yǔ)料自動(dòng)挖掘特征信息[1]。例如,循環(huán)神經(jīng)網(wǎng)絡(luò)在捕捉句子的上下文信息方面有著良好表現(xiàn),可以反映一個(gè)句子中多實(shí)體間的關(guān)系。但循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)長(zhǎng)距離依賴不夠,因此本文使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)捕獲句子更多的上下文信息。同時(shí),在對(duì)單詞進(jìn)行向量表示時(shí),除了加入位置信息外,還加入詞性特征,并使用注意力機(jī)制提取語(yǔ)句層面的特征,根據(jù)最后輸出向量進(jìn)行分類(lèi),完成實(shí)體關(guān)系抽取任務(wù)。

        1 相關(guān)研究

        在知識(shí)圖譜的發(fā)展需求推動(dòng)下,關(guān)系抽取的方法從上世紀(jì)后半葉的基于人工編寫(xiě)規(guī)則的方法,逐漸發(fā)展到基于統(tǒng)計(jì)的方法,直至近十年來(lái)基于機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法的陸續(xù)涌現(xiàn)[2]。

        早期基于規(guī)則的方法雖然促進(jìn)了關(guān)系抽取研究的長(zhǎng)足進(jìn)步,但其自身的局限性也很明顯,如:人工編寫(xiě)規(guī)則的過(guò)程較復(fù)雜、規(guī)則產(chǎn)生的效率較低、系統(tǒng)針對(duì)性好、通用性差等,所以后來(lái)的研究逐漸又轉(zhuǎn)向基于統(tǒng)計(jì)的方法。隨著網(wǎng)絡(luò)開(kāi)放程度增加,以及電子元器件計(jì)算速度、存儲(chǔ)能力的提升,文本數(shù)據(jù)體量和規(guī)模迅速增長(zhǎng)。基于統(tǒng)計(jì)的方法開(kāi)始快速發(fā)展并獲得廣泛應(yīng)用,主要包括監(jiān)督學(xué)習(xí)、Bootstrap方法、遠(yuǎn)程監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)等。

        基于統(tǒng)計(jì)的學(xué)習(xí)方法,首先需要大量完整已進(jìn)行實(shí)體標(biāo)注和實(shí)體間關(guān)系標(biāo)注的語(yǔ)料庫(kù),然后根據(jù)定義的關(guān)系類(lèi)型和定義的實(shí)體類(lèi)型,通過(guò)提取文本特征,將詞特征、位置特征等通過(guò)不同的分類(lèi)算法訓(xùn)練模型,在測(cè)試時(shí)根據(jù)訓(xùn)練的模型抽取訓(xùn)練語(yǔ)料的實(shí)體對(duì),并判斷其關(guān)系類(lèi)型。由于在特征提取的過(guò)程中需要依賴自然語(yǔ)言處理的自動(dòng)分詞、詞性標(biāo)注等工具,就使得在對(duì)語(yǔ)料處理時(shí)工具操作中所造成正確率損失,會(huì)對(duì)最終的分類(lèi)性能產(chǎn)生影響。除此之外,文本特征提取過(guò)程還需要參照專(zhuān)家經(jīng)驗(yàn),因此特征的設(shè)計(jì)和驗(yàn)證需要耗費(fèi)大量人力物力。但統(tǒng)計(jì)方法不僅可以在無(wú)標(biāo)注文本中抽取出實(shí)體對(duì)及其關(guān)系,也在一定程度上脫離了對(duì)領(lǐng)域知識(shí)的依賴。

        近十年來(lái),深度學(xué)習(xí)成為實(shí)體關(guān)系抽取中頗受業(yè)界矚目的研究新方法,深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí)方法,具有靈活性好、性能高等特點(diǎn)。相比于基于統(tǒng)計(jì)的方法,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型可以自動(dòng)獲取文本特征,并不需要對(duì)文本特征進(jìn)行復(fù)雜的設(shè)計(jì)和驗(yàn)證?;谏疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法和基于統(tǒng)計(jì)的監(jiān)督方法相比主要有2個(gè)優(yōu)勢(shì),可闡釋分述如下。

        (1)在字、詞、短語(yǔ)等結(jié)構(gòu)上統(tǒng)一使用低維、連續(xù)的向量表示,具體根據(jù)不同模型需要的不同顆粒度進(jìn)行調(diào)整。

        (2)在更大單元,即句子、篇章等向量表示上,使用不同的神經(jīng)網(wǎng)絡(luò)模型組合各類(lèi)較小語(yǔ)言單元的特征向量。

        研究中選用深度學(xué)習(xí)框架下的神經(jīng)網(wǎng)絡(luò)模型,對(duì)特征進(jìn)行抽取和選擇是自動(dòng)完成的,因此其在效率和正確率上也超過(guò)了傳統(tǒng)的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。

        2 BiLSTM_Att模型

        為了表示更豐富的上下文信息,模型選取雙向LSTM,即BiLSTM對(duì)提取的詞向量進(jìn)行特征表示,隨后加入注意力模型(Attention)對(duì)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行加權(quán),在此基礎(chǔ)上輸出關(guān)系分類(lèi)的結(jié)果。因此BiLSTM_Att模型分為3個(gè)階段,即:首先,進(jìn)行詞的向量表示;然后,是BiLSTM融合上下文信息;最后,是注意力模型對(duì)LSTM的輸出訓(xùn)練權(quán)重矩陣。該模型的框架設(shè)計(jì)如圖1所示。這里,擬對(duì)此展開(kāi)研究論述如下。

        2.1 加入詞性的詞向量表示

        對(duì)詞進(jìn)行向量表示主要包括2個(gè)部分。一是詞語(yǔ)本身的詞向量訓(xùn)練,在訓(xùn)練過(guò)程中加入了詞性信息。二是詞的位置特征,指的是一個(gè)詞距離該句子中2個(gè)實(shí)體詞的位置關(guān)系。

        在詞向量訓(xùn)練前,根據(jù)詞性標(biāo)注結(jié)果,輸入的詞由“詞-詞性”表示,例如句子“Evo Morales has put Bolivia on the map.”經(jīng)過(guò)預(yù)處理并加入詞性信息后輸入為“/Evo Morales_n /has_v /put_v /Bolivia_n /on_p /the_rzt /map_n”。由于word2ver是對(duì)word embedding的優(yōu)化,因此本文的詞向量訓(xùn)練使用word2ver工具中的CBOW模型。CBOW模型的輸入是一個(gè)詞對(duì)應(yīng)的上下文詞的詞向量,而輸出是該詞的詞向量。例如一個(gè)句子片段“…distributed representations which encode the relevant grammatical relations…”上下文大小為6,輸出詞是“encode”,那么輸出的是“encode”的前3個(gè)詞和后3個(gè)詞的詞向量。需要說(shuō)明的是,這6個(gè)詞是沒(méi)有先后順序的,使用了詞袋模型。該模型的訓(xùn)練過(guò)程中,研究定義了詞向量的維度大小M,以及CBOW的上下文大小2c,這樣對(duì)于訓(xùn)練樣本中的每一個(gè)詞,其前面的c個(gè)詞和后面的c個(gè)詞作為CBOW模型的輸入,所有詞匯詞向量w作為輸出。

        除此之外,由于word2ver訓(xùn)練詞向量使用的是詞袋模型,沒(méi)有包含詞的位置信息,因此文本加入了詞的位置向量以描述位置信息。例如在句子“Evo Morales has put Bolivia on the map.”中,單詞“has”距離“Evo Morales”和“Bolivia”兩個(gè)實(shí)體分別為1和-2。將單詞相對(duì)“head entity”和“tail entity”的距離映射成2個(gè)距離向量,組合詞向量成為這個(gè)單詞的向量表示。

        該階段對(duì)句子中詞向量訓(xùn)練結(jié)束后,得到的是一個(gè)實(shí)數(shù)矩陣并傳遞給下一層,矩陣中包括了一個(gè)句子所有詞的特征信息。

        2.2 BiLSTM

        LSTM最早由Hochreiter和Schmidhuber[3]提出,為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失問(wèn)題。主要思想是引入門(mén)機(jī)制,從而能夠控制每一個(gè)LSTM單元保留的歷史信息的程度以及記憶當(dāng)前輸入的信息,保留重要特征,丟棄不重要的特征。為了將上文信息和下文信息都進(jìn)行表征,本文采用雙向LSTM,將上一個(gè)細(xì)胞狀態(tài)同時(shí)引入到輸入門(mén)、遺忘門(mén)以及新信息的計(jì)算當(dāng)中。該LSTM模型也同樣包含4個(gè)部分,如圖2所示。由圖2研究可知,其功能設(shè)計(jì)過(guò)程可解析概述如下。

        輸出門(mén)包含了當(dāng)前輸入、上一個(gè)隱狀態(tài)、上一個(gè)細(xì)胞狀態(tài),組成權(quán)重矩陣,以決定加入多少新信息。對(duì)應(yīng)的數(shù)學(xué)公式為:

        遺忘門(mén)則決定丟棄多少舊的信息。對(duì)應(yīng)的數(shù)學(xué)公式為:

        細(xì)胞狀態(tài)包含了上一個(gè)細(xì)胞狀態(tài)以及基于當(dāng)前輸入和上個(gè)隱狀態(tài)層信息生成的新信息。對(duì)應(yīng)的數(shù)學(xué)公式為:

        輸出門(mén)則包含了當(dāng)前輸入、上一個(gè)隱狀態(tài)、當(dāng)前細(xì)胞狀態(tài),組成權(quán)重矩陣,以決定哪些信息被輸出。對(duì)應(yīng)的數(shù)學(xué)公式為:

        最終,輸出的當(dāng)前隱狀態(tài)可由當(dāng)前細(xì)胞狀態(tài)乘以輸出門(mén)的權(quán)重矩陣得到。對(duì)應(yīng)的數(shù)學(xué)公式為:

        2.3 Attention機(jī)制

        注意力模型是從心理學(xué)上的注意力模型中引入的。人腦的注意力模型指的是,當(dāng)一個(gè)人看到了整幅畫(huà)面時(shí),在特定的時(shí)刻t,人的意識(shí)和注意力的焦點(diǎn)是集中在畫(huà)面中的某一個(gè)部分上,其它部分雖然還在人的眼中,但是分配給這些部分的注意力資源是很少的。深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上看和人類(lèi)觀察事物的選擇性視覺(jué)注意力機(jī)制類(lèi)似,就是從視覺(jué)所觀察范圍內(nèi)的眾多信息中選擇核心觀察點(diǎn),也就是對(duì)完成當(dāng)前任務(wù)最重要的一部分信息。

        3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

        相比于無(wú)領(lǐng)域關(guān)系抽取,軍事類(lèi)實(shí)體關(guān)系抽取要在更大程度上受制于軍隊(duì)組織機(jī)構(gòu)隸屬關(guān)系、人員隸屬關(guān)系以及武器裝備系統(tǒng)的分隊(duì)等。因此,針對(duì)軍事領(lǐng)域?qū)嶓w關(guān)系抽取,本文選取了3 000條相關(guān)語(yǔ)料進(jìn)行標(biāo)注,其中涉及到的實(shí)體關(guān)系共有7種,詳見(jiàn)表1。

        對(duì)3 000條標(biāo)注語(yǔ)料進(jìn)行篩選,補(bǔ)全核對(duì)標(biāo)注信息,并進(jìn)行預(yù)處理后,將其中的2 500條作為訓(xùn)練語(yǔ)料,500條作為測(cè)試語(yǔ)料。各個(gè)類(lèi)別測(cè)試結(jié)果見(jiàn)表2。

        測(cè)試結(jié)果顯示,“校友”關(guān)系和“歸屬”關(guān)系的整體識(shí)別率較高,但是“上下級(jí)”關(guān)系的識(shí)別效果不理想,并且該關(guān)系類(lèi)型也是召回率最低的。

        4 結(jié)束語(yǔ)

        文本使用BiLSTM_Att模型完成了對(duì)軍事類(lèi)中文語(yǔ)料的關(guān)系抽取任務(wù)。該模型由加入詞性和位置信息的詞向量訓(xùn)練、雙向LSTM上下文特征抓取以及注意力模型的權(quán)重分配三個(gè)階段組成。在對(duì)語(yǔ)料進(jìn)行實(shí)驗(yàn)后發(fā)現(xiàn),該模型整體效果較好,但是對(duì)于“上下級(jí)”、“平行”關(guān)系類(lèi)型的識(shí)別召回率還是略有遜色。因此,在接下來(lái)的實(shí)驗(yàn)中,應(yīng)更關(guān)注于實(shí)體關(guān)系抽取召回率的提升。除此之外,對(duì)軍事領(lǐng)域關(guān)系抽取的語(yǔ)料建設(shè)也應(yīng)有所關(guān)注。

        參考文獻(xiàn)

        [1] 莊成龍, 錢(qián)龍華, 周?chē)?guó)棟. 基于樹(shù)核函數(shù)的實(shí)體語(yǔ)義關(guān)系抽取方法研究[J]. 中文信息學(xué)報(bào), 2009, 23(1):3-8,34.

        [2]車(chē)萬(wàn)翔, 劉挺, 李生. 實(shí)體關(guān)系自動(dòng)抽取[J]. 中文信息學(xué)報(bào), 2005, 19(2):1-6.

        [3] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

        [4] RINK B, HARABAGIU S. Utd:Classifying semantic relations by combining lexical and semantic resources[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden:Association for Computational Linguistics, 2010:256-259.

        [5] KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on Interactive poster and demonstration sessions. Barcelona,Spain:Association for Computational Linguistics, 2004:1-5.

        [6] 杜嘉,劉思含,李文浩,等. 基于深度學(xué)習(xí)的煤礦領(lǐng)域?qū)嶓w關(guān)系抽取研究[J]. 智能計(jì)算機(jī)與應(yīng)用,2019,9(1):114-118.

        [7] 萬(wàn)靜,李浩銘,嚴(yán)歡春,等. 基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取方法研究[J/OL]. 計(jì)算機(jī)應(yīng)用研究:1-6[2018-12-26]. http://kns.cnki.net/kcms/detail/51.1196.TP.20181225.1615.003.html.

        激情综合色五月丁香六月亚洲| 国产av一级二级三级| 看女人毛茸茸下面视频| 亚洲乱亚洲乱妇50p| 国产免费破外女真实出血视频| 久久久久久国产福利网站| 成人男性视频在线观看| 色综合久久中文娱乐网| 真人二十三式性视频(动)| 欧美日一本| 少妇下面好紧好多水真爽| 美国少妇性xxxx另类| 中国丰满大乳乳液| 亚洲色AV天天天天天天| 成人一区二区三区激情视频| 久久久久亚洲av无码专区喷水| av人摸人人人澡人人超碰小说| 亚洲欧美日本人成在线观看| 一本色道久久亚洲av红楼| 天堂网www资源在线| 男人天堂网在线视频| 久久久亚洲日本精品一区| 日产精品高潮一区二区三区5月| 日本三级欧美三级人妇视频黑白配 | 亚洲AV激情一区二区二三区| 日韩男女av中文字幕| 优优人体大尺大尺无毒不卡| 高中生粉嫩无套第一次| 99久久精品国产片| 日本午夜精品一区二区三区| 中文无码精品a∨在线观看不卡 | 男的和女的打扑克的视频| 欧美奶涨边摸边做爰视频| 少妇人妻真实偷人精品视频| 高潮社区51视频在线观看| 久草视频这里只有精品| 香港台湾经典三级a视频| 欧美深夜福利网站在线观看| 亚洲激情视频在线观看a五月| 亚洲综合成人婷婷五月网址| 久久精品岛国av一区二区无码|