亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別

2018-05-04 06:46:24周俊生顧彥慧曲維光

中文信息學(xué)報 2018年3期

王蕾，謝云，周俊生，顧彥慧，曲維光

(南京師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，江蘇南京 210046)

0 引言

命名實體識別(NER)是指從文本中識別出人名、地名和機構(gòu)名等專有名詞，是自然語言處理的關(guān)鍵技術(shù)之一，也是信息抽取、問答系統(tǒng)、句法分析、機器翻譯等應(yīng)用的重要基礎(chǔ)工作[1]。隨著互聯(lián)網(wǎng)的飛速發(fā)展和大數(shù)據(jù)時代的到來，文本數(shù)據(jù)規(guī)模越來越大，領(lǐng)域變得更多，本文內(nèi)容也變得更復(fù)雜。探索更具實用性的新的有效識別方法，成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點問題。

目前，解決命名實體識別問題的主流方法是基于統(tǒng)計學(xué)習(xí)模型的方法，包括基于最大熵(ME)模型、隱馬爾可夫(HMM)模型、條件隨機場(CRF)模型等命名實體識別方法[2-4]。傳統(tǒng)方法通常依賴特征工程保證系統(tǒng)性能。然而，特征模板的制定需要人工設(shè)計和大量專家知識。特征設(shè)計需要實驗進行反復(fù)修改、調(diào)整和選擇，非常費時費力。傳統(tǒng)方法中數(shù)據(jù)采用稀疏表示，容易導(dǎo)致參數(shù)爆炸等問題。在面對大規(guī)模多領(lǐng)域復(fù)雜的文本數(shù)據(jù)時，傳統(tǒng)方法則暴露出更多不足。

對于中文命名實體識別任務(wù)，現(xiàn)有的方法通常將該任務(wù)看作一個字符序列標(biāo)注問題，通過對字符分配標(biāo)記完成命名實體識別[5-6]。由于中文句子中單詞間沒有分隔符號，相比于字符序列標(biāo)注模型，直接對中文句子中的片段進行標(biāo)記分配更為合理，可以避免字符序列標(biāo)注方法中依賴局部標(biāo)記區(qū)分實體邊界的問題。Zhou等人[7]提出中文命名實體邊界識別與實體類別識別集成的算法模型，引入片段特征解決中文命名實體識別問題。但該方法采用傳統(tǒng)統(tǒng)計學(xué)習(xí)模型，仍然嚴(yán)重依賴具體任務(wù)的特征工程。

近幾年，深度學(xué)習(xí)為解決自然語言處理問題提供了一種新的方法和途徑，受到廣泛關(guān)注。深度學(xué)習(xí)可以實現(xiàn)特征的自動學(xué)習(xí)，采用低維、稠密的實值向量表示數(shù)據(jù)，避免對人工和專家知識的嚴(yán)重依賴?；谏疃葘W(xué)習(xí)的命名實體識別方法受到關(guān)注。現(xiàn)有研究工作中，Collobert和Weston構(gòu)建SENNA系統(tǒng)為多項自然語言處理任務(wù)提供統(tǒng)一的神經(jīng)網(wǎng)絡(luò)底層結(jié)構(gòu)，包括命名實體識別任務(wù)[8]；Turian等人使用神經(jīng)網(wǎng)絡(luò)預(yù)先訓(xùn)練的詞向量作為額外特征，與傳統(tǒng)基于CRF的方法結(jié)合解決命名實體識別問題[9]；Lample等人針對命名實體識別任務(wù)提出雙向長短期記憶模型(Bi-LSTM)和CRF模型的組合結(jié)構(gòu)[10]；Ma等人將Bi-LSTM、卷積神經(jīng)網(wǎng)絡(luò)(CNN)與CRF模型結(jié)合構(gòu)建了序列標(biāo)記模型[9]；Chiu和Nichols利用Bi-LSTM和CNN對輸入信息進行處理，完成命名實體識別任務(wù)[11]；Liu等人以片段信息表示作為輸入，采用神經(jīng)網(wǎng)絡(luò)與半馬爾可夫條件隨機場(semi-CRF)模型結(jié)合完成英文命名實體識別任務(wù)[12]。目前，基于神經(jīng)網(wǎng)絡(luò)的中文命名實體識別研究較少，且主要采用字符序列標(biāo)注模型[13]，還沒有基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別研究工作。

因此，我們主要對基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別方法進行探索研究，減弱對人工特征設(shè)計和專家知識的依賴，避免字符序列化標(biāo)注模型的不足。在Liu等人的研究工作[12]基礎(chǔ)上，我們結(jié)合中文語言特性和中文命名實體識別任務(wù)的特點，除片段內(nèi)部字符和片段整體表示之外，引入離散特征與稠密向量表示結(jié)合的片段擴展特征表示，改進解碼算法獲取片段級上文信息，通過對片段整體分配標(biāo)記完成中文命名實體識別任務(wù)。

1 基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別

中文句子中詞與詞之間沒有分隔符號，中文命名實體識別需要完成實體邊界識別和實體分類任務(wù)。片段級的中文命名實體識別方法基于片段獲取表示信息，對于輸入的句子序列進行片段切分并對切分序列中的片段整體進行標(biāo)記分配。相比于字符序列化標(biāo)注方法，對片段整體進行標(biāo)記分配更為合理，可以避免識別過程中依賴局部標(biāo)記來區(qū)分實體邊界的問題。

我們采用“PER”“LOC”和“ORG”分別表示人名、地名和組織機構(gòu)名。以句子“中華人民共和國主席習(xí)近平在北京接受中央電視臺采訪。”為例作為輸入序列，對片段分配標(biāo)記后為“中華人民共和國/LOC 主席/O 習(xí)近平/PER 在/O 北京/LOC 接受/O 中央電視臺/ORG 采訪/O 。/O”。例子中，“中華人民共和國”“主席”“習(xí)近平”等看作是句子序列中的片段。在標(biāo)記集合T={PER, LOC, ORG, O}中選取具體的標(biāo)記分配給當(dāng)前片段。

Semi-CRF模型是一種典型的對片段整體分配標(biāo)記的方法[14]，但基于semi-CRF的命名實體識別方法具有傳統(tǒng)統(tǒng)計學(xué)習(xí)模型的不足。因此，選用基于神經(jīng)網(wǎng)絡(luò)和semi-CRF結(jié)合的片段神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)特征的自動學(xué)習(xí)，可以避免繁瑣的人工特征設(shè)計和對大量語言先驗知識的依賴。

對于輸入的句子序列x，有相應(yīng)的切分片段序列s=(s1,s2,…,sp)。對于片段sj=，其中uj表示片段起始字符在句子中的下標(biāo)，vj表示片段結(jié)尾字符在句子中的下標(biāo)，yj表示片段的標(biāo)記。處理該片段時，基于片段sj的信息表示作為當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的輸入，通過神經(jīng)網(wǎng)絡(luò)計算獲得當(dāng)前片段的抽象表示向量代替?zhèn)鹘y(tǒng)方法中的稀疏特征向量。Liu等人主要考慮片段內(nèi)部單元和片段整體信息[12]。我們引入片段相關(guān)擴展特征，從片段內(nèi)部字符單元(Eunit)、片段整體(Eseg)和片段相關(guān)擴展特征表示信息(Fextend)三個方面，結(jié)合稠密向量表示和離散特征獲取當(dāng)前片段信息，模型結(jié)構(gòu)如圖1所示。

圖1 片段級中文命名實體識別模型結(jié)構(gòu)

具體的，我們研究兩種神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu): (1)Bi-LSTM和標(biāo)準(zhǔn)神經(jīng)層構(gòu)成的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；(2)Bi-LSTM、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)和標(biāo)準(zhǔn)神經(jīng)層構(gòu)成的組合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

1.1 基于Bi-LSTM的片段級中文命名實體識別

(1)

片段內(nèi)字符單元的向量表示按序連接形成片段內(nèi)部特征表示Eunitj，即對于片段sj，Eunitj具體表示如式(2)所示。

Eunitj=[Cuj;Cuj+1;…;Cvj]

(2)

其中，[;;…;]表示各個向量依次連接構(gòu)成一個向量。

由于切分片段序列中的片段長度不統(tǒng)一，為了使輸入下一層計算的向量長度固定，模型設(shè)置最大片段長度為L。設(shè)dC表示向量Ci的維數(shù)，若當(dāng)前片段長度小于L則對Eunitj向量進行末尾填充至長度為D=L×dC維的向量。

片段sj的整體向量表示Esegj通過lookup操作從片段向量表中獲得，如果片段向量表中不存在當(dāng)前片段的向量，則選用特殊符號“UNKSEG”的向量表示，“UNKSEG”的初始向量取隨機值。

片段相關(guān)的其他特征向量表示Fextendj主要包含片段長度信息和片段上文已完成切分的片段相關(guān)信息，當(dāng)前處理片段的前文切分片段通過查詢片段向量表獲得，片段長度特征向量通過查詢片段長度特征向量表獲得。通過神經(jīng)網(wǎng)絡(luò)模型處理輸出片段的最終表示Esj，如式(3)所示。

Esj=relu(WS[Eunitj;Esegj;Fextendj;Eyj]+bS)

(3)

式(3)中，[;;]表示其中各向量連接構(gòu)成一個向量，WS是權(quán)值參數(shù)，bS是偏置項，Eyj是標(biāo)記yj的向量表示。Esj是當(dāng)前片段sj通過神經(jīng)網(wǎng)絡(luò)模型輸出的特征表示，也是替代傳統(tǒng)基于semi-CRF模型的方法中片段特征表示的向量。圖2是神經(jīng)網(wǎng)絡(luò)模型獲得片段表示的具體結(jié)構(gòu)。

圖2 基于Bi-LSTM的神經(jīng)網(wǎng)絡(luò)獲取片段向量的結(jié)構(gòu)圖

模型訓(xùn)練采用極大似然估計，神經(jīng)網(wǎng)絡(luò)模型優(yōu)化選用SGD算法，初始學(xué)習(xí)率設(shè)為η0，正則化方法采用dropout技術(shù)。預(yù)測過程中，處理當(dāng)前切分片段時，通過神經(jīng)網(wǎng)絡(luò)模型獲取片段信息的向量表示，結(jié)合semi-CRF模型進行解碼。

1.2 基于組合神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別

為了避免向量填充(padding)，減少人工設(shè)置參數(shù)對系統(tǒng)的影響和限制，我們進一步研究采用Bi-LSTM模型與其他神經(jīng)網(wǎng)絡(luò)模型的組合模型結(jié)構(gòu)獲取片段信息。隨著不同的神經(jīng)網(wǎng)絡(luò)模型的組合和模型結(jié)構(gòu)的加深，模型對輸入的信息表示可以獲得更抽象的特征信息，模型的刻畫能力更強。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)是序列模型，能考慮上下文信息，因此我們選用Bi-LSTM、Bi-RNN和普通神經(jīng)層的組合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

圖3 組合神經(jīng)網(wǎng)絡(luò)獲得Eunitj的模型結(jié)構(gòu)圖

對于當(dāng)前片段sj，通過lookup操作從片段向量表中獲得該片段整體向量表示Esegj，若當(dāng)前片段在片段向量表中不存在，則選取特殊符號“UNKSEG”的向量表示，“UNKSEG”的初始值選取隨機值。

片段相關(guān)的其他特征向量表示Fextendj主要是包含片段上文切分片段相關(guān)信息和片段本身長度信息的特征。處理當(dāng)前片段時，對于前文切分產(chǎn)生的片段通過查詢片段向量表獲得前一個切分片段的向量表示，若片段向量表中不存在查詢的片段，則選用特殊符號“UNKPSEG”的向量表示，“UNKPSEG”取隨機值初始化。片段長度特征信息通過查詢片段長度特征表獲得，每個長度值對應(yīng)唯一的長度表示向量，初始向量值為隨機值。

基于當(dāng)前片段獲取的信息表示，通過神經(jīng)網(wǎng)絡(luò)模型輸出片段的最終表示Esj，具體計算如式(3)所示。Esj是對于當(dāng)前片段sj通過神經(jīng)網(wǎng)絡(luò)模型輸出的片段信息表示向量。圖4是獲得片段向量表示的組合神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。

圖4 獲取片段表示向量的組合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

模型訓(xùn)練采用似然估計，選用SGD優(yōu)化算法，初始學(xué)習(xí)率設(shè)為η0，正則化方法采用dropout技術(shù)。預(yù)測時，與傳統(tǒng)semi-CRF方法中的解碼算法結(jié)合獲得句子的切分片段序列和相應(yīng)的片段標(biāo)記序列。

1.3 片段特征表示

1.3.1 片段內(nèi)部字符單元特征

中文字符是構(gòu)成中文句子的最小單元，也是片段內(nèi)部的基本組成單元。對于當(dāng)前處理片段，針對片段內(nèi)部組成單元即各字符信息提取的特征表示，本文稱為片段內(nèi)部單元特征，記為Eunit。

具體實現(xiàn)過程中，對于輸入序列x，序列中的每個元素xi有相應(yīng)的字符向量表示exi，字符xi通過Bi-LSTM編碼計算后得到向量表示Ci。對于片段sj=，其內(nèi)部單元對應(yīng)于輸入序列中的字符子序列(xuj,xuj+1,…,xvj)，經(jīng)過Bi-LSTM編碼計算輸出字符表示后，片段sj內(nèi)部字符單元相應(yīng)的向量序列為Cj=(Cxuj,Cxuj+1,…,Cxvj)。片段內(nèi)部單元特征表示向量通過對序列中所有向量進行處理獲得。根據(jù)不同的網(wǎng)絡(luò)結(jié)構(gòu)，向量的處理方法不同。

1.3.2 片段整體特征

為了從片段整體獲取片段語義信息，我們采用低維、稠密的片段向量表示片段整體，稱為片段整體特征，記為Eseg。

對于當(dāng)前處理的片段sj=，模型將片段看作一個整體獲取向量表示，即片段級的向量。具體是通過查表獲得當(dāng)前片段的向量表示，若不存在查詢的片段則選用“UNKSEG”符號的向量，取隨機值初始化。片段向量表中初始的片段級詞向量是利用無標(biāo)注的預(yù)訓(xùn)練語料通過預(yù)訓(xùn)練獲得。

1.3.3 片段相關(guān)擴展特征

中文命名實體的上下文信息具有相應(yīng)的特點。如“老師”“書記”等詞常出現(xiàn)于人名的上下文中，“奔赴”“境內(nèi)”等詞常出現(xiàn)在地名的上下文中。為了獲取更豐富的片段信息，我們在當(dāng)前片段信息基礎(chǔ)上，引入上文片段信息。結(jié)合片段長度信息，將離散特征與稠密向量表示結(jié)合構(gòu)成片段相關(guān)擴展特征，記為Fextend。

具體的，由于處理到當(dāng)前片段時下文還未進行切分，所以我們關(guān)注當(dāng)前處理片段的上文信息，選取當(dāng)前處理片段的前一個切分片段。通過查詢預(yù)先訓(xùn)練的片段向量表獲取向量表示，若不存在當(dāng)前片段，則采用特殊符號“UNKPSEG”的向量，該符號向量選取隨機值初始化。關(guān)于片段長度特征則構(gòu)建額外的特征向量表，不同長度對應(yīng)唯一的離散特征向量。上文片段向量與長度特征向量連接構(gòu)成Fextend。

1.4 解碼算法

片段表示引入上文片段信息時，采用傳統(tǒng)semi-CRF的解碼算法無法滿足獲取前一個已切分片段的信息[13]。解碼算法需要將原解碼過程中的0階動態(tài)規(guī)劃算法修改為1階動態(tài)規(guī)劃算法[15]，使得在子問題計算過程中，當(dāng)前片段的前一個切分片段的信息可見。圖5給出了算法的簡要描述。

圖5 片段級中文命名實體識別方法1階動態(tài)規(guī)劃解碼算法

2 相關(guān)工作比較

近十幾年來，對于中文命名實體識別研究主要基于傳統(tǒng)統(tǒng)計學(xué)習(xí)模型，通常將任務(wù)看作一個字符序列標(biāo)注問題。如廖先桃討論了中文命名實體識別的幾種方法[2]，包括規(guī)則、HMM、ME和CRF。史海峰以CRF模型為基礎(chǔ)實現(xiàn)在字一級對于命名實體的識別[5]。對于中文命名實體識別任務(wù)，對片段整體分配標(biāo)記更為合理，可以避免字符序列化標(biāo)注方法需要依賴局部標(biāo)記區(qū)分實體邊界的問題。Zhou等人提出中文命名實體邊界識別與類別識別集成的算法模型[7]，引入片段級特征，同時完成實體邊界識別和類別識別兩個子任務(wù)。但該方法仍然基于傳統(tǒng)統(tǒng)計學(xué)習(xí)模型，依賴具體任務(wù)相關(guān)的特征工程。

為了避免具體任務(wù)的特征工程，Kong等人將神經(jīng)網(wǎng)絡(luò)與semi-CRF結(jié)合，提出一種片段級的循環(huán)神經(jīng)網(wǎng)絡(luò)(SRNN)模型，對于輸入序列進行片段切分和片段標(biāo)記分配[16]。Liu等人在Kong等人的研究基礎(chǔ)上提出SCONCATE模型[12]，采用片段級神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過獲取片段內(nèi)部字符特征表示和片段整體表示對片段分配標(biāo)記，解決英文命名實體識別問題。

目前還沒有基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別研究。由于中文句子單詞間沒有明顯分隔符號，相比于英文命名實體識別，中文命名實體更加復(fù)雜且缺少明顯的詞形變化等特征，任務(wù)更困難。只考慮字符或當(dāng)前片段表示不能很好地解決中文命名實體識別問題。為了更有效地獲取片段信息，我們引入離散特征與稠密向量表示結(jié)合的片段擴展特征表示，改進解碼算法獲取片段級上文信息，通過對片段整體分配標(biāo)記完成中文命名實體識別任務(wù)。

3 實驗

3.1 數(shù)據(jù)

實驗數(shù)據(jù)使用MSRA語料，基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別模型利用MSRA訓(xùn)練集進行訓(xùn)練，在MSRA測試集上完成測試。針對語料在實驗中的實際應(yīng)用，首先對訓(xùn)練集進行相應(yīng)的語料預(yù)處理工作。將訓(xùn)練集中的句子轉(zhuǎn)化為“訓(xùn)練集句子-片段標(biāo)記序列”作為模型輸入的訓(xùn)練數(shù)據(jù)集。模型的測試集是MSRA測試集，是不包含任何切分信息和標(biāo)記信息的中文句子。

關(guān)于模型初始輸入的字符向量和片段向量，我們采用Word2Vec工具對無標(biāo)注語料進行預(yù)訓(xùn)練[17]。初始輸入向量預(yù)訓(xùn)練的語料集額外引入新華社2000～2004年和《人民日報》2000年語料。向量預(yù)訓(xùn)練語料規(guī)模主要分為兩種: (1)MSRA訓(xùn)練集；(2)MSRA訓(xùn)練集、新華社和《人民日報》共六年語料數(shù)據(jù)集合。以上兩種預(yù)訓(xùn)練語料記為pre1和pre2。

3.2 參數(shù)設(shè)置

實驗包含多個超參數(shù)，關(guān)于神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)設(shè)置具體數(shù)值如表1所示。

表1 用于實驗的神經(jīng)網(wǎng)絡(luò)模型超參數(shù)設(shè)置

表1中，第1組超參數(shù)是基于Bi-LSTM的片段級中文命名實體識別模型實驗的參數(shù)。第2組是在基于組合神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別模型中所需的參數(shù)，第1組和第2組共同組成基于組合神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別模型的參數(shù)。第3組是神經(jīng)網(wǎng)絡(luò)模型初始輸入包含片段擴展特征時，實驗中所需的超參數(shù)。

3.3 基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別方法有效性驗證

為了驗證基于神經(jīng)網(wǎng)絡(luò)片段級中文命名實體識別方法的有效性，我們基于神經(jīng)網(wǎng)絡(luò)的字符級中文命名實體識別方法實現(xiàn)了一個基線(Baseline)系統(tǒng)。Baseline采用基于Bi-LSTM模型的字符序列標(biāo)注模型結(jié)構(gòu)，對于輸入的句子序列，采用“BIEOS”標(biāo)注體系通過對每個字符分配標(biāo)記完成中文命名實體識別。我們利用MSRA訓(xùn)練集進行模型訓(xùn)練，在MSRA測試集上進行測試。對比實驗結(jié)果如表2所示。實驗初始輸入的向量預(yù)訓(xùn)練語料采用pre1。從片段內(nèi)部單元和片段整體兩方面表示片段，基于Bi-LSTM的神經(jīng)網(wǎng)絡(luò)片段級模型記為Bi-LSTMpre，基于組合神經(jīng)網(wǎng)絡(luò)的片段級模型記為Combpre。為了獲取更豐富的片段信息提升系統(tǒng)性能，另一組實驗選用大規(guī)模的預(yù)訓(xùn)練語料pre2，同時從片段內(nèi)部字符、片段整體以及片段擴展特征三個方面獲取片段信息，模型記為Bi-LSTMpre2+ext和Combpre2+ext，實驗結(jié)果如表3所示。

實驗結(jié)果顯示，與Baseline系統(tǒng)方法相比，基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別方法識別效果顯著提升。采用大規(guī)模預(yù)訓(xùn)練語料，字符向量、片段向量表示包含更豐富的語義信息[18]，可以更有效地獲取片段信息提升系統(tǒng)性能。我們提出的兩種基于不同神經(jīng)網(wǎng)絡(luò)的片段級方法獲得相當(dāng)?shù)南到y(tǒng)性能。

表2 與Baseline實驗結(jié)果對比

表3 采用大規(guī)模預(yù)訓(xùn)練語料的實驗結(jié)果

3.4 不同片段級中文命名實體識別方法實驗比較

為了驗證本文基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體方法的有效性，我們選擇與Zhou等人工作的實驗結(jié)果進行對比。該方法集成命名實體邊界識別和分類任務(wù)，針對片段級中文命名實體識別進行研究，相比于傳統(tǒng)字符序列標(biāo)注模型，在MSRA上獲得較好的性能[7]。該方法基于傳統(tǒng)統(tǒng)計學(xué)習(xí)模型，需要依賴人工特征設(shè)計和專家知識。

表4是在MSRA測試集上的測評結(jié)果對比，基于Bi-LSTM的片段級中文命名實體識別系統(tǒng)和基于組合神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別系統(tǒng)分別記為Our1和Our2。實驗結(jié)果顯示，與Zhou等人基于傳統(tǒng)統(tǒng)計學(xué)習(xí)方法的片段級中文命名實體識別方法[7]相比，本文提出的基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別方法中基于Bi-LSTM的片段級中文命名實體識別方法獲得較好的系統(tǒng)性能，基于組合神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別方法獲得與之相當(dāng)?shù)膶嶒灲Y(jié)果。我們的系統(tǒng)在人名和地名的識別結(jié)果上分別提升了0.9%、0.95%。

表4 不同方法的實驗結(jié)果對比

4 結(jié)束語

中文命名實體識別是中文自然語言處理領(lǐng)域中的重要基礎(chǔ)任務(wù)之一。本文針對傳統(tǒng)統(tǒng)計學(xué)習(xí)方法和字符序列化標(biāo)注模型的不足，主要研究基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別方法，采用兩種神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)與半馬爾可夫條件隨機場模型結(jié)合，通過對片段整體分配標(biāo)記完成中文命名實體識別。據(jù)我們所知，這是首次針對基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別進行研究。實驗結(jié)果顯示，該算法的識別效果明顯優(yōu)于Baseline，并且獲得與當(dāng)前其他最優(yōu)的中文命名實體識別系統(tǒng)相當(dāng)?shù)淖R別性能。

在下一步的研究工作中，我們將繼續(xù)研究獲取表示片段信息的方法，使得輸入的片段信息表示可以更加完整有效，提升系統(tǒng)性能；另外，我們將探索不同的神經(jīng)網(wǎng)絡(luò)模型或不同神經(jīng)網(wǎng)絡(luò)模型的組合模型調(diào)整現(xiàn)有的模型結(jié)構(gòu)，設(shè)計更適用于中文命名實體識別任務(wù)的模型結(jié)構(gòu)，從而獲得更好的識別性能。

[1] 宗成慶. 統(tǒng)計自然語言處理[M].北京: 清華大學(xué)出版社, 2008: 150-178.

[2] 廖先桃. 中文命名實體識別方法研究[D],哈爾濱: 哈爾濱工業(yè)大學(xué)碩士學(xué)位論文, 2006.

[3] McCallum A, Li W.Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons[C]//Proceedings of HLT-NAACL, 2003: 188-191.

[4] 俞鴻魁, 張華平, 劉群, 等. 基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 通信學(xué)報, 2006, 27(2): 87-94.

[5] 史海峰, 姚建民. 基于CRF的中文命名實體識別研究[D]. 蘇州: 蘇州大學(xué)碩士學(xué)位論文, 2010.

[6] 王志強．基于條件隨機域的中文命名實體識別研究[D]．南京: 南京理工大學(xué)碩士學(xué)位論文，2006.

[7] Zhou J, Qu W, Zhang F. Chinese named entity recognition via joint identification and categorization[J]. Chinese Journal of Electronics, 2013: 225-230.

[8] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011(12): 2493-2537.

[9] Turian J, Ratinov L, Bengio Y. Word representations: A simple and general method for semi-supervised learning[C]//Proceedings of ACL, 2010: 384-394.

[10] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]//Proceedings of NAACL-HLT, 2016: 260-270.

[11] Ma X, Hovy E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of ACL, 2016: 1064-1074.

[12] Liu Y,Che W, Guo J, et al. Exploring segment representations for neural segmentation models[C]//Proceedings of IJCAI, 2016: 2880-2886.

[13] 王國昱. 基于深度學(xué)習(xí)的中文命名實體識別研究[D].北京: 北京工業(yè)大學(xué)碩士學(xué)位論文, 2015.

[14] Sarawagi S, Cohen W W. Semi-Markov conditional random fields for information extraction[C]//Proceedings of NIPS, 2004(17): 1185-1192.

[15] Zhang Y, Clark S. Syntactic processing using the generalized perceptron and beam search[J]. Computational Linguistics, 2011, 37(1): 105-151.

[16] Kong L, Dyer C, Noah A. Segmental recurrent neural networks[C]//Proceedings of ICLR, 2016.

[17] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of Workshop at ICLR, 2013.

[18] Lai S, Liu K, He S, et al. How to generate a good word embedding[J]. IEEE Intelligent Systems, 2016, 31(6): 5-14.