亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于序列標(biāo)注的引語(yǔ)識(shí)別初探

2019-04-02 03:08:24賈泓昊羅智勇

中文信息學(xué)報(bào) 2019年2期

關(guān)鍵詞：特征模型

賈泓昊,羅智勇

(北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院，北京 100083)

0 引言

隨著自然語(yǔ)言處理技術(shù)的飛速發(fā)展，句群篇章語(yǔ)義的分析需求日益增大。作為句群篇章語(yǔ)義分析的重要內(nèi)容，句間關(guān)系也受到越來(lái)越多的關(guān)注，然而在自然語(yǔ)言處理中關(guān)于引用這一句間關(guān)系的研究較少。句間引用關(guān)系的研究主要集中在語(yǔ)言學(xué)方面。

句間引用關(guān)系主要體現(xiàn)在引語(yǔ)中的引用句上。引語(yǔ)分直接引語(yǔ)和間接引語(yǔ)。從結(jié)構(gòu)上看，直接引語(yǔ)與間接引語(yǔ)均由引導(dǎo)句和引用句兩部分組成。在引導(dǎo)句中，起關(guān)鍵作用的言說(shuō)動(dòng)詞對(duì)引用句有一定的管領(lǐng)作用，因此徐赳赳[1]將引導(dǎo)句的言說(shuō)動(dòng)詞叫管領(lǐng)詞。引用句是被引用的部分，表明句間關(guān)系。宋柔[2]也在小句復(fù)合體的理論中將引語(yǔ)中的引用句叫做封閉語(yǔ)段，例如：

例1不過(guò)要是有人問(wèn)我：“你最喜歡什么動(dòng)物？”(小說(shuō)《邢老漢和狗的故事》)

例2我認(rèn)為，這絕不是畫(huà)家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念。(小說(shuō)《邢老漢和狗的故事》)

例1是直接引語(yǔ)，由引導(dǎo)句“不過(guò)要是有人問(wèn)我”和引用句“你最喜歡什么動(dòng)物”組成，管領(lǐng)詞為“問(wèn)”。宋柔在小句復(fù)合體理論中認(rèn)為句子是有層級(jí)結(jié)構(gòu)的，指出引用句“你最喜歡什么動(dòng)物？”相對(duì)于引導(dǎo)句“不過(guò)要是有人問(wèn)我”結(jié)構(gòu)上是封閉的，稱為封閉語(yǔ)段。例2是間接引語(yǔ)，包括引導(dǎo)句“我認(rèn)為”和引用句“這絕不是畫(huà)家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念”，管領(lǐng)詞為“認(rèn)為”，“這絕不是畫(huà)家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念?！笔欠忾]語(yǔ)段。

本文主要識(shí)別句間引用這一關(guān)系，也就是識(shí)別表明引用關(guān)系的引用句，如例1，識(shí)別出“你最喜歡什么動(dòng)物”是引用句，也就識(shí)別出例1是引語(yǔ)。按照封閉語(yǔ)段的定義，引用句相當(dāng)于外部是封閉的，可以當(dāng)作一個(gè)總體來(lái)識(shí)別。因此，在本文中，我們主要識(shí)別的是引語(yǔ)中表明引用關(guān)系的引用句，引用句的識(shí)別主要有以下3個(gè)問(wèn)題。

(1) 間接引語(yǔ)難以界定。

如上面例2：我認(rèn)為，這絕不是畫(huà)家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念。(小說(shuō)《邢老漢和狗的故事》)。這種間接引語(yǔ)沒(méi)什么特別區(qū)分標(biāo)志，人在學(xué)習(xí)時(shí)需要學(xué)習(xí)相關(guān)語(yǔ)法知識(shí)，區(qū)分其與一般陳述句的區(qū)別。

(2) 引導(dǎo)句和引用句相對(duì)位置不定。例如：

例3“我現(xiàn)在向你補(bǔ)求，行不行？”好像一切沒(méi)戀愛(ài)過(guò)的男人，方鴻漸把“愛(ài)”字看得太尊貴和嚴(yán)重，不肯隨便應(yīng)用在女人身上。(小說(shuō)《圍城》)

例4辛楣也笑道：“孫小姐這房間住得么？李梅亭更住不得……”正說(shuō)著，聽(tīng)得李顧那面嚷起來(lái)。(小說(shuō)《圍城》)

例5孫小姐湊上去瞧，不肯定地說(shuō)：“這像是西藥?！?小說(shuō)《圍城》)

如例3所示，引用句“我現(xiàn)在向你補(bǔ)求，行不行？”在句子的開(kāi)頭；例4的引用句“孫小姐這房間住得么？李梅亭更住不得……”在句子的中間；例5的引用句“這像是西藥?！痹诰渥拥慕Y(jié)尾。引用句沒(méi)有固定的位置，無(wú)疑增加識(shí)別的難度。

(3) 引語(yǔ)分布不均。

一方面，不同領(lǐng)域引語(yǔ)比例相差較大(詳細(xì)介紹見(jiàn)表3)；整體而言，引語(yǔ)占比較少。我們對(duì)實(shí)驗(yàn)語(yǔ)料(詳細(xì)介紹見(jiàn)表3)進(jìn)行分析，總計(jì)13 370句語(yǔ)料，含有引語(yǔ)的句數(shù)是2 766，占比20.69%。這是一個(gè)不平衡的分類或標(biāo)注問(wèn)題。

問(wèn)題(1)是引語(yǔ)的本身問(wèn)題。問(wèn)題(2)需要我們采用的方法對(duì)位置信息不敏感。問(wèn)題(3)需要我們?cè)谀Ｐ陀?jì)算的時(shí)候采用負(fù)采樣的方法，使數(shù)據(jù)盡量平衡。

本文嘗試采用序列標(biāo)注的方法，提出基于條件隨機(jī)場(chǎng)(CRF)以及深度神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)相結(jié)合(BLSTM-CRF)兩種模型對(duì)引語(yǔ)進(jìn)行識(shí)別，同時(shí)引入管領(lǐng)詞特征來(lái)提高識(shí)別的效率。

本文第1節(jié)介紹句間關(guān)系與序列標(biāo)注的相關(guān)研究；第2節(jié)介紹條件隨機(jī)場(chǎng)模型；第3節(jié)介紹條件隨機(jī)場(chǎng)與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合模型；第4節(jié)介紹實(shí)驗(yàn)及結(jié)果；第5節(jié)總結(jié)并提出下一步工作。

1 相關(guān)研究

目前在自然語(yǔ)言處理領(lǐng)域針對(duì)引語(yǔ)自動(dòng)識(shí)別的研究較少。典型的篇章句間關(guān)系語(yǔ)料有以下兩種：基于RST理論[3]的修辭結(jié)構(gòu)理論樹(shù)庫(kù)(rhetorical structure theory discourse treebank)[4]和基于PDTB體系的賓州篇章樹(shù)庫(kù)(Penn discourse tree bank)[5],它們采用不同的關(guān)系類型體系和標(biāo)注標(biāo)準(zhǔn)[6]。但是這些均是英文方面的研究，張牧宇[7]采用自身提出的中文句間關(guān)系理論，對(duì)中文句間關(guān)系進(jìn)行研究，但這些都不是特別針對(duì)引語(yǔ)識(shí)別的研究。

本文首次嘗試對(duì)引用這一句間關(guān)系進(jìn)行研究分析，找出引用關(guān)系中的引用句，采用序列標(biāo)注這一方法對(duì)引用句進(jìn)行自動(dòng)識(shí)別。目前，序列標(biāo)注模型主要包括：隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)[8]和條件隨機(jī)場(chǎng)(CRF)[9]。近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，研究者將深度神經(jīng)網(wǎng)絡(luò)引入到序列標(biāo)記任務(wù)中，具有代表性的研究工作包括： Collobert[10]使用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)解決序列標(biāo)注中通用命名實(shí)體識(shí)別的問(wèn)題；Huang[11]首次采用將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)結(jié)合的方法來(lái)進(jìn)行序列標(biāo)注，并在詞性標(biāo)注、命名實(shí)體識(shí)別等任務(wù)上取得良好效果。

本文嘗試采取條件隨機(jī)場(chǎng)(CRF)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)相結(jié)合(BLSTM-CRF)這兩種方法對(duì)引語(yǔ)進(jìn)行識(shí)別，同時(shí)引入管領(lǐng)詞特征來(lái)提高識(shí)別的效率。實(shí)驗(yàn)結(jié)果表明，CRF模型和BLSTM-CRF模型對(duì)引語(yǔ)的識(shí)別精確率分別達(dá)到85.49%和80.19%，F(xiàn)值分別達(dá)到78.75%和79.60%。

2 條件隨機(jī)場(chǎng)(CRF)

2.1 條件隨機(jī)場(chǎng)介紹

條件隨機(jī)場(chǎng)(CRF)是給定一組輸入隨機(jī)變量條件，求另外一組輸出隨機(jī)變量的條件概率分布模型；其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾科夫隨機(jī)場(chǎng)。本文用到的是線性條件隨機(jī)場(chǎng)，直接對(duì)輸入數(shù)據(jù)進(jìn)行處理，獲得全局最優(yōu)的標(biāo)記序列。

2.2 引語(yǔ)的識(shí)別建模

如前所述，引語(yǔ)可以作為一個(gè)整體進(jìn)行識(shí)別，本文將引語(yǔ)識(shí)別問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題。該序列標(biāo)注模型可以定義為：給定一個(gè)長(zhǎng)度為n的句子X(jué)={x1,x2,…,xn}, 從所有可能的標(biāo)記序列中挑出最可能的標(biāo)記序列Y={y1,y2,…,yn}，最終從獲得的標(biāo)記序列中還原引語(yǔ)的位置。

一個(gè)詞語(yǔ)在句子中的標(biāo)記方式有四種：B代表一個(gè)引用句的開(kāi)頭，I代表引用句中間的詞語(yǔ)，E是一個(gè)引用句中的最后一個(gè)詞語(yǔ)，O則是其他非引用句的詞語(yǔ)。一個(gè)簡(jiǎn)單的面向引語(yǔ)識(shí)別的序列標(biāo)記實(shí)例如表1所示。

表1 引語(yǔ)識(shí)別實(shí)例

2.3 特征模板

在神經(jīng)網(wǎng)絡(luò)中用到CRF是不需要采用特征模板的，因?yàn)樯窠?jīng)網(wǎng)絡(luò)會(huì)自己學(xué)習(xí)里面的規(guī)律，例如，下面介紹的BLSTM-CRF就是通過(guò)兩層BLSTM來(lái)學(xué)習(xí)句子的內(nèi)部規(guī)律。但是直接用條件隨機(jī)場(chǎng)的方式來(lái)進(jìn)行序列標(biāo)注需要特征模板。條件隨機(jī)場(chǎng)通常采用文本窗口的方式定義特征，特征定義方式以某字符相對(duì)于當(dāng)前位置在文本中的偏移位置來(lái)表征。本文使用了12種字符特征模板，包括一元字符特征模板C0(當(dāng)前字符)、C-1(當(dāng)前字符向前第一個(gè)字符)、C1(當(dāng)前字符向后第一個(gè)字符)、C-2(當(dāng)前字符向前第二個(gè)字符)、C2(當(dāng)前字符向后第二個(gè)字符)，二元字符特征模板C-2C-1、C-1C0、C0C1、C1C2和三元字符模板C-2C-1C0、C-1C0C1、C0C1C2。

在本模型中，我們使用兩套模板，一套考慮管領(lǐng)詞特征，另一套未考慮。未考慮管領(lǐng)詞的引語(yǔ)識(shí)別標(biāo)記序列實(shí)例如表1所示?？紤]管領(lǐng)詞特征時(shí)，我們?cè)谡Z(yǔ)料中多加入一列特征，管領(lǐng)詞部分標(biāo)記為1，非管領(lǐng)詞部分標(biāo)記為0。引入管領(lǐng)詞的引語(yǔ)識(shí)別標(biāo)記序列實(shí)例如表2所示。

表2 引入管領(lǐng)詞特征引語(yǔ)識(shí)別實(shí)例

3 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)(BLSTM-CRF)模型

3.1 模型介紹

圖1為本文的BLSTM-CRF模型框架。模型框架主要由以下幾個(gè)網(wǎng)絡(luò)層組成：第一層為詞向量表示層(word embedding)；第二層為循環(huán)神經(jīng)網(wǎng)絡(luò)層，包含兩層雙向LSTM循環(huán)神經(jīng)單元(BLSTM)；最后一層為CRF層。

圖1 引語(yǔ)識(shí)別的BLSTM-CRF模型

首先，我們通過(guò)查詢?cè)~向量表將輸入的語(yǔ)句轉(zhuǎn)換為相應(yīng)的詞向量序列；同時(shí)，除詞向量外，我們還引入其他特征向量，如管領(lǐng)詞向量，將這些特征向量和詞向量拼接，作為模型的輸入；然后，將上述詞語(yǔ)特征向量序列輸入循環(huán)神經(jīng)網(wǎng)絡(luò)層；最后，模型將循環(huán)神經(jīng)網(wǎng)絡(luò)層在每一個(gè)時(shí)刻的輸出，作為CRF的輸入序列，生成最優(yōu)的標(biāo)記序列。

3.2 詞向量層

本文的詞向量有兩種處理方式。一種是直接查詢?cè)~向量，將輸入的語(yǔ)句轉(zhuǎn)化為相應(yīng)的詞向量。但是在對(duì)引語(yǔ)進(jìn)行自動(dòng)識(shí)別探索時(shí)發(fā)現(xiàn)，管領(lǐng)詞對(duì)于引用識(shí)別邊界具有很大的提示作用。因此，本文從大規(guī)模文本中收集和整理出來(lái)引導(dǎo)語(yǔ)中常用的高頻管領(lǐng)詞表，在進(jìn)行詞向量處理的時(shí)候引入相應(yīng)的管領(lǐng)詞向量。如圖2所示。

對(duì)于管領(lǐng)詞向量我們?cè)O(shè)計(jì)如下處理方法：將原有詞向量維度增加一個(gè)維度，非管領(lǐng)詞部分賦值為0，管領(lǐng)詞全部賦值為1，并且在訓(xùn)練過(guò)程中不會(huì)改變其值，標(biāo)記為不可訓(xùn)練。

圖2 引入管領(lǐng)詞的詞向量層

3.3 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BLSTM)層

LSTM(long short-term memory)是長(zhǎng)短期記憶網(wǎng)絡(luò)，是一種特殊的RNN類型，可以學(xué)習(xí)長(zhǎng)期依賴信息。LSTM模型通過(guò)特殊設(shè)計(jì)門結(jié)構(gòu)(遺忘門、輸入門及輸出門)來(lái)控制長(zhǎng)期狀態(tài)。

引語(yǔ)的識(shí)別需要充分用到上下文的信息，我們采用雙向LSTM(即BLSTM)。雙向LSTM對(duì)句子能夠從左到右進(jìn)行順序計(jì)算以及從右到左進(jìn)行逆序計(jì)算，得到兩種不同的隱層表示，然后合并成最終的隱層輸出。

3.4 條件隨機(jī)場(chǎng)(CRF)層

此模型將兩層BLSTM處理后的隱層輸出結(jié)果當(dāng)做CRF的輸入，獲得最優(yōu)標(biāo)記序列。

輸入一個(gè)長(zhǎng)度為l的句子S={w1,w2,…,wl}，定義兩層BLSTM的輸出概率矩陣Pl*k，其中k是輸出標(biāo)簽的個(gè)數(shù)，在我們的問(wèn)題中k=4。Pi,j是指第i個(gè)詞語(yǔ)被標(biāo)記為第j個(gè)標(biāo)簽的概率。對(duì)于一個(gè)待預(yù)測(cè)的標(biāo)簽序列：y={y1,y2,…,yl}，有如下定義，如式(1)所示。

(1)

其中，A是狀態(tài)轉(zhuǎn)移矩陣，Ayi,yi+1表示從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的概率。通過(guò)求得最大的f(s,y)，即可得到最佳的輸出標(biāo)簽序列。這里引入的CRF，其實(shí)只是對(duì)輸出標(biāo)簽二元組進(jìn)行建模，然后使用動(dòng)態(tài)規(guī)劃進(jìn)行計(jì)算即可，最終根據(jù)得到的最優(yōu)路徑進(jìn)行標(biāo)注。

4 實(shí)驗(yàn)

4.1 評(píng)測(cè)數(shù)據(jù)集

本文測(cè)試數(shù)據(jù)集來(lái)自北京語(yǔ)言大學(xué)中文小句復(fù)合體標(biāo)注語(yǔ)料，主要分為3個(gè)領(lǐng)域：百科、小說(shuō)、新聞。語(yǔ)料的詳細(xì)信息如表3所示。

表3 數(shù)據(jù)集介紹

以上語(yǔ)料集中每一個(gè)小句都是按照小句復(fù)合體的理論來(lái)劃分的。在語(yǔ)料處理方面，為能夠清楚地表示語(yǔ)料中待識(shí)別的引語(yǔ)，我們采用BIOE標(biāo)記的方式來(lái)標(biāo)記引語(yǔ)。我們的標(biāo)記規(guī)則如下：B代表一個(gè)引用句的開(kāi)頭，I代表引用句中間的詞語(yǔ)，E是一個(gè)引用句中的最后一個(gè)詞語(yǔ)，O則是其他非引用句的詞語(yǔ)。將每個(gè)語(yǔ)料中的含引語(yǔ)句子、不含引語(yǔ)句子均按照8∶2的比例劃分訓(xùn)練集、測(cè)試集。

4.2 實(shí)驗(yàn)結(jié)果及分析

4.2.1 百科語(yǔ)料

百科語(yǔ)料引語(yǔ)識(shí)別的實(shí)驗(yàn)結(jié)果如表4所示。百科語(yǔ)料中引語(yǔ)中90%為間接引語(yǔ)?？梢钥闯觯诓灰牍茴I(lǐng)詞的情況下，CRF在各項(xiàng)指標(biāo)上的結(jié)果均高于BLSTM-CRF,說(shuō)明BLSTM-CRF對(duì)引語(yǔ)內(nèi)部規(guī)律的學(xué)習(xí)能力較弱，不如直接給特征模板學(xué)習(xí)的效果顯著。管領(lǐng)詞的引入，對(duì)于模型CRF，在引語(yǔ)的識(shí)別方面有顯著的提升，精確率由37.50%提升到62.50%，但是在模型BLSTM-CRF上精確率只有0.9%的提升。百科語(yǔ)料中，在CRF中直接引入管領(lǐng)詞特征比在BLSTM-CRF中引入管領(lǐng)詞向量效果更加明顯。

表4 百科語(yǔ)料引語(yǔ)識(shí)別結(jié)果

4.2.2 新聞?wù)Z料

新聞?wù)Z料引語(yǔ)識(shí)別的實(shí)驗(yàn)結(jié)果如表5所示。新聞?wù)Z料中，引語(yǔ)全為間接引語(yǔ)。在不引入管領(lǐng)詞的情況下，CRF對(duì)于新聞?wù)Z料中引語(yǔ)識(shí)別的精確率很高，同時(shí)引入管領(lǐng)詞對(duì)于間接引語(yǔ)識(shí)別的提升效果很明顯，召回率由9.09%提升到31.82%，F(xiàn)值由16.67%提升到48.28%。BLSTM-CRF對(duì)于間接引語(yǔ)的識(shí)別精確率很低，只有22.86%，引入管領(lǐng)詞后，召回率提升了17.31%，F(xiàn)值提升了9.71%。新聞?wù)Z料中，引入管領(lǐng)詞，對(duì)CRF與BLSTM-CRF均有一定程度的提升。

表5 新聞?wù)Z料引用識(shí)別結(jié)果

4.2.3 小說(shuō)語(yǔ)料

小說(shuō)語(yǔ)料引語(yǔ)識(shí)別的實(shí)驗(yàn)結(jié)果如表6所示。小說(shuō)語(yǔ)料中引語(yǔ)中大多數(shù)均為直接引語(yǔ)，占比90.00%左右。在不引入管領(lǐng)詞的情況下，CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好，說(shuō)明BLSTM-CRF對(duì)于引語(yǔ)的區(qū)分能力較弱，對(duì)于區(qū)分規(guī)律的學(xué)習(xí)不如CRF給定的特征模板。引入管領(lǐng)詞后，CRF模型在精確率、召回率、F值上有1%左右的浮動(dòng)，而B(niǎo)LSTM-CRF模型在精確率、F值上分別有12.94%、7.58%的提升，在召回率上只有0.51%的提升。小說(shuō)語(yǔ)料中，引入管領(lǐng)詞，對(duì)BLSTM-CRF有一定程度的提升。

表6 小說(shuō)語(yǔ)料引語(yǔ)識(shí)別結(jié)果

4.2.4 全部語(yǔ)料

全部語(yǔ)料引語(yǔ)的識(shí)別實(shí)驗(yàn)結(jié)果如表7所示。在全部語(yǔ)料中，在不引入管領(lǐng)詞的情況下，CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好。說(shuō)明BLSTM-CRF對(duì)于引語(yǔ)的區(qū)分能力較弱，對(duì)于區(qū)分規(guī)律的學(xué)習(xí)不如CRF。在CRF中，引入管領(lǐng)詞后召回率、F值分別僅有1.64%、0.52%的提高，提升效果不是很明顯。而在BLSTM-CRF中，在精確率、召回率、F值上均有10%左右的提升，說(shuō)明引入管領(lǐng)詞向量對(duì)于BLSTM-CRF有很大程度的提升。

表7 全部語(yǔ)料結(jié)果

4.2.5 實(shí)驗(yàn)分析

為進(jìn)一步了解在CRF模型與BLSTM-CRF模型中，管領(lǐng)詞對(duì)引語(yǔ)標(biāo)注結(jié)果的影響，考慮到樣本大小，本文對(duì)全部語(yǔ)料進(jìn)行分析，在BLSTM-CRF中，得到CRF層的輸入，對(duì)管領(lǐng)詞與B標(biāo)簽詞語(yǔ)進(jìn)行相似度計(jì)算，我們發(fā)現(xiàn)有以下規(guī)律：

① 在兩個(gè)神經(jīng)網(wǎng)絡(luò)模型中均被標(biāo)注正確的引語(yǔ)中，引入管領(lǐng)詞向量后，管領(lǐng)詞與B標(biāo)簽詞的相似度降低；

② 引語(yǔ)在原BLSTM-CRF模型中標(biāo)注錯(cuò)誤，引入管領(lǐng)詞向量后，標(biāo)注正確，管領(lǐng)詞與B標(biāo)簽詞相似度降低。

對(duì)于BLSTM-CRF模型而言，引入管領(lǐng)詞特征能夠?qū)W(xué)習(xí)內(nèi)部規(guī)律起到一定的指導(dǎo)作用，降低管領(lǐng)詞與B標(biāo)簽詞的相似度，可以避免它們打上同一標(biāo)簽或者關(guān)聯(lián)標(biāo)簽，從而提升模型效果。

在CRF中，我們?nèi)〕鲆粋€(gè)考慮了管領(lǐng)詞特征的具體特征模板%x[-2,1]/%x[-1,1]/%x[0,1](接下來(lái)皆叫特征模板C)來(lái)進(jìn)行分析，計(jì)算在B標(biāo)簽詞取不同標(biāo)記時(shí)的權(quán)重變化情況，正確標(biāo)注例句如下：

例6他拍拍身邊的椅子，說(shuō)，謝蘭英，你靠著我坐。(小說(shuō)《邢老漢和狗的故事》)

計(jì)算“謝蘭英”在不同標(biāo)記時(shí)，特征模板C權(quán)重隨迭代次數(shù)變化值如圖3所示。

圖3 引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖

在CRF中，其他標(biāo)記正確B標(biāo)簽詞特征權(quán)重變化趨勢(shì)基本與圖3相符合。從圖中可以看出，隨著迭代次數(shù)增加，特征C使“謝蘭英”標(biāo)記為B的權(quán)重越來(lái)越大，說(shuō)明特征C影響著正確的標(biāo)記結(jié)果。而不引入管領(lǐng)詞特征時(shí)，對(duì)應(yīng)的特征模板%x[-2,0]/%x[-1,0]/%x[0,0](接下來(lái)皆叫特征模板C1)，也能指導(dǎo)學(xué)習(xí)“說(shuō)”與“謝蘭英”之間的關(guān)系，此時(shí)，特征模板C1權(quán)重隨迭代次數(shù)變化值如圖4所示。

圖4 不引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖

通過(guò)圖3可知，CRF的特征模板可以指定學(xué)習(xí)上下文詞語(yǔ)之間的關(guān)系，管領(lǐng)詞“說(shuō)”對(duì)于引用開(kāi)始位置“謝蘭英”有指示作用，而特征模板可以指定學(xué)習(xí)“說(shuō)”與“謝蘭英”的特征關(guān)系，并且特征權(quán)重在學(xué)習(xí)的過(guò)程中會(huì)逐漸變大，學(xué)習(xí)到其中的內(nèi)部規(guī)律。通過(guò)圖3、圖4可知，對(duì)于CRF來(lái)說(shuō)，不管是否引入管領(lǐng)詞特征，都可以通過(guò)特征模板直接或間接地學(xué)習(xí)管領(lǐng)詞的管領(lǐng)作用，所以總體上效果提升不大。

5 結(jié)論及下一步工作

引語(yǔ)識(shí)別是進(jìn)行小句復(fù)合體乃至篇章分析的重要環(huán)節(jié)。本文提出了基于序列標(biāo)注的引語(yǔ)識(shí)別任務(wù)，并通過(guò)CRF、BLSTM-CRF兩種方法分別對(duì)引語(yǔ)進(jìn)行了識(shí)別實(shí)驗(yàn)，取得了初步效果。同時(shí)測(cè)試結(jié)果表明，引入管領(lǐng)詞特征對(duì)引語(yǔ)識(shí)別具有重要作用。

目前，本文提出的方法沒(méi)有區(qū)分引語(yǔ)中嵌套的引語(yǔ)，例如：

例7他說(shuō)：孔子說(shuō)，三人行，必有我?guī)煛?自擬)

其中“三人行，必有我?guī)煛笔且镁洹翱鬃诱f(shuō)，三人行，必有我?guī)??！敝星短椎囊镁?。如何從引用句中遞歸地識(shí)別引用句是下一步的研究工作。另外，如何進(jìn)一步提高CRF、BLSTM-CRF對(duì)間接引語(yǔ)的識(shí)別性能，也是今后的研究?jī)?nèi)容之一。