賈泓昊,羅智勇
(北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
隨著自然語(yǔ)言處理技術(shù)的飛速發(fā)展,句群篇章語(yǔ)義的分析需求日益增大。作為句群篇章語(yǔ)義分析的重要內(nèi)容,句間關(guān)系也受到越來(lái)越多的關(guān)注,然而在自然語(yǔ)言處理中關(guān)于引用這一句間關(guān)系的研究較少。句間引用關(guān)系的研究主要集中在語(yǔ)言學(xué)方面。
句間引用關(guān)系主要體現(xiàn)在引語(yǔ)中的引用句上。引語(yǔ)分直接引語(yǔ)和間接引語(yǔ)。從結(jié)構(gòu)上看,直接引語(yǔ)與間接引語(yǔ)均由引導(dǎo)句和引用句兩部分組成。在引導(dǎo)句中,起關(guān)鍵作用的言說(shuō)動(dòng)詞對(duì)引用句有一定的管領(lǐng)作用,因此徐赳赳[1]將引導(dǎo)句的言說(shuō)動(dòng)詞叫管領(lǐng)詞。引用句是被引用的部分,表明句間關(guān)系。宋柔[2]也在小句復(fù)合體的理論中將引語(yǔ)中的引用句叫做封閉語(yǔ)段,例如:
例1不過(guò)要是有人問(wèn)我:“你最喜歡什么動(dòng)物?”(小說(shuō)《邢老漢和狗的故事》)
例2我認(rèn)為,這絕不是畫(huà)家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念。(小說(shuō)《邢老漢和狗的故事》)
例1是直接引語(yǔ),由引導(dǎo)句“不過(guò)要是有人問(wèn)我”和引用句“你最喜歡什么動(dòng)物”組成,管領(lǐng)詞為“問(wèn)”。宋柔在小句復(fù)合體理論中認(rèn)為句子是有層級(jí)結(jié)構(gòu)的,指出引用句“你最喜歡什么動(dòng)物?”相對(duì)于引導(dǎo)句“不過(guò)要是有人問(wèn)我”結(jié)構(gòu)上是封閉的,稱(chēng)為封閉語(yǔ)段。例2是間接引語(yǔ),包括引導(dǎo)句“我認(rèn)為”和引用句“這絕不是畫(huà)家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念”,管領(lǐng)詞為“認(rèn)為”,“這絕不是畫(huà)家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念?!笔欠忾]語(yǔ)段。
本文主要識(shí)別句間引用這一關(guān)系,也就是識(shí)別表明引用關(guān)系的引用句,如例1,識(shí)別出“你最喜歡什么動(dòng)物”是引用句,也就識(shí)別出例1是引語(yǔ)。按照封閉語(yǔ)段的定義,引用句相當(dāng)于外部是封閉的,可以當(dāng)作一個(gè)總體來(lái)識(shí)別。因此,在本文中,我們主要識(shí)別的是引語(yǔ)中表明引用關(guān)系的引用句,引用句的識(shí)別主要有以下3個(gè)問(wèn)題。
(1) 間接引語(yǔ)難以界定。
如上面例2:我認(rèn)為,這絕不是畫(huà)家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫(huà)家對(duì)實(shí)有其狗的小友的紀(jì)念。(小說(shuō)《邢老漢和狗的故事》)。這種間接引語(yǔ)沒(méi)什么特別區(qū)分標(biāo)志,人在學(xué)習(xí)時(shí)需要學(xué)習(xí)相關(guān)語(yǔ)法知識(shí),區(qū)分其與一般陳述句的區(qū)別。
(2) 引導(dǎo)句和引用句相對(duì)位置不定。例如:
例3“我現(xiàn)在向你補(bǔ)求,行不行?”好像一切沒(méi)戀愛(ài)過(guò)的男人,方鴻漸把“愛(ài)”字看得太尊貴和嚴(yán)重,不肯隨便應(yīng)用在女人身上。(小說(shuō)《圍城》)
例4辛楣也笑道:“孫小姐這房間住得么?李梅亭更住不得……”正說(shuō)著,聽(tīng)得李顧那面嚷起來(lái)。(小說(shuō)《圍城》)
例5孫小姐湊上去瞧,不肯定地說(shuō):“這像是西藥。”(小說(shuō)《圍城》)
如例3所示,引用句“我現(xiàn)在向你補(bǔ)求,行不行?”在句子的開(kāi)頭;例4的引用句“孫小姐這房間住得么?李梅亭更住不得……”在句子的中間;例5的引用句“這像是西藥?!痹诰渥拥慕Y(jié)尾。引用句沒(méi)有固定的位置,無(wú)疑增加識(shí)別的難度。
(3) 引語(yǔ)分布不均。
一方面,不同領(lǐng)域引語(yǔ)比例相差較大(詳細(xì)介紹見(jiàn)表3);整體而言,引語(yǔ)占比較少。我們對(duì)實(shí)驗(yàn)語(yǔ)料(詳細(xì)介紹見(jiàn)表3)進(jìn)行分析,總計(jì)13 370句語(yǔ)料,含有引語(yǔ)的句數(shù)是2 766,占比20.69%。這是一個(gè)不平衡的分類(lèi)或標(biāo)注問(wèn)題。
問(wèn)題(1)是引語(yǔ)的本身問(wèn)題。問(wèn)題(2)需要我們采用的方法對(duì)位置信息不敏感。問(wèn)題(3)需要我們?cè)谀P陀?jì)算的時(shí)候采用負(fù)采樣的方法,使數(shù)據(jù)盡量平衡。
本文嘗試采用序列標(biāo)注的方法,提出基于條件隨機(jī)場(chǎng)(CRF)以及深度神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)相結(jié)合(BLSTM-CRF)兩種模型對(duì)引語(yǔ)進(jìn)行識(shí)別,同時(shí)引入管領(lǐng)詞特征來(lái)提高識(shí)別的效率。
本文第1節(jié)介紹句間關(guān)系與序列標(biāo)注的相關(guān)研究;第2節(jié)介紹條件隨機(jī)場(chǎng)模型;第3節(jié)介紹條件隨機(jī)場(chǎng)與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合模型;第4節(jié)介紹實(shí)驗(yàn)及結(jié)果;第5節(jié)總結(jié)并提出下一步工作。
目前在自然語(yǔ)言處理領(lǐng)域針對(duì)引語(yǔ)自動(dòng)識(shí)別的研究較少。典型的篇章句間關(guān)系語(yǔ)料有以下兩種:基于RST理論[3]的修辭結(jié)構(gòu)理論樹(shù)庫(kù)(rhetorical structure theory discourse treebank)[4]和基于PDTB體系的賓州篇章樹(shù)庫(kù)(Penn discourse tree bank)[5],它們采用不同的關(guān)系類(lèi)型體系和標(biāo)注標(biāo)準(zhǔn)[6]。但是這些均是英文方面的研究,張牧宇[7]采用自身提出的中文句間關(guān)系理論,對(duì)中文句間關(guān)系進(jìn)行研究,但這些都不是特別針對(duì)引語(yǔ)識(shí)別的研究。
本文首次嘗試對(duì)引用這一句間關(guān)系進(jìn)行研究分析,找出引用關(guān)系中的引用句,采用序列標(biāo)注這一方法對(duì)引用句進(jìn)行自動(dòng)識(shí)別。目前,序列標(biāo)注模型主要包括:隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)[8]和條件隨機(jī)場(chǎng)(CRF)[9]。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究者將深度神經(jīng)網(wǎng)絡(luò)引入到序列標(biāo)記任務(wù)中,具有代表性的研究工作包括: Collobert[10]使用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)解決序列標(biāo)注中通用命名實(shí)體識(shí)別的問(wèn)題;Huang[11]首次采用將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)結(jié)合的方法來(lái)進(jìn)行序列標(biāo)注,并在詞性標(biāo)注、命名實(shí)體識(shí)別等任務(wù)上取得良好效果。
本文嘗試采取條件隨機(jī)場(chǎng)(CRF)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)相結(jié)合(BLSTM-CRF)這兩種方法對(duì)引語(yǔ)進(jìn)行識(shí)別,同時(shí)引入管領(lǐng)詞特征來(lái)提高識(shí)別的效率。實(shí)驗(yàn)結(jié)果表明,CRF模型和BLSTM-CRF模型對(duì)引語(yǔ)的識(shí)別精確率分別達(dá)到85.49%和80.19%,F(xiàn)值分別達(dá)到78.75%和79.60%。
條件隨機(jī)場(chǎng)(CRF)是給定一組輸入隨機(jī)變量條件,求另外一組輸出隨機(jī)變量的條件概率分布模型;其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾科夫隨機(jī)場(chǎng)。本文用到的是線性條件隨機(jī)場(chǎng),直接對(duì)輸入數(shù)據(jù)進(jìn)行處理,獲得全局最優(yōu)的標(biāo)記序列。
如前所述,引語(yǔ)可以作為一個(gè)整體進(jìn)行識(shí)別,本文將引語(yǔ)識(shí)別問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題。該序列標(biāo)注模型可以定義為:給定一個(gè)長(zhǎng)度為n的句子X(jué)={x1,x2,…,xn}, 從所有可能的標(biāo)記序列中挑出最可能的標(biāo)記序列Y={y1,y2,…,yn},最終從獲得的標(biāo)記序列中還原引語(yǔ)的位置。
一個(gè)詞語(yǔ)在句子中的標(biāo)記方式有四種:B代表一個(gè)引用句的開(kāi)頭,I代表引用句中間的詞語(yǔ),E是一個(gè)引用句中的最后一個(gè)詞語(yǔ),O則是其他非引用句的詞語(yǔ)。一個(gè)簡(jiǎn)單的面向引語(yǔ)識(shí)別的序列標(biāo)記實(shí)例如表1所示。
表1 引語(yǔ)識(shí)別實(shí)例
在神經(jīng)網(wǎng)絡(luò)中用到CRF是不需要采用特征模板的,因?yàn)樯窠?jīng)網(wǎng)絡(luò)會(huì)自己學(xué)習(xí)里面的規(guī)律,例如,下面介紹的BLSTM-CRF就是通過(guò)兩層BLSTM來(lái)學(xué)習(xí)句子的內(nèi)部規(guī)律。但是直接用條件隨機(jī)場(chǎng)的方式來(lái)進(jìn)行序列標(biāo)注需要特征模板。條件隨機(jī)場(chǎng)通常采用文本窗口的方式定義特征,特征定義方式以某字符相對(duì)于當(dāng)前位置在文本中的偏移位置來(lái)表征。本文使用了12種字符特征模板,包括一元字符特征模板C0(當(dāng)前字符)、C-1(當(dāng)前字符向前第一個(gè)字符)、C1(當(dāng)前字符向后第一個(gè)字符)、C-2(當(dāng)前字符向前第二個(gè)字符)、C2(當(dāng)前字符向后第二個(gè)字符),二元字符特征模板C-2C-1、C-1C0、C0C1、C1C2和三元字符模板C-2C-1C0、C-1C0C1、C0C1C2。
在本模型中,我們使用兩套模板,一套考慮管領(lǐng)詞特征,另一套未考慮。未考慮管領(lǐng)詞的引語(yǔ)識(shí)別標(biāo)記序列實(shí)例如表1所示??紤]管領(lǐng)詞特征時(shí),我們?cè)谡Z(yǔ)料中多加入一列特征,管領(lǐng)詞部分標(biāo)記為1,非管領(lǐng)詞部分標(biāo)記為0。引入管領(lǐng)詞的引語(yǔ)識(shí)別標(biāo)記序列實(shí)例如表2所示。
表2 引入管領(lǐng)詞特征引語(yǔ)識(shí)別實(shí)例
圖1為本文的BLSTM-CRF模型框架。模型框架主要由以下幾個(gè)網(wǎng)絡(luò)層組成:第一層為詞向量表示層(word embedding);第二層為循環(huán)神經(jīng)網(wǎng)絡(luò)層,包含兩層雙向LSTM循環(huán)神經(jīng)單元(BLSTM);最后一層為CRF層。
圖1 引語(yǔ)識(shí)別的BLSTM-CRF模型
首先,我們通過(guò)查詢?cè)~向量表將輸入的語(yǔ)句轉(zhuǎn)換為相應(yīng)的詞向量序列;同時(shí),除詞向量外,我們還引入其他特征向量,如管領(lǐng)詞向量,將這些特征向量和詞向量拼接,作為模型的輸入;然后,將上述詞語(yǔ)特征向量序列輸入循環(huán)神經(jīng)網(wǎng)絡(luò)層;最后,模型將循環(huán)神經(jīng)網(wǎng)絡(luò)層在每一個(gè)時(shí)刻的輸出,作為CRF的輸入序列,生成最優(yōu)的標(biāo)記序列。
本文的詞向量有兩種處理方式。一種是直接查詢?cè)~向量,將輸入的語(yǔ)句轉(zhuǎn)化為相應(yīng)的詞向量。但是在對(duì)引語(yǔ)進(jìn)行自動(dòng)識(shí)別探索時(shí)發(fā)現(xiàn),管領(lǐng)詞對(duì)于引用識(shí)別邊界具有很大的提示作用。因此,本文從大規(guī)模文本中收集和整理出來(lái)引導(dǎo)語(yǔ)中常用的高頻管領(lǐng)詞表,在進(jìn)行詞向量處理的時(shí)候引入相應(yīng)的管領(lǐng)詞向量。如圖2所示。
對(duì)于管領(lǐng)詞向量我們?cè)O(shè)計(jì)如下處理方法: 將原有詞向量維度增加一個(gè)維度,非管領(lǐng)詞部分賦值為0,管領(lǐng)詞全部賦值為1,并且在訓(xùn)練過(guò)程中不會(huì)改變其值,標(biāo)記為不可訓(xùn)練。
圖2 引入管領(lǐng)詞的詞向量層
LSTM(long short-term memory)是長(zhǎng)短期記憶網(wǎng)絡(luò),是一種特殊的RNN類(lèi)型,可以學(xué)習(xí)長(zhǎng)期依賴(lài)信息。LSTM模型通過(guò)特殊設(shè)計(jì)門(mén)結(jié)構(gòu)(遺忘門(mén)、輸入門(mén)及輸出門(mén))來(lái)控制長(zhǎng)期狀態(tài)。
引語(yǔ)的識(shí)別需要充分用到上下文的信息,我們采用雙向LSTM(即BLSTM)。雙向LSTM對(duì)句子能夠從左到右進(jìn)行順序計(jì)算以及從右到左進(jìn)行逆序計(jì)算,得到兩種不同的隱層表示,然后合并成最終的隱層輸出。
此模型將兩層BLSTM處理后的隱層輸出結(jié)果當(dāng)做CRF的輸入,獲得最優(yōu)標(biāo)記序列。
輸入一個(gè)長(zhǎng)度為l的句子S={w1,w2,…,wl},定義兩層BLSTM的輸出概率矩陣Pl*k,其中k是輸出標(biāo)簽的個(gè)數(shù),在我們的問(wèn)題中k=4。Pi,j是指第i個(gè)詞語(yǔ)被標(biāo)記為第j個(gè)標(biāo)簽的概率。對(duì)于一個(gè)待預(yù)測(cè)的標(biāo)簽序列:y={y1,y2,…,yl},有如下定義,如式(1)所示。
(1)
其中,A是狀態(tài)轉(zhuǎn)移矩陣,Ayi,yi+1表示從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的概率。通過(guò)求得最大的f(s,y),即可得到最佳的輸出標(biāo)簽序列。這里引入的CRF,其實(shí)只是對(duì)輸出標(biāo)簽二元組進(jìn)行建模,然后使用動(dòng)態(tài)規(guī)劃進(jìn)行計(jì)算即可,最終根據(jù)得到的最優(yōu)路徑進(jìn)行標(biāo)注。
本文測(cè)試數(shù)據(jù)集來(lái)自北京語(yǔ)言大學(xué)中文小句復(fù)合體標(biāo)注語(yǔ)料,主要分為3個(gè)領(lǐng)域:百科、小說(shuō)、新聞。語(yǔ)料的詳細(xì)信息如表3所示。
表3 數(shù)據(jù)集介紹
以上語(yǔ)料集中每一個(gè)小句都是按照小句復(fù)合體的理論來(lái)劃分的。在語(yǔ)料處理方面,為能夠清楚地表示語(yǔ)料中待識(shí)別的引語(yǔ),我們采用BIOE標(biāo)記的方式來(lái)標(biāo)記引語(yǔ)。我們的標(biāo)記規(guī)則如下:B代表一個(gè)引用句的開(kāi)頭,I代表引用句中間的詞語(yǔ),E是一個(gè)引用句中的最后一個(gè)詞語(yǔ),O則是其他非引用句的詞語(yǔ)。將每個(gè)語(yǔ)料中的含引語(yǔ)句子、不含引語(yǔ)句子均按照8∶2的比例劃分訓(xùn)練集、測(cè)試集。
4.2.1 百科語(yǔ)料
百科語(yǔ)料引語(yǔ)識(shí)別的實(shí)驗(yàn)結(jié)果如表4所示。百科語(yǔ)料中引語(yǔ)中90%為間接引語(yǔ)。可以看出,在不引入管領(lǐng)詞的情況下,CRF在各項(xiàng)指標(biāo)上的結(jié)果均高于BLSTM-CRF,說(shuō)明BLSTM-CRF對(duì)引語(yǔ)內(nèi)部規(guī)律的學(xué)習(xí)能力較弱,不如直接給特征模板學(xué)習(xí)的效果顯著。管領(lǐng)詞的引入,對(duì)于模型CRF,在引語(yǔ)的識(shí)別方面有顯著的提升,精確率由37.50%提升到62.50%,但是在模型BLSTM-CRF上精確率只有0.9%的提升。百科語(yǔ)料中,在CRF中直接引入管領(lǐng)詞特征比在BLSTM-CRF中引入管領(lǐng)詞向量效果更加明顯。
表4 百科語(yǔ)料引語(yǔ)識(shí)別結(jié)果
4.2.2 新聞?wù)Z料
新聞?wù)Z料引語(yǔ)識(shí)別的實(shí)驗(yàn)結(jié)果如表5所示。新聞?wù)Z料中,引語(yǔ)全為間接引語(yǔ)。在不引入管領(lǐng)詞的情況下,CRF對(duì)于新聞?wù)Z料中引語(yǔ)識(shí)別的精確率很高,同時(shí)引入管領(lǐng)詞對(duì)于間接引語(yǔ)識(shí)別的提升效果很明顯,召回率由9.09%提升到31.82%,F(xiàn)值由16.67%提升到48.28%。BLSTM-CRF對(duì)于間接引語(yǔ)的識(shí)別精確率很低,只有22.86%,引入管領(lǐng)詞后,召回率提升了17.31%,F(xiàn)值提升了9.71%。新聞?wù)Z料中,引入管領(lǐng)詞,對(duì)CRF與BLSTM-CRF均有一定程度的提升。
表5 新聞?wù)Z料引用識(shí)別結(jié)果
4.2.3 小說(shuō)語(yǔ)料
小說(shuō)語(yǔ)料引語(yǔ)識(shí)別的實(shí)驗(yàn)結(jié)果如表6所示。小說(shuō)語(yǔ)料中引語(yǔ)中大多數(shù)均為直接引語(yǔ),占比90.00%左右。在不引入管領(lǐng)詞的情況下,CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好,說(shuō)明BLSTM-CRF對(duì)于引語(yǔ)的區(qū)分能力較弱,對(duì)于區(qū)分規(guī)律的學(xué)習(xí)不如CRF給定的特征模板。引入管領(lǐng)詞后,CRF模型在精確率、召回率、F值上有1%左右的浮動(dòng),而B(niǎo)LSTM-CRF模型在精確率、F值上分別有12.94%、7.58%的提升,在召回率上只有0.51%的提升。小說(shuō)語(yǔ)料中,引入管領(lǐng)詞,對(duì)BLSTM-CRF有一定程度的提升。
表6 小說(shuō)語(yǔ)料引語(yǔ)識(shí)別結(jié)果
4.2.4 全部語(yǔ)料
全部語(yǔ)料引語(yǔ)的識(shí)別實(shí)驗(yàn)結(jié)果如表7所示。在全部語(yǔ)料中,在不引入管領(lǐng)詞的情況下,CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好。說(shuō)明BLSTM-CRF對(duì)于引語(yǔ)的區(qū)分能力較弱,對(duì)于區(qū)分規(guī)律的學(xué)習(xí)不如CRF。在CRF中,引入管領(lǐng)詞后召回率、F值分別僅有1.64%、0.52%的提高,提升效果不是很明顯。而在BLSTM-CRF中,在精確率、召回率、F值上均有10%左右的提升,說(shuō)明引入管領(lǐng)詞向量對(duì)于BLSTM-CRF有很大程度的提升。
表7 全部語(yǔ)料結(jié)果
4.2.5 實(shí)驗(yàn)分析
為進(jìn)一步了解在CRF模型與BLSTM-CRF模型中,管領(lǐng)詞對(duì)引語(yǔ)標(biāo)注結(jié)果的影響,考慮到樣本大小,本文對(duì)全部語(yǔ)料進(jìn)行分析,在BLSTM-CRF中,得到CRF層的輸入,對(duì)管領(lǐng)詞與B標(biāo)簽詞語(yǔ)進(jìn)行相似度計(jì)算,我們發(fā)現(xiàn)有以下規(guī)律:
① 在兩個(gè)神經(jīng)網(wǎng)絡(luò)模型中均被標(biāo)注正確的引語(yǔ)中,引入管領(lǐng)詞向量后,管領(lǐng)詞與B標(biāo)簽詞的相似度降低;
② 引語(yǔ)在原BLSTM-CRF模型中標(biāo)注錯(cuò)誤,引入管領(lǐng)詞向量后,標(biāo)注正確,管領(lǐng)詞與B標(biāo)簽詞相似度降低。
對(duì)于BLSTM-CRF模型而言,引入管領(lǐng)詞特征能夠?qū)W(xué)習(xí)內(nèi)部規(guī)律起到一定的指導(dǎo)作用,降低管領(lǐng)詞與B標(biāo)簽詞的相似度,可以避免它們打上同一標(biāo)簽或者關(guān)聯(lián)標(biāo)簽,從而提升模型效果。
在CRF中,我們?nèi)〕鲆粋€(gè)考慮了管領(lǐng)詞特征的具體特征模板%x[-2,1]/%x[-1,1]/%x[0,1](接下來(lái)皆叫特征模板C)來(lái)進(jìn)行分析,計(jì)算在B標(biāo)簽詞取不同標(biāo)記時(shí)的權(quán)重變化情況,正確標(biāo)注例句如下:
例6他拍拍身邊的椅子,說(shuō),謝蘭英,你靠著我坐。(小說(shuō)《邢老漢和狗的故事》)
計(jì)算“謝蘭英”在不同標(biāo)記時(shí),特征模板C權(quán)重隨迭代次數(shù)變化值如圖3所示。
圖3 引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖
在CRF中,其他標(biāo)記正確B標(biāo)簽詞特征權(quán)重變化趨勢(shì)基本與圖3相符合。從圖中可以看出,隨著迭代次數(shù)增加,特征C使“謝蘭英”標(biāo)記為B的權(quán)重越來(lái)越大,說(shuō)明特征C影響著正確的標(biāo)記結(jié)果。而不引入管領(lǐng)詞特征時(shí),對(duì)應(yīng)的特征模板%x[-2,0]/%x[-1,0]/%x[0,0](接下來(lái)皆叫特征模板C1),也能指導(dǎo)學(xué)習(xí)“說(shuō)”與“謝蘭英”之間的關(guān)系,此時(shí),特征模板C1權(quán)重隨迭代次數(shù)變化值如圖4所示。
圖4 不引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖
通過(guò)圖3可知,CRF的特征模板可以指定學(xué)習(xí)上下文詞語(yǔ)之間的關(guān)系,管領(lǐng)詞“說(shuō)”對(duì)于引用開(kāi)始位置“謝蘭英”有指示作用,而特征模板可以指定學(xué)習(xí)“說(shuō)”與“謝蘭英”的特征關(guān)系,并且特征權(quán)重在學(xué)習(xí)的過(guò)程中會(huì)逐漸變大,學(xué)習(xí)到其中的內(nèi)部規(guī)律。通過(guò)圖3、圖4可知,對(duì)于CRF來(lái)說(shuō),不管是否引入管領(lǐng)詞特征,都可以通過(guò)特征模板直接或間接地學(xué)習(xí)管領(lǐng)詞的管領(lǐng)作用,所以總體上效果提升不大。
引語(yǔ)識(shí)別是進(jìn)行小句復(fù)合體乃至篇章分析的重要環(huán)節(jié)。本文提出了基于序列標(biāo)注的引語(yǔ)識(shí)別任務(wù),并通過(guò)CRF、BLSTM-CRF兩種方法分別對(duì)引語(yǔ)進(jìn)行了識(shí)別實(shí)驗(yàn),取得了初步效果。同時(shí)測(cè)試結(jié)果表明,引入管領(lǐng)詞特征對(duì)引語(yǔ)識(shí)別具有重要作用。
目前,本文提出的方法沒(méi)有區(qū)分引語(yǔ)中嵌套的引語(yǔ),例如:
例7他說(shuō):孔子說(shuō),三人行,必有我?guī)煛?自擬)
其中“三人行,必有我?guī)煛笔且镁洹翱鬃诱f(shuō),三人行,必有我?guī)?。”中嵌套的引用句。如何從引用句中遞歸地識(shí)別引用句是下一步的研究工作。另外,如何進(jìn)一步提高CRF、BLSTM-CRF對(duì)間接引語(yǔ)的識(shí)別性能,也是今后的研究?jī)?nèi)容之一。