王 揚(yáng) 鄭 陽(yáng) 楊 青 王旭強(qiáng) 田雨婷
(國(guó)網(wǎng)天津市電力公司信息通信公司 天津 300310)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,各個(gè)行業(yè)都產(chǎn)生并累積了豐富的數(shù)據(jù)資源。其中作為語(yǔ)言載體的文本數(shù)據(jù)占據(jù)了很大的比重,這些數(shù)據(jù)普遍存在于各行各業(yè)中,包含著大量的有用信息。然而,文本信息一般是以非結(jié)構(gòu)化或者半結(jié)構(gòu)化文本的形式呈現(xiàn)的,無(wú)法使用統(tǒng)計(jì)分析工具對(duì)其中蘊(yùn)含的信息進(jìn)行分析和挖掘,人工篩選又花費(fèi)大量的時(shí)間[1]。因此,如何高效準(zhǔn)確地從眾多的文本數(shù)據(jù)中進(jìn)行信息抽取(Informat-ion Extraction)是一個(gè)值得研究的問(wèn)題。信息抽取主要是指從一個(gè)給定的文本中識(shí)別并提取出具有一定現(xiàn)實(shí)意義的或者感興趣的子序列結(jié)構(gòu)化的內(nèi)容,是很多自然語(yǔ)言處理任務(wù)中基礎(chǔ)但又很重要的一環(huán)[2]。
信息抽取技術(shù)的發(fā)展也使得很多文本、Web系統(tǒng)等應(yīng)用程序從中受益,例如使用基于Web的信息抽取系統(tǒng)來(lái)抽取多種多樣的信息如招聘信息、新聞信息和技術(shù)成果信息等[3-5]。除此之外,信息抽取技術(shù)在一些重要的應(yīng)用領(lǐng)域中也得到了充分的應(yīng)用。駱軼姝等[6]使用信息抽取方法來(lái)處理非結(jié)構(gòu)化的甲狀腺病史文檔,實(shí)現(xiàn)了對(duì)甲狀腺病史的結(jié)構(gòu)化,并將結(jié)構(gòu)化的結(jié)果通過(guò)RDF格式進(jìn)行了存儲(chǔ),對(duì)該疾病的診斷有著重要的意義;丁晟春等[7]使用信息抽取技術(shù)來(lái)實(shí)現(xiàn)對(duì)動(dòng)物衛(wèi)生事件輿情信息中時(shí)間、地點(diǎn)、疫病名稱、動(dòng)物數(shù)量和應(yīng)對(duì)措施等內(nèi)容的抽取,提高了動(dòng)物衛(wèi)生領(lǐng)域輿情監(jiān)測(cè)的效率;李艷[8]基于信息抽取技術(shù)來(lái)提取案件描述文本中的有用信息,有效節(jié)約了相關(guān)人員對(duì)過(guò)往案件的查閱過(guò)程中花費(fèi)的時(shí)間和精力。
現(xiàn)有的信息抽取工作多是對(duì)于處在同級(jí)語(yǔ)義的信息抽取,如在新聞文章中抽取其中存在的命名實(shí)體,如人名(PER)、地名(LOC)、組織機(jī)構(gòu)名(ORG)等[9],被抽取出的信息通常用三元組
然而,在許多實(shí)際問(wèn)題中,文本內(nèi)容具有層次嵌套的邏輯結(jié)構(gòu)。如圖1所示,其中:(a)是無(wú)層次結(jié)構(gòu)的信息抽取問(wèn)題;(b)則包含了嵌套的層次信息。
圖1 帶層次結(jié)構(gòu)與無(wú)層次結(jié)構(gòu)信息抽取示例
現(xiàn)有的信息抽取算法只能識(shí)別到文本中存在的某一層的信息而丟棄其他層級(jí)存在的有用信息,進(jìn)而喪失了使用價(jià)值。對(duì)于該問(wèn)題,一個(gè)普遍的做法是依次使用多個(gè)標(biāo)注模型,將由一個(gè)標(biāo)注模型得到的結(jié)果送入下一個(gè)標(biāo)注模型來(lái)進(jìn)行下一層的信息抽取,但這種方法無(wú)疑會(huì)導(dǎo)致誤差的傳播[10],上一層標(biāo)注的錯(cuò)誤結(jié)果傳入下一層往往會(huì)導(dǎo)致更為嚴(yán)重的錯(cuò)誤。
基于上述問(wèn)題以及相關(guān)研究工作,本文以具有兩層語(yǔ)義結(jié)構(gòu)的貨運(yùn)航運(yùn)郵件文本數(shù)據(jù)為研究對(duì)象,結(jié)合其層次性的特點(diǎn),構(gòu)建基于聯(lián)合標(biāo)注的層級(jí)信息抽取方法。同時(shí)對(duì)高層的盤塊信息和底層的基本信息進(jìn)行建模,并基于聯(lián)合學(xué)習(xí)方法融合不同層級(jí)的標(biāo)注結(jié)果,實(shí)現(xiàn)對(duì)層級(jí)信息的抽取,有效地避免了依次使用多個(gè)標(biāo)注模型來(lái)處理層級(jí)信息所導(dǎo)致的誤差傳遞的問(wèn)題。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本文方法在該任務(wù)上具有更好的有效性。
信息抽取是自然語(yǔ)言處理領(lǐng)域內(nèi)一個(gè)重要的子領(lǐng)域,迄今為止相關(guān)領(lǐng)域的學(xué)者們已經(jīng)進(jìn)行了很多研究。在這些研究工作中,信息抽取的方法大致可以分為基于規(guī)則的方法、基于統(tǒng)計(jì)學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三大類。
基于規(guī)則的信息抽取技術(shù)是目前應(yīng)用較為廣泛和發(fā)展比較成熟的技術(shù),其主要分為基于詞典和基于指定規(guī)則兩個(gè)類別。
基于詞典的方法首先構(gòu)建了一個(gè)模式詞典,從而使用該詞典來(lái)從未標(biāo)注的新文本中抽取需要的信息。比較出名的CRYSTAL系統(tǒng)[11]便是基于這種方法。這種方法也被叫做基于模板的方法,其核心在于如何學(xué)習(xí)出可用于識(shí)別文本中相關(guān)信息的模式字典。
不同于基于詞典的方法, 基于指定規(guī)則的方法使用一些通用規(guī)則而不是詞典來(lái)從文本中提取信息。其中一種比較常用的方法是學(xué)習(xí)要提取的信息邊界的句法或者語(yǔ)法規(guī)則,如判別出信息周圍可能存在的特殊詞組等作為界定?;裟鹊萚12]對(duì)巴西泥石流、俄羅斯客輪沉沒(méi)、印尼火山爆發(fā)等三種災(zāi)難追蹤事件報(bào)道進(jìn)行了相關(guān)研究,并構(gòu)建了54條文本抽取規(guī)則來(lái)進(jìn)行災(zāi)難事件的信息抽取。丁君軍等[13]通過(guò)大量的閱讀、分析,歸納出了對(duì)應(yīng)的規(guī)則來(lái)完成了對(duì)《情報(bào)學(xué)報(bào)》中學(xué)術(shù)概念的抽取。
基于規(guī)則模板的方法同樣存在很大的缺陷,不僅需要依靠大量的專家來(lái)編寫(xiě)規(guī)則或模板,覆蓋的領(lǐng)域范圍有限,而且很難適應(yīng)數(shù)據(jù)變化的新需求。
由于基于規(guī)則方法的缺點(diǎn),一些經(jīng)典的機(jī)器學(xué)習(xí)模型如支持向量機(jī)[14]、隱馬爾可夫模型[15]、條件隨機(jī)場(chǎng)[16]和決策樹(shù)[17]、最大熵模型[18]等逐漸被提出用于信息抽取。Mayfield等[14]利用支持向量機(jī)在手動(dòng)提取的數(shù)據(jù)集特征上進(jìn)行訓(xùn)練,在英文命名實(shí)體識(shí)別數(shù)據(jù)集上得到了84.67%的F1值,超越了之前的方法。Zhou等[15]提出一個(gè)基于HMM的命名實(shí)體識(shí)別系統(tǒng),融合了大小寫(xiě)、數(shù)字等簡(jiǎn)單單詞特征以及句子內(nèi)部語(yǔ)義特征等,在MUC-6和MUC-7的英語(yǔ)實(shí)體識(shí)別數(shù)據(jù)集上分別得到了96.6%和94.1%的F1值。Lafferty等[16]提出了CRFs模型,具有將過(guò)去和未來(lái)的特征相結(jié)合、基于動(dòng)態(tài)規(guī)劃的高效訓(xùn)練和解碼等優(yōu)點(diǎn)。
基于統(tǒng)計(jì)學(xué)習(xí)模型的信息抽取方法取得了較好的表現(xiàn),但是嚴(yán)重依賴于人工提取的特征。而近些年來(lái)出現(xiàn)的神經(jīng)網(wǎng)絡(luò)算法具有較強(qiáng)的學(xué)習(xí)能力以及自動(dòng)抽取特征的能力,很適合用到信息抽取的任務(wù)中。
Collobert等[19]使用CNN作為特征提取器,對(duì)詞向量表示序列進(jìn)行建模,最終用CRF模型預(yù)測(cè)序列的標(biāo)簽。Huang等[20]首次將BiLSTM-CRF模型應(yīng)用到信息抽取中,雙向LSTM即BiLSTM能夠有效利用過(guò)去和將來(lái)的輸入特征,CRF能夠建模句子級(jí)別的標(biāo)簽信息,并與LSTM、BiLSTM和LSTM-CRF等退化模型結(jié)構(gòu)作對(duì)比,在詞性標(biāo)注、組塊分析和實(shí)體識(shí)別中取得了較好的結(jié)果。進(jìn)一步地,Ma等[21]提出了BiLSTM-CNN-CRF模型,首先使用CNN建模字符信息,將CNN建模得到的字符級(jí)別特征與預(yù)先訓(xùn)練的詞向量相結(jié)合,之后送入BiLSTM-CRF中,取得了更好的實(shí)驗(yàn)效果,且提出的模型是完全端到端的,不需要任何的特征工程和數(shù)據(jù)預(yù)處理手段。
在層次級(jí)信息抽取任務(wù)中,對(duì)任意文檔d可以將其按句分割為d={s1,s2,…,sT},T代表該文檔所包含的句子的個(gè)數(shù)。d中的任意句子si={wi1,wi2,…,wiN},N為該句中的單詞數(shù)。該任務(wù)首先對(duì)句子級(jí)信息進(jìn)行建模,得到句子級(jí)的高層標(biāo)簽TAG_HIGH,然后結(jié)合句子級(jí)標(biāo)簽TAG_HIGH來(lái)對(duì)單詞級(jí)的信息進(jìn)行建模,得到單詞級(jí)的低層標(biāo)簽TAG_LOW,進(jìn)而抽取出層級(jí)的語(yǔ)義信息四元組:
考慮到層級(jí)語(yǔ)義數(shù)據(jù)所具有的特點(diǎn),本文提出基于聯(lián)合序列建模的層級(jí)信息抽取方法。首先,使用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)建模每一個(gè)單詞的字符表示ci。然后拼接預(yù)訓(xùn)練好的單詞的詞嵌入向量ei作為單詞級(jí)的向量表示wi。再將單詞的向量表示wi以句子為單位送入雙向LSTM中進(jìn)行編碼得到編碼后的單詞級(jí)表示向量ht,并結(jié)合注意力機(jī)制得到句子級(jí)的特征表示si。最終使用CRF模型完成對(duì)單詞級(jí)和句子級(jí)的信息的標(biāo)注,結(jié)合兩層的標(biāo)注結(jié)果進(jìn)而抽取出文檔中的關(guān)鍵信息。本文模型結(jié)構(gòu)如圖2所示。
圖2 基于聯(lián)合學(xué)習(xí)的層級(jí)信息抽取方法
接下來(lái)本文將沿著自下而上的方向詳細(xì)介紹模型的具體結(jié)構(gòu)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是近些年來(lái)逐步興起的一種人工神經(jīng)網(wǎng)絡(luò)模型,具有很強(qiáng)的特征提取能力,在自然語(yǔ)言處理和圖像識(shí)別任務(wù)中得到了廣泛的應(yīng)用。在近幾年的研究工作[22-23]中更是證明了CNN模型能夠有效地從單詞的字符中提取出形態(tài)學(xué)特征,如一個(gè)單詞的前綴、后綴等,因此本文選用CNN模型提取單詞的字符特征。其結(jié)構(gòu)如圖3所示。
圖3 基于CNN的字符特征提取模型
其中每一個(gè)單詞wi可由一個(gè)字符表示矩陣表示,矩陣的每一行為字符的嵌入表示,矩陣的行數(shù)為該單詞具有的字符的個(gè)數(shù)。對(duì)該矩陣進(jìn)行卷積和最大池化操作后便得到了該單詞對(duì)應(yīng)的字符表示向量ci,接下來(lái)拼接預(yù)訓(xùn)練的GloVe[24]詞向量ei作為該單詞的向量表示:
wi=[ei;ci]
(1)
在完成字符級(jí)的特征提取后,得到了由字符級(jí)特征和預(yù)訓(xùn)練詞向量拼接的單詞的向量表示wi,接下來(lái)則需要對(duì)句子中的時(shí)序關(guān)系進(jìn)行建模。而在時(shí)序關(guān)系的建模上,循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)及其變體模型(LSTM、GRU等)通常具有很大的優(yōu)勢(shì)。循環(huán)神經(jīng)網(wǎng)絡(luò)通??梢园凑諘r(shí)間步來(lái)展開(kāi),其基本結(jié)構(gòu)如圖4所示。
圖4 循環(huán)神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)
其中:xt為t時(shí)刻的輸入向量;Ot為t時(shí)刻的輸出向量,ot=softmax(Vst)為t時(shí)刻的輸出,表示預(yù)測(cè)標(biāo)簽的概率分布。ht時(shí)刻的隱藏層狀態(tài)。ht可以通過(guò)上一時(shí)刻的狀態(tài)ht-1以及當(dāng)前時(shí)刻的輸入xt來(lái)計(jì)算:
ht=f(Uxt+Wst-1)
(2)
式中:f()為tanh函數(shù);W、U、V為網(wǎng)絡(luò)模型學(xué)習(xí)的參數(shù)。
在實(shí)際應(yīng)用中,循環(huán)神經(jīng)網(wǎng)絡(luò)通常會(huì)存在梯度消失和梯度爆炸的問(wèn)題,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)則可以有效緩解該問(wèn)題,因此一般會(huì)選擇使用LSTM網(wǎng)絡(luò)來(lái)進(jìn)行對(duì)時(shí)序關(guān)系的建模。LSTM依靠三個(gè)部分來(lái)完成對(duì)細(xì)胞狀態(tài)的保護(hù)和處理,分別為輸入門、遺忘門和輸出門,其中的門結(jié)構(gòu)均是通過(guò)Sigmoid函數(shù)以及按位乘運(yùn)算操作來(lái)實(shí)現(xiàn)的。在時(shí)間序列的第t個(gè)時(shí)間段,長(zhǎng)短期記憶網(wǎng)絡(luò)的各個(gè)部分的計(jì)算方法如下:
ft=σ(Wf·[ht-1;xt]+bf)
(3)
it=σ(Wi·[ht-1;xt]+bi)
(4)
(5)
(6)
ot=σ(Wo·[ht-1;xt]+bo)
(7)
ht=ot⊙tanh(Ct)
(8)
雙向LSTM即是在原來(lái)從左往右的模型基礎(chǔ)上再加一個(gè)從右到左的LSTM,但是輸入是共享的,輸出也是由前向隱藏狀態(tài)和后向隱藏狀態(tài)共同決定的。雙向LSTM之所以被提出來(lái)是因?yàn)樵谛蛄薪V?,?dāng)前的輸出不僅與前面的信息有關(guān)系,也與后面的信息有關(guān)系,使用LSTM時(shí)隱藏層狀態(tài)ht只能從過(guò)去的輸入中獲得信息,無(wú)法獲得該輸入之后的信息。在實(shí)體識(shí)別、組塊分析等信息抽取任務(wù)上使用雙向模型的效果要比單向的要好。
因此,本文選用BiLSTM來(lái)對(duì)單詞級(jí)的特征進(jìn)行建模,對(duì)任意句子s中的單詞表示w1,w2,…,wN送入BiLSTM模型中:
(9)
(10)
(11)
注意力機(jī)制由人的視覺(jué)注意力啟發(fā)而來(lái),通常人的眼睛在觀察事物的時(shí)候會(huì)集中注意力在一些比較重要的部分而忽略掉一些沒(méi)有用的細(xì)節(jié),在理解一篇文章時(shí)總是能夠抓住最為重要的段落、句子或詞語(yǔ),這就是注意力機(jī)制[25]。該機(jī)制可以用于建模長(zhǎng)句中的語(yǔ)義關(guān)系,在自然語(yǔ)言處理任務(wù)中得到了廣泛的應(yīng)用。
在經(jīng)過(guò)BiLSTM層之后,每個(gè)詞wi都被表示為隱藏狀態(tài)ht,融合了句子內(nèi)部的上下文語(yǔ)義信息。為了獲得文檔的高層語(yǔ)義信息,需要建模句子級(jí)的特征表示并對(duì)其進(jìn)行標(biāo)注。對(duì)任意句子s,有s={h1,h2,…,hN},其中ht為單詞向量經(jīng)BiLSTM編碼后的結(jié)果。若將各單詞的特征表示進(jìn)行簡(jiǎn)單的拼接,則會(huì)忽視多個(gè)單詞對(duì)句子語(yǔ)義的影響程度大小,可能會(huì)引入一定的噪聲,影響句子級(jí)特征表示的結(jié)果。因此本文引入了注意力機(jī)制,對(duì)當(dāng)前單詞ht與句子中的所有詞進(jìn)行對(duì)齊模型計(jì)算,最終按權(quán)重加權(quán)求和,得到富含相關(guān)語(yǔ)義信息的單詞的新表示zt:
(12)
式中:αi,t表達(dá)的是ht與hi的相關(guān)程度。
(13)
(14)
式中:M為權(quán)重,是注意力模型要學(xué)習(xí)的參數(shù)。通過(guò)上文所計(jì)算的注意力值,得到了具有不同權(quán)重的新的單詞表示zt,以其均值作為句子的特征表示:
(15)
式中:T為句子中單詞的個(gè)數(shù)。在以上的部分中得到了單詞級(jí)的特征表示hi以及句子級(jí)的特征表示si,在下面的部分中使用CRF模型分別進(jìn)行句子級(jí)和單詞級(jí)的標(biāo)注。
在序列標(biāo)注以及廣泛的結(jié)構(gòu)化預(yù)測(cè)任務(wù)中,對(duì)一個(gè)給定的輸入單詞序列,考慮其相鄰的單詞的標(biāo)簽關(guān)系并解碼出全局最優(yōu)的標(biāo)簽序列是很有必要的,而條件隨機(jī)場(chǎng)(CRF,Conditional Random Field)能很好地捕獲序列的局部結(jié)構(gòu)并進(jìn)行最優(yōu)的全局解碼,因此被廣泛應(yīng)用到序列標(biāo)注的任務(wù)中。
對(duì)于給定的輸入序列x={x1,x2,…,xn},其中xi為第i個(gè)單詞的向量表示,y={y1,y2,…,yn}為輸入序列x對(duì)應(yīng)的標(biāo)簽,鏈?zhǔn)紺RF定義了對(duì)于給定的輸入序列x其標(biāo)簽序列y的概率:
(16)
式中:Y(x)為所有可能的標(biāo)簽序列的集合;ψi(y′,y,x)為勢(shì)函數(shù)。ψi(y′,y,x)定義為:
(17)
(18)
本文分別使用CRF模型完成對(duì)句子級(jí)和單詞級(jí)的標(biāo)注,其中對(duì)句子級(jí)標(biāo)注模型,使用句子級(jí)特征表示si作為輸入特征,單詞級(jí)標(biāo)注使用單詞級(jí)特征表示hi并拼接其所在句子的特征向量si作為表示特征,以引入句子的語(yǔ)義信息。
(19)
(20)
式中:LH為對(duì)句子序列進(jìn)行標(biāo)注得到的損失;LL為對(duì)單詞級(jí)的序列進(jìn)行標(biāo)注得到的損失;WH、WL、bL和bH為待學(xué)習(xí)權(quán)重矩陣和偏置向量。
由此,可以得到聯(lián)合標(biāo)注模型的總損失函數(shù):
L=LH+λLL
(21)
式中:λ為超參數(shù),用于調(diào)節(jié)聯(lián)合模型在訓(xùn)練時(shí)優(yōu)先側(cè)重的傾向。在本任務(wù)中,對(duì)高層標(biāo)簽的標(biāo)注相對(duì)而言較為重要,實(shí)驗(yàn)時(shí)設(shè)定λ值為0.7。
為了驗(yàn)證本文模型的有效性,本文使用具有兩層結(jié)構(gòu)的貨運(yùn)航運(yùn)郵件來(lái)進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)層次級(jí)結(jié)構(gòu)如圖5所示。
圖5 數(shù)據(jù)的層級(jí)結(jié)構(gòu)
數(shù)據(jù)集共包含3 917個(gè)郵件文本,每個(gè)郵件文本中包含一個(gè)或多個(gè)盤塊信息,需要抽取出來(lái)的盤塊信息有船盤、貨盤、期租盤三種,每個(gè)盤塊占據(jù)郵件的一行或者多行。三類盤塊中包含了多類字段信息,如:船盤內(nèi)包含了船名、載重量、航速、建造船廠和控船方等;貨盤中主要字段有貨種、貨量、租家和受載時(shí)間等;期租盤包含的主要字段有租家名稱、交船時(shí)間/地點(diǎn)和租期等。三類盤塊一共涵蓋了118類信息,其中34類信息在多類盤塊中重復(fù)出現(xiàn)。
為驗(yàn)證所提出方法的性能,本文將該模型與其他幾種方法的實(shí)驗(yàn)效果進(jìn)行對(duì)比,所用的對(duì)比算法如下:
(1) 層級(jí)BiLSTM-CNN-CRF。使用兩層單獨(dú)的BiLSTM-CNN-CRF模型進(jìn)行層級(jí)信息抽取,第一層提取盤塊級(jí)信息,然后使用不同的BiLSTM-CNN-CRF模型對(duì)不同類別的盤塊內(nèi)的數(shù)據(jù)進(jìn)行抽取。
(2) BiLSTM-CNN-CRF。在本文實(shí)驗(yàn)中,使用高層標(biāo)簽與低層標(biāo)簽拼接的方法得到包含了層次信息的標(biāo)簽,如船盤中的船名被標(biāo)記為“B-船盤|B-船名”,使用BiLSTM-CNN-CRF模型進(jìn)行標(biāo)注。
(3) BiLSTM-CRF。標(biāo)簽方式同上,不使用CNN來(lái)提取字符級(jí)特征信息,使用BiLSTM直接對(duì)預(yù)訓(xùn)練的單詞向量進(jìn)行編碼。
(4) LSTM-CNN-CRF。標(biāo)簽方式同上,使用單向LSTM來(lái)建模特征表示,其他設(shè)定與BiLSTM-CNN-CRF模型一致。
本文的方法獨(dú)立地進(jìn)行高層和低層的信息抽取,并使用聯(lián)合學(xué)習(xí)方法進(jìn)行信息交互促進(jìn)兩層標(biāo)注任務(wù)的相互影響,最終拼接兩層的標(biāo)簽來(lái)提取層級(jí)信息。
基于3.3節(jié)的實(shí)驗(yàn)參數(shù)設(shè)定,本文在貨運(yùn)航運(yùn)數(shù)據(jù)集上進(jìn)行層級(jí)信息抽取對(duì)比實(shí)驗(yàn),并使用精確率、召回率、F1值作為評(píng)價(jià)指標(biāo),其值的計(jì)算方式如表1所示,評(píng)價(jià)準(zhǔn)則均是越大越好。
表1 評(píng)價(jià)指標(biāo)
在層級(jí)信息抽取問(wèn)題中,可以通過(guò)真實(shí)的四元組與模型預(yù)測(cè)出的四元組進(jìn)行比對(duì),進(jìn)而求出TP、FP、TN、FN等值。其中:TP代表真實(shí)存在該四元組,模型也預(yù)測(cè)出了該四元組的個(gè)數(shù);FN代表真實(shí)存在該四元組,但模型沒(méi)有預(yù)測(cè)出來(lái)的個(gè)數(shù);其他兩類類推。
為測(cè)試預(yù)訓(xùn)練詞向量對(duì)模型性能的影響,本文首先使用不同的詞向量表示進(jìn)行實(shí)驗(yàn),以9 ∶1的比例劃分訓(xùn)練集和測(cè)試集,評(píng)價(jià)指標(biāo)使用F1值,實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同詞向量表示的實(shí)驗(yàn)結(jié)果
可以看出,GloVe詞向量表示方法相對(duì)隨機(jī)初始化詞向量和Word2vec詞向量有著更好的性能提升,因此本文選用了GloVe詞向量進(jìn)行后續(xù)的實(shí)驗(yàn),以9 ∶1的比例劃分訓(xùn)練集和測(cè)試集,并綜合使用精確率、召回率和F1值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表3所示。
表3 貨運(yùn)航運(yùn)數(shù)據(jù)集層級(jí)信息抽取結(jié)果
可以看出,本文模型具有優(yōu)于其他對(duì)比方法的性能,驗(yàn)證了其有效性。
本文分別以0.1、0.3、0.5、0.7和0.9等比例劃分訓(xùn)練集和測(cè)試集,以此來(lái)分別檢驗(yàn)在不同訓(xùn)練集比例下測(cè)試模型的效果,評(píng)價(jià)指標(biāo)使用F1值,實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同比例劃分?jǐn)?shù)據(jù)集實(shí)驗(yàn)結(jié)果
可以看出,無(wú)論是在何種比例劃分的測(cè)試集上,本文模型都具有優(yōu)于其他對(duì)比方法的效果,在使用較小的訓(xùn)練集的情況下,本文方法依然具有較高的F1值,能有效應(yīng)對(duì)實(shí)際應(yīng)用中訓(xùn)練數(shù)據(jù)較少的情況。
除上述實(shí)驗(yàn)外,本文還進(jìn)一步分析了模型對(duì)參數(shù)的敏感程度。在本文方法中使用了CNN模型來(lái)提取出字符級(jí)的語(yǔ)義表示,然后再拼接預(yù)訓(xùn)練詞向量作為其他模塊的輸入,其字符級(jí)特征的提取在本文方法中扮演著重要的角色。因此這里主要研究了用于提取字符級(jí)特征的CNN模型的參數(shù)對(duì)于模型效果的影響。圖6展示了CNN的卷積核個(gè)數(shù)從16變化到512的過(guò)程中模型在該數(shù)據(jù)集上信息抽取性能F1值的變化情況。
圖6 分類性能隨卷積核個(gè)數(shù)變化情況
可以看出,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)的卷積核的個(gè)數(shù)增加時(shí),模型的分類性能在整體趨勢(shì)上有所上升,但當(dāng)卷積神經(jīng)網(wǎng)絡(luò)的卷積核的個(gè)數(shù)過(guò)多時(shí),模型的性能反而會(huì)略微下降。原因是卷積核的個(gè)數(shù)過(guò)多,神經(jīng)網(wǎng)絡(luò)模型過(guò)于復(fù)雜,很容易處于過(guò)擬合的狀態(tài),不能很好地完成預(yù)測(cè)任務(wù)。因而在本文實(shí)驗(yàn)中使用256個(gè)卷積核進(jìn)行句子級(jí)特征的提取,以達(dá)到最佳分類效果。
為分析本文模型的實(shí)際效果同樣進(jìn)行了信息抽取的實(shí)例展示,使用本文模型與相對(duì)其他方法效果更好的BiLSTM-CNN-CRF對(duì)圖7所示的郵件文本進(jìn)行信息抽取。
圖7 用于信息抽取的文本示例
該示例文本由四行組成,其中:第一行為無(wú)用信息;第二行、第三行為一個(gè)貨物盤塊;第四行為一個(gè)船只盤塊,其具體真實(shí)標(biāo)簽與模型預(yù)測(cè)結(jié)果如圖8所示。
圖8 示例郵件文本信息抽取結(jié)果
可以看出,本文模型相對(duì)于BiLSTM-CNN-CRF模型能更好地結(jié)合高層級(jí)和低層級(jí)的語(yǔ)義信息,進(jìn)而做出更為正確的預(yù)測(cè),有效地提升了層級(jí)信息抽取的正確率。
在大數(shù)據(jù)的背景下,針對(duì)層級(jí)文本數(shù)據(jù)的信息抽取問(wèn)題在很多研究課題與實(shí)際應(yīng)用中都占據(jù)十分重要的地位,具有很重要的現(xiàn)實(shí)意義。本文以貨運(yùn)航運(yùn)數(shù)據(jù)為研究對(duì)象,構(gòu)建基于聯(lián)合標(biāo)注的層級(jí)信息抽取方法,對(duì)不同層級(jí)的信息獨(dú)立進(jìn)行抽取,并結(jié)合多任務(wù)學(xué)習(xí)的方法進(jìn)行聯(lián)合訓(xùn)練。最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了細(xì)致的分析與對(duì)比,證明了本文模型的有效性。本文提出的聯(lián)合標(biāo)注的層級(jí)信息抽取方法為面向?qū)蛹?jí)文本數(shù)據(jù)的信息抽取任務(wù)提供了一定的思路,通過(guò)大量的實(shí)驗(yàn)以及結(jié)果分析為后續(xù)的研究工作提供了理論依據(jù)和實(shí)踐基礎(chǔ)。
隨著深度學(xué)習(xí)理論的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)方法在眾多任務(wù)中均展現(xiàn)出較好的實(shí)驗(yàn)效果。目前本文所使用的模型均為淺層的神經(jīng)網(wǎng)絡(luò)模型,并沒(méi)有涉及到過(guò)于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),可能無(wú)法達(dá)到最優(yōu)的推斷性能。因此在后續(xù)的研究工作中將對(duì)該框架做進(jìn)一步的改進(jìn),使用更為優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型,如使用Transformer模型等,以期達(dá)到更好的推斷效果。